记一次 .NET某上位视觉程序 离奇崩溃分析

devtools/2024/10/15 18:23:39/

一:背景

1. 讲故事

前段时间有位朋友找到我,说他们有一个崩溃的dump让我帮忙看下怎么回事,确实有太多的人在网上找各种故障分析最后联系到了我,还好我一直都是免费分析,不收取任何费用,造福社区。

话不多说,既然有 dump 来了,那就上 windbg 说话吧。

二:WinDbg 分析

1. 为什么会崩溃

说实话windbg非常强大,双击打开dump就能第一时间帮你显示出简略的异常信息,输出如下:


This dump file has an exception of interest stored in it.
The stored exception information can be accessed via .ecxr.
(bf8.5dc4): Access violation - code c0000005 (first/second chance not available)
For analysis of this file, run !analyze -v
clr!WKS::gc_heap::mark_object_simple1+0x220:
00007ffb`380453c4 833a00          cmp     dword ptr [rdx],0 ds:00007ffa`35451300=????????

从卦中又看到了经典的 mark_object_simple1 方法,这个方法是GC用来做对象标记之用的,所以大概率又是托管堆损坏,真是无语了,接下来用 !verifyheap 检查下托管堆。


0:083> !verifyheap
object 00000218e96963d8: bad member 00000218E9696450 at 00000218E9696420
Last good object: 00000218E96963C0.
Could not request method table data for object 00000218E9696450 (MethodTable: 00007FFA35451300).
Last good object: 00000218E96963D8.

一看这卦就很不吉利,真的是有对象的mt是不对的,至此我们把崩溃的直接原因给找到了。

2. 为什么对象损坏了

要找到这个答案就需要深挖 00000218e96963d8 对象,分别使用 !do 命令以及 dp 来观察内存地址。


0:083> !do 00000218e96963d8
Name:        System.Threading.Tasks.Task+DelayPromise
MethodTable: 00007ffb3542b3e8
EEClass:     00007ffb3567c7c0
Size:        120(0x78) bytes
File:        C:\Windows\Microsoft.Net\assembly\GAC_64\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
Fields:
...
00007ffb35451300  40035d5       48 ...m.Threading.Timer  0 instance 00000218e9696450 Timer0:083> dp 00000218e9696450 L6
00000218`e9696450  00007ffa`35451301 00000000`00000000
00000218`e9696460  00000218`e96964c8 00000000`00000000
00000218`e9696470  00007ffb`353e4b51 00000218`e9696368

仔细观察卦中对象 00000218e9696450 所显示的mt,你会发现一个是 00007ffb35451300,一个是 00007ffa35451301,很显然前者是对的,后者是错的,可以分别用 !dumpmt 做个验证。


0:083> !dumpmt 00007ffb35451300
EEClass:         00007ffb356942f0
Module:          00007ffb353b1000
Name:            System.Threading.Timer
mdToken:         0000000002000504
File:            C:\Windows\Microsoft.Net\assembly\GAC_64\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
BaseSize:        0x20
ComponentSize:   0x0
Slots in VTable: 23
Number of IFaces in IFaceMap: 10:083> !dumpmt 00007ffa35451301
00007ffa35451301 is not a MethodTable

细心的朋友会发现虽然两个mt地址不一样,但已经非常相近,看样子又是一例经典的bit位翻转,我去,用 .formats 转成二进制观察一下,截图如下:

从卦中可以清晰的看到当前地址有两个 bit 的翻转,分别是第0位和第32位,接下来就要洞察为什么会有两个bit位的翻转?

3. 真的存在两个bit位翻转吗

接下来我们逐一来聊一下。

  1. bit 0 为什么会翻转

熟悉 coreclr 底层的朋友应该知道,gc 在标记的过程中会给 mt 的第0位设置为1,表示当前对象在深度优先中已经标记过,防止重复标记,当然这个也是有源码作证的,简化后的代码如下:


inline BOOL gc_heap::gc_mark(uint8_t* o, uint8_t* low, uint8_t* high, int condemned_gen)
{if ((o >= low) && (o < high)){BOOL already_marked = marked(o);if (already_marked){return FALSE;}set_marked(o);return TRUE;}
}#define marked(i) header(i)->IsMarked()BOOL IsMarked() const
{return !!(((size_t)RawGetMethodTable()) & GC_MARKED);
}

有了这段源码,这个 bit 为什么为 1 就能轻松的解释了,所以这个翻转是一个正常情况。

  1. bit 32 为什么会翻转

这个是我无法解释的,也正是因为这个 bit32 的翻转导致 gc 认为这个 obj 是一个损坏的对象,到底是什么原因呢?民间众说纷纭,在我的过往分析旅程中我已见过两例,但我不敢确定自己又遇到了辐射类的奇葩情况,所以也第一时间找朋友确认程序周边是否存在辐射环境。

朋友反馈过来附近有 伺服电机 类,说实话工控的东西我是真的不太懂,只能上网搜搜这玩意是否有辐射,截图如下:

到底是不是这玩意导致的,其实我心里也没底,跟朋友的沟通后说是只出现过一次,这就更加玄乎了。

不管怎么说,我只能给出如下两个方案:

  • 上 ECC 纠错内存
  • 远离辐射环境

三:总结

在大工控领域里,这是我见过第三例bit位翻转导致的程序崩溃,太无语了,恶魔到底是不是旁边的 伺服电机 ? 希望领域内的同行们留言讨论下,让我长长见识,感谢!


http://www.ppmy.cn/devtools/58774.html

相关文章

钉钉扫码登录第三方

钉钉文档 实现登录第三方网站 - 钉钉开放平台 (dingtalk.com) html页面 将html放在 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>登录</title>// jquery<script src"http://code.jqu…

百度文心4.0 Turbo开放,领跑国内AI大模型赛道!

百度文心4.0 Turbo开放&#xff0c;领跑国内AI大模型赛道&#xff01; 前言 文心一言大模型 就在7月5日&#xff0c;在2024世界人工智能大会 (WAIC) 上&#xff0c;百度副总裁谢广军宣布文心大模型4.0 Turbo正式向企业客户全面开放&#xff01;这一举动直接引发了业界的关注。那…

RabbitMQ中常用的三种交换机【Fanout、Direct、Topic】

目录 1、引入 2、Fanout交换机 案例&#xff1a;利用SpringAMQP演示Fanout交换机的使用 3、Direct交换机 案例&#xff1a;利用SpringAMQP演示Direct交换机的使用 4、Topic交换机 案例&#xff1a;利用SpringAMQP演示Topic交换机的使用 1、引入 真实的生产环境都会经过e…

如何压缩pdf文件大小,怎么压缩pdf文件大小

在数字化时代&#xff0c;pdf文件因其稳定的格式和跨平台兼容性&#xff0c;成为了工作与学习中不可或缺的一部分。然而&#xff0c;随着pdf文件内容的丰富&#xff0c;pdf文件的体积也随之增大&#xff0c;给传输和存储带来了不少挑战。本文将深入探讨如何高效压缩pdf文件大小…

license系统模型设计使用django models

User (用户)License (许可证)Product (产品)LicenseAssignment (许可证分配) 简单的模型定义&#xff1a; from django.db import models from django.contrib.auth.models import Userclass Product(models.Model):name models.CharField(max_length255)description model…

期货量化交易客户端开源教学第八节——TCP通信服务类

private FReciveStr: AnsiString; {接收到的数据} IsConErr: Boolean; {网络连接是否失败} FSocket_LB: Integer; {TCP连接类别,0为交易,1为行情,2为查询} FRetryCount: Integer; {网络连接重试次数} FLoginErrEvent: TLoginErrEvent; {…

Tomcat异步请求实现原理和应用场景简介

Tomcat支持异步请求&#xff0c;这是从Servlet 3.0规范开始引入的特性。以下将详细介绍Tomcat支持异步请求的实现原理以及Java应用场景。 Tomcat支持异步请求的实现原理 Tomcat支持异步请求的实现主要依赖于Servlet 3.0规范中引入的异步处理机制。具体来说&#xff0c;实现原…

Xcode依赖管理大师:精通项目依赖的艺术与实践

Xcode依赖管理大师&#xff1a;精通项目依赖的艺术与实践 在现代软件开发中&#xff0c;项目依赖管理是确保项目顺利进行的关键环节。Xcode&#xff0c;作为苹果官方的集成开发环境&#xff08;IDE&#xff09;&#xff0c;提供了一套强大的工具来管理项目依赖。本文将深入探讨…