记一次 .NET某工控自动化系统崩溃分析

时间：2024-01-28

阅读：

一：背景

1. 讲故事

前些天微信上有位朋友找到我，说他的程序偶发崩溃，分析了个把星期也没找到问题，耗费了不少人力物力，让我能不能帮他看一下，给我申请了经费，哈哈，遇到这样的朋友就是爽快，刚好周二晚上给调试训练营的朋友分享 GC标记阶段 相关知识，而这个dump所展示的问题是对这块知识的一个很好的巩固，接下来我们开始分析吧。

二：WinDbg分析

1. 为什么会崩溃

要想找到崩溃原因，还是用老命令 !analyze -v ，输出如下：


0:005> !analyze -v
CONTEXT:  (.ecxr)
eax=063ce258 ebx=07b90000 ecx=0063552e edx=0063552e esi=03070909 edi=03070909
eip=71954432 esp=063ce220 ebp=063ce23c iopl=0         nv up ei pl nz na pe nc
cs=0023  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00010206
clr!WKS::gc_heap::mark_object_simple+0x12:
71954432 8b0f            mov     ecx,dword ptr [edi]  ds:002b:03070909=????????
Resetting default scope

EXCEPTION_RECORD:  (.exr -1)
ExceptionAddress: 71954432 (clr!WKS::gc_heap::mark_object_simple+0x00000012)
   ExceptionCode: c0000005 (Access violation)
  ExceptionFlags: 00000001
NumberParameters: 2
   Parameter[0]: 00000000
   Parameter[1]: 03070909
Attempt to read from address 03070909

STACK_TEXT:  
063ce23c 719543fc     063ce258 0a76cc88 71954260 clr!WKS::gc_heap::mark_object_simple+0x12
063ce25c 71950b62     0a76cc88 063cec88 00000000 clr!WKS::GCHeap::Promote+0xa8
...
063cec28 71950fa3     71950da0 063cec40 00000500 clr!Thread::StackWalkFrames+0x9d
063cec4c 7195103e     063cec88 00000002 00000000 clr!standalone::ScanStackRoots+0x43
063cec68 71954038     0079cb88 063cec88 00080101 clr!GCToEEInterface::GcScanRoots+0xdb
063cecc0 71953225     00080101 00000000 00000001 clr!WKS::gc_heap::mark_phase+0x17e
063cece0 7195355b     71f75da0 00000000 00000001 clr!WKS::gc_heap::gc1+0xae
063cecf8 71953665     71f75fb4 71f75fb4 00000000 clr!WKS::gc_heap::garbage_collect+0x367
063ced18 7195376a     00000000 00000000 71f75fb4 clr!WKS::GCHeap::GarbageCollectGeneration+0x1bd
...

从卦中信息看，当前执行流处于GC标记阶段，并且是在各个线程栈上寻找用户根，在寻找的过程中踩到了坏内存，接下来需要捋一下是什么逻辑踩到的，可以用 u 反汇编一下。


0:005> u WKS::gc_heap::mark_object_simple
clr!WKS::gc_heap::mark_object_simple:
71954420 55              push    ebp
71954421 8bec            mov     ebp,esp
71954423 83ec18          sub     esp,18h
71954426 8b4508          mov     eax,dword ptr [ebp+8]
71954429 57              push    edi
7195442a 8b38            mov     edi,dword ptr [eax]
7195442c 89bde8ffffff    mov     dword ptr [ebp-18h],edi
71954432 8b0f            mov     ecx,dword ptr [edi]
...

从汇编逻辑看，这是将方法的第一个参数进行解引用，参考 coreclr 的源码。


void gc_heap::mark_object_simple(uint8_t** po THREAD_NUMBER_DCL)
{
	uint8_t* o = *po;

	if (gc_mark1(o))
	{
        ...
	}
}

结合C++代码，edi=03070909 就是上面的o，也就是需要标记的托管对象，但现在这个 o 是一个坏对象，那为什么会坏掉呢？

2. 为什么 o 坏掉了

按照过往经验肯定是托管堆损坏了，可以用 !verifyheap 观察下。


0:005> !verifyheap
No heap corruption detected.

从卦中看，我去，托管堆居然是好的，过往经验在这个dump里被击的粉碎，接下来要往哪里突破呢？可以观察下这个托管地址和当前的托管segment在空间距离上的特征，命令输出如下：


0:005> !address 03070909

Usage:                  <unknown>
Base Address:           02ca2000
End Address:            036f0000
Region Size:            00a4e000 (  10.305 MB)
State:                  00002000          MEM_RESERVE
Protect:                <info not present at the target>
Type:                   00020000          MEM_PRIVATE
Allocation Base:        026f0000
Allocation Protect:     00000004          PAGE_READWRITE

0:005> !eeheap -gc
Number of GC Heaps: 1
generation 0 starts at 0x06ca7a7c
generation 1 starts at 0x06b91000
generation 2 starts at 0x026f1000
ephemeral segment allocation context: none
 segment     begin  allocated      size
026f0000  026f1000  02c98f8c  0x5a7f8c(5930892)
06b90000  06b91000  0732b3d0  0x79a3d0(7971792)
Large object heap starts at 0x036f1000
 segment     begin  allocated      size
036f0000  036f1000  03c78da0  0x587da0(5799328)
Total Size:              Size: 0x12ca0fc (19702012) bytes.
------------------------------
GC Heap Size:    Size: 0x12ca0fc (19702012) bytes.

0:005> !address

  BaseAddr EndAddr+1 RgnSize     Type       State                 Protect             Usage
-----------------------------------------------------------------------------------------------
...
+  26f0000  2ca2000   5b2000 MEM_PRIVATE MEM_COMMIT  PAGE_READWRITE                     <unknown>  [..........o.....]
   2ca2000  36f0000   a4e000 MEM_PRIVATE MEM_RESERVE                                    <unknown>  
...

说实话，有经验的朋友看到这卦中信息马上就知道是怎么回事了，步骤大概是这样的。

03070909 曾经实打实的分配在 SOH 上
GC 触发后，03070909 所在的 segment 被收缩，同时对象被移走。
但不知为何，线程栈还保留了这个老地址 03070909，而不是新地址

出现这种情况的原因，大多是 C# 和 C++ 交互时没有把 03070909 给固定住(GCHandle.Alloc)，导致GC触发对象移动之后，会存在两种情况的崩溃。

C++ 层面的崩溃：因为此时的C++拿的地址不再有效了，导致在非托管层崩溃。
CLR 层面的崩溃：线程如果在C++层面僵持，托管层GC触发时会误认为这个无效的地址还是一个有效的对象，进而在标记阶段导致程序崩溃。

有些朋友可能被我说懵了，画个简图如下：

由于这个dump属于第二种崩溃，即存在僵死的线程，接下来就是想办法找到这个线程。

3. 僵死的线程在哪里

如果你了解GC标记阶段的底层运作，我相信你很容易找出这个答案的，对，只需要找到 ScanStackRoots 函数的第一个参数即可，参考代码如下：


void GCToEEInterface::GcScanRoots(promote_func* fn, int condemned, int max_gen, ScanContext* sc)
{
	Thread* pThread = NULL;
	while ((pThread = ThreadStore::GetThreadList(pThread)) != NULL)
	{
		ScanStackRoots(pThread, fn, sc);
	}
}

接下来上 windbg 在崩溃的线程栈上实操一下。


0:005> kb 8
 # ChildEBP RetAddr      Args to Child              
00 063ce23c 719543fc     063ce258 0a76cc88 71954260 clr!WKS::gc_heap::mark_object_simple+0x12
01 063ce25c 71950b62     0a76cc88 063cec88 00000000 clr!WKS::GCHeap::Promote+0xa8
02 063ce274 71951a35     063cec40 0a76cc88 00000000 clr!GcEnumObject+0x37
03 063ce5d8 71950e6f     063ce920 063ce870 00000000 clr!EECodeManager::EnumGcRefs+0x72b
04 063ce628 717bfaa4     063ce650 063cec40 71950da0 clr!GcStackCrawlCallBack+0x139
05 063ce8f4 717bfbaa     063ce920 71950da0 063cec40 clr!Thread::StackWalkFramesEx+0x92
06 063cec28 71950fa3     71950da0 063cec40 00000500 clr!Thread::StackWalkFrames+0x9d
07 063cec4c 7195103e     063cec88 00000002 00000000 clr!standalone::ScanStackRoots+0x43

0:005> dp 063cec88 L1
063cec88  08debbf8

0:005> !t
ThreadCount:      30
UnstartedThread:  0
BackgroundThread: 29
PendingThread:    0
DeadThread:       0
Hosted Runtime:   no
                                                                         Lock  
       ID OSID ThreadOBJ    State GC Mode     GC Alloc Context  DomAIn   Count Apt Exception
       ...
       30   26 3e98 08debbf8     2b220 Preemptive  00000000:00000000 0079cb88 0     MTA 
       ...

从卦中看，30号线程就是我苦苦寻找的僵死线程，接下来赶紧切过去看看，果然发现了C++的函数xxx.Driver.xxx，由于私密性，我就模糊一下了哈。


0:030> ~30s
eax=00000000 ebx=08debbf8 ecx=00000000 edx=00000000 esi=00000000 edi=00000244
eip=77872aac esp=0a76c9fc ebp=0a76ca6c iopl=0         nv up ei pl nz na pe nc
cs=0023  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00000206
ntdll!NtWaitForSingleObject+0xc:
77872aac c20c00          ret     0Ch
0:030> !clrstack 
OS Thread Id: 0x3e98 (30)
Child SP       IP Call Site
0a76cc18 77872aac [InlinedCallFrame: 0a76cc18] 
0a76cc0c 00aa8047 DomainBoundILStubClass.IL_STUB_PInvoke(UInt32, xxx ByRef)
0a76cc18 00aa6c67 [InlinedCallFrame: 0a76cc18] xxx.Driver.xxx(UInt32, xxx ByRef)
0a76ccc0 00aa6c67 xxx.Driver.xxxFault(UInt32, System.String)
...

既然发现了C++方法，最后还剩一个疑问，就是此时的03070909真的在非托管层吗？这个可以通过搜索它的线程栈地址。


0:030> s-d poi(@$teb+0x8) poi(@$teb+0x4) 03070909
0a76cc88  03070909 728f5d01 68d8c642 5c654b42  .....].rB..hBKe\

从代码中可以看到确实是在xxx.Driver.xxxFault方法里传给了C++，有了这些信息接下来就是告诉朋友，重点关注下这个方法，捋一下逻辑。

三：总结

说实话这个dump分析起来还是有一定难度的，它考验着你对GC标记阶段玩法的底层理解，即使这位朋友是C#编程高手，分析了个把星期找不出问题是能够理解的，毕竟术业有专攻，很开心的是这位朋友因此加了.NET高级调试训练营，哈哈，以dump会友。

简介在现代微服务架构中，服务发现（Service Discovery）是一项关键功能。它允许微服务动态地找到彼此，而无需依赖硬编码的地址。以前如果你搜 .NET Service Discovery，大概率会搜到

2024-09-09 23:44:45

一：背景1. 讲故事前些天有位朋友找到我，说他们的系统出现了CPU 100%的情况，让我帮忙看一下怎么回事？dump也拿到了，本想着这种情况让他多抓几个，既然有了就拿现有的分析吧。二：WinDb

2024-08-08 21:57:07

目录什么是 AOP ？ .Net Core 中有哪些 AOP 框架？基于 Castle DynamicProxy 实现 AOP IOC中使用 Castle DynamicProxy 实现事务管理实现用户自动填充什么是 AOP ？AOP（Aspect

2024-07-04 23:25:01

Like运算符很好用，特别是它所提供的其中*、?这两种通配符，在Windows文件系统和各类项目中运用非常广泛。但Like运算符仅在VB中支持，在C#中，如何实现呢？以下是关于LikeString的四

2024-06-12 11:50:22

目录前言1.C4996 ：2.C20573.E01694.E00405.E00296.E00207.C62628.C42449.C206510.C214311.LNK116812.C214613.C206914.C386115.E012716.C218117.C246618.C2057结语前言本文章

2024-06-10 00:05:09

目录1.安装 .NET Core 托管捆绑包2.IIS服务器配置3.网站添加流程4.Visual Studio 2022程序发布注意事项支持下列操作系统：Windows 7 或更高版本Windows Server 2012 R2 或更

2024-06-10 00:05:03

目录解决方案一：去掉ToArray()解决方案二：把class改成struct解决方案三：手动GC解决方案四：调整GC的类型经常看到有群友调侃“为什么搞Java的总在学习JVM调优？那是因为Java

2024-06-10 00:04:57

目录前言技术准备中间件简介编写自定义中间件中间件的潜力使用/map分支管道使用MapWhen分支管道使用中间件构造条件在ASP.NET Core 3.0及更高版本中使用中间件重写终止中间

2024-06-10 00:04:55

目录一、打开VS2019选择创建新项目二、选择语言为C#，然后选择“ASP.NET Web应用程序（.NET Framework）” 三、填写项目名字与存放位置后点击创建项目四、右键添加新项

2024-06-10 00:04:52

目录PeriodicTimerBackgroundService结合使用总结在软件开发过程中，有时候我们需要定时地检查数据库中的数据，并在发现新增数据时触发一个动作。为了实现这个需求，我们在 .Net

2024-06-10 00:04:48

在某些情况，我们希望能延迟一个依赖的初始化。如果使用的是autofac，我们可以通过注入Lazy来实现。我们对 autofac GitHub上提供的一个例子进行进行简单改造，跑起来看看。
原Exa

2024-06-10 00:04:46

目录什么是定时任务什么是Quartz涉及知识点Quartz安装创建一个简单的定时器任务1. 创建工作单元Job2. 创建时间轴Scheduler3. 创建触发规则Trigger4. 创建任务描述5. 建立三

2024-06-10 00:04:44

目录简介项目体验简介此预览版添加了对使用 Blazor 组件进行服务器端呈现的初始支持。这是 Blazor 统一工作的开始，旨在使 Blazor 组件能够满足客户端和服务器端的所有 Web U

2024-06-10 00:04:41

目录项目简介项目主要功能技术架构项目结构工具部分截图平常在我们电脑，我们都会安装非常多的软件，很多软件默认都会向系统注册右键菜单功能，这样方便我们快捷打开。比如图片文

2024-06-10 00:04:39

目录前言Quic API小试牛刀前言随着今年6月份的 HTTP/3 协议的正式发布，它背后的网络传输协议 QUIC，凭借其高效的传输效率和多路并发的能力，也大概率会取代我们熟悉的使用了几十

2024-06-10 00:04:35

目录正文【示例1：查询】【示例2：分页】【示例3：增/删/改】【示例4：输出参数】【示例5：存储过程】正文由于该工具近来被广东省数个公司2B项目采用，且表现稳定，得到良好验证，故在此推

2024-06-10 00:04:33

本博客将测试MessagePack 和System.Text.Json 序列化和反序列化性能
项目文件：Program.cs代码：using BenchmarkDotNet.Running;using Demo;var summary = BenchmarkRunner.Run

2024-06-10 00:04:31

目录1、环境信息2、支持多种计算机编程语言3、Redis官方4、下载安装5、简单使用5.1、.net core 3.1引入Redis包5.2、简单例子调用6、Redis文件说明Redis（Remote Dictionary S

2024-06-10 00:04:29

目录正文一、瞬时生命周期（Transient）二、作用域生命周期（Scoped）三、单例生命周期（Singleton）四、如何选择合适的生命周期五、实现自定义的生命周期六、总结正文ASP.NET Core 的

2024-06-10 00:04:26

目录正文使用Select.HtmlToPdf.NetCore效果图展示首先使用ChatGPT生成个人简历信息代码部分pdfReport.css :正文现在有许多将HTML导出PDF的第三方包，这里介绍使用的是Select.

2024-06-10 00:04:24

目录探索接口路由创建自定义接口创建更复杂的接口总结在本文中，我们将讨论ASP.NET Core中的新路由。我们将了解什么是接口(endpoints)路由，它是如何工作的，它在哪里使用，以及如

2024-06-10 00:04:21

目录一、概述二、将 Keys 保存在 Input Model 中三、定义 ModelBinderFactory 和 ModelBinder四、在 ASP.NET Core 项目中替换 ModelBinderFactory五、定义 AutoMapper 的 T

2024-06-10 00:04:19

目录一：背景1. 讲故事二： Windbg 分析1. 程序现象2. 理解 WindowsFormsSynchronizationContext3. 卡死的真正原因4. 7号线程到底创建了什么控件三：总结一：背景1. 讲故事这世间事

2024-06-10 00:04:17

目录正文DBSet清除计划IEntityTypeConfiguration(表配置)Repository(仓储)Autofac数据库配置项目架构和源码正文EFCore是微软官方的一款ORM框架，主要是用于实体和数据库对象

2024-06-10 00:04:14

.NET 6 中，使用System.Drawing操作图片，生成解决方案或打包的时候，会有警告，意思是System.Drawing仅在 'windows' 上受支持。微软官方的解释是：System.Drawing.Common Nu

2024-06-10 00:04:12

目录故障说明错误现象程序包管理器提示解决故障说明MAUI项目是日常使用的项目,一直都好好的某一天修改了几行代码后,突然项目无法编译了,提示NU1105错误从Git重新拉取一份

2024-06-10 00:04:10

验证和授权是两个独立但又存在联系的过程。验证是检查访问者的合法性，授权是校验访问者有没有权限查看资源。它们之间的联系——先验证再授权。贯穿这两过程的是叫

2024-06-10 00:04:07

目录一、注册服务二、解析依赖三、实现自定义的服务提供程序四、总结ASP.NET Core 是一个跨平台、高性能的框架，它提供了一种依赖注入（DI）容器，用于管理应用程序中的对象和服务

2024-06-10 00:04:04

目录ASP.NET Core 默认配置提供者配置环境用户机密信息ASP.NET Core 默认配置提供者加载现有的 IConfiguration加载项目根目录下的 appsettings.json加载项目根目录下的 app

2024-06-10 00:04:02

目录1 什么叫做中间件？2 请求短路与中间件顺序3 中间件配置方法Use、Run、Map3.1Use 方法配置中间件3.2Run 方法配置中间件3.2Map 方法配置中间件4 自定义中间件1 什么叫做中

2024-06-10 00:03:59

2024-01-31

2024-02-26

2024-02-22

2024-06-10

2024-01-31

记一次 .NET某工控自动化系统 崩溃分析

一：背景

1. 讲故事

二：WinDbg分析

1. 为什么会崩溃

2. 为什么 o 坏掉了

3. 僵死的线程在哪里

三：总结

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道

记一次 .NET某工控自动化系统崩溃分析