Android进阶性能调优;不可思议的OOM

news/2025/3/14 16:44:15/

一、引子

对于每 《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》无偿开源 徽信搜索公众号【编程进阶路】 一个移动开发者,内存是都需要小心使用的资源,而线上出现的 OOM(OutOfMemoryError)都会让开发者抓狂,因为我们通常仰仗的直观的堆栈信息对于定位这种问题通常帮助不大。网上有很多资料教我们如何“紧衣缩食“的利用宝贵的堆内存(比如,使用小图片,bitmap 复用等),可是:

1.线上的 OOM 真的全是由于堆内存紧张导致的吗?

2.有没有 App 堆内存宽裕,设备物理内存也宽裕的情况下发生 OOM 的可能?

内存充裕的时候出现 OOM 崩溃?

3.看似不可思议,然而,最近笔者在调查一个问题的时候,通过自研的 APM 平台发现公司的一个产品的大部分 OOM 确实有这样的特征,即:OOM 崩溃时,java 堆内存远远低于 Android 虚拟机设定的上限,并且物理内存充足,SD 卡空间充足

既然内存充足,这时候为什么会有 OOM 崩溃呢?

二、问题描述

在详细描述问题之前,先弄清楚一个问题:

什么导致了 OOM 的产生?

下面是几个关于 Android 官方声明内存限制阈值的 API:

图 2-21

通常认为 OOM 发生是由于 java 堆内存不够用了,即

图 2-2 Java 堆 OOM 产生原因

这种 OOM 可以非常方便的验证(比如: 通过 new byte[] 的方式尝试申请超过阈值maxMemory() 的堆内存),通常这种 OOM 的错误信息通常如下:

图 2-3 堆内存不够导致的 OOM 的错误信息

而前面已经提到了,本文中发现的 OOM 案例中堆内存充裕(Runtime.getRuntime().maxMemory() 大小的堆内存还剩余很大一部分),设备当前内存也很充裕(ActivityManager.MemoryInfo.availMem 还有很多)。这些 OOM 的错误信息大致有下面两种:

1 . 这种 OOM 在 Android6.0,Android7.0 上各个机型均有发生,文中简称为 OOM ,错误信息如下:

图 2-4 OOM 一的错误信息

2 . 集中发生在 Android7.0 及以上的华为手机(EmotionUI_5.0 及以上)的 OOM,简称为 OOM 二,对应错误信息如下:

图 2-5 OOM 二的错误信息

三、问题分析及解决

3.1代码分析

Android 系统中,OutOfMemoryError 这个错误是怎么被系统抛出的?下面基于 Android6.0 的代码进行简单分析:

1. Android 虚拟机最终抛出OutOfMemoryError 的代码位于/art/runtime/thread.cc

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ocmANbVk-1651552324386)(http://upload-images.jianshu.io/upload_images/14847428-67452129da9038a7?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图 3-1 ART Runtime 抛出的位置

2. 搜索代码可以发现以下几个地方调用了上述方法抛出 OutOfMemoryError 错误

3. 第一个地方是堆操作时

图 3-2 Java 堆 OOM

这种抛出的其实就是堆内存不够用的时候,即前面提到的申请堆内存大小超过了Runtime.getRuntime().maxMemory()

1 . 第二个地方是创建线程时

图 3-3 线程创建时 OOM

对比错误信息,可以知道我们遇到的 OOM 崩溃就是这个时机,即创建线程的时候(Thread::CreateNativeThread)产生的。

2 . 还有其他的一些错误信息如“[XXXClassName] of length XXX would overflow”是系统限制String/Array 的长度所致,不在本文讨论之列。

那么,我们关心的就是Thread::CreateNativeThread 时抛出的 OOM 错误,创建线程为什么会导致 OOM 呢?

3.2推断

既然抛出来 OOM,一定是线程创建过程中触发了某些我们不知道的限制,既然不是 Art 虚拟机为我们设置的堆上限,那么可能是更底层的限制。Android 系统基于 linux,所以 linux 的限制对于 Android 同样适用,这些限制有:

1 ./proc/pid/limits 描述着 linux 系统对对应进程的限制,下面是一个样例:

图 3-4 Linux 进程限制示例

用排除法筛选上面样例中的 limits:

  • Max stack size,Max processes 的限制是整个系统的,不是针对某个进程的,排除;
  • Max locked memory ,排除,后面会分析,线程创建过程中分配线程私有 stack 使用的 mmap 调用没有设置 MAP_LOCKED,所以这个限制与线程创建过程无关 ;
  • Max pending signals,c 层信号个数阈值,无关,排除 ;
  • Max msgqueue size,Android IPC 机制不支持消息队列,排除。

剩下的 limits 项中,Max open files 这一项限制最可疑Max open files 表示 每个进程最大打开文件的数目,进程 每打开一个文件就会产生一个文件描述符 fd(记录在 /proc/pid/fd 下面),这个限制表明 fd 的数目不能超过 Max open files 规定的数目。

后面分析线程创建过程中会发现过程中涉有及到文件描述符。

2 . /proc/sys/kernel 中描述的限制

这些限制中与线程相关的是 /proc/sys/kernel/threads-max,规定了每个进程创建线程数目的上限,所以线程创建导致 OOM 的原因也有可能与这个限制相关。

3.3验证

下面对上述的推断进行验证,分两步:本地验证和线上验收。

  • 本地验证:在本地验证推断,试图复现与图 [2-4]OOM 一与图 [2-5]OOM 二所示错误消息一致的 OOM
  • 线上验收:下发插件,验收线上用户 OOM 时确实是由于上面的推断的原因导致的

本地验证

实验一: 触发大量网络连接(每个连接处于独立的线程中)并保持,每打开一个 socket 都会增加一个 fd(/proc/pid/fd 下多一项)

注:不只有这一种增加 fd 数的方式,也可以用其他方法,比如打开文件,创建 handlerthread 等等

  • 实验预期:当进程 fd 数(可以通过 ls /proc/pid/fd | wc -l 获得)突破 /proc/pid/limits 中规定的 Max open files 时,产生 OOM;
  • 实验结果:当 fd 数目到达 /proc/pid/limits 中规定的 Max open files 时,继续开线程确实会导致 OOM 的产生。

错误信息及堆栈如下:

图 3-5 FD 数超限导致 OOM 的详细信息

可以看出,此 OOM 发生时的错误信息确与线上发现的 OOM 一的“Could not allocate JNI Env” 吻合,因此线上上报的 OOM 一 可能 就是由 FD 数超限导致的,不过最终确定需要到线上进行验证 (下一小节)。此外从 ART 虚拟机的 Log 中看出,还有一个关键的信息 “ art: ashmem_create_region failed for ‘indirect ref table’: Too many open files”,后面会用于问题定位及解释。

实验二:创建大量的空线程(不做任何事情,直接 sleep)

  • 实验预期:
  • 当线程数(可以在/proc/pid/status 中的threads项实时查看)超过/proc/sys/kernel/threads-max 中规定的上限时产生 OOM 崩溃。
  • 实验结果:
  • 在 Android7.0 及以上的华为手机(EmotionUI_5.0 及以上)的手机产生 OOM,这些手机的线程数限制都很小 (应该是华为 rom 特意修改的 limits),每个进程只允许最大同时开 500 个线程,因此很容易复现了。

OOM 时错误信息如下:

图 3-6 线程数超限导致的 OOM 详细信息

可以看出 错误信息与我们线上遇到的 OOM 二吻合:“pthread_create (1040KB stack) failed: Out of memory” 另外 ART 虚拟机还有一个关键 Log:“pthread_create failed: clone failed: Out of memory”,后面会用于问题定位及解释。

1 . 其他 Rom 的手机线程数的上限都比较大,不容易复现上述问题。但是,对于 32 位的系统,当进程的逻辑地址空间不够的时候也会产生 OOM,每个线程通常需要 mapp 1MB 左右的 stack 空间(stack 大小可以自行设置),32 为系统进程逻辑地址 4GB,用户空间少于 3GB。逻辑地址空间不够(已用逻辑空间地址可以查看 /proc/pid/status 中的 VmPeak/VmSize 记录),此时创建线程产生的 OOM 具有如下信息:

图 3-7 逻辑地址空间占满导致的 OOM

线上验收及问题解决

本地尝试复现的 OOM 错误信息中图 [3-5] 与线上 OOM 一情况比较吻合,图 [3-6] 与线上 OOM 二的情况比较吻合,但线上的 OOM 一真的时 FD 数目超限,OOM 二真的是由于华为手机线程数超限的原因导致的吗?最终确定还需要取线上设备的数据进行验证。

验证方法:

下发插件到线上用户,当 Thread.UncaughtExceptionHandler 捕获到OutOfMemoryError 时记录 /proc/pid 目录下的如下信息:

1. /proc/pid/fd 目录下文件数 (fd 数)

2. /proc/pid/status 中 threads 项(当前线程数目)

3. OOM 的日志信息(出了堆栈信息还包含其他的一些 warning 信息

线上 OOM 一验证

发生 OOM 一的线上设备中采集到的信息:

1. /proc/pid/fd 目录下文件数与 /proc/pid/limits 中的 Max open files 数目持平,证明 FD 数目已经满了;

2. 崩溃时日志信息与图 [3-5] 基本一致;

由此,证明 线上的 OOM 一确实是由于 FD 数目过多导致的 OOM,推断验证成功。

OOM 一的定位与解决:

最终原因是 App 中使用的长连接库再某些时候会有瞬时发出大量 http 请求的 bug(导致 FD 数激增),已修复。

线上 OOM 二验证 集中在华为系统的 OOM 二崩溃时收集到的信息样例如下,(收集的样例中包含的 devicemodel 有 VKY-AL00,TRT-AL00A,BLN-AL20,BLN-AL10,DLI-AL10,TRT-TL10,WAS-AL00 等):

某些时候会有瞬时发出大量 http 请求的 bug(导致 FD 数激增),已修复。

线上 OOM 二验证 集中在华为系统的 OOM 二崩溃时收集到的信息样例如下,(收集的样例中包含的 devicemodel 有 VKY-AL00,TRT-AL00A,BLN-AL20,BLN-AL10,DLI-AL10,TRT-TL10,WAS-AL00 等):


http://www.ppmy.cn/news/478584.html

相关文章

不可思议的OOM

转载自:http://www.jianshu.com/p/e574f0ffdb42 摘要:  本文发现了一类OOM(OutOfMemoryError),这类OOM的特点是崩溃时java堆内存和设备物理内存都充足,探索并解释了这类OOM抛出的原因。 关键字:  OutOfMemoryError &…

TensorRT加速方法介绍(python pytorch模型)

TensorRT的安装可见我的上一篇博客 Ubuntu配置TensorRT及验证_jiugeshao的专栏-CSDN博客博主的一些基本环境配置可见之前博客非虚拟机环境下Ubuntu配置_jiugeshao的专栏-CSDN博客第一步: 准备安装AnacondaAnaconda3-5.2.0-Linux-x86_64.shhttps://repo.anaconda.com/archive/A…

Gamma:强大的AI制作PPT神器,用完再也回不去了!

看过许多 AI 制作 PPT 软件,最终还是被 Gamma 惊艳到。 Gamma 是一款基于人工智能技术的 PPT 制作工具,可以帮助用户轻松制作高质量的 PPT 演示文稿。 痛点解决 相比传统制作 PPT 方式,Gamma 可以解决哪些如下 7 个痛点: 一句话…

由于ModuleNotFoundError: No module named ‘tensorrt’安装TensorRT-python发现报错

ModuleNotFoundError: No module named ‘tensorrt’https://forums.developer.nvidia.com/t/modulenotfounderror-no-module-named-tensorrt/161565 TensorRT报错的一百种姿势 | 【TensorRT 报错统计】-云社区-华为云 (huaweicloud.com)https://bbs.huaweicloud.com/blogs/33…

超微服务器安装操作系统,超微服务器bios设置

超微服务器bios设置 内容精选 换一换 应用组件是组成应用的某个业务特性实现,以代码或者软件包为载体,可独立部署运行。在ServiceStage上创建应用后,可以在应用中添加组件,目前支持的组件类型有微服务、Web、通用。同一个应用下,最多可支持创建1000个应用组件。您可以通过…

视觉算法的工业部署及落地方面的技术知识,怎么学?

点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 本文整理自知乎问答,仅用于学术分享,著作权归作者所有。如有侵权,请联系后台作删文处理。 方法一 作者|BBuf https://www.zhihu.com/question/428800593/answer…

Jetson Nano(4)—框架学习(4.1)

1、主流深度学习框架扫盲 万事具备,硬件和系统环境基本已经具备,目前的深度学习框架有下面的的,这里特别提一下国产的深度学习框架:华为 MindSpore、旷视 MegEngine、清华 Jittor(毕竟我是爱国的)&#xf…

要闻君说:华为“发飙”了;快手抛出了1000+社招岗位;迅雷2018年度财报:云连续三年上涨;定论!小米成立AIoT战略委员会...

关注并标星星CSDN云计算 每周三次,打卡即read 更快、更全了解泛云圈精彩news go go go 大家好!偶是要闻君。紧锣密鼓的工作转眼到了“周五时间”,最近圈里的大事儿还挺多,看看! 文/要闻君 华为决定起诉美国政府。 在近…