Android性能分析工具:Perfetto介绍及用法

news/2024/12/2 15:32:53/

   68a6b753b1217225171a2d7acf805f83.gif

本文字数:8409

预计阅读时间:22分钟

概念

什么是Perfetto?PerfettoAndroid 10中引入的全新平台级跟踪工具。这是适用于AndroidLinuxChrome的更加通用和复杂的开源跟踪项目。与Systrace不同,它提供数据源超集,可让您以protobuf编码的二进制流形式记录任意长度的跟踪记录。您可以在Perfetto界面中打开这些跟踪记录。Perfetto是一款比较强大的安卓性能分析工具(它还可以用于分析其他系统),其功能涵盖了对CPU的追踪、电池耗电追踪、系统调用的追踪,内存分配与释放的追踪。除了性能数据记录还,它还有自带的分析工具,分析工具包括:通过自定义追踪功能来拼接命令行,用SQL方式筛选数据,将数据转换成其他格式方便自定义数据处理,Web形式的火焰图(Web可离线),以及Web上的ADB功能(有bug)。

  • Perfetto的优缺点是什么?

优点:

1.功能强大;

2.效率高;

3.可靠性强。

缺点:

1.只针对Android 9及以上机型;

2.学习门槛略高,至少需要知道些许ADBPythonLLMpprofPerfetto命令行的知识点,才能熟练运用该工具;

3.功能复杂且已嵌入安卓系统中修改难度大;

4.无法过滤so,只能全部分析完了再筛选;

5.  暂时只能在Mac上操作,否则无法解析函数堆栈信息(需要自己编译一个windowstrace-to-text程序);

6.  无对比功能。

  • Perfetto的内存分析原理是什么?

Perfetto:

源码:git clone 

https://android.googlesource.com/platform/external/perfetto/

Perfetto也是使用注入(hook)的方式,将内存分配和释放的几个函数修改为自己的代码指令后,当内存分配和释放时进行统计。与LoliPerfiler不同的是,它有得天独厚的优势,就是它本身就是安卓系统自带的程序,不需要用JDWP方式启动某个程序,直接启动执行程序就可以了。

8af809e078eaa6c177656541821fc90f.png

系统分析(适用于Liux和Android系统范围分析)

Perfetto-系统分析,应用程序跟踪和跟踪分析。Perfetto是用于性能检测和跟踪分析的生产级开源堆栈。它提供用于记录系统级和应用程序级跟踪的服务和库,本机+Java堆分析,使用SQL分析跟踪的库以及基于WebUI以可视化和探索多GB跟踪。

bed2e8fdac7ad6cefbb15b2966ee2f6b.png

Linux内核跟踪:捕获高频ftrace数据:调度活动,任务切换延迟,CPU频率等等。

用户空间分析器和额外的探针:本机堆分析,Java堆分析,/ proc状态文件的轮询器。

内置于Android:自Android 9 Pie以来该平台的一部分,也可在Linux上运行。

应用追踪

raceconv工具将Perfetto跟踪转换为其他跟踪格式。

高效的跟踪点仪器:以高吞吐量,低开销的跟踪点记录C++应用程序的活动。

结构化和可配置的事件:定义自定义protobuf消息以表示强类型的应用程序特定信息,仅跟踪您需要的信息。

与系统范围的跟踪集成:在同一时间线上将应用程序的状态与系统范围内的分析数据相关联。

追踪查看器

heapprofdAndroid堆分析器。

92ba7c3580a55387f48979861db4db1f.png

CI用于AOSPTreeHugger的顶部(而不是替代)。它提供早期测试信号,并涵盖TreeHugger不支持的其他操作系统和较旧的Android设备。

有四个主要部分:

前端:AppEngine

控制器:AppEngine BG服务

工作者:Compute Engine + Docker

数据库:Firebase实时数据库

它们通过Firebase数据库耦合。DB是整个CI的真理之源。

交互式痕迹探索:使用Perfetto UI记录,查看和处理跟踪数据。

支持流行的跟踪格式文件:TraceEvent JSONAndroid systraceftrace文本输出。

完全在您的浏览器中运行:不涉及服务器交互,即使您离线也可以工作。

痕量分析

痕量分析-跟踪处理器是一个C++库(/ src / trace_processor),它吸收以多种格式编码的跟踪,并公开一个SQL接口,用于查询一致的表集中所包含的跟踪事件。它还具有其他功能,包括计算摘要度量,使用用户友好的描述注释跟踪以及从跟踪的内容派生新事件。

450b190ae0bb55907e7d3cd280267e02.png

867427eaddab9321c31bd4dec10ae413.png

基于SQL的跟踪模型:跟踪处理器提取跟踪并公开基于SQLite的接口以通过外壳和UI访问跟踪的内容。

大痕量分析:支持高达数十GB的跟踪。

可互操作的:可以导入和导出流行的跟踪格式:Chromium JSON跟踪格式,Android SystraceftraceCSV

Perfetto的使用方法

官方说明,CPU分析:

https://perfetto.dev/docs/quickstart/android-tracing#perfetto-cmdline

官方说明,c++内存分析:

https://perfetto.dev/docs/data-sources/native-heap-profiler

使用web界面:

https://ui.perfetto.dev

分析命令行说明:

https://perfetto.dev/docs/reference/perfetto-cli

堆内存分析说明:

https://perfetto.dev/docs/reference/heap_profile-cli

  • 使用系统工具获取跟踪记录

1)在Android 10的手机上,开发者模式新增加了一个“系统跟踪”的功能,我们首先将开发者模式下的“系统跟踪”打开:

fea90950953e35335ed907ff04f6dfce.png

79c70b6468eeabe184eb52979e9d3f05.png

2)从“类别”选项中选择我们关注的信息类别:

996cb0b989721d723c384c33963e522c.png

3)设置完之后,下拉快捷选项多了个棒棒糖形状的图标:

b01b082ea1a8f9c9782860a66f035174.png

这个时候杀掉我们需要调试的应用,然后点击开启棒棒糖,接着打开应用,等待应用完全打开之后,再点击一次棒棒糖,结束录制。

4)我们保存录制后生成的跟踪文件存储在设备的“/data/local/traces”目录下,文件的后缀名为“.perfetto-trace”,我们就可以在网站界面(https://ui.perfetto.dev)中打开这些跟踪记录,进行性能分析了。

bace9f9e09d5981b94031e6ca4f4aceb.png

  • 使用Perfetto网站获取perfetto-trace文件

1)打开https://ui.perfetto.dev;

2)点击record new trace

19fb6e7a6a27ffa24158b646eb133d57.png

3)在web站点上选指令,可选择更详细的指令,包括cpu综合数据、gpu综合数据、函数调用堆栈、内存memory分配情况;

4)开始录入,点击start recording,网站自动生成脚本代码,默认是10秒dump一次(或一次性导出);

9e9588707379f0573ec537e50e0d3233.png

5)点击stop结束录制,在/data/misc目录下,即可看到生成的.perfetto-trace文件。

  • 使用脚本语言

Android QP先设置:

adb shell setprop persist.traced.enable 1

Android Q以上perfetto默认运行,无需上述步骤。

常规选项:

下表列出了在perfetto的两种模式下都可使用的选项:

d4a2e24c9df06f8afe60765832c3a9c6.png

两种方式,两种方式不能混用:

简单模式:

6409ef5f1129960fac545f01f925c7a2.png

使用类似与systrace。如果需要设定时间加-t,默认跟踪10s。-o输出文件的位置,使用/data/misc/perfetto-traces/,否则perfetto没有权限访问, 然后pull出文件,在Perfetto UI中打开使用。如下命令可直接使用,通常这种信息对大多数情况都够用了。

生成.perfetto-trace文件:

adb shell perfetto gfx input view wm am ss sched freq idle binder_driver res rs  -o /data/misc/perfetto-traces/trace -t 10s

导出.perfetto-trace文件:

adb pull /data/misc/perfetto-traces/trace ~/trace

普通模式

6402439c9d0382704deca854f3ec466a.png

借助config文件配置要调试的内容,命令行如下,其中config.pbtx为config file,可以借助Perfetto UIrecording settingPerfetto UI)生成,或者在Perfetto UI中的redording settings中设置后好,在recording commandcopy所有内容,在terminal中直接copy执行即可。

cat config.pbtx | adb shell perfetto -c - --txt -o /data/misc/perfetto-traces/trace.perfetto-trace

解析perfetto-trace文件

导入文件

官方网址:

https://ui.perfetto.dev/#!/

打开上述网址,点击Open trace file,选择本地录制好的perfetto traceftrace等文件,即可以Timeline方式展现各进程、线程的详细跟踪信息。

trace文件大于1G时,Open trace file会出现内存溢出无法访问。

787f4ab042581cdae6723ce30286f07e.png

此时需要使用trace_processor来辅助,该程序建议在Linux环境下运行,Win10系统可安装WSL (Ubuntu20.04),参考附录安装WSL

# 下载官方trace_processor

curl -LO https://get.perfetto.dev/trace_processor

chmod +x ./trace_processor

运行如下命令来加载perfetto trace文件:

./trace_processor --full-sort -D xxx.pftrace

Windows下也可以运行如下命令(不稳定,内存耗用大):

python3 trace_processor --full-sort -D xxx.pftrace

Chrome浏览器打开https://ui.perfetto.dev/#!/,会自动检测本地是否已经有trace_processor生成的HTTP SERVER(9001端口),如下图提示,请选择:

YES, use loaded trace”,将自动解析trace_processor已经加载的pftrace文件。

394e7afd39b8775ad101486130dbe5bc.png

常规分析

a. 图例指标

slice (片段,选中片段后会显示黑色边框),对应代码中Trace.beginSection/ATRACE_BEGIN记录的事件。

848666fff069bfb281569c46a921c4b9.png

counter (计数器,离散的数值点) 代码中Trace.traceCounter/ATRACE_INT记录的事件。

3a8c69e5495634f0e529ca1fdfa3d8df.png

sched/freq (CPU调度、频率)

4997551ba2c8b966605af70a0b346b2a.png

thread_state (线程状态)

点击片段上方线程调度信息片段(Running),可以看到线程当前运行在哪个CPU上。

35da7b6c69324472f822c50a19df7cd5.png

点击向右箭头图标,可以在CPU调度中看到该运行片段,可以看到调度时延信息。被P(Process):system_server的 T(Thread):Binder_1754_18线程唤醒,从就绪到运行延迟了363us,再次点击,可以回到原片段,这个跳转比systrace更加灵活方便。同样的,Binder调用也可以如此在目标和原调用线程跳转来分析查看。

4d426dd605b0c9bb7d29a43a9cee778b.png

b. 添加标记

点击最上方的时间轨道即可添加时间点标记;通过按住鼠标左键选中一块区域或者点击某一片段,然后按下“shift+m”即可添加常驻区域标记。选中已经添加的标记,底部出现的Current Selection TAB里可以为其添加标记名,更改其颜色,以及执行移除操作。

fa282f09e8909424a6741cd36caa0668.png

按下“m”添加的是临时区域标记,再次选中另外一块区域添加临时区域时,上一个临时区域会自动移除。

c. 锁竞争(lock contention)

看到lock contention片段,可以点击上边的monitor contention来查看当前对象锁竞争发生的调用栈,如下详情中显示当前对象锁被Owner (Binder:1754_16)持有,其持锁当前运行在serviceDoneExecuting(AMS.java 16426行),且当前等待该对象锁的线程已经有2个了;当前线程执行被阻塞在getUidState方法中(AMS.java 6614行)。

464e48b61c19d74a42afe6ee6b299597.png

SQL查询与展现

在已经加载traceperfetto UI界面,Search框中输入 : 即可开启SQL输入,我们就可以使用SQL来查询并定位具体的trace片段(slice)。

0fe3f041ae55f923c2f1428c1db54e8b.png

输入SQL语句,Enter,得到查询结果,显示在底部表格中,点击表格中的每一行,可以跳转到具体的slice中,根据trace上下文可以进一步分析问题。

1ac85bc2bc29b79c8af05db95b16686a.png

列举几个常用的SQL查询:

1

列出所有doFrame片段,按耗时倒序排列,取前100条

select  slice_id,track_id,ts,dur,dur/1e6,name from slice WHERE name like '%doFrame%'  order by dur desc limit 100

2

1查询的基础上,指定process name为systemui,即systemui自身的绘帧信息

select  slice_id,track_id,ts,dur,dur/1e6,slice.name from slice JOIN thread_track ON  slice.track_id = thread_track.id JOIN thread USING(utid) JOIN process  USING(upid) WHERE process.name = 'com.android.systemui' and slice.name like  '%doFrame%' order by dur desc limit 100

3

system_server中各OPF:关键字片段的耗时信息,包含各片段的真实running_time(每个slice可能有一段时间running,一段时间sleep,一段时间runnable,需要借助thread_state表来查询slice中各调度时间片的状态)

select  slice_id,track_id,thread.utid,slice.ts,slice.dur,(slice.dur/1e6) as dur_ms,  (select total(case when thread_state.ts < slice.ts then  MIN(slice.ts+slice.dur,thread_state.ts+thread_state.dur)-slice.ts when  (thread_state.ts+thread_state.dur) > (slice.ts+slice.dur) then  (slice.ts+slice.dur-MAX(thread_state.ts,slice.ts)) else thread_state.dur end)  from thread_state where thread_state.utid=thread.utid and  thread_state.state='Running' and thread_state.ts < (slice.ts+slice.dur)  and (thread_state.ts+thread_state.dur) > slice.ts)/1e6 as  total_running,slice.name from slice JOIN thread_track ON slice.track_id =  thread_track.id JOIN thread USING(utid) JOIN process USING(upid) WHERE  process.name='system_server' and slice.name like 'OPF:%' order by slice.dur  desc limit 400

4

system_server中的锁竞争情况(lockcontention),lock_depth表示当时参与此对象锁竞争的线程个数

select  count(1) as lock_depth, s.slice_id,s.track_id,s.ts,s.dur,s.dur/1e6 as  dur_ms,ctn.otid,s.name

from  slice s, (select slice_id,track_id,ts,dur,name,substr(name, 46,  instr(name,')')-46) as otid

from  slice t

WHERE  name like 'Lock contention on a monitor lock %'

order  by dur) ctn

JOIN  thread_track ON s.track_id=thread_track.id JOIN thread USING(utid) JOIN  process USING(upid)

WHERE

    process.name = 'system_server'

and  s.name like 'Lock contention on a monitor lock %'

    and substr(s.name, 46,  instr(s.name,')')-46) = ctn.otid

    and ctn.slice_id <> s.slice_id

    and ctn.ts >= s.ts and  (ctn.ts+ctn.dur) <= (s.ts+s.dur)

group  by s.slice_id

order  by s.dur desc

应用实战

来一个简单例子,模拟卡顿现象,代码如下:

f896a7f0e048a97b086121bab223c797.png

log立可以看出损耗的相关代码:

b7f00b2124c0ef3969cbcaf258a057e9.png

进入perfetto,导入trace文件,界面如下,找到对应的包名线程:

10b9203545afa5108515f2fd0ef12856.png

能看到onResume方法阻塞了4s的样子,这样能在具体的类里尽快定位产生耗时的方法,其余的功能可以具体分析。

项目实际应用

由于android手机日益更新换代,现在折叠屏手机已经面市,搜狐视频要根据折叠屏幕尺寸不同变化适配不同的UI展示,这次的需求。

是手机界面展示成这样:

39ec43b56c642c3ad9aa92f2a2ca24b9.png

折叠屏展开后展示成不同样子:

6bec84b562538cda2f01ecfbdec15576.png

结果发现只要手机展开就会无响应,然后就crash崩溃,log里也没啥有用信息,实在不好定位问题,百思不得其解,最后想到用Perfetto看看有没有什么有用信息,按照上述步骤得到trace文件,导入界面如下,找到搜狐视频的包名线程,可以看到:

124813cbced9f9d5ef4a8eea16d71ab8.png上千次执行RV onBindView方法,在代码里找到对应位置,发现是2个xmlUI都在刷新,所以导致图片View加载混乱,所以一直重复刷新,修改后切换界面就正常了,长叹一口气,问题圆满解决,鼓掌撒花~

参考

  • https://blog.csdn.net/imqingyue/article/details/124194680?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-124194680-blog-110933087.pc_relevant_multi_platform_featuressortv2dupreplace&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-124194680-blog-110933087.pc_relevant_multi_platform_featuressortv2dupreplace&utm_relevant_index=2

  • https://blog.csdn.net/u011578734/article/details/110933087

  • https://developer.android.google.cn/studio/command-line/perfetto

  • https://blog.csdn.net/vviccc/article/details/124567746?spm=1001.2101.3001.6650.6&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-6-124567746-blog-124194680.pc_relevant_layerdownloadsortv1&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-6-124567746-blog-124194680.pc_relevant_layerdownloadsortv1&utm_relevant_index=9


http://www.ppmy.cn/news/290171.html

相关文章

SPRING常用注解及其作用

SPRING常用注解及其作用 1&#xff09;声明bean的注解 Component是一种注解&#xff0c;用于标识一个类作为组件&#xff08;Component&#xff09;。组件是Spring中的一个通用术语&#xff0c;用于表示可被Spring容器管理和使用的对象。通过该注解&#xff0c;可以实现组件的…

一文带你读懂:TCP连接的三次握手和四次挥手(上篇)

TCP 是面向连接的协议&#xff0c;所以使用 TCP 前必须先建立连接&#xff0c;而建立连接是通过三次握手来进行的。 天下没有不散的宴席&#xff0c;对于 TCP 连接也是这样&#xff0c; TCP 断开连接是通过四次挥手方式。 下面我们通过实操&#xff0c;来彻底理解三次握手和四次…

一文带你了解MySQL之锁

目录 一、解决并发事务带来问题的两种基本方式1.1 一致性读&#xff08;Consistent Reads&#xff09;1.2 锁定读&#xff08;Locking Reads&#xff09;1.2.1 共享锁和独占锁1.2.2 锁定读的语句 1.3 写操作 二、多粒度锁三、MySQL中的行锁和表锁3.1 其他存储引擎中的锁3.2 Inn…

std::lock_guard

待续 转载于:https://www.cnblogs.com/osbreak/p/11079967.html

cisco IOS,nexus和Arista 的vrrp

最近有用到Arista 7150S 万兆交换机&#xff0c;基本配置跟cisco 的nexus 比较像&#xff0c;但是跟cisco nexus 还是有些差别&#xff0c;后面大家有类似的场景可以注意下&#xff1a;1&#xff0c;Arista 7150s datasheet 设备延时为350ns&#xff0c;比cisco 的250ns 稍高&a…

【笔记】summary函数: summary文件主要调用一系列模块激活hook,用以搭建model(总的layer)中的每一层网络的正向传播框架,使用model(*x)完成网络的正向传播

流程&#xff1a;首先把model中的每一层网络激活hook&#xff0c;完成正向传播的框架搭建&#xff0c;搭建的过程中顺带将每一层的信息进行统计。然后输出input&#xff0c;完成model的正向传播。 x是input type(x) Out: listtype(x[0]) Out: torch.Tensortype(*x) Out: torch…

启天微型计算机可以开vt吗,如何开启笔记本的Virtualization Technology虚拟化技术功能...

现象描述 笔记本是否支持虚拟化功能&#xff1f;是否能开启&#xff1f;如何操作&#xff1f; 现象分析开启虚拟化技术支持&#xff0c;需几个方面的条件支持&#xff1a;芯片组自身支持、BIOS提供支持、处理器自身支持、操作系统支持。操作系统方面&#xff0c;主流操作系统均…

云时代阿里服务器的演进与展望

在整个基础设施中&#xff0c;服务器是面向最终用户提供计算和存储资源&#xff0c;且在数据中心的整体 TCO 中占比最大的至关重要的角色。服务器从诞生到现在&#xff0c;每一次技术的突破和换代&#xff0c;都是朝着更开放、更易用、更优 TCO、更易交付的方向演进。 本文选自…