利用pprof对golang进行性能分析

embedded/2025/3/20 19:07:34/

利用pprof进行性能分析

pprof性能分析的5个方面

一、性能分析的五个核心维度

  • CPU分析 - 剖析程序的CPU使用情况,定位高耗时函数

  • 内存分析 - 追踪内存分配与泄露,优化内存使用模式

  • IO分析 - 监控文件/网络IO操作,发现瓶颈资源

  • Goroutine分析 - 检测协程泄露与异常堆栈

  • 并发问题分析 - 诊断死锁及通过race detector检测数据竞争

数据采集时间

生产环境采集:选择业务低峰期进行采样(凌晨2-4点)

测试环境采集:模拟真实负载场景进行压力测试

黄金准则:采样时长控制在30-60秒,确保覆盖完整业务周期

pprof集成方案

1、方案1:HTTP服务集成(推荐)

import ("net/http",_ "net/http/pprof"
)func main(){go func(){if err:=http.ListenAndServer(addr:"6060",handler:nil);err!=nil{log.Fatal(err)}os.Exit(code:0)}()
}

可以加入runtime,开启对锁调用的跟踪。

import ("runtime"
)func main(){runtime.SetMutexProfileFraction(rate:1) //开启对锁的跟踪runtime.SetBlockProfileRate(rate:1)  //开启对阻塞的跟踪go func(){if err:=http.ListenAndServer(addr:"6060",handler:nil);err!=nil{log.Fatal(err)}os.Exit(code:0)}()
}

有聪明的小伙伴可能会问“持续性采样,会不会影响服务器性能啊”。其实不会,pprof服务会按需采样,大部分端点只在请求时生成数据持续监控。只有runtime统计信息(如goroutine数量)会实时更新,因此只要控制好你的请求频率,不会对生成开发过程造成很大影响。

2、通过基准测试采集数据

func BenchmarkMyFunc(b *testing.B) {// 测试逻辑...
}

执行命令采集数据go test -bench=. -cpuprofile=cpu.out

诊断端点详解

针对第一种HTTP服务集成,访问 http://localhost:6060/debug/pprof/ 获取以下分析入口:

分析类型描述启用方式
allocs跟踪所有内存分配情况(包括已释放的内存)默认启用
block分析阻塞操作(如 channel 阻塞、锁等待)需调用 SetBlockProfileRate
cmdline显示程序启动时的命令行参数默认启用
goroutine统计当前所有 goroutine 的堆栈跟踪信息默认启用
heap分析当前活跃的堆内存分配(与 allocs 不同,仅包含未释放的内存)默认启用
mutex跟踪锁竞争情况(如 sync.Mutex 的争用)需调用 SetMutexProfileFraction
profile采集 CPU 使用数据,支持 seconds 参数(默认 30 秒)默认启用
threadcreate跟踪操作系统线程创建情况(常用于检测 goroutine 泄漏)默认启用

我们发现,在http://localhost:6060/debug/pprof/中的文件可读性非常差,实际上它只是作为一个数据源。我们可以通过性能分析工具对其文件进行分析。golang中有自带的go tool pprof工具。

可以直接将文件下载下来对文件进行分析,也可以直接使用文件的url。

如果要导出图片或者pdf等文件,需要下载 graphviz。大家想的话,可以自己搜索下载。

可视化分析

可以使用 go tool pprof +source (source可以是可执行文件,也可以是网址。)

例如 go tool pprof http://localhost:6060/debug/pprof/allocs
可以在命令行中分析程序内存使用情况。

go tool pprof http://localhost:6060/debug/pprof/profile?seconds=30
可以分析CPU使用情况。(采集30秒)

运行过上述命令后,即进入命令行终端。可以通过help查看支持的指令。

我们介绍几个常用的:top,list,web

top命令 显示资源消耗TOP N函数

最常用的top,查看使用的数据,默认取前10条,可以使用top 5 ,可以查看消耗资源(内存,协程数,cpu用的最多的等等)最多的5个。其中的指标有:

指标全称技术定义
flatExclusive Time函数自身直接消耗的CPU时间/内存量(不包含子调用)
flat%Exclusive Percentage当前函数独占资源占总采样资源的百分比
cumCumulative Time函数及其调用链消耗的总资源(包含所有子调用)
cum%Cumulative Percentage函数调用链资源消耗占总采样资源的百分比
sum%Aggregated Percentage当前函数及其之前函数资源消耗的累计占比(TOP列表特有指标)

list命令 源码级函数分析

通过list可以展开源代码,list + 某个interface,或者函数,会列出其所有interface对应的方法,或所有函数实现的源代码。可以结合top一起使用,查看消耗资源最多的出现在

web生成可视化图形

通过 web可以打开分析的连线图。

图中,有很多长方形,框框越大,代表消耗的资源越多。线约粗,整个调用栈消耗的资源越多。

每个方格中第一行,代表包名。
第二行,对象名。
第三行代表方法名。
第四行,flat(flat%)。
第五行,cum(cum%)。

图形化分析

通过 go tool pprof 的 Web 交互模式,可以将远程 pprof 数据本地可视化,实现命令行功能的图形化操作。具体流程如下:

go tool pprof -http=:8000 http://localhost:6060/debug/pprof/goroutine

功能模块对应命令行操作核心作用交互优势
Toptop展示资源消耗 Top N 的函数(按 CPU/内存/锁等指标排序)动态排序 + 百分比占比可视化
Graphweb生成函数调用关系拓扑图(需 Graphviz)链路依赖关系一目了然
Flame Graph无直接对应命令通过火焰图直观定位性能瓶颈(层级宽度=资源消耗量)快速识别热点代码路径
Peekpeek <function>聚焦特定函数及其上下游调用链无需记忆命令,点击交互
Sourcelist <function>源码级资源消耗分析(显示每行代码的资源开销)直接关联业务代码
Comparediff_base对比两个 Profile 文件的差异(常用于优化前后效果验证)差异高亮 + 变化量统计

关键特性说明:

  1. 本地化分析

    工具可以将远程 pprof 数据下载到本地(存储于 ~/pprof 目录)进行分析,避免对生产服务造成性能影响。

  2. ​协议兼容性

    支持 HTTP/HTTPS 协议拉取数据,适用于 Kubernetes 等容器环境。
    例如 go tool pprof -http=:8000 https://k8s-cluster:443/debug/pprof/profile

  3. ​原生指令支持

    网页顶部提供命令行输入框,可直接执行 top -cum 等高级参数指令,实现精准过滤。


http://www.ppmy.cn/embedded/174220.html

相关文章

LeetCode 解题思路 21(Hot 100)

解题思路&#xff1a; 初始化&#xff1a; 创建一个结果列表和一个队列&#xff0c;将根节点入队。循环处理&#xff1a; 当队列不为空时&#xff0c;记录当前层节点数 size&#xff0c;依次处理这些节点&#xff1a; 出队当前节点&#xff0c;将其值加入临时列表。若存在左子…

【机器学习】模型拟合

1、欠拟合 1.1 现象 欠拟合是机器学习和统计建模中的一种常见问题&#xff0c;表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据&#xff0c;模型的预测误差都居高不下。 在实际应用中&#xff0c;欠拟合的模型往往显得过于简单和粗糙&#xff0c;无…

5.建造者模式

建造者模式&#xff1a;将一个复杂对象的构建过程与其表示分离&#xff0c;使得同样的构建过程可以创建不同的表示。 核心思想&#xff1a;通过分步构建对象&#xff0c;避免构造函数参数过多&#xff0c;提高代码的可读性和灵活性。 假设你正在开发一个电脑定制系统&#xff…

二进制有关概念和术语总结笔记

一、数据的基本单位(位、字节、字符、字、字长) 1、位 (Bit) 位(Bit)是计算机科学中的一个基本概念&#xff0c;全称为binary digit&#xff0c;即二进制位&#xff0c;是数据信息处理、传输、存储的最小单位。一个二进制信息数据包含多个bit位&#xff0c;每个bit位非0即1。 …

【基于深度学习的验证码识别】---- part3数据加载、模型等API介绍(1)

一、MNIST数据集 MNIST&#xff08;Modified National Institute of Standards and Technology&#xff09;数据集是计算机视觉和机器学习领域最经典的入门级数据集之一&#xff0c;主要用于手写数字识别任务。 使用示例&#xff08;以PyTorch为例&#xff09; from torchvi…

第七章 排序算法法法

算法时间复杂度 衡量一个算法的时间复杂度 度量一个程序(算法)执行时间的两种方法 事后统计法 这种方法可行,但是有两个问题:一是要想对涉及的算法的运行性能进行评测,需要实际运行该程序;二是所得时间的统计量依赖于计算机的硬件,软件等环境因素,这种方式,要在同一台计算机的…

【设计模式有哪些】

一、创建型模式&#xff08;Creation Patterns&#xff09; 1. 单例模式&#xff08;Singleton&#xff09; 核心思想&#xff1a;保证一个类仅有一个实例&#xff0c;并提供全局访问点。实现方式&#xff1a;public class Singleton {// 1. 私有静态实例&#xff0c;volatil…

【css酷炫效果】纯CSS实现悬浮弹性按钮

【css酷炫效果】纯CSS实现悬浮弹性按钮 缘创作背景html结构css样式完整代码效果图 想直接拿走的老板&#xff0c;链接放在这里&#xff1a;https://download.csdn.net/download/u011561335/90492020 缘 创作随缘&#xff0c;不定时更新。 创作背景 刚看到csdn出活动了&…