昨天现场突然说服务器CPU满载,导致无法对外提供服务,刚重启服务器,过一段时间又满载了。于是我这个菜鸡就开始跟着大佬查问题。
一开始,我像无头苍蝇一样,用top看进程状态,看了半天,找出一堆虽然执行很慢,但是并不会导致CPU满载的问题。
后来,大佬觉得这样下去不是办法,就开始用网上都推荐的诊断利器:arthas(阿里巴巴的阿尔萨斯)。
安装步骤省略。。。。
开始操作arthas,我们先用下面这个命令,找出当前最忙的前10个线程并打印堆栈(这命令还能看到CPU占用率)。但是好像并没有看到什么有用的东西。
thread -n 10
那看来只能循环打出当前最忙的前10个线程并打印堆栈(打出3秒内最忙的前10个线程并打印堆栈):
thread -n 10 -i 3000
看了半天,感觉不错,但还没找到问题。就是感觉不是很智能。
突然在官方文档上看到一句话:如果想看从Java进程启动开始到现在的cpu占比情况:可以使用show-busy-java-threads这个脚本。
赶紧打开看了下,好家伙,它在官方的基础上又封装了一层,完美。我们把脚本下载下来,然后改成.sh文件(别忘了权限哦)
参考命令用法后,大佬使用以下命令(命令意思:每3秒执行一次,重复1万次,从所有运行的Java进程中找出最消耗CPU的10个线程,打印出其线程栈,并输出到当前目录下xxx.txt中)
./show-busy-java-threads.sh 3 10000 -c 10 -a xxx.txt
以上命令执行半天之后。中途CPU成功满载几次,我们把xxx.txt打开看后,发现疯狂GC导致CPU满载的。啥情况。终于在最后一次满载挂掉之前,我们利用jmap dump成功导出整个JVM 中内存信息。然后利用Eclipse Memory Analyzer工具(因为导出的dump文件较大,所以需要给Eclipse Memory Analyzer工具分配比较大的内存)将导出的dump文件进行分析,成功找到问题。