一、查看Nvidia显卡显存占用情况
查看Nvidia显卡显存占用情况
nvidia-smi
效果如下:
显示的表格中:
Fan: 风扇转速(0%–100%),N/A表示没有风扇
Temp: GPU温度(GPU温度过高会导致GPU频率下降)
Perf: 性能状态,从P0(最大性能)到P12(最小性能)
Pwr: GPU功耗
Persistence-M: 持续模式的状态(持续模式耗能大,但在新的GPU应用启动时花费时间更少)
Bus-Id: GPU总线,domain?device.function
Disp.A: Display Active,表示GPU的显示是否初始化
Memory-Usage:显存使用率
Volatile GPU-Util:GPU使用率
ECC: 是否开启错误检查和纠正技术,0/DISABLED, 1/ENABLED
Compute M.: 计算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED
实时查看Nvidia显卡显存占用情况
watch -n 10 nvidia-smi
# 其中,10表示每隔10(可改)秒刷新一次终端的显示结果,效果如下:
结束进程
语法:
sudo kill -9 PID
如要结束进程为10213的进程,可以在终端输入如下命令
sudo kill -9 10213
二、GPU温度情况
查看GPU(多卡)的温度
nvidia-smi -q -i 0,1 -d TEMPERATURE
# i 后面的数字表示GPU数量。一块只有0就可以了,效果如下:
实时查看GPU(多卡)的温度
watch -n 2 nvidia-smi -q -i 0 -d TEMPERATURE
# n 后面的数字表示每隔 2 秒刷新一次,效果如下:
ok了