1. 执行nvidia-smi查看当前显卡驱动版本和显卡类型
2. 由上图可知,显卡型号为Tesla K40m,当前驱动版本为:410.129 CUDA版本为10.0
3. 前往Nvidia官网下载对应的驱动 https://www.nvidia.cn/Download/index.aspx?lang=cn
4. 下载下来的驱动文件如下:
5. 将驱动文件上传到服务器
6. 卸载原有驱动:
执行:
NVIDIA-Linux-x86_64-410.129-diagnostic.run –uninstall
或者执行:/bin/nvidia-uninstanll
7. 开始安装新的驱动:
1. 屏蔽系统自带的nouveau:
-
查看命令:
lsmod | grep nouveau
有输出则继续下面内容,无输出则跳过。 -
修改dist-blacklist.conf文件:
vim /lib/modprobe.d/dist-blacklist.conf
-
将nvidiafb注释掉:
#blacklist nvidiafb
-
然后添加以下语句:
blacklist nouveau
options nouveau modeset=0
2. 停止docker服务,停止kubelet服务
service docker stop
service kubelet stop
3. 执行安装脚本
a) chmod +x NVIDIA-Linux-x86_64-440.64.run
b) ./NVIDIA-Linux-x86_64-440.64.run
3. 错误处理:
-
如果报此错:
WARNING: You do not appear to have an NVIDIA GPU supported by the 430.34 NVIDIA Linux graph
加上:--add-this-kernel参数
-
如果报此错:
unable to find the kernel source tree for the currently running kernel.........
加上:--kernel-source-path=/usr/src/kernels/内核号(2+Tab键 自动出现)
-
如果报此错:
unable to load the kernel module 'nvidia.ko' .........
执行:./NVIDIA-XXXX.run --kernel-source-path=/usr/src/kernels/内核号 -k $(uname -r)
-
如果报此错:
An NVIDIA kernel module nvidia appears to already be loaded in your kernel……
执行lsof -n -w /dev/nvidia*`并杀死所有使用它的进程