安装:
一、系统及显卡
系统:centos7.3 64位
显卡:Tesla V100
二、安装过程
1. 下载驱动
从NVIDIA官网 https://www.geforce.cn/drivers 选择相应的驱动并下载,下载下来是.run文件。
2. 安装依赖
要装的三个依赖分别是,gcc、kernel-devel、dkms,其中需要注意的是,kernel-devel的版本需要与当前内核的版本一致,不然后面会出现找不到文件的情况。
查看我的内核版本:
[root@localhost opt]# uname -r
3.10.0-1127.19.1.el7.x86_64
查看一下可以安装的版本:
[root@localhost opt]# yum list | grep kernel-devel
kernel-devel.x86_64 3.10.0-1127.19.1.el7 updates
[root@localhost opt]# yum install kernel-devel.x86_64
已加载插件:fastestmirror
Loading mirror speeds from cached hostfile* base: mirrors.163.com* elrepo: mirrors.neusoft.edu.cn* extras: mirrors.163.com* updates: mirrors.163.com
正在解决依赖关系
--> 正在检查事务
---> 软件包 kernel-devel.x86_64.0.3.10.0-1127.19.1.el7 将被 安装
--> 解决依赖关系完成依赖关系解决===========================================================================================================================================Package 架构 版本 源 大小
===========================================================================================================================================
正在安装:kernel-devel x86_64 3.10.0-1127.19.1.el7 updates 18 M事务概要
===========================================================================================================================================
安装 1 软件包总下载量:18 M
安装大小:38 M
Is this ok [y/d/N]: y
Downloading packages:
Delta RPMs disabled because /usr/bin/applydeltarpm not installed.
kernel-devel-3.10.0-1127.19.1.el7.x86_64.rpm | 18 MB 00:00:14
Running transaction check
Running transaction test
Transaction test succeeded
Running transaction正在安装 : kernel-devel-3.10.0-1127.19.1.el7.x86_64 1/1 验证中 : kernel-devel-3.10.0-1127.19.1.el7.x86_64 1/1 已安装:kernel-devel.x86_64 0:3.10.0-1127.19.1.el7 完毕!
[root@localhost opt]#
安装rpm包后,继续安装其他依赖:
[root@localhost opt]# yum -y install gcc dkms
已加载插件:fastestmirror
Loading mirror speeds from cached hostfile* base: mirrors.163.com* elrepo: mirrors.neusoft.edu.cn* extras: mirrors.163.com* updates: mirrors.163.com
aliyun.k8s | 1.4 kB 00:00:00
base | 3.6 kB 00:00:00
docker-ce-stable | 3.5 kB 00:00:00
elrepo | 2.9 kB 00:00:00
extras | 2.9 kB 00:00:00
updates | 2.9 kB 00:00:00
软件包 gcc-4.8.5-39.el7.x86_64 已安装并且是最新版本
没有可用软件包 dkms。
无须任何处理
[root@localhost opt]#
3 检查是否禁用nouveau,如果没有任何输出表示已禁用,跳过步骤3.1、3.2;否则执行3.1、3.2。
[root@localhost opt]# lsmod | grep nouveau
[root@localhost opt]#
3. 1. 阻止 nouveau 模块的加载
在配置文件中禁用nouveau
CentOS 7:
vim /lib/modprobe.d/dist-blacklist.conf#并且在加上
blacklist nouveau
options nouveau modeset=0
3.2. 重新建立initramfs image文件
备份原来的 initramfs nouveau image镜像
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r)-nouveau.img
dracut /boot/initramfs-$(uname -r).img $(uname -r)
做完这个步骤 重启reboot, 重启后验证驱动是否被禁用 如果无结果显示则表明成功禁用
lsmod | grep nouveau
4. 执行安装脚本
执行之前先让.run文件有可执行权限:
[root@localhost opt]# chmod a+x NVIDIA-Linux-x86_64-440.64.00.run
执行安装脚本:
[root@localhost opt]# ./NVIDIA-Linux-x86_64-440.64.00.run
如果报错:需要加入内核版本号。
./NVIDIA-Linux-x86_64-375.39.run --kernel-source-path=/usr/src/kernels/3.10.0-693.el7.x86_64
记得把上面的内核版本改为自己系统的,然后就安装提示进行安装就可以了。
做完这个步骤重启主机:命令reboot
检查是否安装完成:nvidia-smi
(base) [root@worker-2 ~]# nvidia-smi
Wed Oct 28 16:29:24 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.64.00 Driver Version: 440.64.00 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla T4 Off | 00000000:00:08.0 Off | 0 |
| N/A 35C P0 15W / 70W | 0MiB / 15109MiB | 0% Default |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
(base) [root@worker-2 ~]#
升级:
问题
-
docker: Error response from daemon: OCI runtime create failed: container_linux.go:344: startingcontainer process caused "process_linux.go:424: container init caused \"process_linux.go:407: runningprestart hook 1 caused \\\"error running hook: exit status 1, stdout: , stderr: exec command:[/usr/bin/nvidia-container-cli --load-kmods configure --ldconfig=@/sbin/ldconfig.real --device=all --compute --utility --require=cuda>=10.0 brand=tesla,driver>=384,driver<385 --pid=7142/var/lib/docker/overlay2/c2f4ac7d7d905051e77682447a97f563cbdf7ccf2fe43afccdb521350adab0f4/merged]\\\\nnvidia-container-cli: requirement error: unsatisfied condition: brand = tesla\\\\n\\\"\"": unknown.
原因:
显卡驱动版本和cuda10不兼容(版本信息)
查看驱动版本命令:nvidia-smi
一、环境
内核:3.10.0-514.26.1.el7.x86_64
gcc:4.8.5
二、卸载旧版驱动
使用 chmod a+x 给下载的.run文件添加执行权限,然后使用 --uninstall参数进行旧版驱动卸载
chmod a+x NVIDIA-Linux-x86_64-440.33.01.run #(对应老驱动版本)./NVIDIA-Linux-x86_64-440.33.01.run --uninstall
or 使用如下命令卸载:
sudo /usr/bin/nvidia-uninstall
三、安装显卡驱动
0、检查环境
1、检查是否屏蔽掉了默认的nouveau
lsmod | grep nouveau
有输出内容则表示没有屏蔽,需要屏蔽掉;没有任何输出表示已经屏蔽,跳过以下步骤【2,3,4,5,6】:
2、屏蔽掉了默认的nouveau
vim /lib/modprobe.d/dist-blacklist.conf#将nvidiafb注释掉:
#blacklist nvidiafb #然后添加以下语句:
blacklist nouveau
options nouveau modeset=0
3、重建initramfs image步骤
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)
4、修改运行级别为文本模式
systemctl set-default multi-user.target
5、重启系统
reboot
6、验证nouveau是否已禁用(无输出则代表已禁用)
1、 下载驱动
从NVIDIA官网 https://www.geforce.cn/drivers 选择相应的驱动并下载,下载下来是.run文件。
2、开始安装显卡驱动
chmod a+x NVIDIA-Linux-x86_64-440.33.01.run./NVIDIA-Linux-x86_64-440.33.01.run
没有报错的话成功升级完成!!!!