安装环境及硬件信息
环境:Dell PowerEdge R740 服务器
操作系统:Ubuntu16.04.5 LTS
显卡型号:Nvidia Tesla T4
一、下载官方显卡驱动程序
在英伟达的官网上查找你自己电脑的显卡型号然后下载相应的驱动。网址:http://www.nvidia.cn/page/home.html
去英伟达官网下载驱动,根据自己电脑的配置型号选择合适的驱动下载到ubuntu上
(nvidia-smi # 若列出GPU的信息列表,表示驱动安装成功
nvidia-settings # 若弹出设置对话框,表示驱动安装成功;若失败,可重启后再试。)
1.获取显卡型号
想办法获取自己的Nvidia显卡型号(一般显卡背面有),本人的显卡是Nvidia Tesla T4。
显卡型号
https://www.nvidia.cn/Download/index.aspx?lang=cn
2.去NVDIA driver search page查看支持显卡的驱动最新版本及下载,下载之后是.run后缀。
3.把驱动文件拷贝到/tmp目录下,然后cd /tmp进入目录。
二、禁用nouveau
在安装NVIDIA显卡驱动前,建议先卸载Linux系统自带的显卡驱动nouveau。
nouveau是一个由爱好者组织的针对NVIDIA显卡开发第三方开源3D驱动的共同项目,并且nouveau是在完全没有得到NVIDIA任何支持的情况下进行开发的,与NVIDIA驱动存在冲突,并且会影响GPU运行的可靠性,建议使用NVIDIA GPU前先禁用该驱动
3.1执行#lsmod|grep nouveau查看驱动是否加载。
Ubuntu 16.04默认安装了第三方开源的驱动程序nouveau,安装NVIDIA显卡驱动首先需要禁用nouveau,不然会碰到冲突的问题,导致无法安装NVIDIA显卡驱动。
1.编辑文件 blacklist.conf :
$ sudo vim /etc/modprobe.d/blacklist.conf
在文件最后部分插入以下两行内容
blacklist nouveau
options nouveau modeset=0
2.更新系统修改
$ sudo update-initramfs -u
3.重启系统(一定要重启)
$ sudo reboot
4.验证nouveau是否已禁用:
$ lsmod | grep nouveau
没有信息显示,说明 nouveau 已被禁用,接下来可以安装 NVIDIA 的显卡驱动。
三、安装显卡驱动
根据显卡型号查找对应的驱动版本
(一些电脑走完以上步骤,基本上显示问题已经解决,如仍有问题或要安装驱动请继续以下步骤)
英伟达的官网上查找你自己电脑的显卡型号然后下载相应的驱动。
网址:http://www.nvidia.cn/page/home.html
下载的版本:NVIDIA-Linux-x86_64.run(注意不同的版本最后安装执行的具体选项不同)
下载后的run文件拷贝至home目录下:
在Ubuntu下按 ctrl+alt+f1 进入命令行界面
输入账户名回车,输入密码登陆,然后在带账户和主机名的命令行界面下输入:
sudo service lightdm stop -----------关闭图形界面,不执行会出错
卸载掉原有驱动:
sudo apt-get remove nvidia-* ------------若安装过其他版本或其他方式安装过驱动执行此项
卸载nvidia显卡驱动。注意此时千万不能重启,重新电脑可能会导致无法进入系统。
卸载可能存在的旧版本NVIDIA驱动(对没有安装过NVIDIA驱动的主机,这步可以省略,但推荐执行,无害):
$sudo apt-get autoremove --purge nvidia-*
给驱动run文件赋予执行权限:
sudo chmod a+x ~/NVIDIA-Linux-x86_64.run # 给文件权限
安装执行命令:
sudo ./NVIDIA-Linux-x86_64-xxx.run -no-x-check -no-nouveau-check -no-opengl-files
,其中://只有禁用opengl这样安装才不会出现循环登陆的问题
-no-x-check:安装驱动时关闭X服务
-no-nouveau-check:安装驱动时禁用nouveau
-no-opengl-files:只安装驱动文件,不安装OpenGL文件
在安装过程中会出现:
1、The distribution-provided pre-install script failed! Are you sure you want to continue? 选择 yes 继续。
2、Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later? 选择NO继续
3、Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up. 选择 Yes 继续
2.7、 安装成功后,在命令行输入:sudo service lightdm start //重启图形界面, 按Ctrl+Alt+F7返回图形界面
检测是否安装成功
nvidia-smi , nvidia-setting/
如果出现如下提示,则说明安装成功:
四、安装过程中出现的错误及解决
错误1.
ERROR: Unable to load the kernel module ‘nvidia.ko’. This happens most
frequently when this kernel module was built against the wrong or
improperly configured kernel sources, with a version of gcc that differs
from the one used to build the target kernel, or if a driver such as
rivafb/nvidiafb is present and prevents the NVIDIA kernel module from
obtaining ownership of the NVIDIA graphics device(s), or NVIDIA GPU
installed in this system is not supported by this NVIDIA Linux graphics
driver release.
遇到此问题,可以安装后面正文的方法,重新尝试安装,
还有一个类似于此的错误,也是ERROR后面一大堆,但是kernel module后面是“nvidia-drm”,此问题是由于之前安装过驱动的残留所致,请参考第3步后重新安装。
错误2. 在安装的最后一步,没有提示安装成功,而是显示
Error:Unable to load the ‘nvidia-drm’ kernel module .
出现这个问题最有可能的原因是你安装的Ubuntu是UEFI模式启动的,但是在BIOS中却打开了Security BOOT选项。 正确做法是禁用该选项,具体方式请百度(我就是这一步折腾的我,其实一直没有找到具体原因)
最重要的一点就是在安装的时候,必须要将bios中的security boots 禁掉。之前安装完重启之后一直进不了图形界面,后来设成disable之后就能进去了。
BIOS禁用Secure Boot
打开服务器电源,按F2进入Bios设置
在System BIOS ->System Security -> Secure Boot,选择Disabled,保存退出
错误:ERROR: Unable to find the development tool cc
in your path; please make sure that you have the package ‘gcc’ installed. If gcc is installed on your system, then please check that cc
is in your PATH.
错误:在您的路径中找不到开发工具“cc”;请确保已安装包“gcc”。如果系统上安装了GCC,请检查“CC”是否在您的路径中。
gcc和make依赖包下载地址:https://blog.csdn.net/u010013028/article/details/88757499