Ubuntu22 LLM GPU本地开发环境搭建：4090显卡/cuda/pytorch

0. 4090 显卡开箱与安装

可参考文章： https://www.toutiao.com/item/7477816734344217100/

扩展内存注意事项

机箱过来只有一条32G内存，扩展到4条32G ddr5 内存条，开机可能要等约2分钟！！！处于黑屏状态，请耐心等待。

问了下豆包： DDR5 内存模块在启动时需要进行初始化和训练，需要一些时间。

一. 驱动与cuda版本

建议安装相同版本，防止一名工程师调试通过的代码，到另外工程师电脑上运行报错。

4090驱动：550
Pytorch: 2.5.1, cu211 （装pytorch时候一起装的cuda，可参考知乎文章：https://zhuanlan.zhihu.com/p/694533401）
CUDA Toolkit Archive: CUDA Toolkit Archive | NVIDIA Developer

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin

$ sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600

$ wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda-repo-ubuntu2204-12-4-local_12.4.0-550.54.14-1_amd64.deb

$ sudo dpkg -i cuda-repo-ubuntu2204-12-4-local_12.4.0-550.54.14-1_amd64.deb

$ sudo cp /var/cuda-repo-ubuntu2204-12-4-local/cuda-*-keyring.gpg /usr/share/keyrings/

$ sudo apt-get update

$ sudo apt-get -y install cuda-toolkit-12-4

二. 安装4090驱动

左下角菜单-应用程序里，选“软件和更新”-附加驱动。里面列出了推荐的驱动。

也可以通过命令行

三. 如何确定适合 CUDA 版本

要确定适合你当前 NVIDIA Driver 550 的 CUDA 版本，可以通过以下几种方法：

1. 查看 NVIDIA 官方驱动与 CUDA 版本对应关系

NVIDIA 官方提供了驱动版本和 CUDA 版本的对应表，你可以访问 NVIDIA 官方文档来查找。一般来说，NVIDIA Driver 550 支持 CUDA 12.0 及以上的版本。例如，NVIDIA Driver 550.xx 对应的 CUDA 版本可以参考CUDA Toolkit Release Notes （https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html）。

2. 使用 nvidia-smi 命令查看

在终端中输入nvidia-smi命令，该命令会显示当前显卡驱动的相关信息，其中也会包含该驱动支持的最高 CUDA 版本。示例输出如下：

+----------------------------------------------------------------+ | NVIDIA-SMI 550.xx.x Driver Version: 550.xx.x CUDA Version: 12.x | |-----------------------------------------------------

这里显示的CUDA Version就是当前驱动支持的最高 CUDA 版本，你可以选择安装该版本或者低于该版本的 CUDA。

四. 安装PyTorch (带cuda)

安装GPU版Pytorch，现在不需要手动安装CUDA和CuDnn。参考知乎文章：https://zhuanlan.zhihu.com/p/694533401

在安装 PyTorch 时，是可以选择对应的 CUDA 版本的。PyTorch 官方提供了不同 CUDA 版本的安装包，你可以根据自己的需求和环境进行选择。

1. 访问 PyTorch 官方网站

PyTorch

2. 选择安装选项

Stable：选择稳定版本。

Your OS：选择Linux。

Package：可以选择pip或者conda作为包管理工具。

Language：选择Python。

Compute Platform：根据你确定的 CUDA 版本进行选择，例如如果你的驱动支持 CUDA 12.1，你可以选择CUDA 12.4。

复制安装命令：根据上述选择，页面会生成相应的安装命令，复制该命令到终端中执行即可。例如，使用pip安装支持 CUDA 12.1 的 PyTorch 的命令可能如下：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

会下载多个项目，我用公司网络，大概装了6个小时。

3. 验证 torch 安装

安装完成后，你可以在 Python 环境中验证 PyTorch 是否正确安装并且能够使用 CUDA，示例代码如下：

python">import torch print(torch.cuda.is_available())

如果输出True，则表示 PyTorch 已经成功安装并且可以使用 CUDA 进行加速。

五、安装NVCC

通过 PyTorch 安装的 CUDA 通常是预编译好的二进制文件，可能不包含 nvcc 等开发工具。nvcc 是 NVIDIA CUDA 编译器驱动，属于 CUDA Toolkit 的一部分，PyTorch 安装时可能只安装了运行时所需的库，而没有安装完整的 CUDA Toolkit。

1. 确认 `nvcc` 是否安装

在终端中运行以下命令来检查 nvcc 是否安装：

which nvcc

如果该命令没有输出任何内容，说明 nvcc 未安装或者其路径未被添加到系统的 PATH 环境变量中。

2. 安装 CUDA Toolkit

如果确认 nvcc 未安装，可以使用 sudo apt-get install cuda 来安装完整的 CUDA Toolkit。不过，这种方法可能会安装最新版本的 CUDA，你需要确保安装的 CUDA 版本与你当前使用的 PyTorch 版本兼容。

你也可以从 NVIDIA 官方网站下载适合你系统的 CUDA Toolkit 版本进行安装。具体步骤如下：

下载 CUDA Toolkit：访问 NVIDIA CUDA Toolkit Archive，选择适合 Ubuntu 22 的 CUDA Toolkit 版本进行下载。
安装 CUDA Toolkit：下载完成后，执行以下命令进行安装（假设下载的文件名为 cuda_<version>_linux.run）：

chmod +x cuda_<version>_linux.run
sudo ./cuda_<version>_linux.run

在安装过程中，按照提示进行操作，注意可以选择是否安装显卡驱动（如果已经安装了合适的驱动，可以取消勾选）。

3. 配置环境变量

安装完成后，需要配置环境变量，以便系统能够找到 nvcc 和其他 CUDA 工具。打开 ~/.bashrc 文件：

nano ~/.bashrc

在文件末尾添加以下内容（假设 CUDA 安装在 /usr/local/cuda 目录下）：

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

保存并退出文件，然后使配置生效：

source ~/.bashrc

4. 验证nvcc安装

使用以下命令验证 nvcc 是否安装成功：

nvcc --version

如果能够正常输出 nvcc 的版本信息，则说明安装成功。