Ubuntu多卡服务器、普通用户安装paddlepaddle环境

news/2024/11/29 9:57:05/

Ubuntu多卡服务器、普通用户安装paddlepaddle环境

  • 1. 建立conda虚拟环境
  • 2. 安装paddlepaddle gpu版本
    • 2.1 选择cuda版本
    • 2.2 安装paddle
  • 3. 验证及排错
    • 3.1 验证方法
    • 3.2 第一次报错:cuda问题
    • 3.3 第二次报错:NCCL问题(多卡)
  • 4. 设置环境变量,可以不用每次设置依赖目录

之前在本地的Ubuntu机器上安装paddle环境还挺顺利的,但是在多卡服务器上安装确遇到了很多问题,主要是服务器上已经安装了cuda等环境,普通用户也没有权限修改系统的依赖,多卡环境与单卡也有些区别。
主要参考资料就是paddle官方文档paddle安装说明

1. 建立conda虚拟环境

  1. 新建虚拟环境
conda create -n paddle_env python=3.9
  1. 进入虚拟环境
conda activate paddle_env

2. 安装paddlepaddle gpu版本

这里强调一下,一定要用conda安装,conda安装可以直接在当前环境下安装独立的cuda等依赖,这样就不会与系统预装的依赖环境冲突,pip安装就比较麻烦。

2.1 选择cuda版本

建议在终端输入nvidia-smi 查看系统的CUDA Version,选择比系统版本小的cuda版本,例如我当前机器的CUDA Version是11.5,所以我选择安装cuda 11.2
在这里插入图片描述

2.2 安装paddle

conda install paddlepaddle-gpu==2.4.2 cudatoolkit=11.2 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/ -c conda-forge 

3. 验证及排错

3.1 验证方法

安装完成后您可以使用 python3 进入 python 解释器,输入import paddle ,再输入 paddle.utils.run_check()

如果出现PaddlePaddle is installed successfully!,说明您已成功安装。

3.2 第一次报错:cuda问题

W0505 03:08:12.283917 3969672 dynamic_loader.cc:307] The third-party dynamic library (libcudnn.so) that Paddle depends on is not configured correctly. (error code is /usr/local/cuda/lib64/libcudnn.so: cannot open shared object file: No such file or directory)Suggestions:1. Check if the third-party dynamic library (e.g. CUDA, CUDNN) is installed correctly and its version is matched with paddlepaddle you installed.2. Configure third-party dynamic library environment variables as follows:- Linux: set LD_LIBRARY_PATH by `export LD_LIBRARY_PATH=...`- Windows: set PATH by `set PATH=XXX;

在这里插入图片描述

  • 解决方法
    查看环境安装的路径下,其实已经有了cuda相关的依赖:
    在这里插入图片描述
    但是目前还是寻找的系统目录,所以指定到环境目录就可以,在终端输入命令:
export LD_LIBRARY_PATH=[安装路径]/miniconda3/envs/paddle_env/lib

再次验证,可以看到刚才的错误已经不在了。

3.3 第二次报错:NCCL问题(多卡)

W0505 03:22:18.677640 3977430 dynamic_loader.cc:278] You may need to install 'nccl2' from NVIDIA official website: https://developer.nvidia.com/nccl/nccl-downloadbefore install PaddlePaddle.
[2023-05-05 03:22:18,678] [ WARNING] install_check.py:281 - PaddlePaddle meets some problem with 4 GPUs. This may be caused by:1. There is not enough GPUs visible on your system2. Some GPUs are occupied by other process now3. NVIDIA-NCCL2 is not installed correctly on your system. Please follow instruction on https://github.com/NVIDIA/nccl-tests to test your NCCL, or reinstall it following https://docs.nvidia.com/deeplearning/sdk/nccl-install-guide/index.html
[2023-05-05 03:22:18,679] [ WARNING] install_check.py:289 - Original Error is: (PreconditionNotMet) The third-party dynamic library (libnccl.so) that Paddle depends on is not configured correctly. (error code is libnccl.so: cannot open shared object file: No such file or directory)Suggestions:1. Check if the third-party dynamic library (e.g. CUDA, CUDNN) is installed correctly and its version is matched with paddlepaddle you installed.2. Configure third-party dynamic library environment variables as follows:- Linux: set LD_LIBRARY_PATH by `export LD_LIBRARY_PATH=...`- Windows: set PATH by `set PATH=XXX; (at /paddle/paddle/phi/backends/dynload/dynamic_loader.cc:305)PaddlePaddle is installed successfully ONLY for single GPU! Let's start deep learning with PaddlePaddle now.
  • 解决方法
    下载安装NCCL,这个需要去NVIDIA 官网下载,下载地址。
    在这里插入图片描述
    下载完解压
tar xvf nccl_2.17.1-1+cuda11.0_x86_64.txz

解压后可以直接把库拷贝到环境安装目录下
在这里插入图片描述
这时再次验证即可通过!

4. 设置环境变量,可以不用每次设置依赖目录

  • 如果要进入paddle环境,需要设置环境变量
export LD_LIBRARY_PATH=[安装路径]/miniconda3/envs/paddle_env/lib
  • 可以设置为每次打开终端,自动设置环境变量
vim ~/.bashrc

再最下边输入

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:[环境目录]/miniconda3/envs/paddle_env/lib

保存退出后,重新打开终端即生效。


http://www.ppmy.cn/news/61624.html

相关文章

day13 UNIX域套接字

目录 Unix域流式套接字 UNIX域数据报套接字 Unix域流式套接字 本地地址: struct sockaddr_un {unsigned short sun_family; /* 协议类型 */char sun_path[108]; /* 套接字文件路径 */ };UNIX 域流式套接字的用法和 TCP 套接字基本一致,区别…

在Transformer模块上用CNN网络搭建方式解决图像分类问题

来源:投稿 作者:摩卡 编辑:学姐 论文标题:DeepViT: Towards Deeper Vision Transformer Motivation 本文受到传统CNN网络搭建方式的启发(深层的CNN网络可以学习到关于图像更加丰富和复杂的表示), 于是思考是否可以将这种搭建方式…

比特米盒子刷安卓ATV6.0

最近海鲜市场有很多比特米盒子,50多块包邮,买来的盒子回来折腾下,买回来发现一直卡在“系统启动"中无法进入,不知道原来的是啥系统,看来只能找找线刷的办法,重新拯救救个这盒子。 原文链接地址&#x…

SpringBoot性能指标

SpringBoot性能指标 简介 未来每一个微服务在云上部署以后&#xff0c;我们都需要对其进行监控、追踪、审计、控制等。SpringBoot就抽取了Actuator场景&#xff0c;使得我们每个微服务快速引用即可获得生产级别的应用监控、审计等功能 如何使用 1.引入maven坐标 <depend…

超大规模视觉通用感知模型

超大规模视觉通用感知模型 通用感知模型简介与发展超大规模图像、文本主干网络多任务兼容解码网络 参考文献 通用感知模型简介与发展 通用感知模型是指一个模型解决不同的感知任务&#xff0c;应用于各种模态数据。 通用感知模型的发展脉络图如下&#xff0c;它由NLP发源&…

【图像分割】【深度学习】SAM官方Pytorch代码-Mask decoder模块MaskDeco网络解析

【图像分割】【深度学习】SAM官方Pytorch代码-Mask decoder模块MaskDeco网络解析 Segment Anything&#xff1a;建立了迄今为止最大的分割数据集&#xff0c;在1100万张图像上有超过1亿个掩码&#xff0c;模型的设计和训练是灵活的&#xff0c;其重要的特点是Zero-shot(零样本迁…

elasticsearch 使用的基础工具包及配置安装信息

前言:elasticsearch 工具在查询大量数据上面有明显的优势&#xff0c;但是具体的使用门槛相对较高&#xff0c;具体使用中不同版本使用上还有些差别&#xff0c;需要匹配上 spring boot elasticsearch 版本才能少出错 使用到的工具包&#xff0c;注意具体的版本 elasticsearc…

grafana-report在grafana7中遇到的问题

一、点击之后报错pdf报错&#xff1a;NO image renderer available/installed 查看grafana日志后&#xff0c;有以下报错&#xff1a; Could not render image, no image renderer found/installed. For image rendering support please install the grafana-image-renderer …