第一次尝试按照官网环境配置一步一步配置报错
运行train_net的时候报ImportError: libcudart.so.10.1: cannot open shared object file: No such file or directory
环境
第二次尝试下载cuda版本10.1及对应的pytorch环境
下载cuda10.1按照官网教程,没有下载driver,同时安装了补丁
运行train_net的时候报ImportError: libtorch_cpu.so: cannot open shared object file: No such file or directory
这可能是因为pytorch没有安装完整
所以运行
conda install pytorch1.3.1 torchvision0.4.2 cudatoolkit=10.1 -c pytorch
重新安装apex 报
Unknown CUDA arch (8.6) or GPU not supported 这个错误
然后尝试减低算力,则报这个错误
csrc/layer_norm_cuda_kernel.cu:4:10: fatal error: ATen/cuda/DeviceUtils.cuh: No such file or directory
#include “ATen/cuda/DeviceUtils.cuh”
^~~~~~~~~~~~~~~~~~~~~~~~~~~
compilation terminated.
error: command ‘/usr/local/cuda-10.1/bin/nvcc’ failed with exit status 1
后查资料这个错误的原因主要是cuda版本太低
ValueError: Unknown CUDA arch (8.6) or GPU not supported 1
说白了就是,CUDA版本过低,GPU版本过高,不匹配
需换用高版本的CUDA
而高版本的cuda,没有适配的1.3的pytorch,
所以思考尝试使用最新的pytorch版本
第三次尝试下载cuda10.2 安装最新版本的pytorch
cuda10.2 安装步骤
1、下载run安装包,并运行run
wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run
sudo sh cuda_10.2.89_440.33.01_linux.run
弹出框输入accpet,都选yes就可
2、安装两个补丁,补丁在官网下载
下载完成后,在下载的目录下运行
sudo sh cuda_10.2.1_linux.run
sudo sh cuda_10.2.2_linux.run
2、安装pytorch(最新版本)
conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch
3、重新配置apex环境
配到是配成功了,然后build mega
报错RuntimeError: Error compiling objects for extension
尝试cuda10.2 低版本的pytorch=1.5.0 仍然会出现ValueError: Unknown CUDA arch (8.6) or GPU not supported这个问题
用cuda11.0 会出现算力不够,该问题能解决 pytorch=1.7.1
export TORCH_CUDA_ARCH_LIST=“7.5”
但是后面set.up mega时会出现
/home/featurize/Gao/mega.pytorch/mega_core/csrc/cuda/deform_conv_cuda.cu(200): error: identifier “AT_CHECK” is undefined RuntimeError: Error compiling objects for extension
好多博客说时pytorch版本太高了?
总结:
还是自己太笨了,官网让你怎么装你就怎么装呗,偏偏乱装。一是没经验,不知道可以自己装cuda,换cuda环境。二是不注重cuda于pytorch版本匹配问题。三是显卡!!!有的显卡版本太高会出现,cuda配不上显卡,例如cuda10.0。
最后成功安装步骤
所有步骤按照官网即可,主要是cuda=10.0和pytorch=1.3.0版本对了即可。
显卡用2080ti
官方安装链接:https://github.com/Scalsol/mega.pytorch/blob/master/INSTALL.md
同时还参考了好人老大哥的:
https://blog.csdn.net/blink_cao/article/details/117628095
cuda10.0
用nvcc --version查询你的cuda版本,如果版本为10.0,请跳过这一步,不是则老老实实安装cuda10.0版本
官网下载cuda10.0
根据自己电脑配置选择,最后选runfile
下载安装包和补丁
也可wget+链接 在命令行下载
完成后运行:
sudo sh cuda_10.0.130_410.48_linux.run(不装driver,其他yes)
sudo sh cuda_10.0.130.1_linux.run(安装补丁,同安装包操作一样)
之后把自己的cuda环境切到cuda10.0
sudo ln -snf /usr/local/cuda-10.0 /usr/local/cuda
最后nvcc --version 查询版本是否正确
安装pytorch
conda 方式安装
conda install pytorch=1.3.0 torchvision cudatoolkit=10.0 -c pytorch
pip方式安装:版本查询链接(官网教程python=3.7)https://download.pytorch.org/whl/torch_stable.html
wget https://download.pytorch.org/whl/cu100/torch-1.3.0%2Bcu100-cp37-cp37m-linux_x86_64.whl(下载相应torch)
wget https://download.pytorch.org/whl/cu100/torchvision-0.4.1%2Bcu100-cp37-cp37m-linux_x86_64.whl(下载相应torchvision)
pip install torch-1.3.0+cu100-cp37-cp37m-linux_x86_64.whl
pip install torchvision-0.4.1+cu100-cp37-cp37m-linux_x86_64.whl
最后安装apex问题
报错: Error: command ‘/usr/local/cuda-10.0/bin/nvcc’ failed with exit status 1
参考这个: http://www.cxyzjd.com/article/qq_22565865/107532012
over!!!!