Nvidia A100安装tensorflow 1.15.5

news/2025/1/12 18:50:32/

tensorflow1.15.5也算是很久远的包了,但其实我一直用的是1.14.0的版本。但因为更新了GPU,在A100的卡上tf1.14.0版本没法做有些大矩阵运算,会报错:

Internal: Blas xGEMMBatched launch failed : a.shape=[135,84,84], b.shape=[135,84,16], m=84, n=16, k=84, batch_size=135[[node my_attn_7/MatMul (defined at /public_bme/home/liufh/GAT-master/utils/layers.py:24) ]]

参考这两个帖子“利用A100 GPU加速Tensorflow描述” 和“rtx3090搭建tensorflow1.15环境”,它们给出的建议是用官方在A100 上优化的tensorflow,也就是pip install nvidia-pyindexpip install nvidia-tensorflow这样的方法安装。
但是也因为软件版本、显卡驱动不匹配等问题,还报了不少错。把问题总结出来,方便排错。

  • python版本问题,在python3.7的环境下(在python3.8的环境下可解决,感谢 RTX3090 tensorflow1.x报错:Blas GEMM launch failed),无论是pip install nvidia-tensorflow,还是pip3 install tf-nightly-gpu,或是 pip install nvidia-tensorflow[horovod] ,tensorflow的安装这一步死活无法完成,。会报很多错误,例如
    (1) Preparing metadata (setup.py) ... error error: subprocess-exited-with-error
    (2) note: This error originates from a subprocess, and is likely not a problem with pip. error: metadata-generation-failed × Encountered error while generating package metadata.
  • 显卡驱动版本问题,在python3.8的环境下,pip install nvidia-tensorflow就可以简单得完成tensorflow的安装,然而这样是默认安装的最新版tensorflow,也就是nvidia_tensorflow-1.15.5+nv23.03-7472065-cp38-cp38-linux_x86_64.whl这个版本,然而这个版本会依赖cuda 12,这样需要高版本的显卡驱动。我自己的是NVRM version: NVIDIA UNIX x86_64 Kernel Module 470.82.01版本,只能支持cuda 11.0. 感谢CUDA driver version is insufficient for CUDA runtime version 的解决方案,提供思路,程序无法执行,网络没法训练,会报错“cudaGetDevice() failed. Status: CUDA driver version is insufficient for CUDA runtime version”。解决办法很简单,就是下载低版本的轮子,手动安装,URL:https://developer.download.nvidia.cn/compute/redist/nvidia-tensorflow/。我通过安装

nvidia_tensorflow-1.15.5+nv22.01-3720650-cp38-cp38-linux_x86_64.whl

之后就成功了。在安装过程中,部分包的版本需要手动调,***protobuf ***,numpy和scipy需要特别注意。否则会报错 TypeError: Descriptors cannot not be created directly.

  • 轮子版本问题,最开始我直接安装的是最低版本的tensorflow1.15,

nvidia_tensorflow-1.15.5+nv21.02-cp38-cp38-linux_x86_64.whl

,可以成功安装,但是找不到tensorflow,无法训练网络,报错 ImportError: /lib64/libm.so.6: version GLIBC_2.27 not found (required by /public/home/liufh/anaconda3/envs/tf115/lib/python3.8/site-packages/tensorflow_core/python/_pywrap_tensorflow_internal.so)

总结一下,如果安装不能成功,我踩到的坑包括了python 版本,显卡驱动版本,以及安装的轮子版本这三方面的问题,解决了这三方面问题之后,就成功训练了啊。部分错误截图如下
1.
Python版本不一致,报错1
Python版本不一致,报错2
![Python版本不一致,报错3](https://img-blog.csdnimg.cn/e72cab8334cb4f46b7a3dabdc948e813.png
Python版本不一致,报错3


http://www.ppmy.cn/news/573402.html

相关文章

英伟达A100芯片助力ChatGPT:开启智能生活新篇章!

【导语】:人工智能技术在现代社会中的应用越来越广泛。英伟达A100芯片与ChatGPT的结合,让我们在工作、学习和生活中轻松应对挑战。探索英伟达A100芯片如何助力ChatGPT成为你生活中不可或缺的AI助手,共创美好未来! 【正文】&#x…

深度学习之目标检测Fast-RCNN模型算法流程详解说明(超详细理论篇)

1.Fast-RCNN论文背景 2. Fast-RCNN算法流程 3.Fast R-CNN 问题和缺点 这篇以对比RCNN来说明,如果你对RCNN网络没太熟悉,可访问这链接,快速了解,点下面链接 深度学习之目标检测R-CNN模型算法流程详解说明(超详细理论篇…

用英伟达A100跑结算是怎样一种体验?

最近,一则灯塔国禁止英伟达向中国出售高端GPU的新闻引发了众多关注。大家虽然对芯片禁售早有心理预期,但现实比预料中发展的更快。对于GPU,可能大多人还只关注在图形图像与人工智能领域。而随着GPGPU的不断演进,在实时OLAP领域&am…

替代A100,英伟达向中国市场推出性能阉割版A800 GPU芯片

点击上方“视学算法”,选择加"星标"或“置顶” 重磅干货,第一时间送达 作者丨陈萍 来源丨机器之心 编辑丨极市平台 导读 英伟达 A800 已于今年第三季度投入生产,在芯片间数据传输速率等参数上略逊于 A100。 今日,据路…

斯坦福发布大模型Alpaca:A100上训3小时,性能比较GPT-3.5,被挤爆!

源|新智元 Meta的LLaMA模型开源,让文本大模型迎来了Stable Diffustion时刻。今天,斯坦福发布了一个由LLaMA 7B微调的模型Alpaca,训练3小时,性能比肩GPT-3.5。 一觉醒来,斯坦福大模型Alpaca(草泥…

Nvidia GPU 入门教程之 11 数据中心 GPU 的对决:A100 与 V100S

数据中心 GPU 的对决:A100 与 V100S 在这篇博客文章中,我们在 NVIDIA A100 GPU 上针对 TensorFlow 进行了深度学习性能基准测试。我们还将这些 GPU 与它们的顶级前身 Volta 驱动的 NVIDIA V100S 进行了比较。 我们的深度学习服务器配备了 8个 NVIDIA A100 PCIe GPU。我们运…

A100计算能力

A100计算能力 A100 GPU支持新的计算功能8.0。表1比较了NVIDIA GPU架构的不同计算功能的参数。 数据中心GPU NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA A100 GPU代号 GP100 GV100 GA100 GPU架构 NVIDIA Pascal NVIDIA Volta NVIDIA安培 计算能力 6.0 7.0 8.0 线/经线 32 32 3…

NVIDIA A100云服务器

NVIDIA A100 NVIDIA A100融合了超540亿个晶体管,是目前全世界最大尺寸的7nm制程处理器,内有6912个CUDA核心、40GB运行内存,以及内存网络带宽达1.6TB/s,张量计算核心内容性能大幅度提高,TF32性能达156万亿次/秒&#x…