auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式

news/2024/12/18 2:41:43/

目录

    • 1、auto-gptq是什么?
    • 2、auto-gptq安装
    • 3、auto-gptq不正确安装可能会出现的问题
      • (1)爆出:`CUDA extension not installed.`
      • (2)没有报错但是推理速度超级慢

1、auto-gptq是什么?

Auto-GPTQ 是一种专注于 量化深度学习模型 的工具库。它的主要目标是通过量化技术(Quantization)将大型语言模型(LLM)等深度学习模型的大小和计算复杂度显著减少,从而提高推理效率,同时尽可能保持模型的性能。

2、auto-gptq安装

在Linux和Windows上,AutoGPTQ可以通过预先构建的轮子为特定的PyTorch版本安装:

AutoGPTQ versionCUDA/ROCm versionInstallationBuilt against PyTorch
latest (0.7.1)CUDA 11.8pip install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/2.2.1+cu118
latest (0.7.1)CUDA 12.1pip install auto-gptq2.2.1+cu121
latest (0.7.1)ROCm 5.7pip install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/rocm571/2.2.1+rocm5.7
0.7.0CUDA 11.8pip install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/2.2.0+cu118
0.7.0CUDA 12.1pip install auto-gptq2.2.0+cu121
0.7.0ROCm 5.7pip install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/rocm571/2.2.0+rocm5.7
0.6.0CUDA 11.8pip install auto-gptq==0.6.0 --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/2.1.1+cu118
0.6.0CUDA 12.1pip install auto-gptq==0.6.02.1.1+cu121
0.6.0ROCm 5.6pip install auto-gptq==0.6.0 --extra-index-url https://huggingface.github.io/autogptq-index/whl/rocm561/2.1.1+rocm5.6
0.5.1CUDA 11.8pip install auto-gptq==0.5.1 --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/2.1.0+cu118
0.5.1CUDA 12.1pip install auto-gptq==0.5.12.1.0+cu121
0.5.1ROCm 5.6pip install auto-gptq==0.5.1 --extra-index-url https://huggingface.github.io/autogptq-index/whl/rocm561/2.1.0+rocm5.6

AutoGPTQ is not available on macOS.
注意:安装的auto-gptq版本必须与CUDA和pytorch版本都适配,安装完之后推理速度很慢可能是需要从源码安装

3、auto-gptq不正确安装可能会出现的问题

(1)爆出:CUDA extension not installed.

在这里插入图片描述

这个问题我一直以为是CUDA和pytorch没配置好,或者不适配硬件,甚至以为是没有安装cudnn的原因,但最后发现原来是安装的auto-gptq不适配当下环境。

注意按照上面的方法安装auto-gptq仍然可能报错或者不适配,此时应该从源码安装,可以参考教程AutoGPTQ/README_zh.md at main · AutoGPTQ/AutoGPTQ,或者解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题(从源码重新安装 Auto-GPTQ)_auto gptq 源码构建非cuda版本-CSDN博客

以下摘自官方文档
克隆源码:

git clone https://github.com/PanQiWei/AutoGPTQ.git && cd AutoGPTQ

然后,从项目目录安装:

pip install .

正如在快速安装一节,你可以使用 BUILD_CUDA_EXT=0 来取消构建 cuda 拓展。

如果你想要使用 triton 加速且其能够被你的操作系统所支持,请使用 .[triton]

对应 AMD GPUs,为了从源码安装以支持 RoCm,请设置 ROCM_VERSION 环境变量。同时通过设置
PYTORCH_ROCM_ARCH
(reference)
可提升编译速度,例如:对于 MI200 系列设备,该变量可设为 gfx90a。例子:

ROCM_VERSION=5.6 pip install .

对于 RoCm 系统,在从源码安装时额外需要提前安装以下包:rocsparse-dev, hipsparse-dev,
rocthrust-dev, rocblas-dev and hipblas-dev

(2)没有报错但是推理速度超级慢

此时查看auto-gptq版本,如果版本后没有带cu1xx,则可能是需要从源码安装


http://www.ppmy.cn/news/1556017.html

相关文章

若依实现图片上传时自动添加水印

文章目录 总体思路1. 修改通用上传方法2. 去除文件路径前两级目录3. 添加水印方法运行效果总结 为了解决图盗用,并有效保护图片版权,若依项目需要实现一个功能:上传图片时,自动在图片上添加水印。这不仅可以有效防止盗用&#xff…

设计模式之 组合模式 C# 范例

组合模式(Composite Pattern)是一个结构型设计模式,它允许你将对象组合成树形结构来表示“部分-整体”的层次结构。组合模式使得客户端可以统一对待单个对象和对象集合。 在C#中,组合模式通常有以下几个要素: Compon…

《Docker - Docker Container(容器)之容器实战》

一、引言 Docker 是一种开源的容器化平台,它可以将应用程序及其依赖项打包到一个可移植的容器中,从而实现快速部署、可扩展性和隔离性。在 Docker 中,容器是运行应用程序的基本单元,它提供了一种轻量级、高效的方式来管理应用程序…

PPT技巧:将幻灯片里的图片背景设置为透明

在PPT中添加了图片,想要将图片中的背景设置为透明或者想要抠图,有什么方法吗?今天分享两个方法。 方法一: 添加图片,选中图片之后,点击【图片格式】功能,点击最左边的【删除背景】 PPT会自动帮…

【python篇】——python基础语法一篇就能明白,快速理解

前言:本文章是在已经学习了C语言之后作者角度下进行书写的一篇关于python当中基础的语法说明。 文章目录 快速深入理解python当中的语法基本数据类型算数运算符类型的查看与转换 变量的输入与输出条件语句比较运算符和逻辑运算符if、elif、else三目运算符 循环语句w…

【学习笔记】移动端浏览器的视口

两个视口 视觉视口:是当前显示屏页面中的一部分 布局视口:完整页面的大小 视觉视口 布局视口有多宽?这因浏览器而异。Safari iPhone使用980px, Opera 850px, Android WebKit 800px, IE 974px 视觉视口和布局视口相同 局视口宽度…

Servlet容器来扫描指定包中的类 找到带有WebServlet注解的类

项目框架如上图 myweb下边三个类 package com.qcby.tomcat.myweb;import com.qcby.tomcat.webServlet.WebServlet;WebServlet(urlPatterns {"MyFirstServlet"}) public class MyFirstServlet {}package com.qcby.tomcat.myweb;import com.qcby.tomcat.webServlet.W…

《数据结构之美-- 单链表》

引言: 首先由上次我们实现的顺序表聊起,我们在实现顺序表的时候会发现,在每次插入数据时当空间不够时就会涉及到扩容,而顺序表的扩容一般都是呈二倍的形式来进行,因此这就有可能造成空间的浪费,那该如何解…