老显卡能否运行大语言模型

news/2024/9/23 8:56:27/

1. Meta-Llama-3.1-8B-Instruct

TITAN X Pascal x 2  10.9 token/s  占用显存16.8G

4090  62.6 token/s 占用显存15.6G

2. Meta-Llama-3.1-8B-Instruct-GPTQ-INT4

TITAN X Pascal  10.4 token/s  占用显存6.5G

3060TI  50.4 token/s 占用显存5.6G

4090  85.0 token/s 占用显存6.2G

3、Meta-Llama-3.1-70B-Instruct-GPTQ-INT4

4090x4 23.6 token/s  占用显存40.8G

如果跑Meta-Llama-3.1-8B-Instruct需要一张大显存显卡,如果跑量化版本Meta-Llama-3.1-8B-Instruct-GPTQ-INT4一般显存显卡也能跑,TITAN X Pascal与1080TI相当,老显示卡也能战大语言模型,只是速度相对慢一些。


http://www.ppmy.cn/news/1509870.html

相关文章

RAG与LLM原理及实践(11)--- Milvus hybrid search 源码分析及思想

目录 背景 hybrid search 源码分析 WeightedRanker 源码 hybrid search 核心 参数详解 基本入参 扩展入参 aysnc方式代码调用案例 说明 源码逻辑 prepare 调用过程 stub 调用结果 stub 调用过程 blocking 与 async 调用方式 深入内部core weightedRanker 的ch…

WebAssembly 案例分析与爬取实战

WebAssembly 简介 WebAssembly 是一种可以使用非 JS 编程语言编写代码并且能在浏览器上运行的技术 借助 Emscripten 工具,我们能将 C/C 文件转成 wasm 格式的文件, JS 可以直接调用该文件执行其中的方法 这样做的好处如下: 一些核心逻辑&…

偶然遇到了scanf输入字符时,前面与要加上空格

任务描述 本关任务:给定一个含有n个学生数据元素的数组a,用头插法来快速创建整个单链表。 相关知识 创建单链表有两种方法: 先初始化一个单链表,然后向其中一个一个地插入元素,通过调用基本运算算法来创建单链表。…

亚马逊测评的本质是什么?

在电商领域,无论是深耕国内市场还是拓展国际版图,精准选择并成功推广引流款产品至关重要,这一过程的核心环节之一便是对上架产品进行系统化测评,以确保其在市场中获得良好的曝光与转化,以下是对亚马逊平台测评流程的深…

https中的TLS协议

TLS简介 TLS是一种安全协议,用于在两个通信应用程序之间提供保密性和数据完整性。 它是SSL协议的继任者,由IETF(互联网工程任务组)在RFC 5246中标准化。 TLS协议位于TCP/IP协议栈的传输层之上,它使用加密技术来确保…

【密码学】密钥管理:③密钥的保护、存储、备份、撤销、过期、销毁

之前的文章把密钥管理技术的关键内容讲完了,重点是理解密钥管理系统的概念、密钥生成和密钥分配。剩下的有关密钥的保护、存储、备份、撤销、过期和销毁的内容,就用这篇文章简单的做个介绍即可。如果没有看前面重点内容的可以点击下面链接跳转&#xff1…

低代码开发平台通过钉钉API实现流程管理数据对接

实例背景: CRM项目虽然实现了报价转订单的功能,但是客户还是遇到使用不方便的问题,客户的业务流程中,审核报价的时候是需要提供销售人员与客户的聊天记录截图,这都是在手机上的,电脑操作不方便&#xff0c…

Node.js、npm和ng之间的关系

一、Node.js 定义:Node.js是一个开源的、跨平台的JavaScript运行环境,它允许开发者在服务器端运行JavaScript代码。Node.js基于Chrome V8引擎,提供高性能和非阻塞I/O(输入输出)操作。功能:Node.js主要用于…