老显卡能否运行大语言模型

news/2024/9/23 8:56:27/

1. Meta-Llama-3.1-8B-Instruct

TITAN X Pascal x 2 10.9 token/s 占用显存16.8G

4090 62.6 token/s 占用显存15.6G

2. Meta-Llama-3.1-8B-Instruct-GPTQ-INT4

TITAN X Pascal 10.4 token/s 占用显存6.5G

3060TI 50.4 token/s 占用显存5.6G

4090 85.0 token/s 占用显存6.2G

3、Meta-Llama-3.1-70B-Instruct-GPTQ-INT4

4090x4 23.6 token/s 占用显存40.8G

如果跑Meta-Llama-3.1-8B-Instruct需要一张大显存显卡，如果跑量化版本Meta-Llama-3.1-8B-Instruct-GPTQ-INT4一般显存显卡也能跑，TITAN X Pascal与1080TI相当，老显示卡也能战大语言模型，只是速度相对慢一些。

http://www.ppmy.cn/news/1509870.html

RAG与LLM原理及实践（11）--- Milvus hybrid search 源码分析及思想

目录背景 hybrid search 源码分析 WeightedRanker 源码 hybrid search 核心参数详解基本入参扩展入参 aysnc方式代码调用案例说明源码逻辑 prepare 调用过程 stub 调用结果 stub 调用过程 blocking 与 async 调用方式深入内部core weightedRanker 的ch…

WebAssembly 案例分析与爬取实战

WebAssembly 简介 WebAssembly 是一种可以使用非 JS 编程语言编写代码并且能在浏览器上运行的技术借助 Emscripten 工具，我们能将 C/C 文件转成 wasm 格式的文件， JS 可以直接调用该文件执行其中的方法这样做的好处如下： 一些核心逻辑&…

偶然遇到了scanf输入字符时，前面与要加上空格

任务描述本关任务：给定一个含有n个学生数据元素的数组a，用头插法来快速创建整个单链表。相关知识创建单链表有两种方法： 先初始化一个单链表，然后向其中一个一个地插入元素，通过调用基本运算算法来创建单链表。…

亚马逊测评的本质是什么？

在电商领域，无论是深耕国内市场还是拓展国际版图，精准选择并成功推广引流款产品至关重要，这一过程的核心环节之一便是对上架产品进行系统化测评，以确保其在市场中获得良好的曝光与转化，以下是对亚马逊平台测评流程的深…

https中的TLS协议

TLS简介 TLS是一种安全协议，用于在两个通信应用程序之间提供保密性和数据完整性。它是SSL协议的继任者，由IETF（互联网工程任务组）在RFC 5246中标准化。 TLS协议位于TCP/IP协议栈的传输层之上，它使用加密技术来确保…

【密码学】密钥管理：③密钥的保护、存储、备份、撤销、过期、销毁

之前的文章把密钥管理技术的关键内容讲完了，重点是理解密钥管理系统的概念、密钥生成和密钥分配。剩下的有关密钥的保护、存储、备份、撤销、过期和销毁的内容，就用这篇文章简单的做个介绍即可。如果没有看前面重点内容的可以点击下面链接跳转&#xff1…

低代码开发平台通过钉钉API实现流程管理数据对接

实例背景： CRM项目虽然实现了报价转订单的功能，但是客户还是遇到使用不方便的问题，客户的业务流程中，审核报价的时候是需要提供销售人员与客户的聊天记录截图，这都是在手机上的，电脑操作不方便&#xff0c…

Node.js、npm和ng之间的关系

一、Node.js 定义：Node.js是一个开源的、跨平台的JavaScript运行环境，它允许开发者在服务器端运行JavaScript代码。Node.js基于Chrome V8引擎，提供高性能和非阻塞I/O（输入输出）操作。功能：Node.js主要用于…

老显卡能否运行大语言模型

相关文章