比 GPT-4 便宜 187 倍的Mistral 7B (非广告)

news/2024/9/17 19:34:04/ 标签: python

Mistral 7B 是一种设计用来快速处理较长文本的人工智能模型。它采用了一些特别的技术来提高速度和效率,比如“分组查询注意力(grouped-query attention)”和“滑动窗口注意力(sliding-window attention)”。

这些技术帮助模型在生成输出时保持较高的质量和速度,同时还能处理更多的上下文信息(最多 8,000 个单词左右)。相较于一些更大的模型,Mistral 7B 的运算速度更快,内存要求更低,也更节省成本,而且它是免费提供的,使用没有限制。

为了得出 Mistral AI mistral-7b-instruct 模型与 ChatGPT 3.5 或 4 模型之间的成本差异,我们进行了以下实验:

  1. 使用了一个 NVIDIA A100 40GB 的显卡来运行模型,这种显卡比较适合处理复杂的 AI 模型。
  2. 模型运行了 50 个并行请求(请求的数量可能会受到硬件配置的影响)。
  3. 在实验中,模型处理了大约 1420 万个输入标记和 120 万个输出标记。
  4. 实验持续了 40 分钟,期间处理了大约 1520 万个标记。
  5. 使用 NVIDIA A100 40GB 的成本大约是每小时 4 美元。

成本计算:

我将使用以下数据:

  • Prompt Tokens:14,253,584
  • Output Tokens:1,190,095
  • 每个Input Token的成本:ChatGPT 3.5 4K 模型为每 1K tokens 0.0015 美元,ChatGPT 4 为每 1K tokens 0.03 美元
  • 每个Output Token成本:ChatGPT 3.5 4K 模型为每 1K tokens 0.002 美元,ChatGPT 4 为每 1K tokens 0.06 美元
GPT 3.5 成本计算:

计算 GPT 3.5 的成本

GPT 4成本计算:

计算 GPT 4 的成本

Mistral AI 的费用:

使用 NVIDIA A100 40GB 显卡来运行 Mistral AI,成本约为每小时 4 美元。在 40 分钟内可以处理所有 1520 万个tokens,总成本为 2.67 美元。

下图是Mistral AI 与 ChatGPT 的成本比较

观察结果:
  • Mistral AI 比 GPT-4 便宜约 187 倍,比 GPT-3.5 模型便宜约 9 倍。
  • 通过增加并行处理,可以进一步降低 Mistral AI 的成本。
  • 通过量化模型,我们可以减少 GPU 的利用率,从而提高效率。
结论:
  • Mistral AI 是一个非常有前途的替代方案,尤其是与 GPT-3.5 相比。
  • 它特别适用于需要高吞吐量、更快处理速度且成本较低的场景。
  • Mistral AI 也可以作为一种预筛选工具,用于先筛选数据,再交给 GPT-4 进行更详细的处理,从而进一步降低总成本。

重复实验:

下面是示例代码:

  • 此代码将使用ThreadPoolExecutor并行处理
  • 并行线程数设置为 250,但您可以根据需要调整此数字。并行请求数取决于您的机器和 CPU 核心。
  • 这是一个示例代码,它不会在任何地方保存结果,因此您可能需要修改它以满足您的需要
python">def check_answer(i):try:messages = [{"role": "user","content": "You are an assistant"},{"role": "user","content":""""In the context provided in ```- Carefully create complete summary from above definitions and context provided in ```to provide your answer.- Lets think step by step.""""},{"role": "user","content": "```context: " + context + "```"}]chat_completion = openai.ChatCompletion.create(model="mistralai/Mistral-7B-Instruct-v0.1",messages=messages,temperature=0,max_tokens=4000)except:return Nonereturn chat_completiondef worker(i):try:result = check_answer(i)print(f"Completed index {i}")except concurrent.futures.TimeoutError:print(f"check_answer({i}) timed out. Moving on to the next index.")num_processes = 250with concurrent.futures.ThreadPoolExecutor(max_workers=num_processes) as executor:futures = [executor.submit(worker, i) for i in range(len(temp_result['content']))]concurrent.futures.wait(futures)

http://www.ppmy.cn/news/1525080.html

相关文章

UNI-APP 富文本编辑器,可以对图片、文字格式进行编辑和混排。

✍找了几篇文章对比了一下,大体都差不多各有各的说辞和见解,但是没有提供/style/editor-icon.css文件,找起来虽然说不算太麻烦,但是不够直接,又要花费时间去弄,虽然用的不是很多但是,我还是决定自己写一篇&…

第15-05章:获取运行时类的完整结构

我的后端学习大纲 我的Java学习大纲 6.1.第一组方法API: 1.API列表:java.lang.Class 类: 2.代码测试: public class ReflectionUtils{ puvblic static void main(String[] args){}// 第一组Testpublic void api_01{//上面截图的代码......…

VR 尺寸美学主观评价-解决方案-现场体验研讨会报名

棣拓科技VR创新解决方案助力尺寸美学所见即所得! 诚邀各位行业专家莅临指导交流 请扫描海报二维码踊跃报名,谢谢 中国上海 2024.10.25 亮点介绍 1、通过精湛渲染技术,最真实展现设计效果,并通过VR设备一比一比例进行展现。 2、设置相关设…

基于ACMEv2协议的免费证书申请

项目:https://github.com/cook-code-jazor/acmex 非开源,使用webui管理证书的申请,所有文件本地化存储,支持windows/linux/osx. 运行 很简单,直接运行命令 ./acmex --runas console首次运行没有配置文件,会要求你填…

组件通信——provide 和 inject 实现爷孙组件通信

provide 和 inject 实现爷孙组件通信 介绍 provide 和 inject 是 Vue.js 提供的一种在组件之间共享数据的机制,它允许在组件树中的任何地方注入依赖项。这对于跨越多个层级的组件间通信特别有用,因此无需手动将 prop 数据逐层传递下去。 provide&#…

使用Selenium WebDriver捕获网络请求

在进行Web自动化测试时,捕获网络请求是十分重要的。通过这种方式,我们可以了解到页面加载过程中发生的网络活动,这对于调试、性能分析以及确保应用程序按预期工作都非常有用。本文将详细介绍如何使用Selenium WebDriver和Python来实现捕获网络请求的功能。 前置要求 在开始…

启动ros2_control与gazebo仿真

目录 问题:启动my_world.world文件时,报错: 原因: 解决方法: 1. 确保 robot_state_publisher 节点正在运行 2. 检查配置文件 总结: 问题:启动my_world.world文件时,报错&#x…

分支管理

目录 创建分支 切换分支 合并分支 删除分支 合并冲突 创建分支 git branch [分支]指令 创建新的分⽀后,Git 新建了⼀个指针叫dev, * 表⽰当前 HEAD 指向的分⽀是 master 分⽀。另外,可以通过⽬录结构发现,新的 dev 分⽀…

【CSS】尺寸单位

在 CSS 中,常见的尺寸单位有以下几种: 像素(px): 这是最常用的绝对单位。例如 width: 200px; 表示宽度为 200 像素。像素是固定的尺寸,不会随着屏幕分辨率或设备的不同而变化。 备注: 在不同的…

Harmony Next 文件命令操作(发送、读取、媒体文件查询)

查询文件位置 hdc shell mediatool query IMG_20240902_204224.jpg 输出示例 拉取文件 hdc file recv /storage/cloud/100/files/Photo/4/IMG_1725281044_036.jpg aa.jpg 发送文件 hdc file send aa.jpg /storage/media/100/local/files/Docs/Download/ab.jpg 下载目录位置…

兼容pc端和移动端的滑块校验

组件 <template><canvas :class"cvsClass" :width"props.width" :height"props.height" ref"cvs"></canvas> </template><script setup> import { ref, reactive, watch, nextTick } from "vue&q…

【C++开发中XML 文件的妙用】

在C中&#xff0c;XML&#xff08;可扩展标记语言&#xff09;文件通常用于存储配置数据、应用程序设置、数据交换格式等。由于其结构化和可读性强的特点&#xff0c;XML文件在配置管理、序列化、跨平台数据交换以及软件国际化等方面有着广泛的应用。 XML 文件的妙用 配置管理…

Go语言结构体和元组全面解析

Go语言中的复合类型与其应用 在编程中&#xff0c;标准类型虽然方便&#xff0c;但无法满足所有需求。Go通过支持结构体和元组类型&#xff0c;为开发者提供了自定义数据类型的能力。本文将介绍如何定义结构体、如何使用指针操作结构体、如何通过元组返回多个值等内容&#xf…

技术速递|VS Code Java 8月更新 - 重要 Gradle 更新!用户体验与入门向导增强

作者&#xff1a;Nick Zhu 排版&#xff1a;Alan Wang 大家好&#xff0c;欢迎来到 Visual Studio Code for Java 八月更新&#xff01;在这篇博客中&#xff0c;我们将涵盖重要 Gradle 更新、更多用户体验改进以及更好的入门体验&#xff0c;马上开始吧&#xff01; Gradle 更…

【开源免费】基于SpringBoot+Vue.JS图书个性化推荐系统(JAVA毕业设计)

本文项目编号 T 015 &#xff0c;文末自助获取源码 \color{red}{T015&#xff0c;文末自助获取源码} T015&#xff0c;文末自助获取源码 目录 一、系统介绍1.1 业务分析1.2 用例设计1.3 时序设计 二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究…

Rust 函数

文章目录 发现宝藏1. 函数的基本定义2. 函数调用3. 函数参数4. 语句与表达式5. 返回值总结 发现宝藏 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【宝藏入口】。 函数是 Rust 编程中的核心组成部分&…

【Go】Golang连接数据库使用HTTP协议

离开你是傻是对是错 是看破是软弱 这结果是爱是恨或者是什么 如果是种解脱 怎么会还有眷恋在我心窝 那么爱你为什么 &#x1f3b5; 黄品源/莫文蔚《那么爱你为什么》 package mainimport ("context""fmt""log""time&q…

从100G到400G:利用多模光纤升级数据中心网络

数据中心网络的持续发展 数据中心网络的持续发展涵盖了两个关键方面。首先&#xff0c;必须应对由机器学习和物联网等数据密集型应用所带来的带宽和流量需求的增长挑战&#xff0c;这些应用正在推动现有10G和40G链路的升级&#xff1b;其次&#xff0c;为了满足日益提升的可持…

Leetcode 三数之和

解题思路&#xff1a; 排序数组&#xff1a;首先对数组进行排序&#xff0c;以便使用双指针技术来查找三元组。双指针法&#xff1a;在遍历数组时&#xff0c;遍历固定三元组的第一个元素&#xff0c;然后使用双指针&#xff08;分别指向剩下数组的头和尾并相向而行&#xff0…

基于图谱的记忆存储 - mem0 graph memory + neo4j

log 日志版 【LLM最强大脑】基于图谱的记忆存储 - mem0 graph memory neo4j_哔哩哔哩_bilibili 获取API Key 谷歌邮箱注册&#xff0c;需科学上网&#xff0c;你知道的┗|&#xff40;O′|┛ 嗷~~ 获取 mem0ai key Dashboard | Mem0.ai 获取 neo4j key Neo4j Graph Databa…