比 GPT-4 便宜 187 倍的Mistral 7B (非广告)

embedded/2024/12/22 2:55:26/

Mistral 7B 是一种设计用来快速处理较长文本的人工智能模型。它采用了一些特别的技术来提高速度和效率,比如“分组查询注意力(grouped-query attention)”和“滑动窗口注意力(sliding-window attention)”。

这些技术帮助模型在生成输出时保持较高的质量和速度,同时还能处理更多的上下文信息(最多 8,000 个单词左右)。相较于一些更大的模型,Mistral 7B 的运算速度更快,内存要求更低,也更节省成本,而且它是免费提供的,使用没有限制。

为了得出 Mistral AI mistral-7b-instruct 模型与 ChatGPT 3.5 或 4 模型之间的成本差异,我们进行了以下实验:

  1. 使用了一个 NVIDIA A100 40GB 的显卡来运行模型,这种显卡比较适合处理复杂的 AI 模型。
  2. 模型运行了 50 个并行请求(请求的数量可能会受到硬件配置的影响)。
  3. 在实验中,模型处理了大约 1420 万个输入标记和 120 万个输出标记。
  4. 实验持续了 40 分钟,期间处理了大约 1520 万个标记。
  5. 使用 NVIDIA A100 40GB 的成本大约是每小时 4 美元。

成本计算:

我将使用以下数据:

  • Prompt Tokens:14,253,584
  • Output Tokens:1,190,095
  • 每个Input Token的成本:ChatGPT 3.5 4K 模型为每 1K tokens 0.0015 美元,ChatGPT 4 为每 1K tokens 0.03 美元
  • 每个Output Token成本:ChatGPT 3.5 4K 模型为每 1K tokens 0.002 美元,ChatGPT 4 为每 1K tokens 0.06 美元
GPT 3.5 成本计算:

计算 GPT 3.5 的成本

GPT 4成本计算:

计算 GPT 4 的成本

Mistral AI 的费用:

使用 NVIDIA A100 40GB 显卡来运行 Mistral AI,成本约为每小时 4 美元。在 40 分钟内可以处理所有 1520 万个tokens,总成本为 2.67 美元。

下图是Mistral AI 与 ChatGPT 的成本比较

观察结果:
  • Mistral AI 比 GPT-4 便宜约 187 倍,比 GPT-3.5 模型便宜约 9 倍。
  • 通过增加并行处理,可以进一步降低 Mistral AI 的成本。
  • 通过量化模型,我们可以减少 GPU 的利用率,从而提高效率。
结论:
  • Mistral AI 是一个非常有前途的替代方案,尤其是与 GPT-3.5 相比。
  • 它特别适用于需要高吞吐量、更快处理速度且成本较低的场景。
  • Mistral AI 也可以作为一种预筛选工具,用于先筛选数据,再交给 GPT-4 进行更详细的处理,从而进一步降低总成本。

重复实验:

下面是示例代码:

  • 此代码将使用ThreadPoolExecutor并行处理
  • 并行线程数设置为 250,但您可以根据需要调整此数字。并行请求数取决于您的机器和 CPU 核心。
  • 这是一个示例代码,它不会在任何地方保存结果,因此您可能需要修改它以满足您的需要
python">def check_answer(i):try:messages = [{"role": "user","content": "You are an assistant"},{"role": "user","content":""""In the context provided in ```- Carefully create complete summary from above definitions and context provided in ```to provide your answer.- Lets think step by step.""""},{"role": "user","content": "```context: " + context + "```"}]chat_completion = openai.ChatCompletion.create(model="mistralai/Mistral-7B-Instruct-v0.1",messages=messages,temperature=0,max_tokens=4000)except:return Nonereturn chat_completiondef worker(i):try:result = check_answer(i)print(f"Completed index {i}")except concurrent.futures.TimeoutError:print(f"check_answer({i}) timed out. Moving on to the next index.")num_processes = 250with concurrent.futures.ThreadPoolExecutor(max_workers=num_processes) as executor:futures = [executor.submit(worker, i) for i in range(len(temp_result['content']))]concurrent.futures.wait(futures)

http://www.ppmy.cn/embedded/111425.html

相关文章

科技改变生活,IsMyLcdOK引领屏幕检测新风尚

科技之光,照亮繁忙的日常,让信息流通无阻,决策瞬间达成,助力我们在快节奏中精准协调,共创辉煌——而屏幕作为我们与数字世界交互的窗口,其质量直接关系到我们的使用体验。然而,随着液晶显示器的…

使用HTMLHeaderTextSplitter高效分割HTML文档

使用HTMLHeaderTextSplitter高效分割HTML文档 引言 在处理大型HTML文档时,有效地分割文本以保留其结构和语义是一项重要任务。本文将介绍LangChain库中的HTMLHeaderTextSplitter,这是一个强大的工具,可以根据HTML标题元素智能地分割文本,同…

每日学习一个数据结构-LSM树

文章目录 什么是LSM树?LSM 树的概念LSM树的基本原理LSM 树的主要组件LSM 树的工作流程LSM 树的优点LSM 树的缺点应用场景 MemTable与SSTable有何不同?MemTableSSTableMemTable与SSTable的比较 什么是LSM树? LSM 树(Log-Structure…

seafaring靶场漏洞测试攻略

打开网页 一.sql注入漏洞 1.输入框测试回显点 -1 union select 1,2,3# 2.查看数据库名 -1 union select 1,2,database()# 3.查看表名 -1 union select 1,2,group_concat(table_name) from information_schema.tables where table_schematest# 4.查看admin表中列名 -1 unio…

Codeforces practice C++ 2024/9/11 - 2024/9/13

D. Mathematical Problem Codeforces Round 954 (Div. 3) 原题链接:https://codeforces.com/contest/1986/problem/D 题目标签分类:brute force,dp,greedy,implementation,math,two pointers…

Redis的IO模型

Redis IO模型 Redis IO模型 使用的是基于 Reactor 模式的 I/O 多路复用模型。这个模型通过单线程事件循环来处理所有的客户端请求和响应。 基本模式 1. Reactor 模式 Reactor 模式是一种用于处理并发 I/O 操作的设计模式。它包含以下几个组件: 多路复用器&…

OpenSNN推文:神经网络(Neural Network)相关论文最新推荐(九月份)(二)

BP神经网络背景下应急通信网性能评价方法研究 论文链接:oalib简介:  在列举和阐述应急通信网性能评价指标的基础上,本文首先利用熵权系数法确定了各指标权重,进而通过模糊综合评判法确定了评判权值,最后通过构造人工…

Spring Boot项目中实现OAuth2客户端模式(Client Credentials Grant Type)

背景 在项目中难免需要和外部系统进行对接,既然对接那就需要进行鉴权认证,一般外围系统的对接交互方式协议分两种:https和内网;如果是https,有些场景也需要进一步进行接口层面的鉴权认证,虽然通道已经进行了保障了 OAuth2基础知识 在学习本篇OAuth2的客户端模式认证之…