快速体验 Llama3 的 4 种方式,本地部署,800 tokens/s 的推理速度真的太快了!

北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama1、Llama2和CodeLlama之后的第三代模型,Llama3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型,你有没有第一时间体验上呢,这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3,会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

我的新书《LangChain编程从入门到实践》 已经开售!推荐正在学习AI应用开发的朋友购买阅读,此书围绕LangChain梳理了AI应用开发的范式转变,除了LangChain,还涉及其他诸如 LIamaIndex、AutoGen、AutoGPT、Semantic Kernel等热门开发框架介绍使用。
LangChain编程从入门到实践

本文首发自个人博客 利用 Groq 体验 Llama3 的4种方式,800 tokens/s 的推理速度真的太快了!

Groq 有多快

先看两组数据

Llama3 8B不同平台的推理速度

Llama3 70B不同平台的推理速度

Llama3 8B 每秒钟 876 tokens 的输出速度,人眼基本跟不上模型的输出速度了,要知道 Llama3 8B 的质量与 GPT-3.5 和 Llama2 70B 相似,可以显著提升一些常见的 AI 应用场景的用户体验;RAG 的性能瓶颈不再是 LLM,而是 Retrieval,什么 HyDE(假设⽂档嵌⼊,利⽤ LLMs ⽣成假设性答案,以增强⽂档检索的准确性)、LLM 重排序器(对检索到的⽂档进⾏重排序,以优先选择最相关和上下⽂适当的信息)不再是 RAG 链路速度瓶颈…

初看数据,我以为是个噱头,本着务实的态度,我自己实际体验了一把,大家自己看 👇

Llama3 8B实测

Llama3 70B实测

结果 Llama3 70B 的实际体验结果比测评数据还高。

Groq 为什么这么快

源于 Groq 开发出了一种新的 AI 处理器 ——LPU(Language Processing Unit),其推理速度相较于英伟达 GPU 提高了 10 倍。

  1. 专业优化:LPU 专门针对语言模型推理任务进行了优化,特别是在序列处理方面。
  2. 创新架构:LPU 采用了一种新的计算模式,能够高效地按顺序处理任务,而不是并行处理。
  3. 软件先行:Groq 在硬件开发前就创新了软件和编译器,以确保芯片间的高效通信。
  4. 内存与处理单元的整合:LPU 的设计使得数据流局部性得到更好的利用。
  5. 针对性能和成本的优化:LPU 在设计时就注重了性能提升和成本降低。

详细科普请前往这里查看

4 种 Groq 体验方案

1. Web 端

无需登录,即可直接在网页版进行尝试,地址指路 👉groq.com,当前支持的模型有 Llama3 8B-4k 、 Llama3 70B-8k 、 Llama2 70B-8k 、 Mixtral 8X7B-32k 、 Gemma 7B-it

2. 移动端

Gorq 的 iOS 应用已经推出,目前不需要登录即可使用,通过下面的 TestFlight 安装地址:testflight.apple.com,支持的模型有 Llama3 8B 、 Llama3 70B 、 Llama2 70B 、 Mixtral 8X7B 、 Gemma 7B

Gorq iOS 应用

3. API 调用

先前往这个地址 https://console.groq.com/keys 申请好 API-KEY。

Groq API-Key申请

安装依赖库

pip install groq

调用

python">import os
from groq import Groqclient = Groq(api_key=os.environ.get("GROQ_API_KEY"),
)
llm = client.chat.completions.create(messages=[{"role": "user","content": "编写一篇中国神话故事,篇幅500~800字,必须使用中文输出",}],model="llama3-70b-8192",
)print(llm.choices[0].message.content)
4. LangChain 中使用

安装依赖库

pip install langchain-groq

使用

python">from langchain_core.prompts import ChatPromptTemplate
from langchain_groq import ChatGroqllm = ChatGroq(temperature=0, model_name="llama3-70b-8192")
human = "{text}"
prompt = ChatPromptTemplate.from_messages([("human", human)])chain = prompt | llmresponse = chain.invoke({"text": "编写一篇中国神话故事,篇幅500~800字,必须使用中文输出"})
print(response.content)

更多体验方式

如果由于网络原因你还是无法访问,请使用我在这篇文章推荐的5 个免费稳定的 Llama 3 在线体验地址

不可错过 👉:我欢迎加入我的会员计划,获取 AI 落地方面的优质信息和见解,节省你的时间。


http://www.ppmy.cn/devtools/17538.html

相关文章

Java后台开发的前置说明

1.知识点逻辑 一个部分 都是先挑重点知识点讲解 然后根据这些重点知识点去完成一个项目的开发 然后在到返回来解决这个部分其他细枝末节的知识点 2.软件开发的分工 我们大致可以将软件开发分成四块: 1.前端开发(比如开发电脑中的京东 htmlcssjavascript) 2.移动开…

JavaEE——Spring Boot + jwt

目录 什么是Spring Boot jwt? 如何实现Spring Boot jwt: 1. 添加依赖 2、创建JWT工具类 3. 定义认证逻辑 4. 添加过滤器 5、 http请求测试 什么是Spring Boot jwt? Spring Boot和JWT(JSON Web Token)是一对常…

视频批量高效剪辑,轻松翻转视频画面,支持将视频画面进行逆时针90度翻转。

在视频编辑的海洋中,你是否曾遇到过需要批量翻转视频画面的情况?传统的视频编辑工具在面对这样的需求时,往往显得力不从心,效率低下。今天,我要为大家介绍一款全新的视频编辑神器,它将彻底改变你的视频编辑…

ubuntu docker 安装 git服务器 gitea

文章目录 安装 docker-compose安装 Giteadocker-compose.yml 内容访问 Gitea初始配置参考资料官方资料安装docker-compose 安装 docker-compose sudo apt install docker-compose -y docker-compose --version安装 Gitea docker --version docker-compose --version mkdir -p…

模板(二)

文章目录 模板(二)1 非类型模板参数2. 模板的特化2.1. 概念2.2 函数模板特化2.3 类模板特化2.3.1 全特化2.3.2 偏特化2.3.3 类模板特化应用示例 3 模板的分离编译3.1 什么是分离编译3.2 模板的分离编译3.3 解决方法 4. 模板总结 模板(二&…

带你认识Selenium函数

Selenium除了用于Web应用程序的测试外,还可以执行许多自动化操作。以下是一些Selenium可以实现的功能,并附带相应的代码示例来详细说明: 自动化操作: 使用Selenium,我们可以模拟用户的行为,如点击、输入、…

MATLAB中左边的大括号最后一行为什么会留很大的空白——解决

看了一些帖子说改字体,但是并没有什么用,在此给出亲测有效的方法:改变矩阵的行间距 先说一下问题 上图中留有大块空白 **解决办法:**光标放在矩阵上 格式——矩阵——更改矩阵,在矩阵设置中选中“行高相等”&#xff…

python绘制三维图

在Python中,我们可以使用matplotlib库中的mplot3d工具包来绘制三维图。下面是一个简单的例子,绘制了一个三维的散点图和一个三维曲面图: 首先,确保已经安装了matplotlib库。如果没有,可以通过pip进行安装:…

Git 分支管理

Git 分支管理 | CoderMast编程桅杆Git 分支管理 在 Git 中,分支是指向提交对象(commits)的可变指针。它们是一系列提交的引用,其中的每个提交都包含了一组文件的状态以及指向其父提交的指针。主要的分支通常是 master 或 main&…

使用Visual Studio调试VisionPro脚本

使用Visual Studio调试VisionPro脚本 方式一: 修改项目文件 csproj 开启VisionPro脚本调试功能 Visual Studio配置启动项目 创建控制台应用程序 修改后缀名为csproj配置文件 添加 <StartAction>Program</StartAction> <StartProgram>C:\ProgramFiles\Co…

endnote21从安装到使用!文献引用!Mac版

视频学习和资源获取 新建库 选择上方导航栏处的File下的New 软件 软件界面可以分成四个部分 2是个人图书馆 3是对某一分类中文献的展示 最右侧是对具体一篇文献的摘要、编辑以及PDF 有回形针标志意味着这篇有全文&#xff0c;也就是有pdf 如果没有回形针代表它只有引文信…

李彦宏:程序员将不复存在! 周鸿祎回怼!网友:先把百度程序员都开除了!

近日&#xff0c;百度创始人、董事长兼首席执行官李彦宏在央视《对话》•开年说的访谈中指出&#xff1a;“基本上说以后其实不会存在“程序员”这种职业了&#xff0c;因为只要会说话&#xff0c;人人都会具备程序员的能力”。 “未来的编程语言只会剩下两种&#xff0c;一种…

如何在vue3+vite中优雅的使用iconify图标

前言 从Vue2迁移到Vue3&#xff0c;在使用上有着很大的差别。本文的话主要是针对图标的使用差别上进行分析&#xff0c;同时给出基于iconify图标库中unplugin-icons的用法。这里特殊说明一下&#xff1a;其实element-plus中用到的图标也是基于iconify图标库的&#xff0c;在我们…

数据结构-并查集

- # 并查集定义:并查集是一种用于维护一系列不相交集合的数据结构&#xff0c;每个集合可以看作一棵树&#xff0c;树中的节点代表元素&#xff0c;节点间的边表示元素之间的父子关系。并查集的核心操作 查找:确定一个元素所在的集合标识&#xff08;通常是树的根节点&#xff…

java-springmvc 01

springmvc也是在spring framework中的&#xff0c;不是一个单独的项目 MVC就是和Tomcat有关。 01.MVC启动的第一步&#xff0c;启动Tomcat&#xff08;这个和springboot的run方法启动Tomcat有关&#xff09; 02.SpringMVC中&#xff0c;最为核心的就是DispatcherServlet&…

Qt : 在QTreeWidget中添加自定义右键菜单

一、引言 如图&#xff0c;我们需要在一个QTreeWidget 控件中添加了自定义右键菜单。 二、思路 如何做到的呢&#xff0c;很简单。浅浅记录和分享一下。 继承QTreeWidget&#xff0c;定义一个子类CustomTreeWidget &#xff0c;在重写contextMenuEvent 事件即可。 三、代…

ROM修改进阶教程------如何去除安卓机型系统的开机向导 几种操作步骤解析

在和很多工作室定制化系统中。手机在第一次启动的时候系统都会进入设置向导,虽然可以设置手机的基本配置。但有很多客户需要去除手机的开机向导来缩短开机时间。确保手机直接进入工作状态。那么今天的教程针去除对开机向导的几种方法做个解析。机型很多版本不同。操作也有不同…

css:echarts渐变色转换为css渐变色

通过一个下拉框来选择渐变类型&#xff0c;为了简化&#xff0c;我设置了三种&#xff1a;水平方向的渐变、垂直方向的渐变和径向渐变用&#xff0c;表格来配置echarts渐变色的百分比位置和颜色。 config是表格里的数据格式如下&#xff1a; offset是百分比位置&#xff0c;co…

NIO之ByteBuffer

NIO中的ByteBuffer是缓冲区&#xff0c;其中有几个比较重要的属性capacity&#xff0c;position和limit。 capacity&#xff1a; 其中&#xff0c;capacity是缓冲区的容量大小&#xff0c;在分配内存空间后不会改变。 limit&#xff1a; limit是限制位置&#xff0c;在读写模…

深入探索Kubernetes(K8s):容器编排的王者

在云计算和容器化技术飞速发展的今天&#xff0c;Kubernetes&#xff08;简称K8s&#xff09;已经成为容器编排领域的王者。K8s以其强大的自动化部署、扩展和管理能力&#xff0c;为开发者和运维人员提供了极大的便利。本文将详细介绍K8s的基本概念、核心组件、使用场景以及最佳…