Llama3相比较前两代的模型(Llama1和Llama2)有哪些升级?几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况

devtools/2025/1/16 2:31:57/

本文原文来自DataLearnerAI官方网站:Llama3相比较前两代的模型(Llama1和Llama2)有哪些升级?几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况 | 数据学习者官方网站(Datalearner)icon-default.png?t=N7T8https://www.datalearner.com/blog/1051713702716647

Llama3是MetaAI开源的最新一代大语言模型。一发布就引起了全球AI大模型领域的广泛关注。这是MetaAI开源的第三代大语言模型,也是当前最强的开源模型。但相比较第一代和第二代的Llama模型,Llama3的升级之处有哪些?本文以图表的方式总结Llama3的升级之处。

  • Llama3系列模型的总结
  • Llama3模型架构的升级
    • Llama系列的上下文长度一直在增长
    • Llama3模型的词汇表大幅提高
  • Llama3模型的训练过程的升级
    • Llama3模型的训练数据大幅增长
    • Llama3模型的训练时长大幅增加
  • Llama3的评测基准大幅提高
  • Llama3总结
Llama3模型架构的升级

首先是模型架构相关的升级。目前,官方没有公开Llama3的技术报告或者论文细节,在官方博客中只给出了一些简单的指标。这里我们对比的是上下文长度和词汇表。

Llama系列的上下文长度一直在增长

上下文长度每一代都翻倍了,在Llama3中,训练的时候用的就是8K上下文:

Llama3模型的词汇表大幅提高

在模型架构中另一个值得注意的是词汇表的大幅提高。在Llama1和Llama2中,MetaAI的词汇表都是32K大小,这可能与前两代模型的训练数据差距不大有关。而第三代的Llama3模型的词汇表大小变为128K,也就是说它的tokenizer有了较大的变化。

Llama3模型的训练数据大幅增长

Llama3的训练数据达到了15万亿,比第一代和第二代Llama模型加在一起还多好几倍。如下图所示,第一代的小一点的模型训练数据是1万亿tokens,而较大的650亿规模的模型训练数据是1.4万亿tokens。到了第二代Llama2系列,训练数据都增长到了2万亿tokens。

Llama3模型的训练时长大幅增加

到了Llama3模型这里,训练成本的增长更为恐怖,Llama3-8B模型的训练时长比650亿参数规模的Llama1模型还长。结果如下:

Llama3的评测基准大幅提高

Llama3-70B模型目前已经是Chatbot Arena大模型匿名评分最高的开源模型了。在英文的分项测试甚至超过了Claude-Opus模型,十分强悍。

数据来源:LMSys Chatbot Arena Leaderboard最新AI大模型排行榜与Arena Elo评分、MT-Bench得分(官方数据 - 中国站)| 数据学习 (DataLearner)

未来,如果4000亿参数规模的Llama3-400B也开源的话,那无疑是给闭源模型企业一颗巨大的炸弹。

Llama3的详细介绍参考:开源王者!全球最强的开源大模型Llama3发布!15万亿数据集训练,最高4000亿参数,数学评测超过GPT-4,全球第二! | 数据学习者官方网站(Datalearner)
Llama3在大模型匿名竞技场的得分排行榜:LMSys Chatbot Arena Leaderboard最新AI大模型排行榜与Arena Elo评分、MT-Bench得分(官方数据 - 中国站)| 数据学习 (DataLearner)
Llama3手动部署教程:使用Gradio配合transformers的text streamer实现Llama3-8B-Instruct的网页聊天机器人,流式输出 | 数据学习(DataLearner)


http://www.ppmy.cn/devtools/7259.html

相关文章

ES源码二:集群启动过程

命令行参数解析 Elasticsearch:在main里面创建了Elasticsearch实例,然后调用了main方法,这个main方法最终会调用到父类Command的main方法 这里做了几件事: 注册一个 ShutdownHook,其作用就是在系统关闭的时候捕获IO…

基于SSM+Jsp+Mysql的多人命题系统

开发语言:Java框架:ssm技术:JSPJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包…

React官网力荐Next.js:为何它取代了Create-React-App?

随着前端技术的快速发展,React作为一款领先的JavaScript库,不断推动着前端开发的变革。近期,React官网的一个显著变化引起了广大开发者的关注:它不再推荐使用Create-React-App作为构建React应用的默认工具,而是转向了N…

解释Python中的RESTful API设计和实现

解释Python中的RESTful API设计和实现 RESTful API,即符合REST(Representational State Transfer,表述性状态转移)架构风格的Web服务接口,已成为现代Web应用程序通信的标准。Python作为一种灵活且强大的编程语言&…

大数据平台搭建2024(三)

三:HBase安装 提前上传hbase安装包至虚拟机 1 上传、解压 tar -zxvf hbase-2.0.0-alpha2-bin.tar.gz -C /hadoop2 修改配置文件 在/hadoop/hbase-2.0.0-alpha2-bin/conf文件夹里 vi /hadoop/hbase-2.0.0-alpha2/conf/hbase-env.sh修改hbase-env.sh文件 export…

Android--ConnectivityManager使用

一、前言 Android10之后官方废弃了通过WifiManager连接WIFI的方式,现在要使用ConnectivityManager连接WIFI 二、连接WIFI public class MainActivity extends AppCompatActivity {private static final String TAG"lkx";Overrideprotected void onCrea…

日期类的实现

目录 Date.h Test.cpp 测试代码Test.cpp 日期类的实现 代码分享 Date.h #pragma once #include<iostream> using namespace std; #include<assert.h>class Date {//友元函数声明friend ostream& operator<<(ostream& out, Date& d);friend…

【0281】 Postgres内核级事务系统架构(重点)

文章目录 1. 事务系统架构1. 1 示例演示2. 事务终止2.1 低级别事务终止2.2 子事务处理3. 事务和子事务编号4. 联锁事务开始、事务结束和快照5. pg_xact 和 pg_subtrans6. 预写式日志(Write Ahead Log)1. 事务系统架构 PostgreSQL的事务系统是一个三层系统。底层实现了低级事务…