Llama 3王者归来,可与GPT-4分庭抗礼,开源模型即将追上闭源模型了?

devtools/2024/9/23 1:12:23/

“有史以来最强大的开源大模型”Llama 3引爆AI圈,马斯克点赞,英伟达高级科学家Jim Fan直言,Llama 3将成为AI大模型发展历程的“分水岭”,AI顶尖专家吴恩达称Llama3是他收到的最好的礼物。

4月18日,AI圈再迎重磅消息,Meta带着号称“有史以来最强大的开源大模型”Llama 3登场了。

Meta本次开源了Llama 3 8B与70B两款不同规模的模型,供外部开发者免费使用,未来几个月,Meta 将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型。其中,大版本的Llama 3将有超过4000亿参数有望与Claude 3“一较高下”。

与此同时,Meta首席执行官扎克伯格宣布,基于最新的Llama 3模型,Meta AI助手现在已经覆盖Instagram、WhatsApp、Facebook等全系应用,并单独开启了网站,还有一个图像生成器,可根据自然语言提示词生成图片。

Llama 3的出现直接对标OpenAI的GPT-4,与“并不Open”的OpenAI截然不同,在AI圈围绕开源或闭源的路线争论不休之时,Meta坚定沿着开源路线朝AGI的圣杯发起了冲锋,为开源模型扳回一局。

知情人士透露,研究人员尚未开始对Llama 3进行微调,还未决定Llama 3是否将是多模态模型。有消息称,正式版的Llama 3将会在今年7月正式推出。

Meta AI 首席科学家、图灵奖得主Yann LeCun一边为Llama 3的发布“摇旗呐喊”,一边预告未来几个月将推出更多版本,称Llama 3 8B和Llama 3 70B是目前同体量下,性能最好的开源模型。llama 3 8B在某些测试集上性能比llama 2 70B还要强。

就连马斯克也现身于该评论区,一句简洁的“Not bad”表达了对 Llama 3 的认可和期待。

英伟达高级科学家Jim Fan认为,Llama 3的推出已经脱离了技术层面的进步,更是开源模型与顶尖闭源模型可分庭抗礼的象征

从Jim Fan分享的基准测试可以看出,Llama 3 400B 的实力几乎媲美 Claude“超大杯”以及新版 GPT-4 Turbo,将成为“分水岭”,相信它将释放巨大的研究潜力,推动整个生态系统的发展,开源社区或将能用上GPT-4级别的模型。

公布当天恰逢斯坦福大学教授,AI顶尖专家吴恩达的生日,吴恩达直言,Llama 3的发布是自己这辈子收到过的最好的礼物,谢谢你Meta!

OpenAI创始成员之一、特斯拉前AI总监Andrej Karpathy也对Llama 3表达了赞许。作为大语言模型领域的先驱之一,Karpathy认为Llama3的性能已接近GPT-4 的水平:

Llama3是Meta 发布的看起来非常强大的模型。坚持基本原则,在可靠的系统和数据工作上花费大量高质量时间,探索长期训练模型的极限。我也对 400B模型非常兴奋,它可能是第一个 GPT-4 级别的开源模型。我想很多人会要求更长的上下文长度。

我希望能有比 8B 更小参数,理想规模在0.1B到1B左右的模型,用于教育工作、(单元)测试、嵌入式应用等。

Rebuy公司AI总监、深度学习领域的博士Cameron R. Wolfe认为,Llama 3证明了训练优秀大语言模型的关键在于数据质量。他详细分析了Llama 3在数据方面做出的努力,包括:

1)15万亿个token的预训练数据: 比Llama 2多7倍,比DBRX的12万亿个还要多;

2)更多代码数据: 预训练过程中包含更多代码数据,提升了模型的推理能力;

3)更高效的tokenizer: 拥有更大的词汇表(128K tokens),提高了模型的效率和性能。

在Llama 3发布后,小扎向媒体表示,“我们的目标不是与开源模型竞争,而是要超过所有人,打造最领先的人工智能。”未来,Meta团队将会公布Llama 3的技术报告,披露模型更多的细节。

这场关于开源与闭源的辩论还远未结束,暗中蓄势待发的 GPT-4.5/5 也许会在今年夏天到来,AI领域的大模型之战还在上演。


http://www.ppmy.cn/devtools/5877.html

相关文章

论文笔记:How Can Large Language Models Understand Spatial-Temporal Data?

arxiv 202401 1 intro LLM在NLP和CV领域表现出色,但将它们应用于时空预测任务仍然面临挑战,主要问题包括: 数据不匹配 传统的LLMs设计用于处理序列文本数据,而时空数据具有复杂的结构和动态性,这两者之间存在显著差异…

大型网站系统架构演化实例_8.业务拆分

1.第九阶段:业务拆分 大型网站为了应对日益复杂的业务场景,通过使用分而治之的手段将整个网站业务分成不同的产品线。如大型购物交易网站都会将首页、商铺、订单、买家、卖家等拆分成不同的产品线,分归不同的业务团队负责。 具体到技术上&…

代码随想录-哈希表 | 242 有效的字母异位词

代码随想录-哈希表 | 242 有效的字母异位词 LeetCode 242-有效的字母异位词解题思路代码复杂度难点总结 LeetCode 242-有效的字母异位词 题目链接 题目描述 给定两个字符串 s 和 t ,编写一个函数来判断 t 是否是 s 的字母异位词。 注意:若 s 和 t 中每…

Redis系列之Cluster集群搭建

在上一篇博客,我们学习Redis哨兵Sentinel集群的搭建,redis的哨兵模式提供了比如监控、自动故障转移等高可用方案,但是这种方案,容量相对固定,要进行持续扩容或者数据分片就不适合,所以有另外一种更复杂的集…

PTA-L2-004 这是二叉搜索树吗?

一棵二叉搜索树可被递归地定义为具有下列性质的二叉树:对于任一结点, 其左子树中所有结点的键值小于该结点的键值;其右子树中所有结点的键值大于等于该结点的键值;其左右子树都是二叉搜索树。 所谓二叉搜索树的“镜像”&#xf…

STM32G431RBT6之时钟树配置与生成工程

默认大家都下载了蓝桥杯嵌入式资源包了哈. 首先,打开cubumx,修改RCC与SYS. 打开并观察原理图,发现晶振是24Mhz. 第一步,打开Clock Configuration. 第二步,修改晶振为原理图相对应的24Mhz. 第三步,切换到HSE. 第四步,切换到PLLCLK. 第五步,设置HCLK为80Mhz(15届真题要求为8…

全球首份网络空间测绘报告发布(2022年)

美国、俄罗斯网络韧性位居前 2 位,香港、洛杉矶、新德里位列全球安全城市前三甲 日前,第 55 届亚太先进网络学会(APAN)学术会议在尼泊尔首都加德满都举行,来自中国的网络空间测绘联合研究中心 ( 以下简称联合研究中心 …

前端文件word Excel pdf PPT预览

组件一 <template><j-modal:visible"visible":fullscreen"fileType!other&&fileType!word"ok"handleOk":width"1200"cancel"handleCancel"><vue-office-docxv-if"fileTypeword":src"…