ChatGPT 主流模型GPT-4/GPT-4o mini的参数规模是多大?

ops/2025/1/13 9:04:42/

微软论文又把 OpenAI 的机密泄露了??在论文中明晃晃写着:

  • o1-preview 约 300B;o1-mini 约 100B
  • GPT-4o 约 200B;GPT-4o-mini 约 8B
  • Claude 3.5 Sonnet 2024-10-22 版本约 175B
  • 微软自己的 Phi-3-7B,这个不用约了就是 7B

英伟达 2024 年初发布 B200 时,就摊牌了 GPT-4 是 1.8T MoE 也就是 1800B,这里微软的数字更精确,为 1.76T

除此之外,论文中给 OpenAI 的 mini 系列,Claude3.5 Sonnet 也都附上了参数,总结如下:

  • o1-preview 约 300B;o1-mini 约 100B

  • GPT-4o 约 200B;GPT-4o-mini 约 8B

  • Claude 3.5 Sonnet 2024-10-22 版本约 175B

  • 微软自己的 Phi-3-7B,这个不用约了就是 7B

虽然论文中后面也有免责声明:

确切数据尚未公开,这里大部分数字是估计的。

但还是有不少人觉得事情没这么简单。

比如为什么唯独没有放谷歌 Gemini 模型的参数估计?或许他们对放出来的数字还是有信心的。

也有人认为,大多数模型都是在英伟达 GPU 上运行的,所以可以通过 token 生成速度来估计。

只有谷歌模型是在 TPU 上运行的,所以不好估计。

而且微软也不是第一次干这事了。

2023 年 10 月,微软就在一篇论文里“意外”曝出 GPT-3.5-Turbo 模型的 20B 参数,在后续论文版本中又删除了这一信息。

微软这篇论文说了什么

实际上,原论文介绍了一项与医学相关的 benchmark——MEDEC。

12 月 26 日就已经发布,不过是比较垂直领域的论文,可能非相关方向的人都不会看,年后才被列文虎克网友们发现。

研究起因是,据美国医疗机构调查显示,有 1/5 的患者在阅读临床笔记时报告发现了错误,而 40% 的患者认为这些错误可能影响他们的治疗。

而且另一方面,LLMs (大语言模型)被越来越多的用于医学文档任务(如生成诊疗方法)。

因此,MEDEC 此番有两个任务。一是识别并发现临床笔记中的错误;二是还能予以改正。

为了进行研究,MEDEC 数据集包含 3848 份临床文本,其中包括来自三个美国医院系统的 488 份临床笔记,这些笔记之前未被任何 LLM 见过。

它涵盖五种类型的错误(诊断、管理、治疗、药物治疗和致病因子),这些错误类型是通过分析医学委员会考试中最常见的问题类型选择的,并由 8 位医疗人员参与错误标注。

而参数泄露即发生在实验环节

按照实验设计,研究者将选取近期主流的大模型和小模型来参与笔记识别和纠错。

而就在介绍最终选定的模型时,模型参数、发布时间一下子都被公开了。

对了,省去中间过程,这项研究得出的结论是:Claude 3.5 Sonnet 在错误标志检测方面优于其他 LLM 方法,得分为 70.16,第二名是 o1-mini。

网友:按价格算合理

每一次,ChatGPT 相关模型架构和参数泄露,都会引起轩然大波,这次也不例外。

2023 年 10 月,微软论文声称 GPT-3.5-Turbo 只有 20B 参数的时候,就有人感叹:难怪 OpenAI 对开源模型这么紧张。

2024 年 3 月,英伟达确认 GPT-4 是 1.8T MoE,而 2000 张 B200 可以在 90 天内完成训练的时候,大家觉得 MoE 已经且仍将是大模型架构趋势。

这一次,基于微软估计的数据,网友们主要有几个关注点:

值得一提的是Claude!!

如果 Claude 3.5 Sonnet 真的比 GPT-4o 还小,那 Anthropic 团队就拥有技术优势。

PS真的觉得claude不错,特别是写代码真的爽:需要升级的童鞋可以参考教程:国内如何使用支付宝注册Claude账号和升级订阅开通Claude Pro - AI is all your need!

以及不相信 GPT-4o-mini 只有 8B 这么小。

不过此前也有人根据推理成本来算,4o-mini 的价格是 3.5-turbo 的 40%,如果 3.5-turbo 的 20B 数字准确,那么 4o-mini 刚好是 8B 左右。

不过这里的 8B 也是指 MoE 模型的激活参数。

总之,OpenAI 大概是不会公布确切数字了。

此前阿尔特曼征集 2024 年新年愿望,最后公布的清单中还有“开源”。2025 年的最新版本里,开源已经被去掉了。

论文地址:https://arxiv.org/pdf/2412.19260


http://www.ppmy.cn/ops/149687.html

相关文章

在Node.js中借助腾讯云SDK调用混元大模型

前言 随着人工智能技术的不断发展,强大的大模型如腾讯的混元大模型(HunYuan)为开发者提供了丰富的智能服务能力。本文将详细介绍如何在 Node.js 环境中使用腾讯云提供的 SDK 调用混元大模型,构建一个简单的 API 接口来实现与模型…

使用conda出现requests.exceptions.HTTPError 解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

景联文科技提供高质量多模态数据处理服务,驱动AI新时代

在当今快速发展的AI时代,多模态数据标注成为推动人工智能技术进步的关键环节。景联文科技作为行业领先的AI数据服务提供商,专注于为客户提供高质量、高精度的多模态数据标注服务,涵盖图像、语音、文本、视频及3D点云等多种类型的数据。通过专…

小学校园安全用电 防触电设备功能介绍 #电不伤人,电不漏电#

安科瑞刘鸿鹏 摘要 电力作为一种清洁能源,给人们带来了舒适、便捷的电气化生活。与此同时,由于使用不当,维护不及时等原因引发的漏电触电和电气火灾事故,也给人们的生命和财产带来了巨大的威胁和损失。 为了防止低压配电系统发…

C++ Primer Notes(3): 哪些人可以看C++ Primer

在知乎搜索 “C Primer”,靠前的一个问答是 「C Primer 是每位C coder心中的圣经吗?」。 本篇挑选一些观点,予以批评。 错误观点1:此书没有一句讲程序怎么跑起来 书中没讲程序怎么跑起来, 怎么使用 IDE , …

初学stm32 --- ADC多通道采集

与单通道采集,主要区别就是设置转换通道个数、开启扫描模式、每个ADC通道和相应的GPIO都要进行配置 void adc_dma_init(uint32_t DstAddress) {ADC_ChannelConfTypeDef adc_channel_config_struct;dma_for_adc_init();g_adc_handle_struct.Instance ADC1; …

人工智能-数据分析及特征提取思路

1、概况 基于学生行为数据预测是否涉黄、涉黑等。 2.数据分析 数据分析的意义包括得到数据得直觉、发掘潜在的结构、提取重要的变量、删除异常值、检验潜在的假设和建立初步的模型。 2.1数据质量分析 2.1.1数据值分析 查看数据类型: 首先明确各字段的数据类型…

蓝桥杯历届真题 #分布式队列 (Java,C++)

文章目录 题目解读[蓝桥杯 2024 省 Java B] 分布式队列题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示 思路完整代码 题目解读 题目链接 [蓝桥杯 2024 省 Java B] 分布式队列 题目描述 小蓝最近学习了一种神奇的队列:分布式队列。简单来说&#x…