OpenAI发布最新推理模型o3-mini

embedded/2025/2/4 10:06:36/

OpenAI于周五推出了新的AI"推理"模型o3-mini,这是该公司o系列推理模型家族的最新成员。

OpenAI此前在12月份就预告过这个模型,同时还展示了一个能力更强的系统o3。此次发布恰逢OpenAI面临诸多机遇与挑战的关键时刻。

目前,OpenAI正在应对外界对其在AI竞赛中可能落后于DeepSeek等中国企业的质疑。与此同时,该公司正在努力巩固与华盛顿的关系,推进其雄心勃勃的数据中心项目,据报道还在为史上最大规模融资之一做准备。

在这样的背景下,o3-mini应运而生。OpenAI将这款新模型定位为既"强大"又"实惠"的选择。

OpenAI发言人在接受采访时表示:“今天的发布标志着[…]在实现我们使先进AI更易获取的使命道路上迈出的重要一步。”

更高效的推理能力

与大多数大语言模型不同,o3-mini这样的推理模型在输出结果之前会进行彻底的事实核查。这种方式可以帮助模型避免一些常见的错误。虽然这些推理模型需要更多时间得出解决方案,但回报是它们在物理等领域往往更可靠——尽管仍非完美。

o3-mini专门针对STEM问题进行了优化,特别是在编程、数学和科学领域。OpenAI表示,该模型在能力上基本与o1系列(o1和o1-mini)相当,但运行更快,成本更低。

据公司称,外部测试者在超过一半的情况下更倾向于选择o3-mini的答案而非o1-mini。在A/B测试中,o3-mini在处理"复杂的现实问题"时,"重大错误"比o1-mini减少了39%,同时能提供更清晰的回答,响应速度提升了约24%。

部署和定价详情

o3-mini从周五开始通过ChatGPT向所有用户开放,但ChatGPT Plus和Team计划的付费用户每天可获得更高的150次查询限制。ChatGPT Pro订阅者将获得无限访问权限。一周后,o3-mini将向ChatGPT Enterprise和ChatGPT Edu用户开放。

付费计划用户可以通过ChatGPT的下拉菜单选择o3-mini。免费用户可以点击聊天栏中的新"推理"按钮,或让ChatGPT"重新生成"答案。

从周五开始,o3-mini也将通过OpenAI的API向特定开发者开放,但初期不支持图像分析。开发者可以根据使用场景和延迟需求选择"推理努力程度"(低、中、高)。

在定价方面,o3-mini的缓存输入令牌费用为每百万个0.55美元,输出令牌为每百万个4.40美元(约一百万个令牌相当于75万个词)。这比o1-mini便宜63%,与DeepSeek的R1推理模型定价相当具有竞争力。

性能与局限性

需要说明的是,o3-mini并非OpenAI迄今最强大的模型,也并不是在所有基准测试中都超越了DeepSeek的R1推理模型。

o3-mini在AIME 2024(一个测试模型理解和响应复杂指令能力的测试)上确实超过了R1,但仅限于高推理努力程度设置下。在编程相关的SWE-bench Verified测试中也略胜一筹(高出0.1分),同样需要在高推理努力程度下才能实现。在低推理努力程度设置下,o3-mini在测试博士级物理、生物和化学问题的GPQA Diamond上落后于R1。

不过,o3-mini确实能以具有竞争力的低成本和延迟来回答许多查询。OpenAI在其公告中详细比较了它与o1系列的表现,并强调了其在安全性方面的优势。

注:文中涉及的AI服务测试基于ChatShare技术平台完成,该平台提供ChatGPT/Claude/Midjourney等AI服务的国内支持,访问服务介绍页

文章来源:GPTCard科技


http://www.ppmy.cn/embedded/159435.html

相关文章

爱普生L3153打印机无线连接配置流程

家里使用的是移动宽带中兴路由器,有WPS功能,进入192.168.1.1管理员页面,用户名user,密码在路由器背面(可以登录后修改密码)。在网络-WLAN网络配置-WPS中,点击push button,激活路由器…

java 字符串日期字段格式化前端显示

在 Java 应用程序中,如果你有一个字符串类型的日期字段,并希望将其格式化后显示在前端,可以通过多种方式实现。这通常涉及到在后端将字符串转换为 Date 或 LocalDateTime 等对象,然后使用适当的注解或配置来确保它们以正确的格式序…

搜索与图论复习2最短路

单源最短路---所有边权是正数(Dijkstra算法O(n^2)--稠密图(邻接矩阵)和堆优化的Dijkstra算法O(mlogn)--稀疏图(邻接表)) 或存在负边权(Bellman-ford贝尔曼福特算法O(nm)和SPFA一般O(m) 最坏O(nm) ) 多源最短路---Floyd算法O(n^3) 一、迪杰斯特拉算法(Dijkstra):1…

Dijkstra算法解析

Dijkstra算法,用于求解图中从一个起点到其他所有节点的最短路径。解决单源最短路径问题的有效方法。 条件 有向 带权路径 时间复杂度 O(n平方) 方法步骤 1 把图上的点分为两个集合 要求的起点 和除了起点之外的点 。能直达的写上权值 不…

登录认证(5):过滤器:Filter

统一拦截 上文我们提到(登录认证(4):令牌技术),现在大部分项目都使用JWT令牌来进行会话跟踪,来完成登录功能。有了JWT令牌可以标识用户的登录状态,但是完整的登录逻辑如图所示&…

Chromium132 编译指南 - Android 篇(五):获取源码

1. 引言 在前面的章节中,我们详细介绍了编译 Chromium 132 for Android 所需的系统和硬件要求,以及如何配置基础开发环境和 depot_tools。完成这些准备工作后,下一步就是获取 Chromium 的源代码。获取源代码是编译 Chromium 的关键步骤&…

设计模式 - 行为模式_Template Method Pattern模板方法模式在数据处理中的应用

文章目录 概述1. 核心思想2. 结构3. 示例代码4. 优点5. 缺点6. 适用场景7. 案例:模板方法模式在数据处理中的应用案例背景UML搭建抽象基类 - 数据处理的 “总指挥”子类定制 - 适配不同供应商供应商 A 的数据处理器供应商 B 的数据处理器 在业务代码中整合运用 8. 总…

Day 20 卡玛笔记

这是基于代码随想录的每日打卡 235. 二叉搜索树的最近公共祖先 给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个结点 p、q,最近公共祖先表示为一个结点 x,满足 x 是 …