OpenAI发布最新推理模型o3-mini

devtools/2025/2/7 21:53:09/

OpenAI于周五推出了新的AI"推理"模型o3-mini,这是该公司o系列推理模型家族的最新成员。

OpenAI此前在12月份就预告过这个模型,同时还展示了一个能力更强的系统o3。此次发布恰逢OpenAI面临诸多机遇与挑战的关键时刻。

目前,OpenAI正在应对外界对其在AI竞赛中可能落后于DeepSeek等中国企业的质疑。与此同时,该公司正在努力巩固与华盛顿的关系,推进其雄心勃勃的数据中心项目,据报道还在为史上最大规模融资之一做准备。

在这样的背景下,o3-mini应运而生。OpenAI将这款新模型定位为既"强大"又"实惠"的选择。

OpenAI发言人在接受采访时表示:“今天的发布标志着[…]在实现我们使先进AI更易获取的使命道路上迈出的重要一步。”

更高效的推理能力

与大多数大语言模型不同,o3-mini这样的推理模型在输出结果之前会进行彻底的事实核查。这种方式可以帮助模型避免一些常见的错误。虽然这些推理模型需要更多时间得出解决方案,但回报是它们在物理等领域往往更可靠——尽管仍非完美。

o3-mini专门针对STEM问题进行了优化,特别是在编程、数学和科学领域。OpenAI表示,该模型在能力上基本与o1系列(o1和o1-mini)相当,但运行更快,成本更低。

据公司称,外部测试者在超过一半的情况下更倾向于选择o3-mini的答案而非o1-mini。在A/B测试中,o3-mini在处理"复杂的现实问题"时,"重大错误"比o1-mini减少了39%,同时能提供更清晰的回答,响应速度提升了约24%。

部署和定价详情

o3-mini从周五开始通过ChatGPT向所有用户开放,但ChatGPT Plus和Team计划的付费用户每天可获得更高的150次查询限制。ChatGPT Pro订阅者将获得无限访问权限。一周后,o3-mini将向ChatGPT Enterprise和ChatGPT Edu用户开放。

付费计划用户可以通过ChatGPT的下拉菜单选择o3-mini。免费用户可以点击聊天栏中的新"推理"按钮,或让ChatGPT"重新生成"答案。

从周五开始,o3-mini也将通过OpenAI的API向特定开发者开放,但初期不支持图像分析。开发者可以根据使用场景和延迟需求选择"推理努力程度"(低、中、高)。

在定价方面,o3-mini的缓存输入令牌费用为每百万个0.55美元,输出令牌为每百万个4.40美元(约一百万个令牌相当于75万个词)。这比o1-mini便宜63%,与DeepSeek的R1推理模型定价相当具有竞争力。

性能与局限性

需要说明的是,o3-mini并非OpenAI迄今最强大的模型,也并不是在所有基准测试中都超越了DeepSeek的R1推理模型。

o3-mini在AIME 2024(一个测试模型理解和响应复杂指令能力的测试)上确实超过了R1,但仅限于高推理努力程度设置下。在编程相关的SWE-bench Verified测试中也略胜一筹(高出0.1分),同样需要在高推理努力程度下才能实现。在低推理努力程度设置下,o3-mini在测试博士级物理、生物和化学问题的GPQA Diamond上落后于R1。

不过,o3-mini确实能以具有竞争力的低成本和延迟来回答许多查询。OpenAI在其公告中详细比较了它与o1系列的表现,并强调了其在安全性方面的优势。

注:文中涉及的AI服务测试基于ChatShare技术平台完成,该平台提供ChatGPT/Claude/Midjourney等AI服务的国内支持,访问服务介绍页

文章来源:GPTCard科技


http://www.ppmy.cn/devtools/156939.html

相关文章

[LeetCode]全排列I,II

全排列I 给定一个不含重复数字的整数数组 nums ,返回其 所有可能的全排列 。可以 按任意顺序 返回答案。 示例 1: 输入:nums [1,2,3] 输出:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]]示例 2: 输入&#xff1…

【SQL技术】不同数据库引擎 SQL 优化方案剖析

一、引言 在数据处理和分析的世界里,SQL 是不可或缺的工具。不同的数据库系统,如 MySQL、PostgreSQL(PG)、Doris 和 Hive,在架构和性能特点上存在差异,因此针对它们的 SQL 优化策略也各有不同。这些数据库中…

安装和卸载RabbitMQ

我的飞书:https://rvg7rs2jk1g.feishu.cn/docx/SUWXdDb0UoCV86xP6b3c7qtMn6b 使用Ubuntu环境进行安装 一、安装Erlang 在安装RabbitMQ之前,我们需要先安装Erlang,RabbitMQ需要Erlang的语言支持 #安装Erlang sudo apt-get install erlang 在安装的过程中,会弹出一段信息,此…

GitHub Copilot 越狱漏洞

研究人员发现了两种操控 GitHub 的人工智能(AI)编码助手 Copilot 的新方法,这使得人们能够绕过安全限制和订阅费用、训练恶意模型等。 第一种技巧是将聊天交互嵌入 Copilot 代码中,利用 AI 的问答能力,使其产生恶意输…

upload-labs通关

前言 我们下面进行下一个漏洞——文件上传的学习。文件上传是常见漏洞之一,是Web安全入门必学漏洞。为探讨清楚文件上传漏洞的诸多细节,我们特以经典的upload-labs进行从入门到进阶的专项训练。 在做题过程中,作者把用到的知识进行了全面、…

计算机毕业设计Python+Vue.js游戏推荐系统 Steam游戏推荐系统 Django Flask 游 戏可视化 游戏数据分析 游戏大数据 爬虫

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

QT简单实现验证码(字符)

0) 运行结果 1) 生成随机字符串 Qt主要通过QRandomGenerator类来生成随机数。在此之前的版本中,qrand()函数也常被使用,但从Qt 5.10起,推荐使用更现代化的QRandomGenerator类。 在头文件添加void generateRandomNumb…

微服务知识——微服务拆分规范

文章目录 一、微服务拆分规范1、高内聚、低耦合2、服务拆分正交性原则3、服务拆分层级最多三层4、服务粒度适中、演进式拆分5、避免环形依赖、双向依赖6、通用化接口设计,减少定制化设计7、接口设计需要严格保证兼容性8、将串行调用改为并行调用,或者异步…