OpenAI发布最新推理模型o3-mini

news/2025/2/4 8:29:12/

OpenAI于周五推出了新的AI"推理"模型o3-mini,这是该公司o系列推理模型家族的最新成员。

OpenAI此前在12月份就预告过这个模型,同时还展示了一个能力更强的系统o3。此次发布恰逢OpenAI面临诸多机遇与挑战的关键时刻。

目前,OpenAI正在应对外界对其在AI竞赛中可能落后于DeepSeek等中国企业的质疑。与此同时,该公司正在努力巩固与华盛顿的关系,推进其雄心勃勃的数据中心项目,据报道还在为史上最大规模融资之一做准备。

在这样的背景下,o3-mini应运而生。OpenAI将这款新模型定位为既"强大"又"实惠"的选择。

OpenAI发言人在接受采访时表示:“今天的发布标志着[…]在实现我们使先进AI更易获取的使命道路上迈出的重要一步。”

更高效的推理能力

与大多数大语言模型不同,o3-mini这样的推理模型在输出结果之前会进行彻底的事实核查。这种方式可以帮助模型避免一些常见的错误。虽然这些推理模型需要更多时间得出解决方案,但回报是它们在物理等领域往往更可靠——尽管仍非完美。

o3-mini专门针对STEM问题进行了优化,特别是在编程、数学和科学领域。OpenAI表示,该模型在能力上基本与o1系列(o1和o1-mini)相当,但运行更快,成本更低。

据公司称,外部测试者在超过一半的情况下更倾向于选择o3-mini的答案而非o1-mini。在A/B测试中,o3-mini在处理"复杂的现实问题"时,"重大错误"比o1-mini减少了39%,同时能提供更清晰的回答,响应速度提升了约24%。

部署和定价详情

o3-mini从周五开始通过ChatGPT向所有用户开放,但ChatGPT Plus和Team计划的付费用户每天可获得更高的150次查询限制。ChatGPT Pro订阅者将获得无限访问权限。一周后,o3-mini将向ChatGPT Enterprise和ChatGPT Edu用户开放。

付费计划用户可以通过ChatGPT的下拉菜单选择o3-mini。免费用户可以点击聊天栏中的新"推理"按钮,或让ChatGPT"重新生成"答案。

从周五开始,o3-mini也将通过OpenAI的API向特定开发者开放,但初期不支持图像分析。开发者可以根据使用场景和延迟需求选择"推理努力程度"(低、中、高)。

在定价方面,o3-mini的缓存输入令牌费用为每百万个0.55美元,输出令牌为每百万个4.40美元(约一百万个令牌相当于75万个词)。这比o1-mini便宜63%,与DeepSeek的R1推理模型定价相当具有竞争力。

性能与局限性

需要说明的是,o3-mini并非OpenAI迄今最强大的模型,也并不是在所有基准测试中都超越了DeepSeek的R1推理模型。

o3-mini在AIME 2024(一个测试模型理解和响应复杂指令能力的测试)上确实超过了R1,但仅限于高推理努力程度设置下。在编程相关的SWE-bench Verified测试中也略胜一筹(高出0.1分),同样需要在高推理努力程度下才能实现。在低推理努力程度设置下,o3-mini在测试博士级物理、生物和化学问题的GPQA Diamond上落后于R1。

不过,o3-mini确实能以具有竞争力的低成本和延迟来回答许多查询。OpenAI在其公告中详细比较了它与o1系列的表现,并强调了其在安全性方面的优势。

注:文中涉及的AI服务测试基于ChatShare技术平台完成,该平台提供ChatGPT/Claude/Midjourney等AI服务的国内支持,访问服务介绍页

文章来源:GPTCard科技


http://www.ppmy.cn/news/1569186.html

相关文章

数据结构之栈和队列(超详解)

文章目录 概念与结构栈队列 代码实现栈栈是否为空,取栈顶数据、栈的有效个数 队列入队列出队列队列判空,取队头、队尾数据,队列的有效个数 算法题解有效的括号用队列实现栈用栈实现队列复用 设计循环队列数组结构实现循环队列构造、销毁循环队…

tomcat核心组件及原理概述

目录 1. tomcat概述 1.1 概念 1.2 官网地址 2. 基本使用 2.1下载 3. 整体架构 3.1 核心组件 3.2 从web.xml配置和模块对应角度 3.3 如何处理请求 4. 配置JVM参数 5. 附录 1. tomcat概述 1.1 概念 什么是tomcat Tomcat是一个开源、免费、轻量级的Web服务器。 Tomca…

Ubuntu 20.04 Realtek 8852无线网卡驱动

个人博客地址:Ubuntu 20.04 Realtek 8852无线网卡驱动 | 一张假钞的真实世界 sudo apt-get update sudo apt-get install make gcc linux-headers-$(uname -r) build-essential gitgit clone https://github.com/lwfinger/rtw89.git -b v5 cd rtw89 && mak…

32.Word:巧克力知识宣传【32】

目录 NO1.2.3 NO4.5 NO5制表位设置​ ​NO6.7​ NO8.9图表 NO10​ NO11.12 NO1.2.3 FnF12或另存为:考生文件夹:Word.docx布局→纸张大小→页面设置对话框→页边距:上下左右ctrlx剪切文本→插入→文本框选择对应的→手动拖拉文本框到合…

UE5 蓝图计划 - Day 2-3:执行流与事件

在 Unreal Engine 5 的蓝图系统中,执行流(Execution Flow) 和 事件(Events) 是构建游戏逻辑的核心基础。通过执行流,蓝图可以按照特定的顺序运行节点逻辑;而事件则是蓝图的触发器,能…

Rust `struct`和 `enum`番外《哪吒、白蛇传?》

第一章:混天绫引发的血案——没有 struct 的江湖有多乱 天庭码农哪吒最近很头疼。 他写了个程序管理法宝库,结果代码乱成一锅粥: // 哪吒的早期代码:法宝属性分散传递 fn print_treasure(name: String, power_level: u32, is_…

安卓(android)读取手机通讯录【Android移动开发基础案例教程(第2版)黑马程序员】

一、实验目的(如果代码有错漏,可在代码地址查看) 1.熟悉内容提供者(Content Provider)的概念和作用。 2.掌握内容提供者的创建和使用方法。 4.掌握内容URI的结构和用途。 二、实验条件 1.熟悉内容提供者的工作原理。 2.掌握内容提供者访问其…

Android学习19 -- 手搓App

1 前言 之前工作中,很多时候要搞一个简单的app去验证底层功能,Android studio又过于重型,之前折腾gradle堪称噩梦。所以搞app都只有找应用的同事帮忙。一直想知道一些简单的app怎么能手搓一下,简单快速的搞出来。趁着现在有时间&…