ChatGPT最新版本“o3”的概要

news/2025/1/7 21:41:13/

o3简介

o3于2024年12月20日发布——也就是OpenAI 12天直播的最后一天。目前处于安全性测试阶段。它是o1的继任者,旨在处理更复杂的推理任务。o3特别针对数学、科学和编程等领域进行了优化。

o3在多项基准测试中表现出色。例如,在ARC-AGI基准测试中,它的准确率是o1的三倍,并在Frontier Math测试中超越了其他模型。另外,在SWE-Bench Verified等软件工程测试中也表现出高水平。

名称由来:选择“o3”这个名字是为了避免与英国电信公司O2的商标冲突,OpenAI为避免法律问题,跳过了o2。


o3被视为最接近AGI(通用人工智能)的模型之一,它在推理能力和多任务处理上的表现受到关注。


o3性能测试详情

  • SWE-Bench Verified:这项测试评估软件问题解决能力。o3得分71.7%,大大超过o1的48.9%和o1-preview的41.3%。

  • 竞赛编程(Codeforces):o3在Codeforces平台上达到了2727的等级评分,超过了OpenAI的首席研究员的成绩。

  • ARC-AGI基准测试:o3在这项测试中取得了非常高的分数。在低计算模式下得分为75.7%,高计算模式下达到了87.5%。人类的平均表现为85%。

  • Frontier Math:o3展示了解决数学家需要数天才能完成的问题的能力,得分为25.2%,这相比前最佳成绩(State of the Art, SoTA)的2%有了显著提升。

  • AIME和GPQA Diamond:在这些测试中,o3也展示了性能的巨大飞跃,特别是在GPQA Diamond测试中超过了专家的平均水平。

成本

尽管o3提供了高水平的推理能力,但在高计算模式下每任务的成本非常高,对于像ARC-AGI这样的特殊基准测试,执行一次可能达到数千美元的成本。然而,对于日常使用来说,成本不应如此高昂。


http://www.ppmy.cn/news/1561060.html

相关文章

C++ 日志库 spdlog 使用教程

Spdlog是一个快速、异步、线程安全的C日志库,他可以方便地记录应用程序的运行状态,并提供多种输出格式。官网:https://github.com/gabime/spdlog 安装教程可以参考:https://blog.csdn.net/Harrytsz/article/details/144887297 S…

自动化删除work32挖矿脚本

work32 是一个挖矿病毒,会进入到linux服务器中挖矿,导致你的服务器很卡,删了又有,根本停不掉,那我们自动化删 #!/bin/bash# 目标进程关键词 PROCESS_NAME"work32"while true; do# 检查是否存在目标进程pid$…

MySQL数据表设计 系统权限表设计 权限、角色、用户表设计

数据库 创建 CREATE DATABASE my_database CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; 修改 ALTER DATABASE my_database CHARACTER SETutf8mb4 COLLATEutf8mb4_unicode_ci; 字符集:utf8和utf8mb4,推荐使用:utf8mb4 utf8&…

ceph文件系统

ceph文件系统 ceph基础知识ceph系统的核心原理和组件1. 架构和组件1.1 Ceph Monitor (MON)1.2 Ceph OSD (Object Storage Daemon)1.3 Ceph MDS (Metadata Server)1.4 Ceph Client 2. 数据存储与分布2.1 CRUSH 算法2.2 数据副本与容错 3. 数据一致性4. pg和存储池与osd之间的关系…

掌控ctf-2月赛

没事干 随便刷刷题 1伪协议读取系统进程 源码 <?php highlight_file(__FILE__); require_once flag.php; if(isset($_GET[file])) {require_once $_GET[file]; } 伪协议读取flag.php&#xff0c;/proc/self指向当前进程的 exp ?filephp://filter/readconvert.base64…

Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码 【AI辅助开发系列】

&#x1f380;&#x1f380;&#x1f380;【AI辅助编程系列】&#x1f380;&#x1f380;&#x1f380; Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码Visual Studio 安装和管理 GitHub CopilotVisual Studio 使用 GitHub Copilot 扩展Visual Studio 使用 GitHu…

Django Swagger文档库drf-spectacular

一、概述 drf-spectacular 是一个为 Django REST Framework (DRF) 设计的 OpenAPI 3.0 和 3.1 规范的生成器。它旨在提供既理智又灵活的方式来创建 API 文档&#xff0c;主要实现以下三个目标&#xff1a; 从 DRF 中提取尽可能多的 schema 信息提供灵活性&#xff0c;使 schema…

2025年贵州省职业院校技能大赛信息安全管理与评估赛项规程

贵州省职业院校技能大赛赛项规程 赛项名称&#xff1a; 信息安全管理与评估 英文名称&#xff1a; Information Security Management and Evaluation 赛项组别&#xff1a; 高职组 赛项编号&#xff1a; GZ032 1 2 一、赛项信息 赛项类别 囚每年赛 □隔年赛&#xff08;□单数年…