OlympicArena 论文简介

news/2025/2/20 14:16:44/

近年来,大型语言模型(LLMs)和大型多模态模型(LMMs)的飞速发展,让AI逐渐展现出接近人类水平的认知推理能力。然而,如何科学评估AI在复杂问题解决中的真实水平,一直是学术界和产业界的难题。上海交通大学与上海人工智能实验室联合发布了名为OlympicArena的全新基准测试,堪称AI界的“奥林匹克竞赛场”。它不仅覆盖数学、物理、化学等七大学科,还包含上万道高难度双语题目,甚至能揪出GPT-4o的“软肋”——整体正确率仅39.97%!


为什么需要OlympicArena?

现有的AI评估基准大多聚焦单一学科或简单知识记忆,而真实世界的科学探索往往需要跨学科的综合推理能力。例如,解决一道国际物理奥赛题,可能需要结合数学建模、空间想象和符号解析能力。OlympicArena的诞生,正是为了填补这一空白。

  • 覆盖广:包含7大学科、62项国际奥赛题目,总计11,163道双语问题,涵盖纯文本与图文混合模态。
  • 难度高:问题分为“知识回忆”“概念应用”“认知推理”三级,其中67%的问题需高阶推理能力。
  • 评估细:不仅看答案对错,还通过“过程级评估”分析推理步骤,甚至能发现模型“蒙对答案但思路错误”的情况。

AI在OlympicArena中表现如何?

研究团队对包括GPT-4o、Claude3、Gemini等顶尖模型进行了全面测试,结果令人深思:

  1. 顶尖模型也“偏科”:GPT-4o以39.97%的整体正确率领先,但在数学(28.67%)和物理(29.71%)上表现最弱,生物学(52.18%)和地理(56.23%)稍好。
  2. 多模态竟是“双刃剑”:多数LMM模型(如LLaVA-NeXT)在图文混合问题上反而不如纯文本版本,仅GPT-4o等少数模型能有效利用视觉信息。
  3. 推理链条越长,错误越多:过程级评估显示,模型在推理后期步骤的错误率显著增加,暴露长链条逻辑推导的短板。

AI的“弱点”与“潜力”

通过细粒度分析,团队揭示了当前AI的三大瓶颈:

  • 逻辑分解能力弱:面对需拆解为子问题的复杂题目(如证明题),模型表现最差。
  • 空间与符号理解差:涉及几何图形、抽象符号(如化学方程式)的问题错误率高。
  • 知识深度不足:部分错误源于模型缺乏专业领域知识(如地质学中的地热效应)。

但研究也发现积极信号:即使答案错误,AI常能完成部分正确推理步骤。例如,在物理题中,GPT-4o虽未得出最终数值,却能正确应用能量守恒定律。这表明AI的推理潜力尚未被完全挖掘。


为何选择奥林匹克竞赛题?

论文作者指出,奥赛题的设计天然适合评估高阶认知能力:

  1. 跨学科性:例如化学题可能需数学计算和空间想象力。
  2. 创新性:题目常突破课本框架,要求“创造性地应用知识”。
  3. 严谨性:奥赛题需严格逻辑推导,避免“模糊回答”。

此外,团队通过数据泄漏检测证实,当前模型对OlympicArena题目的“死记硬背”现象极少,确保了评估的公平性。


开源资源与未来展望

OlympicArena不仅是一个基准测试,更提供全套研究工具:

  • 标注平台:支持社区协作完善数据集。
  • 自动评估工具:支持答案级和过程级评分。
  • 动态排行榜:研究者可提交模型结果,实时对比性能。

未来,团队计划每年更新题目,并探索AI在真实科研(如新材料设计)中的应用评估。正如论文通讯作者所言:“我们的目标不是让AI成为‘做题家’,而是推动其成为科学发现的伙伴。”


结语
OlympicArena的发布,为AI的能力评估树立了新标杆。它既揭示了当前技术的局限,也指明了突破方向——融合跨学科知识、提升多模态理解、强化长链条推理。或许在不远的未来,AI真能在“科学奥运会”中摘金夺银,而这场竞赛的起点,正是今天。

项目地址:https://github.com/GAIR-NLP/OlympicArena
论文链接:https://arxiv.org/abs/2406.12753


http://www.ppmy.cn/news/1573342.html

相关文章

基于SSM+uniapp的鲜花销售小程序+LW示例参考

1.项目介绍 系统角色:管理员、商户功能模块:用户管理、商户管理、鲜花分类管理、鲜花管理、订单管理、收藏管理、购物车、充值、下单等技术选型:SSM,Vue(后端管理web),uniapp等测试环境&#x…

【深度学习】计算机视觉(CV)-目标检测-DETR(DEtection TRansformer)—— 基于 Transformer 的端到端目标检测

1.什么是 DETR? DETR(DEtection TRansformer) 是 Facebook AI(FAIR)于 2020 年提出的 端到端目标检测算法,它基于 Transformer 架构,消除了 Faster R-CNN、YOLO 等方法中的 候选框(…

Lua | 每日一练 (2)

💢欢迎来到张胤尘的技术站 💥技术如江河,汇聚众志成。代码似星辰,照亮行征程。开源精神长,传承永不忘。携手共前行,未来更辉煌💥 文章目录 Lua | 每日一练 (2)题目参考答案 Lua | 每日一练 (2) …

在 Kubernetes (K8s) 环境中,备份 PostgreSQL 数据库

在 Kubernetes (K8s) 环境中,备份 PostgreSQL 数据库有一些特殊的考虑,因为数据库通常运行在容器中,并且数据存储在卷(如 PersistentVolume)中。你可以通过几种方式在外部备份 PostgreSQL 数据库,下面是一些…

【EndNote】WPS 导入EndNote 21

写在前面:有没有人有激活码,跪求! EndNote,在文献管理和文献引用方面很好用。写文章的时候,使用EndNote引入需要的文献会很方便。我目前用的WPS,想把EndNote的CWYW(Cite While You Write&#…

Flutter 3.29.0 新特性 CupertinoNavigationBar 可配置bottom属性

Flutter 3.29版本优化了开发流程并提升了性能,对 Impeller、Cupertino、DevTools 等进行了更新。 CupertinoNavigationBar和CupertinoSliverNavigationBar现在接受底部小部件,通常是搜索字段或分段控件。 例如本小节内容就是放置了一个输入框&#xff…

PostgreSQL 添加索引导致崩溃,参数调整需谨慎--文档未必完全覆盖场景

开头还是介绍一下群,如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, OceanBase, Sql Server等有问题,有需求都可以加群群内有各大数据库行业大咖,可以解决你的问题。加群请联系 liuaustin3 ,(共2720人左右 1 …

初识Linux(9):程序地址空间

实验&#xff1a; 1 #include <stdio.h>2 #include <sys/types.h>3 #include <unistd.h>4 #include <string.h>5 6 int g_val 100;7 8 int main()9 {10 printf("我是一个进程: pid:%d,ppid:%d\n",getpid(),getppid());11 pid_t id for…