CaLM 因果推理评测体系:如何让大模型更贴近人类认知水平?

news/2024/9/25 13:40:07/

CaLM 是什么

CaLM(Causal Evaluation of Language Models,以下简称“CaLM”)是上海人工智能实验室联合同济大学、上海交通大学、北京大学及商汤科技发布首个大模型因果推理开放评测体系及开放平台。首次从因果推理角度提出评估框架,为 AI 研究者打造可靠评测工具,从而为推进大模型认知能力向人类水平看齐提供指标参考。

因果推理是人类认知能力最重要的特征之一,提升因果推理能力被视为由机器智能迈向人类智能水平的关键步骤。为对大模型进行科学有效的因果推理能力评估,上海人工智能实验室联合团队在 CaLM 中提出包含因果评估目标(Causal Target)、评估方式(Adaptation)、评估标准(Metric)及错误分析(Error)的评估框架,同时构建了超过12万道题目的中英文数据集。

基于 CaLM,联合团队首次对 28 个当前主流大模型进行了因果推理能力评测,共产生了 50 项实证性发现,本文摘录其中 6 个结论。相关论文共 315 页,可查看文末链接,或登录网页查阅下载。

CaLM 评估框架

(CaLM 评估框架) 

CaLM 采用了一套灵活、易扩展的评估框架,并按照预设实施顺序进行评测:因果评估目标(Causal Target)→评估方式(Adaptation)→评估标准(Metric)→错误分析(Error)。CaLM 的评估框架设计与实施流程,还可应用于数学推理、专业知识及长文本处理等模型能力评估体系构建。

自下而上的因果评估目标

在当前普遍采用的 Judea Pearl 提出的因果阶梯理论基础上,CaLM 进一步发展并明确了四个层次的因果任务:因果发现(Causal Discovery)、关联(Association)、干预(Intervention)及反事实(Counterfactuals)。每层次任务按复杂程度进行基础到高级的顺序排列,构成了自下而上的框架

因果发现旨在从数据或语义中推测出潜在的因果结构,关联探索数据间的统计依赖关系,干预预测有意改变环境中的变量所带来的影响,以及反事实则对假设的替代场景进行推理。针对四个任务层次,CaLM 设计了因果归因、解释移除效应、对撞偏差和反事实推理等 21 种因果场景,覆盖 COPA、CLADDER 及 CaLM-IV 等多种数据集和问题类型。

(CaLM 因果评估目标设置) 

丰富的评估方式

在评估方式的选择上,CaLM 采用了基准提示、对抗性提示、思维链及上下文学习等 9 种评估方式。综合考量了评测实践过程的受众广泛性、用户易用性以及实验控制性。

全面的评估标准

针对模型、提示词以及因果场景,CaLM 中分别设置了不同的评估标准,覆盖包括准确率、鲁棒性、理解度等 7 种,全面反映模型的因果推理能力和鲁棒性、提示词有效性。越复杂的因果场景模型越难解决,从而该场景成熟度越低,因此 CaLM 同时设置了考察因果场景成熟度的评估标准。

(CaLM 评估标准) 

系统的错误结果分析

联合团队认为,大模型评测中产生的错误,是应用于下一阶段研究的宝贵资源。通过发现并定义错误,研究人员能够更清晰地界定模型能力边界,识别模型存在的缺陷,并寻找对应提升路径。

为此,CaLM 在评估过程中,将模型产生的错误系统地分为两大类:定量错误(Quantitative)和定性错误(Qualitative)。不仅对每类错误进行明确的定义,还对所有定量错误都进行了统计分析,以量化错误的频率和模式。CaLM 也对于所有定性错误进行了深入的案例研究,以理解错误的具体情况和成因。

(CaLM 错误结果分析框架) 

CaLM 因果评测数据集

为了使因果推理能力评估有“考题”可循,联合团队构建了一套全新的评测数据集。基于四个层级的因果任务设置,涵盖了丰富的因果概念,包含超过 12 万条中英文数据。同时,研究人员还细致地将文本模态划分为日常表达(Natural)抽象表达(Symbolic)数学表达(Mathematical)三种子态,以考察模型在不同类型模态下的理解能力。

该数据集约 90% 的内容为全新构建,10% 来自于现有公开数据集,既能与已有公开结果进行对比,反映评估的有效性,又能避免训练集数据污染问题。

同时,为了更便捷地评估,团队还推出了 CaLM Lite 版本,包含 9200 条中英文数据。该数据集目前在司南 OpenCompass 大模型能力评测体系也进行了同步公开,可以使用司南 OpenCompass 的评估套件进行快速的模型测试。

(CaLM 数据集问题类型统计概览) 

CaLM 数据集题目展示

下面将选取 CaLM 中平均处理效应任务的题目进行展示。CaLM 提供了原始的因果图,条件概率,推理过程等,便于研究者进一步使用。

(CaLM 数据集题目展示) 

CaLM 评测结果

针对 28 个当前主流大模型,联合团队使用了  CaLM 进行因果推理能力评测,共产生了 50 项实证性发现。

评估数据和可视化结果均已发布至 CaLM 项目主页(https://opencausalab.github.io/CaLM),同时 CaLM 数据集、评估流程和错误分析的全流程均已开源,便于产学界自主研究使用。(https://github.com/OpenCausaLab/CaLM)

(CaLM 评测结果) 

代表性结论速览

1. 因果推理能力普遍欠缺。目前,大语言模型很难有效地执行需要复杂因果推理的任务。随着因果推理复杂性的增加,每个大语言模型的准确性均逐渐下降,最终几乎降至零。

2. 人类反馈的强化学习(RLHF)存在双面效应。RLHF 能够使模型输出与人类推理过程保持更紧密对齐。另一方面,使用RLHF微调的模型也容易受到用户错误指令的影响。

3. OpenAI 模型迭代提升显著。随着其每次更新,模型在执行因果推理任务能力方面都表现出实质性改进,其准确性和鲁棒性的平衡也显著提升。

4. 模型参数规模对因果推理能力的影响。在因果推理任务中,模型参数规模和准确性之间的关系并没有呈现出直接的单调递增,其他因素(例如训练数据和策略)会显著影响来自不同开发者模型的准确性。但在同一开发者的模型中,模型参数规模是准确性的一致且可靠的预测指标。

5. 提示词的改变并不能显著提高模型在复杂因果场景下的性能。由于模型的训练语料库中往往缺乏关于复杂因果推理任务的先验知识,在这种复杂的因果场景中,提示词的改变并不能显著提高模型性能。

6. 不同问题中出现相同回答的错误具有普遍性。受测的 28 个模型中,共计 26 个显示出对不同问题提供相同答案的倾向,表明它们无法有效地处理因果任务。

目前 CaLM 已加入司南 OpenCompass 大模型能力评测体系,欢迎社区的朋友参与共建!

数据集详情链接:

https://hub.opencompass.org.cn/dataset-detail/CaLM

使用 CompassKit 进行评测:

https://github.com/open-compass/opencompass

司南 OpenCompass 大模型能力评测体系将持续与业界共同推进大模型在因果推理领域的评估工作,携手构建一个开放、公平、透明的大语言模型评估体系,促进大语言模型技术的健康发展和持续创新。


OpenCompass 司南评测体系主要包括以下三大模块,欢迎大家使用。

1. 评测工具链体系 CompassKit,不仅提供完整的开源可复现评测代码,更提供了丰富的模型支持和高效的分布式评测策略。

开源地址:

https://github.com/open-compass

2. 高质量评测基准社区 CompassHub,面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。

社区地址:

https://hub.opencompass.org.cn/home

3. 权威评测榜单 CompassRank,作为 OpenCompass 中各类榜单的承载平台,CompassRank 不受任何商业利益干扰,保持中立性。

榜单地址:

https://rank.opencompass.org.cn/home


http://www.ppmy.cn/news/1530307.html

相关文章

Java并发编程 第八章 共享模型之工具

1. AQS原理 aqs全称是 AbstractQueuedSynchronizer,是阻塞式锁和相关的同步器工具的框架 特点: 用 state 属性来表示资源的状态(分独占模式和共享模式),子类需要定义如何维护这个状态,控制…

零基础学Axios

Axios官网:Axios官网 想用Axios前需要在项目中安装axios,安装方式如下: 下列是axios请去方式,本文主要讲解post和get请求,其他请求和这两种请求方法相同。 1 get请求 1.1 不带请求参数 前端 后端 1.2 带请求参数 前端 写法…

YOLOv8改进,YOLOv8替换主干网络为VanillaNet( CVPR 2023 华为提出的全新轻量化架构),大幅度涨点

改进前训练结果: 改进后训练结果: 摘要 基础模型的核心理念是“更多即不同”,这一理念在计算机视觉和自然语言处理领域取得了惊人的成功。然而,变压器模型的优化挑战和固有复杂性呼唤一种向简化转变的范式。在本研究中,引入了 VanillaNet,一种拥抱设计优雅的神经网络架…

从Yargs源码学习中间件的设计

yargs中间件介绍 yargs 是一个用于解析命令行参数的流行库,它能帮助开发者轻松地定义 CLI(命令行接口),并提供参数处理、命令组织、help文本自动生成等功能。今天我们来学习一下它对中间件的支持。 中间件的API详细信息&#xff0…

前端分段式渲染较长文章

实现思路: 1. 后端返回整篇文章。 2. JavaScript 分段处理:将文章按一定的字符或段落长度分割,然后逐步将这些段落追加到页面上。 3. 定时器或递归调用:使用 setInterval 或 setTimeout 来控制段落的逐步渲染。 代码实现示例 …

Python发送邮件附件全攻略:从设置到发送!

Python发送邮件附件的详细步骤?如何利用Python发信? Python作为一种强大的编程语言,提供了丰富的库来帮助我们自动化这一过程。AokSend将详细介绍如何使用Python发送邮件附件,从基础设置到实际发送,带你一步步掌握这一…

飞驰云联FTP替代方案:安全高效文件传输的新选择

FTP协议广泛应用各行业的文件传输场景中,由于FTP应用获取门槛低、使用普遍,因此大部分企业都习惯使用FTP进行文件传输。然而面临激增的数据量和网络安全威胁的不断演变,FTP在传输安全性与传输性能上有所欠缺,无法满足企业现在的高…

如何有效规避亚马逊测评中的砍单封号风险,保障账号安全?

近期,众多朋友在亚马逊平台进行测评时遭遇了订单被取消(砍单)甚至账号被封禁的问题,即便使用相同的测评系统和操作方法,不同用户间的体验却大相径庭。这一现象往往源于测评环境的不完善,一旦账号被风控系统…