CaLM 因果推理评测体系：如何让大模型更贴近人类认知水平？

CaLM 是什么

CaLM（Causal Evaluation of Language Models，以下简称“CaLM”）是上海人工智能实验室联合同济大学、上海交通大学、北京大学及商汤科技发布首个大模型因果推理开放评测体系及开放平台。首次从因果推理角度提出评估框架，为 AI 研究者打造可靠评测工具，从而为推进大模型认知能力向人类水平看齐提供指标参考。

因果推理是人类认知能力最重要的特征之一，提升因果推理能力被视为由机器智能迈向人类智能水平的关键步骤。为对大模型进行科学有效的因果推理能力评估，上海人工智能实验室联合团队在 CaLM 中提出包含因果评估目标（Causal Target）、评估方式（Adaptation）、评估标准（Metric）及错误分析（Error）的评估框架，同时构建了超过12万道题目的中英文数据集。

基于 CaLM，联合团队首次对 28 个当前主流大模型进行了因果推理能力评测，共产生了 50 项实证性发现，本文摘录其中 6 个结论。相关论文共 315 页，可查看文末链接，或登录网页查阅下载。

CaLM 评估框架

（CaLM 评估框架）

CaLM 采用了一套灵活、易扩展的评估框架，并按照预设实施顺序进行评测：因果评估目标（Causal Target）→评估方式（Adaptation）→评估标准（Metric）→错误分析（Error）。CaLM 的评估框架设计与实施流程，还可应用于数学推理、专业知识及长文本处理等模型能力评估体系构建。

自下而上的因果评估目标

在当前普遍采用的 Judea Pearl 提出的因果阶梯理论基础上，CaLM 进一步发展并明确了四个层次的因果任务：因果发现（Causal Discovery）、关联（Association）、干预（Intervention）及反事实（Counterfactuals）。每层次任务按复杂程度进行基础到高级的顺序排列，构成了自下而上的框架。

因果发现旨在从数据或语义中推测出潜在的因果结构，关联探索数据间的统计依赖关系，干预预测有意改变环境中的变量所带来的影响，以及反事实则对假设的替代场景进行推理。针对四个任务层次，CaLM 设计了因果归因、解释移除效应、对撞偏差和反事实推理等 21 种因果场景，覆盖 COPA、CLADDER 及 CaLM-IV 等多种数据集和问题类型。

（CaLM 因果评估目标设置）

丰富的评估方式

在评估方式的选择上，CaLM 采用了基准提示、对抗性提示、思维链及上下文学习等 9 种评估方式。综合考量了评测实践过程的受众广泛性、用户易用性以及实验控制性。

全面的评估标准

针对模型、提示词以及因果场景，CaLM 中分别设置了不同的评估标准，覆盖包括准确率、鲁棒性、理解度等 7 种，全面反映模型的因果推理能力和鲁棒性、提示词有效性。越复杂的因果场景模型越难解决，从而该场景成熟度越低，因此 CaLM 同时设置了考察因果场景成熟度的评估标准。

（CaLM 评估标准）

系统的错误结果分析

联合团队认为，大模型评测中产生的错误，是应用于下一阶段研究的宝贵资源。通过发现并定义错误，研究人员能够更清晰地界定模型能力边界，识别模型存在的缺陷，并寻找对应提升路径。

为此，CaLM 在评估过程中，将模型产生的错误系统地分为两大类：定量错误（Quantitative）和定性错误（Qualitative）。不仅对每类错误进行明确的定义，还对所有定量错误都进行了统计分析，以量化错误的频率和模式。CaLM 也对于所有定性错误进行了深入的案例研究，以理解错误的具体情况和成因。

（CaLM 错误结果分析框架）

CaLM 因果评测数据集

为了使因果推理能力评估有“考题”可循，联合团队构建了一套全新的评测数据集。基于四个层级的因果任务设置，涵盖了丰富的因果概念，包含超过 12 万条中英文数据。同时，研究人员还细致地将文本模态划分为日常表达（Natural）、抽象表达（Symbolic）和数学表达（Mathematical）三种子态，以考察模型在不同类型模态下的理解能力。

该数据集约 90% 的内容为全新构建，10% 来自于现有公开数据集，既能与已有公开结果进行对比，反映评估的有效性，又能避免训练集数据污染问题。

同时，为了更便捷地评估，团队还推出了 CaLM Lite 版本，包含 9200 条中英文数据。该数据集目前在司南 OpenCompass 大模型能力评测体系也进行了同步公开，可以使用司南 OpenCompass 的评估套件进行快速的模型测试。

（CaLM 数据集问题类型统计概览）

CaLM 数据集题目展示

下面将选取 CaLM 中平均处理效应任务的题目进行展示。CaLM 提供了原始的因果图，条件概率，推理过程等，便于研究者进一步使用。

（CaLM 数据集题目展示）

CaLM 评测结果

针对 28 个当前主流大模型，联合团队使用了 CaLM 进行因果推理能力评测，共产生了 50 项实证性发现。

评估数据和可视化结果均已发布至 CaLM 项目主页（https://opencausalab.github.io/CaLM），同时 CaLM 数据集、评估流程和错误分析的全流程均已开源，便于产学界自主研究使用。（https://github.com/OpenCausaLab/CaLM）

（CaLM 评测结果）

代表性结论速览

1. 因果推理能力普遍欠缺。目前，大语言模型很难有效地执行需要复杂因果推理的任务。随着因果推理复杂性的增加，每个大语言模型的准确性均逐渐下降，最终几乎降至零。

2. 人类反馈的强化学习（RLHF）存在双面效应。RLHF 能够使模型输出与人类推理过程保持更紧密对齐。另一方面，使用RLHF微调的模型也容易受到用户错误指令的影响。

3. OpenAI 模型迭代提升显著。随着其每次更新，模型在执行因果推理任务能力方面都表现出实质性改进，其准确性和鲁棒性的平衡也显著提升。

4. 模型参数规模对因果推理能力的影响。在因果推理任务中，模型参数规模和准确性之间的关系并没有呈现出直接的单调递增，其他因素（例如训练数据和策略）会显著影响来自不同开发者模型的准确性。但在同一开发者的模型中，模型参数规模是准确性的一致且可靠的预测指标。

5. 提示词的改变并不能显著提高模型在复杂因果场景下的性能。由于模型的训练语料库中往往缺乏关于复杂因果推理任务的先验知识，在这种复杂的因果场景中，提示词的改变并不能显著提高模型性能。

6. 不同问题中出现相同回答的错误具有普遍性。受测的 28 个模型中，共计 26 个显示出对不同问题提供相同答案的倾向，表明它们无法有效地处理因果任务。

目前 CaLM 已加入司南 OpenCompass 大模型能力评测体系，欢迎社区的朋友参与共建！

数据集详情链接：

https://hub.opencompass.org.cn/dataset-detail/CaLM

使用 CompassKit 进行评测：

https://github.com/open-compass/opencompass

司南 OpenCompass 大模型能力评测体系将持续与业界共同推进大模型在因果推理领域的评估工作，携手构建一个开放、公平、透明的大语言模型评估体系，促进大语言模型技术的健康发展和持续创新。

OpenCompass 司南评测体系主要包括以下三大模块，欢迎大家使用。

1. 评测工具链体系 CompassKit，不仅提供完整的开源可复现评测代码，更提供了丰富的模型支持和高效的分布式评测策略。

开源地址：

https://github.com/open-compass

2. 高质量评测基准社区 CompassHub，面向大模型能力评测开源开放的基准社区，提供海量的面向不同能力维度和行业场景的评测基准。

社区地址：

https://hub.opencompass.org.cn/home

3. 权威评测榜单 CompassRank，作为 OpenCompass 中各类榜单的承载平台，CompassRank 不受任何商业利益干扰，保持中立性。

榜单地址：

https://rank.opencompass.org.cn/home