北大AGI与具身智能评估新范式！Tong测试：基于动态具身物理和社会互动的评估标准

作者：Yujia Peng, Jiaheng Han, Zhenliang Zhang, Lifeng Fan, Tengyu Liu, Siyuan Qi, Xue Feng, Yuxi Ma, Yizhou Wang, Song-Chun Zhu
单位：北京通用人工智能研究院国家通用人工智能重点实验室，北京大学人工智能研究所，北京大学心理与认知科学学院北京行为与心理健康重点实验室，北京大学智能科学与技术学院，北京大学计算机科学学院
论文标题：The Tong Test: Evaluating Artificial General Intelligence Through Dynamic Embodied Physical and Social Interactions
出版信息：Engineering 34 (2024) 12–22
论文链接：https://www.sciencedirect.com/science/article/pii/S209580992300293X

主要贡献

传统的任务导向型AGI评估方法通常局限于特定任务，无法充分衡量AGI的能力。论文建议采用更广泛、更具包容性的评估标准，通过动态具身物理和社会互动（DEPSI）进行评估。
定义了AGI系统的五个关键特征：无限任务、自驱动任务生成、价值对齐、因果理解和具身性。这些特征为AGI的开发和评估提供了明确的指导方向，并强调了AGI系统需要具备的复杂能力。
提出了Tong测试作为AGI评估系统。Tong测试能够在DEPSI中生成无限任务，并通过多维度的能力和价值评估来量化AGI的表现，结合人类反馈和交互式学习过程，使AGI能够生成符合人类价值观的任务。
详细描述了Tong测试平台的架构，包括基础设施、DEPSI环境和评估工具，旨在支持大规模的AGI模型测试，并提供了一个标准化的测试流程，以促进AGI的发展和标准化。

具身动态环境中的AGI评估

背景与重要性

随着生成式预训练Transformer（GPT）系列的发布，AGI再次成为人工智能领域的焦点。然而，如何定义和评估AGI仍然不明确。
AGI的通用性与传统AI的不同之处在于其任务泛化能力，即AGI需要在动态环境中适应并表现出色，类似于人类在其生活环境中适应和行为的方式。

DEPSI环境中任务空间定义

任务定义：
- 论文提出了一种基于DEPSI的新任务定义。一个任务被定义为，其中表示DEPSI初始状态的等价集，而表示DEPSI目标状态的等价集。
- 由于DEPSI环境的复杂性和多样性，每次任务开始或结束时很难获得完全相同的DEPSI状态。因此，任务的起点或终点被定义为一个所有符合条件的状态的等价集。
- 其中函数表示DEPSI环境状态的特征（例如，物理状态空间中物体之间的距离或社会状态空间中最可能的位置），是特征的数量，是相应的函数值。
任务空间的内部结构：
- 任务空间可以分解为物理状态空间和社会状态空间。物理状态空间包括描述世界的物理量（例如，物体的位置），而社会状态空间则包括智能体对物理状态的估计（例如，智能体对物体位置的信念），这些估计是基于观察、与世界的互动以及来自其他智能体或环境的反馈，并以概率表示。
- 物理任务涉及与物理环境相关的动作（例如，取回物体或准备食物），需要关于世界的常识知识。社会任务涉及与其他智能体的社会互动（例如，与其他智能体合作），需要理解他人的社会状态和价值观，同时对社会状态施加约束。
任务的复杂性：
- 任务的复杂性可以通过任务所需的物理和社会状态的规模来确定。
- 例如，相对简单的任务可能是原子动作（如按按钮），而更复杂的任务可能是多原子的（如要求AGI智能体创建工具来完成另一个任务）。

DEPSI中AGI基本特征

无限任务：
- 人类智能的一个基本特征是能够执行无限数量的任务，而不是局限于预定义的有限任务。
- AGI也应具备这一特征，能够在开放环境中处理未预见的场景和任务。
自驱动任务生成：
- 为了应对现实生活中的意外情况，AGI必须具备自驱动能力，即在没有人类精细指令的情况下，能够自主发起行动并生成任务。
- 这种能力使得AGI能够在开放环境中知道下一步该做什么，并根据其内在的“目的”自主生成任务。
价值对齐：
- 价值是自驱动行为的基本驱动力。为了使AGI能够自主生成和完成满足人类需求的各种任务，需要为其赋予一个价值系统。
- 这个价值系统应与人类价值系统对齐，以便AGI能够学习并适应人类的偏好。
因果理解：
- 因果推理是人类认知发展的早期阶段，也是支持具有类人常识的认知AI的基础。
- 在AGI中，因果理解是连接价值和行为的链条，帮助AGI在动态环境中完成任务。
具身性：
- 发展AGI的目的是使其能够直接服务于人类社会。因此，AGI必须能够以某种具身形式参与人类生活，无论是物理形态还是虚拟环境。
- 具身AI可以在不同环境中无缝集成，提供无障碍的人机交互。

LLMs与AGI

LLMs的局限：
- 尽管大模型（LLMs）在各种语言任务上表现出色，但它们仍存在一些系统性限制。例如，LLMs可能会遇到遗忘问题，在常识推理任务上表现不佳，以及在少数语言上下文中表现较差。
- 在使用发展心理学实验比较LLMs和儿童时，研究人员发现LLMs在对象和动作理解、心理理论（Theory of Mind, ToM）以及因果推理任务上存在局限性。这些任务通常需要具身和自我启动的探索，而这些能力无法仅从语言输入中获得。
- 当前的LLMs（如GPT系列）本质上仍然是统计模型，依赖于大量数据来获取复杂的统计规律。
- 虽然它们在文本任务上接近人类水平的表现，但仍然缺乏在具身环境中生成任务的能力，也缺乏与人类社会价值观对齐的内在价值系统。
- 语言和思想是相关但不同的概念。LLMs流畅的语言生成只捕捉到了思想的一个方面，而许多其他方面的思想（如情感、记忆和感知）可能没有被充分捕捉到。
Tong测试的提出：
- 基于上述AGI标准，论文提出Tong测试作为一个系统的AGI评估系统。Tong测试基于DEPSI环境，从任务导向转向能力和价值导向的评估。
- 该平台还支持具身AI的训练和测试，使具身AI智能体能够在平台上获取信息，并以交互方式继续学习和微调其价值和能力。

从图灵测试到Tong测试

经典AI评估方法

人类判别测试：
- 基于人类观察来评估AI，最著名的例子是图灵测试。图灵测试最初被称为模仿游戏，由艾伦·图灵设计，用于测试机器是否能够展示出类似人类的反应和智能。通过图灵测试的AI算法需要与人进行交互，以语言或文本为基础，使人无法判别对方是人还是机器。
- 图灵测试的优点在于提供了一个简单且可操作的AI定义，但其局限性也很明显，包括只能定性测试（通过或失败）、依赖人类评判者的知识和认知水平、缺乏定量测量能力，以及缺乏具身性。
任务导向的问题基准：
- 通过特定的任务来评估AI的性能。过去十年中，出现了许多数据集，用于评估AI在特定领域的表现。这些数据集从单一任务基准（如仅用于图像分类的ImageNet数据集）发展到多任务基准（如用于单句任务、相似性和释义任务、自然语言推理任务的GLUE）。
- 然而，这些任务导向的基准强调解决高度具体的问题，而不是推动AI向AGI发展。
环境基准：
- 通过虚拟环境来评估AI，提供了现实和多样的场景，支持丰富的互动，并促进数据收集和分析。例如，OpenAI Gym、DeepMind Lab、iGibson、ThreeDWorld、AI2的THOR、AI Habitat、House3D和VirtualHome等。
- 尽管这些系统提供了多样化的场景和互动，但它们是由人类预先定义的，无法生成无限的任务。
AGI基准的发展：
- 最近，AI社区努力开发AGI基准。例如，法国国家计量与测试实验室提出了一个高层次的AI能力分类法，并将评估任务分为传统的能力模块（识别、理解、任务管理和生成）。AI2在AI2 Leaderboard上列出了几十个标准的AI测量任务。Google推出了Beyond the Imitation Game基准（BIG-bench），包含来自各个领域的200多个任务。Stanford的Behavior数据集作为以人为中心的机器人综合模拟基准。
- 这些基准虽然在特定能力上进行评估，但仍然局限于一般AI的特定子空间内的有限任务。

发展心理学和智力理论

心理发展与智力理论的贡献：
- 论文回顾了几种经典的智力测试，这些测试在理解人类智力方面取得了进展。例如，斯坦福-比奈智力量表、贝利婴幼儿发展量表、韦氏成人智力量表和瑞文渐进矩阵等。
- 这些测试的共同特点是定义了发展里程碑（即在什么阶段达到哪些能力）和整合了多种能力的任务（如视觉、自然语言、认知和推理、运动技能和学习）。
智力理论的映射：
- 论文将这些智力理论与Tong测试的概念进行了对比。例如，三重智力理论（Triarchic Theory of Intelligence）提出了智力的三个主要组成部分：实践能力（适应不同环境的能力）、创造力（提出新想法的能力）和分析能力（评估信息和解决问题的能力）。
- 这些组件可以与Tong测试中的具身性、自驱动和因果理解等概念相对应。
智力测试的启示：
- 论文认为，通过借鉴智力理论和心理发展测试，可以为AGI评估提供有价值的见解。
- 这些理论可以帮助定义AGI所需的关键能力和特征，从而推动AGI的发展。

Tong测试

无限任务生成系统

为了构建支持无限任务的Tong测试平台，论文采用了一种组合图形模型（即“解析图”）作为基本的知识表示形式，用于解析任何给定场景的空间、时间和因果关系。
在此基础上，定义了“丝滑空间”作为解析图中属性的时间变化变量的空间，其中“丝滑”代表时间变化的量或变量。
通过这种知识表示形式（即带有丝滑空间的解析图），所有可能的场景配置可以在DEPSI环境的连续空间中表示。因此，任务被定义为DEPSI环境中丝滑空间内两个样本点之间的转换，起始样本点对应于初始场景配置，结束样本点对应于期望的状态。
此外，任务可以通过从解析图中采样来分解为子任务，创建一个层次化的任务空间。Tong测试平台能够生成一系列具有物理真实感和丰富交互特征的3D虚拟场景，满足所需的场景配置。
通过采样配置（例如不同对象、物理和社会丝滑状态和动作的组合）在DEPSI环境的连续空间中并构建相应的3D虚拟场景，可以实现无限任务生成过程。

价值与能力导向的评估

基于价值-因果-行为链，Tong测试跨越了能力和价值两个领域，即U-V双系统。U系统描述了智能体对外在物理或社会规则的理解，而V系统包括智能体的内在价值，定义为构建智能体自驱行为的一组价值函数。
能力系统被划分为五个维度（即视觉、自然语言、认知和推理、运动技能和学习），每个能力维度设计了五个随任务复杂性增加而提高的级别。这些基准是基于婴儿发展里程碑、AI专家判断和AI发展模式的组合提出的。
Tong测试与以往基准的主要区别在于其对价值的评估。以往的AI评估主要集中在能力上，而Tong测试则强调价值系统是任务生成的驱动力，能够支撑无限任务。
基于AGI与人类价值观一致的原则和心理学中的经典价值理论（如马斯洛的需求层次理论、ERG理论和施瓦茨的价值调查），Tong测试提出了一个五级价值系统，从生理和生存需求到情感和社会价值，最终到群体价值。

Tong测试平台架构

Tong测试作为一个虚拟仿真平台实现，使AGI智能体能够在3D环境中感知、学习、互动和评估。
平台提供了必要的基础设施，以跨能力和价值维度进行评估。
系统通过所有能力和价值维度的动态具身互动场景生成无限任务。
Tong测试平台的设计考虑了能力和价值维度，并遵循具身图灵测试的理念。
然而，与之前的测试平台不同，必须考虑人机互动，以便同时测试AI智能体的能力和价值维度。
因此，Tong测试平台结合了一般的算法测试范式和基于人机互动的测试范式。

平台包括三个主要组件：

基础设施：
- 需要大量的硬件（如服务器、数据库和通信网络）和软件及交互设备生态系统来支持并行运行的数千个应用实例。
- 使用Unity 3D、Unreal Engine 4/5和Omniverse平台等图形引擎来创建平台内容。
- 利用虚拟现实（VR）和增强现实设备作为人机界面接口。
DEPSI环境：
- 作为测试环境，构建在基本功能模块和任务生成模块之上。功能模块包括数据传感器模块、物理模拟、精细操作和其他确保系统正常工作的模块。
- 任务生成模块由物理和社会任务生成两个核心子模块组成，帮助生成物理和社会上现实的场景。
评估工具：
- 包括中间数据可视化和模型性能显示面板。
- 中间数据可视化模块协助模型调试，而模型性能显示面板指示测试模型根据价值和能力导向的评估范式的表现。