【论文通读】MMToM-QA: Multimodal Theory of Mind Question Answering

server/2024/12/18 12:01:26/

MMToM-QA: Multimodal Theory of Mind Question Answering

  • 前言
  • Abstract
  • Motivation
  • Solution
  • MMToM-QA Benchmark
    • 想法推断
    • 目标推断
  • The BIP-ALM Model
  • Experiments
  • Conclusion

前言

来自ACL 2024 Outstanding Paper的工作,作者从人类认知的角度出发,加入很多ToM理论以及当前AI4ToM的现状,让整篇故事在逻辑清晰的同时又充满理论,是一篇很值得学习的工作。
Paperhttp://arxiv.org/abs/2401.08743
FromACL 2024 Outstanding Paper

Abstract

ToM(心智理论)作为理解人类心理状态的能力,是开发具有人类能力机器人的重要组成部分。最近的LLM展现出部分ToM的理解能力。但是现有的ToM benchmark只针对单一的模态,但是人类水平的ToM应该可以从任何数据中提取表征来推测他人的想法。为此,本文提出一个多模态ToM问答benchmark,它根据多模态信息全方位评估机器的ToM。本文提出一个新颖的方法BIP-ALM,它从多模态数据中提取统一的表征,然后利用语言模型进行可扩展的贝叶斯逆规划。作者对人类表现、BIP-ALM以及GPT-4等模型进行了比较,发现当前的大模型仍然缺乏稳健的ToM能力,不过BIP- ALM利用基于模型的心理推理和语言模型的能力,表现出有希望的结果。

Motivation

ToM是一种认知能力,可以通过观测来判断一个人的心理状态。ToM是大量现实交互场景和常识推理的基石,基于此构建的与人类交互的系统将会从中大大受益。当前LLMs展现出的能力让人们对其ToM产生了兴趣,试图基于文本或视频进行评估。

现有的ToM benchmarks有如下局限:

  1. 依赖于海量数据训练,偏离了人类真实的ToM
  2. 往往依赖于单一的模态信息。

但是真正的ToM是利用多模态信息的。因此通过评估多模态的推理,可以为当前的LLM提供更有力的测试。

Solution

本文提出MMToM-QA benchmark,包括在家庭环境中,以视频和文本作为输入,来回答不同的问题,这些问题涉及指视频或文本描述中人的精神状态。有些问题单模态知识就能解决,有些问题需要多模态信息融合。此外,本文还提出一个创新的多模态ToM模型:BIP-ALM,如下图所示。该模型首先从视频和文本输入中提取物理场景和操作的符号表示,基于这些符号表示,BIP-ALM对一个针对视觉数据处理的ToM方法BIP进行了扩展,从而支持多模态的输入。其中,为了加强对家庭场景的理解,BIP-ALM采用人类日常数据对LM进行微调,以拟合人类想法和目标的分布。这个过程既利用了贝叶斯逆向规划的鲁棒性,又利用了LM的可扩展性。

BIP- ALM与当前文本问答、多模态问答的SOTA模型以及GPT-4进行了对比,发现他们在本文的benchmark上表现不佳,而BIP- ALM取得了显著的优势。

ToMQA_Benchmark_35">MMToM-QA Benchmark

benchmark包含134个在日常家庭环境中,人类搜寻目标的视频。平均上,每个视频有1462帧,描述36个人类动作。基于这些视频,作者构建了600个关于人类目标和想法的问题。每个问题都与视频中完整活动的剪辑配对,以及相关的场景和动作的描述。每个问题都有两个选项,所有问题可以分为如下七种类别,在不同情境下充分评估想法推断和目标推断。具体来说,想法推断和目标推断各有300个问题,相关的例子如下图所示:

想法推断

想法推断任务的类型分为三种:

  1. True belief, short-term:认为一个物体存在(并且真实存在),通过行动验证。
  2. False belief, short-term:认为一个物体存在(但是并不真实存在),通过行动验证。
  3. Belief tracking, long-term:根据对过去行为的观察做出与历史一致的判断。

目标推断

目标推断任务的类型分为四种:

  1. Goal inference given true belief:针对一个人未知的目标(真实的belief),根据环境动作推断出目标。
  2. Goal inference given false belief:针对一个人未知的目标(错误的belief),根据环境动作推断出目标。
  3. Goal inference given updated belief:做了完整动作却不作用任何物体(更新了之前错误的belief),推测本来想要作用的物体。
  4. Goal inference given future actions:根据环境和动作推测未来想要作用的物体(还有多步才到)。

PS:其实想法推断和目标推断是有点让困惑的。根据我对图例的观察,我这里做一个不太严谨的总结,想法推断根据环境和动作推测当前最可能的想法,目标推断根据环境和动作推测想要作用的目标。

The BIP-ALM Model

BIP-ALM基于BIP,是对BIP的扩展与延伸,表现在:

  1. 构建了场景下,多模态信息的统一。
  2. 基于统一的符号表示微调LLM

具体的步骤如下:

  1. 提取视频和文本的符号表征。图像被一个视觉感知模块解析为文本的场景图,文本通过GPT-4提取得到符号表征。对于问题,转化为目标和想法的两个假设,目标由实体组成(如apple),想法由实体关系组成(如In(apple, fridge)),in表示的位置。
  2. 对齐不同模态的表征。将视频的场景图转为一组谓词,通过结合视频和文本中的谓词来形成初始的状态的符号表示。然后,从文本解析出的动作与从视频中检测的动作对齐,将视频帧截断为多个间隔(时间步t),每个间隔一个动作。
  3. 采用逆符号规划器比较两个问题,生成答案。其中逆符号规划器基于马尔可夫决策过程,它是一个前向生成的模型。在本文中,作者将完整状态的belief分解为独立目标可能位置的belief,基于目标和belief,智能体会基于策略优化其总的奖励。基于该模型,可以在给定观察的状态和动作的情况下,反向推断智能体的目标和belief:

P ( g , b t ∣ s 1 : t , a 1 : t − 1 ) ∝ ∏ τ = 1 t π ( a τ ∣ g , b τ ) P ( b τ ∣ b τ − 1 , s τ ) ⋅ P ( b 0 ) P ( g ) \begin{gathered} P\left(g, b^t \mid s^{1: t}, a^{1: t-1}\right) \propto \prod_{\tau=1}^t \pi\left(a^\tau \mid g, b^\tau\right) P\left(b^\tau \mid b^{\tau-1}, s^\tau\right) \\ \cdot P\left(b^0\right) P(g) \end{gathered} P(g,bts1:t,a1:t1)τ=1tπ(aτg,bτ)P(bτbτ1,sτ)P(b0)P(g)

基于上面的推断,对于给定的两个假设,可以评估哪一个更可能是真实的:

P ( g 1 , b 1 t ∣ s 1 : t , a 1 : t ) P ( g 2 , b 2 t ∣ s 1 : t , a 1 : t ) = π ( a t ∣ g 1 , b 1 t ) P ( b 1 t ∣ b ^ t − 1 , s t ) π ( a t ∣ g 2 , b 2 t ) P ( b 2 t ∣ b ^ t − 1 , s t ) ⋅ ∏ τ = 1 t − 1 π ( a τ ∣ g 1 , b ^ τ ) ∏ τ = 1 t − 1 π ( a τ ∣ g 2 , b ^ τ ) \begin{aligned} \frac{P\left(g_1, b_1^t \mid s^{1: t}, a^{1: t}\right)}{P\left(g_2, b_2^t \mid s^{1: t}, a^{1: t}\right)} & =\frac{\pi\left(a^t \mid g_1, b_1^t\right) P\left(b_1^t \mid \hat{b}^{t-1}, s^t\right)}{\pi\left(a^t \mid g_2, b_2^t\right) P\left(b_2^t \mid \hat{b}^{t-1}, s^t\right)} \\ & \cdot \frac{\prod_{\tau=1}^{t-1} \pi\left(a^\tau \mid g_1, \hat{b}^\tau\right)}{\prod_{\tau=1}^{t-1} \pi\left(a^\tau \mid g_2, \hat{b}^\tau\right)} \end{aligned} P(g2,b2ts1:t,a1:t)P(g1,b1ts1:t,a1:t)=π(atg2,b2t)P(b2tb^t1,st)π(atg1,b1t)P(b1tb^t1,st)τ=1t1π(aτg2,b^τ)τ=1t1π(aτg1,b^τ)

Experiments

实验分为人类实验和模型实验,结果如下:

其中,BIP-ALM方法对两个开源的模型进行微调(GPT-J 和 LLaMA 2)。从结果上看有如下结论:

  1. 人类在不同模态的ToM评测中都达到了极高的准确率,多模态信息会进一步提高准确率。
  2. GPT-4V在1.1问题上达到了人类水平,1.3上具有竞争力,但是1.2上明显能力不足。
  3. GPT-4(V) 也在目标推断方面遇到了困难。可能原因是它认为目标必须是打开容器中对象之一。
  4. BIP-ALM模型大幅优于所有基线。即使没有微调,也能比GPT-4取得更好的效果。

Conclusion

作为ACL 2024 Outstanding Paper,MMToM-QA无论从故事上,还是理论上都是拉满的,是一个很有意思的工作,但是我觉得还是不够solid,至少从问题的本质上来说,它并没有解决当前LLMToM上表现不足的根本原因。当然在实验中,作者也有分析,这可能对未来LLMToM上的研究有一定的启发。下面是我在阅读完整篇工作的一些思考:

  1. ToM问题简单建模为二选一的选择是不合理的,虽然我对ToM认知较浅,但是在多模态信息下,可能的目标或者belief是具有多种情况,甚至可以互相组合。
  2. 作者设计的BIP-ALM方法很fancy,无论从理论还是评测结果都证明这是一个很有效的方法。但是这种观念方法流程过于复杂了,既然本文的主题是当前的LLM或者MLLMToM上表现不足,如果从他们为什么表现不足的角度去分析,然后根据分析结果再从模型或者数据层面来提出相应的解决方案,才能从根本上解决当前LLMToM上表现较差的问题,额外添加别的pipeline只会降低模型在通用场景的表现能力(更何况本文的benchmark只是二选一的选择题,与真实场景还是有很大差距)。
  3. 很好奇ToM只有这七种类型吗,应该还有很多其他的类型?比如用户的愿望,情感等等,不过文中设计的七种类型确实很典型。
  4. 场景局限在家庭环境中,当前我相信通过这样的方法,可以在别的环境中进行扩展,但是不同场景复杂程度不同,我还是认为最好的方法是从本质上让LLM掌握ToM
  5. 视觉受到当前技术的局限只能处理特定的关键帧,这会从一定程度上对人类的行为判断造成影响。

http://www.ppmy.cn/server/151163.html

相关文章

Vscode打开后闪退问题

vscode 动不动就无法启动呀? 表现为启动在任务管理器中一闪而过 我这边过一个周末就不行了,昨天重新安装,今天又启动不了了 解决方案: 在cmd中启动code.exe 报错提示: FATAL:v8_initializer.cc(630)] Error loadi…

wrk如何测试post请求

wrk git地址 https://github.com/wg/wrk wrk 默认是针对 GET 请求的,但它也可以通过添加自定义的 HTTP 请求体和 头部信息来进行 POST 请求的压测。以下是详细的步骤: wrk -t4 -c100 -d30s -s post.lua http://example.com-t4:使用 4 个线…

【YashanDB知识库】用yasldr配置Bulkload模式作单线程迁移300G的业务数据到分布式数据库,迁移任务频繁出错

问题描述 详细版本:YashanDB Server Enterprise Edition Release 23.2.4.100 x86_64 6db1237 影响范围: 离线数据迁移场景,影响业务数据入库。 外场将部分NewCIS的报表业务放到分布式数据库,验证SQL性能水平。 操作系统环境配…

ollama 加载多段GGUF

ollama 加载多段GGUF 在 Ollama 或类似工具(如基于 LLM 推理 的框架)中加载被分成多段的 GGUF 文件(量化的模型权重文件)时,可以按照以下步骤进行: 1. 理解分段 GGUF 文件 GGUF 文件格式是 LLAMA 或 GPTQ…

Spring Boot 启动时间优化全攻略

引言 随着 Spring Boot 的广泛应用,开发者享受到了快速开发和自动化配置的便利。然而,随着项目复杂度的增加,Spring Boot 项目启动时间也变得越来越长,这在开发、调试和部署阶段可能会成为效率瓶颈。如何优化 Spring Boot 的启动…

Dash for Mac 代码API文档管理软件安装

Mac分享吧 文章目录 Dash for Mac 代码API文档管理软件 效果图展示一、Dash 代码API文档管理软件 Mac电脑版——v7.3.31️⃣:下载软件2️⃣:安装软件2.1 左侧安装包拖入右侧文件夹中,等待安装完成,运行软件2.2 打开软件&#xff…

C++多态(函数重写、override 和 final、虚函数表、抽象类)

C多态(函数重写、override 和 final、虚函数表、抽象类) 1. 多态的介绍 多态是 C 三大特性之一,多态的作用是让不同类型的对象(需要具有继承关系)调用同一全局函数具有不同的效果。 2. 重写 2.1 一般重写 重写&am…

华为OD E卷(100分)25-整数对最小和

前言 工作了十几年,从普通的研发工程师一路成长为研发经理、研发总监。临近40岁,本想辞职后换一个相对稳定的工作环境一直干到老, 没想到离职后三个多月了还没找到工作,愁肠百结。为了让自己有点事情做,也算提高一下自己的编程能力…