MMToM-QA: Multimodal Theory of Mind Question Answering
- 前言
- Abstract
- Motivation
- Solution
- MMToM-QA Benchmark
- 想法推断
- 目标推断
- The BIP-ALM Model
- Experiments
- Conclusion
前言
来自ACL 2024 Outstanding Paper的工作,作者从人类认知的角度出发,加入很多ToM理论以及当前AI4ToM的现状,让整篇故事在逻辑清晰的同时又充满理论,是一篇很值得学习的工作。Paper | http://arxiv.org/abs/2401.08743 |
---|---|
From | ACL 2024 Outstanding Paper |
Abstract
ToM(心智理论)作为理解人类心理状态的能力,是开发具有人类能力机器人的重要组成部分。最近的LLM展现出部分ToM的理解能力。但是现有的ToM benchmark只针对单一的模态,但是人类水平的ToM应该可以从任何数据中提取表征来推测他人的想法。为此,本文提出一个多模态ToM问答benchmark,它根据多模态信息全方位评估机器的ToM。本文提出一个新颖的方法BIP-ALM,它从多模态数据中提取统一的表征,然后利用语言模型进行可扩展的贝叶斯逆规划。作者对人类表现、BIP-ALM以及GPT-4等模型进行了比较,发现当前的大模型仍然缺乏稳健的ToM能力,不过BIP- ALM利用基于模型的心理推理和语言模型的能力,表现出有希望的结果。
Motivation
ToM是一种认知能力,可以通过观测来判断一个人的心理状态。ToM是大量现实交互场景和常识推理的基石,基于此构建的与人类交互的系统将会从中大大受益。当前LLMs展现出的能力让人们对其ToM产生了兴趣,试图基于文本或视频进行评估。
- 依赖于海量数据训练,偏离了人类真实的ToM。
- 往往依赖于单一的模态信息。
但是真正的ToM是利用多模态信息的。因此通过评估多模态的推理,可以为当前的LLM提供更有力的测试。
Solution
本文提出MMToM-QA benchmark,包括在家庭环境中,以视频和文本作为输入,来回答不同的问题,这些问题涉及指视频或文本描述中人的精神状态。有些问题单模态知识就能解决,有些问题需要多模态信息融合。此外,本文还提出一个创新的多模态ToM模型:BIP-ALM,如下图所示。该模型首先从视频和文本输入中提取物理场景和操作的符号表示,基于这些符号表示,BIP-ALM对一个针对视觉数据处理的ToM方法BIP进行了扩展,从而支持多模态的输入。其中,为了加强对家庭场景的理解,BIP-ALM采用人类日常数据对LM进行微调,以拟合人类想法和目标的分布。这个过程既利用了贝叶斯逆向规划的鲁棒性,又利用了LM的可扩展性。
BIP- ALM与当前文本问答、多模态问答的SOTA模型以及GPT-4进行了对比,发现他们在本文的benchmark上表现不佳,而BIP- ALM取得了显著的优势。
ToMQA_Benchmark_35">MMToM-QA Benchmark
benchmark包含134个在日常家庭环境中,人类搜寻目标的视频。平均上,每个视频有1462帧,描述36个人类动作。基于这些视频,作者构建了600个关于人类目标和想法的问题。每个问题都与视频中完整活动的剪辑配对,以及相关的场景和动作的描述。每个问题都有两个选项,所有问题可以分为如下七种类别,在不同情境下充分评估想法推断和目标推断。具体来说,想法推断和目标推断各有300个问题,相关的例子如下图所示:
想法推断
想法推断任务的类型分为三种:
- True belief, short-term:认为一个物体存在(并且真实存在),通过行动验证。
- False belief, short-term:认为一个物体存在(但是并不真实存在),通过行动验证。
- Belief tracking, long-term:根据对过去行为的观察做出与历史一致的判断。
目标推断
目标推断任务的类型分为四种:
- Goal inference given true belief:针对一个人未知的目标(真实的belief),根据环境动作推断出目标。
- Goal inference given false belief:针对一个人未知的目标(错误的belief),根据环境动作推断出目标。
- Goal inference given updated belief:做了完整动作却不作用任何物体(更新了之前错误的belief),推测本来想要作用的物体。
- Goal inference given future actions:根据环境和动作推测未来想要作用的物体(还有多步才到)。
PS:其实想法推断和目标推断是有点让困惑的。根据我对图例的观察,我这里做一个不太严谨的总结,想法推断根据环境和动作推测当前最可能的想法,目标推断根据环境和动作推测想要作用的目标。
The BIP-ALM Model
BIP-ALM基于BIP,是对BIP的扩展与延伸,表现在:
- 构建了场景下,多模态信息的统一。
- 基于统一的符号表示微调LLM。
具体的步骤如下:
- 提取视频和文本的符号表征。图像被一个视觉感知模块解析为文本的场景图,文本通过GPT-4提取得到符号表征。对于问题,转化为目标和想法的两个假设,目标由实体组成(如apple),想法由实体关系组成(如In(apple, fridge)),in表示的位置。
- 对齐不同模态的表征。将视频的场景图转为一组谓词,通过结合视频和文本中的谓词来形成初始的状态的符号表示。然后,从文本解析出的动作与从视频中检测的动作对齐,将视频帧截断为多个间隔(时间步t),每个间隔一个动作。
- 采用逆符号规划器比较两个问题,生成答案。其中逆符号规划器基于马尔可夫决策过程,它是一个前向生成的模型。在本文中,作者将完整状态的belief分解为独立目标可能位置的belief,基于目标和belief,智能体会基于策略优化其总的奖励。基于该模型,可以在给定观察的状态和动作的情况下,反向推断智能体的目标和belief:
P ( g , b t ∣ s 1 : t , a 1 : t − 1 ) ∝ ∏ τ = 1 t π ( a τ ∣ g , b τ ) P ( b τ ∣ b τ − 1 , s τ ) ⋅ P ( b 0 ) P ( g ) \begin{gathered} P\left(g, b^t \mid s^{1: t}, a^{1: t-1}\right) \propto \prod_{\tau=1}^t \pi\left(a^\tau \mid g, b^\tau\right) P\left(b^\tau \mid b^{\tau-1}, s^\tau\right) \\ \cdot P\left(b^0\right) P(g) \end{gathered} P(g,bt∣s1:t,a1:t−1)∝τ=1∏tπ(aτ∣g,bτ)P(bτ∣bτ−1,sτ)⋅P(b0)P(g)
基于上面的推断,对于给定的两个假设,可以评估哪一个更可能是真实的:
P ( g 1 , b 1 t ∣ s 1 : t , a 1 : t ) P ( g 2 , b 2 t ∣ s 1 : t , a 1 : t ) = π ( a t ∣ g 1 , b 1 t ) P ( b 1 t ∣ b ^ t − 1 , s t ) π ( a t ∣ g 2 , b 2 t ) P ( b 2 t ∣ b ^ t − 1 , s t ) ⋅ ∏ τ = 1 t − 1 π ( a τ ∣ g 1 , b ^ τ ) ∏ τ = 1 t − 1 π ( a τ ∣ g 2 , b ^ τ ) \begin{aligned} \frac{P\left(g_1, b_1^t \mid s^{1: t}, a^{1: t}\right)}{P\left(g_2, b_2^t \mid s^{1: t}, a^{1: t}\right)} & =\frac{\pi\left(a^t \mid g_1, b_1^t\right) P\left(b_1^t \mid \hat{b}^{t-1}, s^t\right)}{\pi\left(a^t \mid g_2, b_2^t\right) P\left(b_2^t \mid \hat{b}^{t-1}, s^t\right)} \\ & \cdot \frac{\prod_{\tau=1}^{t-1} \pi\left(a^\tau \mid g_1, \hat{b}^\tau\right)}{\prod_{\tau=1}^{t-1} \pi\left(a^\tau \mid g_2, \hat{b}^\tau\right)} \end{aligned} P(g2,b2t∣s1:t,a1:t)P(g1,b1t∣s1:t,a1:t)=π(at∣g2,b2t)P(b2t∣b^t−1,st)π(at∣g1,b1t)P(b1t∣b^t−1,st)⋅∏τ=1t−1π(aτ∣g2,b^τ)∏τ=1t−1π(aτ∣g1,b^τ)
Experiments
实验分为人类实验和模型实验,结果如下:
其中,BIP-ALM方法对两个开源的模型进行微调(GPT-J 和 LLaMA 2)。从结果上看有如下结论:
- 人类在不同模态的ToM评测中都达到了极高的准确率,多模态信息会进一步提高准确率。
- GPT-4V在1.1问题上达到了人类水平,1.3上具有竞争力,但是1.2上明显能力不足。
- GPT-4(V) 也在目标推断方面遇到了困难。可能原因是它认为目标必须是打开容器中对象之一。
- BIP-ALM模型大幅优于所有基线。即使没有微调,也能比GPT-4取得更好的效果。
Conclusion
作为ACL 2024 Outstanding Paper,MMToM-QA无论从故事上,还是理论上都是拉满的,是一个很有意思的工作,但是我觉得还是不够solid,至少从问题的本质上来说,它并没有解决当前LLM在ToM上表现不足的根本原因。当然在实验中,作者也有分析,这可能对未来LLM在ToM上的研究有一定的启发。下面是我在阅读完整篇工作的一些思考:
- 将ToM问题简单建模为二选一的选择是不合理的,虽然我对ToM认知较浅,但是在多模态信息下,可能的目标或者belief是具有多种情况,甚至可以互相组合。
- 作者设计的BIP-ALM方法很fancy,无论从理论还是评测结果都证明这是一个很有效的方法。但是这种观念方法流程过于复杂了,既然本文的主题是当前的LLM或者MLLM在ToM上表现不足,如果从他们为什么表现不足的角度去分析,然后根据分析结果再从模型或者数据层面来提出相应的解决方案,才能从根本上解决当前LLM在ToM上表现较差的问题,额外添加别的pipeline只会降低模型在通用场景的表现能力(更何况本文的benchmark只是二选一的选择题,与真实场景还是有很大差距)。
- 很好奇ToM只有这七种类型吗,应该还有很多其他的类型?比如用户的愿望,情感等等,不过文中设计的七种类型确实很典型。
- 场景局限在家庭环境中,当前我相信通过这样的方法,可以在别的环境中进行扩展,但是不同场景复杂程度不同,我还是认为最好的方法是从本质上让LLM掌握ToM。
- 视觉受到当前技术的局限只能处理特定的关键帧,这会从一定程度上对人类的行为判断造成影响。