DialMAT：跨模态特征提取与对抗训练的结合

一、背景介绍

在智能体研究领域，一个重要的挑战是如何让智能体有效理解人类的语言指令并在实际环境中完成任务。尤其是在复杂环境中，智能体经常面临信息不足的情况，比如不知道目标物体的位置、外观或如何行动。为此，DialFRED任务被提出，旨在让智能体能够通过对话向人类提问，以获取更多的上下文信息，并基于这些信息完成任务。

DialFRED任务建立在ALFRED任务的基础上，要求智能体不仅要理解语言和视觉信息，还需要执行对象操作。在任务中，智能体可以主动询问物体的位置、外观和运动方向等信息。这一能力使得智能体在复杂环境中具备更强的灵活性，但同时也提出了新的挑战：如何设计一个能够主动提问并根据反馈调整行动的智能体？DialMAT模型正是为了解决这一问题而提出的。

DialMAT的设计目标是通过引入对抗训练和多模态特征提取机制，增强智能体在不确定环境中的任务执行能力，并使其在任务执行过程中能够更好地与人类协作。

在这里插入图片描述

图 1 DialMAT 由 Questioner 和 MAPer 两个模块组成，通过 MAT 将对抗性扰动引入语言、图像和动作的潜在空间

二、技术路线

为了应对DialFRED任务中的挑战，作者提出了DialMAT，这是一种专为对话驱动任务设计的Transformer模型。该模型结合了基于矩的对抗训练（MAT）和跨模态并行特征提取机制，在处理复杂的视觉和语言任务时表现出色。

2.1 DialMAT的总体架构

DialMAT模型的架构由两个核心模块组成：提问模块（Questioner）和基于矩的对抗执行器（MAPer）。

提问模块（Questioner）：这个模块的任务是决定在每个任务执行时间点，智能体需要向人类提问什么问题。问题类型包括：物体的位置、物体的外观以及智能体的运动方向。提问模块通过一个带有注意力机制的LSTM（长短期记忆网络）进行多层分类。每当智能体在任务中遇到不确定信息时，提问模块会选择最佳问题类型，并根据回答更新任务的执行策略。这种设计使得智能体不仅被动地接受指令，还能够主动获取更多信息，从而提高任务的成功率。
基于矩的对抗执行器（MAPer）：该模块负责根据智能体当前的状态（包括提问的答案、视觉信息和先前的动作），决定下一步的行动。MAPer通过整合来自CLIP和DeBERTa v3的特征，将语言和视觉信息进行嵌入。此外，它还结合了基于矩的对抗训练（MAT），在这些嵌入特征上加入对抗性扰动。这种扰动帮助模型增强了对抗鲁棒性，使得智能体在应对未知或噪声数据时仍能高效执行任务。

2.2 基于矩的对抗训练（MAT）

MAT是DialMAT的核心创新点之一。它通过在语言、图像和动作的潜在空间中引入扰动，使模型能够更好地处理不确定性。具体来说，MAT通过优化损失函数的梯度来更新这些扰动，使得模型能够在对抗性输入下依然表现出色。这一机制的工作流程如下：

首先，对输入数据（如语言指令或视觉图像）进行特征嵌入，并在这些特征上加入学习到的扰动。
然后，通过计算损失函数相对于这些扰动的梯度，来指导扰动的更新。
最终，智能体能够利用更新后的扰动来提升其鲁棒性，从而在复杂和动态环境下更有效地完成任务。

2.3 跨模态并行特征提取

除了对抗性训练，DialMAT的另一创新是跨模态并行特征提取机制。模型使用基础模型CLIP和DeBERTa v3分别对图像和语言信息进行特征提取。通过对视觉和语言的并行处理，模型能够在任务执行中充分结合来自不同模态的信息。例如，CLIP用于提取图像的视觉特征，而DeBERTa v3则用于提取语言指令的特征。这些特征再通过对抗性训练进行扰动后，结合输入到Transformer中，从而使智能体能够更好地理解任务环境并做出相应行动。

在这里插入图片描述

图 2 成功的子目标预测示例，结构为“移动到落地灯前并打开其电源”

参考文献

[1] Kaneda K, Korekata R, Wada Y, et al. DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training[J]. arXiv preprint arXiv:2311.06855, 2023.