ER论文阅读-Incomplete Multimodality-Diffused Emotion Recognition

基本介绍：NeurIPS, 2024, CCF-A

原文链接：https://proceedings.neurips.cc/paper_files/paper/2023/file/372cb7805eaccb2b7eed641271a30eec-Paper-Conference.pdf

Abstract

人类多模态情感识别（MER）旨在通过多种异质模态（如语言、视觉和音频）感知和理解人类情感。与单一模态相比，多模态中的互补信息有助于更稳健的情感理解。然而，在现实世界的场景中，模态缺失阻碍了多模态理解，导致MER性能下降。为了解决这一问题，本文提出了一种不完全多模态-扩散情感识别（IMDer）方法，以缓解不完全多模态下的MER挑战。为了恢复缺失的模态，IMDer利用基于分数的扩散模型，将输入的高斯噪声映射到缺失模态的期望分布空间，并根据其原始分布恢复缺失数据。特别地，为了减少缺失模态和恢复模态之间的语义歧义，现有的模态被嵌入为条件，以引导和优化基于扩散的恢复过程。与以往的工作相比，IMDer中的基于扩散的模态恢复机制能够同时实现分布一致性和语义消歧。恢复模态的特征可视化展示了模态特定分布的连续性和语义对齐。此外，定量实验结果验证了IMDer在各种模态缺失模式下取得了最新的MER准确率。

Introduction

受益于多模态数据的内在异质性，各种模态被用于多模态情感识别（MER）以从协同的角度理解人类的行为和意图。近年来，MER已成为情感计算领域最活跃的研究课题之一，具有诸多应用，如医疗保健和机器人技术。稳健的MER依赖于从多样化的模态中学习和结合表示。在之前的研究中，Zadeh等人设计了一个张量融合网络，该网络将配对的模态作为输入以编码双模态表示，随后融合生成三模态表示。Tsai等人提出了一种多模态Transformer，用于学习模态之间的潜在适应性和相关性。此后，各种先进的方法探索了多模态Transformer的不同变体，以构建稳健的MER框架。

然而，在现实世界的场景中，并非所有模态总是可用的，例如，语言数据可能由于语音识别错误而丢失；视频数据可能由于隐私和安全问题无法访问。这些不完整的多模态数据最终严重阻碍了MER的性能。对于不完全多模态下的MER，一种简单的方法是从现有模态中恢复缺失的模态。如图1（a）所示，便捷的模态恢复方法旨在通过设计良好的编码器-解码器框架，建立可用模态与缺失模态之间的映射来恢复缺失模态。

其中，赵等人结合了自动编码器与循环一致性学习进行模态恢复。Lian等人设计了一种图补全网络，利用图神经网络重构缺失部分。然而，这些早期方法未能明确考虑与每个模态的内在区分性高度相关的模态特定分布。例如，一张图像通过成千上万个像素展示了快乐面孔的视觉外观，而相应的文本则使用离散的词语描述了这一情感。

在本文中，我们旨在通过提出一种不完全多模态-扩散情感识别（IMDer）方法，挑战不完全多模态下的MER问题，如图1（b）所示。为了恢复缺失的模态，IMDer利用了流行的基于分数的扩散模型，该模型将输入的随机噪声映射到缺失模态的分布空间。特别地，基于分数的扩散模型通过随机微分方程（SDE）扰动数据来捕捉缺失模态的分布。在拥有足够数据和模型容量的情况下，我们能够通过解决逆时间SDE（即去噪过程），从先验噪声分布开始，利用训练良好的分数模型恢复分布一致的模态。

为了减少缺失模态与相应恢复模态之间的语义歧义，我们使用现有的可用模态作为语义条件，来引导和优化恢复过程。嵌入在可用模态中的信息促使IMDer同时实现分布一致性和语义消歧。最后，恢复的模态与现有的模态一起被输入到多模态融合和预测网络中，用于MER任务。总结而言，本研究的贡献如下：

为了应对不完全多模态下的MER挑战，我们提出了不完全多模态-扩散情感识别（IMDer）方法。IMDer将输入的随机噪声映射到缺失模态的分布空间，并根据其原始分布恢复缺失数据。
为了最大限度地减少缺失模态与恢复模态之间的语义歧义，我们利用可用模态作为先验条件，引导和优化恢复过程。这确保了恢复的模态在分布和语义上都保持一致。
我们在公开的MER数据集上进行了大量实验，在不同的模态缺失模式下均取得了优越或相当的结果。恢复模态的特征可视化表明了其分布一致性和语义对齐。