ER论文阅读-Incomplete Multimodality-Diffused Emotion Recognition

ops/2024/9/23 11:14:02/

基本介绍:NeurIPS, 2024, CCF-A

原文链接:https://proceedings.neurips.cc/paper_files/paper/2023/file/372cb7805eaccb2b7eed641271a30eec-Paper-Conference.pdf

Abstract

        人类多模态情感识别(MER)旨在通过多种异质模态(如语言、视觉和音频)感知和理解人类情感。与单一模态相比,多模态中的互补信息有助于更稳健的情感理解。然而,在现实世界的场景中,模态缺失阻碍了多模态理解,导致MER性能下降。为了解决这一问题,本文提出了一种不完全多模态-扩散情感识别(IMDer)方法,以缓解不完全多模态下的MER挑战。为了恢复缺失的模态,IMDer利用基于分数的扩散模型,将输入的高斯噪声映射到缺失模态的期望分布空间,并根据其原始分布恢复缺失数据。特别地,为了减少缺失模态和恢复模态之间的语义歧义,现有的模态被嵌入为条件,以引导和优化基于扩散的恢复过程。与以往的工作相比,IMDer中的基于扩散的模态恢复机制能够同时实现分布一致性和语义消歧。恢复模态的特征可视化展示了模态特定分布的连续性和语义对齐。此外,定量实验结果验证了IMDer在各种模态缺失模式下取得了最新的MER准确率。

Introduction

        受益于多模态数据的内在异质性,各种模态被用于多模态情感识别(MER)以从协同的角度理解人类的行为和意图。近年来,MER已成为情感计算领域最活跃的研究课题之一,具有诸多应用,如医疗保健和机器人技术。稳健的MER依赖于从多样化的模态中学习和结合表示。在之前的研究中,Zadeh等人设计了一个张量融合网络,该网络将配对的模态作为输入以编码双模态表示,随后融合生成三模态表示。Tsai等人提出了一种多模态Transformer,用于学习模态之间的潜在适应性和相关性。此后,各种先进的方法探索了多模态Transformer的不同变体,以构建稳健的MER框架。

        然而,在现实世界的场景中,并非所有模态总是可用的,例如,语言数据可能由于语音识别错误而丢失;视频数据可能由于隐私和安全问题无法访问。这些不完整的多模态数据最终严重阻碍了MER的性能。对于不完全多模态下的MER,一种简单的方法是从现有模态中恢复缺失的模态。如图1(a)所示,便捷的模态恢复方法旨在通过设计良好的编码器-解码器框架,建立可用模态与缺失模态之间的映射来恢复缺失模态。

        其中,赵等人结合了自动编码器与循环一致性学习进行模态恢复。Lian等人设计了一种图补全网络,利用图神经网络重构缺失部分。然而,这些早期方法未能明确考虑与每个模态的内在区分性高度相关的模态特定分布。例如,一张图像通过成千上万个像素展示了快乐面孔的视觉外观,而相应的文本则使用离散的词语描述了这一情感。

        在本文中,我们旨在通过提出一种不完全多模态-扩散情感识别(IMDer)方法,挑战不完全多模态下的MER问题,如图1(b)所示。为了恢复缺失的模态,IMDer利用了流行的基于分数的扩散模型,该模型将输入的随机噪声映射到缺失模态的分布空间。特别地,基于分数的扩散模型通过随机微分方程(SDE)扰动数据来捕捉缺失模态的分布。在拥有足够数据和模型容量的情况下,我们能够通过解决逆时间SDE(即去噪过程),从先验噪声分布开始,利用训练良好的分数模型恢复分布一致的模态。

        为了减少缺失模态与相应恢复模态之间的语义歧义,我们使用现有的可用模态作为语义条件,来引导和优化恢复过程。嵌入在可用模态中的信息促使IMDer同时实现分布一致性和语义消歧。最后,恢复的模态与现有的模态一起被输入到多模态融合和预测网络中,用于MER任务。总结而言,本研究的贡献如下:

  1. 为了应对不完全多模态下的MER挑战,我们提出了不完全多模态-扩散情感识别(IMDer)方法。IMDer将输入的随机噪声映射到缺失模态的分布空间,并根据其原始分布恢复缺失数据。
  2. 为了最大限度地减少缺失模态与恢复模态之间的语义歧义,我们利用可用模态作为先验条件,引导和优化恢复过程。这确保了恢复的模态在分布和语义上都保持一致。
  3. 我们在公开的MER数据集上进行了大量实验,在不同的模态缺失模式下均取得了优越或相当的结果。恢复模态的特征可视化表明了其分布一致性和语义对齐。


http://www.ppmy.cn/ops/114740.html

相关文章

创新驱动,技术引领:2025年广州见证汽车电子技术新高度

汽车行业的创新浪潮正汹涌澎湃,一场引领未来出行的科技盛宴即将拉开帷幕! AUTO TECH 2025 第十二届广州国际汽车电子技术展览会将于 2025 年 11 月 20日至 22 日在广州保利世贸博览馆(PWTC Expo)隆重举行。 作为亚洲地区领先的汽…

ClickHouse在AI领域的结合应用

文章目录 引言1.1 人工智能与大数据的融合1.2 ClickHouse在大数据平台中的地位2.1 BI与AI的融合从传统BI到智能BIAI赋能BI融合的优势实际应用案例 2.2 异构数据处理的重要性数据多样性的挑战异构数据处理的需求技术实现实际应用案例 2.3 向量检索与AIOps技术向量检索的背景AIOp…

AI教你学Python 第18天 : 线性数据结构

Day18 : 线性数据结构 线性数据结构是编程中非常基础且重要的概念,主要包括以下几种数据结构: 列表 (List)元组 (Tuple)字典 (Dictionary)集合 (Set)队列 (Queue)栈 (Stack) 在本节中,我们将逐一探讨这些数据结构的特点、使用场…

【系统架构设计师】论文模板样例:论软件系统架构风格

更多内容请见: 备考系统架构设计师-核心总结索引 文章目录 范文一:论软件系统架构风格范例摘要正文收尾范文一:论软件系统架构风格 系统架构风格(System Architecture Style)是描述某一特定应用领域中系统组织方式的惯用模式。架构风格定义了一个词汇表和一组约束,词汇表…

STM32—I2C通信外设

1.I2C外设简介 STM32内部集成了硬件I2C收发电路,可以由硬件自动执行时钟生成、起始终止条件生成、应答位收发、数据收发等功能,减轻CPU的负担支持多主机模型(可变多主机)支持7位/10位地址模式(11110......)支持不同的通…

110个oracle常用函数总结

110个oracle常用函数总结 1. ascii 返回与指定的字符对应的十进制数; sql> select ascii(a) a,ascii(a) a,ascii(0) zero,ascii( ) space from dual; a a zero space --------- --------- --------- --------- 65 97 48 32 2. chr 给出整数,返回对应的字符; sql>…

速盾:高防 CDN 怎么屏蔽恶意访问?

在当今网络环境中,恶意访问是网站和应用面临的一个严重问题。高防 CDN(Content Delivery Network,内容分发网络)作为一种强大的防护工具,可以有效地屏蔽恶意访问,保护网站和应用的安全。那么,高…

Python国产新 ORM 框架 fastzdp_sqlmodel 快速入门教程

创建模型 from typing import Optional from sqlmodel import Field, SQLModel import fastzdp_sqlmodel as fasmclass Hero(SQLModel, tableTrue):id: Optional[int] Field(defaultNone, primary_keyTrue)name: strsecret_name: strage: Optional[int] None创建表 from ty…