MTMSA是基于TATE改进的,大致框架都和他一样,区别在于MTMSA没有提到tag,并且在多头注意力的部分进行了改进,也就是文中模态翻译模块,此外还加了两个损失函数。在TATE中有一章是不同设置的影响,里面有多个证明模型有效的实验,他摘取了多分类的实验,在TATE中用表格的形式给,这篇用了折线图。
abstract:
不确定缺失模态的多模态情感分析对情感分析提出了新的挑战。为了解决这个问题,已经提出了考虑缺失模态的有效MSA模型。
然而,现有研究仅采用拼接操作进行特征融合,忽略了不同模态之间的深层相互作用。此外,现有的研究未能充分利用文本情态,而情态在情感分析中可以达到更高的准确性。为了解决上述问题,我们提出了一种基于模态翻译的MTMSA模型(MTMSA),该模型对不确定缺失模态具有鲁棒性。首先,对于缺失数据不确定的多模态数据(文本、视觉和音频),使用模态翻译模块将视觉和音频转换为文本模态,然后将翻译后的视觉模态、翻译后的音频和编码后的文本融合为缺失联合特征(missing joint features, mjf)。接下来,变压器编码器模块在预训练模型(基于变压器的模态转换网络,TMTN)的监督下对mjf进行编码,从而使变压器编码器模块产生近似于完整模态的不确定缺失模态的联合特征。编码后的mjf输入到变压器解码器模块中,以学习不同模态之间的长期依赖关系。最后,根据变压器编码器模块的输出进行情感分类。在两个流行的基准数据集(CMU-MOSI和IEMOCAP)上进行了大量实验,实验结果表明MTMSA优于8个代表性基线模型。
intro:
多年来,情感分析一直是机器学习和自然语言处理领域的热门研究课题[1,2]。它旨在通过不同的方式(例如,文本、语音语调或面部表情)来理解和解释人类的情感。最近,自动和准确的情感分析在自然人机交互[1,3]、群体决策系统[4]、意见挖掘[5]和决策制定[6,7]中发挥了关键作用。随着YouTube、Twitter、微博等网络视频平台的普及,越来越多的用户愿意通过视频来表达自己的情感和观点。为了有效地识别这些视频的情感取向,多模态情感分析(MSA)被提出并受到越来越多的关注。例如,给定一段独白视频,MSA的目标是通过利用多种输入模式(包括文本、听觉和视觉模式)来检测所涉及的情感[8]。
与单模态数据相比,多模态数据可以代表情绪的不同方面,并提供互补的信息,可以显著提高情绪分析的准确性[9,10]。在过去的几年中,基于不同的技术提出了一些有效的MSA模型,如递归神经网络[11]、变压器[12,13]和图卷积神经网络[14,15]。现有的MAS研究取得了丰富的成果,促进了情感识别技术的快速发展。
然而,大多数MSA模型假设所有模态(文本、听觉和视觉)总是可用的[16]。同时,在实际应用中,由于一些不可控因素,常常会出现不确定的缺失模态[17]。例如,如图1所示,当关闭或遮挡摄像头时,会丢失一些视觉信息;在用户沉默的情况下,无法获得某些语音内容;或者是由于设备错误导致语音和文本丢失。因此,所有模式在许多现实世界的场景中总是可用的假设是不成立的,因此,大多数MSA模型在不确定缺失模态下失效,解决不确定缺失模态下的MSA问题成为一个关键问题。
近年来,针对上述问题,针对模式缺失的MSA研究提出了几种有效的学习方法,大致可分为生成学习方法和联合学习方法两大类。一方面,生成方法旨在生成与观察到的分布相匹配的新数据。例如,Tran等人[18]提出了一种级联残差自编码器(CRA),通过叠加残差自编码器来模拟不同模态之间的相关性,然后使用它来估算缺失数据。Cai等人[19]设计了一个三维编码器-解码器网络来捕捉不同模态之间的关系,并利用辅助对抗性损失使可用模态产生缺失模态。
另一方面,联合学习方法试图从观察到的表征中学习潜在表征。如Zhao等[20]提出了一种统一的模型——缺失情态想象网络(Missing Modality Imagination Network, MMIN)。MMIN学习鲁棒联合多模态表示,在给定可用模态的情况下,可以预测任意缺失模态的表示。
Zeng等[21]提出了一种标签辅助变压器编码器(Tag-Assisted Transformer Encoder, TATE)网络来解决不确定缺失模态的问题。虽然对于缺少模态的MSA已经提出了一些出色的方法,但它们都存在一些不足,可以总结如下:
•现有的作品只是采用拼接操作来实现特征融合,无法考虑不同模态特征之间的深度交互。
•现有的作品没有充分利用文本情态,在三种情态中,文本情态的情感分析准确率总是最好的。
•在处理不确定的缺失模态时,现有作品考虑所有缺失模态的情况,然后分别处理每种情况,这大大增加了MSA的复杂性。
针对上述问题,本研究提出了一种不确定缺失模态下的语义翻译网络(MTMSA)。
首先,对于具有不确定缺失模态的多模态数据(文本、视觉和听觉),使用模态翻译模块将视觉和听觉模态翻译成文本模态,而文本模态由转换编码器编码。
翻译后的视觉形态、翻译后的音频和编码后的文本被融合到缺失的联合特征(mjf)中。
接下来,变压器编码器模块在预训练模型的监督下对mjf进行编码,基于变压器的模态转换网络(TMTN)使用完整模态(TMTN)进行训练,从而使变压器编码器模块能够产生近似于完整模态的不确定缺失模态的联合特征。
同时,将编码后的mjf输入到变压器解码器模块中,用于指导变压器编码器模块学习不同模态之间的长期依赖关系。
最后,根据变压器编码器模块的输出进行情感分类。本研究的主要贡献如下:
•为了捕捉不同模态之间的深度交互并利用文本模态,我们提出用一个模态翻译模块将视觉模态和听觉模态翻译成文本模态,不仅可以通过深度交互提高视觉模态和听觉模态的质量,还可以通过模态翻译来填补缺失的模态。
•为了处理MSA中的不确定缺失模态,我们应用预训练模型来监督变压器编码器模块,以生成接近完整模态的不确定缺失模态的联合特征。这种方法消除了模型确定缺少哪个模态/模态的需要,并且可以降低问题解决的复杂性。
•基于两个流行的基准数据集(CMU-MOSI和IEMOCAP),我们进行了大量的实验来验证我们提出的模型MTMSA的性能,实验结果表明MTMSA优于8个基线模型。
本文的其余部分组织如下:第2节回顾了相关工作。第3节描述了提出的模型。
第4节给出了实验评价和结果。最后,第五部分总结了本研究的结论,并对未来的研究方向进行了展望
related work:
multimodal sentiment analysis:
本研究涉及多模态情感分析和缺失模态的多模态情感分析。在接下来的章节中,我们将介绍这两个主题的相关工作。
多模态情感分析可以通过挖掘和整合多模态数据中的情感信息来提高情感分析的性能[2]。早期的多模态情感分析通常是通过特征分类实现的。Arunkumar等[22]提出了一种基于粒子群优化(SVM- pso)的支持向量机来推断意见挖掘输出,并验证了该方法优于其他分类器。随着深度神经网络的快速发展,基于深度学习的多模态情感分析方法取得了许多显著的成果。Mahendhiran等[3]提出了一种针对MSA的CLSA CapsNet,将概念级情感分析和自然语言概念提取相结合,然后应用胶囊网络对其进行解释和分析。实验结果表明,该方法可以达到较高的MSA精度。
通过对多模态情感数据的有效融合,可以提高情感分析的准确性[23,24]。为了学习多模态数据的联合表示,通常使用三种融合策略。(1)早期融合:将各个模态连接在一起,然后将混合数据输入到预测模型中。Sun等[16]提出了一种门控的模态间注意机制,以自适应的方式进行模态交互,过滤多模态的不一致性。(2)后期融合(Late Fusion):为每个模态建立单独的模型,结合模型的决策得到联合特征。Zheng等[25]分别为每种模态设计了特征提取方案和匹配模型结构,并采用后期融合方法融合所有特征。(3)混合融合:将早期融合和晚期融合相结合,融合特征。Mai等[26]提出了一种用于混合对比学习的HyCon模型三模态表示法。该模型利用了模态内/多模态对比学习和半对比学习来全面探索跨模态的相互作用,减少模态差异。
受机器翻译的启发,一些研究将编码器-解码器结构应用于MSA,并提出了一些基于情态翻译的有效MSA方法。Mai等人[27]提出了一种对抗性编码器-解码器框架,将源模态的分布转换为目标模态的分布。Yang[8]提出了一种多模态翻译框架,通过将视觉和音频特征转换成BERT提取的文本特征,提高了视觉和音频特征的质量。Wang等[28]提出了一种基于变压器的端到端翻译网络,该网络利用变压器进行模态之间的转换,并利用前向和后向翻译捕获多模态特征之间的相关性。然而,上述MSA模型是在所有模态总是可用的假设下提出的,当某些模态缺失时,这些模型将失效。
MSA with missing modalities:
目前,在多模态机器学习和MSA中已经开展了一些考虑模态缺失的研究,并取得了一些精彩的成果,可以分为两大类:生成方法[29-33]和联合学习方法[12,17,34 - 38]。
生成方法:通过分析现有数据,生成与现有数据分布相似的新数据。Kingma等人[29]设计了一种变分自编码器(VAE),用于使用祖先抽样进行有效的近似后验推理。尚等
[30]提出了一种通过生成对抗网络(Generative Adversarial Network, GAN)识别不同视图之间映射关系的视图imputation方法,并采用多模态去噪自编码器从GAN的输出中重构缺失视图。Zhou等[31]提出了一种基于端到端特征增强生成和多源关联的深度神经网络。特征增强生成器利用可用模式生成表示缺失模式的3D特征增强图像。此外,Zhang等人[32]提出了一种跨部分多视图网络,该网络通过学习潜在的多视图表示和引入对抗策略来估算缺失视图。
联合学习方法:利用不同模态之间的相互作用来学习联合表征[34]。Han等[35]提出了一种隐式融合辅助模态多模态信息的联合训练方法,有效提高了多模态情感识别性能。Zhang等[12]提出了一种整合一致性和差异网络来解决模态缺失问题,该网络通过跨模态转换器将其他模态映射到目标模态,以解决模态缺失问题。Luo等[17]提出了一种多模态重构对齐网络来解决缺失模态问题,该网络通过引入多模态嵌入和缺失索引嵌入来指导缺失模态特征的重构。Pham等[36]提出了一种通过源和目标模态之间的循环变换来学习鲁棒联合表示的方法。最近,Yuan等人[37]利用基于变压器的提取器提取模态内和模态间的关系,并使用该提取器监督缺失模态的重建。Wei等人[38]提出了一种可分离的多模态学习方法,通过捕获模态之间的互补信息来解决模态缺失问题。以上相关工作总结如表1所示。
上述研究虽然取得了很好的成果,但忽略了质量差的模态对模型性能的负面影响。此外,现有模型需要考虑在不同情况下哪些模态缺失,这增加了模型的复杂性。
methodology:
在本节中,我们首先定义了研究问题,概述了我们提出的模型,最后详细描述了我们提出的模型的关键模块。
问题定义:
假设情感分析的多模态数据包含三个模态:,用表示缺失模态,M属于vat,例如当视觉模态缺失,多模态数据表示为,这个问题可以被定义为基于不确定缺失数据,用户情绪识别的准确性,方便起见,在这一节中,我们用去表示不确定缺失的多模态数据。
模型概述:
为了解决模态缺失不确定的MSA问题,我们提出了一种基于模态翻译的MSA模型(MTMSA),其结构如图2所示。MTMSA的工作流程如下:
(1)将多模态数据{𝑋𝑚𝑣,𝑋𝑎,𝑋𝑡}输入到预训练好的TMTN模型中,{𝑋𝑚𝑣,𝑋𝑎,𝑋𝑡}被预训练好的TMTN编码。同时,(2)将多模态数据{𝑋𝑚𝑣,𝑋𝑎,𝑋𝑡}输入TMTN模型。在TMTN中,使用转换编码器对文本模态进行编码,然后将视觉文本和编码后的文本输入到模态翻译模块中,将视觉模态翻译成文本模态,同时,将音频和编码后的文本输入到另一个情态翻译模块中,将音频翻译成文本。接下来,翻译的视觉、翻译的听觉和编码的文本模式被融合到缺失的联合特征(MJFs)中。然后,将MJFs输入到变压器编码器模块中,由预训练的TMTN进行监督,使不确定缺失模态的MJFs逼近完整模态的MJFs。编码后的MJFs输入到变压器解码器模块中,以学习不同模态之间的长期依赖关系。最后,根据变压器编码器模块的输出进行情感分类。在接下来的章节中,我们将介绍变压器,然后详细描述TMTN的关键模块。
transformer
由于多头注意机制同时具有多个注意头,它可以捕获来自不同子空间的信息。因此,为了学习多种语义在多种方式下的表达,我们使用多头注意机制来学习在每个情态的不同语义空间中提取信息。多头注意机制由式(2)给出如下:
利用Eq.(3)计算𝑖-th head:
模态翻译模块:
已有研究表明,基于文本模态的MSA分析结果最好。也就是说,基于文本的情感分析的准确率约为70% - 80%,而基于视频或音频的情感分析的准确率约为60% - 70%[13]。
受上述结果的启发,我们提出使用情态翻译模块将视觉和听觉模态翻译为文本情态,使视觉和听觉模态近似于文本情态,从而提高多模态特征的质量,提高多模态情感分析的效果。
Q:从框图上来看是视觉和音频信息加强了文本表达,为什么论文要说成使视觉和音频模态与文本模态更接近呢?
A:Ev确实是从视觉模态数据中提取的,使用的是 Transformer Encoder 对视觉模态进行编码,并没有和文本模态直接进行交互。但在“Modality Translation Module”中,通过后续的 Transformer Decoder,将视觉和音频特征映射到文本特征的空间。在这一步中,文本特征Et会被用作Transformer Decoder 的查询,视觉和音频模态的特征作为键和值进行解码,产生的Dvt和Dat是与文本模态更接近的表征。换句话说,虽然最初的Ev是独立提取的,但是在后续的翻译模块中,视觉和音频模态的特征会被调整,目标是使他们更类似于文本特征。
此外,该模态翻译模块可以在视觉或/和听觉模态缺失时填补视觉和听觉模态。模态翻译模块的框架如图3所示,模态翻译模块的计算过程如下:
首先,我们将每个模态的序列输入到一个全连通层中进行维度变换,每个模态变换成
在本文的其余部分,我们分别使用𝑙(⋅)和𝑑(⋅)来表示序列长度和特征维数。然后使用转换编码器提取每个模态的上下文特征。模态表示的更新过程可以按照式来表述。(4) -(6)条款如下:
接下来,我们为每个模态的提取特征添加残差连接,并应用layernorm层进行归一化。计算过程如式所示。(7) -(9)条款如下:
然后将归一化后的单峰特征输入到位置前馈子层进行线性变换,从而完成三种单峰数据类型的编码。这个过程如等式所示。(10)至(12)条款如下:
在获得视觉模态和文本模态的编码后,变压器编码器在变压器解码器的监督下,使编码模块生成的视觉模态𝑣或听觉模态𝑎接近文本模态𝑡,即引导编码器将视觉模态或听觉模态的特征转换为文本模态的特征。
具体来说,在将视觉或听觉模态翻译成文本模态时,使用视觉模态(或听觉模态)的编码和文本模态的编码作为解码器的输入。然后,将编码后的文本模态作为多头注意机制的查询,将编码后的视觉模态特征(或编码后的听觉模态特征)解码为多头注意机制的关键和价值;
与编码器类似,我们在多头注意力计算中添加了残差连接和层范数层,并注入了位置前馈子层作为解码器层。因此,可以使用eq计算更新后的模态表示。(15) -(18)条款如下:
共空间投影
非常耳熟了,TATE也有,共空间投影+transformer的encoder+decoder和TATE是一样的设计
经编码器模块处理后,对三种模态特征进行线性变换,得到各模态的自相关共空间[21],并将其拼接到mjf中。
该方法的优点是:首先,由两个模态联合训练一个权矩阵,并在权值中保留了两个模态之间的交互信息;其次,当缺失的模态特征接近完整的模态特征时,只需要关注整体的关节特征。因此,无论缺少哪个模态,它都可以近似完整模态的特征。公共空间投影的计算过程可以用式来描述。(19) -(21)条款如下:
然后,我们将所有的公共向量连接起来,得到共同的联合表示。由于将不确定缺失模态串接得到的是,故其为文中缺失的联合特征,其计算过程可由式(22)描述如下:
transformer encoder+decoder:
为了有效地模拟不同模式之间信息的长期依赖关系,我们使用转换器编码器-解码器来捕获联合特征之间的依赖信息。将缺失的关节特征𝑎𝑙𝑙作为编码器的输入,编码后得到输出的𝑜𝑢𝑡,计算过程可以用方程来描述。(23) -(25)条款如下:
同样,考虑编码器的输出E𝑜𝑢𝑡作为解码器的输入,解码后的输出𝐷𝑜𝑢𝑡的表示可以用方程来计算。(26)至(28)条款如下:
最后,计算联合特征编码器输出的E𝑜𝑢𝑡与解码器输出的𝐷𝑜𝑢𝑡之间的解码器损耗。下一节将详细描述解码器损耗。
training objective:
对于所提出的MTMSA模型,其训练目标是使模型的整体损失最小化。
对于损失函数,通常使用Kullback-Leibler(𝐾𝐿)散度来计算两个概率之间的差。然而,𝐾𝐿散度不是对称的;因此,我们采用Jensen-Shannon(𝐽𝑆)散度来计算损失。𝐾𝐿散度和𝐽𝑆散度见式。(30)和(31)分别如下:
(1)pre-trained loss:
和TATE的forward loss一样
用于将mjf近似为完整的关节特征。因此,我们计算预训练模型(E𝑝𝑟𝑒)和变压器编码器(E𝑜𝑢𝑡)的输出之间的JS散度。预训练模型的结构为TMTN模型,如图2所示,预训练模型采用完整模态进行训练。将预训练损失定义为Eq.(32),如下:
(2)Decoder loss:
和TATE的backword loss一样
它是用来监督共同关节重建。因此,我们计算了变压器解码器输出(𝐷𝑜𝑢𝑡)和更新的共同联合表示(𝑎𝑙𝑙)之间的JS散度损失。解码器损耗由式(33)定义如下:
(3)Modality translation loss:
由于翻译方法是将视觉和听觉模态翻译成文本模态。因此,我们计算了模态翻译解码器输出和模态翻译编码器表示之间的JS散度损失。模态平移损失函数定义如式(34)和式(35):
(4):Classification loss:
对于最后的分类模块,我们将输入到一个带有softmax激活函数的全连接网络中,计算预测分数,如式(36)所示:
其中𝑊𝑐和𝑏𝑐分别是权重和偏差。在这里,我们采用标准的交叉熵损失函数进行分类,其定义如式(37)所示:
整个模型的伪代码,TATE也有:
experiments:
为了验证所提出模型的性能,我们使用两个流行的数据集进行了广泛的实验:卡内基梅隆大学多模态意见情绪和强度(CMU-MOSI)[40]和交互式情绪二元动作捕捉(IEMOCAP)[41]数据集。在接下来的章节中,我们首先描述了两个公共基准数据集和数据预处理,然后介绍了实验设置和8个基线模型,最后给出了实验结果
基准数据集
据我们所知,大多数MSA研究基于公共数据集CMU-MOSI和IEMOCAP验证模型性能。因此,我们采用这两个数据集作为基准数据集。两个数据集的详细内容和特征提取过程如下:
CMU-MOSI: CMU-MOSI数据集包含从93个YouTube影评视频中提取的2199个独白短视频片段。数据集中的每个样本都使用−3到3的情感评分进行注释。
IEMOCAP: IEMOCAP数据集是一个广泛使用的多模态情感数据集。它是通过记录演员之间的情感对话和互动来收集的。该数据集由五个会话组成,每个会话包含大约30个视频,每个视频包含至少24个话语。IEMOCAP中的注释标签有:中性、沮丧、愤怒、悲伤、快乐、兴奋、惊讶、恐惧、失望等。
在前人研究的基础上,我们分别在CMU-MOSI数据集和IEMOCAP数据集上进行了3次分类实验。
因此,在我们的实验中,对于CMU-MOSI数据集,我们将情绪得分转换为消极,中性和积极的标签(即消极:[- 3,0),中性:[0]和积极:(0,3])。
对于emocap数据集,我们将情绪得分转换为消极和积极的标签(即消极:[沮丧,愤怒,悲伤,恐惧,失望],积极:[快乐,兴奋])。
数据预处理
两个数据集的特征提取过程如下[21]。
首先,CMU-MOSI和IEMOCAP数据集中的视觉特征主要由人脸组成。面部特征由OpenFace2.0工具包提取[42],包括面部、头部和眼球运动。视觉表示的维度是709。其次,对于文本表示,使用预训练的双向编码器表示(BERT)方法[43](包括12层,768隐藏,12头)来提取文本特征。文本特征的维数为768。第三,使用Librosa提取音频特征[44]。每个音频样本混合成单声道信号和重采样在16000赫兹。此外,每帧被分割成512个样本,并选择过零率、Mel-Frequency倒谱系数(MFCCs)和常q变换(CQT)特征来表示音频片段。最后,将这三个特征连接起来产生33维音频特征。在我们的实验中,我们使用了[21]提供的预处理数据进行实验。
实验设置:
我们的实验平台是一台个人电脑,配置如下:操作系统:Windows 10, CPU: Intel(R) Core(TM) i910900K CPU, GPU: Nvidia 3090, RAM: 96G。我们使用Python 3.6在TensorFlow 1.14.0上实现了所提出的模型。对于我们提出的模型MTMSA,我们将学习率𝑙𝑟设置为0.001,批量大小𝑏设置为32,隐藏大小𝑑设置为300。我们采用Adam优化器[45]来最小化总损失。epoch号设置为20,减重设置为0.1。我们提出的模型的参数设置如表2所示。
在我们的实验中,我们采用精度(Acc)指标和宏观f1分数(M-F1)作为评价指标,将我们提出的模型与基线模型进行性能比较。Acc和M-F1在式中定义。第38条和第39条的规定如下:
baseline
为了验证MTMSA的性能,我们选择了8个最先进的模型作为基线模型,分别介绍如下:
•AE[46]:该模型使神经网络中的目制值等于输入值,并使用反向传播算法学习数据的内在结构。
•CRA[18]:这是一个基于级联残差自编码器的缺失模态重构框架,该框架采用残差连接机制来近似输入数据之间的差异。
•MCTN[36]:这是一种通过源模态和目标模态之间的循环变换来学习鲁棒联合表示的方法。
•TransM[28]:这是一种基于端到端转换的多模态融合方法,利用变压器方法在源模态和目标模态之间进行循环转换,以提高翻译性能。
•MMIN[20]:这是一个统一的多模态情绪识别模型,它使用级联残差自编码器和循环一致性学习方法来预测可用模态的缺失模式。
•ICDN[12]:该模型集成了一致性和差异网络来解决模态缺失问题。此外,它通过跨模态转换器将其他模态映射到目标模态,以解决缺失的模态。
•MRAN[17]:这是一个多模态重建和对齐网络,通过引入多模态嵌入和缺失索引嵌入来指导缺失模态特征的重建,从而解决缺失模态问题。
•TATE[21]:这是一个采用标签编码技术覆盖所有不确定缺失情况并监督联合表示学习的TATE网络。
性能比较:
在这个实验中,我们通过在CMU-MOSI数据集上进行三次分类和在IEMOCAP数据集上进行两次分类来测试我们提出的模型MTMSA的性能。我们的实验由两部分组成:第一部分考虑单个缺失模态的情况,第二部分考虑多个缺失模态的情况。基线模型的性能来自先前的研究[21]。实验结果如表3、表4所示;最好的结果被持有。MTMSA、ICDN和MRAN模型的实验结果是在我们的实验平台上使用训练好的模型得到的,其他6个模型的实验结果选自[21]。
单缺失模态实验:
本实验中,缺失模态率设为0 ~ 0.5。实验结果见表3。从表3中可以看出,对于CMU-MOSI数据集,当缺失模态率设置为0.2、0.3、0.4和0.5时,我们提出的模型MTMSA在两个评估指标(ACC和M-F1)上都优于其他基线模型。然而,当缺失模态率为零时,MTMSA的M-F1得分比MMIN模型低2.29%,ACC值比TATE模型低0.01%。当缺失模态率为0.1时,MTMSA模型的M-F1值比TATE模型低0.78%。此外,对于IEMOCAP数据集,当缺失模态率设置为0、0.1、0.2、0.3、0.4和0.5时,MTMSA在两个评估指标(ACC和M-F1)上都优于其他基线模型。因此,根据表3中的结果,我们可以得出结论,我们提出的模型的整体性能优于其他基线模型在CMU-MOSI和IEMOCAP数据集上的性能
缺失多模态实验:
本实验中,缺失模态率设为0 ~ 0.5。实验结果如表4所示。从表4中可以看出,对于数据集CMUMOSI,当缺失模态率设置为0.1、0.2、0.3和0.5时,我们提出的模型MTMSA在两个评估指标(ACC和M-F1)上都优于其他基线模型。然而,当缺失模态率为零时,MTMSA的M-F1得分比模型MMIN低2.29%,ACC值比TATE模型低0.01%。缺失率为0.4时,MTMSA的ACC值比TATE模型的ACC值低0.52%。
当模态缺失率设置为0、0.1、0.2、0.3、0.4和0.5时,MTMSA在IEMOCAP数据集上的评估指标(ACC和M-F1)方面都优于其他基线模型。
此外,与其他基线模型相比,我们提出的模型将IEMOCAP数据集的M-F1得分值从0.21%提高到5.21%,ACC值从0.75%提高到4.05%。因此,基于上述结果,我们可以得出结论,所提出的模型MTMSA在CMU-MOSI和IEMOCAP数据集上优于其他基线模型。
理论分析:
从表3和表4中,我们发现MCTN和TransM模型比AE和CRA表现更好,因为MCTN和TransM模型中使用了循环翻译操作。与AE和CRA模型中的自编码器操作相比,循环平移操作可以提取和整合不同模态的信息。通过将我们提出的模型MTMSA与MCTN和TransM进行比较,我们可以发现MTMSA由于考虑了不同模式之间的质量差异而取得了更好的结果。
通过情态翻译操作,将低质量的情态(听觉和视觉)转换为高质量的情态(文本),以提高情感分析的性能。
对比ICDN与其他模型可以发现,当模态缺失率为0.4时,CMU-MOSI和IEMOCAP数据集上ICDN的ACC和F1值急剧下降。这是因为ICDN通过模式之间的映射来解决缺失的模式;然而,当缺少的模态太多时,有效地映射不同的模态就成为一个重大挑战。因此,随着缺失率的增加,ICDN的性能会显著下降。
此外,当模态缺失率为0.5时,CMU-MOSI和IEMOCAP数据集上MRAN的ACC和F1值急剧下降。这是因为MRAN模型的视觉和听觉特征被投射到文本特征空间上,并且所有三种模式的特征都被学习到与其相应的情感词嵌入接近,从而使视觉和听觉特征与文本特征一致。同时,当模态缺失率较大时,多式联运特征的投影受到限制。
当所有模型都可用时,MTMSA仍与上述模型略有不同。然而,当模态缺失时,我们的模型通常优于MMIN和TATE模型。这是因为我们提出的模态翻译操作可以在不确定的情况下弥补缺失的模态。此外,相比上述两个模型,我们的模型在预训练期间使用完整的关节模态来监督缺失的关节模态。
因此,它不需要考虑缺失模式的具体情况;它只需要将缺失的关节模态近似为完整的关节模态,从而降低了模型的复杂性。
消融实验:
为了验证MTMSA在不同模态上的性能以及MTMSA不同模块的有效性,基于CMU-MOSI数据集进行了模态和模块烧蚀实验。在这里,我们分别使用“T”、“A”和“V”来表示文本、音频和视频模式。这两个实验的实验设置和结果将在下面的段落中描述。
情态消融实验:
本实验考虑以下三种情况:A.只使用一种情态来分析情感。在这种情况下,情感分析结果是通过使用变压器编码器直接从单个模态提取特征并随后进行情感分类来获得的。由于只使用了一种情态,所以没有遗漏情态的情况。因此,将这种情况下的缺失模态率设为0;B.任意两种模态用于情感分析(例如,T + V, T + A和V + A)。在这种情况下,我们将缺失的模态比率设置为0,0.1,0.2,0.3,0.4和0.5。对于视频和音频的组合(V + A),由于不涉及文本模态,因此将视频和音频模态由变压器编码器编码,然后输入到公共空间进行拼接,而不进行模态转换操作;C.三种模式(T + A + V)同时用于情绪分析。
在这个场景中,缺失的模态比率被设置为0、0.1、0.2、0.3、0.4和0.5。
模态烧蚀实验结果如表5所示;最好的结果被持有。从表5可以看出,在情况A中,文本模式的效果最好,MTMSA的ACC值分别比视频和音频模式的MTMSA高21.35%和17.71%。这些实验结果验证了文本情态在多情态情感分析中的主导地位。在场景B中,包含文本模态的双峰组合比不包含文本模态的双峰组合效果更好。
在双峰组合中,没有文本模态的双峰组合的ACC值比没有视频或音频模态的双峰组合降低了20%。此外,通过比较单模态和双峰态的实验结果,我们发现基于两种模态的实验结果优于基于单一模态的实验结果。
在场景C中,当同时使用所有三种模式时,可以获得最佳结果。此外,实验结果也验证了互补特征可以从多个模态中学习到。
模块消融实验:
在本实验中,通过从MTMSA中去除不同的模块来生成一些模型变体,并通过测试模型变体的性能来验证MTMSA不同模块的有效性。生成模型变体如下:(1)从MTMSA中移除模态翻译模块,生成模型变体MTMSA- mt。(2)从MTMSA中移除预训练模块,生成模型变体MTMSA- pretmtn。(3)去掉MTMSA的共空间投影模块,得到模型变体MTMSA- csp。
模块烧蚀实验结果如表6所示。从表6可以看出,当缺失率为0时,与MTMSA模型相比,MTMSA- mt模型在M-F1和ACC上分别下降了1.28%和1.04%。当缺失率为0.3时,mtsa - mt在M-F1中的性能下降2.08%,在ACC中的性能下降3.13%。以上实验结果表明,MTMSA模型中的情态翻译模块是有效的。
对于MTMSA-CSP模型,我们使用串联操作来替换公共空间投影模块。与MTMSA相比,MTMSA- csp在M-F1中的性能下降约1.43%,在ACC中的性能下降约2.08%。当缺失率为0.2时,MTMSA-CSP的M-F1降低幅度最大,为3.33%。当缺失率为0.4时,MTMSA-CSP的ACC值下降幅度最大,为5.21%。这些结果验证了共空间投影模块可以提高MTMSA的性能。
与MTMSA相比,当缺失率为0时,MTMSA- pretmtn在M-F1中减少2.41%,在ACC中减少2.6%。当缺失率设置为0.5时,mtsa - pretmtn模型的M-F1值降低4.5%。当缺失率为0.4时,mtsa - pretmtn的ACC下降幅度最大,为6.78%。这些结果证明了预训练模块对MTMSA的性能有显著的贡献。
多分类验证
为了验证MTMSA在基于IEMOCAP数据集的情绪多分类上的性能,我们对四类(快乐、愤怒、悲伤和中性)和七类(快乐、愤怒、悲伤、中性、沮丧、兴奋和惊讶)进行了实验。IEMOCAP中多分类标签的分布如表7所示。
在本实验中,我们选择TATE、ICDN和MRAN作为基线模型,记录四种模型的平均结果。实验结果如图4和图5所示,其中MTMSA、ICDN和MRAN的实验结果是在我们的实验平台上使用训练好的模型得到的,而TATE的实验结果是在工作中得到的[21]。
在图4中,纵轴表示评估指标(MF1或ACC),横轴表示模式缺失率。从图4中可以看出,对于四类和七类分类,随着模式缺失率的增加,四种模型的性能继续下降。此外,从图4中可以看出,我们提出的模型MTMSA在四类和七类分类方面都是四种模型中表现最好的。此外,ICDN实现了次优性能。图4的实验结果验证了MTMSA在多类情感分类中是有效的。
在图5中,纵轴表示评价指标(M-F1或ACC)的平均值,横轴表示四个模型。从图5(a)和(b)可以看出,对于四类分类,MTMSA的M-F1值比TATE高16.69%,Acc值比TATE大10.61%。与ICDN模型相比,MTMSA模型的M-F1和ACC值分别比ICDN模型大0.67%和2.40%。与MARN相比,MTMSA对M-F1改善了15.67%,对Acc改善了9.04%。
从图5(c)和(d)可以看出,对于七类分类,与TATE相比,MTMSA的M-F1提高了1.39%,Acc提高了3.38%。与ICDN相比,MTMSA的M-F1改善了0.81%,Acc增加了1.01%。与MRAN相比,MTMSA的M-F1增加10.21%,Acc改善10.00%。基于以上实验结果,我们可以得出MTMSA在多类情感分类中具有更好的性能。
此外,从图4(b)和(d)四类和七类场景来看,当缺失率分别设置为0.3和0.4时,ICDN的准确率也会急剧下降。这是因为过多的缺失模态会阻止模型有效地捕获模态之间的交互,并利用它们来填充缺失的模态。同时可以看出,在七类分类的情况下,MRAN的准确率在缺失率不同的情况下都急剧下降(除了缺失率为0.3,正确率基本保持不变)。这是因为当模态严重缺失时,MRAN模型的多模态特征投影受到限制,从而影响视觉和听觉特征在文本特征空间上的投影。
conclusion:
在这项研究中,我们提出了MTMSA模型来解决MSA不确定缺失模式的问题。由于使用了模态翻译技术,将视觉模态和听觉模态转换成文本模态,从而提高了视觉模态和听觉模态的质量,从而使MTMSA能够通过模态之间的翻译来填补缺失模态的空白。此外,MTMSA利用预训练模型来指导缺失模态与完整模态最相似的关节特征的生成,从而解决了缺失模态问题。由于模态翻译技术和联合特征生成方法,MTMSA不仅可以解决所有不确定的缺失情况,而且不需要考虑哪些模态缺失。此外,还提出了分类、预训练、编码器和模态翻译损失来监督学习过程。在两个常用的基准数据集(CMU-MOSI和IEMOCAP)上进行了实验和进一步分析,实验结果验证了所提模型的有效性。
在未来的工作中,我们将探索没有完整的模式来训练预训练模型的情况。因此,我们未来的研究将更适合于实际和现实世界的应用。