【论文阅读】通过使用实体增强框架融合多种多模态线索来改进假新闻检测

通过使用实体增强框架融合多种多模态线索来改进假新闻检测

Abstract

最近，带有文本和图像的假新闻比纯文本假新闻实现了更有效的传播，引发了多模态假新闻检测的严重问题。目前关于这个问题的研究对开发多模态模型做出了重大贡献，但在充分建模多模态内容方面存在缺陷。他们中的大多数只是初步建模图像的基本语义作为文本的补充，这限制了它们的检测性能。在本文中，我们发现多模态假新闻中三种有价值的文本-图像相关性：实体不一致、相互增强和文本互补。为了有效地捕获这些多模态线索，我们创新性地提取视觉实体（例如名人和地标）来理解图像中与新闻相关的高级语义，然后借助视觉实体对多模态实体的不一致和相互增强进行建模。此外，我们提取图像中的嵌入文本作为原始文本的补充。考虑到所有因素，我们提出了一种新颖的实体增强多模态融合框架，该框架同时对三个跨模态相关性进行建模以检测不同的多模态假新闻。大量的实验证明了我们的模型与现有技术相比的优越性。

Introduction

假新闻的日益盛行及其对现实世界的惊人影响促使学术界和工业界开发自动方法来检测假新闻（即设计一个分类器来判断一条给定新闻的真假）[8, 11, 21、31、35]。传统方法[4,15,18,19]通常关注文本内容，这是新闻事件的主要描述形式。随着最近假新闻从纯文本帖子发展到带有图像或视频的多媒体帖子[3]，基于多模态内容的方法表现出了有希望的检测性能[7,9,23,26,32]。本文针对多模态假新闻检测，即利用多种模态（此处为文本和图像）的信息来检测假新闻。

尽管最近在开发多模态模型来检测假新闻方面取得了进展，但现有的工作对多模态内容的建模还不够。他们大多只是初步建模图像的基本语义作为文本的补充，忽略了多模态假新闻的特征。具体来说，一些现有技术[23、26、27]通过简单地将文本特征与从在ImageNet[5]上预训练的VGG19[22]中提取的视觉特征连接起来来获得多模态表示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1：多模态假新闻中三个有价值的文本-图像相关性，为检测提供了多种线索。

为了弥补这一遗漏，我们探索了多模态假新闻中三个有价值的文本图像相关性，它们提供了多种多模态线索。 a）文本和图像具有不一致的实体，这是多模态假新闻的潜在指标。 错误地转发过时的图像是编造多模态假新闻的典型方式[1,2,20]。然而，很难找到语义相关且未经处理的图像来支持假新闻中的这些非事实故事，导致文本和图像之间的不一致。例如，如图1（a）所示，文字描述了一条有关“达拉斯·琼斯”的新闻，而附图是另一个人的被捕场景。 b) 文本和图像通过发现重要特征来相互增强。 新闻文本和图像在高级语义上是相关的，对齐的部分通常反映了新闻的关键要素。在这种多模态假新闻中，文本提供了检测的主要线索，而图像则帮助选择文本中的关键线索。如图1（b）所示，图像中的纳粹旗帜对应了文本中的重要实体“纳粹”，这也是该新闻帖子的争议焦点。（c) 图像中的嵌入文本为原始文本提供了补充信息。 根据我们对微博数据集的初步统计[9]，超过20%的多模态假新闻以图像的形式传播。这是指图像中嵌入的文本讲述了完整的假新闻故事，而原始文本通常是评论（见图1（c））。在这类假新闻中，线索就在于原文和图像中嵌入文本的结合。

除了多模态线索的多样性之外，融合多模态信息进行检测的另一个挑战在于多模态数据的异质性。目前的工作重点是通过预训练的 VGG19 或 Faster R-CNN 来研究新闻图像的一般对象，而新闻文本则处于基于命名实体的更抽象的语义级别。由于这种语义差距，当前的工作很难在文本和图像之间进行有效推理以利用多模态线索。例如，如图 1(a) 所示，如果我们只将图像中的名人识别为“person”而不是“Cuba Gooding Jr.”，则无法将多模态不一致作为检测这条新闻是否为假的线索。

为了应对这一挑战，我们创新性地导入视觉实体来对新闻图像的高级语义进行建模。视觉实体由描述从图像中识别的命名实体的单词（例如名人和地标）和一些与新闻相关的视觉概念组成。它们对于挖掘多模态线索非常重要，因为它们 1）包含丰富的视觉语义，因此有助于理解多模态新闻，2）桥接新闻文本和图像的高级语义相关性。
在这里插入图片描述

图2：拟议框架 EM-FEND 的架构。在多模态特征提取阶段，我们显式地提取文本和视觉实体来对关键新闻元素进行建模，并提取输入图像的 OCR 文本和视觉 CNN 特征。在多模态特征融合阶段，我们对三种文本-图像相关性进行建模，即文本互补、相互增强和实体不一致。最后，通过串联融合这些多模态特征以进行分类。

考虑到所有因素，我们提出了一种新颖的多模态假新闻检测框架，称为 EM-FEND（实体增强型多模态假新闻检测）（如图 2 所示），它融合了不同的多模态线索来检测多模态假新闻。具体来说，1）在多模态特征提取阶段，除了通过微调的VGG19提取基本视觉特征外，我们还显式提取图像中的视觉实体和嵌入文本来建模高级视觉语义。此外，我们显式提取文本实体来捕获新闻事件的关键元素。 2）在多模态特征融合阶段，我们对多模态假新闻中的三种跨模态相关性进行建模，以融合不同的多模态线索进行检测。首先，为了对文本互补进行建模，我们将原始文本和图像中的 OCR 文本连接起来作为合成文本，并将其输入 BERT 以获得融合的文本特征。其次，我们使用文本特征与视觉实体和视觉 CNN 特征之间的共同注意力变换器来模拟不同视觉语义级别的多模态相互增强。第三，我们通过计算文本和视觉实体的相似度来衡量多模态实体的不一致性。然后，我们通过串联融合上述多模态特征。 3）在分类阶段，利用融合的多模态特征来区分假新闻和真新闻。我们的主要贡献总结如下：

我们在多模态假新闻中发现了三种有价值的文本-图像相关性，并提出了一个统一的框架来同时融合这些多模态线索。
据我们所知，我们是第一个将视觉实体导入多模态假新闻检测中的人，这有助于理解与新闻相关的图像高级语义，并弥合新闻文本和图像的高级语义相关性。
离线和在线评估都证明了我们的模型相对于现有技术的优越性。

2. Related Work

表1：EM-FEND 与多模态假新闻检测最先进技术之间的比较。这些比较的方法没有同时考虑三种跨模态相关性。

在这里插入图片描述

我们将简要回顾多模态假新闻检测的现有工作（见表 1），并相应地解释我们的新颖之处。

常用的多模态融合检测框架是从预训练的 VGG19 [22] 中提取一般视觉特征，然后简单地将它们与文本特征连接起来。基于这个框架，Wang 等人[26]引入事件分类作为假新闻分类的辅助任务，以指导事件不变多模态特征的学习，以获得更好的泛化性。然后，王等人[27]提出了一种元神经过程方法来检测突发事件的假新闻。德鲁夫等人[7]将该框架修改为多模态变分自动编码器，以学习多模态内容的共享表示以进行分类。辛格哈尔等人[23]首先将预训练的语言模型（即此处的 BERT）导入到这个多模态框架中。尽管这些工作取得了进步，但它们忽略了假新闻中复杂的跨模态相关性，这限制了多模态内容在检测中的有效性。

错误地转发不相关的图像是编造多模态假新闻的典型方式，因此一些工作专注于测量多模态一致性以进行检测。周等人[34]使用图像字幕模型将图像翻译成句子，然后通过测量原始文本和生成的图像字幕之间的句子相似性来计算多模态不一致性。然而，翻译性能受到图像字幕模型的训练语料库与现实世界新闻语料库之间的差异的限制，这进一步削弱了跨模态一致性测量的性能。薛等人[29]通过权重共享将文本和视觉特征变换到公共特征空间，然后计算变换后的多模态特征的余弦相似度。尽管如此，由于文本和视觉特征之间的语义差距，仍然很难捕获多模态不一致。

另一方面，一些研究人员提出了精心设计的方法来模拟多模态相互增强。金等人[9]提出了神经元级注意力机制，Zhang等人[32]利用注意力机制和多通道CNN来融合多模态信息。这两部作品专注于多模态内容的单向增强，即在文本指导下突出重要的图像区域。此外，宋等人 [24]利用共同注意力变压器来模拟文本和图像之间的双向增强。王等人[28]提取图像的对象，然后使用GCN对单词和对象标签之间的相关性进行建模。同样，李等人[12]提取对象，然后使用Capsule网络融合这些对象的名词和视觉特征。然而，这些方法忽略了高级语义的跨模态增强。

综上所述，现有工作有两个主要缺点：1）他们没有同时考虑这三种跨模态相关性，并且完全忽略了原始文本和嵌入文本之间的文本互补，2）对跨模态进行建模基于图像基本语义特征的相关性，忽略与新闻相关的高级视觉语义。为了解决这些问题，我们显式地提取视觉实体，并基于多模态实体对多模态不一致和增强进行建模。此外，我们提取图像中嵌入的文本并对文本互补进行建模。考虑到所有因素，我们设计了一个统一的框架来融合这些多模式线索进行检测。

3 ENTITY-ENHANCED MULTIMODAL FAKE NEWS DETECTION

3.1 模型概述

在这里插入图片描述
图2：拟议框架 EM-FEND 的架构。在多模态特征提取阶段，我们显式地提取文本和视觉实体来对关键新闻元素进行建模，并提取输入图像的 OCR 文本和视觉 CNN 特征。在多模态特征融合阶段，我们对三种文本-图像相关性进行建模，即文本互补、相互增强和实体不一致。最后，通过串联融合这些多模态特征以进行分类。

所提出的 EM-FEND 框架的目标是利用文本 $ T $ 和附加图像 $I$ 来预测给定新闻是真是假。如图 2 所示，EM-FEND 包括三个模块，用于融合不同的多模态线索以进行假新闻检测：1）多模态特征提取，提取文本和视觉实体、图像中嵌入的文本以及视觉 CNN 特征（第 3.2 节）; 2）多模态特征融合，对三种类型的跨模态相关性进行建模，包括实体不一致、相互增强和互补（第3.3节）； 3）分类，使用获得的多模态表示来执行二元分类（第3.4节）。我们将详细介绍上述模块。

3.2 多模态特征提取

3.2.1 文本输入

文本实体。 作为一种特殊的叙事方式，新闻通常包含人物、地点等命名实体。这些实体对于理解新闻语义非常重要，也有助于检测假新闻。因此，我们通过识别文本中相应的专有名词来显式提取人实体 $P_T$ 和位置实体 $L_T$ 。为了更好地理解新闻事件，我们采用词性标记来提取所有名词作为通用文本上下文 $C_T$ 。

3.2.2 图像输入

视觉 CNN 特征。 继之前的工作之后，我们采用VGG19来提取视觉特征。与这些工作不同的是，我们在给定数据集上对预训练的 VGG19 进行微调，以灵活捕获来自特定数据源的图像的低级特征以帮助检测。例如，图像质量是区分社交媒体上的假新闻和真实新闻帖子的强大特征，但对于检测正式新闻网站上的假新闻文章效果较差。然后，我们从VGG19最后一层的输出中提取输入图像的视觉特征。考虑到图像中的不同区域可能表现出不同的模式，我们将原始图像分割为 7×7 的区域，然后得到相应的视觉特征序列 $H_V=[r_1,...,r_n]$