基于深度学习的文本情感原因提取研究综述—

前言

既然要学习情感分析，那么肯定还要了解情感原因对抽取的发展历程，所以我又搜了一篇研究综述，虽然是2023年发表的，但是里面提及到的历程仅停留到2022年。这篇综述发布在TASLP期刊，是音频、声学、语言信号处理的顶级期刊，属于CCF-B类的期刊。

论文地址：Recent Trends in Deep Learning Based Textual Emotion Cause Extraction | IEEE Journals & Magazine | IEEE Xplore

摘要

情感原因提取字段（ECEF）主要关注在文档中触发情感的原因。

传统的ECEF旨在基于给定的情感提取原因；【单向：情感—>原因】
最近的ECEF更侧重于提取情感及其相应的原因。【双向：情感<—>原因】

由于深度学习技术的重大发展，尤其是机器阅读理解和基于神经网络的信息检索，ECEF引起了广泛关注。然而，缺乏对ECEF现有方法和最近趋势的全面审查。

本文作者提出了一个全面的调查，总结现有的ECEF方法，包括以下三个方面：

情感原因提取（ECE）
情感原因对提取（ECPE）
会话情感原因提取字段（CECEF）

在本篇综述中，作者还详细介绍了广泛使用的公共数据集，并讨论了现有方法在ECEF中的局限性和前景。

1 介绍

随着以计算机为媒介的交流方式的发展，人们广泛地通过电子邮件、信使、网络博客等应用程序来分享情感信息。在这样的背景下，从互联网上的大规模语料库中进行文本情感分析已成为自然语言处理（NLP）领域的研究热点。

早期的情感分析研究主要集中在对给定有限情感类型的句子或文档进行情感检测和分类。然而在现实应用中，人们更加关注对结果、体验者、原因等深层情感信息的研究。许多应用关注于情绪的刺激或原因，如经济预测、舆论挖掘、消费者评论挖掘等。

情感原因提取（ECE）在2010年首次提出。根据Talmy的观点，情绪的起因应该是事件本身。ECE的目标是提取相应的原因事件，这些事件指的是明确表达的论点或事件，这些论点或事件唤起了相应的情绪。这在情感分析中是一项具有挑战性的任务，因为它需要深入的文本理解和进一步的推理。同时，ECE也可以看作是溯因推理在自然语言处理中的一种应用。

图1是ECE的一个示例。在该示例中，文档总共有10个子句，并且第10个子句被注释为具有关键字“excited”的情感子句。第9个子句是带有原因事件的原因子句。所以因果关系是“(Because he is) preparing to propose to Huang, Huang is very excited”，该系统应该基于文档和给定的情感信息来预测第9子句为原因子句。图1中的示例是一个子句级任务，其中文档用情感信息进行了注释。如果情感子句没有给出，而目标是提取情感和相应的原因子句，则这是一个ECPE任务。对于ECE和ECPE，如果目标是提取情感和原因的准确文本跨度，则变体为跨度级ECE和跨度级ECPE。

ECE是一个在文档中抽取引起某种情感表达的原因从句的任务。对于所注释的情感信息，只有明确的情感标记可以标记情感从句，例如，在从句“The couple is excited”中的“excited”。如果分句是“The desk is dirty”，我们就不把它包括在情感分句集中，因为没有明确的情感表征，即使分句表达了消极的情感倾向。对于原因子句来说，它不一定指的是情绪的实际原因。相反，它指的是情绪的直接原因。事实上，原因事件不一定是一个子句，也可以是一个文本范围。为了清晰和方便起见，我们将其划分为不同层次的ECEF任务，后者被称为“跨层次情感原因抽取”。在情绪与原因的关系上，一种情绪可以有多种原因，一个原因事件也可以激发多种情绪。

近年来，情感原因提取领域（ECEF）由于以下原因受到了越来越多的关注。

首先，NLP和深度学习的研究者数量在不断增加。

作为NLP的一个热门话题，ECEF正因为船舶的"随潮而升“而受到越来越多的关注。我们在“Web of Science”上搜索了年度NLP论文（主题为“自然语言处理”，从2010年到2022年11月），并在图2中总结了统计数据。NLP出版物数量的不断增加表明了该领域的繁荣。

第二，对ECEF的关注度的提高与整个NLP领域的趋势并不完全一致，如图3所示。

2016年是ECEF的第一个主要增长点，而NLP的出版数量在这一年有所下降，如图2所示。2016年，ECE正式被定义为子句级任务。发布了第一个公共数据集，并制定了共同的评价标准。从那时起，这一任务受到了更多的关注。因此，ECEF的研究兴趣日益增加，不仅是因为NLP的受众不断增加，也是因为该课题的研究重要性。

第三，如图3所示，随着2019年ECPE的出现，ECEF经历第二大增长点。

ECPE是ECE的主要变体，它突破了传统的情感标注方法的局限性，在现实场景中有着广泛的应用。关注情绪信息的研究者继续关注细粒度的情绪原因，因为了解情绪原因与了解情绪本身同样重要。例如，COVID-19长期以来影响着人们，从事舆情挖掘的研究人员不仅关注公众情绪的分布，还希望挖掘人们对相关政策法规的正面和负面意见的成因。

总的来说，ECEF的研究过程是对文本理解的逐步深化。开发过程及其主要区别见图3和表1。主要是以下三种：

基于规则的方法
基于机器学习的方法
基于深度神经网络的方法

2010年至2015年，在早期研究中，基于规则的方法得到了广泛的应用并取得了进展。2010年，ECE被提议提取导致文本中给定情绪的原因事件。Lee等人注释了一个小规模的情感原因语料库，并识别了六组有助于情感原因检测的语言线索，它们是使役动词、感知动词、认知标记、介词、连词和其他。基于各种语言学规则，许多基于规则的系统被提出，并且还被扩展到非正式文本，例如微博。除了人工设计规则外，基于常识的方法创建了有效的常识知识和自动归纳的规则。此外，随后还探索了用于自动规则获取的bootstrap方法。

基于规则的方法实现简单，但对于不同的文本和语言，基于规则的方法需要重新构建相应的规则，适用性和灵活性较差。性能很大程度上取决于所设计的规则和注释语料库的大小。研究人员开始分析文档中句子的句法信息，以支持情感原因的提取。提出了不需要大量规则的基于特征的机器学习方法。基于特征的系统概括和扩展了语言规则。从2014年到2017年，机器学习算法如SVM和CRF被用于ECE。它被定义为序列标记、多标记分类或事件提取问题。2016年，Gui等人发布了首个基于新浪都市报的公众中文情感原因语料库，该语料库已广泛应用于ECE研究。他们将ECE重新定义为子句级分类问题，并提出了一种多核SVM方法。

与以往的基于规则的方法相比，机器学习方法取得了更好的性能，同时更有利于考虑情感描述和句子其余部分之间的语义信息。尽管机器学习方法促进了ECEF的发展，但基于特征的系统获取的语义信息也是有限的。随着深度神经网络和注意力机制的明显成功，深度神经网络被应用到了ECEF中。与机器学习方法相比，深度神经网络能够捕捉更多的语义信息，获得更深层次的特征表示。相应地，基于深度神经网络的模型在ECEF上的表现要好于基于机器学习方法的模型。2017年至今，深度神经网络方法成为主流，带来了ECEF更快的发展。在此期间发表了大量的文章和论文，如图3所示。Cheng等人提出了一种基于中文微博的多用户结构化语料库，并利用长短期记忆(LSTM)进行特征提取。Gui等人从问答的角度利用深度记忆神经网络模型。

基于深度神经网络的ECEF方法也在不断发展。2018年前，情感词被用作唯一的情感信息。Li等人明确了不能只考虑情感词，而应该考虑包含情感词及其上下文的整个情感子句，因为整个子句更适合于文档级的情感分析，而上下文也可以提供重要的情感信息。还有，Li等人应用注意力矩阵对每个候选原因子句和情感子句的相互影响进行建模。出自Yu等人的研究引入了一个层次网络，并声称子句之间的关系可能更有用，因为对情感子句和单个候选原因子句之间的情感原因关系进行建模可能不那么有效。从那时起，各种分层网络和注意机制被广泛应用于捕获多粒度和多层次的信息。将外部知识融入到任务中，如情感词的同义词和常识知识，也是一种辅助手段。最近，Berthas的预训练语言模型被引入文本编码器，这也是一种融合外部知识的方法。从文献中可以清楚地看出，更深的神经网络可以产生更好的结果。此外，为了获得逼真的场景和准确度，本文还从情感原因对提取、原因跨度提取、原因关键词提取等方面进行了改进。

本文重点研究了基于深度神经网络的方法。

第2节聚焦于ECE，这是一项传统的子句级ECEF任务，包括技术架构以及技术开发。
第3节介绍了ECPE的变体，包括ECPE、ECPE和ECPE的跨度任务，以及会话情绪原因提取领域。
第4节介绍了可用的数据集，并展示了模型在中国常用的欧洲经委会和ECPE数据集上的性能。
最后，第5节是展望，它分析了实地面临的挑战和需要解决的问题。

2 ECE的技术架构

图4展示了ECE的技术架构，其中输入是包括情感事件的文档。它包含几个子句，并使用情感子句进行注释（包含情感关键字的子句是情感子句）。对于由具有注释的情感信息的n个子句组成的每个文档D，ECE系统需要读取并收集跨文本的信息，然后检测该情感的原因。为了利用现有数据并处理原因提取的极端复杂性，研究人员可以使用对比学习并生成新的对比样本来学习更好的语义表示空间。表2是符号表。该技术架构主要包括子句内编码器、子句间编码器和输出模块。

2.1 子句内编码器

自然语言的原始语料是一组符号，系统不能直接处理符号。因此，将单词或句子映射到向量中是很重要的。子句内编码器将原始文本嵌入到向量空间中，并对子句中的每个单词进行编码。该编码器是分层网络架构的较低层。它用于获取文档的表示并捕获每个子句中的信息。为了便于区分子句内编码器和子句间编码器，我们将所有不出现在文档的多子句中的编码器分类为前一类，例如仅对情感子句和每个其他子句联合编码的编码器。子句内编码器包含两个主要组件：

词嵌入：单词嵌入使用word2Vec等嵌入方法来嵌入原始文本；
词感知编码：单词感知编码主要使用深度神经网络来捕获每个子句中的信息。

子句内编码过程也可以一步完成，例如BERT的大型预训练语言模型可以一起实现嵌入和编码。

2.1.1 Word Embedding-词嵌入

ECE的第一步是词嵌入，将文本嵌入到向量中。对于由m个单词组成的每个输入子句ci，每个单词将被映射到一个维度嵌入。根据它整合的信息，词嵌入可以分为：

与情感无关的嵌入
与情感相关的嵌入

与情感无关的嵌入主要包括随机初始化和通用的预训练嵌入方法，如Word2Vec，Glove等。它们将单词映射到向量空间中，而不将任何情感信息嵌入到单词向量中。为了注入更多的辅助信息，Diao等人采用了多粒度嵌入，包括单词嵌入，字符嵌入，类别嵌入等。

由于与情感无关的嵌入不能完全整合情感信息，研究者倾向于将更具体甚至是外部的情感信息嵌入到词向量中。这是与情感相关的嵌入。词嵌入模型可以用情感信息训练，有三种基本方法：

将外部情感知识或无监督语料库联合应用于嵌入训练，例如情感词的同义词；
用外部情感知识微调预训练的词嵌入模型；
微调预训练的语言模型。

对于第三类，主要使用BERT的预训练语言模型，并且预训练语言模型使用包含外部情感信息的大型语料库进行训练。有些模型将微调BERT的输出视为每个子句的最终表示。然而，研究人员更喜欢将BERT编码的表示作为其他模块的输入，以捕获更多的特征，例如子句间特征。为了更好地使用文本上下文信息，对预训练语言模型编码器的新尝试还包括XLNet，它反映了自回归模型的优越性。

2.1.2 Word-Aware Encoder-字感知编码器

尽管使用预先训练的语言模型或其他方法可以直接获得最终表示，但单词嵌入向量还可以被传递到单词感知编码器中以积累子句内单词的上下文信息。单词感知表示在本文中表示为si。

CNN（卷积神经网络）可以作为一个词感知编码器，在聚焦子句上提取抽象特征，缓解特征稀疏问题。
RNN（递归神经网络）使用得更频繁，在序列建模中表现出很好的性能。它可以更好地对长文本进行建模，以发现上下文依赖。
RNN的几种实现是常用的单词感知编码器，例如BiLSTM（双向长短期存储器），BiGRU（双向门控递归单元）。
GRU被认为是简化的LSTM，它只基于两个乘法门。
为了获得语法增强的单词表示，图卷积网络（GCN）也用于建模单词间依赖性。

此外，子句可能包含不相关的信息，最好多注意子句的相关词语。为了集中于更重要的词来识别情感原因，注意力机制通过词的加权和来增强子句表示。

👍深度神经网络+注意力：

神经网络（如BiLSTM）专注于序列特征的提取；
注意力层专注于单词重要性（权重）的学习。
一是自我注意；
二是情绪相关注意。

自注意力机制被应用于为对子句本身重要的这些词分配更高的权重，并将这些信息词的表示聚合以形成与情感信息无关的子句表示。

情感相关注意分为两种类型：

情绪导向注意
候选人导向注意

情绪导向注意被更广泛地使用。它决定情感从句是否应该关注候选从句（或全文）中的一个词。通常，查询是表示为 $h_e$ 的情感子句，键是表示为 $h^i_j$ 的候选原因子句中的每个词，并且值与键相同。 $\alpha_j$ 表示候选小句的第 j 个词与整个情感子句的相关度，候选原因子句的新表示计算如下：

$\begin{aligned}h_i=\sum_{j=1}^m\alpha_jh_j^i\end{aligned}$

除了上述一般形式，研究者还试图扩展情绪引导的注意。Yu等人从文档的两个方向实现了情感引导注意，根据情感子句的位置将文档分为两部分。情感增强注意机制提取对子句表示重要的情感词及其依存词。它鼓励通过外部情感词典区分情感词和非情感词之间的注意力权重的较大幅度。

与情感引导的注意力对称，候选人引导的注意力增强了情感表征，并决定候选子句（或全文）是否应该关注情感子句中的一个词。查询是一个候选子句；键是情感子句的每个单词；值与键相同。

由于情感分析包括情感检测、情感类型分类等多个方面，因此采用了联合学习的方法。例如，Chen等人提出了一种联合学习情感类别和原因的模型。这两个任务互为辅助任务，提供辅助表征。

2.2 子句间编码器

根据语篇理论，连贯的文档应该是语义连贯的，并表达一致的语义。为了理解一个文件，上下文中的子句关系和内在结构都很重要。子句内编码器输出每个子句的子句内感知表示。然而，表示是一组独立的子句。子句间编码器是分层网络的一部分（子句内编码器上的层）。在本文中，我们不区分子句内编码器和子句间编码器的编码单元是子句还是单词。我们定义了一个子句间编码器作为一个模块，编码的上下文和文档的话语结构中的多个子句之间的关系，即使这样的模块的编码单元是一个词。所有其他编码器被分类为子句内编码器。

类似于子句内编码器，深度神经网络被应用于捕获多个子句之间的信息。

CNN可以提取子句间特征因为情感子句周围的上下文可以显著影响情感原因的表达方式，例如前一个小句和后一个小句。
子句级别的BiLSTM和BiGRU也用于捕获子句之间的语义相关性。随后的子句间注意力层为每个子句分配权重。

以Xia等人提出的RNN-Transformer分层网络（RTHN）为例。

使用Transformer并注入相对位置嵌入以及全局预测标签。标准的Transformer由几个层的堆栈组成。
每层有两个子层，一个多头自注意机制，和一个全连接的前馈网络。
在RTHN中，输入是子句表示 $s_i$ 和位置嵌入 $p_i\colon x_i=s_i+p_i$ 的和。
多头自注意机制执行如下。对于每个子句 $c_i$ ，存在查询向量 $q_i=ReLU(x_iW_Q)$ 、键向量 $k_i=ReLU(x_iW_K)$ 和值向量 $v_i=ReLU(x_iW_V)$ 。
$W_Q$ 、 $W_K$ 和 $W_V$ 分别是查询、键和值的可学习权重矩阵。
自我注意力学习一组权重 $\beta _i=\{\beta _{i,1},...,\beta_{i,n}\}$ ，其测量所有输入子句回答查询 q 的程度：
$\beta _{i,t}=\frac{exp(q_i\cdot k_t)}{\sum ^n_{j=1}exp(q_i\cdot k_j)}$
输出是所有子句的值的加权和，如 $z_i=\sum^n _{t=1}\beta _{i,t}v_t$ 。
一个完全连接的前馈网络（FFN）跟随注意层，然后输出被归一化。具有这种结构的层被堆叠，并且 $l$ 表示索引。

前一层的输出被用作具有平均全局预测嵌入的下一层的输入，该平均全局预测嵌入是前一层的嵌入的预测标签的平均。它为编码器引入了更多的因果关系。最终表示 $r_i$ 将是最后一层的输出。在该示例中，通过利用预测标签来迭代表示是将因果关系引入子句向量的常用方式。标签可以是静态的，也可以是动态的。当所有子句的标签都已预测时，使用静态标签；而当每个子句的标签都已预测时，立即使用动态标签。如我们所知，文档的大多数情感（基于情感原因基准语料库的97.2%）具有一个原因，只有少数具有两个以上的原因。如果文档中的一个子句被预测为具有高置信度的情感原因，则应当降低其他子句被预测为情感原因的概率。相反地，如果不存在具有高置信度的其他情感原因从句，则应当增加当前从句被预测为情感原因的概率。因此，提出了动态全局标签以利用在当前子句之前预测的前端标签。

在子句间编码器中采用注意力机制时，每个子句的正常表示只是一个向量来表示所有子句特征。我们称之为基于子句的子句间注意。在这种情况下，细粒度的低级别信息可能会丢失。一种尝试是应用基于单词的子句间注意。它利用子句的特点来引导每个单词。

例如，Li等人利用了基于词和基于子句的子句间交互。对于基于词的子句间交互，子句中的每个词首先由文档中的每个子句引导，每个子句将从文档中获得n个子句级特征。然后，通过这n个特征之间的注意机制得到每个子句的表示。
Hu等人提出了词级上下文注意力，其中当前候选原因子句由[CLS]（BERT）的嵌入表示，其他候选子句的每个词都由[CLS]引导。它捕捉了上下文中每个词与当前子句之间的不同类型的关系。

除了语义关系外，文档结构也是需要考虑的重要部分。图神经网络可以建模和捕获子句之间的结构信息。Hu等人还提出了一种改进的注意力引导图卷积结构（AGGCN），该结构在子句间依赖性上添加了结构约束。为了利用外部知识，Yan等人提出了知识感知图模型（KAG），其中图具有两种类型的边：来自文档固有结构的序列边和基于外部常识知识图ConceptNet的指向每个候选原因子句的情感子句的知识边。他们应用了EPD-GCN聚合不同边缘上的相邻节点的信息。语义关系和文档结构都被捕获。

一般来说，子句间编码器应该获得尽可能多的关于子句和文档结构之间的关系的信息。分层网络的性能明显优于不考虑子句之间关系的先前模型。在这个过程中，当有多个任务时，也可以采用多任务学习框架。例如，Li等人提出了情感原因关键词提取（ECK），并且ECK的子句表示通过子句级别的ECE来增强，而ECK的预测标签用于增强子句级别任务的子句表示。

2.3 规则和特征

虽然基于特征的方法不如深度神经网络方法有效，但毫无疑问，对于理解一个从句，它的语言特征是非常有帮助的。对于一个连贯的文档，其子句组织还提供了子句之间的信息。此外，许多深层神经网络模型使用语言特征来支持原因提取。例如，Xiao等人定义了两个具有不同初始化的特征提取器来执行注意机制。特征提取器计算每个词的权重以获得面向子句的表示。表3显示了ECE中使用的通用特性。相对位置是最常用的特征，下面将首先讨论。

2.3.1 相对位置

相对位置是一个关键的情绪原因指标。一般情况下，子句与情感词的距离越近，其情感原因概率就越高，而在情感原因基准语料库中，情感与原因相对距离小于2（-1，0，1）的样本占85.55%。Ding等人进行了一项实验研究，证明了情绪原因的位置信息主要有助于深度学习方法的高准确性。Yan等人通过分别交换最有可能的原因子句和最不可能的原因子句的位置，生成了对抗性样本，使得相对位置不能成为ECE的指示性特征。受攻击的ECE模型都显示出显著的性能下降。

为了对位置信息进行编码，继Zhang等人之后，许多研究者将位置向量定义为子句与情感子句之间的相对距离。为了优化位置表示，位置向量也被认为是最近模型中要学习的参数。此外，位置正则化器被用作广义自动编码器，以缩小预测分布和相对于情绪的原因的真实位置分布之间的差异。在这种情况下，真实位置分布由相对距离定义，而预测分布由融合初始位置嵌入的子句表示获得。Diao等人采用词级和子句级位置感知注意模块来生成位置敏感子句表示。在跨层ECE中，子句中的每个词与情感子句都有自己的位置关系。Li等人基于子句级别的位置相关性设计了子句内位置相关性，并使用上下文感知注意对其进行了修改。

2.3.2 其他功能和规则使用

有用的排序特征不仅可以指示某个子句在上下文中的重要性，而且可以反映子句与给定情感之间的关系。这些特征可以分为情感无关特征和情感相关特征。

提取与句子无关的特征来捕捉每个子句的重要性，例如子句的长度、词性标注和特征术语。直观的长分句可以表达更多的语义信息，激发情感。
情感原因对词性标注有很强的偏好。名词、动词、形容词和副词在每个子句中的数量和比例可以作为面向原因的子句表示的不同排序特征。
此外，先前的研究表明，不同的语言线索与情绪事件高度搭配。这些有用的提示词包括因果连词、感觉动词、情感词、因果动词、否定和家庭相关代词。

依赖于情感的特征描述了特定情感与其候选原因之间的关系，例如上面讨论的相对位置，以及情感的表达与其候选原因之间的相似性，例如词嵌入相似性和主题模型相似性。

Xu等人使用基于其提取特征的预训练ListNet排名器修改了排名模型。

Kitaoka等人使用潜在狄利克雷分配（LDA，主题模型）来寻找原因。

此外，在深度学习方法中，语言规则可以用作辅助手段，并且在找到一个规则的组成部分的条件下，子句可以是情感原因。

2.4 外部信息

外部信息是指文件之外的辅助信息。以下是注入外部信息的方法的总结。首先，对于子句内编码器，可以使用外部情感信息训练单词嵌入模型，有三种基本方法：

i）将外部情感知识或无监督语料库联合应用于嵌入训练，例如情感词的同义词；
ii）用外部情感知识微调预训练的词嵌入模型；
iii）微调预先训练的语言模型。

其次，对于子句间编码器，BERT是融合外部信息的方法之一，编码器也可以使用外部常识知识图来建模子句之间的关系。Yan等人提出了知识感知图模型（KAG），其中知识边基于外部常识知识图（ConceptNet ）。

2.5 预测层

ECE可以定义为多标签分类、排序或序列标签问题。输出是特定于任务的。一般来说，每个子句的最终表示将作为输出层（主要是前馈神经网络（FFN））的输入，以输出结果。最终的表示可以是词嵌入，也可以是子句内编码器或子句间编码器的输出，并且其所包含的信息也随不同的编码策略而不同。例如，如果模型不是分层网络并且不考虑子句间关系，则子句内编码器的表示将用作预测层的输入。在最终预测FFN层之前，基于特定的任务定义，可以添加另一个层以捕获更多特征，例如用于分类的CNN和用于序列标记的GRU。ECE主要定义为分类问题，softmax分类器将输出每个子句是否为原因子句的预测概率。

$\hat{y}_i=softmax(W_cr_i+b_c)$

$r_i$ 是第 i 个子句的最终表示，并且R1是预测结果。 $W_c$ 和 $b_c$ 是可学习的参数。当ECE被定义为排名任务时，输出层试图预测每个候选子句与给定情感的确切相关性。排名模型计算预测得分，如回归和LambdaMART。序列标记的定义主要由跨度级ECE使用，并且标签 {B，I，O} 表示情感原因跨度的开始、内部和外部。根据我们前面讨论的技术架构，我们在表4中介绍了几个具有代表性的作品，包括它们独特的设计和不同的模块选择。

3 ECE的变体

目前，人们对子句级ECE做了大量的研究，但还不能满足更多的现实场景和实际需求。因此，提出了其变体。具体地，ECE是有限的，因为情感子句必须在原因提取之前手动注释，但是在真实的世界中，原始文本不会被自然地注释，所以提出了情感原因对提取（ECPE），其从没有注释的文档中提取情感及其对应的原因。此外，在某些情况下，子句级ECE可能是模糊的和不精确的，因为原因子句可能很长并且包含关于原因的不相关信息，并且这样的间隙促使搜索能够传达情绪的特定原因的更精确或更细粒度的原因表达式，并且这些对应于跨度级ECE和跨度级ECPE。在本节中，我们将主要关注ECPE，并讨论跨级别任务的开发。在此，我们首先在表5中描述ECE、ECPE及其跨阶段任务之间的一致性和差异。此外，CECEF也引起了研究者的关注。本节还将介绍CECEF。

3.1 情感原因对提取

ECPE是最重要的变体之一，迄今为止它几乎比ECE受到更多的关注。ECPE加强了原来的任务。ECE是有限的，因为情感必须在原因提取之前进行注释。此外，情感和原因的检测是相互指示的。2019年，Xia等人提出了ECPE，这是一项更具挑战性的任务，旨在提取文档中潜在的情感对和相应的原因。在任务定义上，ECE和ECPE的本质区别在于前者需要对文本进行情感标注，单独预测原因，而后者不需要标注，既预测情感，也预测原因。图5示出了ECPE的示例。ECE的目的是提取一个给定的情感表达的原因，它是有限的，因为情感必须在原因提取之前进行注释。此外，情感和原因的检测是相互指示的。为了解决这一问题，充分利用文本的交互性，ECPE的目标是从情感文本中同时提取情感及其产生的原因。对于ECE，情感子句和情感标记是可见的。从语言学的角度来看，人们通常会一起谈论他们的情绪和触发事件，这也反映在数据集中。例如，在中国情绪原因基准语料库中，情绪与原因之间的相对距离小于2（-1，0，1）的样本占85.55%。因此，对于幼儿教育来说，该系统可以很容易地开发情感信息并关注其相关部分。对于ECPE来说，情感及其原因都是无形的，这更具挑战性。不管ECPE的实现细节如何，

（i）首先，ECPE可以将情感预测作为原因提取之前的前置步骤，其中原因提取与ECE的原因提取相同。然而，作为一个两步的方法，毫无疑问，引入情绪预测子任务将带来更多的不确定性，由于错误传播。
（ii）第二，ECPE还可以对情绪和原因进行联合预测。在这种情况下，由于原因和它引发的情绪是不可分割的，提取原因而不指定情绪是病态的。即使系统获得了相对准确的情感和原因结果，预测它们之间的因果关系仍然具有挑战性。

Xia等人提出了ECPE分层网络的两步管道。但它存在误差传播的问题，难以优化。为了解决这些问题，人们提出了一步端到端模型，并已成为主流。引入各种注意机制和神经网络来捕获更多关于文本的信息并实现更好的任务性能。深度神经网络方法一直是主要的方法，可以通过语言特征来辅助。最近，BERT的预训练语言模型被广泛使用，并且在ECPE上表现良好，就像许多其他NLP任务一样。

图6说明了ECPE的总体技术架构。如图6所示，给定一个没有注释的原始文档D，ECPE系统需要读取和收集文本中的信息，然后检测情感及其相应的原因。Xia等人将任务分为两个子任务和一个配对和过滤模块，这是图6所示的常见过程。两个子任务是情感提取和原因提取。然后将候选情感子句和候选原因子句配对。随后的模块是过滤器，如分类，以确定一对是否有真正的因果关系和排名输出的最高对。并且在一开始，为了提高提取精度和增强模型鲁棒性，可以通过集成对比学习策略从原始数据中构造对比样本。

我们将ECPE定义为在文档中提取情感及其相应原因的任务。对于由n个子句组成的文档D，目标是识别一组情感-原因对 $P=\{\ldots,\bar{\left\langle c_{i}^{e},c_{j}^{c}\right\rangle},\ldots, i,j\in\{1,\ldots,n\}\}$ ，其中 $c_{i}^{e}$ 是一个情感子句，而 $c_{j}^{c}$ 是相应的原因子句。在编码之前，基于文本的作品会设计独特的提示模板来进行提取，并明确地建模多个子句之间的关系。Cheng等将情感提取模板设计为静态句子“Find the emotion clauses”，而他们将情感特定原因提取模板设计为动态句子“Find cause clauses given the emotion clauses $c_{i}$ ”，其中 $c_{i}$ 指的是第 i 个子句的内容。Zheng等人为不同的子提示设计了四个模板，并将它们合成为一个统一的提示，用于多种预测。

3.1.1 子句内编码器

ECPE的子句内编码器类似于ECE。它包含两个主要组件：单词嵌入和单词感知编码。与ECE相比，ECPE文档没有情感信息的标注。因此，单词嵌入主要采用与情感无关的方法。它包括随机初始化和通用的预训练嵌入方法，如word2Vec和Glove。此外，BERT的预训练语言模型也因其强大的语义表示能力而被广泛使用，因为BERT通过预训练和微调，可以动态地生成语义表示，并比传统的单词嵌入向量更好地表示上下文的字符级、句法结构和语义。例如减轻静态单词嵌入的多义问题。单词识别编码器累积每个子句内单词的上下文信息。单词感知表示被表示为si。BiLSTM +自我注意是常用的，CNN，和BERT也适用于产生类似于ECE的条款表示。ECPE不是只关注原因提取，而是针对情绪和原因提取的两个子任务。Chen等人采用了两个特定于任务的子句内编码器将面向任务的特征表示编码为 $s_{i}^{e}$ 和 $s_{i}^{c}$ 。但这种方法更常用于子句间编码器。

3.1.2 子句间编码器

子句间编码器捕获文档中多个子句之间的关系。因为有情感和原因提取两个子任务，所以在提取之前通常会有情感特定和原因特定的编码器。因为情绪和原因提取是相互作用的，提供情绪可以帮助发现原因，反之亦然。多任务学习方案已被提出，并显示其有效性。子句间编码器的输入是 $s_i$ （如果已经生成了任务特定的表示，则 $s_i^e$ 和 $s_i^c$ ）。此外，也有在没有两个特定编码器的情况下预测统一标签的情况，我们将在本部分的最后讨论。

在子句间编码器中，最基本的部分采用两个特定于任务的子句级编码器，分别从情感和原因两个角度获得上下文感知的表示。BiLSTM和BiGRU都是子句级别的常见编码器以及BERT。可以添加注意层以充分利用文本。例如，Sun等人提出了一种双重提问注意机制，分别对上下文的其余部分询问候选情感和原因，以关注语义理解。Chen等人采用分区过滤器网络（PFN）来获得特定于任务的特征和交互特征。Transformer更复杂，性能更好，但时间成本更高。图注意力网络（Graph Attention Network）是另一种有效的子句间关系建模方法，它将文档结构视为一个全连通图，通过对相邻子句的注意力映射对每个子句进行操作，与其他方法相比，它还可以捕获文档结构信息。Fan等人提出了一个框架，旨在将情感原因对提取集成到类似解析的有向图构造过程中。他们设计了一个基于转换的解析器，并定义了与子句表示对应的动作。该方法还利用类似于图注意力网络的图神经网络。Bao等人首先使用门机制来融合情感特征和原因特征，然后使用多粒度语义感知图来减轻距离限制。

为了利用情绪和原因提取之间的相互作用，研究者也关注多任务学习方案。对于两个特定于任务的编码器：

i）一个编码器不仅将先前的子句表示 $s_i$ ，而且还将另一个任务的预测分布，或两个任务的预测分布作为输入。
ii）一个编码器采用两个任务特定的表示作为输入，例如原因特定的编码器采用 $s_i^e$ 和 $s_i^c$ ，而情感编码器仅采用 $s_i^e$ 作为输入。

对于第一种类型，为了注入预测分布，编码器模块将重复多次。例如，Hu等人使用两个变压器，并且两者都被堆叠多次，其融合了预测的情感和原因标签，并且用于原因提取的Transformer添加了由情感检测定义的相对位置。Li等人将单词级别和子句级别的特征从情感特定编码器注入到原因特定编码器中。此外，Chen等人进行了多轮推理，以迭代地检测情绪，原因和情绪-原因对。最近，Shang等人提出了一种模块化的相互性网络，并采用可训练的偏差项来对位置偏差进行建模，并将其与标准的自我注意力得分进行聚合，以指导相互的位置感知编码。然后，他们引入了一个相互细化模块，以自适应地在两个面向子任务的编码器之间交换所选择的高置信度子句信息。

除了用于情感和原因提取的编码器之外，用于最终关系预测任务的附加联合编码器也有助于记忆更多特征。在子句间编码之后，Huang等人添加了一个子句内跨度表示部分，以利用一般的语法约定。最近，Liu等人提出了一种基于对的联合编码方法，并构建了由四种节点组成的关系图：情感子句节点，原因子句节点，对节点和文档节点。通过添加成对节点，直接与小句进行交互，捕捉相应的情感子句和原因子句之间的因果关系。文档节点可以向其他节点提供全局信息，并像枢轴一样与其他节点交互。其他处理对的模块将在“对表示”部分讨论。

预测：在编码之后，可以使用各种标签来预测情感和原因子句。如果这部分输出成对的情感和原因标签，则ECPE将在此处完成。如果这部分只输出简单的未配对的情感和原因标签，则后续的配对和过滤模块是必要的。

当存在添加数字或类别等以指示配对信息的统一标签时，在标记处理中完成配对处理。通常，将存在序列标记解码器。例如，Chen等人用因果身份标签（情感，原因或无）和情感类型标签（快乐，悲伤，...，或者没有）。将两个任务的表示连接成小句表示，并利用CNN获取相邻子句的信息。这种统一的标签可以处理二进制分类器无法区分不同情感类型的问题，这限制了在现实世界应用中的适用性，例如发现和分析特定情感类型的可能原因。Cheng等人用数字标记每个子句以指示如何配对子句，并用内容部分指示情感，原因或无。对于标记的过程，他们提出了一种面向目标的序列解码器，该解码器将四种向量作为输入，即，目标子句表示、由前一单元解码的隐藏状态、前一子句的标签嵌入以及每个子句的上下文化子句表示。Fan等人通过添加原因与其触发的情绪之间的距离，将情绪因果关系纳入标签中。他们还利用了前条款的预测标签。此外，他们还提出了通过偏移量对标签分布进行细化向量的建议，由两个子任务的输出和相对距离计算得出。

近年来，许多作品在训练或预测过程中采用管道策略。为了解决严重的标签稀疏问题，Zhou等人和Cheng等人都采用了联合训练但流水线推理策略。Zhou等人提出的模型首先执行情感提取，然后基于提取的情感子句执行原因提取。然后，基于提取的原因子句，再次进行情感提取。Cheng等人提出的模型由两部分组成，一部分是情感提取，另一部分是面向情感的原因提取。另一种是原因提取，然后是面向原因的情感提取。采用流水线推理策略，无需额外的配对过程，即可输出最终的情感、原因结果。值得一提的是，他们都使用了情感词典来实现情感过滤策略，其中每个有效的情感子句应该在情感词典中包含至少一个情感词。Qiu等人直接采用管道框架，并在两个独立的步骤中进行情绪预测和面向情绪的原因提取。Chang等人提出了一个基于BERT的两阶段框架，分别进行情感/原因提取和配对，类似于Emotion-cause pair extraction: A new task to
emotion analysis in texts这篇论文。但第一阶段包括情感提取和面向情感的原因提取，而不是单独的情感提取和原因提取。

3.1.3 配对和过滤器

在这个模块中，每个小句是情感或原因的概率分布已经被预测。如果预测的标签不包含情感因果关系，则需要将候选情感小句集合E中的小句和候选原因小句集合C中的小句配对。配对策略主要包括三类，

i）笛卡尔积；
ii）完全配对；
iii）滑动窗口。

在早期的研究中，子句集合E和C之间的笛卡尔积是一种常见的方法。每一个被标记为情绪的子句都会与被标记为原因的子句配对。但E或C之外的可能对将被过滤。因此，研究人员考虑了文件D中所有可能对的更广泛范围。所有的对形成一个形状为n × n的矩阵。考虑到相对距离的重要性，滑动窗口方法将每个子句集中为情感或原因子句，并认为只有窗口（相对距离）内的子句可能与它有因果关系。

配对表示法：为了将特定于情感的表示和特定于原因的表示（表示为 $r_i^e$ 和 $r_j^c$ ）合并成对矩阵，提出了各种方法。使用连接两个表示和相对距离的特征向量是一种简单的方法，例如 $[r_i^e;r_j^c;v^d]$ 。 $v^d$ 表示两个子句之间的距离。此外，还可以优化两个子句之间的距离的表示。例如，Wei等人通过基于核的相对位置嵌入来增强相对距离的表示，以建模不同相对位置之间的相互影响，并获得了相对好的结果改进。Song等人在两个子句上实现了Biaffine变换，如 $(Wr_{i}^{e}+b)r_{j}^{c}$ 。 $W$ 和 $b$ 是仿射变换的可学习参数，对于相对距离，他们注意到人们更可能在表达情感之前告知原因，因此他们分配了非对称的位置权重矩阵，而不是对称的。Shang等人采用了双重正则化对预测器来考虑两个方向上的预测（情绪-原因和原因-情绪）。他们将这两种表示相加，以获得最终的成对得分。

当使用滑动窗口对策略时，相对距离更重要。Ding等人将两个与情绪-原因相关的子句的距离缩小到一个窗口中，并为窗口中的每个相对距离引入逻辑函数。逻辑函数以当前关注的子句（窗口中心）为特征，预测每个候选子句与关注子句之间存在因果关系的概率分布。为了捕获更多的局部信息，Chen等人使用邻域子句的附加标签来进行配对和过滤。提出了两种局部对标记。一个是预测-局部原因，另一个是原因-局部情感。以预测-局部原因为例，它包含了第 i 个小句的情感标签和一个窗口内的局部原因标签。标签集对应于配对集。在预测-局部原因标签集中，如果一个子句的局部原因标签为1，则它将被预测为当前关注的情感子句的原因。

上述策略分别对待每一对。为了利用其他对，一些研究集中在实现情绪-原因对之间的相互作用。Ding等人将情感从句和原因从句表征、它们的概率分布和位置特征连接起来。他们进一步设计了一个2DTransformer，包括一个多头2D自我注意机制和一个位置前馈网络，以有效地实现情感-原因对之间的交互。他们提出了三种类型的变压器：标准Transformer，窗口约束Transformer和十字路口Transformer。相反，Chen等人使用对图来考虑在大小为2的窗口中约束的对。每对的节点表示为 $r_{ij}=[r_i^e;r_j^c]$ 。每个情感子句对应于由三种类型的边构造的图：自环、距离1和距离2。距离嵌入被添加到每个对的最终表示中。为了利用子句对的更细粒度的特征，Yang等人采用胶囊网络并聚类每个对的关系。

过滤器：经过训练的逻辑回归模型通常用于检测每个候选对。这些对将被标记为1，表示存在因果关系，或0，表示没有。softmax（）函数也是常用的以及条件随机场解码器。Song等人采用双仿射注意力模块来输出分数。Wu等人提出了一种用于预测情绪-原因对的成对标记框架。

3.1.4 损失

对于管道系统来说，每一步都是独立训练的，都有自己的损耗。一般形式是预测的交叉熵误差。对于端到端系统，为了获得更好的情感特定表示和原因特定表示，情感预测和原因预测的辅助损失将作为加权和添加到最终的对提取中。为了使用相对位置信息，Fan等人定义了一个范围控制器，以缩小预测分布与情绪-原因对的相对位置分布之间的差异。对比学习策略的使用也会增加对比学习损失。Chen等人提出了一种任务间对齐机制，通过添加Kullback Leibler（KL）发散损失来对齐情绪-原因对提取和两个辅助任务的结果。在前面讨论的技术架构的基础上，我们在表6中介绍了几个有代表性的工作，包括它们独特的设计和不同的模块选择。

3.2 跨度级别任务

一般而言，子句级ECE适用于文档的情感原因分析。但是，在某些情况下，子句级ECE也可能是模棱两可和不精确的。图7给出了一个例子。如图所示7、第8句是原因句，因为它包含了“cared and helped their family find Xiao Xinxin”的原因，激发了“thanks”的情感。但它的主要内容“He hoped... who”并不是“thanks”的确切原因。跨度级ECE（SECE）旨在从给定的语境中精确地检测传达情感原因的文本跨度的边界。直到2021年，SECE才在文献中得到广泛研究，因为早期的研究主要是劳动密集型的，并且倾向于特征的次优设计，而Li等人则开始关注于检测原因跨度的边界。

Ghazi等人在2015年提出了一个跨度水平ECE（SECE）任务，并建立了一个CRF学习器来识别情绪原因跨度。但是，早期的模型依赖于特定的功能设计，并且没有很好地推广。最近，基于深度学习技术，Qian等人采用多任务学习框架，并将跨级ECE定义为两个任务：答案标记和检测答案边界。后者利用了前者的输出隐藏状态。Li等人以两种方式识别情感原因跨度边界：

i）序列标记；
ii）开始/结束位置检测。

而当任务定义为位置识别问题时，则使用点网络依次生成跨度的起始位置和终止位置。Li等人为SECE设计了不同的序列标记模型以提高性能。Li等人利用基于BERT的图神经网络模型，它比以前的方法表现得更好。一般来说，跨度级任务的编码器与小句级任务相似，但预测的标签完全不同。跨度级任务可以定义为序列标注问题，该问题将基于令牌表示来预测输入序列的标签，而当它被定义为位置识别任务时，它需要从输入中选择原因跨度的开始和结束位置。

对于SECE，提取确切的情感原因片段不仅需要深入的文本理解，包括每个词在情感表达中的作用，还需要基于理解的内容进行特定的语义推理。很难准确地确定边界。Li等人在2021年提出了情绪原因关键词（ECK）。ECK是一个细粒度的情绪原因提取任务，旨在识别小句中的哪个词有助于刺激情绪表达。ECK比粗粒度的子句级提取更难识别，但比精确的SECE更轻。ECK要求捕捉词语和情感表达之间的关系，并理解每个词语在小句中的作用。但是，没有必要确定完整和精确的原因内容。Li等人提出的模型利用由小句级任务生成的原因小句表征来增强ECK中原因关键词表征的学习。然后，它通过原因关键字标签增强了小句级任务的表示。

跨度级别ECE不是唯一的跨级任务。为了获得更准确的原因和细粒度信息，还提出了跨级ECPE用于更一般的场景，而无需手动注释。跨级ECPE和ECE之间的差异类似于两个子句级任务之间的差异。

3.3 会话情感原因提取字段

我们上面讨论的这些作品都是文档上的ECEF。最近，在提取谈话中表达的情绪的原因方面进行了积极的研究。在2020年，Kristan等人首次将ECE的任务扩展到对话，引入了一个新的任务，要求提取对话中给定情感话语对应的原因跨度，并发布了一个公共数据集RECCON（Recognizing Emotion Cause inCONversations）。它在情感支持系统和移情对话系统等几个领域有潜在的应用。

一般来说，ECEF在文档上和ECEF在会话上有两个主要区别。

1）虽然这两个任务都与情感的因果推理有关，但文档上的ECEF与明确表达的情感有关，其中情感子句包含明确的情感标记，例如“失望”，“快乐”。相反，会话的ECEF不需要明确的情感表达。例如，从句“我做了什么？”表达了“惊讶”的情绪。它属于内隐情感分析。
2）会话和文档是两种完全不同的文本格式。与传统的文档相比，会话数据具有独特的属性，如非语法性，不连续性，上下文依赖性，以及对话者之间的混合动态。相比之下，文档由几个基本相等的子句组成，因此对前后子句的依赖性不像会话中那样强。

在会话任务中，“情感”指的是“情感证据”，它是文本的一部分，表明说话者的情感状态中存在情感。“原因”指的是“情感原因”，它是文本的一部分，表达了说话人感受到“情感证据”的情感的原因。他们定义了两个新的任务：因果跨度提取（CSE）和因果情绪蕴涵（CEE）。CSE涉及识别目标情感话语的因果跨度，而CEE涉及确定候选话语对是否有效。这两项任务都是在有或没有历史对话背景的情况下制定的。他们像问答任务一样解决了SQuAD任务，并建立了基于Transformer的基线（RoBERTa-base和RoBERTa-large）。Zhang等人指出，将CEE看作一组独立的话语对分类问题，忽略了话语历史中的情感和说话人信息。他们提出了一个双流注意模型来有效地模拟说话人的情感影响，它包括三个模块：情感注意网络，说话人注意网络和交互模块。

由于这两个子任务在推理过程中都使用了黄金情感注释，这不是一个实际的假设，Ashwani等人提出了一个针对三个任务的端到端多任务学习框架，并将情感，情感原因和原因蕴涵一起提取。情绪被预测为辅助任务，因此不需要地面真实情绪。他们还使用了一个基于RoberTa的模型，并为CEE添加了一个BiLSTM模块，以捕获基于情感话语表征的因果话语。

为了进行足够的会话上下文建模和有效的情感原因推理，Li等人构建了知识增强的有向无环图网络，以利用社会常识知识（CSK）（COMET ），并提高了识别具有中性情感的因果话语的性能。Zhao等人指出，将中性话语作为目标话语会导致处理数据集中更多的负面非因果对。他们通过构建一个具有以事件为中心的边和社交互动边的会话图来引入CSK，以填补候选话语和目标情感话语之间的推理空白。此外，Zhao等人提出了一种因果感知交互网络，该网络检索由常识知识（ATOMIC ）提供的因果线索，以帮助情感识别。

与问答设置不同，Li等人提出了另一个任务，对话中的预防-原因对提取（ECPEC）。与传统的ECPE相比，它旨在从会话中提取情感-原因对。他们为新的ECPEC任务建立了一个新的数据集（ConvECPE），并提出了一个两步框架。情感和原因首先被发现。然后，他们将EC块过滤器和EC对过滤器以并行结构结合起来。由于在大多数情况下，情感话语的原因位于对话的一个小区域，他们将原因话语集分成几个原因组块，每个原因组块都是一系列连续的原因话语。第一个过滤器配对的情感话语的原因块，而不是原因和识别的候选EC块对。后者过滤器应用笛卡尔积配对策略，并选择有效的对。

3.4 其他变体

Xiao等人提出了一个从在线“新浪微博”中提取社会情感原因的任务，其目标是从给定社会情感词的文档中找到原因，但社会情感词通常不会明确出现在文本中。

此外，考虑到提取的情感和原因子句之间的因果关系可能仅在特定上下文下有效，Chen等人提出了一种新的任务，条件因果关系分类（CCRC）来进行情感-原因对因果关系检测，旨在确定输入的情感和原因对在不同上下文下是否具有有效的因果关系。Cao等人将BERT模型引入CCRC。他们随后的工作引入了一个图形注意力网络模块来增强句子表示和模型关键特征，例如上下文中句子之间的结构关系。Zheng等人提出了一种通用的基于递归的方法，以在统一的框架中解决ECE，ECPE和CCRC。他们将任务分解为多个任务目标后，将每个任务目标修改为子提示。

Turcan等人将情感任务作为分类任务，将原因任务作为跨度检测任务，而不是ECPE中的情感提取。他们提出了一个多任务学习框架来对它们进行联合建模。他们所做的另一个贡献是通过使用适应的知识模型COMET（COMmonsEnse Transformers）来使用常识知识。

3.5 数据集和性能

对于ECEF而言，只有少数几个公共数据集，数据集的规模也相对较小。情感原因提取需要语义理解和进一步的推理。构建一个新的语料库需要大量的人工参与，这可能是非常耗时的。在早期的研究中，没有公开的数据集，研究者基于公开的语料库自行构建数据集，如中文的Sinica语料库和中文微博语料库；英文的在线ABBYY Lingvo词典和FrameNet语料库；意大利语的La Repubblica语料库。也有一个日语语料库，它将情感从句的从句作为情感激发事件来进行情感分类。2016年，NEWS SINA 2 的《中国城市新闻（2013-2015）》提出了首个ECE中文公共数据集，得到了广泛认可，目前仍在使用。2017年，Cheng等人根据报道构建了一个与其他人不同的多用户结构的中文微博情感原因语料库。Yada等人构建了三个日语语料库，以验证他们用于自动规则获取的bootstrap方法。2017年，NTCIR-13情绪原因分析（ECA）被提出来评估ECA技术（此处，“ECA”与本文中我们所称的ECE相同）。为支持评价，人工构建了一个中英文语料库。中文部分来自与[9]相同的来源（城市新闻），而英文部分选择了英语小说文本，这已经成为一个流行的公共英语ECE数据集。2019年，Xia等人提出了ECPE，并对NEWS SINA 2 的数据集进行了调整，以适应新的任务。Singh等人还将NTCIR-13 ECA语料库改编为英语ECPE。Chen等人根据ECPE数据集构建了CCRC数据集。对于CECEF，Poria等人基于两个会话数据集IEMOCAP和Daily Dialog 构建了RECCON数据集，这两个会话数据集都配备了话语级情感标签。RECCON数据集由RECCON-IE和RECCON-DD两部分组成，分别对应于两个会话数据集，两部分的标签集略有不同。RECCON-IE中的原因发现和因果推理都比较有趣和困难。Li等人为他们新提出的ECPEC任务构建了ConvECPE数据集。表7显示了ECEF中数据集的统计量。

由于研究主要集中在基于公共数据集的ECE和ECPE上，因此在本节中，我们主要展示和讨论不同模型在这两个任务上的结果。

3.5.1 ECE

（1）数据集：2016年，基于NEWS SINA 2的3年（2013-15）中国城市新闻，提出了ECE最受欢迎的数据集。该数据集包括2105个实例。97.2%的事例只包含一种情绪诱因，而只有2.8%的事例包含两种或两种以上的诱因。此外，实例还显示了很强的位置偏差。表8显示了各原因的位置分布。从表中可以看出，85.55%的情感原因与情感从句在从句层次上的邻接距离在1以内。此外，它还显示了方向性偏见，即前面的子句似乎更有可能是其原因。显然，该位置是ECE的一个关键特点。最流行的英文ECE数据集是NTCIR-13，该数据集由NTCIR-13 ECA任务从英文小说文本中发布。

（2）性能：在上述中文和英文两个数据集上，不同型号的性能列于表IX。主要有三种不同类型的模型：基于规则的方法、基于特征的方法和深度神经网络方法。按直线划分，第1组包括基于规则的方法和基于常识的方法，前者使用手动定义的语言规则，后者使用手动定义的语言规则。RB的查准率高，查全率低，CB的查准率高，查全率低。它显示了常识性知识的重要性。与RB相比，RB+CB在F测量上实现了1.27%的改善。然而，这些方法需要大量的人工操作来考虑具体的语言，甚至是各种文本风格，这限制了它们的通用性。第2组包括基于特征的机器学习方法。RB+CB+SVM通过规则和常识知识训练ML分类器。其F1的表现优于RB+CB。多核方法由于考虑了上下文信息，因此具有更高的性能。我们还可以看到，LambdaMART的性能比该组中的任何其他方法都要好。它的性能得益于许多有用的特性，包括与情感相关的和与情感无关的特性。第三组包括深层神经网络方法，我们根据BERT的预训练语言模型的使用将这一部分分为三类。在t中，F1优于RB+CB。多核方法由于考虑了上下文信息，因此具有更高的性能。我们还可以看到，LambdaMART的性能比该组中的任何其他方法都要好。它的性能得益于许多有用的特性，包括与情感相关的和与情感无关的特性。第三组包括深层神经网络方法，我们根据BERT的预训练语言模型的使用将这一部分分为三类。表中，“w/o BERT”表示模型不使用BERT。“BERT”表示模型在其整个网络中使用BERT。“跨度训练+ BERT”表示模型在跨度级ECE上使用BERT进行训练，但在子句级ECE上进行测试。在“w/o BERT”子群中，CNN和BiLSTM能够捕获复杂的潜在语义信息。ConvMS-Memnet有效地捕获了更深层次的上下文信息。注意机制有助于将注意力集中在更重要的单词和从句上。分层网络模型融合了不同层次的信息。使用预测标签进行迭代被证明是有益的。由于使用了BERT的预训练语言模型，“BERT”的子组实现了更高的性能。“跨度训练+BERT”小组尝试进行跨度级ECE。模型在跨度级进行训练，在子句级进行测试，以获得表IX中的结果。这些模型的性能优于其他在子句级上训练和测试的子句级方法。基本上，提取的原因范围可以提高其在子句级任务上的性能，因为集中于范围提取可能较少受到子句中与原因无关的部分的影响，因此可以帮助定位真正的原因。

在NTCIR-13英语数据集上，模型专注于英语文本的ECE。其性能列于表X中。第一组是机器学习方法，第二组是深度学习方法。此外，深度学习方法可以理解潜在的语义信息，并优于第1组中的方法。但是在中文数据集上表现良好的模型在英文数据集上表现不佳，这验证了当语言特征不同时，现有模型无法实现良好的泛化能力。对于英语，Oberléa ndertoken等人证明了在基于子句和基于令牌序列的评估中，令牌序列标记上级子句分类。

（3）跨级情感原因提取：跨级ECE是一个更细粒度的任务，更具挑战性。表XI列出了几种型号的性能。

从现有模型的最佳性能来看，英文ECE的跨级解优于中文ECE的跨级解。显然，这两种语言的适当处理单元是不同的。欧洲经委会对问题的适当定义也应该对两种语文加以区分。

对于情感原因关键词提取的新任务，模型的性能列于下表XII中。

3.5.2 ECPE

（1）数据集：基于SINA News的基准ECE数据集，Xia等人构建了ECPE的公共数据集。每个文档只包含一种情绪，并对应一个或多个原因。因果对被注释以更好地满足ECPE任务设置。具有不同数量的情绪-原因对的文档的比例如表XIII所示。

（2）性能：针对ECPE提出了各种模型，其实验结果如表XIV所示。在以往的研究中，有两种不同的数据分割策略。Ding等人采用10倍交叉验证（9：1）进行评价，而Fan等人则以8：1：1的比例将语料库随机分为训练/开发/测试集。数据拆分将在表中显示。

第1组和第2组都是深度学习方法，它们是通过使用BERT的预训练语言模型来划分的。与ECE相比，ECPE更具挑战性，这一点可以从评估指标中看出。一般来说，有BERT的模型比没有BERT的模型有更好的结果。实验结果验证了预训练语言模型的有效性。此外，8：1：1的训练/开发/测试集的数据拆分与9：1的训练/测试集的数据拆分是不同的。考虑到不同的数据拆分类型，我们进一步按数据拆分对结果进行分组。

在ECPE的基础上，Hu等人从互信息（MI）的角度探讨了有效和无效情绪-原因对之间的差异。首先，他们将ECPE形式化为一个概率问题，通过一个基于BiLSTM的神经网络计算情感和原因子句的边缘分布。利用概率公式推导了情感从句和原因从句的联合分布。基于边际分布和联合分布，计算了两个子句的MI。情绪-原因对和非情绪-原因对的平均MI在训练的前几步比较接近，之后出现了明显的差距。情绪-原因对的平均MI逐渐增大，呈现微弱的下降波动趋势。非情绪-原因配对的平均MI在前几个训练步骤后降低。他们指出，概率越高的情绪-原因对，MI越高。情感-原因对的平均MI与含有多个情感-原因对的文献中的不匹配从句对的MI相差很小，说明MI只关注情感和原因从句的统计相关性，忽略了它们之间的语义关系。他们还研究了相对距离对MI的影响，并得出了MI和相对距离并不总是正相关的结论。第一，相对距离小的两个分句的MI大于相对距离大的两个分句的MI。第二，在相对距离相同的情况下，情绪-原因对的MI大于非情绪-原因对的MI.第三，相对距离较大的情感-原因对的MI大于相对距离较小的非情感-原因对的MI。

3.5.3 挑战性的数据集

Liu等人提出了一个名为Coconut Cause的具有挑战性的数据集，其中语言更口语化。在这个数据集中，文档都是基于SMP 2020微博情感分类大赛的疫情数据集，从微博上与COVID-19相关的微博文本中选取的。《微博原因》包含了5195个文档，这些文档的语言更加口语化，并且使用了“微博表情符号”（转换为“[emoji name]”的形式）。他们利用10个模型来执行ECE和ECPE任务，发现与SINA数据集相比，9个现有模型在数据集上的性能显着下降。

3.5.4 CECEF

（1）数据集：基于两个会话数据集IEMOCAP和DailyDialog构建了RECCON，这两个数据集都配备了话语级情感标签。RECCON由RECCON-IE和RECCONDD两部分组成，两部分中的标签集略有不同。在RECCON-IE中，原因检测和因果推理都比RECCON-DD更有趣和困难。统计结果表明，在RECCON-IE中，几乎40.5%的话语在至少3个时间戳的上下文历史中有其情感原因。相比之下，RECCON-DD的这一比例仅为13%。RECCON由1122个对话组成（RECCON-DD中1106个，RECCON-IE中16个）。这些对话总共包含11769个话语（RECCON-DD中11104个，RECCON-IE中665个）。Li等人基于IEMOCAP构建了用于ECPEC任务的ConvECPE。ConvECPE包含151个对话，共7433个话语。

（2）性能：Kristan等人提出了两个子任务，CSE和CEE。他们还使用了三种不同的策略来创建阴性样本，并创建了三种不同的实验设置，即Fold 1，Fold 2和Fold 3。在Fold 1中，从对话中删除所有因果话语将构建一个否定样本。这里我们主要讨论CEE上的Fold 1。实验结果示于表XV中。这些指标包括 $F1_{pos}$ 、 $F1_{neg}$ 和宏F1。 $F1_{pos}$ 评估提取QA模型的预测，并在数据中的正例上计算。 $F1_{neg}$ 表示相对于金标准数据检测阴性样本的F1评分。MacroF1类似于 $F1_{pos}$ ，但对每个阳性和阴性样本进行计算，然后对它们进行平均。如表XV所示，直接传递文档的上下文建模方法不适合CECEF。此外，在对话场景的情况下，常识知识似乎是有用的，作为关系桥梁。

4 展望

情感分析的深度学习技术已成为一个重要的研究方向。ECEF是情感分析领域中最具有挑战性的任务之一，利用深度学习方法进行情感推理分析的兴趣日益浓厚。“在本调查中，我们回顾了ECEF深度学习方法的研究现状，重点介绍了开创性的工作和最先进的方法。它为这一研究提供了一个完整的方法论视角。我们可以简单地得出这样的结论：更深层次的神经网络可以更好地理解文本，并获得更好的性能。BERT的预训练语言模型由于具有丰富的语义信息，其性能明显优于其他模型。此外，语言特征还提高了语言成分的性能。它通常与深度神经网络捕获的语义信息相结合，尤其是对于位置信息。多任务学习是一种很有前途的学习策略。然而，在给定数据集上，ECE的评价指标并未达到理想值，ECPE更具挑战性。在自动化ECEF技术之前还有许多路要走，我们期待深度学习方法的进一步发展来完成这一任务。此外，更深的网络是大的并且具有许多参数要学习，因此难以改变网络结构，并且计算量大。训练和预测的时间/存储器成本可能是高得惊人的，即使实现了性能改进。从应用的角度来看，需要在精度和成本之间找到合适的平衡点。从技术角度看，ECEF是NLP的一个子领域，目前主要采用的是NLP技术。现有的文本相似度分析方法很好地捕捉到了文本的相似性，但很难捕捉到因果关系。它们一般是难以解释的，这仍然是本任务的一个严重不足的方面，以改进模型的可解释性。ECE可以被看作是一种溯因推理。虽然对语义信息的深入理解促进了推理的进展，但现有的方法大多进行归纳推理，而不以溯因推理为目标。在未来的研究中，许多其他的溯因推理方法可以被探索和集成，以提高推理过程的可解释性和推理结果的性能。除了语义语境推理之外，整合形式推理是另一个方向，例如原因类型的结构化。ECEF的现有工作利用常识知识图来帮助捕获情绪-原因关系。情感-原因关系也是一种典型的强约束关系，其节点为事件。以事件链末端的逻辑关系为重点的事件演化图的深入研究提供了很好的支持。

挑战不仅来自技术角度，而且来自公共语料库的局限性。在文献中，ECEF在公共数据集方面受到限制。深度学习方法都是基于大量的标记数据来训练模型。此外，我们观察到，许多被错误预测的情况本质上是注释问题或文本不合逻辑。这种现象也说明了自然语言的复杂性。此外，一段话中情感和原因之间的关系可能是一对多，多对一，甚至多对多。自然语言中复杂的情感-原因关系必然更具挑战性，需要大量关注。我们期待更多的研究人员策划更有趣的数据集，以支持ECEF的持续研究。此外，从模型在中文和英文数据集上的表现来看，我们可以看到大多数模型对于不同语言都有不同的表现。在中文中表现出色的模特在英文中表现不佳，反之亦然。每种语言都有其自身的特点，它们对现有模型的效果有很大的影响，如何克服这一障碍获得更通用的模型是未来的课题。

我们希望通过本次调查，为研究者提供一个切入点，让他们了解生态经济学的当前进展，并提高对未来研究重点的认识，最终发展成熟的技术，在经济、政治等方面带来更多的实用价值。