Unified Named Entity Recognition as Word-Word Relation Classification

news/2024/11/29 4:35:06/

原文链接:https://arxiv.org/pdf/2112.10070.pdf

AAAI 2022

介绍

         NER主要包括三种类型:flatoverlap和discontinuous。目前效果最好的模型主要是:span-based和seq2seq,但前者注重于边界的识别,后者可能存在exposure bias。

        作者对entity words之间的相邻关系进行建模,将NER定义为一个word-word之间的关系分类任务,一共定义三种关系NONENext-Neighboring-Word(NNW)Tail-Head-Word-*(THW-S)如下图所示:

方法

        模型的整体架构如下图所示,主要包括三个部分:BERT和LSTM组合而成的encoder、用于建立和完善word-pair grid表征的卷积层,Biaffine和MLP联合的分类层

Encoder Layer

        使用BERT+BiLSTM来作为encoder,将一个词的pieces经过一个max pooling来得到该词的表征,送入到BiLSTM来进一步获取上下文信息,得到word表征为H=\left \{ h_{1},h_{2},h_{3},,,h_{N} \right \}\subseteq R^{N\times d_{h}}d_{h}表示每个word embedding的维度。

Convolution Layer 

        使用CNN来优化表征,包括三个模块,1)condition layer,用于生成word-pair grid的表征;2)用于丰富word-pair grid表征的bert式grid表征;3)用于捕捉相邻词和distant word之间交互的多粒度扩张卷积。 

Conditional Layer Normalization

        为了预测word pairs之间的关系,将word-pair gird的表征视为3维的矩阵V,vij表示word pair(xi,xj),而不是(xj,xi),因为NNW和THW关系是有方向的,Vij由xi和ji计算得出。如下所示: 

BERT-Style Grid Representation Build-Up 

        BERT中的输出由token embedding、position embedding和segment embedding组成,作者受此启发,使用V\subseteq R^{N\times N\times d_{h}}(词的信息)、E^{d}\subseteq R^{N\times N\times d_{E_{d}}}(每对单词之间的相对位置)和E^{t}\subseteq R^{N\times N\times d_{E_{t}}}(区域信息,用于表示网格中上三角和下三角)这三种embedding进行concate后送入MLP得到最终的网格表征C\subseteq R^{N\times N\times d_{c}}: 

Multi-Granularity Dilated Convolution

         使用不同扩张率(l = 1,2,3)的二维扩张卷积来捕获不同距离word之间的交互,经过多次扩张中,得到最终word-pair的表征Q=[Q^{1},Q^{2},Q^{3}],

Co-Predictor Layer 

        作者使用MLP和biaffine分别进行预测分类(作者说是因为之前有论文说这样效果更好),最将两者的结果进行合并。不过biaffine模型是将encoder的输出作为输入(即图中虚线的表示) ,使用两个MLP分别计算xi和yj的word presentation,然后使用biaffine classifier来计算这对词之间的关系分数作为预测结果:

        而NLP是基于word-pair grid表征Q_{ij},使用一个MLP来计算单词对之间的分数y{}''_{ij},最后将两者的结果进行结合:

Decoder 

        以上步骤后,模型的输出可以视为一个词的有向图,解码的目标就是利用NNW在图中找到从一个词到另一个词的特定路径,每条路对应着一个实体部分。下图描述了4种从易到难的情况:

         4)仅使用NNW关系的情况下能在这个例子中找到4条路径,如果只使用THW只能找到识别到ABCD,而不是ACD或者BCD,因此通过同时使用这两者关系来获得正确答案。

Learning

        损失函数:

        N是句子中单词的个数,y是gold relation labels的二值向量(xi,yj),r表示集合R中预定义好的第r种关系。 

实验

对比试验

        在英文flat NER数据集上进行实验,结果如下所示:

        在中文flat NER数据集上进行实验,结果如下图所示:

         在英文overlap数据集上进行实验,结果如下图所示:

        在discontinuousNER数据集上进行实验,结果如下图所示: 

        在中文overlapNER数据集上进行实验,结果如下图所示:

        作者在只有overlap和discontinue的数据集进行了实验,结果如下图所示,这样一对比就突出了W2NER模型的优势。

消融实验 

         在三个数据集上进行消融实验,结果如下所示:

         移除NNW关系时,所有数据集上的F1都有所下降,特别时CADEC数据集上,F1下降了4.2%,这是因为CADEC数据种包括不连续实体,如果没有NNW关系,discontinuedNER会被识别为连续span。

总结 

        作者将NER问题视为词与词之间的关系, 这样就能灵活的解决discontinueNER的问题,最后在discontinue的数据集上表现更为明显。不过感觉作者构建的网格有点复杂的亚子(不能用其他方式简化一下吗?),另外,作者也提到使用两个分类器进行分类,对模型的效果也有一定的提升,感觉可以借鉴一下。


http://www.ppmy.cn/news/847233.html

相关文章

立创EDA(专业版)电路设计与制作快速入门

1.新建工程的时候 (要注意用版本控制,项目名,日期,版本) 2.原理图设计环境设置 3.电源转换电路 电源是一般是5v转3.3v电路 电源主要的可以选择LLDO来降压的或者是DCDC减压 这个电路主要是用LDO来降压的 AMS1117降…

window电脑上同步展示示华为手机内容

window电脑上同步展示示华为手机内容 使用USB数据线连接华为手机后,会提示下载华为手机助手 下载安装完成后,输入验证码连接设备 在左侧就会展示华为手机的页面,和手机是同步的 当鼠标放上去之后 点击左下角演示按钮,就会全屏展…

华为手机有信号 打电话无服务器,华为手机信号,真有传说中那么好?

现如今,市面上的智能手机型号,没有一百也有八十。 虽然,各手机品牌都有自己明显的优势和标签,但提到信号给力,大家基本上都会第一时间想起华为。 特别是在因信号车被屡屡吐槽的iphone和断流闻声国内外的小米的衬托下&a…

华为手机能隐藏蓝牙吗_华为手机有哪些隐藏功能?

华为手机,越来越多的国人在使用的手机大品牌,作为国内知名的手机大厂,华为手机又有哪些隐藏的功能,今天小编就来和大家一起了解一哈,华为手机的隐藏功能。 1、隐藏应用 华为和其他品牌手机最不同的,就是手机…

走进Linux世界【二、VM与Linux安装】

第二章 VM与Linux安装 1、安装VMware ​ 这里安装Vm主要是为了安装Linux系统,除了相对云服务器,比较大众化的操作,当然更多的是熟悉Linux操作 1、Windows安装 ​ (1) 下载链接,目前版本上下载VM15的版本即可https://www.vmwar…

Unity 监听Button Interactable状态

通过继承Button 重写DoStateTransition方法来监测Button的Interactable状态&#xff0c;外部可以在InteractableChanged添加绑定监听方法 public class MyButton : Button {public event Action<bool> InteractableChanged;protected override void DoStateTransition(S…

解决 MAC声音问题,语音没有声音问题

在终端里输入以下命令即可解决&#xff1a; sudo killall coreaudiod 在Mac中找到活动监视器打开&#xff0c;右上角搜索coreaudiod&#xff0c;点击搜索出来的进程&#xff0c;左上角关掉该进程。

MAC苹果电脑的一些快捷键【转】

动作 快捷键 停止进程 Command period 强制退出应用程序 Command Option Escape 强制重新启动 Command Ctrl 电源 key 屏幕捕捉 动作 保存为 快捷键 整个屏幕 PDF 格式在桌面 Command Shift 3 部分屏幕 PDF 格式在桌面 Command Shift 4 窗口/图标 PDF 格式在桌面 1. C…