在自然语言处理(NLP)任务中,命名实体识别(NER)通常涉及两个关键步骤:词典匹配和模型预测。词典匹配的优势在于速度快、准确性高,但由于词典的有限性,不同人群对相同实体的表达方式各异,导致新词(OOV)问题普遍存在。
为缓解OOV问题,可以通过模型预测提升泛化能力,同时在离线环境中挖掘新词以补充实体库。本文将结合美团提到的一种新词挖掘方法,详细解读离线新词发现的流程,分享该方法在实际工作中的应用效果。
一、为什么需要新词发现?
新词发现的初衷是弥补词典的不足。对于一般词典来说,任何不在其中的词汇均属于“新词”。在实际场景中,新词发现的方法一般分为有监督方法和无监督方法:
-
无监督方法:通过紧密度和自由度结合阈值提取新词。然而,如何调整阈值仍需平衡召回和精确度,实际操作中存在较大的灵活性需求。
-
有监督方法:使用序列标注模型进行中文分词,未出现在词典中的词汇即视为新词。这种方式可以较高效地发现新词,但对实体识别帮助不大。
举例来说,“爷青结”属于新词,但对某些特定领域的实体库