公众号 系统之神与我同在
基于知识图谱的问答形式
基于知识图谱的问答
基于模板的方法
跨垂域粗粒度的语义解析方法
基于路径匹配的方法
基于模板的方法
基于模板的方法—模板挖掘方法
带约束的问答—世界之最
问题1. 属性归一化
解决方案:同义词、词向量、句对相似度匹配
问题2. 无属性
解决方案:对量词(大、长)设置一些默认排序的属性
基于模板的方法
缺点:
·模板扩充,耗时耗力
·泛化性差,召回有限
优点:
·准确率高:95%
·线上性能好
·适合做体验精品化
跨垂域粗粒度的语义解析方法
基础模型:
·槽填充:通过NER方式提取槽位
·意图识别:按文本分类方式识别
query意图
·多任务学习:将二者联合学习
·后处理策略:根据领域词表对识 别槽位进行纠错
目的:提升泛化性,提高召回
低资源问题:跨垂域粗粒度体系
基于路径匹配的方法
·实体链接
·子图检索
·子图匹配
·语义相似度计算
·Rank排序
基于路径匹配的方法—实体链接
实体链接:
基于路径匹配的方法—子图检索
子图检索:
以单实体/多实体作为起点
按照路径模板挖掘候选子图
基于路径匹配的方法—子图匹配
基于检索匹配的问答形式
基于检索的FAQ问答
基于检索的FAQ问答
检索
·多路召回
·词权重
·query改写
匹配
·representation-based vs interaction-based
·数据增强
·知识蒸馏
基于检索的FAQ问答—检索
term检索
实体检索
·query:中国餐馆的主角有谁; doc:中国餐馆在播放抗日神剧
·依靠实体链接技术
语义检索
·为每一个问题计算句子的语义向量
·通过ANN算法进行检索
语义检索
·Step 1: 学习得到每个doc的语义向量
·Step 2:搭建faiss语义检索服务,以docid作为key,语义向量作为value
·Step 3:寻找最近邻doc,通过docid获取doc内容
语义检索—ANN算法
基于检索的FAQ问答—词权重
基于检索的FAQ问答—同义词改写
基于检索的FAQ问答—同义词改写
基于检索的FAQ问答—生成式改写
基于检索的FAQ问答—常用匹配模型
基于检索的FAQ问答—模型训练
语义焦点:额外特征
于阅读理解的问答形式
主要问题
难点:
·–开放场景下,候选passage太长,检索难度大
·–误召比较严重,准确率难以适应产品应用
限定场景下的阅读理解
·–只针对给定passage,去掉检索环节
·–从passage中提取答案片段,给用户一个更直接的答案展现
总结