文章目录
- 数据从哪里来
- 为什么通常将知识图谱划分到NLP领域?
- 常用NLP技术点分析
- 只是NLP任务吗?
- graph embedding
- 知识融合
- 业务还是算法?
- 知识图谱组成
数据从哪里来
- 是手动提取关系吗?
- 数据很多,关系确难
- 涉及大量NLP技术
- 关系做的准确才可靠
为什么通常将知识图谱划分到NLP领域?
主要因为知识图谱中涉及文本数据较多,如何从文中提取有效信息称为关键
常用NLP技术点分析
- 命名实体识别
- 给词打上标签
- 有标签才好查找
- 将标签与意图转换成sql
- 基于实体与关系构建知识图谱网络图(关系抽取)
- 实体统一
- 指代消解
只是NLP任务吗?
如果可以进行特征编码,那么就能让计算机进行训练和推理任务
embedding这件事是AI最核心的内容,如何让计算机读懂咱们得数据。
graph embedding
- 风控模型中对接点进行编码:
-
根据用户关系(通讯录)建立算法模型(Deep walk),获得用户向量
-
有了特征编码能做的事情就多了,预测,分析等一些ML任务都能干活了
-
难点在于如何编码(算法)才能更准确体现这个用户的情况
-
特征表达尤为重要:
- 数据/视频数据,例如卷积模型:
知识融合
- 知识就是力量
- 特征进行融合
- 得到最终的向量
- 数据多就全用上
业务还是算法?
- 都重要,但是业务决定了算法的选择和数据需求以及模型的建立。
- 非常熟悉业务才能设计出实用的知识图谱,业务的设计起着决定性作用。
- 不同场景业务的设计是完全不同,需具体分析。
- 算法很多都是通用的(命名实体识别,graph embedding等)