【人工智能专栏】（4）知识表示方法 III

1. 简述
2. 语义网络法
- 2.1 基础知识
- 2.2 什么是语义网络法？
- 2.3 语义网络的概念及结构
- 2.4 语义网络法的表示
- 2.5 语义联系
- 2.6 语义网络中常用的语义联系
- 2.7 例题
- 2.8 语义网络特点
3. 本体技术
- 3.1 概念
- 3.2 本体的组成
- 3.3 本体的分类
- 3.4 本体建模语言
- 3.5 本体的建模
4. 知识图谱表示
- 4.1 定义
- 4.2 数据类型和存储方式
- 4.3 知识图谱的架构
- 4.4 信息抽取
- 4.5 知识融合
- 4.6 知识加工
- 4.7 知识图谱的应用
5. 语义网络(Semantic Network)、语义网(Semantic Web)、链接数据(Linked Data)、知识图谱(Knowledge Graph)的比较
6. 文章传送门

1. 简述

这篇文章将介绍最后剩下的几种知识表示方法，它们分别是：语义网络法， 本体技术 以及 知识图谱表示。

2. 语义网络法

语义网络法其实在我们的生活中很常见，比如大家用的翻译工具（Google 翻译、百度翻译等）或者 Microsoft Office Word 拼写与语法检查功能。

2.1 基础知识

在这里先让大家回想一下小学学的语文知识。什么是语言？什么是句子？什么是语法？什么是语义？

语言：是合法句子的集合，是人类进行沟通交流的表达方式；
句子：是语言运用的基本单位；
语法：是人类进行沟通交流的表达方式，与文法结构有关；
语义：是对数据符号的解释，与组合的单词符号的意义有关。

例如：

雪是白的。—— 语法正确，语义正确。
雪是黑的。—— 语法正确，语义错误。

2.2 什么是语义网络法？

语义：语言结构(如词、短语、句子、段落等)及其意义上的联系。
语义网络：表达词汇之间的语义关系，在逻辑推理方面的潜力，成为人工智能一种知识表示方法。

1968 年 J.R.Quillian 研究人类联想记忆时提出提出的心理学模型，认为记忆是由概念间的联系实现的。可教式语言理解器（Teachable Language Comprehenden, TCL）将语义网络用于知识表示。

1972 年 Simon 首先将语义网络法用于自然语言理解系统。

2.3 语义网络的概念及结构

语义网络描述概念、事物、属性、情况、动作、状态等以及它们之间的语义联系。
语义网络是知识的一种图解表示：
- 由结点和弧线组成；
- 结点表示实体、概念和情况等；
- 弧线表示节点间的关系，弧是有方向和有标注的，方向体现主次关系，结点1为主，结点2为辅；
- 弧上标注表示被连接的两个节点间的语义联系或关系。
一个语义网络是由以三元组（结点1，弧，结点2）的图形表示连接而成的有向图。

2.4 语义网络法的表示

Step1: 确定问题中的所有对象以及各对象属性
Step2: 确定所讨论对象间的关系
Step3: 将各对象作为语义网络的一个节点，各对象间的关系作为网络中的各节点间的弧，连接形成语义网络。

2.5 语义联系

除了因果关系、类属关系等表面关系以外，事物、概念之间存在含义上的联系或语义上的联系。

2.6 语义网络中常用的语义联系

实例联系：表示实例节点与所属类节点之间的联系，常用“是一个”描述，表示 “ISA” 或 “is-a”。

注：ISA 的含义是 “是一个” 。
泛化联系：表示类节点与更抽象类节点之间联系，表示为 “a-kind-of” 或 AKO。通过 AKO 将问题所有节点组织成层次网络。

注：AKO 的含义是 “是一种”，表示一类事物是另一类事物的一种子类型~
聚集联系：表示个体与组成成分之间联系，用 PART-OF 表示。将高层概念分解为若干低层概念的集合。
属性联系：表示个体、属性及其取值之间联系，有向弧表示属性，弧所指向的节点表示值。
其它联系：聚类联系、时间联系、位置联系、相近联系等

2.7 例题

神州大学和东方大学两校篮球队在东方大学进行一场比赛，结局的比分是 99 : 108，用语义网络表示。

2.8 语义网络特点

语义网络能把实体结构、属性与实体间因果关系显示、简明地表达出来，可以联想方式实现对系统的解释；
由于与概念相关属性和联系被组织在一个相应结点中，因而语义网络使概念易于访问和学习；
语义网络表现问题更加直观，更易于理解，适合于知识工程师与领域专家沟通；
语义网络结构的语义解释依赖于该结构的推理过程而没有固定结构约定，所得到的推理不能保证像谓词逻辑法那样有效；
语义网络结点间的联系可能是线状、树状或网状，甚至递归状的结构，使相应知识存储和检索需要比较复杂的过程。

3. 本体技术

本体源自哲学之中 “形而上学” 的分支：
- 关注现实的本质，即存在的本质；
- 作为哲学的一个基本分支，分析存在的各种类型或模式；
- 尤其是共相与殊相之间、内在特性与外在特性之间、以及本质与存在之间的关系。
人工智能领域认为知识的获取乃是构建强大 AI 系统的关键所在：
- 把新的本体创建成为计算机模型，从而成就特定类型的自动化推理；
- 采用本体指称关于模型化世界的一种理论以及知识系统的一种组件；
- 借助于来自哲学本体论的灵感，把本体论视为一种应用哲学。

3.1 概念

本体（Ontology）的概念：关于可共享概念化体系的明确的形式化规格说明或表示。

3.2 本体的组成

一个完整的本体由概念、关系、函数、公理和实例五类基本元素构成。

3.3 本体的分类

知识表示本体：知识的本质特征、基本属性；
通用常识本体：通用知识工程和常识知识库；
领域本体：特定领域中可重用的概念、关系、活动、原理等；
语言学本体：语言、词汇；
任务本体：动态知识。

3.4 本体建模语言

本体一般都是采用本体语言来编制的，一种用于编制本体的形式化语言。
OWL（Web Ontology Language）
1. 一种用于编写本体声明的语言；
2. 继承 RDF (Resource Description Framework) 和 RDFS (Resource Description Framework Schema) 和一些早期本体语言项目；
3. 包括本体推理层（Ontology Inference Layer，OIL）、DARPA 智能体标记语言（DARPA Agent Markup Language，DAML）、DAMLplusOIL；
4. 旨在应用于万维网之上，构成要素（类、属性和个体）均被定义为 RDF 资源，并采用 URI (Uniform Resource Identifier) 加以标识。

3.5 本体的建模

Step1 : 数据收集与分析；
Step2 : 建立一个字典；
Step3 : 对字典进行求精，建立内容更丰富的表；
Step4 : 用 RDFS (Resource Description Framework Schema) 语言描述上述各表；
Step5 : 定义关系的代数属性，定义知识的推理规则。

4. 知识图谱表示

4.1 定义

知识图谱定义：知识图谱的基本单位：Entity - Relationship - Entity 构成的三元组，也是知识图谱的核心。

知识图谱的经典定义是结构化的语义知识库，是用形象化的图形式来表达出物理世界中的概念以及内部关系。其基本组成单位是“实体－关系－实体”三元组，实体间通过关系相互连接形成知识结构网络。而它也是基于图的数据结构，基本组成是“节点－边－节点”，从而将知识信息连接成为一个关系网。所以知识图谱主要有实体、关系、属性等部分。其中实体表示的某种事物是独立于其他事物的，也是构建图谱最基本的元素；关系表示的是实体与实体之间的关系，用边连接着实体；而属性则用来阐述某一类实体的一些具体的值。这些三元组形式是知识图谱数据层最底层的形式。

4.2 数据类型和存储方式

数据类型
- 结构化数据，e.g. 关系数据库；
- 非结构化数据，e.g. 图片、音频、视频；
- 半结构化数据，e.g. XML、JSON、百科。
存储方式
- RDF（资源描述框架）：Jena 等；
- 图数据库：Neo4j 等

4.3 知识图谱的架构

逻辑架构：
- 模式层：数据层之上，是知识图谱的核心，提炼知识通过本体库管理。e.g. 实体 - 关系 - 实体、实体 - 属性 - 属性值；
- 数据层：存储真实数据。e.g. 比尔·盖茨 - 妻子 - 梅琳达·盖茨、比尔·盖茨 - 总裁 - 微软；

4.4 信息抽取

实体抽取：从文本数据集中自动识别命名实体。
关系抽取：为了得到语义信息，从相关语料中提取实体之间关联关系，通过关系将实体联系起来。
属性抽取：
- 从不同信息源中采集特定实体的属性信息。
- 将实体属性视作实体与属性值之间的一种名词性关系，将属性抽取任务转化为关系抽取任务。
- 基于规则和启发式算法，抽取结构化数据。
- 基于百科类网站的半结构化数据，通过自动抽取生成训练语料，用于训练实体属性标注模型，然后将其应用于对非结构化数据的实体属性抽取。
- 数据挖掘方法：直接从文本中挖掘实体属性和属性值之间关系模式，实现对属性名和属性值在文本中的定位。

4.5 知识融合

拼图信息之间关系是扁平化的，缺乏层次性和逻辑性；
拼图知识中存在大量冗杂和错误的拼图碎片（信息）

实体链接：
- 从文本中抽取得到的实体对象，将其链接到知识库中对应的正确实体对象的操作。
- 根据给定实体指称项，从知识库中选出一组候选实体对象，通过相似度计算将指称项链接到正确的实体对象。
知识合并：
- 合并外部知识库，主要处理数据层和模式层的冲突；
- 合并关系数据库，有 RDB2RDF 等方法。

4.6 知识加工

本体构建：人工的概念集合、概念框架；
知识推理；
质量评估

4.7 知识图谱的应用

用NEO4J平台构建一个《人工智能引论》课程的多模态知识图谱

5. 语义网络(Semantic Network)、语义网(Semantic Web)、链接数据(Linked Data)、知识图谱(Knowledge Graph)的比较

出现在不同的历史时期:
- 语义网络：J.R.Quillian于上世纪 60 年代提出的知识表达模式；
- 语义网和链接数据:万维网之父 Tim Berners Lee 分别在 1998 年和 2006 提出，侧重从网页信息抽取实体与关系；
- 知识图谱：Google2012 年提出，其基础为语义网和本体 (Ontology)。
提出目标和采用技术不同:
- 语义网：构建开放、共享、全球的数据库；
- 知识图谱：智能搜索引擎为目的的自用数据库/知识库；
- 知识图谱是对现有语义网络技术的一种提升。
语义技术的发展:
- 从结构化、半结构化、非结构化数据中提取知识；
- 找到新的技术手段提取知识；
- 找到新的方法有效表达知识;
- 找到新的存储方式保存知识。

6. 文章传送门

上一篇文章：【人工智能专栏】（3）知识表示方法 II