人工智能

绪论

什么是人工智能

关于智能
- 关于智能的三个观点
  - 思维理论
    - 认为智能的核心是思维。人的一切智慧
      或者智能都来自于大脑的思维活动，人
      类的一切知识都是人们思维的产物。
  - 知识阈值理论
    - 强调知识对于智能的重要意义和作用：智能就是在巨大知识库中迅速找到一个满意解的能力
  - 进化理论
    - 对外界事物的感知能力、对动态环境的适应能力
      是智能的重要基础及组成部分。
  - ※对上述三者总结
    - 智能是知识与智力的总和。知识是智能
      行为的基础，智力是获取知识、运用知
      识的能力，它来自于人脑的思维活动。
      同时，对外界事物的感知能力，是智能
      的重要基础及组成部分。
- 智能的具体特征
  - 感知能力
  - 记忆与思维能力
  - 学习能力及自适应能力
  - 行为能力
人工智能的研究目标
- 目标
  - 用人工的方法在计算机上实现智能（1956年）
- ※例子
  - 图灵测试
    - 测试者A不能分辨B、C哪个是电脑
  - 深蓝（97年超级电脑）
    - 深蓝有没有智能？
  - 考试曾考过：图灵的梦想和深蓝哪个难实现

*人工智能发展简史

孕育阶段（1956之前）
形成阶段（1956-69）
发展阶段（1970—今）

人工智能研究及应用领域

专家系统与知识工程
机器学习
模式识别
自然语言处理与机器翻译
机器定理证明
博弈论
智能决策支持系统
人工神经网络
机器人学
智能体

知识工程

概述

什么是知识
- 把有关信息关联在一起所形成的信息结构称
  为知识
- 信息和数据关系
  - 数据是信息的载体和表示；信息是数据的语义
知识的特性
- 相对正确性
  - 知识是经验的总结，有一定的适用条件
- 不确定性
  - 随机性
    - 如果A可能B
  - 模糊性
    - 高个子擅长打篮球
  - 不完全性
    - 对事物认识不完全不准确
  - 经验性
    - 专家系统大部分知识都有不确定性
- 可表示性与可利用性
知识的分类
- 按作用范围
  - 常识型、领域型
- 按作用及表示
  - 事实型知识、规则
- 按确定性
  - 确定性知识、不确定性知识
- 按结构及表现形式
  - 逻辑性知识、形象性知识

知识表示方法

定义
- 知识表示就是对知识的一种描述，一种计算机可以接受的用于描述知识的数据结构。
- 知识的两大类表示方法：符号表示法（本章）连接机制表示法（神经网络）用谁根据知识特点定
经典逻辑表示法
- 命题逻辑
  - 命题是具有真假意义的语句
  - 无法把客观事物的结构及逻辑特征反映出来，也不能把不同事物间的共同特征表述出来。
- ※谓词逻辑（最精确、最早）
  - 一般形式
    - 谓词的一般形式P (x1, x2,…,xn)其中，大写P是谓词名，x1, x2,…,xn是个体
      - 个体可以是常量、变元或者函数
      - 个体变元的取值范围称为个体域
      - 谓词的语义由人指定
      - 可以使用连接词构造简单的谓词公式
      - 谓词的元和阶定义
        
        元：变元数
        阶：变元最多嵌套的谓词层数
      - 和函数的区别
        
        谓词是个体到真值映射
        函数是个体到个体
  - 谓词公式
    - 单个谓词是合式公式，称为原子公式；
    - 若A是合式公式，则￢A也是合式公式
    - 若AB都是合式公式，加上连接词还是合式公式
    - 若A是合式公式，x是任一个体变元，则
      （任意x）A、（存在x）A都是合式公式
    - 有限步上述规则得到的公式是合式公式
  - 谓词公式的解释
    - 在命题逻辑中对各命题变元的一次真值
      指派称为命题公式的一个解释
  - 推理规则
    - P规则
      - 在推理的任何步骤都可以引入前提
    - T规则
      - 推理时，如果前面步骤中有一个或者多个公式永真蕴含公式S，则可把S引入推理过程中
    - CP规则
      - 如果能从R和前提集合中推出S来，则可从前
        提集合推出R→S。
    - 反证法
      - Q为P1,P2,…,Pn的逻辑结论，当且仅当
        （P1∧P2∧…∧Pn）∧￢Q是不可满足的。
    - 逻辑推理
      - 运用等价式、永真蕴涵式、及上述推理规
        则进行推理
  - 基于谓词逻辑的知识表示
    - 事实：用谓词公式的与/或形表示
    - 规则：用蕴涵式表示
    - 步骤
      - 首先定义谓词，指出每个谓词的确切语义，然后再用连接词把有关的谓词连接起来，形成一个谓词公式表达一个完整的意义
  - 一阶谓词逻辑表示法的特点
    - 优点
      - 自然、精确、严密、容易实现
    - 缺点
      - 不能表示不确定性的、启发性、元知识
      - 组合爆炸
      - 效率低
产生式表示法（应用最多）
- 产生式的基本形式
  - 事实的表示
    - 三元组
    - 四元组（不确定的知识）
  - 规则的表示
    - P→Q或If P Then Q
- 产生式与谓词逻辑蕴含式的区别
  - 蕴含式只能表示精确知识；而产生式不仅可以表示精确知识，还可以表示不精确知识
  - 产生式中前提条件的匹配可以是精确的，也可以是非精确的；而谓词逻辑蕴含式总要求精确匹配
- 产生式系统
  - 规则库
    - 用于描述相应领域知识的产生式集合
    - 建立规则库应注意
      - 有效地表达领域内的各种规则
      - 便于对知识进行合理的组织与管理
  - 综合数据库
    - 又称为事实库、上下文、黑板等等。
      存放已知的事实和推导出的事实
  - 控制系统
    - 又称为推理机构，负责整个产生式系统的运行
    - 完成的工作：
      - 按照一定的策略，匹配规则的条件部分
      - 当多于一条的规则匹配成功时（称为冲突），选择其中一条规则加以执行(冲突消解)
      - 将匹配规则的结论部分放入综合数据库或者执行相应操作
      - 计算结论的不确定性
      - 决定系统何时终止运行
- 产生式系统求解问题的一般步骤
  - 即正向推理步骤
    - 1初始化事实库
    - 1. 若规则库中存在尚未使用过的规则，且可匹
        配成功，则转第3步。否则转第5步
    - 1. 执行当前选中的规则，并把结论送入事实库
    - 1. 检查事实库中是否已经包含了解。若有则终
        止推理。若无则转第2步
    - 5要求用户增添事实。若有则转第2步。若无则
      终止推理
- 产生式系统的分类
  - 按推理方向划分
    - 正向(数据驱动)后向(目标驱动)和双向产生式系统
  - 按确定性划分
    - 确定性和不确定性产生式系统
- 产生式表示法的特点
  - 优点
    - 自然性、模块性、有效性、清晰性
  - 缺点
    - 效率不高
      - 反复执行“匹配——冲突消解——执行”过程，容易引起组合爆炸
    - 不能表达具有结构性的知识

确定性推理

必考大题：PPT上例子要会

概论

推理方式与分类
- 方式：用已知判断推出另一个判断
- 推理机：程序做推理
- *分类
  - 演绎推理、归纳推理、默认推理
    - 演绎：从一般到特殊。例如三段论
    - 归纳：从个体到一般
    - 默认推理：缺省推理，在知识不完全的情况下假设某些条件已经具备所进行的推理
  - 确定性、不确定性推理
  - 单调推理、非单调推理
    - 推出的结论是否单调增加（演绎推理，缺省推理）
  - 启发式、非启发式推理
    - 启发性知识是指与问题有关且能加快推理进程、
      求得问题最优解的知识
  - 基于知识的推理（专家系统）、统计推理、直觉推理（常识性推理）
推理的控制策略
- 推理方向
  - 正向推理
    - 同产生式系统求解部分
  - 逆向推理
    - 首先选定一个假设目标，然后寻找支持该假设的证据，若所需的证据都能找到，则说明原假设
      是成立的；推理完成。若找不到所需要的证据，则说明原假设不成立，此时需要另作新的假设
  - 混合推理
    - 先正后逆或先逆后正
  - 双向推理
    - 左右同时开推，中间碰头
- 搜索策略
- 冲突消解策略
- 求解策略
  - 只求一个解，还是求所有解以及最优解
- 限制策略
  - 限制搜索的深度、宽度、时间、空间等等
知识匹配
- 所谓模式匹配是指对两个知识模式进行比较，检查这两个知识模式是否完全一致或者近似一致
- 分类
  - 确定性匹配
    - 两个知识模式完全一致，或者经过
      变量代换后变得完全一致
  - 不确定性匹配
    - 不确定性匹配是指两个知识模式不完全一致，但是它们的相似程度又在规定的限度内
变量代换
- 代换是一个形如{t1/x1,t2/x2,…,tn/xn}有限集合
- 不允许ti与xi相同，也不允许变元xi循环地出现在
  另一个tj中。
- 令θ= {t1/x1,t2/x2,…,tn/xn}为一个代换，F为表达式，则Fθ表示对F用ti代换xi后得到的表达式。
  Fθ称为F的特例
※代换的复合
- θ= {t1/x1,t2/x2,…,tn/xn}
  λ= {u1/y1,u2/y2,…,um/ym}
  是两个代换，则这两个代换的复合也是一个代换
- 记为θ°λ，它是从
  {t1λ/x1,t2λ/x2,…,tnλ/xn,u1/y1,u2/y2…,um/ym}
  中删去两种元素后剩下的元素所构成的集合
  - tiλ/xi 当tiλ=xi
    - 即变换后相同的元素
  - ui/yi 当yi∈{x1,x2,…,xn}
    - 即θ已经替换过的x又出现在λ中
- tiλ表示对ti运用λ进行代换
- θ°λ就是对一个公式F先运用θ进行代换，然后再运用λ进行代换：F（ θ°λ ）=（F θ）λ
- 必会：代换的例子
※公式集的合一
- 设有公式集F={F1,F2,…,Fn}，若存在一个代
  换λ使得F1λ=F2λ=…=Fnλ，则称λ为公式集F的一个合一，且称F1,F2,…,Fn是可合一的
- 一个公式集的合一一般不唯一，最一般合一是唯一的
- 最一般的合一
  - 设σ是公式集F的一个合一，如果对任一个合一θ
    都存在一个代换λ，使得θ=σ°λ则称σ是一个最一般的合一
- 差异集
  - 相对位置处不同项的集合
- 求取最一般合一的算法
  - 1. 令k=0,Fk=F, σk=ε。 ε是空代换
  - 1. 若Fk只含一个表达式，则算法停止，σk就是最一般合一
  - 1. 找出Fk的差异集Dk
  - 1. 若Dk中存在元素xk和tk，其中xk是变元，tk是项，且xk不在tk中出现，则置：Fk+1=Fk{tk/xk} σK+1=σk°{tk/xk}k=k+1 然后转(2)。若不存在这样的xk和tk则算法停止
  - 5.算法终止，F的最一般合一不存在
- 必会：求取最一般合一的例子

自然演绎推理

定义
- 从一组已知为真的事实出发，直接运用
  经典逻辑的推理规则推出结论的过程
基本的推理规则
- P规则、T规则、假言推理、拒取
  式推理等

归结演绎推理

子句集
- 在谓词逻辑中，把原子谓词公式及其否定统
  称为文字。任何文字的析取式称为子句。
- 任何谓词公式F都可通过等价关系及推
  理规则化为相应的子句集S
- 把谓词公式化成子句集的步骤
  - 1. 利用等价关系消去“→”和“↔”
  - 1. 利用等价关系把“¬”移到紧靠谓词的位置上
  - 1. 重新命名变元，使不同量词约束的变元有不同的名字
  - 1. 消去存在量词
  - 1. 把全称量词全部移到公式的左边
  - 1. 利用等价关系把公式化为Skolem标准形
  - 1. 消去全称量词
  - 1. 对变元更名，使不同子句中的变元不同名
  - 1. 消去合取词，就得到子句集
- 子句集的意义
  - 子句集S的不可满足性：对于任意论域中的任意
    一个解释，S中的子句不能同时取得真值T
  - 设有谓词公式F，其子句集为S，则F不
    可满足的充要条件是S不可满足
  - 要证明P→Q (即¬P∨Q)永真，只需证明公式
    F=(P∧¬Q)永假，即证明S不可满足
海伯论理论
- 海伯伦构造了一个特殊的论域(海伯伦域)，
  并证明只要对这个特殊域上的一切解释进
  行判定，就可知子句集是否不可满足
鲁宾逊归结原理
- 基本思想：检查子句集S中是否包含空子句。若包含，则S不可满足；若不包含，就在子句集中选择合适的子句进行归结，一旦通过归结能推出空子句，就说明子句集S是不可满足的
- 子句集S的不可满足性：对于任意论域
  中的任意一个解释，S中的子句不能同
  时取得真值T。一旦S中包含空子句，则
  S必不可满足
命题逻辑中的归结原理
- 若P是原子谓词公式，则称P与¬P为互补文字。
  在命题逻辑中，P为命题
- 设C1与C2是子句集中的任意两个子句。如果C1中的文字L1与C2中文字L2互补，那么从C1和C2中分别消去L1和L2，并将两个子句中余下的部分析取，构成一个新子句C12，则称这一过程为归结。称C12为C1和C2的归结式，C1和C2为C12的亲本子句
- C12是其亲本子句C1与C2的逻辑结论
- 为了要证明子句集S的不可满足性，只要对其
  中可进行归结的子句进行归结，并把归结式加入子句集S，或者用归结式替换它的亲本子句，
  然后对新子句集(S1或者S2)证明不可满足性就可以了。如果经过归结能得到空子句，则立即可得原子句集S是不可满足的结论。
谓词逻辑中的归结原理
- 在谓词逻辑中，由于子句中含有变元，所以不能像命题逻辑那样直接消去互补文字，而需要先用最一般合一对变元进行代换，然后才能进行归结
- 二元归结式的定义
  - 设C1与C2是两个没有相同变元的子句，L1和¬L2分别是C1和C2中的文字。若σ是L1和L2的最一般合一，则称C12=(C1σ-{L1σ})∨(C2σ-{¬L2σ})
    为C1和C2的二元归结式，L1和¬L2称为归结式上的文字
  - 若子句C含有可合一的文字，则在进行归结之前
    应先对这些文字进行合一。记其最一般的合一
    为σ，称Cσ为子句C的因子。若Cσ是一个单文
    字，则称它为C的单元因子
  - 子句C1和C2的归结式是下列二元归结式
    之一
    - C1与C2的二元归结式
    - C1与C2的因子C2σ2的二元归结式
    - C1的因子C1σ1与C2的二元归结式
    - C1的因子C1σ1与C2的因子C2σ2的二元归结式
※归结反演
- 应用归结原理证明定理的过程称为归结反演
- 设F为已知前提的公式集，Q为目标公式(结论)，用归结反演证明Q为真的步骤
  - 否定Q，得到¬Q
  - 把¬Q并入到公式集F中，得到{F, ¬Q}
  - 把公式集{F, ¬Q}化为子句集S
  - 应用归结原理对子句集S中的子句进行归结，并把每次归结得到的归结式都并入S中。如此反复进行，若出现了空子句，则停止归结，此时就证明了Q为真
- 必会：归结反演的例子
归结策略
- 一般的归结过程
  - S内任意子句两两逐一进行归结，得到一组归结式，称为第一级归结式，记为S1
  - 把S与S1内的任意子句两两逐一进行归结，得到一组归结式，称为第二级归结式，记为S2
  - S和S1内的子句与S2内的任意子句两两逐一进行归结，得到一组归结式，称为第三级归结式，记为S3
  - 如此继续，直到出现了空子句或者不能再继续归结为止
- 删除策略
  - 删除某些无用的子句来缩小归结的范围
  - 纯文字删除法
    - 如果某文字L在子句集中不存在可与之互补的文字¬L，则称该文字为纯文字。包含纯文字的子句可以删除
  - 重言式删除法
    - 如果一个子句中同时包含互补文字对，则该字句称为重言式。重言式是永远为真的子句，可以删除
  - 包孕删除法
    - 设有子句C1和C2，如果存在一个代换σ，使得C1σ∈C2，则称C1包孕于C2。C2可删除
- 限制策略
  - 通过对参加归结的子句进行种种限制，尽可能减小归结的盲目性，使其尽快地归结出空子句
  - 支持集策略
    - 每一次归结时，亲本子句中至少有一个是由目标公式的否定所得到的子句，或者是它的后裔。可以证明，支持集策略是完备的
  - 线性输入策略
    - 参加归结的两个子句中必须至少有一个是初始子句集中的子句。简单但不完备
  - 祖先过滤策略
    - 该策略与线性策略比较相似，但放宽了
      限制。当对两个子句C1和C2进行归结时，
      只要它们满足下述任一个条件就可以归
      结（该策略是完备的）
    - C1和C2中至少有一个是初始子句集中的
      子句
    - C1和C2中一个是另外一个的祖先子句
  - 单文字子句策略
    - 如果一个子句只包含一个文字，则称它为单文
      字子句
    - 限制：参加归结的两个子句中必须至少有一个
      是单文字子句（不完备）
※应用归结原理求解问题

不确定性推理

概述

什么是不确定性推理
- 所谓不确定性推理就是从不确定性的初始证据（即事实）出发，通过运用不确定性的知识（即规则），最终推出具有一定程度不确定性的结论
不确定性分类
- 知识的不确定性
  - 在专家系统中知识的不确定性一般是由领域专家给出的，通常用一个数值表示，称为知识的静态强度
- 证据的不确定性
  - 证据不确定性的表示方法与知识不确定性的表示方法一致，通常也用一个数值表示，称之为动态强度
不确定性匹配算法
- 在推理过程中证据和知识的前提的相似程度称
  为匹配度。确定这个匹配度（相似程度）的算
  法称为不确定性匹配算法
组合证据不确定性的计算方法
- 最大最小法
  - T(E1 AND E2)=min{T(E1),T(E2)}
    T(E1 OR E2)=max{T(E1),T(E2)}
- 概率法
  - T(E1 AND E2)=T(E1)×T(E2)
    T(E1 OR E2)=T(E1)＋T(E2)－T(E1)×T(E2)
- 有界法
  - T(E1 AND E2)=max{0,T(E1)＋T(E2)－1}
    T(E1 OR E2)=min{1,T(E1)＋T(E2)}
- 其中，T(E)表示证据E为真的程度（动态强度），如可信度、概率等, 通常取值在0，1之间
不确定性的传递算法
- 在每一步推理中，如何把证据及知识的不确定
  性传递给结论，即如何计算结论的不确定性
结论不确定性的合成
- 用不同知识进行推理得到了相同结论，但所得
  结论的不确定性却不同。此时，需要用合适的
  算法对结论的不确定性进行合成
不确定性推理方法的分类
- 模型法
  - 在推理一级对确定性推理进行扩展，引入证据的不确定性及知识的不确定性
  - 数值法
    - 基于概率的方法
    - 基于模糊理论的方法
  - 非数值法
- 控制法

概率方法

IF E THEN H
如果我们在实践中经大量统计能得出在E发生条件下H的条件概率（后验概率） P(H/E)，那么就可把它作为在证据E出现时结论H的确定性程度（可信度）
逆概率方法
- 假设观测到某事件E，且对应于E有多个可能的结论H1,H2,…,Hn；则可用每个结论的先验概率P(Hi)和条件概率P(E/Hi)来计算在观察到E时结论Hi的后验概率P(Hi/E)

主观Bayes方法

知识的不确定性的表示
- 用产生式规则表示
  - IF E THEN (LS,LN) H (P(H))
- P(H)是结论H的先验概率，由专家根据经验给出
- LS称为充分性度量，用于指出E对H的支持程度，取值范围为[0,∞)，LS=P(E|H)/P(E|¬H)
- LN称为必要性度量，用于指出¬ E对H的支持程度，取值范围为[0,∞)，
  LN=P(¬E|H)/P(¬E|¬H)=(1-P(E|H))/(1-P(E|¬H))
- LS和LN的值由领域专家给出，代表知识的静态强度
证据的不确定性表示
- 证据的不确定性用概率表示。对于证据E，由用户根据观察S给出P(E|S)，即动态强度。用P(E|S)描述证据的不确定性
- 由于主观给定P(E|S)有所困难，所以实际中可以用可信度C(E|S)代替P(E|S)
- 给定C(E/S)，算P(E/S)
  - C(E/S)>0
    - (C(E/S)+P(E)*(5-C(E/S))/5
  - C(E/S)<0
    - (P(E)*(5+C(E/S))/5
- 组合证据不确定
  - 合取取最小，析取取最大
- 不确定性的传递算法
  - 根据证据E的条件概率P(E|S) 及LS、 LN的值，
    把H的先验概率P(H)更新为后验概率P(H|S)
  - 几率函数Θ(x),它与概率的关系为：
    Θ(x)=P(x)/(1-P(x)), P(x)=Θ(x)/(1+Θ(x))
  - EH公式与CP公式会推
    - 实质就是P(H)、LS、LN、P(E)已知，根据P(E/S)求P(H/S)
  - LS和LN的性质
    - Θ(H|E) =LS× Θ(H)
      Θ(H|¬E)=LN× Θ(H)
    - 一般情况下，取LS>1， LN<1
结论不确定性的合成算法
- 先对每条知识分别求出几率函数Θ(H|Si)，然后就可运用下述公式求出Θ(H|S1S2…Sn):(N条支持相同结论，每个规则P(H/S)已求，现在想推这么多观测下合成的结论不确定性
  - Θ(H|S1)/Θ(H)Θ(H|S2)/Θ(H)…*Θ(H|Sn)/Θ(H)*Θ(H)
主观Bayes方法的特点
- 优点
  - 主观Bayes方法中的计算公式大多是在概率论的基础上推导出来的，具有较坚实的理论基础
  - LS及LN是由领域专家给出，避免了大量的数
    据统计工作
  - 给出了证据不确定时的更新方法，实
    现了不确定性的逐级传递
- 缺点
  - 它要求领域专家在给出知识时，同时给出H的先验概率P(H)，这比较困难。

可信度方法

基本可信度模型
- 可信度的概念
  - 根据经验对一个事物和现象为真的相信程度称为
    可信度。
    在可信度方法中，由专家给出规则或知识的可信
    度，从而可避免对先验概率、或条件概率的要求
- C-F模型中知识的不确定性
  - 知识是用产生式规则表示的，其一
    般形式为：IF E THEN H (CF(H,E))
  - CF(H,E)是该知识的可信度，称为可信度因子或规则强度，即静态强度。此处CF(H,E)∈[-1,1]
- 证据不确定性的表示
  - 证据的不确定性也用可信度因子表示
  - CF(E)的取值范围： [-1， +1]。
    CF(E)>0:表示证据以某种程度为真。
    CF(E)<0:表示证据以某种程度为假。
    CF(E)表示证据的强度，即动态强度
  - 组合证据不确定
    - 合取取最小，析取取最大
- 不确定性的传递算法
  - CF(H)=CF(H,E)× max{0,CF(E)}
  - CF(H)>0:表示结论以某种程度为真。
    CF(H)<0:表示结论以某种程度为假
- 结论不确定性的合成算法
  - 先分别对每一条知识求出CF(H): 计算CF1(H)、 CF2(H)然后用下述公式求出E1与E2对H的综合可信度CF12(H):
    - 同正
      - 相加减相乘
    - 同负
      - 相加加相乘
    - 一正一负
      - 相加除以1减去二者绝对更小的
带阈值限度的可信度模型
- 在基本可信度模型基础上加上阈值λ，只有当C(E)≥λ时知识才启用
- 不确定性的传递算法
  - 当CF(E)≥λ时， CF(H)=CF(H,E)× CF(E)
- 结论不确定性的合成算法
  - 如果N条规则的E都满足C(E)≥λ，则分别算每一个E的CF(Hi),然后再求结论H的综合可信度CF(H)
    - 极大值法
      - 取最大的CF(H)做整体
    - 加权求和法
      - CF(H)加一起除以CF(H,E)加一起
    - 有限和法
      - CF(H)加一起和1求最小
    - 递推法
      - C1=CF(H,E1)× CF(E1)
        Ck=Ck-1+(1-Ck-1)× CF(H,Ek)× CF(Ek)
加权的可信度模型
- 知识的不确定性
  - IF E1(ω1) AND E2(ω2) AND…AND En(ωn)
    THEN H (CF(H,E),λ) w为加权因子满足归一化
- 组合证据的不确定性
  - CF(Ei)*Wi求和
- 不确定性的传递算法
  - 和带阈值一样
- 加权因子的引入不仅可以区分不同证据的重要性，同时还可以解决证据不全时的推理问题
前件带不确定性的可信度模型
- 知识的不确定性
  - IF E1(cf1) AND E2(cf2) AND…AND En(cfn) THEN H(CF(H,E),λ)
    其中， cfi为子条件Ei(i=1,2,…,n）的可信度。 cfi在[0,1]上取值，其值由专家给出
  - 可以对每个证据加入加权因子
- 不确定性匹配算法
  - 设证据为 E1(cf’1)， E2(cf’2)， …， En(cf’n)
  - max{0,cf1-cf’1}+max{0,cf2-cf’2}+…+ max{0,cfn-cf’n}≤λ
  - 带加权因子就在每个max前乘以权重
- 不确定性的传递算法
  - CF(H)=[(1-max{0,cf1-cf’1})× (1-max{0,cf2-cf’2})× …× (1-max{0,cfn-cf’n})]× CF(H,E)
  - 加权每组对应乘权重就好
基于可信度的不确定性推理方法的特点
- 优点
  - 简单、直观
- 缺点
  - 可信度因子依赖于专家主观指定，没有统一、客
    观的尺度，容易产生片面性
  - 随着推理延伸，可信度越来越不可靠，误差越来
    越大。当推理深度达到一定深度时，有可能出现
    推出的结论不再可信的情况

模糊推理方法

模糊理论
- 模糊集
  - 设U是论域， μA是把任意u∈U映射为[0，1]上某个值的函数则称μA为定义在U上的一个隶数。由μA(u)(u∈U)所构成的集合A ={μA(u), u∈U}称为U上的一个模糊集， μA(u)称为u对A的隶属度，μA称为模糊集A的隶属函数
  - 注意离散且有限模糊集的几种写法
  - U上的全体模糊集记为：
    F(U)={μA|μA:U→[0,1]}
- 模糊集的运算
  - 包含
    - 从论域U中任取一u，模糊集A映射的值都比模糊集B小，则称A包含于B
  - 交
    - 结果每个u的隶属度取AB两个模糊集隶属度小的
  - 并
    - 结果每个u的隶属度取AB两个模糊集隶属度大的
  - 补
    - 1-原先隶属度
- 模糊关系
  - 当U和V都是有限论域时，其模糊关系R可用一个矩阵表示。
    U={u1,u2,…,um}V={v1,v2,…,vn}
    则U× V上的模糊关系可以表示为
    - [μR(u1,v1) μR(u1,v2) … μR(u1,vn) ]
    - [μR(u2,v1) μR(u2,v2) … μR(u2,vn) ]
    - …
    - [μR(um,v1) μR(um,v2) … μR(um,vn) ]
  - 模糊关系的合成
    - 与离散数学关系的合成相同
    - 具体计算为矩阵乘法
- 模糊逻辑
  - 含有模糊概念、模糊数据的语句称为模糊命
    题。它的一般表示形式为：x is A
    其中，A是一个模糊概念，用相应的模糊集及
    隶属函数表示； x用以指代所论述的对象
- 模糊匹配
  - 模糊产生式规则可具体表示为：
    IF x is A THEN y is B
  - 推理中所用的证据也用模糊命题表示，一般形式为x is A’
  - 模糊推理要解决的问题：证据与知识的条件是否匹配：如果匹配，如何利用模糊规则及证据推出结论
  - 两个模糊集或模糊概念的相似程度称为匹配度
    - 计算匹配度的方法
      - 贴近度
      - 语义距离
        
        海明距离
        欧几里得距离
        匹配度为：1-d(A,B)
      - 相似度
        
        最大最小法
        算术平均法
        几何平均最小法
- 复合条件的模糊匹配
  - (1) 分别计算出每一个子条件与其证据的匹配度
  - (2) 求出整个前提条件与证据的总匹配度
    - 相乘
      - δmatch(E,E’)=δmatch(A1,A’1)×δmatch(A2,A’2)×δmatch(A3,A’3)
    - 取极小
      - δmatch(E,E’)=min{δmatch(A1,A’1),δmatch(A2,A’2), δmatch(A3,A’3)}
  - (3) 检查总匹配度是否满足阈值条件，如果满足就可以匹配，否则为不可匹配
- 模糊推理的基本模式
  - 模糊假言推理
  - 模糊据取推理
  - 由模糊规则和证据推出结论
    - 扎德的方法※
简单模糊推理
- 含义
  - 知识中只含有简单条件，且不带可信度因子的模糊推理称为简单模糊推理
- 合成推理规则
  - 对于知识IF x is A THEN y is B首先构造出A与B之间的模糊关系R然后通过R与证据的合成求出结论
  - 已知证据是x is A’且A与A’可以模糊匹配
    - B’=A’◦R
  - 如果已知证据是y is B’ 且B与B’可以模糊匹配
    - A’=R◦B’
- 构造模糊关系R的方法※
  - 扎德方法
    - Rm
      - (μA(u)∧μB(v))∨(1-μA(u))/(u,v)
    - Ra
      - 1∧(1-μA(u)+μB(v))/(u,v)
- 各种模糊关系的性能分析
  - very A
    - μA²(u)/u
  - more or less A
    - √(μA(u))/u
  - not A
    - 1-μA(u)/u
模糊三段论推理
- 设R(A,B),R(B,C)与R(A,C)分别是根据上述模糊知识得到的模糊关系，它们分别定义在U×V,V×W,U×W上，如果R(A,B)◦R(B,C)=R(A,C)则称模糊三段论成立(即模糊关系R满足三段论)
- Ra,Rm不满足
多维模糊推理
- 定义
  - 多维模糊推理是指知识的前提条件是复合条件的一类推理。（前件是多维，后件是对重）
    - 知识：IF x1 is A1 AND x2 is A2 AND…AND xn is An THEN y is B
      证据： x1 is A’1 x2 is A’2 … xn is A’n
- 扎德方法
  - (1)求出A1,A2,…,An的交集，并记为A。
  - (2)求出A与B之间的模糊关系R(A,B)，也可记为R(A1,A2,…,An,B)。
  - (3)求出证据中A’1,A’2,…,A’n的交集，并记为A’。
  - (4)由A’与R(A,B)的合成求出B’。（该方法要求Ai定义在相同的论域）
- PPT例子要会
多重模糊推理
- 定义
  - 一种简单形式：
    IF x is A THEN y is B ELSE y is C
- Rgg效果最好
带有可信度因子的模糊推理
- 概述
  - 每条知识和证据都加了CF
- 结论可信度计算
  - CF=δmatch(A,A’)×CF1×CF2
    CF=δmatch(A,A’)×min{CF1,CF2}
    CF=δmatch(A,A’)×max{0,CF1+CF2-1}
    CF=min{δmatch(A,A’),CF1,CF2}
- 组合证据的可信度
  - 匹配度
    - 同复合条件匹配度
  - 可信度
    - CF’1 =CF1∧CF2∧…∧CFn
    - CF’1 =CF1×CF2×…×CFn
  - 结论的可信度： CF=δmatch(E,E’)×CF0×CF’1
- 结论不确定性的合成
  - 假设根据两组证据及相关知识分别推出了如下两个结论：y is B’1 CF1 y is B’2 CF2
  - 则可用如下方法得到它们的合成结论和可信度因子：B’=B’1∩B’2 CF=CF1+CF2-CF1×CF2

搜索策略

基本概念

什么是搜索
- 采用某种策略，在知识库中寻找可利用的知
  识，从而构造一条代价较小的推理路线，使
  问题得到解决的过程称为搜索
- 分类
  - 盲目搜索
    - 盲目搜索是按照预定的控制策略进行搜索，在
      搜索过程中获得的中间信息不用来改进控制策
      略
    - 适用于其状态空间图是树状结构的一类问题
  - 启发式搜索
    - 启发式搜索是在搜索中加入了与问题有关的启
      发性信息，用以指导搜索朝着最有希望的方向
      前进，加速问题的求解过程并找到最优解
    - 可以高效地求解结构复杂的问题
状态空间表示法
- 很多问题的求解过程都可以看作是一个搜索过程。问题及其求解过程可以用状态空间表示法来表示
- 状态空间用“状态”和“算符”来表示问题
- 采用状态空间表示方法，首先要把问题的一切
  状态都表示出来，其次要定义一组算符
- 问题的求解过程是一个不断把算符作用于状态
  的过程。如果在使用某个算符后得到的新状态
  是目标状态，就得到了问题的一个解。这个解
  就是从初始状态到目标状态所采用算符的序列。
  使用算符最少的解称为最优解

状态空间的搜索策略

一般的状态空间搜索策略
- 1. 把初始节点S0放入OPEN表，并建立目前只包含S0的图，记为G；
- 1. 检查OPEN表是否为空，若为空则问题无解，退出；
- 1. 把OPEN表的第一个节点取出放入CLOSE表，并记该节点为n；
- 1. 考察节点n是否为目标节点。若是，则求得了问题的解，退出；
- 1. 扩展节点n，生成一组子节点。把其中不是节点n先辈的那些子节点记做集合M，并把这些子节点作为节点n的子节点加入G中；
- 1. 针对M中子节点的不同情况，分别进行如下处理：（动态更新open表及图G）
  - 1. 对于那些未曾在G中出现过的M成员，设置一个指向父节点（即节点n）的指针，并把它们放入OPEN表；（子节点不在OPEN表）
  - 1. 对于那些先前已经在G中出现过的M成员，确定是否需要修改它指向父节点的指针；（子节点在OPEN表中，或在CLOSE表中）
  - 1. 对于那些先前已在G中出现并且已经扩展了的M成员，确定是否需要修改其后继节点指向父节点的指针；（子节点在CLOSE表中）
- 1. 按某种搜索策略对OPEN表中的节点进行排序；
- 1. 转第2步。
盲目搜索
- 广度优先搜索
  - 从初始节点S0开始，逐层地对节点进行扩展，并考察它是否为目标节点。在第n层的节点没有全部扩展并考察之前，不对第n＋1层的节点进行扩展
  - OPEN表中节点总是按进入的先后顺序排列，先进入的节点排在前面，后进入的排在后面
  - 优点
    - 只要问题有解，用广度优先搜索总可以得到
      解，而且得到的是路径最短的解（完备性）
  - 缺点
    - 广度优先搜索盲目性较大，当目标节点距初
      始节点较远时将会产生许多无用节点，搜索
      效率低
- 深度优先搜索
  - 深度优先搜索与广度优先搜索的唯一区别
    是：广度优先搜索是将节点n的子节点放入
    到OPEN表的尾部，而深度优先搜索是把节
    点n的子节点放入到OPEN表的首部
  - 不完备；如果目标节点恰好在此分支上，则可较快地得到解。但是，如果目标节点不在此分支上，而该分支又是一个无穷分支，则就不可能得到解。即使问题有解，它也不一定能求得解
- 有界深度优先搜索
  - 对深度优先搜索引入搜索深度的界限（设为dm），当搜索深度达到了深度界限，而仍未出现目标节点时，就换一个分支进行搜索
  - 要恰当地给出dm的值是比较困难的。
    即使能求出解，它也不一定是最优解
- 代价树的广度优先搜索
  - 每次从OPEN表中选择节点往CLOSE表传送时，总是选其中代价最小的节点。也就是说，OPEN表中的节点在任一时刻都是按其代价从小到大排序的。代价小的节点排在前面，代价大的节点排在后面
  - 如果问题有解，代价树的广度优先搜索一定可以求得解，并且求出的是最优解(即该算法是完备的)
启发式搜索
- 概述
  - 可用于指导搜索过程，且与具体问题有关的信息称为启发性信息
  - 用于评估节点重要性的函数称为估价函数。其一般形式为：f(x) = g(x)+h(x)
  - 其中g(x)表示从初始节点S0到节点x的代价；h(x)是从节点x到目标节点Sg的最优路径的代价的估计，它体现了问题的启发性信息。h(x)称为启发函数
  - g(x) 有利于搜索的完备性，但影响搜索的效率。h(x)有利于提高搜索的效率，但影响搜索的完备性
- 局部择优搜索
  - 当一个节点被扩展以后，按f(x)对每一个子节点计算估价值，并选择最小者作为下一个要考察的节点。
- 全局择优搜索
  - 每当要选择下一个节点进行考察时，全局择优搜索每次总是从OPEN表的全体节点中选择一个估价值最小的节点。
- A*算法
  - A*算法的可纳性
    - 在解存在的情况下，如果一个搜索算法能在有限步内终止，并且能找到最优解，则称该搜索算法是可纳的。A*算法是可纳的
      - A*算法一定终止在最优路径上
  - A*算法的最优性
    - 在满足h(x)≤h*(x)的条件下，h(x)的值越大越
      好。h(x)的值越大，表明它携带的启发性信
      息越多，搜索时扩展的节点数越少，搜索的
      效率越高
  - h(x)的单调性
    - 子节点h(x)更小避免不断查看OPEN和CLOSED表更新指针

机器学习

概述

机器学习的一般步骤
- 确定学习模型->收集数据->清洗数据->提取特征->训练->获得知识
机器学习中解决的基本问题
- 分类、聚类、预测、联想、优化
分类问题
- 目标空间是已知有限离散值空间，
  即， Z=C={c1,c2,…ci,…,cn}
  待求函数就是分类函数（分类器/分类模型）
- 分类问题所用的训练数据是<D,C>
- 常用方法
  - 决策树方法、贝叶斯方法、前馈神经网络BP算法、支持向量机方法等
训练数据和测试数据选取
- 保留法(2:1)
- 交叉验证法
- 随机法

决策树学习

概述
- 决策树学习是应用最广的归纳推理算法之一。它是一种逼近离散值函数的方法。在这种方法中学习到的函数被表示为一颗决策树。
- 决策树通过把实例从根节点排列(sort)到某个子节点来分类实例，叶子节点即为实例所属的分类
- 树上的每一个节点说明了对实例的某个属性的测试，并且该节点的每一个后继分枝对应于该属性的一个可能值
- 分类实例的方法
  - 从这颗树的根节点开始测试这个节点指定的属性
  - 按照给定实例的该属性值对应的树枝向下移动
  - 这个过程再以新节点为根的子树上重复
- 适用类型
  - 实例是由“属性-值”对表示的
  - 目标函数具有离散的输出值
  - 可能需要析取的描述
  - 训练数据可以包含错误
  - 训练数据可以包含缺少属性值的实例
ID3算法
- 概述
  - ID3是一种自顶向下增长树的贪婪算法
    - 在每个节点选取能最好分类样例的属性；
    - 继续这个过程指导这棵树能完美分类训练样例；
    - 或所有的属性都已被使用过
  - 构造过程是从“哪一个属性将在树的根节点被
    测试”这个问题开始
    - 分类能力最好的属性被选作树的根节点的测试
    - 然后为根节点属性的每个可能值产生一个分枝，并把训练样例排列到适当的分枝（也就是，样例的该属性值对应的分枝）之下。
    - 算法从不回溯重新考虑以前的选择。
- ID3算法的核心问题
  - 选择信息增益最大的属性作为决策树结点
  - 熵
    - Entropy(D)=∑(i=1~c)-Pi(log₂Pi)
  - 信息增益※
    - Gain(D,A)=Entropy(D)-∑(|Dv|/|D|)*Entropy(Dv) v∈Values(A)是属性A所有可能值的集合
  - 过度拟合问题
    - 含义
      - 给定一个假设空间H和一个训练数据集D。对于一个假设h（h∈H），如果存在其它的假设h’（h‘∈H），使得在训练数据集D上h的错误率小于h’的错误率，但是在全体可能数据集合上h的错误率大于h‘的错误率
      - 当训练数据采样太少，不能完全覆盖真实分布时，过度拟合很容易发生
    - 坏处
      - 严重影响模型的泛化能力，降低模型的实用性能
    - 实际表现
      - 决策树结点过多，分支过深；对训练数据可以完美分类，但是对于非训练数据则精度下降
    - 解决方法
      - 及早停止树增长
        
        在完美分类训练数据之前就终止学习
      - 后修剪法
        
        先允许树过度拟合数据，然后对过度拟合的树进行修剪
  - 决策树的结点划分
    - 确定叶节点
      - 一个策略
        
        对于每一个可以进一步划分的结点都进行划分，直到得到一个不可划分的子结点，并将该子结点定为叶结点
        这种策略完美分类训练数据但是当训练数据不能覆盖真实数据分布时，就会过度拟合
      - 实践中决策树学习不要追求训练样本的完美划分，不要绝对追求叶结点的纯净度
    - 测试集方法
      - 将数据样本集合分为训练集与测试集。
      - 根据训练集构建决策树，每展开一层子结点，并将其设为叶结点，就得到一棵决策树，然后采用测试集对所得决策树的分类性能进行统计。
      - 重复上述过程，可以得到决策树在测试集上的学习曲线。
      - 根据学习曲线，选择在测试集上性能最佳的决策树为最终的决策树
    - 阈值方法
      - 在决策树开始训练之前，先设定一个阈值作为终止学习的条件
      - 在学习过程中如果结点满足了终止条件就停止划分，作为叶结点
      - 终止条件
        
        可以选择为信息增益小于某阈值，
        或者结点中的数据占全体训练数据的比例小于某阈值等等
  - 信息增益度量的问题
    - 信息增益度量会偏向于有较多可能值的属性。
      特别是当某属性可能值的数目大大多于类别数目时，该属性就会有很大的信息增益

朴素贝叶斯※

背景
- 在机器学习中一个实例x往往有很多属性<a1,a2,…,an> 其中每一维代表一个属性，该分量的数值就是所对应属性的值
- 此时依据MAP假设的贝叶斯学习就是对一个
  数据<a1,a2,…,an>求目标值时需要知道<a1,a2,…,an>/hi的所有组合，数据量太大
朴素贝叶斯分类器采用最简单的假设
- 对于目标值数据各属性之间相互条件独立a1,a2,…,an的联合概率等于每个单独属性的概率乘积
- 将上述思想带到hmap中得到朴素贝叶斯分类器
评价
- 朴素贝叶斯学习的主要过程在于计算训练样例
  中不同数据组合的出现频率，统计出P(hi)和
  P(aj|hi)。
- 当各属性条件独立性满足时，朴素贝叶斯分类结果等于MAP分类
- 这一假定一定程度上限制了朴素贝叶斯方法的适用范围
- 但是在实际应用中，许多领域在违背这种假定
- 的条件下，朴素贝叶斯学习也表现出相当的健壮性和高效性