1.了解相关概念
- 先验概率:有数据集d,以及假设h,此时h是不确定的。在还没有训练数据之前h的初始概率记为P(h),类似地我们把P(d)表示训练数据d在任何假设都未知或不确定时的概率。P(d|h)表示已知假设h成立时d的概率。
- 贝叶斯公式:
对公式的理解:
1.从公式上看后验概率是对先验概率的一个修正。
2.P(d)越大,P(h|d)越小:在独立于h时被观察到的可能性越大说明d对h的支持越小。
- 极大后验假设:在一个假设集合H中,寻找一个使得对于给定数据d,使后验概率P(h|d)最大 的假设。
- 极大似然假设:在候选假设集合H中选择使给定数据d似然度P(d|h)最大的假设。
极大似然假设和极大后验假设有很强的关联性。当候选假设集合 H 中每个假设都有相同的先验 概率时, 也就是P(h)都相同时,极大后验假设就蜕化成极大似然假设。 由于数据似然度是先验 知识,不需要训练就能知道, 所以在学习>机器学习实践中经常应用极大似然假设来指导学习。
- 贝叶斯最优分类器:
V是所有分类标签的集合,Vj是其中的某一个分类标签,贝叶斯最优分类器干的事就是根据概率值的大小,判断输入数据属于哪个类别。P(vj | d)= 。