机器学习算法（二）: 朴素贝叶斯(Naive Bayes)

1. 实验室介绍

1.1 实验环境

1. python3.7
2. numpy >= '1.16.4'
3. sklearn >= '0.23.1'

1.2 朴素贝叶斯的介绍

朴素贝叶斯算法（Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到，有着坚实的数学基础，以及稳定的分类效率。NB模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。

什么是条件概率，我们从一个摸球的例子来理解。我们有两个桶：灰色桶和绿色桶，一共有7个小球，4个蓝色3个紫色，分布如下图：

从这7个球中，随机选择1个球是紫色的概率p是多少？选择过程如下：

先选择桶
再从选择的桶中选择一个球

p(A,B)：表示事件A和事件B同时发生的概率。

p(B)：表示事件B发生的概率，叫做先验概率；p(A)：表示事件A发生的概率。

p(A|B)：表示当事件B发生的条件下，事件A发生的概率叫做后验概率。

p(B|A)：表示当事件A发生的条件下，事件B发生的概率。

我们用一句话理解贝叶斯：世间很多事都存在某种联系，假设事件A和事件B。人们常常使用已经发生的某个事件去推断我们想要知道的之间的概率。例如，医生在确诊的时候，会根据病人的舌苔、心跳等来判断病人得了什么病。对病人来说，只会关注得了什么病，医生会通道已经发生的事件来确诊具体的情况。这里就用到了贝叶斯思想，A是已经发生的病人症状，在A发生的条件下是B_i的概率。

1.3 朴素贝叶斯的应用

朴素贝叶斯算法假设所有特征的出现相互独立互不影响，每一特征同等重要，又因为其简单，而且具有很好的可解释性一般。相对于其他精心设计的更复杂的分类算法，朴素贝叶斯分类算法是学习效率和分类效果较好的分类器之一。朴素贝叶斯算法一般应用在文本分类，垃圾邮件的分类，信用评估，钓鱼网站检测等。

2. 实验室手册

2.1 学习目标

掌握贝叶斯公式
结合两个实例了解贝朴素叶斯的参数估计
掌握贝叶斯估计

2.2 代码流程

Part 1. 莺尾花数据集--贝叶斯分类
- Step1: 库函数导入
- Step2: 数据导入&分析
- Step3: 模型训练
- Step4: 模型预测
- Step5: 原理简析
Part 2. 模拟离散数据集--贝叶斯分类
- Step1: 库函数导入
- Step2: 数据导入&分析
- Step3: 模型训练&可视化
- Step4: 原理简析

2.3 算法实战

莺尾花数据集--贝叶斯分类

Step1: 库函数导入

import warnings
warnings.filterwarnings('ignore')
import numpy as np
# 加载莺尾花数据集
from sklearn import datasets
# 导入高斯朴素贝叶斯分类器
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split

Step2: 数据导入&分析

X, y = datasets.load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

Step3: 模型训练

# 使用高斯朴素贝叶斯进行计算
clf = GaussianNB(var_smoothing=1e-8)
clf.fit(X_train, y_train)

Step4: 模型预测

# 评估
y_pred = clf.predict(X_test)
acc = np.sum(y_test == y_pred) / X_test.shape[0]
print("Test Acc : %.3f" % acc)# 预测
y_proba = clf.predict_proba(X_test[:1])
print(clf.predict(X_test[:1]))
print("预计的概率值:", y_proba)

Step5: 原理简析

模拟离散数据集--贝叶斯分类

Step1: 库函数导入

+ Step2: 数据导入&分析 
+ Step3: 模型训练&可视化
+ Step4: 原理简析

import random
import numpy as np
# 使用基于类目特征的朴素贝叶斯
from sklearn.naive_bayes import CategoricalNB
from sklearn.model_selection import train_test_split

Step2: 数据导入&分析

# 模拟数据
rng = np.random.RandomState(1)
# 随机生成600个100维的数据，每一维的特征都是[0, 4]之前的整数
X = rng.randint(5, size=(600, 100))
y = np.array([1, 2, 3, 4, 5, 6] * 100)
data = np.c_[X, y]
# X和y进行整体打散
random.shuffle(data)
X = data[:,:-1]
y = data[:, -1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

所有的数据特征都是离散特征，我们引入基于离散特征的朴素贝叶斯分类器。

Step3: 模型训练&预测

clf = CategoricalNB(alpha=1)
clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)
print("Test Acc : %.3f" % acc)

# 随机数据测试，分析预测结果，贝叶斯会选择概率最大的预测结果
# 比如这里的预测结果是6，6对应的概率最大，由于我们是随机数据
# 读者运行的时候，可能会出现不一样的结果。
x = rng.randint(5, size=(1, 100))
print(clf.predict_proba(x))
print(clf.predict(x))

2.4 原理简析

2.4.1 结果分析

可以看到测试的数据的结果，贝叶斯会选择概率最大的预测结果，比如这里的预测结果是6，6对应的概率最大，由于我们是随机数据，读者运行的时候，可能会出现不一样的结果。

这里的测试数据的准确率没有任何意义，因为数据是随机生成的，不一定具有贝叶斯先验性，这里只是作为一个列子引导大家如何使用。

alpha=1这个参数表示什么？

2.4.2 朴素贝叶斯算法

朴素贝叶斯法 = 贝叶斯定理 + 特征条件独立。

我们来看一个实例，更好的理解贝叶斯的计算过程，根据天气和是否是周末预测一个人是否会出门。

2.4.3 朴素贝叶斯的优缺点

优点：朴素贝叶斯算法主要基于经典的贝叶斯公式进行推倒，具有很好的数学原理。而且在数据量很小的时候表现良好，数据量很大的时候也可以进行增量计算。由于朴素贝叶斯使用先验概率估计后验概率具有很好的模型的可解释性。

缺点：朴素贝叶斯模型与其他分类方法相比具有最小的理论误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下，假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进，例如为了计算量不至于太大，我们假定每个属性只依赖另外的一个。解决特征之间的相关性，我们还可以使用数据降维(PCA)的方法，去除特征相关性，再进行朴素贝叶斯计算。