🌟欢迎来到 我的博客 —— 探索技术的无限可能!
🌟博客的简介(文章目录)
实战(贝叶斯分类)
莺尾花数据
模拟离散数据集
库函数导入
import random
import numpy as np
import warnings
warnings.filterwarnings('ignore')
# 加载莺尾花数据集
from sklearn import datasets
# 使用基于类目特征的朴素贝叶斯
from sklearn.naive_bayes import CategoricalNB
from sklearn.model_selection import train_test_split
数据导入和分析
# 模拟数据
rng = np.random.RandomState(1)
# 随机生成600个100维的数据,每一维的特征都是[0, 4]之前的整数
X = rng.randint(5, size=(600, 100))
y = np.array([1, 2, 3, 4, 5, 6] * 100)
data = np.c_[X, y]
# X和y进行整体打散
random.shuffle(data)
X = data[:,:-1]
y = data[:, -1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
所有的数据特征都是离散特征,我们引入基于离散特征的朴素贝叶斯分类器。
模型训练和预测
clf = CategoricalNB(alpha=1)
clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)
print("Test Acc : %.3f" % acc)
随机数据测试,分析预测结果,贝叶斯会选择概率最大的预测结果,比如这里的预测结果是4,4对应的概率最大,由于我们是随机数据,每个人运行的时候,可能会出现不一样的结果。
x = rng.randint(5, size=(1, 100))
print(clf.predict_proba(x))
print(clf.predict(x))
总结
贝叶斯分类是一类基于统计学的分类算法,其核心思想是通过计算后验概率来预测样本所属类别。
此外,在深入了解贝叶斯分类的基础上,以下是一些具体的实践建议:
- 在应用朴素贝叶斯算法时,应先检查数据集中的特征是否满足或近似满足独立性假设,以避免由于违反这一假设而引起的性能下降。
- 对于连续属性的数据,需要特别注意概率密度函数的选择和参数估计,以确保模型的准确性。
- 考虑到朴素贝叶斯可能由于独立性假设而导致精度受限,可以探索使用贝叶斯网络或其他更复杂的贝叶斯模型来提高分类准确性。
总的来说,贝叶斯分类以其独特的概率论基础,在机器学习领域占据了重要的位置。尽管朴素贝叶斯算法存在假设上的局限性,但其简洁性和在一些情况下出人意料的良好性能使其成为许多实际问题的首选方法。通过合理选择和应用不同的贝叶斯分类算法,可以在各种分类任务中达到既高效又准确的效果。