机器学习——深入浅出理解朴素贝叶斯算法

news/2025/3/19 17:33:17/

文章目录

  • 引言
  • 一、朴素贝叶斯定理概述
    • 1.从贝叶斯定理说起
    • 2.朴素贝叶斯的“朴素”之处
    • 3.朴素贝叶斯算法的应用
  • 二、朴素贝叶斯算法的优缺点
  • 三、python代码实现案例
    • 1.导入库
    • 2.数据预处理
    • 3.模型训练
    • 4.模型评估
    • 5.完整代码
  • 四、总结

引言

朴素贝叶斯算法,一个听起来充满统计学气息的名字,却是机器学习领域最直观易懂的算法之一。它就像一位经验丰富的医生,凭借“朴素”的经验法则,快速高效地进行疾病诊断。今天,就让我们一起揭开朴素贝叶斯算法的神秘面纱,探索其背后的原理和应用。

一、朴素贝叶斯定理概述

1.从贝叶斯定理说起

要理解朴素贝叶斯,首先要了解它的理论基础——贝叶斯定理。贝叶斯定理描述了在已知某些条件下,某事件发生的概率如何更新。简单来说,就是利用新的信息,不断修正我们对事件的认知。

公式表示为:

P ( A ∣ B ) = P ( B ∣ A ) ∗ P ( A ) / P ( B ) P(A|B) = P(B|A) * P(A) / P(B) P(AB)=P(BA)P(A)/P(B)

其中:

  • P(A|B):在事件 B 发生的条件下,事件 A 发生的概率(后验概率)
  • P(B|A):在事件 A 发生的条件下,事件 B 发生的概率(似然度)
  • P(A):事件 A 发生的先验概率
  • P(B):事件 B 发生的边际概率

2.朴素贝叶斯的“朴素”之处

朴素贝叶斯算法基于一个非常朴素的假设:特征之间相互独立。也就是说,算法假设数据集中每个特征与其他特征都不相关。例如,在垃圾邮件分类中,算法会假设邮件中出现“免费”和“中奖”这两个词之间没有任何联系。

虽然这个假设在现实中往往不成立,但朴素贝叶斯算法却在许多实际应用中表现出色,尤其是在文本分类领域。

3.朴素贝叶斯算法的应用

朴素贝叶斯算法广泛应用于各种分类任务,例如:

  • 垃圾邮件过滤: 判断一封邮件是否是垃圾邮件。
  • 情感分析: 分析一段文本表达的情感是积极还是消极。
  • 新闻分类: 将新闻文章自动分类到不同的主题类别,例如体育、科技、娱乐等。
  • 医疗诊断: 根据患者的症状,判断其可能患有的疾病。

二、朴素贝叶斯算法的优缺点

优点:

  • 简单易懂,易于实现。
  • 训练速度快,对大规模数据集处理效率高。
  • 对于高维数据表现良好。
  • 对小规模数据也能取得不错的效果。

缺点:

  • 特征独立性假设在现实中往往不成立,会影响模型精度。
  • 对输入数据的表达形式比较敏感。

python_50">三、python代码实现案例

1.导入库

import pandas as pd
  • pandas:用于数据处理和分析。

2.数据预处理

data = pd.read_csv("iris.csv",header=None)
data = data.drop(0,axis=1)
x = data.iloc[:,:-1]
y = data.iloc[:,-1]from sklearn.model_selection import train_test_splitx_train,x_test,y_train,y_test = \train_test_split(x,y,test_size=0.2,random_state=42)
  • 读取数据:使用pandas库读取iris.csv文件。数据集在下方链接中。
  • 链接: iris.csv
  • x:保留所有行,删除最后一列。
  • y:只保留最后一列。
  • train_test_split:对数据集进行划分

3.模型训练

from sklearn.naive_bayes import MultinomialNB #导入朴素贝叶斯分类器
#实例化贝叶斯分类器
classifier  = MultinomialNB(alpha=1)
classifier.fit(x_train,y_train)
  • 导入模型MultinomialNB
  • 使用fit()函数训练模型

4.模型评估

train_predicted = classifier.predict(x_train)
print(metrics.classification_report(y_train, train_predicted))# 在完整测试集上评估模型
train_predicted1 =classifier.predict(x_test)
print(metrics.classification_report(y_test, train_predicted1))
  • 打印分类报告

5.完整代码

import pandas as pddata = pd.read_csv("iris.csv",header=None)
data = data.drop(0,axis=1)
x = data.iloc[:,:-1]
y = data.iloc[:,-1]from sklearn.model_selection import train_test_splitx_train,x_test,y_train,y_test = \train_test_split(x,y,test_size=0.2,random_state=42)from sklearn.naive_bayes import MultinomialNB #导入朴素贝叶斯分类器
#实例化贝叶斯分类器
classifier  = MultinomialNB(alpha=1)
classifier.fit(x_train,y_train)from sklearn import metrics# 在小训练集上评估模型
train_predicted = classifier.predict(x_train)
print(metrics.classification_report(y_train, train_predicted))
# cm_plot(y_train, train_predicted).show()# 在完整测试集上评估模型
train_predicted1 =classifier.predict(x_test)
print(metrics.classification_report(y_test, train_predicted1))
# cm_plot(y_test, train_predicted1).show()

四、总结

朴素贝叶斯算法以其简单高效的特点,成为机器学习入门学习的经典算法。尽管其“朴素”的假设存在一定局限性,但在许多实际应用中依然表现出色。理解朴素贝叶斯算法,不仅能够帮助我们解决实际问题,更能为我们打开机器学习世界的大门,探索更广阔的算法天地。

希望这篇博客能够帮助你更好地理解朴素贝叶斯算法


http://www.ppmy.cn/news/1580373.html

相关文章

单口路由器多拨号ADSL实现方法

条件是多拨号场景,公司路由器接口不够用

unity基础——Navigation导航系统(补充)

1、Off Mesh Link 过渡动画设置 首先创建一个动画 关闭 Nav Mesh Agent 中的 Auto Traverse Off Mesh Link编写脚本 using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.AI;public class OffMeshTest : MonoBehaviour {//Pl…

使用 NetworkX 进行图论分析与可视化

使用 NetworkX 进行图论分析与可视化 NetworkX 是一个用于创建、操作和研究复杂网络的 Python 库。它提供了丰富的图论算法和数据结构,适用于各种网络分析任务。本文将分点介绍 NetworkX 的主要功能,并通过代码示例进行详细说明。 1. 安装 NetworkX 在…

20. Excel 自动化:Excel 对象模型

一 Excel 对象模型是什么 Excel对象模型是Excel图形用户界面的层次结构表示,它允许开发者通过编程来操作Excel的各种组件,如工作簿、工作表、单元格等。 xlwings 是一个Python库,它允许Python脚本与Excel进行交互。与一些其他Python库&#x…

iOS底层原理系列05-内存管理:从核心原理到高级优化

1. Objective-C 内存管理基础 1.1 堆与栈内存管理 iOS 系统区分堆栈内存,采用不同的管理策略: • 栈内存特性: 自动分配与释放,遵循 LIFO (后进先出) 原则存储局部变量、函数参数和返回地址具有极高的访问速度与效率容量有限&a…

游戏引擎学习第158天

回顾和今天的计划 我们在这里会实时编码一个完整的游戏,没有使用引擎或库,一切都由我们自己做所有的编程工作,游戏中的每一部分,无论需要做什么,我们都亲自实现,并展示如何完成这些任务。今天,…

NLP高频面试题(四)——BN和LN的区别与联系,为什么attention要用LN

在深度学习模型中,Normalization是一种极为重要的技巧,Batch Normalization(BN)和Layer Normalization(LN)是其中最为常用的两种方法。然而,二者在实际应用中有着明显的区别与联系,尤…

[从零开始学习JAVA] Stream流

前言: 本文我们将学习Stream流,他就像流水线一样,可以对我们要处理的对象进行逐步处理,最终达到我们想要的效果,是JAVA中的一大好帮手,值得我们了解和掌握。(通常和lambda 匿名内部类 方法引用相…