机器学习干货笔记分享:朴素贝叶斯算法

server/2024/12/16 15:00:27/

朴素贝叶斯分类是一种十分简单的分类算法,即对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

以判定外国友人为例做一个形象的比喻。

若我们走在街上看到一个黑皮肤的外国友人,让你来猜这位外国友人来自哪里。十有八九你会猜是从非洲来的,因为黑皮肤人种中非洲人的占比最多,虽然黑皮肤的外国人也有可能是美洲人或者是亚洲人。但是在没有其它可用信息帮助我们判断的情况下,我们会选择可能出现的概率最高的类别,这就是朴素贝叶斯的基本思想。

朴素贝叶斯算法注意点

  • 当特征属性值的值类型不是离散值而是连续值的时候,需要通过高斯分布做概率的计算;

  • 为了避免统计概率中出现概率为0的情况,可以引入Laplace校准,它的思想非常简单,就是对没类别下所有划分的计数加1。

适用场景及主要应用领域

  1. 朴素贝叶斯算法对待预测样本进行预测,过程简单速度快;

  2. 对于多分类问题也同样很有效,复杂度也不会有大程度上升;

  3. 在分布独立这个假设成立的情况下,贝叶斯分类器效果奇好,会略胜于逻辑回归,同时需要的样本量也更少一点。

  4. 对于类别类的输入特征变量,效果非常好。对于数值型变量特征,我们是默认它符合正态分布的。

主要应用领域

  • 文本分类/垃圾文本过滤/情感判别:多分类较为简单,同时在文本数据中,分布独立这个假设基本是成立的。垃圾文本过滤(比如垃圾邮件识别)和情感分析(微博上的褒贬情绪)用朴素贝叶斯也通常能取得很好的效果。

  • 多分类实时预测:对于文本相关的多分类实时预测,朴素贝叶斯算法被广泛应用,简单又高效。

  • 推荐系统:朴素贝叶斯和协同过滤(Collaborative Filtering)是一对好搭档,协同过滤是强相关性,但是泛化能力略弱,朴素贝叶斯和协同过滤一起,能增强推荐的覆盖度和效果。


http://www.ppmy.cn/server/150657.html

相关文章

Elasticsearch的一些介绍

你想问的可能是 **Elasticsearch**,以下是关于它的一些介绍: ### 概述 Elasticsearch是一个基于Apache Lucene库构建的开源分布式搜索和分析引擎,采用Java语言编写,具有高性能、可扩展性和易用性等特点,可用于各种数据…

Unity学习笔记(一)如何实现物体之间碰撞

前言 本文为Udemy课程The Ultimate Guide to Creating an RPG Game in Unity学习笔记 如何实现物体之间碰撞 实现物体之间的碰撞关键组件:Rigidbody 2D(刚体)、Collider 2D(碰撞体)、Sprite Renderer(Sprite渲染器) 实现物体之间的碰撞 …

基于yolov10的遥感影像目标检测系统,支持图像检测,视频检测和实时摄像检测功能(pytorch框架,python源码)

更多目标检测、图像分类识别、目标检测等其他项目可看我主页其他文章 功能演示: 基于yolov10的遥感影像目标检测系统,既支持图像检测,也支持视频和摄像实时检测【pytorch框架、python源码】_哔哩哔哩_bilibili (一)…

springboot432校园疫情防控系统(论文+源码)_kaic

摘 要 国家及社会对高等教育的支持度在近年来呈直线上升,人民也了解到教育的重要性,因此我国的高校数量及在校生数量也逐年递增,人数的增加本就加大了高校的管理工作难度,加之2019年底新型冠状肺炎疫情的爆发,使高校的…

【java常用集合】java

第1关:初识Collection 第2关:集合遍历方法 第3关:Set接口 第4关:Map接口 第5关:泛型 第6关:知识回顾

9. 高效利用Excel设置归档Tag

高效利用Excel设置归档Tag 1. Excle批量新建/修改归档Tag2. 趋势记录模型批量导入归档Tag(Method1)2. 趋势记录模型批量导入归档Tag(Method2)3. 趋势记录控件1. Excle批量新建/修改归档Tag Fcatory Talk常常需要归档模拟量,对于比较大的项目工程会有成千上万个重要数据需…

oracle控制文件发生变化的情况

文章目录 什么情况下控制文件会发生变化? 什么情况下控制文件会发生变化? oracle控制文件: alter database [add | drop] logfilealter database [add | drop] logfile memberalter database [add | drop] logfile groupalter database [ar…

余弦相似度Cosine Sim

what 余弦相似度是一种用于度量向量相似性的metric。 c o s θ A . B ∣ A ∣ . ∣ B ∣ cos\theta \frac{A.B}{|A|.|B|} cosθ∣A∣.∣B∣A.B​ A.B:向量的内积|A|:向量的模长 c o s θ cos\theta cosθ:的范围$ [ -1 , 1 ] $ why 余弦…