分类算法——朴素贝叶斯(四)

embedded/2024/10/18 9:19:38/

概率基础

1概率定义

  • 概率定义为一件事情发生的可能性
    • 扔出一个硬币,结果头像朝上
  • P(X):取值在[0,1]

2女神是否喜欢计算案例
在讲这两个概率之前我们通过一个例子,来计算一些结果:
在这里插入图片描述

  • 问题如下:
    1、女神喜欢的概率?
    2、职业是程序员并且体型匀称的概率?
    3、在女神喜欢的条件下,职业是程序员的概率?
    4、在女神喜欢的条件下,职业是程序员,体重是超重的概率?

  • 计算结果为:

P(喜欢)=4/7
P(程序员,匀称)=1/7
P(程序员|喜欢)=2/4 = 1/2
P(程序员,超重|喜欢)=1/4

联合概率、条件概率与相互独立

  • 联合概率:包含多个条件,且所有条件同时成立的概率
    • 记作:P(A,B)
    • 例如:P(程序员,匀称),P(程序员,超重|喜欢)
  • 条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率
    • 记作:P(A|B)
    • 例如:P(程序员|喜欢),P(程序员,超重|喜欢)
  • 相互独立:如果P(A,B)=P(A)P(B),则称事件A与事件B相互独立。

贝叶斯公式

1公式
在这里插入图片描述

注:W为给定文档的特征值(频数统计,预测文档提供),C为文档类别。

2实例计算
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
即:

P(喜欢|产品,超重)=P(产品,超重|喜欢)P(喜欢)/P(产品,超重)

上式中,P(产品,超重|喜欢)和P(产品,超重)的结果均为0,导致无法计算结果。这是因为样本量太少了,不具有代表性,本来现实生活中,肯定是存在职业是产品经理并且体重超重的人的,P(产品,超重)不可能为0;而且事件“职业是产品经理”和事件“体重超重”通常被认为是相互独立的事件,但是,根据我们有限的7个样本计算“P(产品,超重)=P(产品)P(超重)”不成立。
而朴素贝叶斯可以帮助我们解决这个问题
朴素贝叶斯,简单理解,就是假定了特征与特征之间相互独立的贝叶斯公式。也就是说,朴素贝叶斯,之所以朴素,就在于假定了特征与特征相互独立。
所以,思考题如果按照朴素贝叶斯的思路来解决,就可以是:

P(产品,超重)=P(产品)*P(超重):2/7*3/7=6/49
p(产品,超重|喜欢)=P(产品|喜欢)*P(超重|喜欢)=1/2*1/4=1/8
P(喜欢|产品,超重)=P(产品,超重|喜欢)P(喜欢)/P(产品,超重)=1/8 * 4/7 / 6/49 = 7/12

朴素:假定特征与特征之间是相互独立的
贝叶斯:贝叶斯公式

在这里插入图片描述

公式分为三个部分:

  • P(C):每个文档类别的概率(某文档类别数/总文档数量)
  • P(W | C):给定类别下特征((被预测文档中出现的词)的概率
    • 计算方法:P(F1 | C)=Ni/N(训练文档中去计算)
      • Ni为该F1词在C类别所有文档中出现的次数
      • N为所属类别C下的文档所有词出现的次数和
  • P(F1,F2…)预测文档中每个词的概率

如果计算两个类别概率比较:
所以我们只要比较前面的大小就可以,得出谁的概率大


http://www.ppmy.cn/embedded/6047.html

相关文章

《设计模式之美》第二章 总结

《设计模式之美》总结 第二章 面向对象编程范式 2.1 当我们在谈论面向对象时,我们在谈什么 2.1.1 面向对象编程和面向对象编程语言 面向对象编程语言: 1. 以类或对象作为组织代码的基本单元,并将封装、继承、抽象、多态4个特性作为代码的…

设计模式之创建型模式详解

设计模式 创建型模式 创建型模式(Creational Pattern)对类的实例化过程进行了抽象,能够将软件模块中对象的创建和对象的使用分离。为了使软件的结构更加清晰,外界对于这些对象只需要知道它们共同的接口,而不清楚其具体的实现细节&#xff0…

2024年阿里云4核8G配置云服务器价格低性能高!

阿里云4核8G服务器租用优惠价格700元1年,配置为ECS通用算力型u1实例(ecs.u1-c1m2.xlarge)4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选,CPU采用Intel(R) Xeon(R) Platinum处理器,阿里云优惠 aliyunfuwuqi…

kafka实验部署

一、前期准备 二、kafka实验 在zookeeper后继续进行操作 2.1 为ndoe1、node2、node3作出部署 2.1.1 解压kafka压缩包(node1举例) 2.1.2 操作 将解压后的kafka移动到kafka,进入到kafka下的config中,复制文件 2.1.2.1 编辑server.pr…

分类算法——文章分类(五)

文章分类计算 计算结果 P(C|Chinese,Chinese,Chinese,Tokyo,Japan)-->P(Chinese, Chinese, Chinese, Tokyo, Japan|C) * P(C)/P(Chinese, Chinese, Chinese, Tokyo, Japan) P(Chinese|C)5/8 P(Tokyo|C) 0 P(Japan|C) 0思考:我们计算出来某个概率为0,…

洛谷 P4779 [模板] 单源最短路径 题解 dijkstra算法

【模板】单源最短路径(标准版) 题目描述 给定一个 n n n 个点, m m m 条有向边的带非负权图,请你计算从 s s s 出发,到每个点的距离。 数据保证你能从 s s s 出发到任意点。 输入格式 第一行为三个正整数 n ,…

DAY29| 491.递增子序列 ,46.全排列 ,47.全排列II

文章目录 491.递增子序列46.全排列47.全排列II 491.递增子序列 文字讲解:递增子序列 视频讲解:递增子序列 **状态:这题看了文字讲解才AC,掌握了如何在回溯里通过Set集合来对同层节点去重 思路: 代码: cla…

算法学习——LeetCode力扣补充篇11(64. 最小路径和、48. 旋转图像 、169. 多数元素、394. 字符串解码、240. 搜索二维矩阵 II )

算法学习——LeetCode力扣补充篇11 64. 最小路径和 64. 最小路径和 - 力扣(LeetCode) 描述 给定一个包含非负整数的 m x n 网格 grid ,请找出一条从左上角到右下角的路径,使得路径上的数字总和为最小。 说明:每次只…