决策树中联合概率分布公式解释说明

devtools/2024/10/15 17:42:35/

学习决策树时书本中有一公式 7-3 是:
P ( X = x i , Y = y j ) = p i j ( i = 1 , 2 , … , m , j = 1 , 2 , … , n ) P(X = x_i, Y = y_j) = p_{ij} \quad (i = 1, 2, \dots, m, \ j = 1, 2, \dots, n) P(X=xi,Y=yj)=pij(i=1,2,,m, j=1,2,,n)

这个公式表示的是随机变量 X X X Y Y Y联合概率分布,其中 X X X 是一个随机变量,取值 x i x_i xi,而 Y Y Y 是另一个随机变量,取值 y j y_j yj。这些随机变量可以表示数据集的特征和对应的类别,联合概率描述了特定特征值和类别同时发生的概率。

公式的各部分解释:

  1. P ( X = x i , Y = y j ) P(X = x_i, Y = y_j) P(X=xi,Y=yj):这是联合概率,表示随机变量 X X X 取值为 x i x_i xi,且随机变量 Y Y Y 取值为 y j y_j yj 的概率。这个联合概率表示了在同一时间下 X X X Y Y Y 同时取到某个值的可能性。联合概率分布反映了这两个变量之间的相依关系。

  2. p i j p_{ij} pij:这是联合概率的符号表示,代表了 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj 同时发生的概率。 p i j p_{ij} pij 是第 i i i X X X 值和第 j j j Y Y Y 值的联合概率。

  3. i = 1 , 2 , … , m i = 1, 2, \dots, m i=1,2,,m:这是随机变量 X X X 取的值的索引 i i i,表示 X X X 可以取 m m m 个不同的值。

  4. j = 1 , 2 , … , n j = 1, 2, \dots, n j=1,2,,n:这是随机变量 Y Y Y 取的值的索引 j j j,表示 Y Y Y 可以取 n n n 个不同的值。

联合概率的直观理解:

联合概率 P ( X = x i , Y = y j ) P(X = x_i, Y = y_j) P(X=xi,Y=yj) 衡量的是两个事件同时发生的概率。在机器学习的背景下, X X X Y Y Y 可以分别表示输入特征和输出类别。例如, X X X 可能是表示特征的变量,而 Y Y Y 表示类别标签。联合概率反映了在特定输入下,输出某个类别的可能性。

举个例子,假设我们正在做一个邮件分类任务,其中 X X X 是邮件中包含的某个特定词语(如“offer”),而 Y Y Y 是该邮件的类别(垃圾邮件或正常邮件)。那么, P ( X = "offer" , Y = "垃圾邮件" ) P(X = \text{"offer"}, Y = \text{"垃圾邮件"}) P(X="offer",Y="垃圾邮件") 就表示邮件中出现“offer”这个词且该邮件为垃圾邮件的概率。

具体例子:

假设我们有一个简单的二元分类问题(比如垃圾邮件分类),数据集中的每个样本由两个特征 X 1 X_1 X1 X 2 X_2 X2 组成,且每个样本属于两个可能的类别之一 Y Y Y,分别是“垃圾邮件”和“正常邮件”。现在,我们定义联合概率分布:

  • X 1 X_1 X1 可以取 x 1 x_1 x1 x 2 x_2 x2 两个值,分别表示邮件包含或不包含某个特定词汇(如“offer”)。
  • X 2 X_2 X2 也可以取 x 1 x_1 x1 x 2 x_2 x2 两个值,表示邮件包含或不包含另一个特定词汇(如“free”)。
  • Y Y Y y 1 y_1 y1 表示垃圾邮件,取 y 2 y_2 y2 表示正常邮件。

联合概率分布中的各项值 P ( X = x i , Y = y j ) P(X = x_i, Y = y_j) P(X=xi,Y=yj) 代表了邮件中包含某些词语时,它属于垃圾邮件或正常邮件的概率。例如:

  • P ( X = "offer" , Y = "垃圾邮件" ) = 0.3 P(X = \text{"offer"}, Y = \text{"垃圾邮件"}) = 0.3 P(X="offer",Y="垃圾邮件")=0.3:表示当邮件包含“offer”时,它被分类为垃圾邮件的概率为 30%。
  • P ( X = "offer" , Y = "正常邮件" ) = 0.1 P(X = \text{"offer"}, Y = \text{"正常邮件"}) = 0.1 P(X="offer",Y="正常邮件")=0.1:表示当邮件包含“offer”时,它是正常邮件的概率为 10%。
    联合概率计算的具体步骤

联合概率与条件概率的关系:

联合概率与条件概率有着密切的关系。通过联合概率,我们可以计算条件概率。条件概率表示在已知某一事件发生的情况下,另一个事件发生的概率。在我们的例子中,条件概率 P ( Y = 垃圾邮件 ∣ X = "offer" ) P(Y = \text{垃圾邮件} | X = \text{"offer"}) P(Y=垃圾邮件X="offer") 表示当我们已知邮件包含“offer”这个词时,它被分类为垃圾邮件的概率。条件概率可以通过联合概率计算得出:
P ( Y = y j ∣ X = x i ) = P ( X = x i , Y = y j ) P ( X = x i ) P(Y = y_j | X = x_i) = \frac{P(X = x_i, Y = y_j)}{P(X = x_i)} P(Y=yjX=xi)=P(X=xi)P(X=xi,Y=yj)

这个公式表示已知 X = x i X = x_i X=xi 时,发生 Y = y j Y = y_j Y=yj 的概率,可以通过 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj 同时发生的概率 P ( X = x i , Y = y j ) P(X = x_i, Y = y_j) P(X=xi,Y=yj) 除以 X = x i X = x_i X=xi 的边缘概率来计算。

总结:

公式 7-3 表示随机变量 X X X Y Y Y 的联合概率分布。联合概率分布帮助我们了解多个变量之间的相依关系,是许多机器学习算法(包括决策树、贝叶斯分类器等)的基础。在具体任务中,联合概率可以帮助我们计算输入特征与输出标签之间的关联,并在此基础上进行分类或预测。


http://www.ppmy.cn/devtools/119562.html

相关文章

【Langchain优缺点】打算使用Langchain框架的同学务必仔细阅读

众所周知,人工智能和 LLM 是瞬息万变的领域,每周都会有新的概念和想法出现。而 LangChain 这样围绕多种新兴技术创建的抽象概念,其框架设计很难经得起时间考验。 直到看到了下面这个Blog的解释中的这句话: It uses abstractions …

Leetcode面试经典150题-201.数字范围按位与

给你两个整数 left 和 right ,表示区间 [left, right] ,返回此区间内所有数字 按位与 的结果(包含 left 、right 端点)。 示例 1: 输入:left 5, right 7 输出:4示例 2: 输入&…

海信新风空调小氧吧X7:解锁母婴级标准认证的防直吹神器

随着智能科技推进,人们对空调产品的需求,早已超越温度调节范畴,注重追求舒适体验与健康生态。如何让用户拥抱好空气,体验呼吸舒适感?近日,海信空调发布产品预告,10月1日,海信新风空调…

docker环境下配置cerbot获取免费ssl证书并自动续期

文章目录 实践场景了解certbot查看nginx的映射情况操作目标配置nginx配置的ssl证书设置自动续签 实践场景 本人使用docker部署了一个nginx容器,通过容器卷,实现本地html,ssl,conf和ngiinx容器映射的, 经常需要手动部署…

java判断ip是否为指定网段

前言 这是我在这个网站整理的笔记,有错误的地方请指出,关注我,接下来还会持续更新。 作者:神的孩子都在歌唱 一、IP地址介绍 1.1 IP(IPv4) IP是Internet Protocol的缩写,即网际协议,它是计算机…

招联金融2025校招内推喇

【投递方式】 直接扫下方二维码,或点击内推官网https://wecruit.hotjob.cn/SU61025e262f9d247b98e0a2c2/mc/position/campus,使用内推码 igcefb 投递) 【招聘岗位】 深圳,武汉: 后台开发 前端开发 数据开发 数据运营…

Sql Developer日期显示格式设置

默认时间格式显示 设置时间格式:工具->首选项->数据库->NLS->日期格式: DD-MON-RR 修改为: YYYY-MM-DD HH24:MI:SS 设置完格式显示:

大模型压缩方法之知识蒸馏

知识蒸馏的训练过程是通过结合硬标签损失(( L_{\text{hard}} ))和软标签损失(( L_{\text{soft}} ))进行反向传播,更新学生模型的参数。 具体流程如下: 前向传播: 教师模型 和 学生模型 分别对相…