决策树中的相关概念

embedded/2025/1/7 19:03:27/

目录

算法介绍

基本概念:

节点

信息熵(Information Entropy)

条件熵(Conditional Entropy)

python中计算对数

分类标准

信息增益(ID3(Iterative Dichotomiser 3)算法的评估标准)

信息增益率(C4.5 算法的评估标准)

基尼系数(CART(Classification and Regression Tree)算法的评估标准)


算法介绍

决策树是一种非常直观且易于理解的机器学习算法

决策树通过对数据特征的一系列判断来进行分类或预测。

基本概念:
节点
  • 根节点:第一个节点,决策树的开始节点。

  • 非叶子节点(内部节点):中间节点,基于特征进行条件判断的节点。

  • 叶节点:最终结果节点,表示最终的分类或预测结果。

信息熵(Information Entropy)

信息熵是信息论中的一个概念,用于度量随机变量的不确定性。

决策树算法机器学习场景中,信息熵通常用于衡量数据集的混乱程度或不确定性。

计算公式:

举个例子:以下两个集合的熵值谁更大呢

条件熵(Conditional Entropy)

条件熵是在给定某个条件下,随机变量的不确定性。

假设随机变量X 和 Y,条件熵H(Y|X) 表示在已知随机变量X 的取值的情况下,随机变量 Y的不确定性。

联合概率密度的计算公式:

条件熵的计算公式:

举个例子:

假设有两个随机变量 X 和 Y,X 表示天气(晴、雨),Y 表示是否适合运动(是、否)。它们的联合概率分布如下:

X\Y
0.30.2
0.40.1
python中计算对数

如何计算这个式子的答案呢

在 Python 中,可以使用math 库来计算对数。上面的式子可以这么写

import math
result=-9/14*math.log(9/14,2)-5/14*math.log(5/14,2)

分类标准

构建决策树的关键在于选择合适的特征和划分点,一般而言,随着划分过程的不断进行,我们自然希望决策树各分支结点所包含的样本尽可能属于同一类别,即结点的 “纯度” (purity) 越来越高。本篇文章将介绍几类较为主流的衡量指标(信息增益、信息增益率、基尼系数)。

我们以一个分类问题为例,贯穿在接下来要讲的计算 ID3、C4.5 和 CART 算法的特征选择过程。

天气温度湿度是否出去玩
信息增益(ID3(Iterative Dichotomiser 3)算法的评估标准)

信息增益基于信息熵的概念,选择使信息熵减少最多的特征进行分裂。

  1. 特征选择标准:使用信息增益来选择特征。信息增益是基于信息熵的概念,它衡量了使用某个特征进行划分后,数据集的信息不确定性减少的程度。

  2. 局限性:倾向于选择具有较多取值的特征,可能导致过拟合。对于连续型特征,需要先进行离散化处理。

  3. 优点:算法简单直观,易于理解和实现。

信息增益为:1-0.693=0.307

同理计算 “温度” 和 “湿度” 特征的信息增益。

假设 “温度” 特征的信息增益为 0.2,“湿度” 特征的信息增益为 0.1。

由于 “天气” 特征的信息增益最大,所以 ID3 算法会选择 “天气” 特征作为根节点进行分裂。

信息增益率(C4.5 算法的评估标准)

信息增益比则对信息增益进行了归一化处理,克服了信息增益偏向取值较多的特征的问题。

  1. 特征选择标准:是 ID3 算法的改进,采用信息增益比来选择特征。信息增益比克服了 ID3 中信息增益偏向选择取值多的特征的不足。

  2. 处理连续属性:能够直接处理连续型特征,通过对连续特征进行排序和离散化来构建决策树

  3. 优点:在特征选择和防止过拟合方面比 ID3 更优,生成的决策树更加准确和稳健。

基尼系数(CART(Classification and Regression Tree)算法的评估标准)

基尼系数反映了从数据集中随机抽取两个样本,其类别不一致的概率。

  1. 用途:既可以用于分类问题,也可以用于回归问题。

  2. 特征选择标准:对于分类问题使用基尼系数,对于回归问题使用平方误差最小化。

  3. 生成结构:生成的是二叉树,即每次分裂都将数据集分为两部分。

  4. 优点:在处理复杂数据和大型数据集时表现较好,并且在分类和回归任务中都有不错的效果。


http://www.ppmy.cn/embedded/151752.html

相关文章

Golang学习历程【第五篇 复合数据类型:数组切片】

Golang学习历程【第五篇 复合数据类型:数组&切片】 1. 数组(Array)1.1 数组的定义1.2 初始化数组1.3 数据的循环遍历1.4 多维数组 2. 切片(Slice)2.1 切片声明、初始化2.2 基于数组创建切片2.2 切片的长度(len)和容…

javafx fxml模式下 menu菜单增加图标

准备图标资源 首先,你需要有合适的图标文件。这些图标文件可以是.png、.jpg或者其他适合的图像格式。通常,将图标文件放在项目的resources文件夹下是一个比较好的做法,这样便于管理和访问。例如,你有一个名为icon.png的图标文件&a…

如何在没有 iCloud 的情况下将联系人从 iPhone 传输到 iPhone

概括 近期iOS 13.5的更新以及苹果公司发布的iPhone SE在众多iOS用户中引起了不小的轰动。此外,不少变化,如暴露通知 API、Face ID 增强功能以​​及其他在 COVID-19 期间与公共卫生相关的新功能,吸引了 iPhone 用户尝试新 iPhone 并更新到最…

系统架构师考试-MDA模型驱动架构

概念 模型驱动架构是指一种用于应用系统开发的软件设计方法,它提供了一套软件设计的指导规范,这套指导规范是用模型来表示的。 MDA是一种基于诸如统一建模语言、可扩展标记语言和公共对象请求代理体系结构等一系列业界开放标准的框架,因此&…

密码学精简版

密码学是数学上的一个分支,同时也是计算机安全方向上很重要的基础原理,设置密码的目的是保证信息的机密性、完整性和不可抵赖性,安全方向上另外的功能——可用性则无法保证,可用性有两种方案保证,冗余和备份&#xff0…

办公 三之 Excel 数据限定录入与格式变换

开始-----条件格式------管理规则 IF($A4"永久",1,0) //如果A4包含永久&#xff0c;条件格式如下&#xff1a; OR($D5<60,$E5<60,$F5<60) 求取任意科目不及格数据 AND($D5<60,$E5<60,$F5<60) 若所有科目都不及格 显示为红色 IF($H4<EDATE…

动态规划模式

动态规划&#xff08;Dynamic Programming, DP&#xff09;是一种解决复杂问题的算法设计技术&#xff0c;它通过将大问题分解为小问题&#xff0c;并利用小问题的解决方案来构造大问题的解决方案&#xff0c;从而避免了重复计算。动态规划通常用于具有“最优子结构”和“重叠子…

气膜滑雪馆:科技创新引领四季滑雪,推动冰雪运动普及—轻空间

随着冬季的到来&#xff0c;冰雪运动迎来了蓬勃发展的时机。然而&#xff0c;冰雪运动一直受到季节和天气的限制&#xff0c;如何让更多人能够跨越这些障碍&#xff0c;全年享受滑雪的乐趣&#xff0c;成为推动冰雪产业普及的关键。自12月以来&#xff0c;“气膜滑雪馆”成为了…