分类算法——决策树(五)

devtools/2024/11/15 4:58:14/

认识决策树

决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。
在这里插入图片描述

决策树分类原理详解

为了更好理解决策树具体怎么分类的,通过一个问题例子:
在这里插入图片描述
问题:如何对这些客户进行分类预测?如何划分?
有可能划分是这样的:
在这里插入图片描述

已知有四个特征值,预测是否贷款给某个人:
①类:先看房子,再工作–> 是否贷款——只看了两个特征
②类:年龄,信贷情况,工作——看了三个特征

在这里插入图片描述
1原理

  • 信息熵、信息增益等

需要用到信息论的知识!!!问题:通过例子引入信息熵

2信息熵的定义

  • H的专业术语称之为信息熵,单位为比特。

在这里插入图片描述

3决策树的划分依据之-------信息增益

香农:消除随机不定性的东西
小明,年龄“我今年18岁”——信息
小华 “小明明年19岁”——不是信息

  • 定义与公式

特征A对训练数据集D的信息增益 g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵 H(D|A) 之差,即公式为:
在这里插入图片描述

  • 公式的详细解释:
    在这里插入图片描述
    在这里插入图片描述

注:信息增益表示得知特征X的信息而息的不确定性减少的程度使得类Y的信息熵减少的程度

  • 我们以年龄特征来计算:
1g(D,年龄)=H(D)-H(D|年龄)=0.971-[5/15H(青年)+5/15H(中年)+5/15H(老年)]
2H(D)=-(6/15log(6/15)+9/15log(9/15))=0.971
3H(青年)=-(3/5log(3/5)+2/5log(2/5))
H(中年)=-(3/5log(3/5)+2/5log(2/5))
H(老年)=-(4/5log(4/5)+1/5log(1/5))

我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况。最终计算的结果g(D,A1)=0.313,g(D,A2)=0.324,g(D,A3)=0.420,g(D,A4)=0.363。所以我们选择A3作为划分的第一个特征。这样我们就可以一棵树慢慢建立。

4决策树的划分依据之-------信息增益
当然决策树的原理不止信息增益这一种,还有其他方法。但是原理都类似。

  • ID3
    • 信息增益 最大的准则
  • C4.5
    • 信息增益比 最大的准则
  • CART
    • 分类树:基尼系数 最小的准则(在sklearn中可以选择划分的默认原则)
    • 优势:划分更加细致(从后面例子的树显示来理解)

决策树API

  • class sklearn.tree.DecisionTreeClassifier(criterion='gini’,max_depth=None,random_state=None)
    • 决策树分类
    • criterion:默认是’gini’系数,也可以选择信息增益的熵’entropy
    • max_depth:树的深度大小
    • random_state:随机数种子

1用决策树对鸢尾花进行分类
在这里插入图片描述
在这里插入图片描述
决策树的结构是可以直接显示的,所以

决策树可视化

1保存树的结构到dot文件

  • sklearn.tree.export_graphviz() 该函数能够导出DOT格式
    • tree.export_graphviz(estimator,out_file=‘tree.dot’,feature_names=[“,”])
//可视化决策树
export_graphviz(estimator,out_file="iris_tree.dot",feature_names=iris.feature_names

运行后生成:
在这里插入图片描述
在这里插入图片描述

复制到webgraphviz.com网页中:
在这里插入图片描述

决策树总结

  • 优点:
    • 简单的理解和解释,树有可视化
  • 缺点:
    • 决策树学习者可以创建不能很好地推广数据的过于复杂的树,这被称为过拟合
  • 改进:
    • 减枝cart算法(决策树API当中已经实现,随机森林参数调优有相关介绍)
    • 随机森林

注:企业重要决策,由于决策树很好的分析能力,在决策过程应用较多,可以选择特征

总结

  • 信息熵、信息增益的计算
  • DecisionTreeClassifier进行决策树的划分
  • export_graphviz导出到dot文件

http://www.ppmy.cn/devtools/15209.html

相关文章

ADOP告诉您光分路器的类型?如何选择?

🌱在无源光网络(PON)中,光分路器作为核心光器件,可帮助多个用户共享一个PON接口,最大限度地扩展了光网络性能。那么你知道目前市面上有多少种光分路器吗?该如何选择呢? 阅读本文后&a…

【教程】MySQL数据库学习笔记(五)——约束(持续更新)

写在前面: 如果文章对你有帮助,记得点赞关注加收藏一波,利于以后需要的时候复习,多谢支持! 【MySQL数据库学习】系列文章 第一章 《认识与环境搭建》 第二章 《数据类型》 第三章 《数据定义语言DDL》 第四章 《数据操…

HiveQL-DML总览

一、LOAD Hive在将数据加载到表中时不进行任何转换。加载操作目前是纯拷贝/移动操作,将数据文件移动到与配置单元表相对应的位置。 语法: load data [local] inpath filepath [overwrite] into table tablename [partition (partcol1val1, partcol2val…

Java23种设计模式-结构型模式之享元模式

享元模式(Flyweight Pattern):主要用于减少创建大量相似对象时的内存占用。通过共享对象,享元模式可以减少内存中对象的数量,从而提高程序的性能。 角色: 1.享元角色(Flyweight):享…

【数字电路与系统】【北京航空航天大学】实验:时序逻辑设计——三色灯开关(三)、功能仿真测试

本次实验(一)见博客:【数字电路与系统】【北京航空航天大学】实验:时序逻辑设计——三色灯开关(一)、实验指导书 本次实验(二)见博客:【数字电路与系统】【北京航空航天…

webpack -vite(Rollup )-Gulp (一)

vite基于什么打包 Vite 是一个现代的前端构建工具,它在开发环境中利用浏览器原生的 ES 模块加载机制实现快速启动和热更新,而在生产环境打包时,默认基于 Rollup 进行构建。Rollup 是一个JavaScript 模块打包器,尤其擅长处理 ES 模…

SSTV音频转图片

SSTV工具有很多,这里使用RX-SSTV慢扫描工具 下载安装 RX-SSTV解码软件 下载地址:https://www.qsl.net/on6mu/rxsstv.htm 一直点下一步,安装成功如下图: 虚拟声卡e2eSoft 由于SSTV工具是根据音频传递图片信息,正常解法需要一…

go版本1.16.5 运行项目出现undefined: math.MaxInt报错

问题描述 go版本 go1.16.5 项目引用了 包go-sqlite3 v1.14.17 github.com/mattn/go-sqlite3 v1.14.17运行报错 # github.com/mattn/go-sqlite3 D:\GoPATH\pkg\mod\github.com\mattn\go-sqlite3v1.14.17\sqlite3_opt_serialize.go:41:26: undefined: math.MaxInt原因分析&…