随机森林(Random Forest)算法

news/2024/12/5 4:37:04/

目录

简介

决策树

概念

定义

如何构建?

优点

缺点

集成学习

特点

错误率

 种类

自主采样法(Boostrap Sampling)

概念

 拓展

随机森林

概念

优点

缺点


 

简介

一种分类算法,属于集成学习中的Bagging算法,即引导聚合类算法,由于不专注于解决困难样本,所以模型的performance会受到限制。

在介绍随机森林算法之前,首先要弄懂三个概念:

  • 决策树
  • 集成学习(Ensemble Learning)[多分类系统]
  • 自主采样法(Boostrap Sampling)

决策树

概念

随机森林由多个决策树组成。

定义

为了达到目标根据一定的条件进行选择的过程称为决策树。

如何构建?

熵:表示决策树分支下样本种类的丰富性

 

随着树的深度增加,要使熵降低(熵降低的速度越快,决策树效率越高)

构成决策树的是结点

结点根据样本特征进行判断(如苹果的大小、味道、形状等)

最初的分支点被称为根节点(如图片中的 SIZE ),其余的被称为子节点

不再有分支的节点则被称为叶子结点,代表样本分类的结果

边指示的就是方向(如 YES 或 NO )

优点

  • 具有天然可解释性(比如一个好的苹果就是又大又甜又红)

缺点

  • 会发生过拟合(因为数据会存在特例)

如何解决过拟合问题?

运用剪枝手段

  • 预剪枝:训练前规定条件(如达到某深度就停止训练)
  • 后剪枝:先找到决策树,根据条件限制叶子结点个数

集成学习

特点

  • 集合多个算法(多个算法可相同可不同
  • 由训练数据构成一组基分类器
  • 多个决策者共同进行一项决策

错误率

根据Hoeffding不等式,集成学习的错误率为:

Hoeffding不等式了解网址: https://blog.csdn.net/z_x_1996/article/details/73564926

 其中 T 代表的是分类器的数目(在随机森林中指的是决策树的数目)

 种类

  • Bagging(装袋法):如随机森林,每个模型相互独立,相互平行
  • Boosting(提升法):模型循序渐进,依次增强,基评估器相互关联

 


自主采样法(Boostrap Sampling)

概念

在现实任务中,个体学习器是为解决同一个问题训练出来的,它们之间是不可能完全独立的,虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能的具有较大的差异,由此我们引入了自助采样法(Bootstrap sampling用于解决独立问题,即让基学习器尽可能具有较大差异。

利用重抽样(Re-sample)有放回的抽取,对应随机森林的 “随机” 。

 拓展

 划分数据集最大的原则:将无序的数据变得更加有序。

在划分数据集前后信息发生的变化成为信息增益(information gain),知道如何计算信息增益,我们就可以计算每一个特征划分数据集后获得的信息增益,获得信息增益最高的特征是最好的选择。

 信息学鼻祖香农提出了划时代的公式将信息量化,即信息熵函数,对信息论有兴趣的同学可以查阅香农的百度百科或者观看B战视频:https://www.bilibili.com/video/BV1fq4y1g7hq 。看完这个视频你会初步了解香农公式对于整个世界的影响以及为何华为能领跑5G时代。

或者阅读这篇文章:https://www.zhihu.com/question/27068465/answer/96502561


随机森林

现在我们可以了解随机森林了。

概念

随机森林即由多个决策树组成,每个决策树并不相同,在构建决策树时,我们从训练数据中有放回的随机选取一部分样本,并且也不会使用数据的全部特征,而是随机选取部分特征进行训练每棵树使用的样本和特征都不相同,训练出的结果也不相同。

这么做的原因:为开始训练前,无法知道哪部分数据存在异常样本,也无法知道哪些特征最能决定分类结果,随机过程降低了两个影响因素对于分类结果的影响。

 

优点

  • 采用集成算法,准确性高
  • 不容易发生过拟合(样本随机,特征随机)
  • 抗噪声能力强(噪声指的是异常数据)
  • 能处理特征较多的高维数据
  • (不知道用什么分类方法时就试试随机森林)
  • 多个决策树相互独立,节省时间

缺点

  • 随机森林并不能给出一个连续的输出。当进行回归时,随机森林不能够做出超越训练集数据范围的预测,这可能导致在某些特定噪声的数据进行建模时出现过度拟合。
  • 有许多不好解释的地方,有点算黑盒模型,无法控制模型内部的运行。只能在不同的参数和随机种子之间进行尝试。
  • 对于小数据或者低维数据(特征较少的数据),可能不能产生很好的分类。(处理高维数据,处理特征遗失数据,处理不平衡数据是随机森林的长处)。

总结来源:

[1] https://www.bilibili.com/video/BV11i4y1F7n4

[2] https://www.bilibili.com/video/BV1HV411b7JR

[3] https://www.bilibili.com/video/BV1fq4y1g7hq

[4] https://www.bilibili.com/video/BV1H5411e73F

[5] ​​​​​​https://www.bilibili.com/read/cv6765576

[6] ​​​​​​https://baike.baidu.com/item/%E9%9A%8F%E6%9C%BA%E6%A3%AE%E6%9E%97/1974765?fr=aladdin


http://www.ppmy.cn/news/592760.html

相关文章

随机森林模型sklearn_sklearn中随机森林的参数

AI 人工智能 sklearn中随机森林的参数 一:sklearn中决策树的参数: 1,criterion: ”gini” or “entropy”(default”gini”)是计算属性的gini(基尼不纯度)还是entropy(信息增益),来选择最合适的节点。 2,splitter: ”b…

随机森林评估特征重要性

随机森林(RF)简介 只要了解决策树的算法,那么随机森林是相当容易理解的。随机森林的算法可以用如下几个步骤概括: 1、用有抽样放回的方法(bootstrap)从样本集中选取n个样本作为一个训练集 2、用抽样得到的…

3决策树随机森林与深度学习

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、Deep Neural Decision Forests二、Deep Forest阅读参考 关于决策树随机森林与深度学习,以两篇论文为切入,作简要分析。 作者的研究动机&…

全网独家--【图像色彩增强】方法梳理和问题分析

文章目录 图像增强图像色彩增强问题可视化比较 难点色彩空间大,难以准确表征?不同场景差异大,难以自适应?计算量大,但应用场景往往实时性要求高? 方法传统方法深度学习逐像素预测3D LUT模仿ISP 个人思考批判…

在线分析|在线做随机森林分析

今天小编给大家介绍的是TUTU(https://www.cloudtutu.com/)网站上新添的randomforest2分析,即随机森林模型分析。目前平台上有两个随机森林的分析,如下图,小伙伴们可根据自己的需求选择对应的工具。 ​ 随机森林&#…

森林防火综合解决方案

森林防火的原则要求是:“积极预防、早发现、早出动、早扑灭”,目前森林防火的手段主要有传统人防、普通监控和智能化自动监控这三种。传统人防手段只能靠护林员对重点时段、重点区域野外火源进行人工巡查,不具备全时、全天候、全地形的监测能…

随机森林算法(Random Forest)Python实现

目录 前言 一、什么是Random Forest ? 1.1 什么是监督式机器学习? 1.2 什么是回归和分类?

基于随机森林算法的人脸数据集分类

目录 1. 作者介绍2. 关于理论方面的知识介绍随机森林3. 实验过程3.1 数据集介绍3.2 实验代码3.3 运行结果3.3 实验总结 参考 1. 作者介绍 李佳敏,女,西安工程大学电子信息学院,2021级研究生 研究方向:模式识别与人工智能 电子邮件…