【机器学习】随机森林 – Random forest

news/2024/12/4 6:21:53/

文章目录

  • 一、随机森林是什么?
    • 1. 随机森林是一种集成学习算法
    • 2. 随机森林的基学习器是决策树
  • 二、随机森林 – Random Forest | RF
  • 三、构造随机森林的 4 个步骤
  • 四、随机森林的优缺点
    • 1. 优点
    • 2. 缺点
  • 五、随机森林 4 种实现方法对比测试
  • 六、随机森林的 4 个应用方向
  • 参考链接


一、随机森林是什么?

随机森林是一种由 决策树 构成的 集成算法 ,他在很多情况下都能有不错的表现。

要深入理解上面这句话,请阅读我的另外两篇文章:

  1. 【机器学习】决策树 – Decision Tree
  2. 【机器学习】集成学习 - Ensemble Learning

1. 随机森林是一种集成学习算法

随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法。用图来表示他们之间的关系如下:

在这里插入图片描述

2. 随机森林的基学习器是决策树

决策树:
在这里插入图片描述
决策树是一种很简单的基于 if-then-else 规则的有监督学习算法,上面的图片可以直观的表达决策树的逻辑。


二、随机森林 – Random Forest | RF

随机森林:

在这里插入图片描述

随机森林是由很多决策树构成的,不同决策树之间没有关联。

当我们进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。


三、构造随机森林的 4 个步骤

在这里插入图片描述

  1. 抽取 N 个样本:一个样本容量为 N 的样本,有放回的抽取 N 次,每次抽取 1 个,最终形成了 N 个样本。这选择好了的 N 个样本用来训练一个决策树,作为决策树根节点处的样本。
  2. 选择 m 个属性:当每个样本有 M 个属性时,在决策树的每个节点需要分裂时,随机从这 M 个属性中选取出 m 个属性,满足条件 m << M 。然后从这 m 个属性中采用某种策略(比如说信息增益)来选择 1 个属性作为该节点的分裂属性。
  3. 构造决策树:决策树形成过程中每个节点都要按照步骤 2 来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了)。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
  4. 形成森林:按照步骤1~3建立大量的决策树,这样就构成了随机森林了。

四、随机森林的优缺点

1. 优点

  • 它可以处理很高维度(特征很多)的数据,并且不用降维,无需做特征选择
  • 它可以判断特征的重要程度
  • 可以判断出不同特征之间的相互影响
  • 不容易过拟合
  • 训练速度比较快,容易做成并行方法
  • 实现起来比较简单
  • 对于不平衡的数据集来说,它可以平衡误差。
  • 如果有很大一部分的特征遗失,仍可以维持准确度。

2. 缺点

  • 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合。
  • 对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的

五、随机森林 4 种实现方法对比测试

随机森林是常用的机器学习算法,既可以用于分类问题,也可用于回归问题。本文对 scikit-learn、Spark MLlib、DolphinDB、XGBoost 四个平台的随机森林算法实现进行对比测试。评价指标包括内存占用、运行速度和分类准确性。

测试结果如下:

在这里插入图片描述


六、随机森林的 4 个应用方向

在这里插入图片描述

随机森林可以在很多地方使用:

  1. 对离散值的分类
  2. 对连续值的回归
  3. 无监督学习聚类
  4. 异常点检测

参考链接

  1. 随机森林 – Random forest

http://www.ppmy.cn/news/592772.html

相关文章

建模基础教学:分类算法 --- 随机森林

0 前言 本人HIT计算机研在读&#xff0c;专业带队数学建模&#xff0c;长期更新建模教学&#xff0c;有需要的同学欢迎讨论&#xff5e; 1 什么是随机森林&#xff1f; 随机森林属于 集成学习 中的 Bagging&#xff08;Bootstrap AGgregation 的简称&#xff09; 方法。如果…

二叉树与树、森林之间的转换

一、森林、树转换成二叉树 树转化成二叉树的步骤&#xff1a; 树中所有相邻兄弟结点之间加一条线对树中的每个结点只保留它与长子之间的连线&#xff0c;删除与其他孩子之间的连线以树的根结点为轴心&#xff0c;将整棵树顺时针转动&#xff0c;使之结构层次分明 图例&#x…

Isolation Forest孤立森林(一)

孤立森林论文地址 http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf 概要 现有的基于模型的异常检测方法大多是构造一个正常实例的概要文件&#xff0c;然后将不符合标准的实例作为异常文件进行认证。本文提出了一种完全不同的基于模型的方法&#xff0c…

R语言 森林图

案例 今天介绍的用于画森林图的R包为forestmodel,用到其中的函数forest_model,这个函数可以接收lm、glm、coxph等函数拟合的模型。我们先来画一个cox模型的森林图 library(forestmodel) library(survival)lung$ph.ecog <- factor(lung$ph.ecog) lung$sex <- factor(l…

随机森林算法(Random Forest)原理分析及Python实现

目录 一、基础概念1.监督式机器学习2. 回归和分类3. 决策树4. 随机森林 二、Random Forest 的构造1. 算法实现2.数据的随机选取3. 待选特征的随机选取 三、Random Forest 优缺点1 .优点2 .缺点 四、Random Forest 的Python实现1. 随机森林python实现2. Decision Tree 和 Random…

决策树和随机森林的python实现

文章目录 决策树实现方法测试更好地展示结果调参调整max_depthscoring利用GridSearchCV确定最佳max_depthmin_samples_splitmin_impurity_decreasemax_features多参数同时选优采用最优参数 特征重要性排序 随机森林测试调参n_estimators调整max_depth调整max_features调整min_s…

用自己的图片集做随机森林、逻辑回归分类

版权声明&#xff1a;本文为博主原创文章&#xff0c;转载请注明作者和出处。https://blog.csdn.net/xq920831/article/details/84390468 参考文章地址&#xff1a;https://blog.csdn.net/qq_42379006/article/details/80929670 决策树与随机森林的基础知识&#xff1a;https:…

基于决策树的随机森林

随机森林&#xff1a; 什么是随机森林&#xff1f; 随机森林&#xff0c;顾名思义&#xff0c;里面有很多棵树&#xff0c;它基于决策树&#xff0c;将多个决策树结合在一起后把它们的预测结果结合起来预测目标&#xff0c;是集成算法中一种典型的Bagging模型。 集成算法&…