随机森林模型sklearn_sklearn中随机森林的参数

news/2024/12/5 4:56:26/

AI

人工智能

sklearn中随机森林的参数

一:sklearn中决策树的参数:

1,criterion: ”gini” or “entropy”(default=”gini”)是计算属性的gini(基尼不纯度)还是entropy(信息增益),来选择最合适的节点。

2,splitter: ”best” or “random”(default=”best”)随机选择属性还是选择不纯度最大的属性,建议用默认。

3,max_features: 选择最适属性时划分的特征不能超过此值。

当为整数时,即最大特征数;当为小数时,训练集特征数*小数;

if “auto”, then max_features=sqrt(n_features).

If “sqrt”, thenmax_features=sqrt(n_features).

If “log2”, thenmax_features=log2(n_features).

If None, then max_features=n_features.

4,max_depth: (default=None)设置树的最大深度,默认为None,这样建树时,会使每一个叶节点只有一个类别,或是达到min_samples_split。

5,min_samples_split:根据属性划分节点时,每个划分最少的样本数。

6,min_samples_leaf:叶子节点最少的样本数。

7,max_leaf_nodes: (default=None)叶子树的最大样本数。

8,min_weight_fraction_leaf: (default=0) 叶子节点所需要的最小权值

9,verbose:(default=0) 是否显示任务进程

二:随机森林特有的参数:

1,n_estimators=10:决策树的个数,越多越好,但是性能就会越差,至少100左右(具体数字忘记从哪里来的了)可以达到可接受的性能和误差率。

2,bootstrap=True:是否有放回的采样。

3,oob_score=False:oob(out of

band,带外)数据,即:在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练,我们知道可以用cross

validation(cv)来进行,但是特别消耗时间,而且对于随机森林这种情况也没有大的必要,所以就用这个数据对决策树模型进行验证,算是一个简单的交叉验证。性能消耗小,但是效果不错。

4,n_jobs=1:并行job个数。这个在ensemble算法中非常重要,尤其是bagging(而非boosting,因为boosting的每次迭代之间有影响,所以很难进行并行化),因为可以并行从而提高性能。1=不并行;n:n个并行;-1:CPU有多少core,就启动多少job。

5,warm_start=False:热启动,决定是否使用上次调用该类的结果然后增加新的。

6,class_weight=None:各个label的权重。

三:进行预测可以有几种形式:

1,predict_proba(x):给出带有概率值的结果。每个点在所有label的概率和为1.

2,predict(x):直接给出预测结果。内部还是调用的predict_proba(),根据概率的结果看哪个类型的预测值最高就是哪个类型。

3,predict_log_proba(x):和predict_proba基本上一样,只是把结果给做了log()处理。

附Random Forest和Gradient Tree Boosting参数详解,图片来源:https://www.zhihu.com/question/34470160

通过总结模型调参常见的问题,我们可以把模型的参数分为4类:目标类、性能类、效率类和附加类。下表详细地展示了4个模型参数的意义:

内容来源于网络,如有侵权请联系客服删除


http://www.ppmy.cn/news/592759.html

相关文章

随机森林评估特征重要性

随机森林(RF)简介 只要了解决策树的算法,那么随机森林是相当容易理解的。随机森林的算法可以用如下几个步骤概括: 1、用有抽样放回的方法(bootstrap)从样本集中选取n个样本作为一个训练集 2、用抽样得到的…

3决策树随机森林与深度学习

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、Deep Neural Decision Forests二、Deep Forest阅读参考 关于决策树随机森林与深度学习,以两篇论文为切入,作简要分析。 作者的研究动机&…

全网独家--【图像色彩增强】方法梳理和问题分析

文章目录 图像增强图像色彩增强问题可视化比较 难点色彩空间大,难以准确表征?不同场景差异大,难以自适应?计算量大,但应用场景往往实时性要求高? 方法传统方法深度学习逐像素预测3D LUT模仿ISP 个人思考批判…

在线分析|在线做随机森林分析

今天小编给大家介绍的是TUTU(https://www.cloudtutu.com/)网站上新添的randomforest2分析,即随机森林模型分析。目前平台上有两个随机森林的分析,如下图,小伙伴们可根据自己的需求选择对应的工具。 ​ 随机森林&#…

森林防火综合解决方案

森林防火的原则要求是:“积极预防、早发现、早出动、早扑灭”,目前森林防火的手段主要有传统人防、普通监控和智能化自动监控这三种。传统人防手段只能靠护林员对重点时段、重点区域野外火源进行人工巡查,不具备全时、全天候、全地形的监测能…

随机森林算法(Random Forest)Python实现

目录 前言 一、什么是Random Forest ? 1.1 什么是监督式机器学习? 1.2 什么是回归和分类?

基于随机森林算法的人脸数据集分类

目录 1. 作者介绍2. 关于理论方面的知识介绍随机森林3. 实验过程3.1 数据集介绍3.2 实验代码3.3 运行结果3.3 实验总结 参考 1. 作者介绍 李佳敏,女,西安工程大学电子信息学院,2021级研究生 研究方向:模式识别与人工智能 电子邮件…

随机森林 – Random forest

随机森林 – Random forest 随机森林是一种由决策树构成的集成算法,他在很多情况下都能有不错的表现。 本文将介绍随机森林的基本概念、4 个构造步骤、4 种方式的对比评测、10 个优缺点和 4 个应用方向。 什么是随机森林? 随机森林属于 集成学习 中的 …