11.15 机器学习-集成学习方法-随机森林

ops/2024/11/20 7:27:09/

# 机器学习中有一种大类叫**集成学习**(Ensemble Learning),集成学习的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话:

# 三个臭皮匠,赛过诸葛亮。集成算法大致可以分为:Bagging,Boosting 和 Stacking 三大类型。

# (1)每次有放回地从训练集中取出 n 个训练样本,组成新的训练集;

# (2)利用新的训练集,训练得到M个子模型;

# (3)对于分类问题,采用投票的方法,得票最多子模型的分类类别为最终的类别;

# 就是把多个分类器组合起来用 每个分类器都从训练集里面拿一部分(有放回的) 数据进行训练 最后得到了很多个模型组成的一个集成模型 各个模型拿的数据集可能有重合部分

# # 行和列 都会随机选 数据个数和特征个数 关注点不一样

# 然后 传入一个数据拿去预测 集成模型里面的每个子模型都会给一个结果 然后看结果最多的那个当做数据的结果

# **随机森林**就属于集成学习,是通过构建一个包含多个决策树(通常称为基学习器或弱学习器)的森林,每棵树都在不同的数据子集和特征子集上进行训练,

# 最终通过投票或平均预测结果来产生更准确和稳健的预测。这种方法不仅提高了预测精度,也降低了过拟合风险,并且能够处理高维度和大规模数据集

# - 随机:  特征随机,训练集随机

#   - 样本:对于一个总体训练集T,T中共有N个样本,每次有放回地随机选择n个样本。用这n个样本来训练一个决策树。

#   - 特征:假设训练集的特征个数为d,每次仅选择k(k<d)个来构建决策树。

# - 森林:  多个决策树分类器构成的分类器, 因为随机,所以可以生成多个决策树

# - 处理具有高维特征的输入样本,而且不需要降维

# - 使用平均或者投票来提高预测精度和控制过拟合  

# 不需要降维 因为已经特征选择随机了

# API

# class sklearn.ensemble.RandomForestClassifier

# 参数:

# n_estimators  int, default=100

# 森林中树木的数量。(决策树个数)

# criterion {“gini”, “entropy”}, default=”gini” 决策树属性划分算法选择

#   当criterion取值为“gini”时采用 基尼不纯度(Gini impurity)算法构造决策树,

#   当criterion取值为 “entropy” 时采用信息增益( information gain)算法构造决策树.

   

# max_depth int, default=None 树的最大深度。

from sklearn.ensemble import RandomForestClassifier

from sklearn.datasets import load_iris

from sklearn.feature_extraction import DictVectorizer

from sklearn.feature_selection import VarianceThreshold

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

import pandas as pd

import numpy as np

def random_forest1():

    df1=pd.read_csv("assets/csv/titanic.csv")

    df1["age"].fillna(df1["age"].mode()[0],inplace=True)

    x=df1.drop(["embarked","home.dest","room","ticket","boat","survived"],axis=1)

    y=df1["survived"]

    y=y.to_numpy()

    # print(x)

    # print(y)

    x=x.to_dict(orient="records") # df转字典 字典进行字典的那个处理

    vector1=DictVectorizer(sparse=False)

    x=vector1.fit_transform(x)

    x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=666,train_size=0.8)

    scaler1=StandardScaler()

    x_train_stand=scaler1.fit_transform(x_train)

    x_test_stand=scaler1.transform(x_test)

    forest1=RandomForestClassifier(n_estimators=100,criterion="gini",max_depth=3)

    model1=forest1.fit(x_train_stand,y_train)

    score1=model1.score(x_test_stand,y_test)

    print(score1)

    pass


 

if __name__=="__main__":

    random_forest1()

    pass



 


http://www.ppmy.cn/ops/135180.html

相关文章

如何通过统计来反映工业新产业发展情况

工业战略性新兴产业对经济全局和长远发展具有重大引领带动作用&#xff0c;如何通过统计来反映工业新产业发展情况&#xff1f; 战略性新兴产业是以重大技术突破和重大发展需求为基础&#xff0c;对经济社会全局和长远发展具有重大引领带动作用&#xff0c;知识技术密集、物质…

使用 Keras 训练一个循环神经网络(RNN)

在前面的文章中&#xff0c;我们介绍了如何使用 Keras 训练全连接神经网络&#xff08;MLP&#xff09;和卷积神经网络&#xff08;CNN&#xff09;。本文将带你深入学习如何使用 Keras 构建和训练一个循环神经网络&#xff08;RNN&#xff09;&#xff0c;用于处理序列数据。我…

Ubuntu Linux使用前准备动作 安装vim编辑工具

Ubuntu Linux 默认没有安装 vim 工具&#xff0c;但它自带了一个简化版的 vi 编辑器。 vi 编辑器和 vim 编辑器有相似之处&#xff0c;不过 vim 功能更加强大&#xff0c;如语法高亮、多级撤销、代码补全等功能是 vim 独有的。如果需要使用 vim&#xff0c;可以通过系统自带的软…

[前端面试]HTML AND CSS

HTML html语义化标签的理解 是什么: 在布局页面的时候&#xff0c;根据内容的结构与含义&#xff0c;选择合适的带语义的html标签 如header&#xff0c;footer&#xff0c;nav&#xff0c;article&#xff0c;main&#xff0c;aside&#xff0c;h标签等 好处&#xff1a; 增…

高级java每日一道面试题-2024年11月12日-框架篇[SpringBoot篇]-SpringBoot中的监视器是什么?

如果有遗漏,评论区告诉我进行补充 面试官: SpringBoot中的监视器是什么? 我回答: 一、监视器的概念 在SpringBoot中&#xff0c;监视器是一种用于监视应用程序运行状态和性能的组件。它可以收集关于应用程序的各种指标和统计数据&#xff0c;并将其展示在一个可视化的仪表…

0x00基础算法 -- 0x06 倍增

资料来源&#xff1a;算法竞赛进阶指南活动 - AcWing 1、倍增 倍增&#xff1a;"成倍增长"&#xff0c;指进行递推时&#xff0c;如果状态空间很大&#xff0c;通常的线性递推无法满足时间和空间复杂度的要求&#xff0c;就可以通过成倍增长的方式&#xff0c;只递推…

推荐一个基于协程的C++(lua)游戏服务器

1.跨平台 支持win,mac,linux等多个操作系统 2.协程系统 使用汇编实现的上下文模块&#xff0c;C模块实现的协程调度器&#xff0c;使用共享栈&#xff0c;支持开启上千万协程&#xff0c;一个协程大概使用2000字节 3.rpc系统 强大的rpc系统&#xff0c;功能模块可以使用c或…

天童美语:下元节将至

下元节一个重要的传统节日&#xff0c;时间在农历十月十五。下元节跟上元节和中元节一起&#xff0c;构成了、中国的“三元”节日。上元节就是元宵节&#xff0c;中元节就是鬼节&#xff0c;而下元节&#xff0c;就是用来祈福和祭祀的。今天跟合肥天童美语一起了解一下吧&#…