【机器学习】集成学习的基本概念、Bagging和Boosting的区别以及集成学习方法在python中的运用(含python代码)

引言

集成学习是一种机器学习方法,它通过结合多个基本模型(通常称为“弱学习器”)来构建一个更加强大或更可靠的模型(“强学习器”)

文章目录

  • 引言
  • 一、集成学习
  • 二、Bagging和Boosting的区别
    • 2.1 Bagging(装袋)
      • 2.1.1 并行处理
      • 2.1.2 降低方差
      • 2.1.3 代表性算法
      • 2.1.4 投票/平均
      • 2.1.5 样本权重
    • 2.2 Boosting(提升)
      • 2.2.1 顺序处理
      • 2.2.2 降低偏差
      • 2.2.3 代表性算法
      • 2.2.4 加权投票/组合
      • 2.2.5 样本权重
    • 2.3 主要区别
    • 2.4 总结
  • 三、集成学习python中的实例
    • 3.1 使用随机森林(Random Forest)
    • 3.2 使用AdaBoost
    • 3.3 代码解释

在这里插入图片描述

一、集成学习

1.1 集成学习的核心思想

集成学习的目的是通过组合多个模型来提高预测的准确率或泛化能力。这种方法通常能够减少单个模型的偏差和方差,从而得到更好的性能

1.2 常见的集成学习方法

1.2.1 Bagging(装袋)

例如随机森林(Random Forest),它通过随机抽取样本和特征来构建多个独立的决策树,并通过投票或平均来聚合这些树的预测结果

1.2.2 Boosting(提升)

例如AdaBoost、XGBoost和LightGBM,这些方法通过迭代地训练模型来关注前一个模型错误分类的样本,每个新模型都尝试修正前一个模型的错误

1.2.3 Stacking(堆叠)

这种方法将多个不同的模型组合起来,通常包括两层模型,第一层是多个不同的基础模型,第二层是一个元模型,用于综合这些基础模型的输出

1.3 集成学习的优势

  • 提高预测性能集成学习通常能够获得比单个模型更好的预测结果
  • 降低过拟合风险:通过结合多个模型,可以减少单个模型可能出现的过拟合问题
  • 增强模型的泛化能力集成学习能够更好地处理未知数据

1.4 集成学习的挑战

  • 计算成本集成学习通常需要训练多个模型,因此计算成本较高
  • 模型复杂度:集成模型可能比单个模型更难以解释和理解

1.5 总结

集成学习在许多机器学习任务中都是一种非常有效的策略,尤其是在数据量较大、特征较多或者模型需要高度精确的情况下。通过合理地选择和组合不同的学习器,集成学习能够显著提升机器学习任务的性能

二、Bagging和Boosting的区别

Bagging(装袋)和Boosting(提升)都是集成学习的两种主要技术,但它们在方法和工作原理上存在显著差异

2.1 Bagging(装袋)

2.1.1 并行处理

Bagging通过随机抽样(通常是放回抽样)来构建多个独立的模型,这些模型可以并行训练

2.1.2 降低方差

Bagging主要用于降低模型的方差,特别是对于那些容易过拟合的模型来说效果显著

2.1.3 代表性算法

随机森林(Random Forest)是Bagging的一个典型实现,它通过随机选择特征子集来进一步引入多样性

2.1.4 投票/平均

在预测时,Bagging通常采用简单多数投票(对于分类问题)或平均(对于回归问题)来聚合各个模型的预测结果

2.1.5 样本权重

在Bagging中,每个样本的权重是相等的,因为每个模型都在整个数据集的不同子集上进行训练

2.2 Boosting(提升)

2.2.1 顺序处理

Boosting是一种顺序技术,每个新模型都是基于前一个模型的性能来训练的,通常关注于前一个模型错误分类的样本

2.2.2 降低偏差

Boosting主要用于减少模型的偏差,通过逐步聚焦于难分样本,最终组合出一个强学习器

2.2.3 代表性算法

AdaBoost、XGBoost和LightGBM都是Boosting技术的代表

2.2.4 加权投票/组合

在预测时,Boosting会给不同的模型分配不同的权重,这些权重通常基于模型在训练集上的表现

2.2.5 样本权重

Boosting会给训练样本分配不同的权重,随着迭代的进行,错误分类的样本权重会增加,使得后续的模型更加关注这些样本

2.3 主要区别

  • 样本使用方式:Bagging使用的是随机抽样,而Boosting会给样本分配不同的权重
  • 训练过程:Bagging的模型可以并行训练,而Boosting的模型需要顺序训练
  • 目的:Bagging主要用于降低模型的方差,而Boosting主要用于降低模型的偏差
  • 结果聚合:Bagging通常采用简单的投票或平均来聚合结果,而Boosting则根据模型的表现来加权聚合结果

2.4 总结

总的来说,Bagging和Boosting都是有效的集成学习策略,但它们适用的场景和解决问题的侧重点不同。在实际应用中,选择哪种技术取决于具体的数据集和问题

python_60">三、集成学习python中的实例

下面是一个使用Python中的scikit-learn库实现集成学习的简单实例。这个例子将展示如何使用随机森林(Bagging的一个实例)和AdaBoost(Boosting的一个实例)来对葡萄酒数据集进行分类

3.1 使用随机森林(Random Forest)

python">from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report# 加载数据集
wine = load_wine()
X, y = wine.data, wine.target# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建随机森林分类器
rf = RandomForestClassifier(n_estimators=100, random_state=42)# 训练模型
rf.fit(X_train, y_train)# 在测试集上进行预测
y_pred_rf = rf.predict(X_test)# 计算准确率
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f"随机森林准确率: {accuracy_rf:.2f}")# 输出分类报告
print("随机森林分类报告:\n", classification_report(y_test, y_pred_rf))

输出结果:
在这里插入图片描述

3.2 使用AdaBoost

python">from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
# 加载数据集
wine = load_wine()
X, y = wine.data, wine.target# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建决策树分类器作为基分类器
dt = DecisionTreeClassifier(max_depth=1)# 创建AdaBoost分类器
ada = AdaBoostClassifier(estimator=dt, n_estimators=50, random_state=42)# 训练模型
ada.fit(X_train, y_train)# 在测试集上进行预测
y_pred_ada = ada.predict(X_test)# 计算准确率
accuracy_ada = accuracy_score(y_test, y_pred_ada)
print(f"AdaBoost准确率: {accuracy_ada:.2f}")# 输出分类报告
print("AdaBoost分类报告:\n", classification_report(y_test, y_pred_ada))

输出结果:
在这里插入图片描述

3.3 代码解释

在这个例子中,我们首先使用随机森林对葡萄酒数据集进行分类,然后使用AdaBoost进行分类。两种方法都通过train_test_split函数划分了训练集和测试集,并使用accuracy_score函数计算了在测试集上的准确率

这些代码块提供了集成学习在Python中的基本用法,展示了如何使用Bagging和Boosting技术来构建分类器


http://www.ppmy.cn/devtools/106064.html

相关文章

基于R语言生物信息学大数据分析与绘图

随着高通量测序以及生物信息学的发展,R语言在生物大数据分析以及数据挖掘中发挥着越来越重要的作用。想要成为一名优秀的生物数据分析者与科研团队不可或缺的人才,除了掌握对生物大数据挖掘与分析技能之外,还要具备一定的统计分析能力与SCI论…

zdppy_cache缓存框架升级,支持用户级别的缓存隔离,支持超级管理员管理普通用户的缓存

启动服务 import zdppy_api as api import zdppy_cachekey1 "admin" key2 "admin"app api.Api(routes[*zdppy_cache.zdppy_api.cache(key1, key2, api) ])if __name__ __main__:import zdppy_uvicornzdppy_uvicorn.run(app, host"0.0.0.0",…

探访客户端外部请求如何进入k8s内部容器

k8s网络访问原理 假设有一个Kubernetes集群,其中包含三个节点,每个节点的宿主机IP分别是192.168.1.10、192.168.1.11和192.168.1.12。在集群中创建了一个NodePort类型的Service(名为my-service),Kubernetes为其分配了一…

【C++】将myString类中能够实现的操作都实现一遍

myString.h #ifndef MYSTERAM_H #define MYSTERAM_H #include <iostream> #include<cstring> using namespace std; class myString { private:char *str; //字符串int size; //字符串容量char error[20] "error"; public://无参构造myString():siz…

SAP MPS (主生产计划) 与 MRP (物料需求计划) 简介

SAP MPS 主生产计划 与 MRP 物料需求计划 简介 SAP 主生产计划 (MPS):SAP 物料需求计划 (MRP):MPS 与 MRP 的区别:业务场景前台操作演示1、物料主数据准备2、创建销售订单---VA013、运行MPS---MD404、查看物料需求---MD045、运行MRP---MD026、查看需求---MD047、总结SAP 主生产…

C++——二叉搜索树

1.二叉搜索树 在之前的文章中已经在C语言部分介绍过了二叉树的相关知识&#xff08;传送门&#xff09;&#xff0c;现在在已有的二叉树基础上接触一种新的规则的二叉树——搜索二叉树。未来我们将继续介绍AVL树、红黑树以及set、map容器&#xff0c;这都需要我们对二叉搜索树有…

月考成绩单发布,这样做既保密又迅速!

在实施“双减”政策之后&#xff0c;如何发布成绩单成为了教育工作者需要仔细考虑的问题。确保成绩单的发布既保护学生隐私&#xff0c;又高效便捷&#xff0c;是每位老师的责任。传统的纸质成绩单分发方式存在一定的风险和不便&#xff0c;例如成绩单可能丢失或成绩信息泄露。…

代码随想录算法day29 | 动态规划算法part02 | 62.不同路径,63. 不同路径 II

62.不同路径 力扣题目链接(opens new window) 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为 “Start” &#xff09;。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角&#xff08;在下图中标记为 “Finish” &#xff09;。 问…

高级算法设计与分析 学习笔记 2 希尔排序 线性时间内的排序——计数排序,基数排序,桶排序

希尔排序&#xff08;比较排序&#xff09; 要选定一个步长&#xff08;比如4&#xff09;&#xff0c;那么0&#xff0c;4&#xff0c;8……它们是一组&#xff0c;1&#xff0c;5&#xff0c;9……他们是一组。分组排完之后再换成2步长&#xff0c;最后改成1&#xff0c;就行…

Kafka分布式集群部署实战:跨越理论,直击生产环境部署难题与解决方案,性能调优、监控与管理策略大揭秘,轻松上手分布式消息中间件

本文介绍kafka的集群如何部署和安装&#xff0c;1-4章理论知识&#xff0c;第5章详解集群的部署&#xff0c;部署Kafka之前需要先部署好分布式的Zookeeper&#xff0c;不喜欢理论的可以直接看第5章&#xff0c;欢迎大家一起探讨技术&#xff01; Zookeeper集群部署参考文章&…

DCMM认证等级以及费用多少?

DCMM&#xff08;数据管理能力成熟度&#xff09;特别适合拥有较多数据量的组织、以及期望在初期就进行数据管理规范的组织。它旨在帮助组织对象发现自身问题&#xff0c;为数据管理能力的建设和提升指明方向。 DCMM将组织的数据管理划分为 8大能力域&#xff0c;细分为28个能…

说明书keithley2420吉时利2410数字源表

说明书keithley2420吉时利2410数字源表 产品概述 Keithley 2420 高压源表是一款 60W 仪器&#xff0c;设计用于提供和测量 5V&#xff08;源&#xff09;和 1V&#xff08;测量&#xff09;至 60V 的电压和 100pA 至 3A 的电流。2420 型的生产测试应用包括必须在更高电流水平下…

【Next】4. 全局通用布局快速搭建

笔记来源&#xff1a;编程导航 基础布局 Next.js 支持全局根布局&#xff08;每个页面都会生效&#xff09;以及嵌套布局&#xff08;可以只对部分页面生效&#xff09;&#xff0c;详情可 参考文档。 在 src 下新建 layouts 目录&#xff0c;用于存放项目中的各种布局。在该目…

PhpStorm 中配置调试功能的详尽指南

引言 调试是软件开发过程中至关重要的一部分。PhpStorm 作为一款被广泛使用的 PHP 集成开发环境&#xff08;IDE&#xff09;, 内置了强大的调试功能。为了帮助您有效地设置和使用这些功能&#xff0c;我们将详细介绍如何在 PhpStorm 中进行调试配置。 前提条件 在开始配置之…

注册中心 Eureka Nacos

文章目录 目录 文章目录 1. 什么是注册中心? 2.常见的注册中心 3 . Eureka 4 . Nacos 5 . Nacos与Eureka的区别 总结 1. 什么是注册中心? 在最初的架构体系中, 集群的概念还不那么流行, 且机器数量也比较少, 此时直接使用DNSNginx就可以满足几乎所有服务的发现. 相…

详解Vector(1)

Vector(1) Vector是表示大小可以改变的数组的序列容器。&#xff08;其实就是一个顺序表&#xff09; Vector是一个标准的模版&#xff0c;第一个模版参数是它要存什么数据类型&#xff0c;第二个参数可以先不关心。 构造函数&#xff1a; 析构函数&#xff1a; 它会自动调用…

【Windows】Pycharm配置GitBash终端并运行conda命令

原文连接&#xff1a;https://discuss.codecademy.com/t/setting-up-conda-in-git-bash/534473 总结来说就是&#xff1a;需要把conda.sh的路径放到配置文件.bashrc中 echo ". ${PWD}/conda.sh" >> ~/.bashrc

GNU的编译工具链

文章目录 GNU的编译工具链 GNU的编译工具链 预编译器cpp 编译器 cc1 汇编器 as 链接器 ld 其中cpp和cc1属于gcc的一部分&#xff0c;as和ld属于binutils的一部分。

科技信贷业务怎么寻找客户?

在科技信贷业务领域&#xff0c;寻找客户的痛点主要集中在以下几个方面&#xff1a; 1.风险评估难题&#xff1a;科技型企业尤其是初创企业&#xff0c;往往缺乏足够的历史数据和抵押物&#xff0c;这使得金融机构在评估其信用风险时面临较大挑战。由于科技企业的研发周期长、…