【集成学习】Bootstrap抽样

news/2025/1/11 20:21:29/

机器学习中,集成学习(Ensemble Learning)是一种通过组合多个模型来提高预测性能的技术。常见的集成学习方法包括Bagging、Boosting、Stacking等。而Bootstrap抽样(Bootstrap Sampling)是集成学习中非常重要的一种技术,尤其是在Bagging(Bootstrap Aggregating)算法中得到了广泛应用。本文将从基本概念出发,详细介绍Bootstrap抽样的原理、在集成学习中的应用以及其优势。

1. 什么是Bootstrap抽样?

Bootstrap抽样是一种通过对原始数据集进行有放回的随机抽样,生成多个训练子集的技术。与传统的简单随机抽样不同,Bootstrap抽样允许同一个样本在抽样过程中被选中多次,也可能有样本完全未被选中。由于有放回抽样的特性,生成的子集会包含一定的重复数据。

Bootstrap抽样过程:

  • 从原始数据集随机抽取样本(允许重复),形成一个新的子集,大小与原始数据集相同
  • 重复此过程多次,生成多个不同的子集
  • 每个子集用于训练一个基学习器(例如决策树)
  • 所有基学习器的预测结果通过某种方式(如平均或投票)进行组合,得出最终的预测结果

事实证明,在自助法(bootstrapping)过程中,平均而言只有大约 63% 的样本被选中。而在树构建过程中未被使用的样本称为袋外样本(Out-Of-Bag, OOB)

2. Bootstrap抽样在集成学习中的应用

Bootstrap抽样在集成学习中的典型应用是Bagging算法。Bagging是Bootstrap抽样的一个具体实现,旨在通过组合多个基学习器的预测结果来提高整体模型的性能。

Bagging中的Bootstrap抽样:

  • 使用Bootstrap抽样生成多个子集,训练多个模型(通常是相同类型的基学习器)。
  • 对于分类任务,通常采用投票方式进行预测;对于回归任务,通常采用平均值。
  • 由于每个模型都是在不同的数据子集上训练的,因此它们的预测结果具有较低的相关性,能够有效地降低模型的方差。

3. 为什么平均而言只有大约 63% 的样本被选中

假设我们有 n 个观测值。那么未被选中的概率为:
P = n − 1 n P = \frac {n-1}{n} P=nn1

如果我们进行 n 次有放回的抽样,那么某个观测值被选中的概率是:
( n − 1 n ) n (\frac{n-1}{n})^n (nn1)n
在极限情况下(或者实际上,当 n 足够大时),结果大约为:
lim ⁡ n → ∞ ( n − 1 n ) n = e − 1 ≈ 0.368 \lim_{n \to \infty} (\frac {n-1}{n})^n = e^{-1} \approx 0.368 nlim(nn1)n=e10.368


http://www.ppmy.cn/news/1562319.html

相关文章

STM32裸机开发转FreeRTOS教程

目录 1. 简介2. RTOS设置(1)分配内存(2)查看任务剩余空间(3)使用osDelay 3. 队列的使用(1)创建队列(1)直接传值和指针传值(2)发送/接收…

车载音频开发(二):对音频数据作音量调节

通过前一个章节打下的基础车载音频开发(一):从看懂wav开始https://blog.csdn.net/Hellomino_/article/details/140873133?fromshareblogdetail&sharetypeblogdetail&sharerId140873133&sharereferPC&sharesourceHellomino_&…

Redis 性能优化 18招

前言 Redis在我们的日常开发工作中,使用频率非常高,已经变成了必不可少的技术之一。 Redis的使用场景也很多。 比如:保存用户登录态,做限流,做分布式锁,做缓存提升数据访问速度等等。 那么问题来了&…

TON 生态增长实战四城巡回压轴站—— 深圳站即将启动

2024 年,TON 生态迎来了前所未有的突破与成长,成为区块链领域不可忽视的力量。这一年,TON 的用户数增长至 1337 万,月活跃钱包数量达到 1240 万,生态总锁仓量(TVL)从年初的 53.7 万美元跃升至 7…

Linux-蓝牙协议

SPP (Serial Port Profile): 串口协议(SPP)是一个蓝牙配置文件,允许设备通过蓝牙模拟传统的串行端口通信。它通常用于无线串口连接,允许设备如计算机和外设(例如打印机或条形码扫描器)之间进行数据传输。A…

[Unity]发包前遇到的坑之GridLayoutGroup

发包前禁用了UI上面一个调试页面A后,发现无法正确获取某一个用了GridLayoutGroup组件的所有子物体的世界坐标。 一顿研究之后发现,在Start的时候想要正确获取其坐标,需要强制刷新一次布局,方法如下: UnityEngine.U…

培训机构Day27

今天看老师给我们实现了登录功能前后端实现,在不借助成熟框架来实现对于初学者来说难度确实很大。需要大量时间练习。 知识点: 设计模式:面向对象的语言。对某个特定领域特定场景问题的最佳解决方案。 1.单例模式。singleton。单个实例&…

分享几个高清无水印国外视频素材网站

在数字内容创作日益盛行的今天,高质量的视频素材成为了视频制作、广告创意和多媒体项目中不可或缺的元素。对于追求专业水准的创作者而言,高清、无水印的视频素材是确保作品质量的基石。以下将分享几个优质的视频素材网站,为您的创作之路提供…