数据挖掘实战(以kaggle为例)

news/2025/2/13 15:50:12/

第一课

主要分为以下内容进行讲述
在这里插入图片描述

机器学习工业应用领域

在这里插入图片描述

机器学习常用算法

在这里插入图片描述

在这里插入图片描述

机器学习常用工具

在这里插入图片描述

解决问题流程

数据的处理比模型更为重要
老师的博客,内容很详细
在这里插入图片描述

数据预处理

有时候可以一个feature一个feature去做
在这里插入图片描述

特征工程

在这里插入图片描述
在这里插入图片描述

模型选择

在这里插入图片描述
在这里插入图片描述

模型状态评估

在这里插入图片描述
在这里插入图片描述

模型融合

在这里插入图片描述

Bagging是一种集成学习(Ensemble Learning)的技术,全称为“Bootstrap Aggregating”。它是通过构建多个相互独立的基本模型(通常是决策树或其他分类器),然后通过对基本模型的预测结果进行投票或平均来进行最终预测的技术。

在Bagging中,采用自助法(bootstrap)从原始训练集中有放回地随机抽取多个样本(可重复抽样),构建多个训练集,每个训练集与原始训练集的大小相同。然后,使用每个训练集独立训练一个基本模型。最后,将这些基本模型的预测结果进行组合,通常通过投票或平均来生成最终的预测结果。

Bagging的优点包括:

降低模型的方差:通过构建多个基本模型并进行组合,可以降低模型的方差,减少过拟合的风险。

提高模型的鲁棒性:由于基本模型是相互独立训练的,因此对于数据的扰动和噪声具有一定的鲁棒性。

增加预测的准确性:通过集成多个基本模型的预测结果,可以提高整体的预测准确性和稳定性。

可以并行化处理:由于基本模型相互独立,因此可以并行训练和预测,提高计算效率。

常见的Bagging算法包括随机森林(Random Forest)和袋装决策树(Bagged Decision Trees),它们基于决策树进行集成学习。Bagging在各种机器学习任务中被广泛应用,并取得了良好的效果。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Boosting是一种集成学习(Ensemble Learning)的技术,用于通过组合多个弱学习器来构建一个强大的学习器。与Bagging不同,Boosting是通过顺序训练一系列的基本模型(通常是决策树或其他分类器),每个基本模型都试图纠正前一个模型的错误。

Boosting的基本思想是通过迭代训练一系列的弱学习器,每次训练都会调整样本的权重,使得前一个模型预测错误的样本在下一轮中得到更多的关注。在每一轮训练中,基本模型都会根据前一轮的预测结果来调整样本的权重,并尽可能减少上一轮预测错误的样本的权重。

Boosting的主要过程如下:

初始化样本权重:开始时,将所有样本的权重初始化为相等值。

迭代训练基本模型:通过迭代训练一系列的基本模型,每个模型都根据当前样本权重进行训练。

调整样本权重:在每一轮训练后,根据前一轮的预测结果来调整样本的权重,使得前一轮预测错误的样本在下一轮中获得更高的权重。

组合基本模型:将所有基本模型的预测结果进行加权组合,通常采用加权投票或加权平均的方式得到最终的预测结果。

Boosting的优点包括:

提高模型的准确性:通过迭代训练一系列的基本模型,Boosting可以逐步减少预测错误,提高整体的预测准确性。

自适应学习:Boosting通过调整样本权重来关注前一轮预测错误的样本,从而使得模型能够适应数据的特点和难易程度。

可以处理高维度数据:Boosting能够有效地处理高维度数据,对于特征维度较高的问题具有较好的适应性。

常见的Boosting算法包括Adaboost(Adaptive Boosting)和梯度提升树(Gradient Boosting Tree),它们在各种机器学习任务中被广泛应用,并取得了良好的效果。Boosting在处理复杂任务和大规模数据集时具有很强的表现能力。在这里插入图片描述


http://www.ppmy.cn/news/103450.html

相关文章

【行为型】迭代器模式

代码 package com.fly.patterns.iterator;/*** author fei.chen* projectName design-patterns* description: 只声明一个方法,为了建立一个可对应聚合的Iterator* date 2023/5/29下午 4:08*/ public interface Aggregate {/*** 在进行递增、遍历或者检查某个聚合时…

CASA模型NPP及碳源、碳汇模拟

CASA模型 CASA模型是一个基于过程的遥感模型(Potteret al,1993;Potter et al,1994),耦合了生态系统生产力和土壤碳、氮通量,由网格化的全球气候、辐射、土壤和遥感植被指数数据集驱动。模型包括土壤有机物、微量气体通…

mpi4py和pytorch求解含参优化控制问题-几何参数

含参优化控制问题数学模型 下面三行代码分别表示: 代码运行,–para 2表示选择第二种并行策略 查看运行情况 杀死命令 nohup mpiexec -n 8 python hpann.py --para 2 >> hmpi.log 2>&1 & ps -ef | grep python ps -ef | grep python | awk {print $2} |

MyBatis参数传递(提供ParamNameResolver类来进行参数封装)源码分析

MyBatis接口方法中可以接收各种各样的参数,MyBatis底层对于这些参数进行不同的封装处理方式。 单个参数:实体类、Map集合、Collection、List、Array以及其他类型。 多个参数:Param注解定义的名称要与sql语句中参数占位符中的名称相同。 这里…

detectron2 使用教程

本范例演示使用非常有名的目标检测框架detectron2 🤗🤗 在自己的数据集(balloon数据)上训练实例分割模型MaskRCNN的方法。 detectron2框架的设计有以下一些优点: 1,强大:提供了包括目标检测、实例分割、全景分割等非常广泛的视觉任务模型库。 2,灵活:可以通过注册机…

JavaScript中常用的正则表达式运算符

前言:正则表达式是一种非常好用的工具,帮助开发人员在开发时,处理字符串时更加高效和灵活;它最大的用处就是在字符串操作中,可以让开发人员快速的字符串匹配、搜索、替换、验证和提取等操作。 文章目录: ^…

3d虚拟主播形象能提升提升企业销售额

随着科技的不断进步和发展,虚拟人形象正在被广泛地应用于商业宣传中。3D虚拟人形象是指采用计算机图形学、人工智能等技术,模拟真实人类形象的虚拟形象。相比于传统产品营销方式,采用3D虚拟人形象进行产品交互讲解对提升企业销售额具有很多优…

RocketMQ实现一个简单的秒杀接口

预设场景: “秒杀”这一词多半出现在购物方面,但是又不单单只是购物,比如12306购票和学校抢课(大学生的痛苦)也可以看成一个秒杀。秒杀应该是一个“三高”,这个三高不是指高血脂,高血压和高血糖…