sklearn机器学习实战

ops/2024/11/2 12:19:58/

1.PCA降维

不是每个数据特征对分析的问题都有用。即使有用,对问题的重要程度也不一样。而我们需要过滤和筛选一些特征,去除冗余。

数据降维是指采取某种映射方法,把高维空间中可能包含冗余信息和噪声的数据点映射到低维空间,在低维空间重新表示高维空间中的数据,挖掘数据内部本质结构特征,提高识别精度、减少计算量和空间复杂度。

PCA主成分分析,通过对矩阵进行奇异值分解,并期望在投影后的维度上方差最大,使得投影后的维度尽可能少,同时保留尽可能多的原数据特征。

pca = PCA(n_components=None, whiten=False, svd_solver='auto', iterated_power='auto', random_state=None)

其中:

· n_components指定要保留的成分的数量。

· svd设置奇异值分解的方法,如auto, full, arpack, randomized.

PCA对象的常用属性:

pca.components_:表示特征空间中的主成分,表示数据中最大方差的方向。

常用方法:

· fit(X):用X训练模型。

· fit_transform(X):用X拟合模型,并对X降维。

· transform(X):对X进行降维。

2.交叉验证 CV

确定模型后,应该设置合适的模型参数。

为了对模型进行评估,不同的数据集划分会影响结果。因此可以使用不同的划分评估并求平均值。

crossvalidation交叉验证,会反复划分数据集并评估模型。//相当于就直接train了然后直接求score。

cross_val_score(estimator, X, y=None, cv=None)

其中:

· estimator指定被评估的模型。

· X和y指定数据集和对应的label。

· cv指定划分策略,设置为整数时表示把数据集拆成几个部分对模型进行训练和评分、设置为None默认使用3折叠交叉验证。

scores = cross_val_score(..., cv=shuffleSpilt(test size=, train size=, n_splits=)) //交叉验证 随机拆分

3.网格搜索

代替多次交叉验证取得最优参数的过程。

gscv = GridSearchCV(estimator, paramgrid, scoring=None, fit_params=None, cv=None, refit=True)

其中:

· estimator用来设置待选择参数的模型。

· param设置待测试和选择的参数。

· scoring设置选择参数的评分函数。

· cv同上。

· refit设置是否使用在整个数据集上发现的最佳参数对模型进行重新拟合。

GridSearchCV类对象的属性:

· cv_results:交叉验证结果。

· best_estimator:得分最高的模型。

· best_score:最佳模型的平均得分。

· best_params:最佳参数。

· scorer:使用的评分函数。

· n_splits:交叉验证时折叠的数量。

~的方法:

· fit(X, y=None):使用所有参数拟合模型。

· predict(X):使用最佳参数调用模型的predict()方法。

· score(X, y=None):返回模型在指定数据上的得分。

· transform(X):使用最佳参数调用模型的transform()方法。


http://www.ppmy.cn/ops/130419.html

相关文章

Javaweb 实验4 xml

我发现了有些人喜欢静静看博客不聊天呐, 但是ta会点赞。 这样的人呢帅气低调有内涵, 美丽大方很优雅。 说的就是你, 不用再怀疑哦 实验四 XML 目的: 安装和使用XML的开发环境认识XML的不同类型掌握XML文档的基本语法了解D…

【生物学&水族馆】观赏淡水鱼检测系统源码&数据集全套:改进yolo11-dysample

改进yolo11-SEAMHead等200全套创新点大全:观赏淡水鱼检测系统源码&数据集全套 1.图片效果展示 项目来源 人工智能促进会 2024.11.01 注意:由于项目一直在更新迭代,上面“1.图片效果展示”和“2.视频效果展示”展示的系统图片或者…

Vue--单文件组件

前置学习&#xff1a;模块化 单文件组件&#xff1a;整个文件就是一个组件(.vue)&#xff0c;将组件导出 整体项目结构 school.vue <template><div>{{name}}</div> </template><script> export default {name:"school",data(){retu…

Llama 3.2 Vision Molmo:多模态开源生态系统基础

编者按&#xff1a; 视觉功能的融入对模型能力和推理方式的影响如何&#xff1f;当我们需要一个既能看懂图像、又能生成文本的 AI 助手时&#xff0c;是否只能依赖于 GPT-4V 这样的闭源解决方案&#xff1f; 我们今天为大家分享的这篇文章&#xff0c;作者的核心观点是&#xf…

yarn : 无法加载文件,未对文件 进行数字签名。无法在当前系统上运行该脚本。

执行这个命令时报错&#xff1a;yarn --registryhttps://registry.npm.taobao.org yarn : 无法加载文件 C:\Users\Administrator\AppData\Roaming\npm\yarn.ps1。未对文件 C:\Users\Administ rator\AppData\Roaming\npm\yarn.ps1 进行数字签名。无法在当前系统上运行该脚本。有…

LINUX下使用SQLite查看.db数据库文件

目录 1. 安装 SQLite 对于 Debian/Ubuntu 系统&#xff1a; 2.安装完成后操作 打开 SQLite 命令行工具并连接到数据库文件 查看表结构 查询表中的数据 执行其他 SQL 操作 3. 退出 SQLite 命令行工具 4. 使用图形化工具&#xff08;可选&#xff09; 总结 在 Linux 环…

【UGUI】为射击游戏添加动态显示的分数和血量到UI界面

项目背景 在这个项目中&#xff0c;我们希望实现一个简单的游戏系统&#xff0c;其中玩家可以通过击中目标来获得分数&#xff0c;同时通过与怪物碰撞来减少血量。分数和血量需要在游戏界面上实时显示&#xff0c;以便玩家能够随时了解自己的状态。 技术实现 1. 静态变量的使…

下行物理信号之CRS/DMRS/PT-RS

5G学习笔记&#xff08;016&#xff09;——下行物理信号之CRS/DMRS/PT-RS(掉发整理) 信道状态指示参考信号&#xff0c;只有业务态可以测量。每个CSI-RS最大可配置32个端口 &#xff08;一&#xff09;、功率配置 NZP CSI-RS&#xff1a;非零功率 .CSI获取&#xff1a;用于信…