机器学习-特征降维

server/2024/9/24 13:22:16/

特征降维

  • 特征降维
    • 1. 简介
    • 2. 常用方法

特征降维

1. 简介

"""
原因用于训练的数据集包含一些不重要的特征, 可能导致模型泛化性能不佳
目的在某些限定条件下,降低特征个数
"""

2. 常用方法

"""
常用方法: 1 .低方差过滤法指删除方差低于某些阈值的一些特征特征方差小:特征值的波动范围小, 包含的信息少, 模型学习的信息少特征方差大:特征值的波动范围大, 包含的信息相对丰富, 便于模型进行学习APIsklearn.feature_selection.VarianceThreshold(threshold = 0.0)实例化对象用于删除所有低方差特征variance_obj.fit_transform(X)X:numpy array格式的数据[n_samples,n_features]返回值:训练集差异低于threshold的特征将被删除默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征2. PCA(主成分分析) 降维法PCA 通过对数据维数进行压缩,尽可能降低原数据的维数(复杂度)损失少量信息,在此过程中可能会舍弃原有数据、创造新的变量APIsklearn.decomposition.PCA(n_components=None)将数据分解为较低维数空间n_components: 小数表示保留百分之多少的信息;整数表示减少到多少特征 eg:由20个特征减少到10个mypcaobj.fit_transform(X)返回值:转换后指定维度的array3. 相关系数(皮尔逊相关系数, 斯皮尔曼相关系数)引用原因相关系数:反映特征列之间(变量之间)密切相关程度的统计指标常见2个相关系数:皮尔逊相关系数、斯皮尔曼相关系数性质当 r > 0 时,表示两变量正相关,r < 0 时,两变量为负相关当 |r| = 1 时,表示两变量为完全相关,当r = 0时,表示两变量间无相关关系当 0 < |r| < 1时,表示两变量存在一定程度的相关 且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱相关度划分|r| <0.4为低度相关0.4≤ |r| <0.7为显著性相关0.7 ≤ |r| <1为高度线性相关皮尔逊相关系数斯皮尔曼相关系数n为等级个数,d为成对变量的等级差数
"""
# 1.导入依赖包
from sklearn.decomposition import PCA
from sklearn.datasets import load_irisdef pcaDemo():# 2. 加载数据集x, y = load_iris(return_X_y=True)print(x.size)# 3. PCA,保留指定比例的信息transformer = PCA(n_components=0.98)x_pca = transformer.fit_transform(x)print(x_pca.size)# 4. PCA,保留指定数量特征transformer = PCA(n_components=2)x_pca = transformer.fit_transform(x)print(x_pca.size)# 1.导入依赖包
import pandas as pd
from sklearn.feature_selection import VarianceThreshold
from scipy.stats import pearsonr
from scipy.stats import spearmanr
from sklearn.datasets import load_irisdef coefficientDemo():# 2.读取数据集(鸢尾花数据集)data = load_iris()data = pd.DataFrame(data.data, columns=data.feature_names)# 3. 皮尔逊相关系数corr = pearsonr(data['sepal length (cm)'], data['sepal width (cm)'])print(corr, '皮尔逊相关系数:', corr[0], '不相关性概率:', corr[1])# (-0.11756978413300204, 0.15189826071144918) 皮尔逊相关系数: -0.11756978413300204 不相关性概率: 0.15189826071144918# 4. 斯皮尔曼相关系数corr = spearmanr(data['sepal length (cm)'], data['sepal width (cm)'])print(corr, '斯皮尔曼相关系数:', corr[0], '不相关性概率:', corr[1])# SpearmanrResult(correlation=-0.166777658283235, pvalue=0.04136799424884587) 斯皮尔曼相关系数: -0.166777658283235 不相关性概率: 0.04136799424884587

皮尔逊相关系数公式
在这里插入图片描述
斯皮尔曼相关系数

在这里插入图片描述


http://www.ppmy.cn/server/97807.html

相关文章

C#知识|文件与目录操作:对象的创建、保存、读取

哈喽&#xff0c;你好啊&#xff0c;我是雷工&#xff01; 面向对象编程的特点就是一切皆对象&#xff0c;操作的也是对象&#xff0c;本节学习文件与目录操作中&#xff0c;对象的保存&#xff1b; 以下为学习笔记。 01 对象的特点 ①&#xff1a;对象运行在内存中&#xff…

SDF Marching Cubes Ray-marching Teahouse

SDF & Marching Cubes & Ray-marching SDF SDF(Signed Distance Field)有向距离场。SDF是由到&#xff08;多边形模型&#xff09;物体表面最近距离的采样网格。作为惯例&#xff0c;使用负值来表示物体内部&#xff0c;使用正值表示物体外部。 Marching Cubes marc…

YOLO:使用labelme进行图片数据标签制作,并转换为YOLO格式

作者&#xff1a;CSDN _养乐多_ 本文将介绍如何使用 labelme 进行图片数据标签制作的方法&#xff0c;并将标签的格式从 JSON 格式转换为 YOLO 格式。 文章目录 一、安装labelme二、使用流程三、json格式转为YOLO格式四、按比例划分数据集&#xff08;训练、验证、测试&#…

flutter组件分类

flutter组件分类 一、基础组件 文本样式 Text:用于显示简单样式文本 textAlign:文本的对齐方式maxLines:指定文本显示的最大行数overflow:指定文本截断方式textScaleFactor:文本缩放因子,主要是用于系统字体大小设置改变时对 Flutter 应用字体进行全局调整TextStyle:指…

海风小店微信商城小程序附后端一款免费开源的小程序源码

该商城小程序服务端api基于node.jsThinkJSMySQL&#xff0c;如果对这个不大熟悉的人&#xff0c; 可能有那么一点难度&#xff0c;但是如果只是搭建的话&#xff0c;作者的教程还是比较详细的&#xff0c;而且搭建步骤比较简单&#xff0c; 应该很容易上手&#xff0c;如果你…

ChatMoneyAI挑战高考英语作文,3秒即生成

本文由 ChatMoney团队出品 在科技日新月异的今天&#xff0c;人工智能&#xff08;AI&#xff09;已不再是遥不可及的未来科技&#xff0c;而是逐渐融入我们日常生活的实用工具。从智能语音助手到自动驾驶汽车&#xff0c;从智能家居系统到精准医疗诊断&#xff0c;AI技术正以其…

RAG私域问答场景超级详细方案(第一期方案)[1]:工业级别构建私域问答(知识处理、知识召回排序、搜索问答模块)

RAG私域问答场景整体夏详细方案(第一期方案):工业级别构建私域问答(知识处理、知识召回排序、搜索问答模块) 大模型性能的跳阶式增长给文本摘要、信息检索、信息抽取、语义问答等自然语言处理任务带来了卓越的性能提升。同时,LangChain 作为一种基于 LLM 的框架,能够快速…

MySQL笔记(九):存储引擎

一、介绍 二、演示 Memory的使用场景&#xff1a; 例如网吧&#xff0c;用户再次上线时会更新状态 #表类型和存储引擎-- 查看所有的存储引擎SHOW ENGINES; -- 1、innodb 支持事务&#xff0c;外键&#xff0c;行级锁-- 2、myisam CREATE TABLE t31(id INT,name VARCHAR(32)) …