机器学习06 数据准备-(利用 scikit-learn基于Pima Indian数据集作 数据特征选定)

news/2025/1/12 1:49:45/

什么是数据特征选定?

数据特征选定(Feature Selection)是指从原始数据中选择最相关、最有用的特征,用于构建机器学习模型。特征选定是机器学习流程中非常重要的一步,它直接影响模型的性能和泛化能力。通过选择最重要的特征,可以减少模型的复杂性,降低过拟合的风险,并提高模型的训练和预测效率。

特征选定的过程可以采用以下一些常见的方法:

  1. 相关性分析:通过计算特征与目标变量之间的相关性,选择与目标变量高度相关的特征。可以使用相关系数、互信息等指标进行相关性分析。

  2. 特征重要性评估:对于一些机器学习模型(如决策树、随机森林、梯度提升树等),可以通过模型训练过程中特征的重要性评估来选择重要的特征。

  3. 方差选择:选择方差大于某个阈值的特征,过滤掉方差较小的特征,认为方差较小的特征对目标变量的影响较小。

  4. 正则化方法:使用正则化方法(如L1正则化、L2正则化)进行特征选择,通过加入正则化项来惩罚特征的权重,从而使得部分特征的权重变为零,实现特征选择。

  5. 基于模型的特征选择:使用某些机器学习模型(如递归特征消除、稳定性选择等)来评估特征的重要性,并选择最重要的特征。

  6. 基于特征工程的选择:通过领域知识和数据理解来选择最相关的特征,例如选择与问题背景相关的特征、选择对目标变量具有影响的特征等。

特征选定需要结合具体的数据和任务来进行,没有一种通用的方法适用于所有情况。选择合适的特征是一个迭代的过程,通常需要尝试不同的方法和参数来找到最佳的特征子集。重要的是要保持合理的特征维度,确保所选特征能够充分表达数据的信息,并且对于给定的机器学习任务是有效的。

在做数据挖掘和数据分析时,数据是所有问题的基础,并且会影响整个项目的进程。相较于使用一些复杂的算法,灵活地处理数据经常会取到意想不到的效果。

而处理数据不可避免地会使用到特征工程。那么特征工程是什么呢?有这么一句话在业界广为流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

因此,特征过程的本质就是一项工程活动,目的是最大限度地从原始数据中提取合适的特征,以供算法和模型使用。特征处理是特征工程的核心部分,scikit-learn 提供了较为完整的特征处理方法,包括数据预处理、特征选择、降维等。

通过 scikit-learn来自动选择用于建立机器学习模型的数据特征的方法。接下来将会介绍以下四个数据特征选择的方法:

· 单变量特征选定。
· 递归特征消除。
· 主要成分分析。
· 特征的重要性。

特征选定

特征选定是一个流程,能够选择有助于提高预测结果准确度的特征数据,或者有助于发现我们感兴趣的输出结果的特征数据。如果数据中包含无关的特征属性,会降低算法的准确度,对预测新数据造成干扰,尤其是线性相关算法(如线性回归算法和逻辑回归算法)。

因此,在开始建立模型之前,执行特征选定有助于:

  1. 降低数据的拟合度:较少的冗余数据,会使算法得出结论的机会更大。
  2. 提高算法精度:较少的误导数据,能够提高算法的准确度。
  3. 减少训练时间:越少的数据,训练模型所需要的时间越少。

可以在 scikit-learn 的特征选定文档中查看更多的信息(http://scikitlearn.org/stable/modules/feature_selection.html)。下面我们会继续使用PimaIndians的数据集来进行演示。

代码如下:

import pandas as pd
from numpy import set_printoptions
from sklearn.feature_selection import chi2, SelectKBest#数据预处理
path = 'D:\down\\archive\\diabetes.csv'
data = pd.read_csv(path)
#将数据转成数组
array = data.values
#分割数据
X = array[:, 0:8]
Y=array[:,8]#选择K个最好的特征,返回选择特征后的数据
test = SelectKBest(score_func=chi2, k=4)
#fit()方法,计算X中各个特征的相关性
fit = test.fit(X, Y)
#设置数据打印格式
set_printoptions(precision=3)print(fit.scores_)
#得分越高,特征越重要
features = fit.transform(X)
#显示特征
print(features)

执行结束后,我们得到了卡方检验对每一个数据特征的评分,以及得
分最高的四个数据特征。执行结果如下:

[ 111.52  1411.887   17.605   53.108 2175.565  127.669    5.393  181.304]
[[148.    0.   33.6  50. ][ 85.    0.   26.6  31. ][183.    0.   23.3  32. ]...[121.  112.   26.2  30. ][126.    0.   30.1  47. ][ 93.    0.   30.4  23. ]]

从这组数据中我们可以分析出得分最高 的分别是血糖,胰岛素含量,身体质量指数(BMI),年龄

通过设置SelectKBest的score_func参数,SelectKBest不仅可以执行卡方检验来选择数据特征,还可以通过相关系数、互信息法等统计方法来选定数据特征

递归特征消除

递归特征消除(RFE)使用一个基模型来进行多轮训练,每轮训练后消除若干权值系数的特征,再基于新的特征集进行下一轮训练。通过每一个基模型的精度,找到对最终的预测结果影响最大的数据特征。

在 scikitlearn 文档中有更多的关于递归特征消除(RFE)的描述。下面的例子是以逻辑回归算法为基模型,通过递归特征消除来选定对预测结果影响最大的三个数据特征。

代码如下:

import pandas as pd
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression#数据预处理
path = 'D:\down\\archive\\diabetes.csv'
data = pd.read_csv(path)#打印标签名称
print(data.columns)#将数据转成数组
array = data.values
#分割数据,去掉最后一个标签
X = array[:, 0:8]Y = array[:, 8]
#特征选择
model = LogisticRegression()
#递归特征消除法,返回特征选择后的数据
rfe = RFE(model)
#拟合数据
fit = rfe.fit(X, Y)print("特征个数:", fit.n_features_)
print("被选特征:", fit.support_)print("特征排名:", fit.ranking_)

运行结果:

特征个数: 4
被选特征: [ True  True False False False  True  True False]
特征排名: [1 1 3 4 5 1 1 2]

主要成分分析

主要成分分析(PCA)是使用线性代数来转换压缩数据,通常被称作数据降维。

常见的降维方法除了主要成分分析(PCA),还有线性判别分析(LDA),它本身也是一个分类模型。PCA 和 LDA 有很多的相似之处,其本质是将原始的样本映射到维度更低的样本空间中,但是PCA和LDA的映射目标不一样:PCA是为了让映射后的样本具有最大的发散性;而 LDA 是为了让映射后的样本有最好的分类性能。

所以说,PCA 是一种无监督的降维方法,而LDA是一种有监督的降维方法。在聚类算法中,通常会利用PCA对数据进行降维处理,以利于对数据的简化分析和可视化。

详细内容请参考 scikit-learn的API文档。代码如下:

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression#数据预处理
path = 'D:\down\\archive\\diabetes.csv'
data = pd.read_csv(path)#打印标签名称
print(data.columns)#将数据转成数组
array = data.values
#分割数据,去掉最后一个标签
X = array[:, 0:8]Y = array[:, 8]pca = PCA(n_components=4)fit = pca.fit(X)print("方差:", fit.explained_variance_ratio_)print(fit.components_)
方差: [0.88854663 0.06159078 0.02579012 0.01308614]
[[-2.02176587e-03  9.78115765e-02  1.60930503e-02  6.07566861e-029.93110844e-01  1.40108085e-02  5.37167919e-04 -3.56474430e-03][-2.26488861e-02 -9.72210040e-01 -1.41909330e-01  5.78614699e-029.46266913e-02 -4.69729766e-02 -8.16804621e-04 -1.40168181e-01][-2.24649003e-02  1.43428710e-01 -9.22467192e-01 -3.07013055e-012.09773019e-02 -1.32444542e-01 -6.39983017e-04 -1.25454310e-01][-4.90459604e-02  1.19830016e-01 -2.62742788e-01  8.84369380e-01-6.55503615e-02  1.92801728e-01  2.69908637e-03 -3.01024330e-01]]

没感觉,看不懂这个结果数据是怎么去进行分析的,先知道有这么个东西,后面再来补充

特征重要性

袋装决策树算法(Bagged Decision Tress)、随机森林算法和极端随机 树算法都可以用来计算数据特征的重要性。

这三个算法都是集成算法中的袋装算法,在后面的集成算法章节会有详细的介绍。下面给出一个使用ExtraTreesClassifier类进行特征的重要性计算的例子。

代码如下:

import pandas as pdfrom sklearn.ensemble import ExtraTreesClassifier#数据预处理
path = 'D:\down\\archive\\diabetes.csv'
data = pd.read_csv(path)#打印标签名称
print(data.columns[0:8])#将数据转成数组
array = data.values
#分割数据,去掉最后一个标签
X = array[:, 0:8]Y = array[:, 8]model = ExtraTreesClassifier()fit = model.fit(X, Y)print(fit.feature_importances_)

运行结果:

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin','BMI', 'DiabetesPedigreeFunction', 'Age'],dtype='object')
[0.10886677 0.22739778 0.10066603 0.07878746 0.07515111 0.146191220.11598885 0.14695078]

执行后,我们可以看见算法给出了每一个数据特征的得分,从得分中我们可以分析 得分高的也是跟前面特征 血糖,BMI,年龄等


http://www.ppmy.cn/news/1003822.html

相关文章

go-zero超强工具goctl的常用命令api,rpc,model及其构建的服务解析

goctl api 详情移步: go-zero的路由机制解析 基于go-zero的api服务刨析并对比与gin的区别 goctl rpc goctl支持多种rpc,较为流行的是google开源的grpc,这里主要介绍goctl rpc protoc的代码生成与使用。 protoc是grpc的命令,作用…

【eNSP】静态路由

【eNSP】静态路由 原理网关路由表 实验根据图片连接模块配置路由器设备R1R2R3R4 配置PC的IP地址、掩码、网关PC1PC2PC3 配置静态路由查看路由表R1R2R3R4测试能否通信 原理 网关 网关与路由器地址相同,一般路由地址为.1或.254。 网关是当电脑发送的数据的目标IP不在…

Dockerfile构建MySQL镜像

创建工作目录 [rootlocalhost ~]# mkdir mysql [rootlocalhost ~]# cd mysql/ 编写Dockerfile文件 [rootlocalhost mysql]# vim Dockerfile FROM centos:7 MAINTAINER Crushlinux <crushlinux163.com> #安装mariadb数据库 RUN yum install -y mariadb mariadb-server mar…

配置root账户ssh免密登录并使用docker-machine构建docker服务

简介 Docker Machine是一种可以在多种平台上快速安装和维护docker运行环境&#xff0c;并支持多种平台&#xff0c;让用户可以在很短时间内在本地或云环境中搭建一套docker主机集群的工具。 使用docker-machine命令&#xff0c;可以启动、审查、停止、重启托管的docker 也可以…

MPP架构和Hadoop架构的区别

1. 架构的介绍 mpp架构是将许多数据库通过网络连接起来&#xff0c;相当于将一个个垂直系统横向连接&#xff0c;形成一个统一对外的服务的分布式数据库系统。每个节点由一个单机数据库系统独立管理和操作该物理机上的的所有资源&#xff08;CPU&#xff0c;内存等&#xff09…

SAP ABAP直接调用标准程序取数

项目上有时候会遇到一些报表开发&#xff0c;可能时基于MB51的凭证查询后处理&#xff0c;或基于库存清单进行操作。这种需求其实在FS和开发上是都可以简化的&#xff0c;直接调用标准的报表数据进行加工&#xff0c;后续方案的调整等等对功能影响较小。 调用代码模板 if IV_…

第四章 数据库安全性

问题的提出 &#xff08;1&#xff09;数据库的一大特点是数据可以共享 &#xff08;2&#xff09;数据共享必然带来数据库的安全性问题 &#xff08;3&#xff09;数据库系统中的数据共享不能是无条件的共享 这就引发了数据库安全性问题 1.数据库安全性概述 数据库的安全性…

Hutool中 常用的工具类和方法

文章目录 日期时间工具类 DateUtil日期时间对象-DateTime类型转换工具类 Convert字符串工具类 StrUtil数字处理工具类 NumberUtilJavaBean的工具类 BeanUtil集合操作的工具类 CollUtilMap操作工具类 MapUtil数组工具-ArrayUtil唯一ID工具-IdUtilIO工具类-IoUtil加密解密工具类 …