sklearn特征选取之RFE

news/2024/9/20 14:40:53/

sklearn.feature_selection.RFE 是一种递归特征消除(Recursive Feature Elimination, RFE)方法,用于通过反复训练模型和消除不重要的特征,逐步减少特征数量,最终选择最重要的特征。它是一种用于特征选择的算法,特别适合线性模型或其他对特征权重敏感的模型。

1. 语法

python">from sklearn.feature_selection import RFERFE(estimator, n_features_to_select=None, step=1, verbose=0)

2. 参数说明

  • estimator: 模型对象。用于拟合数据的学习器,它需要有一个 coef_feature_importances_ 属性,可以是诸如线性回归、决策树等模型。例如,LinearRegression()LogisticRegression()DecisionTreeClassifier() 等。
  • n_features_to_select: 整数或 None。要选择的特征数量。如果为 None,则选择一半的特征。
  • step: 整数或浮点数。每次迭代中要删除的特征数量:
    • 如果是整数,则每次移除指定数量的特征。
    • 如果是浮点数(范围为 0 到 1),则每次移除当前剩余特征数量的一部分(比例)。
  • verbose: 整数。控制冗长模式,设置为 1 时,会输出详细的进度信息,通常用于调试。

3. 返回值

  • RFE.fit(X, y): 返回拟合好的 RFE 对象,可以查看和分析所选择的特征。
    • support_: 一个布尔数组,指示哪些特征是被选中的(True 表示被选中)。
    • ranking_: 每个特征的排名,数值越小表示该特征越重要,1 表示被选中的特征。
    • n_features_: 被选择的特征数量。

4. 示例

(1) 基本用法:选择 5 个特征
python">from sklearn.datasets import make_friedman1
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression# 生成样本数据
X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)# 创建线性回归模型
model = LinearRegression()# 创建 RFE 对象,选择 5 个特征
rfe = RFE(estimator=model, n_features_to_select=5)# 训练 RFE
rfe.fit(X, y)# 查看哪些特征被选择了
print("Selected features:", rfe.support_)
print("Feature ranking:", rfe.ranking_)

输出:

Selected features: [False  True  True False  True False  True  True False False]
Feature ranking: [6 1 1 7 1 4 1 1 2 3]
  • rfe.support_ 输出一个布尔值数组,表示哪些特征被选择了(True 表示选中)。
  • rfe.ranking_ 输出特征的重要性排名,1 表示被选中的特征。
(2) 使用 step 参数递归减少特征
python"># 每次迭代移除 2 个特征
rfe = RFE(estimator=model, n_features_to_select=5, step=2)
rfe.fit(X, y)# 查看最终选择的特征
print("Selected features:", rfe.support_)
print("Feature ranking:", rfe.ranking_)
  • 使用 step=2,每次迭代中移除 2 个不重要的特征,直到剩下 5 个特征。
(3) 使用决策树进行特征选择
python">from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target# 使用决策树模型
model = DecisionTreeClassifier()# 创建 RFE 对象,选择 2 个特征
rfe = RFE(estimator=model, n_features_to_select=2)
rfe.fit(X, y)# 输出选择的特征
print("Selected features:", rfe.support_)
print("Feature ranking:", rfe.ranking_)

输出:

Selected features: [ True False False  True]
Feature ranking: [1 3 2 1]
  • 通过决策树选择 2 个特征,输出显示第 1 和第 4 个特征被选择。

5. 应用场景

  • 降维: RFE 可以通过递归地删除不重要的特征,减少特征维度,有助于提高模型的性能并减少过拟合。
  • 特征选择: 通过选择对目标变量最重要的特征,RFE 可以提高模型的可解释性。
  • 模型优化: 减少不必要的特征有助于加快模型的训练速度。

6. 注意事项

  • 选择合适的 estimator: RFE 依赖于 estimatorcoef_feature_importances_ 属性,因此必须选择支持这些属性的模型,如线性回归、逻辑回归、决策树、随机森林等。
  • step 参数的设置: step 参数的选择可以影响计算效率。较大的 step 可以减少迭代次数,较小的 step 可以更精细地筛选特征。

7. 与其他特征选择方法的对比

  • SelectKBest: SelectKBest 是一种一次性选择前 k 个最重要特征的方法,而 RFE 是递归消除不重要特征,逐步选择最重要的特征。
  • RFECV: RFECV 是 RFE 的增强版,通过交叉验证自动选择最佳特征数量,而 RFE 需要手动指定特征数量。

RFE 是一个强大的特征选择工具,特别适合使用线性模型或决策树模型进行递归特征选择。


http://www.ppmy.cn/news/1528022.html

相关文章

solidity-19-fallback

接收ETH receive和fallback receive和callback是solidity中两个特殊的回调函数,一个处理接收ETH,一个处理不存在的函数调用。本质上就是吧fallback拆成了两个回调函数。我暂时不知道什么是fallback fallback调用不存在的函数时会被调用也就是这个函数是不是等价于…

【Git原理与使用】多人协作与开发模型(2)

目录 一、多人协作 (一)多人协作一 1、情景 2、 origin/master 3、git branch 4、远程链接 5、总结 (二)多人协作二 1、引言 2、情景 3、流程 4、解决方法 二、企业级开发模型 1、DevOps背景 2、DevOps是什么 3、DevCps与git的关系 4、系统开发环境 5、Git分支设计规范 6、企业…

编程的魅力

在数字时代的浪潮中,编程已成为连接现实与虚拟世界的桥梁,它不仅是技术的核心,更是推动社会进步与创新的重要力量。从简单的脚本编写到复杂的系统架构,编程以其独特的魅力吸引着无数探索者和创造者。本文将深入探讨编程的魅力所在…

this 指向

this 指向谁? 多数情况下,this 指向调用它所在方法的那个对象。 说得更通俗点,谁调的函数,this 就归谁。当调用方法没有明确对象时,this 就指向全局对象。在浏览器中,指向 window;在 Node 中,指向 Global。(严格模式下,指向 undefined) this 的指向是在调用时决定的…

35.贪心算法2

1.按身高排序(easy) 2418. 按身高排序 - 力扣(LeetCode) 题目解析 算法原理 代码 class Solution {public String[] sortPeople(String[] names, int[] heights) {// 1. 创建⼀个下标数组int n names.length;Integer[] index …

【Elasticsearch】-图片向量化存储

需要结合深度学习模型 1、pom依赖 注意结尾的webp-imageio 包&#xff0c;用于解决ImageIO.read读取部分图片返回为null的问题 <dependency><groupId>org.openpnp</groupId><artifactId>opencv</artifactId><version>4.7.0-0</versio…

【网络安全】-ssrf服务器请求伪造攻击-burp

SSRF攻击服务器请求伪造攻击 CSRF攻击跨站请求伪造攻击也称客户端请求伪造攻击 两种攻击最主要的区别是一个在服务器&#xff0c;一个在客户端。 文章目录 前言 什么是SSRF攻击? 1.分类&#xff1a; 针对服务器的 SSRF 攻击&#xff1a; 针对后端系统的SSRF攻击&#xff1a; …

深入理解 Python 中的浅拷贝与深拷贝:案例解析与潜在陷阱20240919

深入理解 Python 中的浅拷贝与深拷贝&#xff1a;案例解析与潜在陷阱 引言 在 Python 编程中&#xff0c;浅拷贝&#xff08;shallow copy&#xff09;和 深拷贝&#xff08;deep copy&#xff09;是两个容易混淆但又非常重要的概念。尤其是在处理嵌套数据结构时&#xff0c;…