sklearn特征选取之SelectFromModel

devtools/2024/9/24 19:04:48/

sklearn.feature_selection.SelectFromModel 是一种基于模型的重要性权重进行特征选择的工具,允许我们根据学习器的权重或特征重要性自动选择特征。它通过从模型中提取特征的重要性来选择特征,常用于与那些具有 coef_feature_importances_ 属性的模型结合使用,如线性模型、树模型等。

1. 语法

python">from sklearn.feature_selection import SelectFromModelSelectFromModel(estimator, threshold=None, prefit=False, norm_order=1, max_features=None)

2. 参数说明

  • estimator: 训练好的模型或将要拟合的模型。该模型需要具备 coef_feature_importances_ 属性,例如,线性回归、逻辑回归、决策树、随机森林等。模型通过这些属性来衡量每个特征的重要性。

  • threshold: 阈值,用来决定特征的重要性。所有权重或重要性大于该阈值的特征将被选中。可以是一个字符串(如 ‘mean’ 或 ‘median’),也可以是一个具体的数值。如果设置为 None,则默认使用 mean

    • ‘mean’: 选择权重或特征重要性大于平均值的特征。
    • ‘median’: 选择权重或特征重要性大于中位数的特征。
    • 浮点数值:选择权重或特征重要性大于该值的特征。
  • prefit: 布尔值。是否已经对模型进行过预训练。如果为 True,则直接使用已经训练好的模型,否则将在 SelectFromModel 调用 fit 方法时自动拟合模型。

  • norm_order: 规范的顺序,指定用于特征选择时 coef_ 向量的范数。对于 L1 正则化模型通常使用 1,对于 L2 正则化模型使用 2

  • max_features: 指定选择的最大特征数。如果为 None,则根据 threshold 选择所有符合条件的特征。如果指定了数值,则会选择前 max_features 个最重要的特征。

3. 返回值

  • get_support(): 返回一个布尔数组,指示哪些特征被选中(True 表示被选中)。
  • transform(X): 将输入的特征矩阵 X 转换为仅包含所选特征的新特征矩阵。
  • fit(X, y): 根据输入数据 X 和目标变量 y,拟合模型并选择特征。

4. 示例

(1) 基本用法:使用线性模型进行特征选择
python">from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectFromModel
from sklearn.datasets import load_iris# 加载数据集
X, y = load_iris(return_X_y=True)# 使用逻辑回归模型
estimator = LogisticRegression()# 创建 SelectFromModel 对象
selector = SelectFromModel(estimator=estimator)# 拟合模型并进行特征选择
selector.fit(X, y)# 查看哪些特征被选择了
print("Selected features:", selector.get_support())# 转换原始数据,保留选中的特征
X_selected = selector.transform(X)
print("Transformed shape:", X_selected.shape)

输出:

Selected features: [ True False True False]
Transformed shape: (150, 2)

在这个例子中,SelectFromModel 根据逻辑回归模型的权重选择了 2 个特征。

(2) 使用随机森林模型进行特征选择
python">from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel
from sklearn.datasets import load_iris# 加载数据集
X, y = load_iris(return_X_y=True)# 使用随机森林模型
estimator = RandomForestClassifier(n_estimators=100)# 创建 SelectFromModel 对象
selector = SelectFromModel(estimator=estimator, threshold='mean')# 拟合模型并进行特征选择
selector.fit(X, y)# 查看选择的特征
print("Selected features:", selector.get_support())# 转换原始数据
X_selected = selector.transform(X)
print("Transformed shape:", X_selected.shape)

在这里,SelectFromModel 通过随机森林的 feature_importances_ 属性进行特征选择,保留那些重要性超过平均值的特征。

(3) 使用预训练模型进行特征选择

如果我们已经预先训练了模型,可以设置 prefit=True 来跳过重新训练的步骤:

python"># 预训练一个模型
estimator = LogisticRegression().fit(X, y)# 使用预训练模型进行特征选择
selector = SelectFromModel(estimator=estimator, prefit=True)# 查看选择的特征
print("Selected features:", selector.get_support())# 转换原始数据
X_selected = selector.transform(X)
(4) 限制选择的最大特征数量

我们可以使用 max_features 来限制选择的特征数量:

python">selector = SelectFromModel(estimator=estimator, max_features=2, threshold=-np.inf)# 拟合模型并进行特征选择
selector.fit(X, y)# 查看选择的特征
print("Selected features:", selector.get_support())

这里我们通过设置 threshold=-np.inf 选择了权重最大的两个特征。

5. 应用场景

  • 降维: SelectFromModel 可以通过减少不重要的特征来进行降维,提高模型的性能和泛化能力。
  • 特征选择: 利用模型的权重或特征重要性来选择对目标变量最有贡献的特征。
  • 自动化特征选择: 可以在构建模型时自动选择特征,特别适用于模型构建过程中自动化流水线的使用。

6. 注意事项

  • 依赖于模型的 coef_feature_importances_: SelectFromModel 依赖于所使用的模型具有 coef_(线性模型)或 feature_importances_(树模型等)属性。
  • 阈值选择: 选择适当的 threshold 参数对结果影响较大。可以使用 meanmedian 等动态值,或者根据数据实验确定一个具体的阈值。

7. 与其他特征选择方法的对比

  • RFE 的对比: SelectFromModel 直接根据特征的重要性进行选择,而 RFE 是通过递归地消除不重要的特征逐步选择。SelectFromModel 更直接,适合模型对特征重要性有直接衡量的情况。
  • SelectKBest 的对比: SelectKBest 是基于统计检验选择前 k 个最好的特征,而 SelectFromModel 是基于模型的重要性选择特征。

SelectFromModel 提供了一种简单有效的特征选择方法,特别适合与线性模型和决策树类模型结合使用。


http://www.ppmy.cn/devtools/116627.html

相关文章

LeetCode[中等]

给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。 思路: 计算链表长度num,num - n就是需要删去结点的索引 其中若删去第一个结点,返回head.next; /*** Definition for singly-linked list.* public …

电商安全新挑战:筑起数字防御长城,守护业务与数据安全

在当今这个数字化时代,电商行业正以前所未有的速度发展,大数据、人工智能等技术的融入不仅重塑了消费模式,更激发了行业新的增长点。然而,这片繁荣景象之下,隐藏着一个不容忽视的暗流——网络安全威胁。从数据泄露到恶…

Spring Boot框架在高校心理辅导中的实践

2 相关技术简介 2.1Java技术 Java是一种非常常用的编程语言,在全球编程语言排行版上总是前三。在方兴未艾的计算机技术发展历程中,Java的身影无处不在,并且拥有旺盛的生命力。Java的跨平台能力十分强大,只需一次编译,任…

npm install --force or --legacy-peer-deps

这个命令中的 --force 和 --legacy-peer-deps 是用于控制包管理器(如 npm 或 yarn)在安装依赖时的行为的选项。 --force --force 选项通常用于强制包管理器执行某些操作,即使这可能会导致一些不期望的副作用。在安装依赖时,使用…

Spring MVC 基本配置步骤 总结

1.简介 本文记录Spring MVC基本项目拉起配置步骤。 2.步骤 在pom.xml中导入依赖&#xff1a; <dependency><groupId>org.springframework</groupId><artifactId>spring-webmvc</artifactId><version>6.0.6</version><scope>…

基于Java+SpringBoot+vue+elementUI私人健身教练预约管理系统设计实现

基于JavaSpringBootvueelementUI私人健身教练预约管理系统设计实现 &#x1f345; 作者主页 网顺技术团队 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; &#x1f345; 文末获取源码联系方式 &#x1f4dd; &#x1f345; 查看下方微信号获取联系方式 承接…

Unity从2018.1版本开始,可以采用内置JSON进行存档和读档

在Unity中&#xff0c;将数据转换为JSON格式并存储在Application.persistentDataPath路径下&#xff0c;是一个常见的需求&#xff0c;用于保存游戏设置、玩家进度等数据。以下是一个简单的步骤和示例代码&#xff0c;展示如何实现这一过程&#xff1a; 那么UnityEngine类下面…

CSS基本概念以及CSS的多种引入方式

CSS基本概念 CSS是层叠样式表&#xff0c;又叫级联样式表&#xff0c;简称样式表。CSS的文件后缀为.css&#xff0c;CSS用于HTML文档中元素样式的定义。 CSS的基本语法 CSS的规则由2个主要的部分构成&#xff1a;选择器以及一条或者多条声明。 选测器通常是你血药改变样式的…