机器学习中常用的数据预处理方法

server/2025/2/10 8:01:25/

1. 数据清洗

  • 方法:处理异常值、重复数据、噪声数据。
    • 异常值处理:通过统计方法(如 Z-Score、IQR)或可视化检测,选择删除、替换(均值/中位数)或保留。
    • 重复数据:直接删除重复样本。
  • 优点:提升数据质量,减少模型偏差。
  • 缺点:可能误删有用信息或引入人为偏差。
  • 场景:金融风控(异常交易检测)、传感器数据清洗。

2. 特征缩放

  • 归一化(Min-Max Scaling)

    • 将数据缩放到 [0, 1] 区间。
    • 优点:加速梯度下降,适合对尺度敏感的模型(如神经网络、KNN)。
    • 缺点:对异常值敏感。
  • 标准化(Z-Score)

    • 使数据均值为 0,方差为 1。
    • 优点:对异常值稳健,适合大多数模型(如 SVM、线性回归)。
    • 缺点:不保证固定数值范围。
  • 场景:归一化用于图像像素值处理;标准化用于非均匀分布特征(如年龄、收入)。


3. 分类变量编码

  • 独热编码(One-Hot Encoding)

    • 将类别转换为二进制向量(如 “猫” → [1,0,0])。
    • 优点:消除数值大小误导,适合无序类别。
    • 缺点:维度爆炸(高基数特征需配合降维)。
  • 标签编码(Label Encoding)

    • 将类别映射为整数(如 “红/黄/蓝” → 0/1/2)。
    • 优点:节省内存,适合树模型(如随机森林)。
    • 缺点:可能引入虚假顺序关系。
  • 场景:独热编码用于性别、颜色;标签编码用于有序类别(如学历等级)。


4. 缺失值处理

  • 删除缺失样本/特征

    • 优点:简单高效。
    • 缺点:丢失信息(缺失比例高时不可行)。
  • 填充

    • 均值/中位数(数值特征)、众数(分类特征)、插值(时间序列)。
    • 优点:保留数据完整性。
    • 缺点:可能引入偏差(如均值填充忽略特征分布)。
  • 模型预测填充

    • 用回归或分类模型预测缺失值。
    • 优点:更精准。
    • 缺点:计算复杂,可能过拟合。
  • 场景:医疗数据(缺失较多时用模型填充);电商数据(删除缺失少的特征)。


5. 特征工程

  • 特征选择

    • 过滤法(卡方检验、相关系数)、包装法(递归特征消除)、嵌入法(L1 正则化)。
    • 优点:降低过拟合风险,提升效率。
    • 缺点:可能丢弃有用特征。
  • 特征构造

    • 人工构造新特征(如日期→星期几,文本→词频)。
    • 优点:增强模型表达能力。
    • 缺点:依赖领域知识,耗时。
  • 场景:广告 CTR 预测(构造用户行为组合特征);图像识别(提取边缘特征)。


6. 降维

  • 主成分分析(PCA)

    • 线性投影到低维空间,保留最大方差。
    • 优点:减少计算量,缓解维度灾难。
    • 缺点:丢失非线性结构。
  • t-SNE

    • 非线性降维,保留局部相似性。
    • 优点:适合高维数据可视化。
    • 缺点:计算复杂,难以解释。
  • 场景:图像数据压缩(PCA);高维聚类可视化(t-SNE)。


7. 数据增强(深度学习)

  • 方法:图像(旋转、翻转、裁剪)、文本(同义词替换)、音频(加噪)。
  • 优点:提升泛化性,缓解过拟合。
  • 缺点:可能生成不合理的样本(如翻转后的错误文本)。
  • 场景:图像分类(CNN 训练)、小样本学习。

8. 数据划分

  • 训练集/验证集/测试集
    • 常用比例 60%/20%/20% 或 70%/30%。
  • 交叉验证
    • K-Fold 划分(如 5 折),减少划分偏差。
  • 优点:评估模型泛化能力。
  • 缺点:数据量少时交叉验证计算成本高。
  • 场景:小数据集(交叉验证);时序数据(需按时间顺序划分)。

9. 时间序列处理

  • 滑动窗口:将序列转换为监督学习格式。
  • 去趋势/季节性:差分、STL 分解。
  • 优点:捕捉时序依赖关系。
  • 缺点:处理不当可能破坏原始模式。
  • 场景:股票预测、销量预测。

10. 文本处理

  • 分词/去停用词:中英文分词,移除无意义词(如“的”)。
  • 向量化:TF-IDF(统计权重)、Word2Vec/GloVe(语义向量)。
  • 场景:情感分析(TF-IDF + SVM)、机器翻译(词嵌入 + RNN)。

总结

方法典型技术适用场景
数据清洗IQR、Z-Score异常检测、传感器数据
特征缩放归一化、标准化神经网络、距离类模型(KNN、SVM)
降维PCA、t-SNE高维数据可视化、特征压缩
数据增强图像翻转、文本替换小样本图像/文本任务
缺失值处理模型填充、多重插值医疗数据、用户行为分析

根据数据特点和模型需求选择合适方法:结构化数据侧重特征工程与缩放,非结构化数据(如图像/文本)依赖增强与向量化。


http://www.ppmy.cn/server/166442.html

相关文章

排错 -- 用React.js,Solidity,智能合约构建最新区块链应用

真枪实弹:第一个Web3项目【上集】用React.js,Solidity,智能合约构建最新区块链应用详细教程 构建web跟随b站教程中遇到了很多错误,从今天开始构建完整的应用,在此记录一些排错。 问题情况1:跟随视频后无Src文件 问题情况1解决方法&#xff1…

游戏引擎学习第91天

黑板:澄清线性独立性 首先,提到线性独立时,之前讲解过的“最小”的概念实际上是在表达线性独立。对于二维坐标系来说,两个基向量是最小的,这两个向量是线性独立的。如果超过两个基向量,就会变得冗余&#…

20.责任链模式(Chain of Responsibility Pattern)

定义 责任链模式(Chain of Responsibility Pattern) 是一种行为型设计模式,它使得多个对象都有机会处理请求,从而避免请求的发送者和接收者之间的耦合关系。将多个处理对象连成一条链,并沿着这条链传递请求&#xff0…

transformers学习笔记——初级篇

Transformers(库) 是 Hugging Face 开发的 开源 Python 库,用于加载和使用基于 Transformer 结构的各种预训练模型。Transformers(库)是对 Transformer(理论)的工程实现,并且包含了很…

【算法】动态规划专题⑩ —— 混合背包问题 python

目录 前置知识进入正题总结 前置知识 【算法】动态规划专题⑤ —— 0-1背包问题 滚动数组优化 【算法】动态规划专题⑥ —— 完全背包问题 python 【算法】动态规划专题⑦ —— 多重背包问题 二进制分解优化 python 混合背包结合了三种不同类型的背包问题:0/1背包…

蚂蚁爬行最短问题

初二数学问题记录 分析过程 考点:2点之间直线最短。 思考过程:将EBCF以BC为边翻折,EF边翻折后为,则A为蚂蚁需要爬行的最小距离。

配置PXC实现高可用

一。关闭防火墙和selinux systemctl stop firewalld systemctl disable firewalld setenforce 0 二。本地地址解析 三。下载PXC包,并且进行安装 wget https://repo.percona.com/yum/release/7/RPMS/x86_64/qpress-11-1.el7.x86_64.rpm yum localinstall *.rpm…

协议桥梁~Profinet与Ethernet IP的智慧连接完美应用在汽车制造业

工业以太网应用案例:稳联技术Profinet转Ethernet IP协议网关WL-ABC2006 某大型汽车制造厂引入了多条生产线,其中部分生产设备使用西门子的Profinet协议,而新引进的检测设备则采用基于Ethernet IP协议的控制系统。为了实现两种不同协议设备之间…