机器学习中常用的数据预处理方法

机器学习中常用的数据预处理方法

server/2025/2/10 8:01:25/

1. 数据清洗

方法：处理异常值、重复数据、噪声数据。
- 异常值处理：通过统计方法（如 Z-Score、IQR）或可视化检测，选择删除、替换（均值/中位数）或保留。
- 重复数据：直接删除重复样本。
优点：提升数据质量，减少模型偏差。
缺点：可能误删有用信息或引入人为偏差。
场景：金融风控（异常交易检测）、传感器数据清洗。

2. 特征缩放

归一化（Min-Max Scaling）
- 将数据缩放到 [0, 1] 区间。
- 优点：加速梯度下降，适合对尺度敏感的模型（如神经网络、KNN）。
- 缺点：对异常值敏感。
标准化（Z-Score）
- 使数据均值为 0，方差为 1。
- 优点：对异常值稳健，适合大多数模型（如 SVM、线性回归）。
- 缺点：不保证固定数值范围。
场景：归一化用于图像像素值处理；标准化用于非均匀分布特征（如年龄、收入）。

3. 分类变量编码

独热编码（One-Hot Encoding）
- 将类别转换为二进制向量（如 “猫” → [1,0,0]）。
- 优点：消除数值大小误导，适合无序类别。
- 缺点：维度爆炸（高基数特征需配合降维）。
标签编码（Label Encoding）
- 将类别映射为整数（如 “红/黄/蓝” → 0/1/2）。
- 优点：节省内存，适合树模型（如随机森林）。
- 缺点：可能引入虚假顺序关系。
场景：独热编码用于性别、颜色；标签编码用于有序类别（如学历等级）。

4. 缺失值处理

删除缺失样本/特征
- 优点：简单高效。
- 缺点：丢失信息（缺失比例高时不可行）。
填充
- 均值/中位数（数值特征）、众数（分类特征）、插值（时间序列）。
- 优点：保留数据完整性。
- 缺点：可能引入偏差（如均值填充忽略特征分布）。
模型预测填充
- 用回归或分类模型预测缺失值。
- 优点：更精准。
- 缺点：计算复杂，可能过拟合。
场景：医疗数据（缺失较多时用模型填充）；电商数据（删除缺失少的特征）。

5. 特征工程

特征选择
- 过滤法（卡方检验、相关系数）、包装法（递归特征消除）、嵌入法（L1 正则化）。
- 优点：降低过拟合风险，提升效率。
- 缺点：可能丢弃有用特征。
特征构造
- 人工构造新特征（如日期→星期几，文本→词频）。
- 优点：增强模型表达能力。
- 缺点：依赖领域知识，耗时。
场景：广告 CTR 预测（构造用户行为组合特征）；图像识别（提取边缘特征）。

6. 降维

主成分分析（PCA）
- 线性投影到低维空间，保留最大方差。
- 优点：减少计算量，缓解维度灾难。
- 缺点：丢失非线性结构。
t-SNE
- 非线性降维，保留局部相似性。
- 优点：适合高维数据可视化。
- 缺点：计算复杂，难以解释。
场景：图像数据压缩（PCA）；高维聚类可视化（t-SNE）。

7. 数据增强（深度学习）

方法：图像（旋转、翻转、裁剪）、文本（同义词替换）、音频（加噪）。
优点：提升泛化性，缓解过拟合。
缺点：可能生成不合理的样本（如翻转后的错误文本）。
场景：图像分类（CNN 训练）、小样本学习。

8. 数据划分

训练集/验证集/测试集
- 常用比例 60%/20%/20% 或 70%/30%。
交叉验证
- K-Fold 划分（如 5 折），减少划分偏差。
优点：评估模型泛化能力。
缺点：数据量少时交叉验证计算成本高。
场景：小数据集（交叉验证）；时序数据（需按时间顺序划分）。

9. 时间序列处理

滑动窗口：将序列转换为监督学习格式。
去趋势/季节性：差分、STL 分解。
优点：捕捉时序依赖关系。
缺点：处理不当可能破坏原始模式。
场景：股票预测、销量预测。

10. 文本处理

分词/去停用词：中英文分词，移除无意义词（如“的”）。
向量化：TF-IDF（统计权重）、Word2Vec/GloVe（语义向量）。
场景：情感分析（TF-IDF + SVM）、机器翻译（词嵌入 + RNN）。

总结

方法	典型技术	适用场景
数据清洗	IQR、Z-Score	异常检测、传感器数据
特征缩放	归一化、标准化	神经网络、距离类模型（KNN、SVM）
降维	PCA、t-SNE	高维数据可视化、特征压缩
数据增强	图像翻转、文本替换	小样本图像/文本任务
缺失值处理	模型填充、多重插值	医疗数据、用户行为分析

根据数据特点和模型需求选择合适方法：结构化数据侧重特征工程与缩放，非结构化数据（如图像/文本）依赖增强与向量化。

http://www.ppmy.cn/server/166442.html

相关文章

排错 -- 用React.js,Solidity,智能合约构建最新区块链应用

排错 -- 用React.js,Solidity,智能合约构建最新区块链应用

真枪实弹:第一个Web3项目【上集】用React.js,Solidity,智能合约构建最新区块链应用详细教程构建web跟随b站教程中遇到了很多错误，从今天开始构建完整的应用，在此记录一些排错。问题情况1：跟随视频后无Src文件问题情况1解决方法&#xff1…

阅读更多...

游戏引擎学习第91天

游戏引擎学习第91天

黑板：澄清线性独立性首先，提到线性独立时，之前讲解过的“最小”的概念实际上是在表达线性独立。对于二维坐标系来说，两个基向量是最小的，这两个向量是线性独立的。如果超过两个基向量，就会变得冗余&#…

阅读更多...

20.责任链模式（Chain of Responsibility Pattern）

20.责任链模式（Chain of Responsibility Pattern）

定义责任链模式（Chain of Responsibility Pattern） 是一种行为型设计模式，它使得多个对象都有机会处理请求，从而避免请求的发送者和接收者之间的耦合关系。将多个处理对象连成一条链，并沿着这条链传递请求&#xff0…

阅读更多...

transformers学习笔记——初级篇

transformers学习笔记——初级篇

Transformers（库） 是 Hugging Face 开发的开源 Python 库，用于加载和使用基于 Transformer 结构的各种预训练模型。Transformers（库）是对 Transformer（理论）的工程实现，并且包含了很…

阅读更多...

【算法】动态规划专题⑩ —— 混合背包问题 python

【算法】动态规划专题⑩ —— 混合背包问题 python

目录前置知识进入正题总结前置知识【算法】动态规划专题⑤ —— 0-1背包问题滚动数组优化【算法】动态规划专题⑥ —— 完全背包问题 python 【算法】动态规划专题⑦ —— 多重背包问题二进制分解优化 python 混合背包结合了三种不同类型的背包问题：0/1背包…

阅读更多...

蚂蚁爬行最短问题

蚂蚁爬行最短问题

初二数学问题记录分析过程考点：2点之间直线最短。思考过程：将EBCF以BC为边翻折，EF边翻折后为，则A为蚂蚁需要爬行的最小距离。

阅读更多...

配置PXC实现高可用

配置PXC实现高可用

一。关闭防火墙和selinux systemctl stop firewalld systemctl disable firewalld setenforce 0 二。本地地址解析三。下载PXC包，并且进行安装 wget https://repo.percona.com/yum/release/7/RPMS/x86_64/qpress-11-1.el7.x86_64.rpm yum localinstall *.rpm…

阅读更多...

协议桥梁~Profinet与Ethernet IP的智慧连接完美应用在汽车制造业

协议桥梁~Profinet与Ethernet IP的智慧连接完美应用在汽车制造业

工业以太网应用案例：稳联技术Profinet转Ethernet IP协议网关WL-ABC2006 某大型汽车制造厂引入了多条生产线，其中部分生产设备使用西门子的Profinet协议，而新引进的检测设备则采用基于Ethernet IP协议的控制系统。为了实现两种不同协议设备之间…

阅读更多...

最新文章