《机器学习》数据预处理简介

ops/2024/12/26 15:52:01/

目录

1. 数据清洗(Data Cleaning)

(1)处理缺失值

(2)处理异常值

(3)处理重复数据

2. 数据转换(Data Transformation)

(1)特征缩放(Feature Scaling)

(2)对数变换

(3)离散化

(4)编码分类变量

3. 特征工程(Feature Engineering)

(1)特征提取

(2)特征选择

(3)降维

4. 数据分割(Data Splitting)

5. 处理不平衡数据

6. 处理文本数据

7. 处理时间序列数据

8. 数据增强(Data Augmentation)

总结


数据预处理是机器学习中至关重要的一步,它直接影响模型的性能和效果。原始数据通常包含噪声、缺失值、不一致性等问题,因此需要通过预处理将其转化为适合模型训练的格式。以下是常见的数据预处理方法:


1. 数据清洗(Data Cleaning)

数据清洗的目的是处理数据中的噪声、错误和不一致性。

(1)处理缺失值
  • 删除缺失值:如果缺失值比例较高,可以直接删除相关样本或特征。

  • 填充缺失值

    • 使用均值、中位数或众数填充。

    • 使用插值法(如线性插值)。

    • 使用机器学习模型预测缺失值(如K近邻、回归模型)。

(2)处理异常值
  • 删除异常值:如果异常值明显是错误数据,可以直接删除。

  • 修正异常值:根据业务逻辑修正异常值。

  • 保留异常值:如果异常值是合理的(如极端事件),可以保留。

(3)处理重复数据
  • 删除完全重复的样本。


2. 数据转换(Data Transformation)

数据转换的目的是将数据转换为适合模型训练的格式。

(1)特征缩放(Feature Scaling)
  • 标准化(Standardization):将数据转换为均值为0、标准差为1的分布。

    z=x−μσz=σx−μ​
    • 适用于大多数机器学习算法(如线性回归、支持向量机)。

  • 归一化(Normalization):将数据缩放到固定范围(如[0, 1])。

    x′=x−xminxmax−xminx′=xmax​−xmin​x−xmin​​
    • 适用于神经网络、K近邻等算法。

(2)对数变换
  • 对偏态分布的数据进行对数变换,使其更接近正态分布。

(3)离散化
  • 将连续特征转换为离散特征(如将年龄分为“青年”、“中年”、“老年”)。

(4)编码分类变量
  • 独热编码(One-Hot Encoding):将分类变量转换为二进制向量。

    • 适用于无序分类变量。

  • 标签编码(Label Encoding):将分类变量转换为整数标签。

    • 适用于有序分类变量。


3. 特征工程(Feature Engineering)

特征工程的目的是从原始数据中提取有用的特征,以提高模型性能。

(1)特征提取
  • 从原始数据中提取新特征(如从日期中提取“星期几”、“月份”)。

  • 使用领域知识创建特征(如从文本中提取关键词)。

(2)特征选择
  • 过滤法:根据统计指标(如相关系数、卡方检验)选择特征。

  • 包裹法:使用模型评估特征的重要性(如递归特征消除)。

  • 嵌入法:在模型训练过程中选择特征(如L1正则化)。

(3)降维
  • 主成分分析(PCA):将高维数据降维到低维空间,保留主要信息。

  • t-SNE:用于可视化高维数据。

  • 线性判别分析(LDA):在降维的同时保留类别信息。


4. 数据分割(Data Splitting)

将数据集划分为训练集、验证集和测试集,以评估模型的性能。

  • 训练集:用于训练模型。

  • 验证集:用于调整超参数和选择模型。

  • 测试集:用于最终评估模型性能。

常见的分割比例:

  • 训练集:70%

  • 验证集:15%

  • 测试集:15%


5. 处理不平衡数据

当数据集中类别分布不均衡时,需要采取以下方法:

  • 过采样(Oversampling):增加少数类样本(如SMOTE算法)。

  • 欠采样(Undersampling):减少多数类样本。

  • 调整类别权重:在模型训练中为少数类赋予更高的权重。


6. 处理文本数据

文本数据需要特殊的预处理方法:

  • 分词:将文本分割为单词或词组。

  • 去除停用词:去除无意义的词(如“的”、“是”)。

  • 词干提取(Stemming):将单词还原为词干形式。

  • 词向量化

    • 词袋模型(Bag of Words, BoW)

    • TF-IDF

    • 词嵌入(Word Embedding,如Word2Vec、GloVe)


7. 处理时间序列数据

时间序列数据需要特殊的预处理方法:

  • 时间特征提取:从时间戳中提取“小时”、“星期几”等特征。

  • 平滑处理:使用移动平均或指数平滑去除噪声。

  • 差分处理:将非平稳时间序列转换为平稳序列。


8. 数据增强(Data Augmentation)

在数据量不足时,可以通过数据增强生成更多样本:

  • 图像数据:旋转、翻转、裁剪、添加噪声。

  • 文本数据:同义词替换、随机删除单词。


总结

数据预处理是机器学习中不可或缺的一步,它直接影响模型的性能和泛化能力。通过合理的数据清洗、特征工程和数据转换,可以提高模型的准确性和稳定性。根据具体任务和数据特点,选择合适的方法进行预处理是关键。


http://www.ppmy.cn/ops/145154.html

相关文章

Xcode 16 编译弹窗问题、编译通过无法,编译通过打包等问题汇总

问题1:打包的过程中不断提示 :codesign 想要访问你的钥匙串中的密钥“develop 或者distribution 证书” 解决:打开钥匙串,点击证书---显示简介---信任----改为始终信任 (记住 :不能只修改钥匙的显示简介的…

《战神:诸神黄昏》游戏运行时提示找不到emp.dll怎么办?emp.dll丢失如何修复?

《战神:诸神黄昏》游戏运行时提示找不到emp.dll怎么办?emp.dll丢失的修复方法 在畅游《战神:诸神黄昏》这款史诗级游戏的过程中,如果突然遭遇“找不到emp.dll”的错误提示,无疑会打断你的冒险之旅。作为一名深耕软件开…

Java面试题,数据结构,图的最短路径算法应用于社交网络分析

图的最短路径算法应用于社交网络分析 在一个大型社交网络中,用户想要找到连接两个特定用户的最短路径。假设你已经有了这个社交网络的数据模型,其中节点代表用户,边代表用户之间的关系。请设计一个解决方案,以找出两个用户之间的…

Django models中的增删改查与MySQL SQL的对应关系

在 Django 中,models 提供了一种高层次的抽象来与数据库进行交互,使得开发者可以使用 Python 代码而非直接编写 SQL 来执行增删改查(CRUD)操作。下面将详细介绍 Django 的 ORM(对象关系映射)操作如何对应到…

【ChatGPT】OpenAI 如何使用流模式进行回答

当你向 OpenAI 请求完成时,默认情况下,整个回复会在一次性响应中全部生成并返回给你。如果你正在生成的回复内容较长,等待完整回复的时间可能会让人觉得有点漫长——好几秒钟呢!为了能更快地获取到部分回复,你可以选择…

7种server的服务器处理结构模型

两种高效的事件处理模式 服务器程序通常需要处理三类事件:I/O 事件、信号及定时事件。有两种高效的事件处理模式:Reactor和 Proactor,同步 I/O 模型通常用于实现Reactor 模式,异步 I/O 模型通常用于实现 Proactor 模式。 无论是 …

驱动与用户空间的交互函数

ssize_t read(int fd, void *buf, size_t count, loff_t *offt) fd:要打开的设备文件(文件描述符); buf:返回给用户空间的数据缓冲区; count:要读取的数据长度; offt:相对于文件首地址的偏移…

鸿蒙UI开发——自定义主题色

1、概述 ArkTs提供了应用内主题切换功能,支持全局主题切换,也支持局部主题切换,效果如下。本文针对主题切换做简单介绍。 2、主题色 ArkTs提供了一套内置主题配色,有Colors对象持有,它包含了默认情况下,关…