一、简述
Python中数据清理是重要的环节,并通过解决缺失值、离群值、重复和不一致等常见问题以进行下一步的数据分析。
通常我们开始一个新的数据项目时,通因为各种各样的问题,通常获得的数据很少能直接上到模型里面去跑,所以要进行清理,清理数据是一个消除错误、异常值和不一致并确保所有数据采用适合我们分析的格式的过程。
包含许多错误或未经过此数据清理过程的数据称为脏数据。
比如下面的一个小数据集,虽然大家分数都不高,但是小李有两条重复的数据,如果我们计算分数列的平均值,那么这个数据是不准确的。
姓名 | 分数 |
小李 | 36 |
小王 | 40 |
小李 | 36 |
小张 | 35 |
二、脏数据
1、缺失值
不完整的数据集极为常见。可能缺少几年的数据,可能仅包含有关客户的部分信息。