用Python做数据分析之数据表清洗

news/2025/3/14 17:14:31/

对数据表中的问题进行清洗。主要内容包括对空值,大小写问题,数据格式和重复值的处理。这里不包含对数据间的逻辑验证。

处理空值(删除或填充)

我们在创建数据表的时候在 price 字段中故意设置了几个 NA 值。对于空值的处理方式有很多种,可以直接删除包含空值的数据,也可以对空值进行填充,比如用 0 填充或者用均值填充。还可以根据不同字段的逻辑对空值进行推算。

Excel中可以通过“查找和替换”功能对空值进行处理,将空值统一替换为 0 或均值。也可以通过“定位”空值来实现。

查找和替换空值

Python中处理空值的方法比较灵活,可以使用 Dropna 函数用来删除数据表中包含空值的数据,也可以使用 fillna 函数对空值进行填充。下面的代码和结果中可以看到使用 dropna 函数后,包含 NA 值的两个字段已经不见了。返回的是一个不包含空值的数据表。

1#删除数据表中含有空值的行

2df.dropna(how=‘any’)

除此之外也可以使用数字对空值进行填充,下面的代码使用 fillna 函数对空值字段填充数字 0。

1#使用数字0 填充数据表中空值

2df.fillna(value=0)

我们选择填充的方式来处理空值,使用 price 列的均值来填充 NA 字段,同样使用 fillna 函数,在要填充的数值中使用 mean 函数先计算 price 列当前的均值,然后使用这个均值对 NA 进行填充。可以看到两个空值字段显示为 3299.5。

1#使用price 均值对 NA 进行填充

2df[‘price’].fillna(df[‘price’].mean())

3

40 1200.0

51 3299.5

62 2133.0

73 5433.0

84 3299.5

95 4432.0

10Name: price, dtype: float64

清理空格

除了空值,字符中的空格也是数据清洗中一个常见的问题,下面是清除字符中空格的代码。

1 #清除 city 字段中的字符空格

2 df[‘city’]=df[‘city’].map(str.strip)

大小写转换

在英文字段中,字母的大小写不统一也是一个常见的问题。Excel 中有 UPPER,LOWER等函数,python 中也有同名函数用来解决大小写的问题。在数据表的 city 列中就存在这样的问题。我们将 city 列的所有字母转换为小写。下面是具体的代码和结果。

1#city列大小写转换

2df[‘city’]=df[‘city’].str.lower()

更改数据格式

Excel中通过“设置单元格格式”功能可以修改数据格式。Python 中通过 astype 函数用来修改数据格式。

设置单元格格式

Python中 dtype 是查看数据格式的函数,与之对应的是 astype 函数,用来更改数据格式。下面的代码中将 price 字段的值修改为 int 格式。

1#更改数据格式2df[‘price’].astype(‘int’)340 120051 329962 213373 543384 329995 443210Name: price, dtype: int32

更改列名称

Rename是更改列名称的函数,我们将来数据表中的 category 列更改为 category-size。下面是具体的代码和更改后的结果。

删除重复值

很多数据表中还包含重复值的问题,Excel 的数据目录下有“删除重复项”的功能,可以用来删除数据表中的重复值。默认Excel 会保留最先出现的数据,删除后面重复出现的数据。

删除重复项

Python中使用 drop_duplicates 函数删除重复值。我们以数据表中的 city 列为例,city 字段中存在重复值。默认情况下 drop_duplicates()将删除后出现的重复值(与 excel 逻辑一致)。增加 keep=’last’参数后将删除最先出现的重复值,保留最后的值。下面是具体的代码和比较结果。

原始的 city 列中 beijing 存在重复,分别在第一位和最后一位。

1 df[‘city’]

2 0 beijing

3 1 sh

4 2 guangzhou

5 3 shenzhen

6 4 shanghai

7 5 beijing

8 Name: city, dtype: object

使用默认的 drop_duplicates()函数删除重复值,从结果中可以看到第一位的beijing 被保留,最后出现的 beijing 被删除。

1 #删除后出现的重复值

2 df[‘city’].drop_duplicates()

3 0 beijing

4 1 sh

5 2 guangzhou

6 3 shenzhen

7 4 shanghai

8 Name: city, dtype: object

设置 keep=’last’’参数后,与之前删除重复值的结果相反,第一位出现的 beijing 被删除,保留了最后一位出现的 beijing。

1 #删除先出现的重复值

2 df[‘city’].drop_duplicates(keep=‘last’)

3 1 sh

4 2 guangzhou

5 3 shenzhen

6 4 shanghai

7 5 beijing

8 Name: city, dtype: objec

数值修改及替换

数据清洗中最后一个问题是数值修改或替换,Excel 中使用“查找和替换”功能就可以实现数值的替换。

查找和替换空值

Python中使用 replace 函数实现数据替换。数据表中 city 字段上海存在两种写法,分别为 shanghai 和 SH。我们使用replace 函数对 SH 进行替换。

1 #数据替换

2 df[‘city’].replace(‘sh’, ‘shanghai’)

3 0 beijing

4 1 shanghai

5 2 guangzhou

6 3 shenzhen

7 4 shanghai

8 5 beijing

9 Name: city, dtype: object

文章来源:网络 版权归原作者所有

上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理


http://www.ppmy.cn/news/1325826.html

相关文章

网络安全技术新手入门:利用永恒之蓝获取靶机控制权限

目录 前言 一、搜索永恒之蓝可用模块 二、使用攻击模块 三、配置攻击模块 四、攻击 五、总结 前言 相关法律声明:《中华人民共和国网络安全法》第二十七条 任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动&…

K8S---NetworkPolicy

一、简介 在操作系统中,服务器有出口流量和入口流量,可以为服务器设置网络策略,允许哪些ip可以访问本机器的哪些端口,设置本机器可以访问哪些其他机器;在K8S系统类似,pod如同服务器,可以设置哪些其他pod可以访问本pod的哪些端口,也可以设置本pod可以访问外部哪些pod的…

Kafka 的 Consumer Group 解读

作为一份笔记,本文再次梳理一下 Kafka 的 Consumer Group。我们知道,一个 Topic 往往会有多个 Partition,一条消息只会被写到一个 Kafka 的 Partition 中,那 Consumer 是怎么消费 Message 的呢? Consumer Group 又从中…

情人节专属--HTML制作情人节告白爱心

💕效果展示 💕html展示 <!DOCTYPE html> <html lang="en" > <head>

Flutter PageView 参数介绍及使用

PageView 可以用于创建水平滑动的页面&#xff0c;通常用于实现图片轮播、引导页、以及其他需要切换页面的场景。在本文中&#xff0c;我们将深入探讨 Flutter PageView 的参数&#xff0c;并演示如何使用它来构建交互性强大的页面。 1. PageView 基础 首先&#xff0c;让我们…

动态路由综合实验-RIP

一.要求 1、R1--R3地址为192.168.1.0/24:请合理分配 2、R3的环回为3.3.3.0/24&#xff0c;该网段不能在rip中宣告 3、整个网络使用RIPV2&#xff0c;全网可达&#xff0c;路由表汇总&#xff0c;防止环路&#xff0c;保障更新安全&#xff0c;加快收敛速度 网络拓扑结构&…

【滑动窗口精选题目】详解8道题

讲解【滑动窗口系列】的8道经典练习题&#xff0c;在讲解题目的同时给出AC代码 【注&#xff1a;点击题目即可打开链接】 注&#xff1a;滑动窗口最重要的是想到为什么要用【满足双指针同向】&#xff0c;而怎么用是次要的 目录 1、长度最小的子数组 2、无重复字符的最长子…

数据备份与恢复

备份概述 一、备份方式 按照数据库服务状态分为&#xff1a; 冷备份&#xff1a;在备份时暂停数据库运行和服务&#xff0c;将整个数据库复制到备份设备中 热备份&#xff1a;在备份时不停止数据库的运行和服务 按照备份的数据分为&#xff1a; 物理备份&#xff1a;备份…