【Python】如何使用Pandas进行数据探索：计算描述性统计量和空值率

server/2024/10/22 18:34:13/

我等待的是不再等待的那份自由
不应该把我情愿的当作应该
风吹干了衣裳汗的痕迹是我的勋章
我等待的是不再等待的那份自由
你问我要走最远的路
是从哪到哪
渴望遇见什么人
我还是重复着每一天
但从不辜负
清尘收露
最美的夜色
留给努力活着
赶路的人
想回家的每一刻
迈的脚步有多沉
🎵 陈楚生《我等待的》

在数据分析的早期阶段，了解数据集的基本统计特征非常重要。这不仅帮助我们形成对数据集的初步了解，还能指导我们进行后续的数据清洗和预处理工作。Python 的 Pandas 库提供了强大的工具，可以帮助我们轻松完成这些任务。本文将详细介绍如何使用 Pandas 计算数据集的描述性统计量，以及如何评估数据集中的空值率。

开始之前

首先，确保你已经安装了 Pandas。如果未安装，可以通过 Python 的包管理器 pip 来安装：

pip install pandas

示例数据集
为了演示，我们将创建一个包含空值的简单 DataFrame。这个 DataFrame 包含三列，每列都有一些空值：

python">import pandas as pd
import numpy as np# 创建示例DataFrame
data = {'A': [1, 2, np.nan, 4, 5],'B': [np.nan, 2, 3, 4, 5],'C': [1, 2, 3, 4, np.nan]
}
df = pd.DataFrame(data)

这个 DataFrame 是后续示例的基础。

计算描述性统计量
Pandas 的 describe() 方法可以快速提供多个描述性统计量，包括平均值、标准差、最小值、各分位数和最大值。这些统计量对于获取数据分布的快速概览非常有用：

python">descriptive_stats = df.describe()
print(descriptive_stats)

describe() 默认包括了所有数值列，并计算了以下统计数据：

count: 非空值数量
mean: 平均值
std: 标准差
min: 最小值
25%: 第一四分位数
50%: 中位数（第二四分位数）
75%: 第三四分位数
max: 最大值

计算空值率

了解数据集中空值的比例对于进行有效的数据清洗和处理至关重要。使用 Pandas，我们可以轻松计算每列的空值率：

python">null_rates = df.isna().mean() * 100
print(null_rates)

isna() 方法检查 DataFrame 中的每个元素是否为空值，并返回一个相同形状的布尔型 DataFrame。将 mean() 方法应用于结果可以计算每列的空值比例。

整合统计信息

将空值率添加到描述性统计量的输出中，可以提供一个更全面的数据视图：

python">descriptive_stats.loc['null_rate'] = null_rates
print(descriptive_stats)

通过将空值率作为一个新行添加到描述性统计表中，我们能够在一个单一的输出中看到所有关键的数据指标。

总结

使用 Pandas 进行数据探索可以极大地提高数据分析的效率和效果。通过描述性统计和空值分析，我们能够快速了解数据的基本特征和存在的问题。这为后续的数据分析、特征工程以及机器学习模型的开发奠定了基础。希望本文的介绍能帮助你有效地启动你的数据分析项目！