Python Pandas轻松处理大规模类别数据

大家好，在数据分析中，类别数据（Categorical Data）是一种常见的数据类型。它表示有限数量的离散值，例如产品类别、性别、国家等。与数值数据不同，类别数据并不代表连续的数值，而是离散的分类信息。处理类别数据是数据预处理的重要环节之一，特别是在进行统计分析或机器学习时。

Pandas提供了专门的工具来处理和优化类别数据，能够有效减少内存占用并提升计算效率。本文将介绍如何使用Pandas处理类别数据，展示类别数据的创建、操作和转换，并通过实际代码示例帮助掌握这些技巧。

1.创建类别数据

在Pandas中，类别数据可以通过 pd.Categorical() 函数创建，也可以直接在 DataFrame 中转换已有的列为类别类型。

1.1 手动创建类别数据

python">import pandas as pd# 手动创建类别数据
categories = pd.Categorical(['男', '女', '女', '男', '男'])
print(categories)

输出结果：

python">[男, 女, 女, 男, 男]
Categories (2, object): [男, 女]

在这个示例中，pd.Categorical() 将一个性别列表转换为类别数据。Pandas自动识别了其中的两个类别：男 和 女。

1.2 将DataFrame中的列转换为类别类型

如果已经有一个数据框，其中某些列包含类别信息，可以使用 astype('category') 方法将这些列转换为类别数据类型。

python"># 创建示例数据框
data = {'姓名': ['张三', '李四', '王五', '赵六'],'性别': ['男', '女', '男', '女'],'城市': ['北京', '上海', '广州', '北京']
}df = pd.DataFrame(data)# 将性别和城市列转换为类别数据类型
df['性别'] = df['性别'].astype('category')
df['城市'] = df['城市'].astype('category')print(df.dtypes)

输出结果：

python">姓名       object
性别     category
城市     category
dtype: object

通过 astype('category')，将 性别 和 城市 列转换为了类别类型，节省内存并提高了性能。

2.操作类别数据

一旦将列转换为类别数据类型，Pandas提供了一些专门的方法来操作这些类别数据。

2.1 查看类别

可以通过 categories 属性查看类别数据的所有类别。

python"># 查看类别
print(df['性别'].cat.categories)

输出结果：

python">Index(['女', '男'], dtype='object')

2.2 增加和删除类别

类别数据的类别值是可以动态调整的。可以使用 add_categories() 方法增加新的类别，使用 remove_categories() 删除类别。

增加类别

python"># 增加新的类别
df['性别'] = df['性别'].cat.add_categories(['未知'])
print(df['性别'].cat.categories)

输出结果：

python">Index(['女', '男', '未知'], dtype='object')

删除类别

python"># 删除某个类别
df['性别'] = df['性别'].cat.remove_categories(['未知'])
print(df['性别'].cat.categories)

输出结果：

python">Index(['女', '男'], dtype='object')

2.3 类别数据的排序

类别数据可以是有序的，特别是在某些场景下，类别值具有一定的顺序关系。例如，教育水平（小学、初中、高中、大学）或客户等级（银、金、钻石）。可以在创建类别数据时指定类别的顺序，或者使用 ordered=True 参数来设定有序类别。

python"># 创建有序的教育水平类别
education_levels = pd.Categorical(['小学', '高中', '大学', '初中', '高中'],categories=['小学', '初中', '高中', '大学'],ordered=True
)print(education_levels)

输出结果：

python">[小学, 高中, 大学, 初中, 高中]
Categories (4, object): [小学 < 初中 < 高中 < 大学]

在这个示例中，创建了一个有序的类别数据，Pandas将 小学、初中、高中 和 大学 按照指定顺序排列。

有序类别数据可以进行比较操作，Pandas会根据指定的顺序进行比较。

python"># 比较教育水平
print(education_levels > '初中')

输出结果：

python">[False  True  True False  True]

通过这种方式，Pandas可以根据类别的顺序进行逻辑判断，这是处理有序类别数据的一个重要功能。

3.类别数据的内存优化

类别数据的主要优势之一就是能够显著减少内存的占用，尤其是对于含有大量重复值的列。

python"># 创建一个包含大量重复值的DataFrame
import numpy as npN = 100000
data = {'城市': np.random.choice(['北京', '上海', '广州', '深圳'], size=N),'性别': np.random.choice(['男', '女'], size=N)
}df_normal = pd.DataFrame(data)
df_category = df_normal.copy()# 将城市和性别列转换为类别数据类型
df_category['城市'] = df_category['城市'].astype('category')
df_category['性别'] = df_category['性别'].astype('category')# 比较内存占用
print("普通数据框内存占用:")
print(df_normal.memory_usage(deep=True))print("\n类别数据框内存占用:")
print(df_category.memory_usage(deep=True))

输出结果示例：

python">普通数据框内存占用:
Index        128
城市     8000100
性别     8000100
dtype: int64类别数据框内存占用:
Index        128
城市      404128
性别      404128
dtype: int64

从结果可以看出，类别数据的内存占用远低于普通的字符串类型。在大规模数据集上，使用类别数据可以显著减少内存使用，提高数据处理的效率。

4.将类别数据转换为虚拟变量

在进行机器学习时，类别数据通常需要转换为虚拟变量（one-hot encoding），以便模型能够处理这些数据。Pandas提供了 get_dummies() 函数，可以轻松实现这一转换。

python"># 对城市和性别列进行one-hot编码
df_dummies = pd.get_dummies(df_category, columns=['城市', '性别'])
print(df_dummies.head())

输出结果：

python">   城市_上海  城市_北京  城市_广州  城市_深圳  性别_女  性别_男
0      0      1      0      0     0     1
1      1      0      0      0     1     0
2      0      0      1      0     1     0
3      0      0      0      1     1     0
4      1      0      0      0     0     1

通过 get_dummies() 函数，我们可以将类别数据转换为虚拟变量，使其适用于机器学习模型。

综上所述，在数据分析中，类别数据是一类常见且重要的数据类型，通常表示有限的离散值。Python的Pandas库为处理类别数据提供了强大的支持。通过将列转换为类别数据类型，Pandas不仅可以显著减少内存使用，还能提高数据处理的性能。本文介绍了如何创建和操作类别数据，涵盖了类别数据的增删、排序以及有序类别的处理，同时还探讨如何通过one-hot编码将类别数据转换为适合机器学习的格式。在大规模数据处理中，合理使用Pandas的类别数据功能，可以大幅提升数据处理效率，特别是在数据预处理和特征工程中尤为关键。