【愚公系列】《Python网络爬虫从入门到精通》035-DataFrame数据分组统计整理

news/2025/2/27 13:59:00/

标题	详情
作者简介	愚公搬代码
头衔	华为云特约编辑，华为云云享专家，华为开发者专家，华为产品云测专家，CSDN博客专家，CSDN商业化专家，阿里云专家博主，阿里云签约作者，腾讯云优秀博主，腾讯云内容共创官，掘金优秀博主，亚马逊技领云博主，51CTO博客专家等。
近期荣誉	2022年度博客之星TOP2，2023年度博客之星TOP2，2022年华为云十佳博主，2023年华为云十佳博主，2024年华为云十佳博主等。
博客内容	.NET、Java、Python、Go、Node、前端、IOS、Android、鸿蒙、Linux、物联网、网络安全、大数据、人工智能、U3D游戏、小程序等相关领域知识。
欢迎	👍点赞、✍评论、⭐收藏

文章目录

🚀前言
🚀一、DataFrame数据分组统计整理
- 🔎1.`groupby` 方法概述
- 🔎2.参数详解
- 🔎3.分组统计场景与实例
- - 🦋3.1 单列分组统计
  - 🦋3.2 多列分组统计
  - 🦋3.3 分组后指定列计算
- 🔎4.分组数据迭代
- 🔎5.通过字典/Series分组统计
- - 🦋5.1 字典分组
  - 🦋5.2 Series分组
- 🔎6.注意事项
- 🔎7.附：常见聚合函数

🚀前言

在数据分析过程中，数据的分组统计是揭示数据内在规律的重要方法。无论是对销售数据进行汇总，还是分析用户行为，合理的分组统计可以帮助我们更清晰地理解数据背后的趋势和模式。Pandas库中的DataFrame为我们提供了强大的工具，使得分组统计变得简单而高效。

本文将深入探讨如何在DataFrame中进行数据分组和统计整理。我们将介绍如何使用Pandas的groupby功能，进行多种汇总操作，包括计数、求和、平均值等。同时，我们还会展示如何处理复杂数据场景，比如多重分组和自定义聚合函数。通过具体的示例和实用技巧，帮助你掌握数据分组的核心思路，提高数据分析的准确性和效率。

🚀一、DataFrame数据分组统计整理

🔎1.`groupby` 方法概述

DataFrame.groupby() 是 Pandas 中用于数据分组统计的核心方法，支持灵活的分组规则和聚合操作，功能类似 SQL 的 GROUP BY。语法如下：

python">DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False
)

🔎2.参数详解

参数	说明
`by`	分组依据：列名、列名列表、字典、Series 或函数
`axis`	分组方向：`0` 按列分组（默认），`1` 按行分组
`level`	多层索引时指定层级（默认 `None`）
`as_index`	是否以分组键为索引：`True`（默认），`False` 返回普通索引
`sort`	是否对分组结果排序：`True`（默认），`False` 保留原始顺序
`group_keys`	是否保留分组键：`True`（默认），`False` 隐藏分组键
`observed`	分类数据分组时，是否仅显示观测值：`False`（默认显示所有值）

🔎3.分组统计场景与实例

🦋3.1 单列分组统计

场景：按“一级分类”分组统计销量总和
代码：

python">import pandas as pd  #导入pandas模块
#设置数据显示的列数和宽度
pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
df=pd.read_csv(