标题 | 详情 |
---|---|
作者简介 | 愚公搬代码 |
头衔 | 华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。 |
近期荣誉 | 2022年度博客之星TOP2,2023年度博客之星TOP2,2022年华为云十佳博主,2023年华为云十佳博主,2024年华为云十佳博主等。 |
博客内容 | .NET、Java、Python、Go、Node、前端、IOS、Android、鸿蒙、Linux、物联网、网络安全、大数据、人工智能、U3D游戏、小程序等相关领域知识。 |
欢迎 | 👍点赞、✍评论、⭐收藏 |
文章目录
- 🚀前言
- 🚀一、DataFrame数据分组统计整理
- 🔎1.`groupby` 方法概述
- 🔎2.参数详解
- 🔎3.分组统计场景与实例
- 🦋3.1 单列分组统计
- 🦋3.2 多列分组统计
- 🦋3.3 分组后指定列计算
- 🔎4.分组数据迭代
- 🔎5.通过字典/Series分组统计
- 🦋5.1 字典分组
- 🦋5.2 Series分组
- 🔎6.注意事项
- 🔎7.附:常见聚合函数
🚀前言
在数据分析过程中,数据的分组统计是揭示数据内在规律的重要方法。无论是对销售数据进行汇总,还是分析用户行为,合理的分组统计可以帮助我们更清晰地理解数据背后的趋势和模式。Pandas库中的DataFrame为我们提供了强大的工具,使得分组统计变得简单而高效。
本文将深入探讨如何在DataFrame中进行数据分组和统计整理。我们将介绍如何使用Pandas的groupby功能,进行多种汇总操作,包括计数、求和、平均值等。同时,我们还会展示如何处理复杂数据场景,比如多重分组和自定义聚合函数。通过具体的示例和实用技巧,帮助你掌握数据分组的核心思路,提高数据分析的准确性和效率。
🚀一、DataFrame数据分组统计整理
🔎1.groupby
方法概述
DataFrame.groupby()
是 Pandas 中用于数据分组统计的核心方法,支持灵活的分组规则和聚合操作,功能类似 SQL 的 GROUP BY
。语法如下:
python">DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False
)
🔎2.参数详解
参数 | 说明 |
---|---|
by | 分组依据:列名、列名列表、字典、Series 或函数 |
axis | 分组方向:0 按列分组(默认),1 按行分组 |
level | 多层索引时指定层级(默认 None ) |
as_index | 是否以分组键为索引:True (默认),False 返回普通索引 |
sort | 是否对分组结果排序:True (默认),False 保留原始顺序 |
group_keys | 是否保留分组键:True (默认),False 隐藏分组键 |
observed | 分类数据分组时,是否仅显示观测值:False (默认显示所有值) |
🔎3.分组统计场景与实例
🦋3.1 单列分组统计
场景:按“一级分类”分组统计销量总和
代码:
python">import pandas as pd #导入pandas模块
#设置数据显示的列数和宽度
pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
df=pd.read_csv(