【愚公系列】《Python网络爬虫从入门到精通》035-DataFrame数据分组统计整理

embedded/2025/3/1 21:10:03/
标题详情
作者简介愚公搬代码
头衔华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。
近期荣誉2022年度博客之星TOP2,2023年度博客之星TOP2,2022年华为云十佳博主,2023年华为云十佳博主,2024年华为云十佳博主等。
博客内容.NET、Java、Python、Go、Node、前端、IOS、Android、鸿蒙、Linux、物联网、网络安全、大数据、人工智能、U3D游戏、小程序等相关领域知识。
欢迎👍点赞、✍评论、⭐收藏

文章目录

  • 🚀前言
  • 🚀一、DataFrame数据分组统计整理
    • 🔎1.`groupby` 方法概述
    • 🔎2.参数详解
    • 🔎3.分组统计场景与实例
      • 🦋3.1 单列分组统计
      • 🦋3.2 多列分组统计
      • 🦋3.3 分组后指定列计算
    • 🔎4.分组数据迭代
    • 🔎5.通过字典/Series分组统计
      • 🦋5.1 字典分组
      • 🦋5.2 Series分组
    • 🔎6.注意事项
    • 🔎7.附:常见聚合函数


🚀前言

在数据分析过程中,数据的分组统计是揭示数据内在规律的重要方法。无论是对销售数据进行汇总,还是分析用户行为,合理的分组统计可以帮助我们更清晰地理解数据背后的趋势和模式。Pandas库中的DataFrame为我们提供了强大的工具,使得分组统计变得简单而高效。

本文将深入探讨如何在DataFrame中进行数据分组和统计整理。我们将介绍如何使用Pandas的groupby功能,进行多种汇总操作,包括计数、求和、平均值等。同时,我们还会展示如何处理复杂数据场景,比如多重分组和自定义聚合函数。通过具体的示例和实用技巧,帮助你掌握数据分组的核心思路,提高数据分析的准确性和效率。

🚀一、DataFrame数据分组统计整理

🔎1.groupby 方法概述

DataFrame.groupby() 是 Pandas 中用于数据分组统计的核心方法,支持灵活的分组规则和聚合操作,功能类似 SQL 的 GROUP BY。语法如下:

python">DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False
)

🔎2.参数详解

参数说明
by分组依据:列名、列名列表、字典、Series 或函数
axis分组方向:0 按列分组(默认),1 按行分组
level多层索引时指定层级(默认 None
as_index是否以分组键为索引:True(默认),False 返回普通索引
sort是否对分组结果排序:True(默认),False 保留原始顺序
group_keys是否保留分组键:True(默认),False 隐藏分组键
observed分类数据分组时,是否仅显示观测值:False(默认显示所有值)

🔎3.分组统计场景与实例

🦋3.1 单列分组统计

场景:按“一级分类”分组统计销量总和
代码:

python">import pandas as pd  #导入pandas模块
#设置数据显示的列数和宽度
pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
df=pd.read_csv(

http://www.ppmy.cn/embedded/169150.html

相关文章

ssh配置 远程控制 远程协作 github本地配置

0.设备版本 windows11 ubuntu24.0.4 1.1 在 Linux 上启用 SSH 服务 首先,确保 Linux 计算机上安装并启用了 SSH 服务。 安装和启动 OpenSSH 服务(如果未安装) # 在终端安装 OpenSSH 服务(如果尚未安装) sudo apt …

行为型模式 - 状态模式 (State Pattern)

行为型模式 - 状态模式 (State Pattern) 状态模式是一种行为设计模式,它允许对象在其内部状态改变时改变它的行为,对象看起来似乎修改了它的类。下面为你介绍几个状态模式的经典案例。 // 抽象状态类 abstract class LiftState {protected Lift lift;pu…

Brave 132 编译指南 Android 篇 - 初始化构建环境 (六)

1. 引言 在成功配置好 Python、Node.js 等基础开发环境并切换到正确的 Brave 版本分支之后,我们来到了编译前的最后一个关键环节:初始化 Brave 浏览器的构建环境。这个过程就好比为一场盛大的演出搭建舞台、调试灯光音响,确保所有必要的组件…

HTTP~文件 MIME 类型

MIME(Multipurpose Internet Mail Extensions)类型,即多用途互联网邮件扩展类型,是一种标准,用来表示文档、文件或字节流的性质和格式。最初是为了在电子邮件系统中支持非 ASCII 字符文本、二进制文件附件等而设计的&a…

抖音生活服务加强探店内容治理,2024年达人违规率下降30%

发布 | 大力财经 2月27日,抖音生活服务发布《2024抖音生活服务消费者权益保护年度报告》(以下简称“报告”)。报告显示,过去一年,抖音生活服务针对消费者反感的虚假、夸张探店内容,开展了专项治理。通过一…

网络安全应急响应中主机历史命令被删除 网络安全事件应急响应

17.1 网络安全应急响应概述 “居安思危,思则有备,有备无患。”网络安全应急响应是针对潜在发生的网络安全事件而采取的网络安全措施。本节主要阐述网络安全响应的概念、网络安全应急响应的发展、网络安全应急响应的相关要求。 17.1.1 网络安全应急响应概…

.sql文件怎么打开

.sql 文件是一个 SQL 脚本文件,通常包含了数据库的 SQL 查询语句,可以是创建数据库、创建表、插入数据、查询数据等操作。要打开并查看 .sql 文件,你可以使用以下几种方法: 1. 使用文本编辑器打开 .sql 文件是一个文本文件&…

【Excel】 Power Query抓取多页数据导入到Excel

抓取多页数据想必大多数人都会,只要会点编程技项的人都不会是难事儿。那么,如果只是单纯的利用Excel软件,我还真的没弄过。昨天,我就因为这个在网上找了好久发好久。 1、在数据-》新建查询-》从其他源-》自网站 ,如图 …