【愚公系列】《Python网络爬虫从入门到精通》035-DataFrame数据分组统计整理

news/2025/2/27 13:59:00/
标题详情
作者简介愚公搬代码
头衔华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。
近期荣誉2022年度博客之星TOP2,2023年度博客之星TOP2,2022年华为云十佳博主,2023年华为云十佳博主,2024年华为云十佳博主等。
博客内容.NET、Java、Python、Go、Node、前端、IOS、Android、鸿蒙、Linux、物联网、网络安全、大数据、人工智能、U3D游戏、小程序等相关领域知识。
欢迎👍点赞、✍评论、⭐收藏

文章目录

  • 🚀前言
  • 🚀一、DataFrame数据分组统计整理
    • 🔎1.`groupby` 方法概述
    • 🔎2.参数详解
    • 🔎3.分组统计场景与实例
      • 🦋3.1 单列分组统计
      • 🦋3.2 多列分组统计
      • 🦋3.3 分组后指定列计算
    • 🔎4.分组数据迭代
    • 🔎5.通过字典/Series分组统计
      • 🦋5.1 字典分组
      • 🦋5.2 Series分组
    • 🔎6.注意事项
    • 🔎7.附:常见聚合函数


🚀前言

在数据分析过程中,数据的分组统计是揭示数据内在规律的重要方法。无论是对销售数据进行汇总,还是分析用户行为,合理的分组统计可以帮助我们更清晰地理解数据背后的趋势和模式。Pandas库中的DataFrame为我们提供了强大的工具,使得分组统计变得简单而高效。

本文将深入探讨如何在DataFrame中进行数据分组和统计整理。我们将介绍如何使用Pandas的groupby功能,进行多种汇总操作,包括计数、求和、平均值等。同时,我们还会展示如何处理复杂数据场景,比如多重分组和自定义聚合函数。通过具体的示例和实用技巧,帮助你掌握数据分组的核心思路,提高数据分析的准确性和效率。

🚀一、DataFrame数据分组统计整理

🔎1.groupby 方法概述

DataFrame.groupby() 是 Pandas 中用于数据分组统计的核心方法,支持灵活的分组规则和聚合操作,功能类似 SQL 的 GROUP BY。语法如下:

python">DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False
)

🔎2.参数详解

参数说明
by分组依据:列名、列名列表、字典、Series 或函数
axis分组方向:0 按列分组(默认),1 按行分组
level多层索引时指定层级(默认 None
as_index是否以分组键为索引:True(默认),False 返回普通索引
sort是否对分组结果排序:True(默认),False 保留原始顺序
group_keys是否保留分组键:True(默认),False 隐藏分组键
observed分类数据分组时,是否仅显示观测值:False(默认显示所有值)

🔎3.分组统计场景与实例

🦋3.1 单列分组统计

场景:按“一级分类”分组统计销量总和
代码:

python">import pandas as pd  #导入pandas模块
#设置数据显示的列数和宽度
pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
df=pd.read_csv(

http://www.ppmy.cn/news/1575259.html

相关文章

伪404兼容huawei生效显示404

根据上述思考,以下是详细的中文分步说明: --- **步骤 1:获取目标设备的User-Agent信息** 首先,我们需要收集目标设备的User-Agent字符串,包括: 1. **iPhone设备的User-Agent**: Mozi…

【C++】unordered系列容器的模拟实现

文章目录 Ⅰ. 前言Ⅱ. 对哈希表的改造一、模板参数列表的改造二、哈希表的迭代器① 迭代器的基础框架② 迭代器的常见函数实现③ 哈希表对迭代器的利用☠ 一个小坑,注意在哈希表中 typedef ... iterator 的时候,记得要将 typedef 语句放在 public 权限中…

【Python爬虫(83)】探秘an网数据爬取:合法合规下的技术探索

【Python爬虫】专栏简介:本专栏是 Python 爬虫领域的集大成之作,共 100 章节。从 Python 基础语法、爬虫入门知识讲起,深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑,覆盖网页、图片、音频等各类数据爬取&#xff…

基于Springboot的小说网站【附源码】

基于Springboot的小说网站 效果如下: 系统主页面 书库信息页面 书籍详情页面 推荐信息页面 小说推荐页面 书库信息页面 小说排行榜页面 系统管理页面 研究背景 随着互联网技术的快速发展,网络文学逐渐成为一种新兴的文学形式,吸引了大量读…

async和await解决回调函数地狱

目录 目的: 文件名称: 代码解释: 代码: 使用方法: 结论: 以下是代码的详细介绍,以及如何使用它。 目的: 这个示例展示了如何使用 async 和 await 语法来解决传统回调函数&am…

单片机 Bootloade与二进制文件的生成

单片机的 Bootloader 是一种特殊的程序,负责在单片机上电后初始化硬件、更新用户应用程序(固件),并将控制权移交给用户程序。以下是其运行机制和关键流程的详细说明: 1、单片机 Bootloader 的核心作用 固件更新&…

【Linux】调试工具GDB的使用及案例讲解

Linux系列 文章目录 Linux系列前言一、gdb的使用背景二、gdb的使用总结 本篇主要针对小白讲解,可以很多地方比较咯嗦 前言 GDB是Linux下一款强大的调试工具。GDB可以调试C、C、Java等语言,对于在Linux下工作的程序员来说,GDB是必不可少的调试…

一文2500字从0到1实现压测自动化!

大家好,我是小码哥,最近工作有点忙,一直在实现压测自动化的功能,今天来分享一下实现思路 我所在的业务线现在项目比较少了,所以最近一个月我都没有做业务测试,需求开发完后RD直接走免测就上线,…