【大数据处理与可视化】五、数据聚合与分组运算

news/2024/10/18 0:20:39/

【大数据处理与可视化】五、数据聚合与分组运算

  • 实验目的
  • 实验内容
  • 实验步骤
    • 一、案例——运动员信息的分组与聚合
      • 1、统计男篮、女篮运动员的平均年龄、身高、体重
      • 2、统计男篮运动员的平均年龄、身高、体重的极差值
      • 3、统计男篮运动员的体质指数
  • 实验小结


实验目的

  1. 能够熟练运用groupby()方法对数据进行分组。
  2. 能够熟练运用统计方法和聚合操作对数据进行聚合,及其它常用的分组级运算方法。
  3. 能够通过借助网络资源,通过自主学习解决分组聚合中遇到的问题。

实验内容

       运动员信息的分组与聚合:根据给定的运动员信息表,将统计的运动员基本信息进行归类,筛选出所有篮球运动员的基本信息,以统计篮球运动员的以下几个测试指标:
(1)统计篮球运动员的平均年龄、身高、体重。
(2)统计男篮运动员的年龄、身高、体重的极差值。
(3)统计篮球运动员的体质指数。


实验步骤

一、案例——运动员信息的分组与聚合

1、统计男篮、女篮运动员的平均年龄、身高、体重

代码:

data_group=df.groupby('项目')
df_basketball = dict([x for x in data_group])['篮球']
df_basketballgroupby_sex= df_basketball.groupby('性别')
groupby_sex.mean()

截图:

在这里插入图片描述

在这里插入图片描述


2、统计男篮运动员的平均年龄、身高、体重的极差值

代码:

basketball_male.agg({'年龄(岁)':range_data_group,'身高(cm)':range_data_group,'体重(kg)':range_data_group,
})

截图:

在这里插入图片描述


3、统计男篮运动员的体质指数

代码:

def outer(num):def ath_bmi(sum_bmi):weight=df_basketball['体重(kg)']height=df_basketball['身高(cm)']sum_bmi = weight / (height/100)**2return num+sum_bmireturn ath_bmi
all_bmi = df_basketball['体质指数']
df_basketball['体质指数'] = df_basketball[['体质指数']].apply(outer(all_bmi))
df_basketball

截图:

在这里插入图片描述


实验小结

       通过本次实验,我能熟练运用groupby()方法对数据进行分组,能够熟练运用统计方法和聚合操作对数据进行聚合,及其它常用的分组级运算方法。在实验过程中遇到了很多硬件或者是软件上的问题,请教老师,询问同学,上网查资料,都是解决这些问题的途径。最终将遇到的问题一一解决最终完成实验。
注意事项:
1、有疑问前,知识学习前,先用搜索。
2、熟读写基础知识,学得会不如学得牢。
3、选择交流平台,如QQ群,网站论坛等。
4、尽我能力帮助他人,在帮助他人的同时你会深刻巩固知识。


http://www.ppmy.cn/news/101893.html

相关文章

安装卸载测试用例

安装测试用例 1. 启动安装程序 序号 01 功能描述 测试自动启动安装程序 用例目的 测试系统是否能够自动启动安装程序 测试类型 安装测试 前提条件 程序的安装文件已经存在安装盘,电脑安装了CD-ROM或其他光驱 测试方法与步骤 输入 插入系统的安装盘 …

切片工具tippecanoe的全网最详细的解释

1.下载和安装 tippecanoe工具是mapbox官方提供的一个服务端切片工具,因此它是运行在服务器上的,它比较友好的支持mac和linux机器。对于windows来讲,就比较麻烦了。 首先对于mac系统,你只需配置好自己的homebrew,保证homebrew能够正常下载东西。 然后只需要一个命令: …

SIGMOD2023|高维近似最近邻搜索:可信高效的距离比较操作

论文信息 论文题目:High-Dimensional Approximate Nearest Neighbor Search: with Reliable and Efficient Distance Comparison Operations 作者:Jianyang Gao, Cheng Long 单位:NTU,南洋理工大学 主要内容 当前ANNS算法的时…

keepalived脑裂后,近20min不能访问虚拟IP问题分析

问题现象和说明 真实的场景比较复杂,抽象起来可以用下面的图表示, #mermaid-svg-OmKwPLsGwcVuYnha {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-OmKwPLsGwcVuYnha .error-icon{fill:#5522…

sonar安装与使用

目录 一,sonar是什么 二,安装sonar (一)docker中安装sonar (二)liunx中安装sonar 三,sonar扫描代码 (一)扫描非maven项目代码 1,命令描述 2&#xff0…

音视频技术开发周刊 | 295

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 微软炸通Windows与ChatGPT全家桶!人手一个Copilot,AI宇宙降临 三位OpenAI掌舵人亲自撰文:我们应该如何治理超级智能? OpenA…

STL-algorithm-3

Partitions: is_partitioned template <class InputIterator, class UnaryPredicate> bool is_partitioned (InputIterator first, InputIterator last, UnaryPredicate pred); 如果pred返回true的范围[first&#xff0c;last&#xff09;中的所有元素都在其返回fals…

【网络技术】防火墙配置单机旁挂模式

组网需求 某公司网络部署Agile Controller服务器组&#xff0c;同时以旁挂方式部署FW于网络出口&#xff0c;如图1所示&#xff0c;要求&#xff1a; •用户角色不同&#xff0c;能访问的网络资源也不同&#xff08;在Agile Controller服务器中配置&#xff09;。 •用户角色…