(PySpark)RDD实验实战——求商品销量排行

ops/2024/11/15 8:36:00/
实验环境:

提前准备好findspark,pyspark,py4j等库

import findspark
from pyspark import SparkContext, SparkConffindspark.init()
#初始化spark,默认为你所设定的环境变量
conf = SparkConf().setAppName("jsytest").setMaster("local[4]")
#创建一个SparkConf对象,用于配置Spark应用程序,用setAppName来设置程序名称,
#用setMaster来设置运行模式和线程数,这里为本地模式,4个线程
sc = SparkContext(conf=conf)
#创建一个SparkContext对象,它是与Spark集群通信的主要接口
# sc.stop()  #关闭spark上下文
goods = [("Book",30,50),("Pen",5,80),("Notebook",15,60),("Pencil",2,70),("Eraser",3,50)]
#创建所需的数据集(商品名,价格,销量)
n=2
#所需的前n个排序
rdd = sc.parallelize(goods)
#用parallelize方法将goods中的数据结构并行化成RDD
rdd.sortBy(lambda x:x[2], ascending=True,numPartitions=3).collect()
#rdd.sortBy()用于对RDD中的元素按照指定的排序键进行排序
#rdd.sortBy(keyfunc, ascending=True, numPartitions=None)
#keyfunc,是从 RDD 的每个元素中提取用于排序的键,多分区的话可以通过指定key的排序,来达到操作目的
#ascending表示排序的顺序。 True为升序,False为降序。
#numPartitions表示最终返回结果RDD的分区数。
#这里取的是数据中的第三分区销量作为key,返回的值也是三个分区
ss=rdd.sortBy(lambda x:x[2], ascending=True,numPartitions=3).collect()
##把最终排序导入ss数组中
c=rdd.count()-1
#取数组上限
ysj=0
#记录循环次数
while ysj<=n-1:
#循环输出print("销售第",ysj+1,"多的:",ss[c-ysj])ysj=ysj+1

所有代码如下

import findspark
from pyspark import SparkContext, SparkConf
findspark.init()
conf = SparkConf().setAppName("jsytest").setMaster("local[4]")
sc = SparkContext(conf=conf
goods = [("Book",30,50),("Pen",5,80),("Notebook",15,60),("Pencil",2,70),("Eraser",3,50)]
n=2
rdd = sc.parallelize(goods)
rdd.sortBy(lambda x:x[2], ascending=True,numPartitions=3).collect()
ss=rdd.sortBy(lambda x:x[2], ascending=True,numPartitions=3).collect()
c=rdd.count()-1
ysj=0
while ysj<=n-1:print("销售第",ysj+1,"多的:",ss[c-ysj])ysj=ysj+1

结果演示

销售第 1 多的: ('Pen', 5, 80)
销售第 2 多的: ('Pencil', 2, 70)


http://www.ppmy.cn/ops/114343.html

相关文章

“屌丝三证”和“高富帅三证”分别指什么,为何会有这样的称呼?

工程行业是一个非常重视考证的行业&#xff0c;考证对于提升能力甚至身价&#xff0c;帮助都是非常巨大的&#xff0c;你有多厉害&#xff0c;拿证书来证明。工程类证书就是国家衡量专业水平的一个重要门槛&#xff0c;跟大学毕业证一样。 工程行业圈内人士&#xff0c;或参加过…

superset 解决在 mac 电脑上发送 slack 通知的问题

参考文档: https://superset.apache.org/docs/configuration/alerts-reports/ 核心配置: FROM apache/superset:3.1.0USER rootRUN apt-get update && \apt-get install --no-install-recommends -y firefox-esrENV GECKODRIVER_VERSION0.29.0 RUN wget -q https://g…

重生之我在Java世界------学单例设计模式

什么是单例设计模式&#xff1f; 单例模式是面向对象编程中最简单却又最常用的设计模式之一。它的核心思想是确保一个类只有一个实例&#xff0c;并提供一个全局访问点。本文将深入探讨单例模式的原理、常见实现方法、优缺点&#xff0c;以及在使用过程中可能遇到的陷阱。 单…

Zabbix 部署----安装 Zabbix(监控服务器)

目录 zabbix 官网: 1、准备一台虚拟机 1.整理配置yum源(192.xx.xx.10) 2.设置主机名(192.xx.xx.10) 3.防火墙 4.selinux 2、准备Zabbix-repo 使用阿里提供的zabbixYUM源 3、安装Zabbix服务器 4、初始化数据库 1.安装数据库 2.启动数据库 3.授权zabbix账号 4.初始化…

【原创 架构设计】多级缓存的应用、常见问题与解决方式

1. 简介 多级缓存是一种常见的性能优化手段&#xff0c;对于多级缓存一般意义上的理解具体主要实现其实指的就是本地缓存和分布式缓存。 本地缓存一般采用Caffeine或者Guava Cache来进行实现&#xff0c;而分布式缓存一般采用Redis来进行实现。 2. 业务流程 业务线程先在本…

力扣题解2374

大家好&#xff0c;欢迎来到无限大的频道。 今日继续给大家带来力扣题解。 题目描述&#xff08;中等&#xff09;&#xff1a; 边积分最高的节点 给你一个有向图&#xff0c;图中有 n 个节点&#xff0c;节点编号从 0 到 n - 1 &#xff0c;其中每个节点都 恰有一条 出边。…

儿童与成人目标检测系统源码分享

儿童与成人目标检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Comput…

高级I/O知识分享【5种IO模型 || select || poll】

博客主页&#xff1a;花果山~程序猿-CSDN博客 文章分栏&#xff1a;Linux_花果山~程序猿的博客-CSDN博客 关注我一起学习&#xff0c;一起进步&#xff0c;一起探索编程的无限可能吧&#xff01;让我们一起努力&#xff0c;一起成长&#xff01; 目录 一&#xff0c;前文 2&a…