电影评分数据分析案例-Spark SQL

news/2025/3/18 2:48:02/

# cording:utf8from pyspark.sql import SparkSession
from pyspark.sql.types import IntegerType, StringType, StructType
import pyspark.sql.functions as Fif __name__ == '__main__':# 0.构建执行环境入口对象SparkSessionspark = SparkSession.builder.\appName('movie_demo').\master('local[*]').\getOrCreate()sc = spark.sparkContext# 1.读取文件schema = StructType().add('user_id', StringType(), nullable=True). \add('movie_id', IntegerType(), nullable=True).\add('rank', IntegerType(), nullable=True).\add('ts', StringType(), nullable=True)df = spark.read.format('csv').\option('sep', '\t').\option('header', False).\option('encoding', 'utf-8').\schema(schema=schema).\load('../input/u.data')# TODO 1:用户平均分df.groupBy('user_id').\avg('rank').\withColumnRenamed('avg(rank)', 'avg_rank').\withColumn('avg_rank', F.round('avg_rank', 2)).\orderBy('avg_rank', ascending=False).\show()# TODO 2:电影的平均分查询df.createTempView('movie')spark.sql('''SELECT movie_id, ROUND(AVG(rank),2) as avg_rank FROM movie GROUP BY movie_id ORDER BY avg_rank DESC''').show()# TODO 3:查询大于平均分的电影数量print('大于平均分电影数量为：', df.where(df['rank'] > df.select(F.avg('rank')).first()['avg(rank)']).count())# TODO 4：查询高分电影中（>3）打分次数最多的用户，此人打分的平均分# 找出打分次数最多的人user_id = df.where('rank>3').\groupBy('user_id').\count(). \withColumnRenamed('count', 'cnt').\orderBy('cnt', ascennding=False).\limit(1).\first()['user_id']# 算平均分df.filter(df['user_id'] == user_id).\select(F.round(F.avg('rank'), 2)).show()# TODO 5: 查询每个用户的平均分打分，最低打分，最高打分df.groupBy('user_id').\agg(F.round(F.avg('rank'), 2).alias('avg_rank'),F.min('rank').alias('min_rank'),F.max('rank').alias('max_rank')).show()# TODO 6:查询评分超过100次的电影的平均分 排名TOP10df.groupBy('movie_id').\agg(F.round(F.count('movie_id'),2).alias('cnt'),F.round(F.avg('rank'),2).alias('avg_rank')).\where('cnt > 100').\orderBy('avg_rank', ascending=False).\limit(10).\show()'''
1.agg:它是GroupedData对象的API，作用是：在里面可以写多个聚合
2.alias：它是Column对象的API，可以针对一个列进行改名
3.withColumnRenamed：它是DataFrame的API，可以对DF中的列进行改名，一次改一个列，改多个列可以链式调用
4.orderBy：DataFrame的API，进行排序，参数1是被排序的列，参数2是 升序（True）或降序（False）
5.first：DataFrame的API，取出DF的第一行数据，返回值结果是Row对象
## Row对象：就是一个数组，可以通过row['列名']来取出当前行中，某一列具体数值，返回值不再是DF 或者GroupedData 或者Column 而是具体的值（字符串、数字等）
'''

文章来源:https://blog.csdn.net/2202_75347029/article/details/133996839
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.ppmy.cn/news/1172930.html 如若内容造成侵权/违法违规/事实不符，请联系我的编程人生网邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

电影评分数据分析案例-Spark SQL

相关文章

Ubuntu挂载NFS(Network File System) ，怎么解决权限不一致的问题？

强大的虚拟机软件 VMware Fusion Pro 13中文最新 for mac

编程小白的自学笔记十七（python办公自动化操作EXCEL表格之作图）

uniapp canvas 无法获取 webgl context 的问题解决

React 中 keys 的作用是什么？

前端性能优化 - 虚拟滚动

kafka单机部署

Mysql 事务的实现原理