Spark窗口函数

news/2024/11/1 11:08:48/

1、 Spark中的窗口函数 
        窗口就是单纯在行后面加一个列
        可以套多个窗口函数,但彼此之间不能相互引用,是独立的
        
        窗口函数会产生shuffle
        
        over就是用来划分窗口的

    (1) 分组聚合里面的函数,基本都可以用于窗口函数
           count 、 avg 、 max 、 min
           DENSE_RANK :  连续排序    11122333
           RANK :        跳跃排名    11144666
    
    
    (2) 窗口函数  排序和不排序的区别 :
           不排序  -- 全局结果,同一个组内每一条数据后面的值都一样
           排序    --  累计, 第三条数据是第一条和第二条数据的和
           
           
    (3) 凡是通过自己和自己关联的, 都是可以通过窗口实现的
        
        sum(case when round(r/2)=zhongweishu then sco else 0 end)   -- 下标等于中位数返回true,做sum(sco)求和 , 否则不求和
        


2、 Spark  --  DF与RDD之间的相互转换
    
    创建好 SparkSession 之后可以直接获取 SparkContext
    
    DF比RDD多了列名和列类型
    
    (1) RDD  转换成  DF    --   studentRDD.toDF
            需要注意字段的数量和顺序、 需要导入隐式转换
    
    (2) DF  转换成  RDD    --   studentDF.rdd
    
    

3、 Spark 自定义函数
        所有可以写sql的框架都可以自定义函数
        
        两种情况 :  用在DSL、 用在sql 
    
    (1) 定义自定义函数  
        val ageAdd: UserDefinedFunction = udf((age: Int) => {
          age + 1
        })
        
        
    (2) DSL 可以直接调用 自定义函数
    
    (3) 需要自定义函数, 并注册  才能在sql中使用
        // 注册自定义函数
        spark.udf.register("ageAdd", ageAdd)
        
       


http://www.ppmy.cn/news/1543562.html

相关文章

大数据-199 数据挖掘 机器学习理论 - 决策树 模型 决策与条件 香农熵计算

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

KVM 虚拟机Anolis OS 8.9 下利用宝塔面板中的 Docker 配置 Nextcloud + onlyoffice

第一部分:安装配置 nextcloud 准备 (1)启动一个 Anolis OS 8.9 虚拟机,见下图。该虚拟机为 anlisos8…0.2 虚拟机的 ssh、hostname 、IP地址都已配置好。 (2)宝塔面板也已安装好docker 一、环境 do…

Certimate - 免费开源的 SSL 证书托管、自动续签工具,开发者维护 90 天免费证书的救星

很完美的 SSL 证书托管工具,安全可靠,简单易用。 Certimate 是一个由国人开发的 SSL 证书管理工具,提供一个 web UI 界面让我们可以用简单直观的方式来管理 SSL 证书,申请证书、部署证书,以及证书到期续签都是自动完成…

网络爬虫的定义

网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面(通常是首页)开始,读取网页…

Java面试经典 150 题.P80. 删除有序数组中的重复项 II(004)

本题来自:力扣-面试经典 150 题 面试经典 150 题 - 学习计划 - 力扣(LeetCode)全球极客挚爱的技术成长平台https://leetcode.cn/studyplan/top-interview-150/ 题解: class Solution {public int removeDuplicates(int[] nums)…

力扣题目解析--整数反转

题目 给你一个 32 位的有符号整数 x ,返回将 x 中的数字部分反转后的结果。 如果反转后整数超过 32 位的有符号整数的范围 [−231, 231 − 1] ,就返回 0。 假设环境不允许存储 64 位整数(有符号或无符号)。 示例 1&#xff1a…

TensorFlow_T4 猴痘病识别

目录 一、前言 二、前期准备 1、设置GPU 2、导入数据 3、查看数据 三、数据预处理 1、加载数据 2、可视化数据 3、再次检查数据 4、配置数据集 四、构建CNN网络 五、编译 六、训练模型 七、模型评估 1、Loss and Acurracy图 2、指定图片进行预测 一、前言 &#…

css 对称按钮,中间斜平行间隔,两头半圆

序:稍一看,挺好看,看也简单,实现起来应该也是一样,没什么难度,分分钟完成。后面将其他的UI做了七七八八后,到这个按钮的时候,不知怎么,突然卡机了,想不起来怎…