Hive:窗口函数[ntile, first_value,row_number() ,rank(),dens_rank()]和自定义函数

server/2025/2/6 2:47:44/

ntile 分组

它把有序的数据集合 平均分配 指定的数量(num )个桶中 , 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。
被称作窗口函数、序列函数或分析函数, 本质上是一种窗口函数,但由于其生成序列化编号的特性,也被称为序列函数;同时,由于窗口函数在某些数据库系统中被称为分析函数, NTILE 也常被归类为分析函数
使用场景: 常用于将数据分段,以便进行分组分析或计算分位数。

示例

 

first_value和last_value

窗口函数,常与 OVER 子句结合使用,以定义窗口的范围和排序规则 

示例

注意: 使用last_value需要指定窗口的范围,使用rows或rang,

如果没有指定的话,窗口函数的行为取决于数据库的具体实现.在某些数据库系统中,如果未明确指定窗口范围,LAST_VALUE 函数可能会返回整个结果集的最后一个值。但是,在Hive中,如果不指定窗口范围,LAST_VALUE 函数默认会将整个分区(在没有 PARTITION BY 子句的情况下,整个结果集就是一个分区)视为窗口,并为每一行返回整个窗口内的最后一个值。

 

FIRST_VALUELAST_VALUE 的行为可能因版本和实现而异。为了确保跨数据库系统的兼容性和可预测性,建议在使用这些函数时总是明确指定窗口范围(rows或rang)。这样可以避免因默认行为而导致的意外结果。

lag 和 lead

窗口函数

使用场景: 处理时间序列数据或需要比较当前记录与相邻记录

语法: 

 

3个排名函数

属于窗口函数, 格式: 排序函数 over( order by 字段 排序方式) 

row_number : 不存在并列名次

rank()  :并列名次情况,顺序跳跃递增

dense_rank() : 有并列名次情况,顺序递增

示例排序效果

row_number

rank()

dens_rank()

自定义函数

示例

 

 


http://www.ppmy.cn/server/165306.html

相关文章

Vue06

目录 一、声明式导航-导航链接 1.需求 2.解决方案 3.通过router-link自带的两个样式进行高亮 二、声明式导航的两个类名 1.router-link-active 2.router-link-exact-active 三、声明式导航-自定义类名(了解) 1.问题 2.解决方案 3.代码演示 四…

物联网智能项目之——智能家居项目的实现!

成长路上不孤单😊😊😊😊😊😊 【14后😊///计算机爱好者😊///持续分享所学😊///如有需要欢迎收藏转发///😊】 今日分享关于物联网智能项目之——智能家居项目…

【4】阿里面试题整理

[1]. 介绍一下数据库死锁 数据库死锁是指两个或多个事务,由于互相请求对方持有的资源而造成的互相等待的状态,导致它们都无法继续执行。 死锁会导致事务阻塞,系统性能下降甚至应用崩溃。 比如:事务T1持有资源R1并等待R2&#x…

工业相机如何获得更好的图像色彩

如何获得更好的图像色彩 大部分的工业自动化检测中对物体的色彩信息并不敏感,因此会使用黑白的相机,但是在显微镜成像、颜色分类识别等领域,相机的色彩还原就显得格外重要,在调节相机色彩方面的参数时,有以下几个方面需…

Java Stream实战_函数式编程的新方式

1. 引言 1.1 Java Stream简介 Stream是什么:Stream是Java 8引入的一个接口,用于处理集合数据。与传统集合的区别:Stream不存储数据,而是通过管道操作(如过滤、映射)来处理数据。主要特点:惰性求值、链式调用、函数式编程风格。1.2 函数式编程基础 什么是函数式编程:一…

从零开始实现一个双向循环链表:C语言实战

文章目录 1链表的再次介绍2为什么选择双向循环链表?3代码实现:从初始化到销毁1. 定义链表节点2. 初始化链表3. 插入和删除节点4. 链表的其他操作5. 打印链表和判断链表是否为空6. 销毁链表 4测试代码5链表种类介绍6链表与顺序表的区别7存储金字塔L0: 寄存…

Nginx的路径匹配规则 笔记250203

Nginx的路径匹配规则 Nginx 的路径匹配规则主要通过 location 指令实现,用于根据请求的 URI(路径)将请求路由到不同的处理逻辑。其匹配规则灵活且功能强大,但也需要谨慎配置以避免冲突。以下是 Nginx 路径匹配规则的详细解析&…

[权限提升] Windows 提权 维持 — 系统错误配置提权 - Trusted Service Paths 提权

关注这个专栏的其他相关笔记:[内网安全] 内网渗透 - 学习手册-CSDN博客 0x01:Trusted Service Paths 提权原理 Windows 的服务通常都是以 System 权限运行的,所以系统在解析服务的可执行文件路径中的空格的时候也会以 System 权限进行解析&a…