Hive:窗口函数[ntile, first_value,row_number() ,rank(),dens_rank()]和自定义函数

embedded/2025/2/2 13:29:44/

ntile 分组

它把有序的数据集合 平均分配 指定的数量(num )个桶中 , 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。
被称作窗口函数、序列函数或分析函数, 本质上是一种窗口函数,但由于其生成序列化编号的特性,也被称为序列函数;同时,由于窗口函数在某些数据库系统中被称为分析函数, NTILE 也常被归类为分析函数
使用场景: 常用于将数据分段,以便进行分组分析或计算分位数。

示例

 

first_value和last_value

窗口函数,常与 OVER 子句结合使用,以定义窗口的范围和排序规则 

示例

注意: 使用last_value需要指定窗口的范围,使用rows或rang,

如果没有指定的话,窗口函数的行为取决于数据库的具体实现.在某些数据库系统中,如果未明确指定窗口范围,LAST_VALUE 函数可能会返回整个结果集的最后一个值。但是,在Hive中,如果不指定窗口范围,LAST_VALUE 函数默认会将整个分区(在没有 PARTITION BY 子句的情况下,整个结果集就是一个分区)视为窗口,并为每一行返回整个窗口内的最后一个值。

 

FIRST_VALUELAST_VALUE 的行为可能因版本和实现而异。为了确保跨数据库系统的兼容性和可预测性,建议在使用这些函数时总是明确指定窗口范围(rows或rang)。这样可以避免因默认行为而导致的意外结果。

lag 和 lead

窗口函数

使用场景: 处理时间序列数据或需要比较当前记录与相邻记录

语法: 

 

3个排名函数

属于窗口函数, 格式: 排序函数 over( order by 字段 排序方式) 

row_number : 不存在并列名次

rank()  :并列名次情况,顺序跳跃递增

dense_rank() : 有并列名次情况,顺序递增

示例排序效果

row_number

rank()

dens_rank()

自定义函数

示例

 

 


http://www.ppmy.cn/embedded/158911.html

相关文章

SSM开发(六) SSM整合下的CURD增删改查操作(IDEA版)

目录 一、Mybatis实现增删改查操作(注解版) 1、User实体 2、Mybatis实现增删改查操作(注解版) ①增加 ②删除 ③修改 ④查询 ⑤查询操作where语句中含like 3、service层调用 二、Mybatis实现增删改查操作(XML版) 1、实体定义 2、Mybatis实现增删改查操作(XML版) ①…

深入解析 C++ 字符串处理:提取和分割的多种方法

在 C 编程中,字符串处理是一个常见的任务,尤其是在需要从字符串中提取特定数据时。本文将详细探讨如何使用 C 标准库中的工具(如 std::istringstream 和 std::string 的成员函数)来提取和分割字符串,并分析不同方法的适…

升级到Mac15.1后pod install报错

升级Mac后,Flutter项目里的ios项目运行 pod install报错, 遇到这种问题,不要着急去百度,大概看一下报错信息,每个人遇到的问题都不一样。 别人的解决方法并不一定适合你; 下面是报错信息: #…

读书笔记--分布式服务架构对比及优势

本篇是在上一篇的基础上,主要对共享服务平台建设所依赖的分布式服务架构进行学习,主要记录和思考如下,供大家学习参考。随着企业各业务数字化转型工作的推进,之前在传统的单一系统(或单体应用)模式中&#…

RabbitMQ 架构分析

文章目录 前言一、RabbitMQ架构分析1、Broker2、Vhost3、Producer4、Messages5、Connections6、Channel7、Exchange7、Queue8、Consumer 二、消息路由机制1、Direct Exchange2、Topic Exchange3、Fanout Exchange4、Headers Exchange5、notice5.1、备用交换机(Alter…

Java动态代理:原理与实现

在Java编程中,代理模式是一种常见的设计模式,它允许我们通过一个代理对象来控制对另一个对象的访问。代理模式的主要目的是在不改变原始类代码的情况下,增强或修改其行为。Java中的代理分为静态代理和动态代理两种。本文将重点介绍动态代理&a…

计算机网络一点事(21)

第四章 网络层 功能:服务传输层,封装ip数据报(主机到主机) IP地址以32b表示,以8b为一组记十进制数 异构网络互连:网络结构,主机类型不同 路由器相互配合出IP数据报生成表,根据表…

数组排序算法

数组排序算法 用C语言实现的数组排序算法。 排序算法平均时间复杂度最坏时间复杂度最好时间复杂度空间复杂度是否稳定适用场景QuickO(n log n)O(n)O(n log n)O(log n)不稳定大规模数据,通用排序BubbleO(n)O(n)O(n)O(1)稳定小规模数据,教学用途InsertO(n)…