Hive之窗口函数lag()/lead()

news/2024/11/19 15:29:52/

一、函数介绍

lag()与lead函数是跟偏移量相关的两个分析函数

通过这两个函数可以在一次查询中取出同一字段的前N行的数据(lag)和后N行的数据(lead)作为独立的列,从而更方便地进行进行数据过滤,该操作可代替表的自联接,且效率更高

lag()/lead()

lag(col,n,DEFAULT)用于统计窗口内往上第n行值
 第一个参数为列名
 第二个参数为往上第n行(可选,默认为1)
 第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)

lead()函数与lag()函数相反,用于统计窗口内往下第n行值

over()
表示lag()与lead()操作的数据都在over()的范围内,里面可以使用以下子句
 partition by 语句(用于分组)
 order by 语句()用于排序)
如:over(partition by a order by b) 表示以a字段进行分组,再以b字段进行排序,对数据进行查询

二、应用场景

1、查找前一行或前N行的数据

2、比较相邻行的数据

3、查询n天内值是否连续增长的

三、实践案例

有一张表kd_stock_history_info,里面有code(编码),date(日期),amount(销售额)三个字段,表数据如下:

img

通过hive如何获取到连续n天是增长状态的编码。例如查询2023-01-10这天的数据,也就是从2023-01-10这天往前数三天,看这三天的数据中amount是否连续增长,表中1001就不是,1002则符合。

SELECTcode,`date`,amount,LAG(amount) OVER (PARTITION by code ORDER BY `date`) AS prev_sales,amount - LAG(amount) OVER (PARTITION by code ORDER BY `date`) AS sales_diff
FROMkd_stock_history_info
where 
`date` BETWEEN DATE_SUB(TO_DATE('2023-01-10'), 2) AND TO_DATE('2023-01-10');

img

 为了更美观一些,调整lag()函数默认值

SELECTcode,`date`,amount,LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS prev_sales,amount - LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS sales_diff
FROMkd_stock_history_info
where 
`date` BETWEEN DATE_SUB(TO_DATE('2023-01-10'), 2) AND TO_DATE('2023-01-10');

img

最终代码:

SELECT code,min(sales_diff) min_sales_diff from (
SELECT
code,`date`,amount,LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS prev_sales,amount - LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS sales_diff
FROMkd_stock_history_info
where 
`date` BETWEEN DATE_SUB(TO_DATE('2023-01-10'), 2) AND TO_DATE('2023-01-10') 
) a 
group by code 
having min_sales_diff >= 0;

 更多资料:

Hive Lag函数用法介绍_笔记大全_设计学院 (python100.com)

Hive窗口函数04-LAG、LEAD、FIRST_VALUE、LAST_VALUE-腾讯云开发者社区-腾讯云 (tencent.com)


http://www.ppmy.cn/news/981602.html

相关文章

STM32CubeIDE(I2C)

目录 一、IIC轮询模式 1.1 配置 1.2 编写AHT20驱动 1.2.1 aht20.h 1.2.2 aht20.c 二、I2C中断 2.1 打开中断 2.2 分离读取流程 2.3 在主函数中重新编写读取流程 2.4 在i2c.c中重新定义stm32f1xx_hal_i2c.h中的两个函数 三、I2CDMA 3.1 配置DMA通道 3.2 代码的修改 一…

vscode ssh插件连接本地linux失败

新版本的vscode连接本地虚拟机中的linux失败,一直处于retry密码状态,浏览cpp代码不方便,处理方法如下: 1.打开远程机器上面的~/.vscode-server/bin目录下面找到commit 如784b0177c56c607789f9638da7b6bf3230d47a8c 2.在外网机器…

React 中 {} 的应用

列表渲染: 1.使用数组的 map 方法(因为map 可以映射) 2、列表要添加 key 属性,值要唯一 // 导入 // 用来获取 dom元素 import { createRoot } from "react-dom/client";// 内容 const contentArr [{ id: 1, name: &…

多值提取至点(样地因子提取)

1.导入因子tif,和样地表 2.值提取至点 输入对应的数据 也可以采用多值提取至点。 可以选择多个tif影像 提取后会将对应的字段添加在表后面 打开属性表可以看到 采用转换工具表转EXCEL可以导出为表格

AVFoundation - 媒体捕捉

文章目录 注意使用 NSCameraUsageDescriptioniOS 的摄像头可能比 Mac 更多功能特性@interface Capture ()<AVCaptureFileOutputRecordingDelegate>@property (strong, nonatomic) AVCaptureSession *captureSession; @property (weak, nonatomic) AVCaptureDeviceInput *…

Golang GORM 模型定义

模型定义 参考文档&#xff1a;https://gorm.io/zh_CN/docs/models.html 模型一般都是普通的 Golang 的结构体&#xff0c;Go的基本数据类型&#xff0c;或者指针。 模型是标准的struct,由Go的基本数据类型、实现了Scanner和Valuer接口的自定义类型及其指针或别名组成&#x…

spring-websocket在SpringBoot(包含SpringSecurity)项目中的导入

✅作者简介&#xff1a;大家好&#xff0c;我是 Meteors., 向往着更加简洁高效的代码写法与编程方式&#xff0c;持续分享Java技术内容。 &#x1f34e;个人主页&#xff1a;Meteors.的博客 &#x1f96d;本文内容&#xff1a;spring-websocket在SpringBoot(包含SpringSecurity…

【C语言day07】

在调用函数的时候&#xff0c;真实传递给函数的是实参&#xff0c;函数定义部分函数名后的参数是形参。 形参和实参的名字是可以相同的&#xff0c;在函数调用的时候&#xff0c;形参是实参的一份临时拷贝&#xff0c;分别占用不同的内存空间&#xff0c;所以A正确&#xff0c;…