SparkStructuredStreaming状态编程

ops/2025/2/14 5:56:29/

spark官网关于spark有状态编程介绍比较少,本文是一篇个人理解关于spark状态编程。 

官网关于状态编程代码例子:

spark/examples/src/main/scala/org/apache/spark/examples/sql/streaming/StructuredComplexSessionization.scala at v3.5.0 · apache/spark (github.com)

一般的流计算使用窗口函数可以解决大部分问题,但是一些比较复杂的业务,窗口函数无法解决,比如需要的数据范围大于你设定的时间窗口,那么就需要状态编程处理中间状态。

案例:

数据一秒一条被spark消费,我需要找到的绿色部分代表再生(再生开始PFltRgn_stRgnActv,PFltRgn_stRgnActvHld变为两个1,再生结束变为两个0),我需要知道PFltRgn_ctRgnSuc再生阶段变化是否大于等于2(true: 意味再生成功)

如果开一个5s滚动窗口(红色框框),窗口内无法解决这个需求,那么我就需要记录每个窗口中当符合再生条件(绿色)PFltRgn_ctRgnSuc的最小值和最大值(这个就是中间状态)

代码调试中:.....


http://www.ppmy.cn/ops/38807.html

相关文章

从零手写实现 tomcat-03-基本的 socket 实现

创作缘由 平时使用 tomcat 等 web 服务器不可谓不多,但是一直一知半解。 于是想着自己实现一个简单版本,学习一下 tomcat 的精髓。 系列教程 从零手写实现 apache Tomcat-01-入门介绍 从零手写实现 apache Tomcat-02-web.xml 入门详细介绍 从零手写…

LAMP部署

LAMP 一、LAMP概述 1.1.LAMP平台的构成组件: 二、LAMP部署 2.1.MySQL部署 2.2.PHP部署 2.2.1.部署PHP 2.2.2测试LAMP环境是否可用 三、LAMP架构应用实例 一、LAMP概述 1.1.LAMP平台的构成组件: Linux操作系统:Linux操作系…

数据结构_顺序表(动态)和链表(带头双向循环)的区别

✨✨所属专栏:数据结构✨✨ ✨✨作者主页:嶔某✨✨ 储存空间 我们知道顺序表的实质就是一个数组,数组的物理地址是连续的;而链表是由一个个的节点组成的,物理地址不一定连续、因为在malloc空间的时候不能保证&#xf…

【华为】AC直连二层组网隧道转发实验配置

【华为】AC直连二层组网隧道转发实验配置 实验需求拓扑配置AC数据规划表 AC的配置顺序AC1基本配置(二层通信)AP上线VAP组关联--WLAN业务流量 LSW1AR1STA获取AP的业务流量 配置文档 实验需求 AC组网方式:直连二层组网。 业务数据转发方式:隧道转发。 DHC…

一文搞懂什么是外贸企业邮箱?

一文搞懂什么是外贸企业邮箱?外贸企业邮箱,也就是外贸行业使用的企业邮箱系统,一般需要具备海外抵达率高、安全稳定等特点,通过外贸企业邮箱,企业可以和国内国外的客户或者同事进行业务的沟通交流。 一、什么是外贸企…

南博在线教育系统官网,教育机构如何线上招生做私域流量?怎么做好服务?

对于教育机构以及在线教育平台来说,招生是一个非常困扰他们的问题,因为不管是旺季还是淡季,教育机构想要维持运营,就必须招生。如果在做招生的时候,将引流而来的人群转化为私域流量的话,或许可以减少招生的…

JSP ssm 房屋中介管理myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 JSP ssm 房屋中介管理系统是一套完善的web设计系统(系统采用SSM框架进行设计开发,springspringMVCmybatis),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采…

java网络编程什么是TCP/IP协议栈?

TCP/IP协议栈(Transmission Control Protocol/Internet Protocol)是一种被广泛使用的网络通信协议,它定义了数据在网络中的传输方式。在Java网络编程中,TCP/IP协议栈是一个重要的概念,因为它为应用程序提供了跨网络进行…