20250124 Flink 增量聚合 vs 全量聚合

ops/2025/2/1 3:36:37/

1. 增量聚合 vs 全量聚合

(1) 增量聚合(ReduceFunction / AggregateFunction)
  • 工作方式

    • 逐步计算:每一条数据到达窗口时,立即与当前聚合结果结合,生成新的中间结果。

    • 仅保存中间状态:内存中只保留当前的聚合值(如累加和、最大值等),不保存原始数据。

    • 触发窗口计算时:直接输出最终的聚合结果,无需遍历所有数据。

  • 示例:计算窗口内数字的和

    DataStream<Integer> numbers = ...;
    numbers.keyBy(...).window(...).aggregate(new AggregateFunction<Integer, Long, Long>() {// 初始值:累加器初始化为 0public Long createAccumulator() { return 0L; }// 增量操作:每来一个数,累加到当前和public Long add(Integer value, Long accumulator) {return accumulator + value;}// 输出最终结果public Long getResult(Long accumulator) { return accumulator; }// 合并多个累加器(仅会话窗口需要)public Long merge(Long a, Long b) { return a + b; }});
     
    • 内存占用:无论窗口内有多少数据,状态中始终只保存一个 Long 类型的累加值(极低开销)。

(2) 全量聚合(ProcessWindowFunction)
  • 工作方式

    • 缓存所有数据:窗口触发前,所有原始数据被保存到状态中。

    • 触发窗口计算时:遍历所有数据并一次性处理(例如排序、求中位数等复杂操作)。

    • 内存开销:状态大小与窗口内数据量成正比(可能引发 OOM)。

  • 示例:获取窗口内所有数据

    DataStream<Integer> numbers = ...;
    numbers.keyBy(...).window(...).process(new ProcessWindowFunction<Integer, String, Key, TimeWindow>() {public void process(Key key, Context ctx, Iterable<Integer> elements, Collector<String> out) {List<Integer> list = new ArrayList<>();for (Integer num : elements) {list.add(num); // 需要遍历所有数据}out.collect("窗口数据: " + list);}});
     
    • 内存占用:若窗口内有 100 万条数据,状态中将保存 100 万个 Integer 对象。


2. 为什么增量聚合更高效?

(1) 内存开销低
  • 增量聚合:仅保存聚合中间结果(如 sum=100max=50)。

  • 全量聚合:保存所有原始数据(如 [10, 20, 30, ...])。

(2) 计算效率高
  • 增量聚合:每条数据触发一次简单计算(如加法)。

  • 全量聚合:窗口触发时需遍历所有数据,时间复杂度为 O(n)。

(3) 避免数据堆积
  • 增量聚合:实时输出中间结果,适合高吞吐场景。

  • 全量聚合:窗口触发时可能因数据量大导致延迟。


3. 适用场景对比

场景增量聚合全量聚合
简单聚合(求和、计数、最大/最小)✅ 优先使用(高效、低内存)❌ 不必要
复杂计算(中位数、方差)❌ 无法直接实现(需自定义复杂逻辑)✅ 必须使用(需遍历所有数据)
需要访问窗口元信息(起止时间)❌ 无法直接获取(需结合 ProcessWindowFunction✅ 直接通过 Context 获取

4. 综合使用:增量聚合 + ProcessWindowFunction

如果需要 同时实现高效聚合和访问窗口元信息,可将两者结合:

DataStream<Integer> numbers = ...;
numbers.keyBy(...).window(...).aggregate(new AggregateFunction<Integer, Long, Long>() { /* 增量求和 */ },new ProcessWindowFunction<Long, Result, Key, TimeWindow>() { // 补充元信息public void process(Key key, Context ctx, Iterable<Long> iterable, Collector<Result> out) {Long sum = iterable.iterator().next(); // 获取增量聚合结果out.collect(new Result(key, sum, ctx.window().getStart(), ctx.window().getEnd()));}});
 
  • 优势

    • 增量聚合减少状态大小。

    • ProcessWindowFunction 补充元信息。


总结

  • 增量聚合 是 Flink 对窗口计算的优化策略,适用于简单聚合,通过逐步计算和仅保存中间结果,显著降低资源消耗。

  • 全量聚合 适合需要遍历所有数据或访问元信息的场景,但需谨慎处理大数据量带来的性能问题。

  • 实际开发中优先选择增量聚合,必要时结合两者使用。


http://www.ppmy.cn/ops/154646.html

相关文章

活动回顾和预告|微软开发者社区 Code Without Barriers 上海站首场活动成功举办!

Code Without Barriers 上海活动回顾 Code Without Barriers&#xff1a;AI & DATA 深入探索人工智能与数据如何变革行业 2025年1月16日&#xff0c;微软开发者社区 Code Without Barriers &#xff08;CWB&#xff09;携手 She Rewires 她原力在大中华区的首场活动“AI &…

深入解析 C++17 中的 std::not_fn

文章目录 1. std::not_fn 的定义与目的2. 基本用法2.1 基本示例2.2 使用 Lambda 表达式2.3 与其他函数适配器的比较3. 在标准库中的应用3.1 结合标准库算法使用3.1.1 std::find_if 中的应用3.1.2 std::remove_if 中的应用3.1.3 其他标准库算法中的应用4. 高级技巧与最佳实践4.1…

pytorch实现半监督学习

半监督学习&#xff08;Semi-Supervised Learning&#xff0c;SSL&#xff09;结合了有监督学习和无监督学习的特点&#xff0c;通常用于部分数据有标签、部分数据无标签的场景。其主要步骤如下&#xff1a; 1. 数据准备 有标签数据&#xff08;Labeled Data&#xff09;&…

Redis内部数据结构--跳表详解

跳表 1. 什么是跳表--skiplist2. skiplist的效率如何保证3. 跳表的实现4. 跳表与平衡搜索树和哈希表的对比 1. 什么是跳表–skiplist skiplist本质上也是一种查找结构&#xff0c;用于解决算法中的查找问题&#xff0c;跟平衡搜索树和哈希表的价值是一样的&#xff0c;可以作为…

【事务管理】

目录 一. 介绍与操作二. Spring事务管理三. 事务四大特性 \quad 一. 介绍与操作 \quad \quad 二. Spring事务管理 \quad 推荐加在经常进行增删改的方法上 \quad 三. 事务四大特性 \quad ctrlaltt

实验一---典型环节及其阶跃响应---自动控制原理实验课

一 实验目的 1.掌握典型环节阶跃响应分析的基本原理和一般方法。 2. 掌握MATLAB编程分析阶跃响应方法。 二 实验仪器 1. 计算机 2. MATLAB软件 三 实验内容及步骤 利用MATLAB中Simulink模块构建下述典型一阶系统的模拟电路并测量其在阶跃响应。 1.比例环节的模拟电路 提…

python Flask-Redis 连接远程redis

当使用Flask-Redis连接远程Redis时&#xff0c;首先需要安装Flask-Redis库。可以通过以下命令进行安装&#xff1a; pip install Flask-Redis然后&#xff0c;你可以使用以下示例代码连接远程Redis&#xff1a; from flask import Flask from flask_redis import FlaskRedisa…

Java面试题2025-设计模式

1.说一下开发中需要遵守的设计原则&#xff1f; 设计模式中主要有六大设计原则&#xff0c;简称为SOLID &#xff0c;是由于各个原则的首字母简称合并的来(两个L算一个,solid 稳定的)&#xff0c;六大设计原则分别如下&#xff1a; 1、单一职责原则 单一职责原则的定义描述非…