Saprk和Flink的区别

embedded/2024/12/30 2:15:07/

1 、设计理念方面

Spark 的技术理念是使用微批来模拟流的计算，基于 Micro-batch ，数据流以时间为单位被切分为一个个批次，通过分布式数据集RDD 进行批量处理，是一种伪实时。

Flink 是基于事件驱动的，是面向流的处理框架， Flink 基于每个事件一行一行地流式处理，是真正的流式计算。另外它也可以基于流来模拟批进行计算实现批处理。

2 、架构方面

Spark 在运行时的主要角色包括： Master 、 Worker 、 Driver 、 Executor 。

Flink 在运行时主要包含： Jobmanager 、 Taskmanager 和 Slot 。

3 、流处理方面

Spark 基于微批量处理，把流数据看成是一个个小的批处理数据块分别处理，所以延迟性只能做到秒级。

Flink 基于每个事件处理，每当有新的数据输入都会立刻处理，是真正的流式计算，支持毫秒级计算。由于相同的原因，Spark 只支持基于时间的窗口操作（处理时间或者事件时间），而 Flink 支持的窗口操作则非常灵活，不仅支持时间窗口，还支持基于数据本身的窗口（另外还支持基time 、 count、 session，以及 data-driven 的窗口操作），开发者可以自由定义想要的窗口操作。

4 、任务调度方面

Spark Streaming 支持的时间机制有限，只支持处理时间。使用 processing time 模拟 event time 必然会有误差，如果产生数据堆积的话，误差则更明显。

Flink 支持三种时间机制：事件时间，注入时间，处理时间，同时支持 watermark 机制处理迟到的数据 , 说明Flink 在处理乱序大实时数据的时候 , 更有优势。

5 、容错机制方面