数据研发基础 | 什么是流批一体

流批一体的概念是可能出现在大厂的面试题中的，虽然就算大厂实习也没机会实操这样的高级操作，学一点概念，面试多少是能说上一两句的。大致就是希望一套代码能同时在批处理和流处理中运行（同时做离线计算和实时计算）。下面先从流、批两个概念说起：

定义

1.流式处理

流式处理（Stream Processing）是指实时处理数据流的技术。这些数据流可能来源于用户点击、传感器数据、日志文件等。流式处理的特点是数据一到就被处理，能提供实时的结果和响应。常见的流式处理框架有Apache Kafka、Apache Flink、Apache Storm等。

2.批量处理

批量处理（Batch Processing）则是指在一个时间窗口内处理大量数据的技术。它通常处理存储在数据库或文件系统中的大批数据，并生成离线分析报告或结果。批量处理的特点是处理大量数据时性能优越。常见的批量处理框架有Apache Hadoop、Apache Spark等。目前我使用到的数据开发基本都是离线的，实时需要更多的技术储备和开发经验。

3.流批一体的定义

流批一体（Unified Stream and Batch Processing）是将实时数据处理（Stream）和批量数据处理（Batch）的优势结合在一个统一的框架中进行数据处理。具有高效性、灵活性、可扩展性、容错性和实时性等优点。

为什么要做流批一体

在传统的数据处理模式中，实时数据处理和批量数据处理通常是分开的。

在实时数据处理中，数据需要快速地被处理和分析，以便能够及时做出决策。
而在批量数据处理中，则需要对大量的历史数据进行处理和分析，以便能够更好地了解数据的情况。
流批一体通过一个系统同时支持实时数据流处理和离线数据处理，提供更加灵活和高效的数据处理能力。
其好处：
1.减少学习成本
2.减少资源消耗
3.降低架构复杂性
4.提升价值产出效率

难点

标准化和规范化不足‌：缺少统一的标准和规范，不同的产品和平台有不同的实现方式和接口，这给用户带来了一定的学习成本和迁移成本。
技术门槛和运维负担‌：系统的实现和维护可能会增加复杂性，需要专业的技术团队进行管理。
架构统一难度大‌：数据架构统一的必要性在于避免数据重复建设带来的混乱低效，但实现的难点是不同场景的性能平衡点不同。例如，批计算重视成本优化，流计算重视数据新鲜度，交互式分析重视查询性能。需要在流处理和批处理之间找到平衡，确保两者都能高效运行。
应用层对接困难‌：流批一体化的实现需要在应用层进行对接，确保数据一致性和完整性是一个关键问题。
用户作业迁移成本高‌：用户原来的Batch作业是用‌Hive SQL撰写的，现在需要替换成‌Flink SQL，这需要解决语言上的UDF的兼容问题。