【大数据】Flink + Kafka 实现通用流式数据处理详解

embedded/2024/11/19 21:17:26/

目录

一、前言

二、流式数据处理场景介绍

2.1 流式数据处理概述

2.1.1 流式数据处理场景介绍

2.2 流式数据处理技术栈

2.2.1 数据采集

2.2.2 数据处理

2.2.3 数据存储

2.2.4 数据展示

2.3 流式数据处理场景面临的问题和挑战

三、通用的流式数据处理场景解决方案

3.1 基本流式处理架构

3.2 流处理与批处理结合

3.3 实时数据仓库

3.4 流式 ETL 架构

四、实验环境准备

4.1 kafka搭建过程

4.1.1 创建相关的目录

4.1.2 编写yaml文件

4.1.3 启动kafka和zk容器

4.1.4 检查容器是否启动成功

4.2 测试验证

4.2.1 进入kafka容器

4.2.2 创建一个topic

4.2.3 测试发送消息

4.3 创建两个备用topic

4.3.1 提前创建两个备用topic

4.3.2 开启生产窗口和消费窗口

五、flink 接收kafka数据并写入kafka

5.1 前置准备

5.1.1 组件版本说明

5.1.2 maven核心依赖

5.2 需求说明

5.3 核心代码实现过程

5.3.1 核心代码实现方式一

5.3.2 效果测试

5.3.3 核心代码实现方式二

六、flink 接收kafka数据写入mysql

6.1 前置准备

6.2 代码实现过程

6.2.1 自定义实体类

6.2.2 添加自定义Sink函数

6.2.3 核心任务逻辑实现

6.2.4 效果测试

七、写在文末


一、前言

在大数据场景中,Flink作为重要的流式处理框架,在架构运行中承载着重要的作用,与之配合使用的就是大家熟悉的高性能消息中间件kafka,两者的结合,就可以解决很多场景下的流式数据问题,本文将通过几个案例详细介绍一下。

二、流式数据处理场景介绍

2.1 流式数据处理概述

流式数据处理(Streaming Data Processing)指的是对连续不断的数据流进行实时处理的技术。这种处理方式适用于需要对大量数据进行快速反应和决策的场景。尤其在需要实时分析、决策支持和即时响应的应用场景中尤为重要。


http://www.ppmy.cn/embedded/138868.html

相关文章

review-消息中间件MQ

RabbitMQ RabbitMQ,作为当今流行的开源消息代理软件,以其卓越的可靠性、灵活性和易用性在微服务架构和分布式系统中扮演着至关重要的角色。它不仅能够确保消息在不同系统组件间的高效传递,还能通过其高级消息队列协议(AMQP&#x…

Dubbo 3.x源码(25)—Dubbo服务引用源码(8)notify订阅服务通知更新

基于Dubbo 3.1,详细介绍了Dubbo服务的发布与引用的源码。 此前我们学习了接口级的服务引入订阅的refreshInterfaceInvoker方法,当时还有最为关键的notify服务通知更新的部分源码没有学习,本次我们来学习notify通知本地服务更新的源码。 Dubb…

使用OpenFeign实现HTTP调用的最简单案例

首先编写服务提供者代码,也就是创建一个springboot项目,端口默认8080即可,然后新建一个接口,启动项目之后可以通过http://localhost:8080/api/data直接访问 RestController RequestMapping("/api") public class DataC…

容器安装gitlab

说明: 1、容器快速搭建gitlab,并将数据、配置文件、日志挂载到物理机磁盘 2、禁用不必要的gitlab插件,只部署必须的gitlab插件,减少cpu、内存等资源 3、gitlab页面禁用注册按钮,同时注意gitlab备份和恢复必须要相同版本 4、请备份gitlab两个重要配置文件:gitlab.rb、gitl…

【Python】Tkinter模块(巨详细)

专栏文章索引:Python 有问题可私聊:QQ:3375119339 本文内容系本人根据阅读的《Python GUI设计tkinter从入门到实践》所得,以自己的方式进行总结和表达。未经授权,禁止在任何平台上以任何形式复制或发布原始书籍的内容。…

【css+JavaScript 】关于链接选中且通过 js 设置持久的选中状态

1、点击后选中状态保持:当你点击任意链接时,它的颜色变为红色,并且页面刷新后仍然保留选中状态。 2、页面刷新后保持选中:即使刷新页面,选中的链接也能通过 localStorage 恢复,确保用户的选中状态持续存在…

怎样选择合适的服务器租用呢?

在数字化时代当中,企业选择合适的服务器租用是至关重要的,服务器是承载着网站和数据存储的主要核心,服务器的稳定性会影响到网站的访问速度和用户的体验感,本文就从几个方面来探讨怎样选择合适的服务器租用吧! 首先企业…

【MYSQL】什么是关系型数据库与非关系型数据库?

真正的让你快速理解什么是关系型数据库与非关系型数据库~ 主要是以查询语句,存储结构,拓展 性上的区别。 关系型数据库(最经典就是mysql,oracle):它是支持SQL语言,并且关系型数据库大部分都支持…