Flink开发(一):概述与基础

ops/2024/9/24 13:22:42/

目录

1. Flink概述

1.1 什么是Flink?

1.2 Flink的主要特点

2. Flink的核心组件

2.1 Flink架构

2.2 数据流模型

3. Flink的基础应用

3.1 开发环境配置

3.3 数据源和数据接收器

4. Flink的高级功能

4.1 状态管理与容错

4.2 窗口操作

5. Flink的应用场景

5.1 实时数据分析

5.2 机器学习


在现代数据处理领域,Apache Flink已成为实时大数据处理的首选技术之一。Flink的高效、低延迟和强大的容错能力使其在流处理和批处理场景中广受欢迎。本文将介绍Flink的基本概念、核心组件以及基础应用,帮助读者全面了解Flink的开发与应用。

1. Flink概述

1.1 什么是Flink?

Apache Flink是一款开源的流处理框架,支持实时数据流和批处理任务。它具有高吞吐量、低延迟和良好的容错性,能够处理海量数据并提供实时分析。

1.2 Flink的主要特点

  • 低延迟和高吞吐量:Flink采用流式计算模型,能够实现毫秒级延迟,并且在处理大规模数据时仍能保持高吞吐量。
  • 统一的流处理和批处理:Flink的API设计使得同一个代码可以同时用于流处理和批处理任务,简化了开发工作。
  • 状态管理和容错机制:Flink通过检查点和状态快照技术,实现了强大的容错能力,确保数据处理的准确性和一致性。

2. Flink的核心组件

2.1 Flink架构

Flink的架构由以下几个核心组件构成:

  • JobManager:负责协调作业的执行,包括任务调度、检查点管理和故障恢复。
  • TaskManager:执行具体的计算任务,并管理任务的状态。
  • Client:提交作业到Flink集群,并监控作业的执行状态。

2.2 数据流模型

Flink的核心是其数据流模型,主要包括以下三个部分:

  • 数据源(Source):从外部系统读取数据,如Kafka、HDFS等。
  • 转换操作(Transformation):对数据进行处理和转换,如map、filter、reduce等。
  • 数据接收器(Sink):将处理结果输出到外部系统,如数据库、文件系统等。
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 数据源
DataStream<String> text = env.readTextFile("path/to/input");// 转换操作
DataStream<Tuple2<String, Integer>> wordCounts = text.flatMap(new Tokenizer()).keyBy(0).sum(1);// 数据接收器
wordCounts.writeAsCsv("path/to/output");env.execute("Word Count Example");

3. Flink的基础应用

3.1 开发环境配置

要开始使用Flink,首先需要配置开发环境。以下是配置Flink开发环境的步骤:

  1. 安装Java:Flink依赖Java环境,需要安装Java JDK(推荐版本为JDK 8)。
  2. 下载Flink:从Apache Flink官方网站下载最新版本的Flink,并解压到本地目录。
  3. 配置IDE:推荐使用IntelliJ IDEA或Eclipse进行Flink开发,并安装相应的插件以支持Flink项目。

3.2 编写第一个Flink程序

下面是一个简单的Flink程序示例,实现了从文本文件读取数据并进行词频统计:

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.sink.PrintSinkFunction;
import org.apache.flink.streaming.api.functions.source.FileProcessingMode;public class WordCount {public static void main(String[] args) throws Exception {// 创建执行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 读取文本文件DataStream<String> text = env.readFile(FileProcessingMode.PROCESS_ONCE, "path/to/input.txt");// 进行词频统计DataStream<Tuple2<String, Integer>> counts = text.flatMap(new Tokenizer()).keyBy(0).sum(1);// 打印结果counts.addSink(new PrintSinkFunction<>());// 执行程序env.execute("Word Count Example");}
}

3.3 数据源和数据接收器

Flink支持多种数据源和数据接收器,包括文件、Kafka、数据库等。以下是从Kafka读取数据并将结果写入Kafka的示例:

import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;import java.util.Properties;public class KafkaExample {public static void main(String[] args) throws Exception {// 创建执行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// Kafka消费者配置Properties consumerProperties = new Properties();consumerProperties.setProperty("bootstrap.servers", "localhost:9092");consumerProperties.setProperty("group.id", "test");// 从Kafka读取数据DataStream<String> stream = env.addSource(new FlinkKafkaConsumer<>("input-topic", new SimpleStringSchema(), consumerProperties));// 处理数据(示例:将所有字符转换为大写)DataStream<String> processedStream = stream.map(String::toUpperCase);// Kafka生产者配置Properties producerProperties = new Properties();producerProperties.setProperty("bootstrap.servers", "localhost:9092");// 将结果写入KafkaprocessedStream.addSink(new FlinkKafkaProducer<>("output-topic", new SimpleStringSchema(), producerProperties));// 执行程序env.execute("Kafka Example");}
}

4. Flink的高级功能

4.1 状态管理与容错

Flink提供了丰富的状态管理和容错机制,确保在处理数据时的高可靠性和一致性。Flink支持有状态的流处理,通过检查点和状态快照实现故障恢复。

import org.apache.flink.api.common.functions.RichFlatMapFunction;
import org.apache.flink.api.common.state.ValueState;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.util.Collector;public class StatefulFlatMap extends RichFlatMapFunction<String, Tuple2<String, Integer>> {private transient ValueState<Integer> countState;@Overridepublic void open(Configuration parameters) {ValueStateDescriptor<Integer> descriptor =new ValueStateDescriptor<>("count", Integer.class, 0);countState = getRuntimeContext().getState(descriptor);}@Overridepublic void flatMap(String value, Collector<Tuple2<String, Integer>> out) throws Exception {Integer count = countState.value();count++;countState.update(count);out.collect(new Tuple2<>(value, count));}
}

4.2 窗口操作

窗口操作是流处理中的核心概念,Flink支持多种窗口操作,包括滚动窗口、滑动窗口和会话窗口。以下是一个滚动窗口的示例:

import org.apache.flink.streaming.api.windowing.time.Time;DataStream<Tuple2<String, Integer>> counts = text.flatMap(new Tokenizer()).keyBy(0).timeWindow(Time.minutes(1)).sum(1);

5. Flink的应用场景

5.1 实时数据分析

Flink广泛应用于实时数据分析场景,如实时日志分析、监控数据处理、点击流分析等。

DataStream<String> logStream = env.addSource(new FlinkKafkaConsumer<>("log-topic", new SimpleStringSchema(), consumerProperties));DataStream<Tuple2<String, Integer>> errorCounts = logStream.filter(line -> line.contains("ERROR")).flatMap(new Tokenizer()).keyBy(0).timeWindow(Time.minutes(1)).sum(1);errorCounts.addSink(new FlinkKafkaProducer<>("error-count-topic", new SimpleStringSchema(), producerProperties));

5.2 机器学习

Flink可以与机器学习库集成,用于实时预测和模型训练。

import org.apache.flink.ml.api.misc.param.Params;
import org.apache.flink.ml.feature.standardscaler.StandardScaler;
import org.apache.flink.ml.feature.standardscaler.StandardScalerModel;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.table.api.bridge.java.Tumble;StreamTableEnvironment tEnv = StreamTableEnvironment.create(env);// 从Kafka读取数据
DataStream<String> stream = env.addSource(new FlinkKafkaConsumer<>("input-topic", new SimpleStringSchema(), consumerProperties));// 转换为Table
Table inputTable = tEnv.fromDataStream(stream);// 标准化处理
StandardScaler scaler = new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures");StandardScalerModel model = scaler.fit(inputTable);
Table scaledTable = model.transform(inputTable);scaledTable.executeInsert("output-topic");


http://www.ppmy.cn/ops/93660.html

相关文章

JVM 性能分析 —— G1 日志分析

文章目录 日志级别-XX:PrintGC&#xff08;简洁版&#xff09;-XX:PrintGCDetails&#xff08;详细版&#xff09;-XX:G1LogLevelfinest&#xff08;非常详细版&#xff09;YGC 日志并发标记日志Mixed GC 日志Full GC 日志 日志级别 JVM 日志级别中的 fine、finer 和 finest 这…

css实现太极图

<template><div><!-- 太极图 --><div class"all"><div class"left box"></div><div class"right box"></div><div class"black"><div class"inner_white"><…

谈对象系列:C++类和对象

文章目录 一、类的定义1.1类定义的格式类的两种定义方法结构体&#xff1a; 1.2访问限定符1.3类域 二、实例化2.1变量的声明和定义2.2类的大小计算空类的大小&#xff08;面试&#xff09;&#xff1a; 三、this指针小考题 一、类的定义 1.1类定义的格式 使用class关键字&…

媒体邀约新闻稿宣发的意义和作用?

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 媒体邀约新闻稿的宣发对于企业活动来说具有重要的意义和作用。这不仅能够提升企业的知名度和形象&#xff0c;还能扩大活动的影响力&#xff0c;增加媒体报道的机会&#xff0c;并建立积…

TII 使用 Falcon Mamba 7B 发布首个 SSLM

这款新型 Falcon Mamba 7B 模型是阿布扎比在人工智能研发领域的又一创举。 Falcon Mamba 7B 是全球性能第一的开源状态空间模型语言&#xff08;SSLM&#xff09;。经 Hugging Face 独立验证&#xff0c;Falcon Mamba 7B 是全球性能第一的开源状态空间模型语言 (SSLM)。它优于…

网络安全(黑客)—自学手册

前言 一、什么是网络安全 网络安全可以基于攻击和防御视角来分类&#xff0c;我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术&#xff0c;而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域&#xff0c;都有攻与防…

思科默认路由配置2

#路由协议实现# #任务二默认路由配置2# #1配置计算机的IP地址、子网掩码和网关 #2配置Router-A的名称及其接口IP地址 Router(config)#hostname Router-A Router-A(config)#int g0/0 Router-A(config-if)#ip add 192.168.1.1 255.255.255.0 Router-A(config-if)#no shutdow…

书生浦语大模型全链路开源开放体系学习

书生浦语大模型的开源体系经过一年努力&#xff0c;已实现从数据收集到模型部署的全链路打通。课程介绍了书生浦语的最新进展&#xff0c;包括7B和20B模型的开源及其性能提升。新版本模型在推理能力和上下文处理上表现优异&#xff0c;支持超长上下文和复杂任务解决。开源工具涵…