Spark/Kafka

news/2025/1/23 11:04:00/

文章目录

  • 项目地址
  • 一、Spark
    • 1. RDD
      • 1.1 五大核心属性
      • 1.2 执行原理
      • 1.3 四种创建方式
  • 二、Kafka
    • 2.1 生产者
      • (1)分区器
      • (2)生产者提高吞吐量
      • (3) 生产者数据可靠性
        • 数据传递语义
        • 幂等性和事务
        • 数据有序
    • 2.2 Broker
      • (1)Broker工作流程
      • (2)节点服役和退役
    • 2.3 副本
      • (1)Follower故障细节
      • (2)生产经验——Leader Partition负载均衡
      • (3)生产经验——增加副本因子
    • 2.4 文件存储
      • (1)文件清理策略
      • (2) 高效读写数据


项目地址

  • 教程作者:
  • 教程地址:
  • 代码仓库地址:
  • 所用到的框架和插件:
dbt 
airflow

一、Spark

1. RDD

在这里插入图片描述

1.最小计算单元,读取数据时,进行了分区partition,然后将partion交给task 执行

  • 弹性存储:内存和磁盘自动切换
  • 容错:丢失数据自动恢复
  • 计算:计算出错重试
  • 分片:根据需要重新分片

1.1 五大核心属性

  1. 分区列表:RDD数据结构存在分区列表,用于执行并行计算,实现分布式计算的重要
  2. 分区计算函数:使用同一个计算函数,对每一个分区进行计算
  3. RDD依赖关系:多个RDD形成的依赖关系,通过依赖关系形成列表
  4. 分区器:将数据进行分区处理
  5. 首选位置:

1.2 执行原理

  • Spark 框架在执行时,先申请资源,创建调度节点和计算节点,然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上,按照指定的计算模型进行数据计算。最后得到计算结果。
    在这里插入图片描述

1.3 四种创建方式

  1. 从集合(内存)创建
  2. 从外部存储(文件)创建RDD
  3. 从其他的RDD创建
  4. 直接创建RDD(NEW)

二、Kafka

  • 教程地址
  • 整体架构
    在这里插入图片描述
  • kafka功能:
  1. 缓存消峰
  2. 解耦
  3. 异步通讯
  • 消息模式:
  • <

http://www.ppmy.cn/news/1565465.html

相关文章

无序向量唯一化算法

最坏情况下需要 Ω ( n 2 ) \Omega(n^2) Ω(n2) 时间&#xff0c;最好情况下仅需 O ( n ) O(n) O(n) 时间。 删除无序向量中的重复元素 template <typename T> Rank Vector<T>::dedup(){Rank oldSize_size;//原来的规模for(Rank i1;i<_size;)//从前往后枚举…

十三、数据的的输入与输出(3)

数据的输出 writeClipboard&#xff08;&#xff09;函数 writeClipboard&#xff08;&#xff09;函数可以将数据输出至剪贴板。 例如&#xff0c;将R的内置数据集iris输出到剪贴板&#xff0c;在进入Excel中点击"粘贴"。 head(iris) #查看数据集Sepal.L…

最新-CentOS 7安装1 Panel Linux 服务器运维管理面板

CentOS 7安装1 Panel Linux 服务器运维管理面板 一、前言二、环境要求三、在线安装四、离线安装1.点击下面1 Panel官网链接访问下载&#xff0c;如未登录或注册&#xff0c;请登录/注册后下载2.使用将离线安装包上传至目标终端/tem目录下3.进入到/tem目录下解压离线安装包4.执行…

vscode的字体图标库-icomoon

icomoon官网下载地址&#xff1a;SVG Icon Libraries and Custom Icon Font Organizer ❍ IcoMoon Easily mange your icons and integrate them in your projects. Browse free icons or import your own SVG icons to export as icon font, SVG, PNG, sprite and more.https:…

RV1126+FFMPEG推流项目源码

源码在我的gitee上面&#xff0c;感兴趣的可以自行了解 nullhttps://gitee.com/x-lan/rv126-ffmpeg-streaming-project

c#配置config文件

1&#xff0c;引用命名空间 Configuration 及配置信息

Servlet快速入门

Servlet 由于目前主流使用SpringBoot进行开发Servlet可以说是时代的眼泪&#xff0c;这篇文章主要介绍我基于SpringBoot对应Servlet的浅薄认知&#xff0c;有利于更好的理解前端界面和java服务器的数据交换过程 快速入门 我比较推荐这篇文章来对Servlet有一个大概的了解 都2…

部署 Harbor 私有云仓库

参考链接&#xff1a;https://docs.tianshu.org.cn/docs/setup/deploy-harbor-cloud-warehouse 使用