Spark/Kafka

server/2025/1/23 5:52:19/

文章目录

  • 项目地址
  • 一、Spark
    • 1. RDD
      • 1.1 五大核心属性
      • 1.2 执行原理
      • 1.3 四种创建方式
  • 二、Kafka
    • 2.1 生产者
      • (1)分区器
      • (2)生产者提高吞吐量
      • (3) 生产者数据可靠性
        • 数据传递语义
        • 幂等性和事务
        • 数据有序
    • 2.2 Broker
      • (1)Broker工作流程
      • (2)节点服役和退役
    • 2.3 副本
      • (1)Follower故障细节
      • (2)生产经验——Leader Partition负载均衡
      • (3)生产经验——增加副本因子
    • 2.4 文件存储
      • (1)文件清理策略
      • (2) 高效读写数据


项目地址

  • 教程作者:
  • 教程地址:
  • 代码仓库地址:
  • 所用到的框架和插件:
dbt 
airflow

一、Spark

1. RDD

在这里插入图片描述

1.最小计算单元,读取数据时,进行了分区partition,然后将partion交给task 执行

  • 弹性存储:内存和磁盘自动切换
  • 容错:丢失数据自动恢复
  • 计算:计算出错重试
  • 分片:根据需要重新分片

1.1 五大核心属性

  1. 分区列表:RDD数据结构存在分区列表,用于执行并行计算,实现分布式计算的重要
  2. 分区计算函数:使用同一个计算函数,对每一个分区进行计算
  3. RDD依赖关系:多个RDD形成的依赖关系,通过依赖关系形成列表
  4. 分区器:将数据进行分区处理
  5. 首选位置:

1.2 执行原理

  • Spark 框架在执行时,先申请资源,创建调度节点和计算节点,然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上,按照指定的计算模型进行数据计算。最后得到计算结果。
    在这里插入图片描述

1.3 四种创建方式

  1. 从集合(内存)创建
  2. 从外部存储(文件)创建RDD
  3. 从其他的RDD创建
  4. 直接创建RDD(NEW)

二、Kafka

  • 教程地址
  • 整体架构
    在这里插入图片描述
  • kafka功能:
  1. 缓存消峰
  2. 解耦
  3. 异步通讯
  • 消息模式:
  • <

http://www.ppmy.cn/server/160654.html

相关文章

ChopChopGo:一款针对Linux的取证数据快速收集工具

关于ChopChopGo ChopChopGo是一款针对Linux的取证数据快速收集工具&#xff0c;该工具基于Go语言开发&#xff0c;可以快速全面地分析日志和其他工件&#xff0c;以识别 Linux 上的潜在安全事件和威胁。 功能介绍 1、使用Sigma检测规则和自定义 ChopChopGo 检测规则搜寻威胁&a…

# [Unity基础] 游戏物体与组件的关系

Unity 是一个强大的游戏开发引擎,它的核心概念之一就是通过 场景、物体 和 组件 构建游戏世界。在 Unity 中,GameObject(游戏物体)和 组件 是两个关键的组成部分。游戏物体充当了容器的角色,而组件则提供了物体的各种功能。本文将深入解析 Unity 中的基础概念,包括物体的…

Excel 技巧14 - 如何批量删除表格中的空行(★)

本文讲如何批量删除表格中的空行。 1&#xff0c;如何批量删除表格中的空行 要点就是按下F5&#xff0c;然后选择空值条件以定位所有空行&#xff0c;然后删除即可。 按下F5 点 定位条件 选 空值&#xff0c;点确认 这样就选中了空行 然后点右键&#xff0c;选 删除 选中 下方…

使用 HTML 开发 Portal 页全解析

前言 在当今数字化时代&#xff0c;网站作为企业和个人展示信息、提供服务的重要窗口&#xff0c;其重要性不言而喻。而 Portal 页&#xff0c;作为网站的核心页面之一&#xff0c;承担着引导用户、整合信息等关键任务。那么&#xff0c;如何使用 HTML 开发一个功能齐全、界面…

docker安装elk6.7.1-搜集nginx-json日志

docker安装elk6.7.1-搜集nginx-json日志 如果对运维课程感兴趣&#xff0c;可以在b站上、A站或csdn上搜索我的账号&#xff1a; 运维实战课程&#xff0c;可以关注我&#xff0c;学习更多免费的运维实战技术视频 0.规划 192.168.171.130 nginxfilebeat 192.168.171.131 …

步入响应式编程篇(二)之Reactor API

步入响应式编程篇&#xff08;二&#xff09;之Reactor API 前言回顾响应式编程Reactor API的使用Stream引入依赖Reactor API的使用流源头的创建 reactor api的背压模式发布者与订阅者使用的线程查看弹珠图查看形成新流的日志 前言 对于响应式编程的基于概念&#xff0c;以及J…

在 AWS 上规划灾难恢复的分步指南

在当今的数字时代&#xff0c;企业需要做好准备来应对意外中断。虽然不制定全面的灾难恢复 (DR) 计划不仅是理想的决定&#xff0c;但实际上&#xff0c;维护数据完整性和保证公司连续性是必不可少的。除了自然灾害之外&#xff0c;系统故障或黑客攻击导致的计划外停机可能会造…

蓝桥杯训练—完美的代价

文章目录 一、题目二、示例三、解析四、代码 一、题目 回文串&#xff0c;是一种特殊的字符串&#xff0c;它从左往右读和从右往左读是一样的。现在给你一个串&#xff0c;它不一定是回文的&#xff0c;请你计算最少的交换次数使得该串变成一个完美的回文串。 交换的定义是&am…