什么是Delta Lake(数据湖框架),以及Delta Lake特性和如何使用

news/2024/11/30 20:43:14/

文章目录


Delta Lake概念

了解Delta Lake之前最好先去了解一下什么是数据湖,以及数据湖基于Hadoop、Spark的实现:

数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)–了解数据湖,这一篇就够了
数据分析流程中的Lambda架构,以及数据湖基于Hadoop、Spark的实现

Delta Lake的公司和spark的商业化公司是同一家开发的(Databricks公司)

1、Delta Lake特性

[图片]

重要特性解读:

  • 1、ACID事务控制:经过迭代处理产生的中间数据如果缺乏事务控制,就会导致一步错步步错(对数据的操作会记录在事务日志)
  • 2、数据版本控制:类似于Git的代码版本,可回滚数据版本
  • 3、可伸缩的元数据处理:如果中间数据过多,数据版本过多,会导致数据内容超级庞大,就会导致元数据也很庞大,元数据的处理就会很麻烦,而Delta
    Lake通过Spark的强大的并行计算能力,对元数据进行管理和计算,如下图:

[图片]

  • 4、审核历史记录:也就是对事务日志的审计,比如金融行业,对审计要求很高
  • 5、统一的批处理和流处理的source和sink:就是流批一体化,流和批进入Delta Lake都会变成Delta Lake Table表,如下图:

[图片]

2、Delta Lake如何使用

一句话概括(重点):

本质上还是使用原有的Spark、SparkSQL方式处理数据,处理流程也不变(原来使用Spark的处理流程就是:对中间数据的迭代处理),变化的地方在于,存储数据的过程加入了Delta Lake(也就是使用Delta Lake提供的API进行数据存储)


http://www.ppmy.cn/news/1551297.html

相关文章

QT 实现QStackedWidget切换页面开门动画

1.实现效果 以下是一个QStackedWidget,放了两个QPushButton在上面,点击切换不同的界面。 为了方便查看动画特效,设置了每个界面的背景图片。 2.实现思路 首先截取当前界面的图片,将图片一分为二,左边渲染到一个QLabel上,右边的渲染到另一个QLabel上,然后设置QProper…

《掌握Git分布式版本控制工具:从基本概念到实战应用》

1 、目标 了解 Git 基本概念 能够概述 git 工作流程 能够使用 Git 常用命令 熟悉 Git 代码托管服务 能够使用 idea 操作 git 2 、概述 2.1 、开发中的实际场景 2.2 、版本控制器的方式 2.3 、 SVN 场景一:备份 小明负责的模块就要完成了,就在…

JavaScript 入门教学:从基础语法到实践案例

JavaScript 是一种广泛应用于前端开发的编程语言,也是初学者入门编程的热门选择。本文将带你从零开始,了解 JavaScript 的基础语法,并通过一个简单案例帮助你更好地掌握。 一、JavaScript 简介 JavaScript 是一种脚本语言,通常用…

Git Rebase vs Merge:操作实例详解

在Git版本控制系统中,git rebase 和 git merge 是两种常用的命令,用于整合不同分支上的工作。本文将通过具体的操作实例来详细解释这两个命令的区别、使用场景,以及它们对历史记录的影响。 一、git merge 示例 假设我们有一个 main 分支和一…

ORACLE之DBA常用数据库查询

数据库信息 数据库概要select a.name "DB Name", e.global_name "Global Name", c.host_name "Host Name", c.instance_name "Instance Name" , DECODE(c.logins,RESTRICTED,YES,NO) "Restricted Mo…

Opencv+ROS实现颜色识别应用

目录 一、工具 二、原理 概念 本质 三、实践 添加发布话题 主要代码 四、成果 五、总结 一、工具 opencvros ubuntu18.04 摄像头 二、原理 概念 彩色图像:RGB(红,绿,蓝) HSV图像:H&#xff0…

BERT相关知识

1.分词方法 BPE 和 WordPiece 的区别? BPE 与 Wordpiece 都是首先初始化一个小词表,再根据一定准则将不同的子词合并。词表由小变大。BPE 与 Wordpiece 的最大区别在于,如何选择两个子词进行合并:BPE 选择频数最高的相邻子词合并&…

【CVPR24】One-Prompt to Segment All Medical Images

论文介绍 论文: One-Prompt to Segment All Medical Images 代码: https://github.com/KidsWithTokens/one-prompt 会议与年份:CVPR24 全文概述 本文介绍了一种新的医疗图像分割方法—One-Prompt Segmentation。传统的分割方法需要用户在推理阶段为每个样本提供提示…