什么是Delta Lake（数据湖框架），以及Delta Lake特性和如何使用

什么是Delta Lake（数据湖框架），以及Delta Lake特性和如何使用

news/2024/11/30 20:43:14/

文章目录

Delta Lake概念
- 1、Delta Lake特性
- 2、Delta Lake如何使用

Delta Lake概念

了解Delta Lake之前最好先去了解一下什么是数据湖，以及数据湖基于Hadoop、Spark的实现:

数据湖的概念（包含数据中台、数据湖、数据仓库、数据集市的区别）–了解数据湖，这一篇就够了
数据分析流程中的Lambda架构，以及数据湖基于Hadoop、Spark的实现

Delta Lake的公司和spark的商业化公司是同一家开发的（Databricks公司）

1、Delta Lake特性

[图片]

重要特性解读：

1、ACID事务控制：经过迭代处理产生的中间数据如果缺乏事务控制，就会导致一步错步步错（对数据的操作会记录在事务日志）
2、数据版本控制：类似于Git的代码版本，可回滚数据版本
3、可伸缩的元数据处理：如果中间数据过多，数据版本过多，会导致数据内容超级庞大，就会导致元数据也很庞大，元数据的处理就会很麻烦，而Delta
Lake通过Spark的强大的并行计算能力，对元数据进行管理和计算，如下图：

[图片]

4、审核历史记录：也就是对事务日志的审计，比如金融行业，对审计要求很高
5、统一的批处理和流处理的source和sink：就是流批一体化，流和批进入Delta Lake都会变成Delta Lake Table表，如下图：

[图片]

2、Delta Lake如何使用

一句话概括（重点）：

本质上还是使用原有的Spark、SparkSQL方式处理数据，处理流程也不变（原来使用Spark的处理流程就是：对中间数据的迭代处理），变化的地方在于，存储数据的过程加入了Delta Lake（也就是使用Delta Lake提供的API进行数据存储）

http://www.ppmy.cn/news/1551297.html

相关文章

QT 实现QStackedWidget切换页面开门动画

QT 实现QStackedWidget切换页面开门动画

1.实现效果以下是一个QStackedWidget，放了两个QPushButton在上面，点击切换不同的界面。为了方便查看动画特效，设置了每个界面的背景图片。 2.实现思路首先截取当前界面的图片，将图片一分为二，左边渲染到一个QLabel上，右边的渲染到另一个QLabel上，然后设置QProper…

阅读更多...

《掌握Git分布式版本控制工具：从基本概念到实战应用》

《掌握Git分布式版本控制工具：从基本概念到实战应用》

1 、目标了解 Git 基本概念能够概述 git 工作流程能够使用 Git 常用命令熟悉 Git 代码托管服务能够使用 idea 操作 git 2 、概述 2.1 、开发中的实际场景 2.2 、版本控制器的方式 2.3 、 SVN 场景一：备份小明负责的模块就要完成了，就在…

阅读更多...

JavaScript 入门教学：从基础语法到实践案例

JavaScript 入门教学：从基础语法到实践案例

JavaScript 是一种广泛应用于前端开发的编程语言，也是初学者入门编程的热门选择。本文将带你从零开始，了解 JavaScript 的基础语法，并通过一个简单案例帮助你更好地掌握。一、JavaScript 简介 JavaScript 是一种脚本语言，通常用…

阅读更多...

Git Rebase vs Merge：操作实例详解

Git Rebase vs Merge：操作实例详解

在Git版本控制系统中，git rebase 和 git merge 是两种常用的命令，用于整合不同分支上的工作。本文将通过具体的操作实例来详细解释这两个命令的区别、使用场景，以及它们对历史记录的影响。一、git merge 示例假设我们有一个 main 分支和一…

阅读更多...

ORACLE之DBA常用数据库查询

ORACLE之DBA常用数据库查询

数据库信息数据库概要select a.name "DB Name", e.global_name "Global Name", c.host_name "Host Name", c.instance_name "Instance Name" , DECODE(c.logins,RESTRICTED,YES,NO) "Restricted Mo…

阅读更多...

Opencv+ROS实现颜色识别应用

Opencv+ROS实现颜色识别应用

目录一、工具二、原理概念本质三、实践添加发布话题主要代码四、成果五、总结一、工具 opencvros ubuntu18.04 摄像头二、原理概念彩色图像：RGB（红，绿，蓝） HSV图像：H&#xff0…

阅读更多...

BERT相关知识

BERT相关知识

1.分词方法 BPE 和 WordPiece 的区别？ BPE 与 Wordpiece 都是首先初始化一个小词表，再根据一定准则将不同的子词合并。词表由小变大。BPE 与 Wordpiece 的最大区别在于，如何选择两个子词进行合并：BPE 选择频数最高的相邻子词合并&…

阅读更多...

【CVPR24】One-Prompt to Segment All Medical Images

【CVPR24】One-Prompt to Segment All Medical Images

论文介绍论文: One-Prompt to Segment All Medical Images 代码: https://github.com/KidsWithTokens/one-prompt 会议与年份：CVPR24 全文概述本文介绍了一种新的医疗图像分割方法—One-Prompt Segmentation。传统的分割方法需要用户在推理阶段为每个样本提供提示…

阅读更多...

最新文章