Delta Lake

devtools/2024/11/8 12:58:34/

什么是 Delta Lake?

Delta Lake 是经过优化的存储层,为 Databricks 上湖屋中的表提供了基础。 Delta Lake 是开源软件,它使用基于文件的事务日志扩展了 Parquet 数据文件,可以处理 ACID 事务和可缩放的元数据。 Delta Lake 与 Apache Spark API 完全兼容,并且其设计能够与结构化流式处理紧密集成,让你可以轻松地将单个数据副本用于批处理和流式处理操作,并提供大规模增量处理。

Delta Lake 是 Azure Databricks 上所有操作的默认格式。 除非另行指定,否则 Azure Databricks 上的所有表都是 Delta 表。 Databricks 是 Delta Lake 协议的原始开发商,它将持续为开源项目做出积极贡献。 Databricks 平台中的许多优化和产品都建立在 Apache Spark 和 Delta Lake 提供的保证基础之上。 有关 Azure Databricks 优化的信息,请参阅有关 Azure Databricks 的优化建议。

分区

参考链接:

  • https://learn.microsoft.com/zh-cn/azure/databricks/tables/partitions#do-small-tables-need-to-be-partitioned

是否需要对小型表进行分区?
https://learn.microsoft.com/zh-cn/azure/databricks/tables/partitions#do-small-tables-need-to-be-partitioned

Databricks 建议不要对数据量少于 1 TB 的表进行分区。

表中每个分区的最小大小是多少?

Databricks 建议所有分区至少包含 1 GB 数据。 包含少量较大分区的表的性能往往优于包含大量较小分区的表。

Delta Lake 和 Parquet 是否共享分区策略?

Delta Lake 使用 Parquet 作为存储数据的主要格式,一些指定了分区的 Delta 表展示了类似于使用 Apache Spark 存储的 Parquet 表的组织方式。 Apache Spark 在以 Parquet 格式保存数据时使用 Hive 样式分区。 Hive 样式分区不属于 Delta Lake 协议,工作负载不应依赖此分区策略来与 Delta 表交互。

许多 Delta Lake 功能都打破了有关可能已从 Parquet、Hive 甚至更早的 Delta Lake 协议版本传输回的数据布局的假设。 应始终使用官方支持的客户端和 API 与 Delta Lake 中存储的数据进行交互。

最佳实践

参考链接:

  • https://learn.microsoft.com/zh-cn/azure/databricks/delta/best-practices
Apache Spark 上的 Delta Lake 与 Parquet 之间的区别

https://learn.microsoft.com/zh-cn/azure/databricks/delta/best-practices#differences-between-delta-lake-and-parquet-on-apache-spark


http://www.ppmy.cn/devtools/132317.html

相关文章

一些 uniapp相关bug

1.当input聚焦时布局未上移 <scroll-view style"height: calc(100vh - 100rpx - 38rpx)" :scroll-y"true"><wd-form ref"formRef" :model"fbObj">....<wd-inputlabel"联系方式"prop"contact"clear…

CentOS 7 更换软件仓库

CentOS 7 于2024年6月30日停止维护&#xff0c;官方仓库已经没有软件了&#xff0c;想要继续使用 &#xff0c;需要更换软件仓库&#xff0c;这里更换到阿里云的软件仓库 https://developer.aliyun.com/mirror/ 查看目前可用的软件数量 yum repolist 更换软件仓库&#xff1a…

成都睿明智科技有限公司共赴抖音电商蓝海

在这个短视频风起云涌的时代&#xff0c;抖音作为现象级的社交媒体平台&#xff0c;不仅改变了人们的娱乐方式&#xff0c;更悄然间重塑了电商行业的格局。在这片充满机遇与挑战的蓝海中&#xff0c;成都睿明智科技有限公司凭借其敏锐的市场洞察力和专业的服务能力&#xff0c;…

hadoop_MapReduce详解

MapReduce秒懂 MapReduce定义MapReduc优缺点优点缺点 MapReduc核心思想MapReduc工作流程Map阶段切片&#xff08;split&#xff09;读取&#xff08;RecordReader&#xff09;处理&#xff08;mapper&#xff09;收集&#xff08;collect&#xff09;溢写&#xff08;spill&…

微服务mysql,redis,elasticsearch, kibana,cassandra,mongodb, kafka

在 Windows 上安装 MySQL 下载 MySQL 安装包&#xff1a; 访问 MySQL 官方网站。选择适合 Windows 的安装程序&#xff0c;下载并保存。 运行安装程序&#xff1a; 双击下载的安装文件&#xff0c;开始安装。在安装向导中选择“开发者默认”或“完整安装”。 配置 MySQL&#x…

Java基础——反射

反射是框架设计的灵魂 &#xff08;使用的前提条件&#xff1a;必须先得到代表的字节码的Class&#xff0c;Class类用于表示.class文件&#xff08;字节码&#xff09;&#xff09; 翻译成人话就是&#xff1a;反射技术&#xff0c;指的是加载类的字节码到内存&#xff0c;并以…

语忆科技携手火山引擎数据飞轮 探索智能客服场景新可能

放弃支付、申请退款、购后差评……消费者在电商平台的每一项操作背后&#xff0c;其实都有原因。 而这些原因&#xff0c;往往深藏于消费者与商家客服沟通的十几条甚至几十条对话之中。 在杭州语忆科技有限公司 CTO 魏志成看来&#xff0c;消费者与商家客服的沟通内容&#xff…

市场营销应该怎么学?

别一听市场营销就觉得是那些大公司玩的高深莫测的游戏&#xff0c;其实它就在你我身边&#xff0c;无处不在&#xff0c;影响着咱们生活的方方面面。 记得去年双十一&#xff0c;你是不是被各种优惠券、预售、秒杀整得头晕眼花&#xff0c;最后还是忍不住剁了手&#xff1f; …