【Hudi】hudi概述

news/2024/9/23 23:41:07/

Apache Hudi是什么

  • 下一代数仓解决方法,提供高效的upsert和近实时更新
  • Hudi提供了表、事务、高效的upsert/delete、高级索引、流摄取服务、数据集群/压缩优化和并发。同时保持数据的开源文件格式
    两种文件格式:parquet、avro
  • Apache Hudi不仅非常适合流工作负载,而且还允许创建高效的增量批处理管道
  • Apache Hudi可以轻松地在任何云存储平台上使用。Hudi的高性能优化,使分析工作负载更快的任何流行查询引擎:Spark、Flink、Presto、Trino、Hive等

Hudi特性

1、可插拔索引机制支持快速upsert/delete
2、支持增量拉取表变更以进行处理
3、支持事务提交及回滚,并发控制
4、支持spark、presto、trino、hive、flink等引擎的SQL读写
5、自动管理小文件、数据聚簇,压缩,清理
6、流式摄入,内置CDC源和工具
7、内置可扩展存储访问的元数据跟踪
8、向后兼容的方式实现表结构变更的支持

Hudi使用场景

1、近实时写入
减少碎片化工具的使用
CDC增量导入RDBMS数据
限制小文件的大小和数据
2、近实时分析
相对于秒级存储,节省资源
提供分钟级别时效性,支持更高效的查询
Hudi作为lib,非常轻量
3、增量pipeline
区分arrivetime和event time处理延迟数据
更短的调度interval减少端到端延迟(小时–>分钟)==>
4、增量导出
替代部分kafka的场景,数据导出到在线服务器存储 (eg.es)


http://www.ppmy.cn/news/1464215.html

相关文章

python 面对对象 类 基础

面对对象 程序是由数据和功能组合而成的对象构建起来的,对数据与函数绑定到一起,进行封装,能够更快速的开发程序,减少重复代码 class --- 类,类是对象的抽象化,具有相同特征或行为的事物的统称 类的定义…

知识点最多最详细的JS自学学习笔记(连载)第一章、条件判断语法

条件判断语法 (1) if else if(条件1){ 条件成立执行的语句 }else if(条件2){ 条件2成立执行的语句 }else if(条件3){ 条件3成立执行的语句 }... else{ 以上条件都不成立执行的语句 } 1、if中…

微信加好友的方式有哪些?如何快捷自动回复?

微信加好友的方式: 1、通信录导入根据微信号综合评分,24小时只能加15-25位好友。即使超出了25个,添加后显示发送验证成功,对方也收不到你的验证信息,你手上有千万个老客户的手机号也没用。 2、查找添加10小时智能查找…

计算机算法中的数字表示法——原码、反码、补码

目录 1.前言2.研究数字表示法的意义3.数字表示法3.1 无符号整数3.2 有符号数值3.3 二进制补码(Twos Complement, 2C)3.4 二进制反码(也称作 1 的补码, Ones Complement, 1C)3.5 减 1 表示法(Diminished one System, D1)3.6 原码、反码、补码总结 1.前言 昨天有粉丝让我讲解下定…

【刷题(13)】二分查找

一、二分查找基础 &#xff08;1&#xff09;int mid ((right - left) >> 1) left; &#xff08;2&#xff09;lower_bound的底层实现 int lower_bound(vector<int>& nums, int x) {int left 0;int right nums.size() - 1;// 区间为 左闭右闭while (lef…

2951. 找出峰值

找出数组中的峰值 给你一个下标从 0 开始的数组 mountain 。你的任务是找出数组 mountain 中的所有 峰值。 以数组形式返回给定数组中 峰值 的下标&#xff0c;顺序不限 。 注意 峰值 是指一个严格大于其相邻元素的元素。数组的第一个和最后一个元素 不 是峰值。 示例 1 …

vue组件的基本使用方法

组件 【1】组件是什么&#xff1f; 组件就是&#xff1a;扩展 HTML 元素&#xff0c;封装可重用的代码&#xff0c;目的是复用例如&#xff1a;有一个轮播图&#xff0c;可以在很多页面中使用&#xff0c;一个轮播有js&#xff0c;css&#xff0c;html组件把js&#xff0c;cs…

[leetcode hot150]第二百三十六题,二叉树的最近公共祖先

题目&#xff1a; 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为&#xff1a;“对于有根树 T 的两个节点 p、q&#xff0c;最近公共祖先表示为一个节点 x&#xff0c;满足 x 是 p、q 的祖先且 x 的深度尽可能大&#xff08;一个…