hive中分区与分桶的区别

server/2024/10/9 5:01:12/

过去,在学习hive的过程中学习过分桶与分区。但是,却未曾将分区与分桶做详细比较。今天,回顾skew join时涉及到了分桶这一概念,一时间无法区分出分区与分桶的区别。查阅资料,特地记录下来。

一、Hive分区

1.分区一般是手动添加分区,在hdfs中不同分区的数据一般存储在不同的目录下。

2.分区的个数一般是可以增长的,用户只需要在建表时指定分区字段,然后具体的分区数则是由字段中数据的种类所决定的。

3.分区通过partition by语句实现:

CREATE TABLE my_table (col1 INT,col2 STRING
)
PARTITIONED BY (dt STRING, country STRING);

4.如果数据进行了分区,在插入数据时需要使用PARTITION指定分区,使用如下语句:

INSERT INTO my_table PARTITION (dt='2023-01-01', country='China')
VALUES (1, 'data1'), (2, 'data2');

5.一般情况下分区的字段通常仅包含如下几种字段:

  • 时间:根据时间戳或日期将数据按照不同的时间段进行分区,例如按年、月、日等。
  • 地理位置:根据地理信息将数据按照不同的地域进行分区,例如国家、城市等。
  • 类别/类型:根据某个类别或类型属性将数据进行分类并进行相应的分区。

二、Hive分桶

分桶通常也是由用户指定字段,同时用户还要指定桶个数。数据按照对指定字段进行哈希函数后的结果进行划分和存储。通过分桶,可以将数据均匀分布到不同的桶中,提高查询性能。

存储方面,分桶后的数据一般在同一个目录下。

一般使用CLUSTERED BY语句进行分桶,使用方法如下:

CREATE TABLE my_bucketed_table (col1 INT,col2 STRING
)
CLUSTERED BY (col1) INTO 4 BUCKETS
SORTED BY (col2);

使用分桶一般是为了提升查询效率,比如在进行join操作时,可能会出现数据倾斜。如果是大表join大表,就需要使用SMBjoin。可以视作是mapjoin的一种。其中最重要的就是要对表进行分桶。

在进行SMBjoin时,一般执行join操作的列也必须时bucket列。这样,大表join大表就被转化为了小表join小表或大表join小表。

三、分区与分桶的区别

两者目的不同,数据分桶的目的在于进行查询时提升查询效率,尤其是join操作时。而分区表则除了优化查询,同时将数据存储在不同文件夹下,方便数据管理。

两者实现方式不同,数据分桶仅需要指定一个字段,并仅需要指定桶个数。数据分区则可以指定多个字段,并无需指定区个数。

两者应用场景不同:分区更适合于但节点数据库的管理和查询优化,而分桶更适合于分布式系统中数据的均匀分布和查询优化。


http://www.ppmy.cn/server/93199.html

相关文章

前端拥抱AI:LangChain.js 入门遇山开路之PromptTemplate

PromptTemplate是什么 PromptTemplate是一个可重复使用的模板,用于生成引导模型生成特定输出的文本。与Prompt的区别: PromptTemplate相对于普通Prompt的优势,即其灵活性和可定制性。 简单了解PromptTemplate后,咱们就来聊聊LangChain里的P…

Elasticsearch(ES) 集群脑裂

脑裂问题(split-brain problem)是指一个分布式系统中,当网络分裂(network partition)发生时,导致系统内部的两个或多个节点相互独立地认为自己仍然与其他节点连接,每个节点组都试图执行操作,这可能会导致数…

Android笔试面试题AI答之Activity(6)

文章目录 1.描述一下Android Actvity中Window的创建过程 ?1. Activity的启动2. onCreate()方法调用3. 窗口(Window)的创建4. 窗口的显示5. 用户的交互总结 2.简述Android Window的添加过程 ?1. 准备工作2. 创建WindowManager.Layo…

一下午连续故障两次,谁把我们接口堵死了?!

唉。。。 大家好,我是程序员鱼皮。又来跟着鱼皮学习线上事故的处理经验了喔! 事故现场 周一下午,我们的 编程导航网站 连续出现了两次故障,每次持续半小时左右,现象是用户无法正常加载网站,一直转圈圈。 …

Godot入门 05收集物品

创建新场景,添加Area2D节点,AnimatedSprite2D节点 ,CollisionShape2D节点 添加硬币 按F键居中,放大视图。设置动画速度设为10FPS,加载后自动播放,动画循环 碰撞形状设为圆形,修改Area2D节点为Co…

塔子哥的编程乐趣-腾讯2023笔试(codefun2000)

题目链接 塔子哥的编程乐趣-腾讯2023笔试(codefun2000) 题目内容 塔子哥是一位资深的程序员,他最近在研究一种特殊的数组操作。他有一个由正整数组成的数组,数组的长度是偶数。塔子哥可以对数组中的任意一个数字执行以下两种操作之一: 将该数字乘以 2;将该数字除以 2 并向下取…

安装MongoDB UI客户端工具:mongodb-compass-1.40.2-win32-x64.msi

文章目录 1、安装 mongodb-compass-1.40.2-win32-x64.msi2、安装后配置链接地址: 1、安装 mongodb-compass-1.40.2-win32-x64.msi 2、安装后配置链接地址:

Pytorch深度学习实践(10)循环神经网络RNN

循环神经网络RNN RNN看起来很复杂,但实际上就是线性层的一种复用 例如,对于一个下雨的数据集,收集了每天的温度、气压等信息,用来预测未来是否会下雨 使用全连接层,将数据集中的温度、气压等信息作为下雨的的影响因素…