Hive知识回顾2

news/2024/11/1 23:38:00/

一、分桶表

 

1.1分桶表的概念

        分桶表也叫做桶表,源自建表语法中bucket单词。是一种用于==优化查询==而设计的表类型。该功能可以让数据分解为若干个部分易于管理。

        在分桶时,我们要指定==根据哪个字段将数据分为几桶(几个部分)==。默认规则是:Bucket number = hash_function(bucketing_column) mod num_buckets。

        id

        10

        11

        12

        算法:哈希求余,分桶字段(key)求hash值 => 10 11 12

        (每个字段都有一个hash值,数字型就是它本身;字符串会hash算法求出一个数字)

                (接着hash求余)

                (字段完全相同的,一定在同一个筒中)

        10 % 3 = 1 => 编号为1号桶

        11 % 3 = 2 => 编号为2的桶

        12 % 3 = 0 => 编号为0的桶

        1亿条数据 => 10个桶 => 1000万条数据

意义:① 优化手段,比分区更加精细的划分,但是数据平均 ② 适合数据抽样

        可以发现桶编号相同的数据会被分到同一个桶当中。hash_function取决于分桶字段bucketing_column的类型:

        如果是int类型,hash_function(int) == int;

        如果是其他类型,比如bigint,string或者复杂数据类型,hash_function比较棘手,将是从该类型派生的某个数字,比如hashcode值。

1.2 分桶表的创建

 

1.3分桶表的使用好处 

 

         和非分桶表相比,分桶表的使用好处有以下几点:

                ① 优化手段,比分区更加精细的划分,但是数据平均 ② 适合数据抽样

        1、==基于分桶字段查询时,减少全表扫描==

        --基于分桶字段state查询来自于New York州的数据
        --不再需要进行全表扫描过滤
        --根据分桶的规则hash_function(New York) mod 5计算出分桶编号

                
        --查询指定分桶里面的数据 就可以找出结果  此时是分桶扫描而不是全表扫描
        select * from t_usa_covid19_bucket where state="New York";

 

 

 

         2、==分桶表数据进行抽样==

        1亿 => 10个桶 => 1g个桶进行抽样

        当数据量特别大时,对全体数据进行处理存在困难时,抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

 

二、总结

        Hive分区表与分桶表区别:

               1.语法不同,分区字段必须是虚拟的,分桶字段必须是实际存在的。

                2.底层表现形式不同,分区是把数据集分文件夹存储,分桶是把数据集分文件存储。

                3.分区表往往是能判断出数据分配在哪个区中

                   分桶表基于哈希求余,很难估算出数据具体分配在哪个桶中

                4.分桶表相对于分区,是更加细粒度的划分

        应用场景:

                分区为了避免全表扫描,加快查询速度,分区裁剪

                分桶虽然也有避免全表扫描,加快查询速度,还可以进行抽样查询

        相同点:都是优化手段,都是建表可选操作。

        在实际工作中,分区表相对来说使用更加多一些!!!

 


http://www.ppmy.cn/news/81878.html

相关文章

《The Element of Style》阅读笔记 —— 章节 II Elementary Principles of Composition

前言:本篇为书籍《The Element of Style》第二章的阅读笔记。 本书电子版链接:http://www.jlakes.org/ch/web/The-elements-of-style.pdf 章节 I Elementary Rules of Usage 阅读笔记:链接 Content II Elementary Principles of Composition…

C语言基础知识:内存分配

目录 内存分配原理 内存分配方法 静态内存分配 动态内存分配 MALLOC() CALLOC() 内存释放 注意事项 在C语言中,内存分配是非常重要的一个概念,因为C语言中没有内置的垃圾回收机制,需要我们手动管理内存的分配和释放。下面我们来详细讲…

低代码系统前端实践之vue-element-admin运行demo

文章目录 1、简介2、实践功能3、实践过程3.0 下载运行demo3.1.1 解决执行npm install或出现以下报错(删掉组件tui-editor相关即可)3.1.2 解决执行npm run dev或出现no module body-parser(安装body-parser即可)3.1.3 解决执行npm run dev或出现error:0308010C:digital envelope…

Dockerfile的配置减小镜像文件大小

要编写一个能够使镜像文件最小化的 Dockerfile,可以考虑以下几个步骤和技巧: 选择合适的基础镜像:选择一个适合的基础镜像可以减小镜像的大小。常见的选择包括使用基于Alpine Linux的镜像,例如python:3.9-alpine,因为它…

删除Windows11和WIN10桌面图标小箭头

方法一: 1.右键“开始”菜单,找到“运行”,输入命令 regedit ,打开“注册表编辑器” 2.在“注册表编辑器”左侧窗口,按照以下路径找到对应项 HKEY_CLASSES_ROOT\lnkfile 3.选择右侧窗口的lsShortcut项,右击lsShortcut项,点击删除选项,将lsShortcut删除即可 4.重启电…

分布式事务的21种武器 - 4

在分布式系统中,事务的处理分布在不同组件、服务中,因此分布式事务的ACID保障面临着一些特殊难点。本系列文章介绍了21种分布式事务设计模式,并分析其实现原理和优缺点,在面对具体分布式事务问题时,可以选择合适的模式…

python简单爬虫爬取图片

python简单爬虫爬取图片 前言: 网络上的信息很多,有的时候我们需要关键字搜索才可以快速方便的找到我们需要的信息。今天我们实现搜索关键字爬取堆糖网上相关的美图,零基础学会通用爬虫,当然我们还可以实现多线程爬虫,加快爬虫爬取…

Swift 如何闪电般异步读取大文件?

功能需求 Apple 系统中(iOS、MacOS、WatchOS等等)读取文件是一个平常的不能再平常的需求,不过当文件很大时,同步读取文件会导致 UI 的挂起,这是不能让用户接受的。 所以,要想读取文件内容的同时保持界面操作丝般顺滑,只有使用异步文件读取技术来拯救我们了! 在本篇博…