一、分桶表

1.1分桶表的概念

分桶表也叫做桶表，源自建表语法中bucket单词。是一种用于==优化查询==而设计的表类型。该功能可以让数据分解为若干个部分易于管理。

在分桶时，我们要指定==根据哪个字段将数据分为几桶（几个部分）==。默认规则是：Bucket number = hash_function(bucketing_column) mod num_buckets。

算法：哈希求余，分桶字段（key）求hash值 => 10 11 12

（每个字段都有一个hash值，数字型就是它本身；字符串会hash算法求出一个数字)

(接着hash求余）

(字段完全相同的，一定在同一个筒中)

10 % 3 = 1 => 编号为1号桶

11 % 3 = 2 => 编号为2的桶

12 % 3 = 0 => 编号为0的桶

1亿条数据 => 10个桶 => 1000万条数据

意义：① 优化手段，比分区更加精细的划分，但是数据平均 ② 适合数据抽样

可以发现桶编号相同的数据会被分到同一个桶当中。hash_function取决于分桶字段bucketing_column的类型：

如果是int类型，hash_function(int) == int;

如果是其他类型，比如bigint,string或者复杂数据类型，hash_function比较棘手，将是从该类型派生的某个数字，比如hashcode值。

1.2 分桶表的创建

1.3分桶表的使用好处

和非分桶表相比，分桶表的使用好处有以下几点：

① 优化手段，比分区更加精细的划分，但是数据平均 ② 适合数据抽样

1、==基于分桶字段查询时，减少全表扫描==

        --基于分桶字段state查询来自于New York州的数据
        --不再需要进行全表扫描过滤
        --根据分桶的规则hash_function(New York) mod 5计算出分桶编号


        --查询指定分桶里面的数据就可以找出结果此时是分桶扫描而不是全表扫描
        select * from t_usa_covid19_bucket where state="New York";