hive 表结构

Hive 是构建在 Hadoop 上的数据仓库工具，其表结构设计直接影响到数据存储和查询性能。以下是 Hive 表的核心结构要素及常见操作：

1. Hive 表的核心结构

(1) 表的类型

类型	描述
内部表（Managed Table）	数据由 Hive 管理，删除表时数据会一起删除。默认存储在 HDFS 的 `/user/hive/warehouse` 目录下。
外部表（External Table）	数据存储在 HDFS 的指定路径，Hive 只管理元数据。删除表时仅删除元数据，不删除实际数据。
分区表（Partitioned Table）	按指定列（如日期、地区）将数据物理分割到不同目录，加速查询。
分桶表（Bucketed Table）

(2) 数据存储格式

格式	特点
TextFile	默认格式，文本文件（CSV/TSV），可读性强，但压缩率和查询性能较低。
ORC	列式存储，支持压缩、索引和谓词下推，适合 OLAP 场景。
Parquet	列式存储，兼容多种计算框架（如 Spark），支持嵌套数据结构。
Avro	支持 Schema 演化，适合频繁变更数据结构的场景。

(3) 表的元数据

字段定义：列名、数据类型（如 STRING, INT, DOUBLE, TIMESTAMP）。
分区键（Partition Keys）：用于分区的列（需显式指定）。
分桶配置：分桶列、分桶数量。
存储属性：文件格式、压缩方式、存储路径等。

2. Hive 表的创建示例

(1) 基础内部表

CREATE TABLE employee (
id INT,
name STRING,
salary DOUBLE,
department STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',' -- 指定字段分隔符
STORED AS TEXTFILE; -- 存储格式（默认）

(2) 外部表

CREATE EXTERNAL TABLE external_employee (
id INT,
name STRING,
salary DOUBLE
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE
LOCATION '/user/data/employee'; -- 指定 HDFS 路径

(3) 分区表

CREATE TABLE employee_partitioned (
id INT,
name STRING,
salary DOUBLE
)
PARTITIONED BY (department STRING, year INT) -- 分区列
STORED AS ORC; -- 使用 ORC 格式

(4) 分桶表

CREATE TABLE employee_bucketed (
id INT,
name STRING,
department STRING
)
CLUSTERED BY (department) INTO 4 BUCKETS -- 按 department 分4个桶
STORED AS ORC;

3. 表结构优化技巧

(1) 分区设计

场景：按时间（year/month/day）、地域（country）等高频过滤条件分区。

ALTER TABLE employee_partitioned ADD PARTITION (department='IT', year=2023);

(2) 分桶优化

场景：JOIN 或 GROUP BY 操作频繁的列。
规则：分桶数量建议为 HDFS 块大小的整数倍。

(3) 压缩与存储格式

ORC/Parquet：列式存储 + Snappy 压缩。

CREATE TABLE employee_orc (
id INT,
name STRING
)
STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY");

(4) 数据倾斜处理

动态分区：启用动态分区插入数据

SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;
INSERT INTO employee_partitioned PARTITION (department, year)
SELECT id, name, salary, department, year FROM source_table;

4. 常用操作命令

(1) 查看表结构

DESCRIBE FORMATTED test ; -- 显示详细信息（包括存储路径、格式等）

(2) 加载数据

-- 从本地加载到内部表
LOAD DATA LOCAL INPATH '/path/to/data.csv' INTO TABLE employee;

-- 从 HDFS 加载到分区表
LOAD DATA INPATH '/hdfs/path/data' INTO TABLE employee_partitioned PARTITION (department='IT', year=2023);

5. 分区表 vs 分桶表对比

特性	分区表	分桶表
核心目的	减少数据扫描范围（目录过滤）	优化 JOIN 和聚合操作
物理存储	按分区列值存储到不同目录	按哈希值分桶存储到多个文件
适用列	低基数（如日期、类别）	高基数（如用户ID）
性能影响	显著提升过滤查询速度	提升 JOIN 和采样效率