Hive数仓操作(七)

news/2024/12/22 1:47:19/

一、 Hive动态分区表

1. 动态分区与静态分区的区别

  1. 分区定义

    • 静态分区:在插入数据时,需要手动指定分区字段的值。
    • 动态分区:分区字段的值是根据数据中的某个字段自动生成的,用户只需指定分区字段的类型。
  2. 数据加载方式

    • 静态分区:可以通过 LOAD DATAINSERT ... SELECT 加载数据。
    • 动态分区:只能通过 INSERT ... SELECT 加载数据。
  3. 查询要求

    • 静态分区:在 INSERT ... SELECT 中,SELECTWHERE 子句中不需要包含分区字段。
    • 动态分区:在 INSERT ... SELECT 中,必须查询出分区字段的值,并且这些字段需要放在 SELECTWHERE 子句之间的最后。

2. 动态分区设置

  1. 开启动态分区

    SET hive.exec.dynamic.partition = true;
    
  2. 设置动态分区模式

    动态分区有两种模式:

    • strict: 需要与静态分区一起使用,不设置nonstrict的情况下创建动态分区表的同时必需要指定一个静态分区。

      -- 示例: 
      INSERT INTO TABLE students_pt PARTITION(dt='anhui', pt) SELECT ..., pt FROM students;
      
    • nonstrict: 允许单独使用动态分区。

      SET hive.exec.dynamic.partition.mode = nonstrict;
      
  3. 设置最大分区数量

    可以根据业务需求调整支持的最大分区数量。例如,设置为1000:

    SET hive.exec.max.dynamic.partitions.pernode = 1000;
    

示例

1. 动态分区示例
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;CREATE TABLE student_info_dynamic (id INT,name STRING,sex STRING,age INT
)
PARTITIONED BY (year STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';INSERT INTO TABLE student_info_dynamic
PARTITION (year)
SELECT id, name, sex, age, year FROM source_table;
2. 静态加动态分区示例
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;CREATE TABLE student_info_static_dynamic (id INT,name STRING,sex STRING
)
PARTITIONED BY (year STRING, month STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';INSERT INTO TABLE student_info_static_dynamic
PARTITION (year = '2023', month)
SELECT id, name, sex, month FROM source_table;
3. 多个动态分区示例
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;CREATE TABLE student_info_multi_dynamic (id INT,name STRING
)
PARTITIONED BY (year STRING, month STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';INSERT INTO TABLE student_info_multi_dynamic
PARTITION (year, month)
SELECT id, name, year, month FROM source_table;

二、 Hive外部分区表

假设在 HDFS 上已经存在日志目录,其结构如下:

hadoop fs -put log1.txt /logs/20210510
hadoop fs -put log2.txt /logs/20210511
hadoop fs -put log3.txt /logs/20210512

1. 创建外部分区表

CREATE EXTERNAL TABLE ext_logs_p (id INT,name STRING,operate STRING
)
PARTITIONED BY (date_time STRING)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','
LOCATION '/logs';

2. 挂载已有分区数据

创建分区并与已有目录绑定:

ALTER TABLE ext_logs_p ADD PARTITION (date_time='20210510')
LOCATION '/logs/20210510';ALTER TABLE ext_logs_p ADD PARTITION (date_time='20210511')
LOCATION '/logs/20210511';ALTER TABLE ext_logs_p ADD PARTITION (date_time='20210512')
LOCATION '/logs/20210512';

3. 自动修复分区

如果目录已经存在,可以使用以下命令自动修复分区:

MSCK REPAIR TABLE ext_logs_p;

为了让 Hive 自动识别分区,目录应该按以下格式命名:

  • /logs/date_time=20210510/ 包含 log1.txt
  • /logs/date_time=20210511/ 包含 log2.txt
  • /logs/date_time=20210512/ 包含 log3.txt

这种方式会扫描目录结构并自动更新 Hive 元数据,使其与 HDFS 上的现有目录匹配,运行MSCK REPAIR TABLE命令后,Hive 会扫描 /logs/ 目录,自动识别并添加符合格式的分区:

  • date_time='20210510'
  • date_time='20210511'
  • date_time='20210512

外部分区表关联数据的方式

  • 创建分区后使用 LOAD DATA:适用于将新数据加载到指定分区中。
  • 通过 ALTER TABLE ADD PARTITION:用于将已有目录绑定到分区。
  • 使用 MSCK REPAIR TABLE:自动修复分区,适用于已有目录符合分区格式的情况。

感谢您访问本博文,另外,在今天这个举国欢庆的日子里,愿大家享受美好的时光,放下工作的繁忙,陪伴家人和朋友,共度温馨的国庆假期。愿祖国繁荣昌盛,国泰民安!祝大家国庆快乐,幸福安康!


http://www.ppmy.cn/news/1534815.html

相关文章

基于SSM的定制衣服系统的设计与实现(定制衣服管理平台的设计与开发、智慧服装定制系统的设计与实现、定制衣服管理系统的设计与实现(源码+定制+参考文档)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

MATLAB基础应用精讲-【数模应用】Kaplan Meier(附python和R语言代码实现)

目录 前言 几个相关概念 事件 生存时间 删失 生存概率 中位生存时间 风险概率 算法原理 什么是生存分析? 生存分析与回归、分类模型的区别? 生存分析可以干什么? 基本思想 SPSSAU Kaplan Meier案例 1、背景 2、理论 3、操作 4、SPSSAU输出结果 5、文字分…

计算机网络-系分(5)

目录 计算机网络 DNS解析 DHCP动态主机配置协议 网络规划与设计 层次化网络设计 网络冗余设计 综合布线系统 1. 双栈技术 2. 隧道技术 3. 协议转换技术 其他网络技术 DAS(Direct Attached Storage,直连存储) NAS(Net…

cloud-(Nacos)--注册中心原理-服务注册-服务发现

并且通过(RestTemplate)Http请求实现了跨微服务的远程调用。不过这种手动发送Http请求的方式存在一些问题 在大型微服务项目中,服务提供者的数量会非常多,为了管理这些服务就引入了注册中心的概念。注册中心、服务提供者、服务消费者三者间关系如下: 流程如下: 服务启动…

ROS2 launch时根据xacro生成urdf

ROS2 launch时根据xacro生成urdf 文章目录 前言正文 前言 本文简单记录如何在ros2 launch时生成urdf并保存到目标目录。 正文 from launch.substitutions import Command, FindExecutable, PathJoinSubstitution from launch_ros.substitutions import FindPackageSharedef …

建筑资质的未来发展趋势

🏗️建筑资质是建筑企业进入市场的通行证,它不仅关系到企业的竞争力,也影响着整个建筑行业的健康发展。随着政策的调整和技术的进步,建筑资质管理正面临着新的变革。 1. 资质管理的数字化转型:🌐 随着信息技…

SpringCloud入门(十二)全局过滤器和跨域

一、全局过滤器 全局过滤器的作用也是处理一切进入网关的请求和微服务响应,与GatewayFilter的作用一样。 区别在于GatewayFilter通过配置定义,处理逻辑是固定的,如果我们希望拦截请求,做自己的业务逻辑则没办法实现。而GlobalFilt…

【51单片机】点亮LED之经典流水灯

开发环境 开发板:普中51-单核-A2单片机:STC89C52RC(双列直插40引脚 DIP40)Keil uVision5 v9.61 最新版破解方法自行百度,相关文档和视频资料很多,我自己将这一操作记录下来当做博客发布,CSDN以…