Hive数仓操作(七)

ops/2024/10/20 4:09:55/

一、 Hive动态分区表

1. 动态分区与静态分区的区别

  1. 分区定义

    • 静态分区:在插入数据时,需要手动指定分区字段的值。
    • 动态分区:分区字段的值是根据数据中的某个字段自动生成的,用户只需指定分区字段的类型。
  2. 数据加载方式

    • 静态分区:可以通过 LOAD DATAINSERT ... SELECT 加载数据。
    • 动态分区:只能通过 INSERT ... SELECT 加载数据。
  3. 查询要求

    • 静态分区:在 INSERT ... SELECT 中,SELECTWHERE 子句中不需要包含分区字段。
    • 动态分区:在 INSERT ... SELECT 中,必须查询出分区字段的值,并且这些字段需要放在 SELECTWHERE 子句之间的最后。

2. 动态分区设置

  1. 开启动态分区

    SET hive.exec.dynamic.partition = true;
    
  2. 设置动态分区模式

    动态分区有两种模式:

    • strict: 需要与静态分区一起使用,不设置nonstrict的情况下创建动态分区表的同时必需要指定一个静态分区。

      -- 示例: 
      INSERT INTO TABLE students_pt PARTITION(dt='anhui', pt) SELECT ..., pt FROM students;
      
    • nonstrict: 允许单独使用动态分区。

      SET hive.exec.dynamic.partition.mode = nonstrict;
      
  3. 设置最大分区数量

    可以根据业务需求调整支持的最大分区数量。例如,设置为1000:

    SET hive.exec.max.dynamic.partitions.pernode = 1000;
    

示例

1. 动态分区示例
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;CREATE TABLE student_info_dynamic (id INT,name STRING,sex STRING,age INT
)
PARTITIONED BY (year STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';INSERT INTO TABLE student_info_dynamic
PARTITION (year)
SELECT id, name, sex, age, year FROM source_table;
2. 静态加动态分区示例
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;CREATE TABLE student_info_static_dynamic (id INT,name STRING,sex STRING
)
PARTITIONED BY (year STRING, month STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';INSERT INTO TABLE student_info_static_dynamic
PARTITION (year = '2023', month)
SELECT id, name, sex, month FROM source_table;
3. 多个动态分区示例
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;CREATE TABLE student_info_multi_dynamic (id INT,name STRING
)
PARTITIONED BY (year STRING, month STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';INSERT INTO TABLE student_info_multi_dynamic
PARTITION (year, month)
SELECT id, name, year, month FROM source_table;

二、 Hive外部分区表

假设在 HDFS 上已经存在日志目录,其结构如下:

hadoop fs -put log1.txt /logs/20210510
hadoop fs -put log2.txt /logs/20210511
hadoop fs -put log3.txt /logs/20210512

1. 创建外部分区表

CREATE EXTERNAL TABLE ext_logs_p (id INT,name STRING,operate STRING
)
PARTITIONED BY (date_time STRING)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','
LOCATION '/logs';

2. 挂载已有分区数据

创建分区并与已有目录绑定:

ALTER TABLE ext_logs_p ADD PARTITION (date_time='20210510')
LOCATION '/logs/20210510';ALTER TABLE ext_logs_p ADD PARTITION (date_time='20210511')
LOCATION '/logs/20210511';ALTER TABLE ext_logs_p ADD PARTITION (date_time='20210512')
LOCATION '/logs/20210512';

3. 自动修复分区

如果目录已经存在,可以使用以下命令自动修复分区:

MSCK REPAIR TABLE ext_logs_p;

为了让 Hive 自动识别分区,目录应该按以下格式命名:

  • /logs/date_time=20210510/ 包含 log1.txt
  • /logs/date_time=20210511/ 包含 log2.txt
  • /logs/date_time=20210512/ 包含 log3.txt

这种方式会扫描目录结构并自动更新 Hive 元数据,使其与 HDFS 上的现有目录匹配,运行MSCK REPAIR TABLE命令后,Hive 会扫描 /logs/ 目录,自动识别并添加符合格式的分区:

  • date_time='20210510'
  • date_time='20210511'
  • date_time='20210512

外部分区表关联数据的方式

  • 创建分区后使用 LOAD DATA:适用于将新数据加载到指定分区中。
  • 通过 ALTER TABLE ADD PARTITION:用于将已有目录绑定到分区。
  • 使用 MSCK REPAIR TABLE:自动修复分区,适用于已有目录符合分区格式的情况。

感谢您访问本博文,另外,在今天这个举国欢庆的日子里,愿大家享受美好的时光,放下工作的繁忙,陪伴家人和朋友,共度温馨的国庆假期。愿祖国繁荣昌盛,国泰民安!祝大家国庆快乐,幸福安康!


http://www.ppmy.cn/ops/122039.html

相关文章

JavaScript 中的 === 运算符

是JavaScript中的严格相等运算符。它用于比较两个值是否完全相等,不仅比较值,还比较类型。这与 (相等运算符)不同,后者在比较之前会进行类型转换。 示例 1. 比较相同类型的值 console.log(5 5); // true console.log(hello hello); // true console.log(true true); …

三、数据链路层(上)

目录 3.1数据链路层概述 3.1.1术语 3.1.2功能 3.2封装成帧和透明传输 3.2.1封装成帧 ①字符计数法 ②字符(节)填充法 ③零比特填充法 ④违规编码法 3.2.2透明传输 3.2.3差错控制 差错原因 检错编码 奇偶校验 ☆循环冗余码CRC 例题 纠错…

视觉定位Revisit Anything

Revisit Anything: Visual Place Recognition via Image Segment Retrieval 项目地址 摘要: 准确识别重游地点对于嵌入代理的定位和导航至关重要。这要求视觉表现清晰,尽管摄像机视点和场景外观有很大变化。现有的视觉地点识别管道对“整个”图像进行编码…

开发维护一个项目需要考虑的地方

产品提需求需求评审,排期设计评审,技术选型,架构设计,DDD领域驱动设计编码,前后端联调自测,自测用例提测,测试回归开发修改,测试回归的问题需求完成,合入版本发版本线上回…

dcatadmin 自定义登录页面

一、问题: 在后台管理系统中,不同的项目想要不同的登录页面,但是框架自带的登录页面就只有一个。 解决: 由芒果系统改造的dcatadmin登录插件,实现一键安装改变登录页面。 项目介绍 基于Laravel和Vue的快速开发的后台管…

ARM 架构、cpu

一、ARM的架构 ARM是一种基于精简指令集(RISC)的处理器架构. 1、ARM芯片特点 ARM芯片的主要特点有以下几点: 精简指令集:ARM芯片使用精简指令集,即每条指令只完成一项简单的操作,从而提高指令的执行效率…

知识链=知识图谱+大模型+推理-幻觉

最近由华东师大和香港大学联合提出了一种面向大语言模型推理的幻觉缓解方法Chain-of-Knowledge被ACL2024接收为长文主会。 PDF: https://arxiv.org/pdf/2306.06427 最近这两年,诸如GPT-4、LLaMA3等一系列超百亿规模的大语言模型相继提出,这些大模型以其…

【Mysql】数据库基本操作-----DML

1、基本操作 DML是数据操作语言,英文全称是:Data Manipulation Language,用来对数据库中的数据记录进行更新。 关键字: (1)插入insert (2)删除delete (3)更新upda…