Hive数仓操作(十四)

news/2024/10/7 23:53:48/

一、Hive的DDL语句

在 Hive 中,DDL(数据定义语言)语句用于数据库和表的创建、修改、删除等操作。以下是一些重要的 DDL 语句:

1. 创建数据库和表

  • 创建数据库

    CREATE DATABASE IF NOT EXISTS database_name;
    
  • 创建表

    CREATE TABLE table_name (column1_name data_type,column2_name data_type,...
    )
    COMMENT 'Table comment'
    STORED AS file_format;
    

2. 修改表

  • 重命名表

    ALTER TABLE old_table_name RENAME TO new_table_name;
    
  • 添加列

    ALTER TABLE table_name ADD COLUMNS (new_column_name1 data_type , new_column_name2 data_type);
    
  • 重命名列

    ALTER TABLE table_name CHANGE old_column_name new_column_name data_type;
    
    • CHANGE 不能进行从字符串到数字类型或从大数字类型到小数字类型的转换
  • 删除列:

    • 使用 REPLACE COLUMNS 可以“删除”某些列,其实本质是通过重新定义表的列结构来实现。

    • 实际上,删除的列的数据不会立即物理删除,而是从表结构中移除。

    • REPLACE COLUMNS 中,需要列出所有想要保留的列及其数据类型。

    • 未列出的列将被“删除”。

    • 限制:只能从末尾开始删除列。如果从中间或开头删除,可能会导致表结构的错误,且无法恢复这些列的数据。

示例

假设有一个表 shop_fq,包含以下列:

CREATE TABLE shop_fq (id INT,name STRING,price DECIMAL(10, 2),category STRING
);

如果需要删除 pricecategory 列,只保留 idname,可以这样操作:

ALTER TABLE shop_fq REPLACE COLUMNS (id INT,name STRING
);

注意

  • 数据的物理存在: 虽然列被“删除”,但数据仍然存在于文件中,只是 Hive 不再管理这些数据。

3. 删除数据库和表

  • 删除数据库

    DROP DATABASE IF EXISTS database_name CASCADE;
    
  • 删除表

    DROP TABLE IF EXISTS table_name;
    

4. 分区和分桶

  • 创建分区表

    CREATE TABLE table_name (column1_name data_type,column2_name data_type
    )
    PARTITIONED BY (partition_column_name data_type)
    STORED AS file_format;
    
  • 创建分桶表

    CREATE TABLE table_name (column1_name data_type,column2_name data_type
    )
    CLUSTERED BY (bucket_column_name) INTO num_buckets BUCKETS
    STORED AS file_format;
    

5. 修改分区

  • 添加分区

    ALTER TABLE table_name ADD PARTITION (partition_column='value');
    
  • 删除分区

    ALTER TABLE table_name DROP PARTITION (partition_column='value');
    

二、Hive的子查询

查询出和10号部门的工作岗位相同的其他部门的员工信息

1. IN 子查询(由于HIVE莫名的不可抗力会经常报错,建议用后两种方法)

SELECT * 
FROM emp 
WHERE job IN (SELECT job FROM emp WHERE deptno=10) 
AND deptno != 10;
  • 从表 emp 中选择所有员工。
  • 条件是员工的 job 在子查询返回的职位列表中。
  • 子查询从 deptno 为 10 的部门中选择 job
  • 还要求 deptno 不是 10,以排除自身。

2. LEFT SEMI JOIN

SELECT * 
FROM (SELECT * FROM emp WHERE deptno != 10) a
LEFT SEMI JOIN (SELECT job FROM emp WHERE deptno=10) b
ON a.job = b.job;
  • emp 表中选择 deptno 不等于 10 的员工。
  • 使用 LEFT SEMI JOIN 将这些员工和来自 deptno 为 10 的员工的职位匹配。
  • LEFT SEMI JOIN 只返回在 b 中匹配的 a 的行,相当于使用 IN 的效果。

3. EXISTS

SELECT * 
FROM emp e 
WHERE EXISTS (SELECT 1 FROM emp b WHERE b.deptno=10 AND e.job = b.job) 
AND e.deptno != 10;
  • 从表 emp 中选择所有员工。
  • 使用 EXISTS 子查询检查是否存在 deptno 为 10 且 job 相同的记录。
  • 同时确保 deptno 不等于 10,以排除自身。

http://www.ppmy.cn/news/1535913.html

相关文章

EPC User Manual Introduction

Overview 您提供的链接是指向srsRAN 4G项目的官方文档,具体是关于srsEPC的介绍部分。以下是该页面的核心内容概要: ### 概述 srsEPC是一个轻量级的完整LTE核心网络(EPC)实现。srsEPC应用程序作为一个单一的二进制文件运行&#…

胡超:引领中美能源与文化合作的创意先锋

中美能源合作领域迎来了一个重要的历史时刻,2024年中美可持续发展峰会(Sino-American Symposium on Sustainable Development)在全球关注下圆满落幕。这场峰会不仅成为了中美两国绿色能源合作的高端平台,也展示了作为该活动的协办方RES(Reverse Energy Solutions)在清洁能源领域…

什么是汽车中的SDK?

无论是在家里使用预制菜包做一顿大厨级别的晚餐,还是使用IKEA套组装配出时尚的北欧风桌子,我们都熟悉这样一种概念:比起完全从零开始,使用工具包可以帮助我们更快、更高效地完成一件事。 在速度至关重要的商业软件领域&#xff0…

基于 STM32F407 的 SPI Flash下载算法

目录 一、概述二、自制 FLM 文件1、修改使用的芯片2、修改输出算法的名称3、其它设置4、修改配置文件 FlashDev.c5、文件 FlashPrg.c 的实现 三、验证算法 一、概述 本文将介绍如何使用 MDK 创建 STM32F407 的 SPI Flash 下载算法。 其中,SPI Flash 芯片使用的是 W…

【CSS in Depth 2 精译_043】6.5 CSS 中的粘性定位技术 + 本章小结

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一章 层叠、优先级与继承(已完结)第二章 相对单位(已完结)第三章 文档流与盒模型(已完结)第四章 Flexbox 布局(已…

1、如何查看电脑已经连接上的wifi的密码?

在电脑桌面右下角的如下位置:双击打开查看当前连接上的wifi的名字:ZTE-kfdGYX-5G 按一下键盘上的win R 键, 输入【cmd】 然后,按一下【回车】。 输入netsh wlan show profile ”wifi名称” keyclear : 输入完成后,按一下回车&…

SHA-1 是一种不可逆的、固定长度的哈希函数,在 Git 等场景用于生成唯一的标识符来管理对象和数据完整性

SHA-1 (Secure Hash Algorithm 1) 是一种加密哈希函数,它能将任意大小的数据(如文件、消息)转换为一个固定长度的 160 位(20 字节)哈希值。这种哈希值通常以 40 个十六进制字符的形式表示,是数据的“指纹”…

React学习01 jsx、组件与组件的三大属性

文章目录 jsx的介绍与语法1.真实DOM和虚拟DOM2.jsx语法 模块与模块化,组件与组件化模块与模块化组件与组件化 React组件React事件绑定函数式组件类式组件组件属性state组件属性props组件属性ref 尚硅谷react教程官方文档学习记录笔记01 jsx的介绍与语法 1.真实DOM和…