Hive数仓操作(十二)

embedded/2024/10/10 16:35:30/

一、Hive 中的行列转换

1. 行转列: collect_list()

collect_list() 函数用于将一个列中的数据收集成一个数组。

示例数据文件

假设有一个名为 orders.txt 的文件,内容如下:

1,101
1,101
1,103
2,104
2,105
导入数据到 Hive 表

首先,我们创建一个表 orders 并将数据导入到该表中:

-- 创建表
CREATE TABLE orders (user_id INT,order_id INT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/orders.txt' INTO TABLE orders;

然后,我们可以使用 collect_list() 函数收集每个用户的订单 ID:

SELECTuser_id,collect_list(order_id) as order_ids
FROMorders
GROUP BYuser_id;
示例结果
user_idorder_ids
1[101, 101, 103]
2[104, 105]

2. 行转列:collect_set()

collect_set() 函数类似于 collect_list(),但它会移除数组中的重复值。

示例数据文件

使用同一个 orders.txt 文件。

导入数据到 Hive 表

数据已经导入过,因此我们直接使用 collect_set() 函数:

SELECTuser_id,collect_set(order_id) as unique_order_ids
FROMorders
GROUP BYuser_id;
示例结果
user_idunique_order_ids
1[101, 103]
2[104, 105]

3. 列转行:explode()

explode() 函数用于将数组里的元素拆分开来,并用行展示。通常与 lateral view 函数搭配使用。

示例数据文件

假设有一个名为 user_interests.txt 的文件,内容如下:

1,sports,music,art
2,reading,travel
导入数据到 Hive 表

使用 explode() 函数炸裂拆分:

SELECTuser_id,interest
FROMuser_interests
LATERAL VIEWexplode(split(interests, ',')) exploded_table AS interest;
-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/user_interests.txt' INTO TABLE user_interests;
示例结果
user_idinterest
1sports
1music
1art
2reading
2travel

二、Hive 收集切割

1. split()

split() 函数用于将一个字符串按照指定的分隔符切割成一个数组。

示例数据文件

user_interests.txt 的文件,内容如下:

1,sports,music,art
2,reading,travel
导入数据到 Hive 表

user_interests 已创建,然后,使用 split() 将兴趣字符串分割成数组:

SELECTuser_id,split(interests, ',') as interest_array
FROMuser_interests;
示例结果
user_idinterest_array
1[“sports”, “music”, “art”]
2[“reading”, “travel”]

2. split()常和concat_ws() 一起使用

concat_ws() 是一个字符串函数,用于将多列的值合并成一个字符串,使用指定的分隔符。split() 函数则用于将字符串按照指定的分隔符切割成一个数组。

示例数据文件

假设有一个名为 user_info.txt 的文件,内容如下:

1,John,Doe,john.doe@example.com
2,Jane,Smith,jane.smith@example.com
导入数据到 Hive 表

首先,我们创建一个表 user_info 并将数据导入到该表中:

-- 创建表
CREATE TABLE user_info (user_id INT,first_name STRING,last_name STRING,email STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/user_info.txt' INTO TABLE user_info;

然后,使用 concat_ws() 将多列的值合并成一个字符串,并使用 split() 将这个字符串拆分成数组:

SELECTuser_id,split(concat_ws(',', first_name, last_name, email), ',') as info_array
FROMuser_info;
示例结果
user_idinfo_array
1[“John”, “Doe”, “john.doe@example.com”]
2[“Jane”, “Smith”, “jane.smith@example.com”]

更多细节可参考我的sql题专栏中的炸裂函数与恢复

经典sql题(十三)炸裂对应学生的姓名和成绩
经典sql题(十四)炸裂函数的恢复


http://www.ppmy.cn/embedded/125465.html

相关文章

Gin项目的初始化步骤和常见错误记录

相信很多人对Go的环境安装和Gin项目的初始化都已经手拿把攥很是熟练了,本节介绍一个自己新建Go项目时非常好用的设置以及记录一下Gin项目的初始化过程和常能遇到的错误。 一个容易忽略的Go ENV 在安装了Go的电脑中,我们可以在命令行执行 go env 命令&…

git使用笔记

文章目录 🌕git提交修改到远程仓库🌙添加修改的内容🌙提交修改的内容(本地)🌙提交修改的内容到远程 🌕博客笔记🌙Git同步代码的基本步骤🌙git出现文件夹后面跟数字 &…

mysql对某个数据库的所有表做精准的行数查询,做主从数据库比对

SQL语句 select concat(select ", TABLE_name, ", count(*) from , TABLE_SCHEMA, .,TABLE_name, union all ) from information_schema.tables where TABLE_SCHEMA in (Data_1);UNION 操作符用于合并两个或多个 SELECT 语句的结果集 执行之后去掉最有一条sql 的un…

链表面试编程题

1. 删除链表中等于给定值 val 的所有节点。 203. 移除链表元素 - 力扣(LeetCode) 2. 反转一个单链表。206. 反转链表 - 力扣(LeetCode) 3. 给定一个带有头结点 head 的非空单链表,返回链表的中间结点。如果有两个中间…

Redis篇(Redis原理 - RESP协议)

目录 一、简介 二、Redis通信协议 基于Socket自定义Redis的客户端 三、Redis内存回收 1. 过期key处理 1.1. 惰性删除 1.2. 周期删除 1.3. 知识小结 2. 内存淘汰策略 一、简介 Redis是一个CS架构的软件,通信一般分两步(不包括pipeline和PubSub&a…

maven指定模块快速打包idea插件Quick Maven Package

问题背景描述 在实际开发项目中,我们的maven项目结构可能不是单一maven项目结构,项目一般会用parent方式将各个项目进行规范; 随着组件的数量增加,就会引入一个问题:我们只想打包某一个修改后的组件A时就变得很不方便…

【2024保研经验帖】武汉大学测绘遥感国家重点实验室夏令营(计算机向)

前言 先说本人背景:末211,rk前5%,无科研,有几个竞赛(数模、机器人等) 武大的国重是我参加的第二个夏令营,武大国重这次有提前开几个分会场,一个在中南大学,一个在吉林大学,还有在兰…

Nacos入门指南:服务发现与配置管理的全面解析

Nacos 是一个用于动态服务发现、配置管理和服务管理的平台。它由阿里巴巴开源,旨在帮助开发者更轻松地构建云原生应用。Nacos 支持多种环境下的服务管理和配置管理,包括但不限于 Kubernetes、Docker、虚拟机等。 一、Nacos的主要功能 1. **服务发现与健康…