Python大数据之Hadoop学习——day06_hive内外部表

ops/2024/10/11 4:08:06/

一.hive内外表操作

1. 建表语法

create [external] table [if not exists] 表名(字段名 字段类型 ,字段名 字段类型,...)

[partitioned by (分区字段名 分区字段类型)]        # 分区表固定格式

[clustered by (分桶字段名) into 桶个数 buckets]        # 分桶表固定格式

[sorted by (排序字段名 asc|desc)]

[row format delimited fields terminated by '字段分隔符' ]        # 自定义字段分隔固定格式

[stored as textfile]        # 默认即可

[location 'hdfs://域名:8020/user/hive/warehouse/库名.db/表名'] # 默认即可

; # 注意: 最后一定加分号结尾

2. 数据类型

基本数据类型:

整数        int

小数        float double

字符串        string varchar

时间        date timestamp

3. 表分类

Hive中可以创建的表有好几种类型,分别是:

内部表(管理表或者托管表)

外部表(非管理表或者非托管表)

二.内部表基本操作

1. 知识点

创建内部表:create table [if not exists] 内部表名(字段名 字段类型,字段名 字段类型...)

[row format delimited fields terminated by '字段分隔符'];

复制内部表:方式1:like方式复制表结构        方式2:as方式复制表结构和数据

删除内部表:drop table 内部表名;

        注意:删除内部表效果是mysql中表的相关元数据被删除,同时存储在hdfs中业务数据本身也被删除

查看表格式话信息:desc formatted 表名;

-- 内部表类型:MANAGED_TABLE

注意:还可以使用truncate清空内部表数据        格式:truncate table 内部表名

三. 外部表基本操作[练习]

1. 知识点

创建外部表:create external table [if not exists] 外部表名(字段名 字段类型,字段名 字段类型,...)[row format delimited fields terminated by '字段分隔符'];

复制表:方式1:like方式复制表结构

注意:as 方式不可以使用

删除外部表:drop table 外部表名

注意:删除外部表效果是mysql中元数据被删除,但是存储在hdfs的业务数据本身被保存

查看表格式化信息:desc formatted 表名;

-- 外部表类型:EXTERNAL_TABLE

注意:外部表不能使用truncate清空数据本身

四 .查看/修改表

1. 知识点

查看所有表:show tables;

查看建表语句:show create table 表名;

查看表信息:desc 表名;

查看表结构信息:desc 表名;

查看表格式化信息:desc formatted 表名;        注意:formatted能够展示详细信息

修改表名:alter table 旧表名rename to 新表名

字段添加:alter table 表名 add columns (字段名 字段类型);

字段的替换:alter table 表名 replace columns (字段名 字段类型,...)

字段名和字段类型同时修改:alter table 表名 change 旧字段名 新字段名 新字段类型;

注意:字符串类型不能直接改数值类型

修改表路径:alter table 表名 set location ‘hdfs中存储路径’;

修改表属性:alter table 表名 set tblproperties('属性名'=‘属性值’)

五.默认分隔符

1.知识点:

创建表的时候,如果不指定分隔符,以后表只能识别默认的分隔符

一般为:\0001,SOH,^A,□

六.快速映射表

1. 知识点:

创建表的时候指定分隔符:create [external] table 表名(字段名 字段类型) row format delimited fields terminated by 符号;

加载数据:load data [local] inpath '结构话数据文件' into table 表名;

七.数据导入和导出

文件数据加载导入
1.直接上传文件

window页面上传

linux本地put上传

hdfs dfs -put 文件 路径

2.load加载文件:

从hdfs路径把文件移动到表对应存储路径中:

load data inpath 'HDFS文件路径' [overwrite] into table 表名;

从linux本地把文件上传到表对应存储路径中:

load data local inpath 'Linux文件路径' [overwrite] into table 表名;

3.insert插入数据

从其他表查询数据'追加'插入到当前表中:insert into [table] 表名 select 语句;

从其他表查询数据'覆盖'插入到当前表中:insert overwrite table 表名 select 语句;

文件数据导出
1.直接下载文件

web页面下载

get命令下载文件

需求: 已知search_log.txt文件在HFDS的/user/hive/warehouse/hive02.db/search_log路径下,要下载到linux系统

[root@node1 binzi]# hdfs dfs -get /user/hive/warehouse/hive02.db/search_log/search_log.txt /binzi
2. insert导出数据

查询数据导出到hdfs其他路径:insert overwrite directory 'hdfs存储该数据路径' select语句;

查询数据导出到linux本地中:insert overwrite local directory 'linux存储该数据路径' select语句;

注意:  overwrite默认是覆盖重写,所以在指定存储该数据路径的时候尽量指定一个空的目录

注意: 导出数据的时候不指定分隔符采用默认分隔符SOH,0001,?...

导出数据指定分隔符添加:row format delimite fields terminated by ‘分隔符’

3.hive_shell命令

hive命令执行sql语句:  hive -e "sql语句" > 存储该结果数据的文件路径

hive命令执行sql脚本:  hive -f sql脚本文件 > 存储该结果数据的文件路径

hql语句导出

# 以下命令都是在linux的shell命令行执行
# 3.1使用hive -e sql语句方式导出数据
[root@node1 ~]# hive -e 'select * from hive02.search_log;' > /home/hs1.txt
[root@node1 ~]# cat hs1.txt

hql语句

# 3.2使用hive -f 脚本文件方式导出数据
[root@node1 ~]# echo 'select * from hive02.search_log;' > /home/export.sql
[root@node1 ~]# hive -f export.sql > /home/hs2.txt
[root@node1 ~]# cat hs2.txt


http://www.ppmy.cn/ops/105478.html

相关文章

使用VM创建centos7环境

目录 1、安装VMware Workstation1.1安装VMware Workstation pro 161.2激活VMware Workstation pro 16 2. 创建centos7虚拟机2.1 点击创建新的虚拟机2.2 配置iso镜像2.3开启虚拟机,安装centos7系统 3. 配置网络方法1:方法2:配置静态IP地址 4. …

Unity 不规则进度条显示根据点对点进行

using UniRx; using UnityEngine; using UnityEngine.UI; public class SpeedVehicle : MonoBehaviour { //加速踏板 [SerializeField] private Image AcceleratorApertureSlider; //制动踏板 [SerializeField] private Image BrakingPedalApertureSlider; private static re…

如何打造中小学在线教学平台?Java SpringBoot集成Vue,教育资源管理新篇章

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

蒸馏之道:如何提取白酒中的精华?

在白酒的酿造过程中,蒸馏是一道至关重要的工序,它如同一位技艺精细的炼金术士,将原料中的精华提炼出来,凝聚成滴滴琼浆。今天,我们就来探寻这蒸馏之道,看看豪迈白酒(HOMANLISM)是如何…

NASA:ASTER L2 表面辐射率(E(辐射率)和 T(地表温度)) V003数据集

ASTER L2 Surface Emissivity V003 ASTER L2 表面辐射率 V003 简介 ASTER L2 地表发射率是一种按需生成的产品((https://lpdaac.usgs.gov/documents/996/ASTER_Earthdata_Search_Order_Instructions.pdf)),利用 8 至 12 m 光谱范围内的五个…

在Element UI的<el-table>组件中,点击子元素不触发父级事件

在Element UI的<el-table>组件中&#xff0c;row-click事件是绑定在整行上的&#xff0c;这意味着如果点击了表格的任意位置&#xff08;除非有特定的子元素阻止了事件冒泡&#xff09;&#xff0c;都会触发这个事件。如果你想要在某些子元素上点击时不触发row-click事件…

Linux CentOS 7.39 安装mysql8

1、新建mysql文件夹 数据比较大&#xff0c;所以我在服务器另外挂了一个盘装mysql&#xff0c;和默认安装一个道理&#xff0c;换路径即可 cd ../ //创建文件夹 mkdir mysql //进入mysql文件夹 cd mysql 2、下载mysql8.0安装包并解压、重命名 //下载安装包 wget https://dev…

如何把自动获取的ip地址固定

在大多数网络环境中&#xff0c;‌设备通常会自动从DHCP服务器获取IP地址。‌这种动态分配IP的方式虽然灵活方便&#xff0c;‌但在某些特定场景下&#xff0c;‌我们可能需要将设备的IP地址固定下来&#xff0c;‌以确保网络连接的稳定性和可访问性。‌本文将详细介绍如何把自…