HIVE介绍（五）

注意:

1.Hive处理的数据存储在HDFS上
2.hive分析数据的底层处理逻辑是MapReduce
3.执行运行在Yarn上执行

Hive运行原理

在这里插入图片描述

Hive为什么要分区（partitioned by）?

随着系统运行时间越来越长,表的数据量不断增大,通过hive查询通常是"全表扫描"这样就会出现数据量过大,全表扫描时间过长,会造成查询效率更加低下

Hive中分区就是分目录 ,把一个大的数据集根据业务需求分隔成小的数据集,在查询的时候where子句中的表达式选择需要查询的分区,这样就可以提高效率

通过对表进行分区,避免hive进行全表扫描,这样可以提高查询效率

hive的分区对应HDFS文件系统上独立的文件夹,该文件夹下是该分区所有的数据文件
其实Hive中分区就是分目录 ,把一个大的数据集根据业务需求分隔成小的数据集,在查询的时候where子句中的表达式选择需要查询的分区,这样就可以提高效率

Hive与mysql的对比

数据存储位置：Hive的数据都存储在HDFS上，数据库是保存在设备或本地文件系统中
搜索引擎：Hive 搜索引擎是MR，数据库通常有自己的搜索引擎
执行延迟：Hive没有索引，需要全表扫描，因此延迟高。数据库小数据处理延迟较低，但处理大数据能力不如hive
扩展性：Hive基于hadoop扩展性高，数据库由于ACID语义限制，扩展非常有限，即使Oracle也只有100台左右

Hive内部表和外部表

1.内部表（管理表）：当删除一个内部表时，hive也会删除这个表中的数据。内部表不适合和其他工具共享数据
2.外部表：删除该表并不会删除掉原始数据，删除的是表的元数据

hive_62">hive数据类型

hive数据类型分两种基础数据类型和复杂数据类型
基础数据类型包括

基础数据类型	长度
TINYINT	1byte有符号整数
SMALINT	2byte有符号整数
INT	3byte有符号整数
BIGINT	4byte有符号整数
BOOLEAN	布尔类型，true或false
FLOAT	单精度浮点
DOUBLE	双精度浮点
STRING	字符序列
TIMESTAMP	整数，浮点数或者字符串
BINARY	字节数组

复杂数据类型

复杂数据类型	字面语法示例
STRUCT	Struct(‘John’,’Doe’)
MAP	Map(‘first’,’JOIN’,’last’,’Doe’)
ARRAY	Array(‘John’,’Doe’)

hive_97">hive数据存格式

textfile 普通的文本文件存储,不会压缩
sequencefile 二进制存储格式,本身即是压缩格式,不能使用load进行数据加载
orcfile 行列混合存储,hive在该格式下,会尽量将附近的列和行的块存在一起,仍然是压缩格式,查询效率比较高

自定义函数UDF和UDTF

UDF通常是一个输入对应一个输出，应用场景有：根据身份证号判断该用户年龄自定义UDF需要继承UDF并重写evaluate方法

UDTF为一个输入多个输出，应用场景有：根据登录的信息拆分成多个字段输出继承GenericUDTF，重写实现initialize（定义输出参数的名字和类型）, process, close三个方法，用来解析事件字段

自定义函数相比json解析：自定义函数方便定位错误
在这里插入图片描述

造成数据倾斜的情况：

1)、key分布不均匀
2)、业务数据本身的特性
3)、建表时考虑不周
4)、某些SQL语句本身就有数据倾斜

join语句造成、count(distinct col)造成、group by造成数据倾斜
解决方案：
1.分区、分桶也是hive优化的一种
2.group by操作是否允许数据倾斜，默认是false，当设置为true时，执行计划会生成两个map/reduce作业，第一个MR中会将map的结果随机分布到reduce中，达到负载均衡的目的来解决数据倾斜。（建议开启）
hive.groupby.skewindata=false/true
3.开启数据倾斜的join优化，hive.optimize.skewjoin=false/true默认不开启false(建议开启)
特殊情况特殊处理：
在业务逻辑优化效果的不大情况下，有些时候是可以将倾斜的数据单独拿出来处理。最后union回去