【大数据技术基础】课程第8章数据仓库Hive的安装和使用大数据基础编程、实验和案例教程（第2版）

第8章数据仓库Hive的安装和使用

8.1 Hive的安装

8.1.1 下载安装文件

访问Hive官网（http://www.apache.org/dyn/closer.cgi/hive/）下载安装文件apache-hive-3.1.2-bin.tar.gz

下载完安装文件以后，需要对文件进行解压。按照Linux系统使用的默认规范，用户安装的软件一般都是存放在“/usr/local/”目录下。请在Linux系统中打开一个终端，执行如下命令：

sudo tar -zxvf ./apache-hive-3.1.2-bin.tar.gz -C /usr/local   # 解压到/usr/local中
cd /usr/local/
sudo mv apache-hive-3.1.2-bin hive       # 将文件夹名改为hive
sudo chown -R hadoop:hadoop hive          # 修改文件权限

8.1.2 配置环境变量

为了方便使用，可以把hive命令加入到环境变量PATH中，从而可以在任意目录下直接使用hive命令启动，请使用vim编辑器打开“~/.bashrc”文件进行编辑，命令如下：

vim ~/.bashrc

在该文件的最前面一行添加如下内容：

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin

保存该文件并退出vim编辑器，然后，运行如下命令使得配置立即生效：

source ~/.bashrc

8.1.3 修改配置文件

将“/usr/local/hive/conf”目录下的hive-default.xml.template文件重命名为hive-default.xml，命令如下：

cd /usr/local/hive/conf
sudo mv hive-default.xml.template hive-default.xml

同时，使用vim编辑器新建一个文件hive-site.xml，命令如下：

cd /usr/local/hive/conf
vim hive-site.xml

在hive-site.xml中输入如下配置信息：

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value><description>JDBC connect string for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value><description>Driver class name for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value><description>username to use against metastore database</description></property><property><name>javax.jdo.option.ConnectionPassword</name><value>hive</value><description>password to use against metastore database</description></property>
</configuration>

8.1.4 安装并配置MySQL

1. 安装MySQL

这里采用MySQL数据库保存Hive的元数据，而不是采用Hive自带的derby来存储元数据，因此，需要安装MySQL数据库。可以参照“附录B：Linux系统中的MySQL安装及常用操作”，完成MySQL数据库的安装，这里不再赘述。

2. 下载MySQL JDBC驱动程序

为了让Hive能够连接到MySQL数据库，需要下载MySQL JDBC驱动程序。可以到MySQL官网（http://www.mysql.com/downloads/connector/j/）下载mysql-connector-java-5.1.40.tar.gz。

在Linux系统中打开一个终端，在终端中执行如下命令解压缩文件：

cd ~
tar -zxvf mysql-connector-java-5.1.40.tar.gz   #解压

下面将mysql-connector-java-5.1.40-bin.jar拷贝到/usr/local/hive/lib目录下

cp mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar  /usr/local/hive/lib

3. 启动MySQL

执行如下命令启动MySQL，并进入“mysql>”命令提示符状态：

service mysql start  #启动MySQL服务
mysql -u root -p   #登录MySQL数据库

4. 在MySQL中为Hive新建数据库

现在，需要在MySQL数据库中新建一个名称为hive的数据库，用来保存Hive的元数据。MySQL中的这个hive数据库，是与Hive的配置文件hive-site.xml中的“mysql://localhost:3306/hive”对应起来的，用来保存Hive元数据。在MySQL数据库中新建hive数据库的命令，需要在“mysql>”命令提示符下执行，具体如下：

create database hive;

5. 配置MySQL允许Hive接入

需要对MySQL进行权限配置，允许Hive连接到MySQL。

grant all on *.* to hive@localhost identified by 'hive'; 
flush privileges;

6. 启动Hive

Hive是基于Hadoop的数据仓库，会把用户输入的查询语句自动转换成为MapReduce任务来执行，并把结果返回给用户。因此，启动Hive之前，需要先启动Hadoop集群，命令如下：

cd /usr/local/hadoop
./sbin/start-dfs.sh

然后，再执行如下命令启动Hive：

cd /usr/local/hive
./bin/hive

8.2 Hive的数据类型

Hive的基本数据类型

类型

描述

示例

TINYINT

1个字节（8位）有符号整数

1

SMALLINT

2个字节（16位）有符号整数

1

INT

4个字节（32位）有符号整数

1

BIGINT

8个字节（64位）有符号整数

1

FLOAT

4个字节（32位）单精度浮点数

1.0

DOUBLE

8个字节（64位）双精度浮点数

1.0

BOOLEAN

布尔类型，true/false

true

STRING

字符串，可以指定字符集

“xmu”

TIMESTAMP

整数、浮点数或者字符串

1327882394（Unix新纪元秒）

BINARY

字节数组

[0,1,0,1,0,1,0,1]

Hive的集合数据类型

**Hive的基本数据类型**
类型	描述	示例
TINYINT	1个字节（8位）有符号整数	1
SMALLINT	2个字节（16位）有符号整数	1
INT	4个字节（32位）有符号整数	1
BIGINT	8个字节（64位）有符号整数	1
FLOAT	4个字节（32位）单精度浮点数	1.0
DOUBLE	8个字节（64位）双精度浮点数	1.0
BOOLEAN	布尔类型，true/false	true
STRING	字符串，可以指定字符集	“xmu”
TIMESTAMP	整数、浮点数或者字符串	1327882394（Unix新纪元秒）
BINARY	字节数组	[0,1,0,1,0,1,0,1]

8.3 Hive基本操作

8.3.1 创建数据库、表、视图

1. 创建数据库

创建数据库hive

hive> create database hive;

创建数据库hive，因为hive已经存在，所以会抛出异常，加上if not exists关键字，则不会抛出异常

hive> create database if not exists hive;

2. 创建表

在hive数据库中，创建表usr，含三个属性id，name，age

hive> use hive;

hive>create table if not exists usr(id bigint,name string,age int);

在hive数据库中，创建表usr，含三个属性id，name，age，存储路径为“/usr/local/hive/warehouse/hive/usr”

hive>create table if not exists hive.usr(id bigint,name string,age int)

>location ‘/usr/local/hive/warehouse/hive/usr’;

在hive数据库中，创建外部表usr，含三个属性id，name，age，可以读取路径“/usr/local/data”下以“，”分隔的数据。

hive>create external table if not exists hive.usr(id bigint,name string,age int)

>row format delimited fields terminated by ','

location ‘/usr/local/data’;

在hive数据库中，创建分区表usr，含三个属性id，name，age，还存在分区字段sex。

hive>create table hive.usr(id bigint,name string,age int) partition by(sex boolean);

在hive数据库中，创建分区表usr1，它通过复制表usr得到。

hive> use hive;

hive>create table if not exists usr1 like usr;

3. 创建视图

创建视图little_usr，只包含usr表中id，age属性

hive>create view little_usr as select id,age from usr;

8.3.2 删除数据库、表、视图

删除数据库

删除数据库hive，如果不存在会出现警告

hive> drop database hive;

删除数据库hive，因为有if exists关键字，即使不存在也不会抛出异常

hive>drop database if not exists hive;

删除数据库hive，加上cascade关键字，可以删除当前数据库和该数据库中的表

hive> drop database if not exists hive cascade;

删除表

删除表usr，如果是内部表，元数据和实际数据都会被删除；如果是外部表，只删除元数据，不删除实际数据

hive> drop table if exists usr;

删除视图

删除视图little_usr

hive> drop view if exists little_usr;

8.3.3 修改数据库、表、视图

修改数据库

为hive数据库设置dbproperties键值对属性值来描述数据库属性信息

hive> alter database hive set dbproperties(‘edited-by’=’lily’);

修改表

重命名表usr为user

hive> alter table usr rename to user;

为表usr增加新分区

hive> alter table usr add if not exists partition(age=10);

删除表usr中分区

hive> alter table usr drop if exists partition(age=10);

把表usr中列名name修改为username，并把该列置于age列后

hive>alter table usr change name username string after age;

在对表usr分区字段之前，增加一个新列sex

hive>alter table usr add columns(sex boolean);

删除表usr中所有字段并重新指定新字段newid，newname，newage

hive>alter table usr replace columns(newid bigint,newname string,newage int);

为usr表设置tblproperties键值对属性值来描述表的属性信息

hive> alter table usr set tabproperties(‘notes’=’the columns in usr may be null except id’);

修改视图

修改little_usr视图元数据中的tblproperties属性信息

hive> alter view little_usr set tabproperties(‘create_at’=’refer to timestamp’);

8.3.4 查看数据库、表、视图

查看数据库

查看Hive中包含的所有数据库

hive> show databases;

查看Hive中以h开头的所有数据库

hive>show databases like ‘h.*’;

查看表和视图

查看数据库hive中所有表和视图

hive> use hive;

hive> show tables;

查看数据库hive中以u开头的所有表和视图

hive> show tables in hive like ‘u.*’;

8.3.5 描述数据库、表、视图

描述数据库

查看数据库hive的基本信息，包括数据库中文件位置信息等

hive> describe database hive;

查看数据库hive的详细信息，包括数据库的基本信息及属性信息等

hive>describe database extended hive;

描述表和视图

查看表usr和视图little_usr的基本信息，包括列信息等

hive> describe hive.usr/ hive.little_usr;

查看表usr和视图little_usr的详细信息，包括列信息、位置信息、属性信息等

hive> describe extended hive.usr/ hive.little_usr;

查看表usr中列id的信息

hive> describe extended hive.usr.id;

8.3.6 向表中装载数据

把目录’/usr/local/data‘下的数据文件中的数据装载进usr表并覆盖原有数据

hive> load data local inpath ‘/usr/local/data’ overwrite into table usr;

把目录’/usr/local/data‘下的数据文件中的数据装载进usr表不覆盖原有数据

hive> load data local inpath ‘/usr/local/data’ into table usr;

把分布式文件系统目录’hdfs://master_srever/usr/local/data‘下的数据文件数据装载进usr表并覆盖原有数据

hive> load data inpath ‘hdfs://master_srever/usr/local/data’

>overwrite into table usr;

8.3.7 查询表中数据

该命令和SQL语句完全相同这里不再赘述。

8.3.8 向表中插入数据或从表中导出数据

向表usr1中插入来自usr表的数据并覆盖原有数据

hive> insert overwrite table usr1

> select * from usr where age=10;

向表usr1中插入来自usr表的数据并追加在原有数据后

hive> insert into table usr1

> select * from usr

> where age=10;

8.4 Hive应用实例：WordCount

现在我们通过一个实例——词频统计，来深入学习一下Hive的具体使用。首先，需要创建一个需要分析的输入数据文件，然后编写HiveQL语句实现WordCount算法，在Unix下实现步骤如下：

（1）创建input目录，其中input为输入目录。命令如下：

cd /usr/local/hadoopmkdir input

（2）在input文件夹中创建两个测试文件file1.txt和file2.txt，命令如下：

cd  /usr/local/hadoop/inputecho "hello world" > file1.txtecho "hello hadoop" > file2.txt

（3）进入hive命令行界面，编写HiveQL语句实现WordCount算法，命令如下：

hive

hive> create table docs(line string);

hive> load data inpath 'input' overwrite into table docs;

hive>create table word_count as

select word, count(1) as count from

(select explode(split(line,' '))as word from docs) w

group by word

order by word;

执行完成后，用select语句查看运行结果如下：

8.5 Hive编程的优势

词频统计算法是最能体现MapReduce思想的算法之一，接下来，我们将比较WordCount算法在MapReduce中的编程实现和Hive中编程实现的主要不同点：

1. 采用Hive实现WordCount算法需要编写较少的代码量

在MapReduce中，wordcount类由63行Java代码编写而成代码位置：%HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar；

而在Hive中只需要编写7行代码

2. 在MapReduce的实现中，需要进行编译生成jar文件来执行算法，而在Hive中不需要。

HiveQL语句的最终实现需要转换为MapReduce任务来执行，这都是由Hive框架自动完成的，用户不需要了解具体实现细节。

8.6 本章小结

Hive是一个构建于Hadoop顶层的数据仓库工具，主要用于对存储在 Hadoop 文件中的数据集进行数据整理、特殊查询和分析处理。Hive在某种程度上可以看作是用户编程接口，本身不存储和处理数据，依赖HDFS存储数据，依赖MapReduce处理数据。

本章介绍了Hive的安装方法，包括下载安装文件、配置环境变量、修改配置文件、安装并配置MySQL等。Hive支持关系数据库中的大多数基本数据类型，同时Hive还支持关系数据库中不常出现的的3种集合数据类型。Hive提供了类似SQL的语句——HiveQL，可以很方便地对Hive进行操作，包括创建、修改、删除数据库、表、视图等。Hive的一大突出优点是，可以把查询语句自动转化成相应的MapReduce任务去执行得到结果，这样就可以大大节省用户的编程工作量，本章最后通过一个WordCount应用实例，充分展示了Hive的这一优点。