Hive是基于Hadoop的数据仓库工具,hive本身并不存储数据,而是将表数据文件存储在hdfs中,hive能将此数据文件映射为一张表,并提供解析编译sql的功能,将用户提交的sql转换为mr job,在mapreduce引擎上对数据进行查询、统计和分析。
Hive创建表格时可以选择创建外部表或者内部表,内部表和外部表的区别主要在于:
(1)建表语句区别。外部表用external修饰,一般用location标识表数据所在位置。内部表数据一般在hdfs的/user/hive/warehouse/下。
(2)Hive管理范围不同。Hive管理内部表的元数据以及实际的表数据,而对于外部表只管理它的元数据。
(3)drop删除表的后果不同。对于内部表,drop会删除元数据以及实际表数据,因此内部表不适合和其他表共享数据;而外部表只会删除它的元数据,hdfs上的表数据不会被删除,因此更安全,更适合共享数据。
(4) 对表进行alter操作的不同。如对表的分区进行drop操作,对于外部表而言,只会删除对应的元数据信息,而不会删除hdfs上的路径,造成hive的元数据和hdfs分区路径不一致,此时需要修复表;而对于内部表而言,则会自动将更改同步至元数据以及hdfs路径。
(5)适用场景不同。一般来说,外部表更适合长期存储、数据共享(hive和其他工具共同处理数据)等需求,多用于数据仓库场景下。内部表更适合所有数据都由hive进行处理的场景下。