Hive数仓操作（一）

Hive 介绍

Hive 是一个基于 Hadoop 的数据仓库工具，旨在简化大规模数据集的管理和分析。它将结构化数据文件映射为表，并提供类似 SQL 的查询功能。Hive 的数据存储在 Hadoop 分布式文件系统（HDFS）中，使用 Hive 查询语言（HQL）进行数据处理。

在这里插入图片描述

尽管 Hive 采用了类似 SQL 的查询语言 HQL，使得它在表面上看起来像一个数据库，但实际上，Hive 和数据库除了拥有类似的查询语言，再无类似之处，数据库可以用在 Online 的应用中，但是Hive 是为数据仓库而设计的工具。

查询语言：Hive 提供了针对其特性设计的类 SQL 查询语言 HQL，熟悉 SQL 的开发者可以快速上手。
数据存储位置：Hive 的数据都存储在 HDFS 中，而关系型数据库则可以保存在本地文件系统或块设备中。
数据更新：Hive 主要用于读多写少的场景，不建议频繁更新数据，而关系型数据库的设计则支持频繁的 CRUD 操作。
索引：Hive 在数据加载过程中不会自动创建索引，因此查询时可能需要全表扫描，这会导致较高的延迟。相对而言，关系型数据库通常会为重要字段创建索引，查询效率较高。
执行：Hive 查询通过 Hadoop 的 MapReduce 来实现，而关系型数据库则通常有自己的执行引擎，处理速度更快。
执行延迟：由于缺乏索引和使用 MapReduce，Hive 的查询延迟较高，因此不适合在线实时查询。
可扩展性：Hive 的可扩展性与 Hadoop 一致，能够在集群上水平扩展，支持大规模数据的处理。而传统关系型数据库在 ACID 语义的严格限制下，扩展性相对有限。
数据规模：Hive 利用 MapReduce 进行并行计算，能够支持 PB/TB 级别的数据规模。相比之下，关系型数据库的处理能力通常较小，适合 GB 级别的数据。
应用场景：Hive 是为数据仓库设计的，适用于数据分析和批处理，而关系型数据库更适合在线事务处理（OLTP）和实时数据查询。