Hive数仓操作(一)

devtools/2024/9/29 18:10:39/

Hive 介绍

Hive 是一个基于 Hadoop 的数据仓库工具,旨在简化大规模数据集的管理和分析。它将结构化数据文件映射为表,并提供类似 SQL 的查询功能。Hive 的数据存储在 Hadoop 分布式文件系统(HDFS)中,使用 Hive 查询语言(HQL)进行数据处理。

1. Hive 的本质: HQL转化为MapReduce

  1. 数据存储:Hive 的数据存储在 HDFS 中。
  2. 底层实现:Hive 通过 MapReduce 框架处理数据,适合大数据量的分析任务。
  3. 执行延迟:Hive 的执行延迟较高,适合于对实时性要求不高的数据分析场景。

在这里插入图片描述


2. Hive 的优点

  1. 简单易用:采用类 SQL 语法,快速开发能力强。
  2. 低学习成本:避免手动编写 MapReduce 程序,减少开发人员的学习成本。
  3. 大数据处理:优势在于处理大规模数据,对于小数据量没有明显优势。
  4. 自定义扩展:支持用户自定义函数,能够满足特定需求。

3. Hive 和关系型数据库的比较

尽管 Hive 采用了类似 SQL 的查询语言 HQL,使得它在表面上看起来像一个数据库,但实际上,Hive 和数据库除了拥有类似的查询语言,再无类似之处,数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而设计的工具。

特性Hive关系型数据库(如 Oracle,Mysql
存储HDFS 分布式文件存储系统服务器本地的文件系统(如 DBF)
计算MapReduce专用的计算执行引擎
时间高延迟低延迟
数据量适用于 PB/TB 级别的大数据通常处理 GB 级别的数据
主键不支持主键支持主键
索引高版本才有位图索引,索引支持有限有丰富的索引支持
可扩展性与 Hadoop 的可扩展性一致,支持大规模集群由于 ACID 语义的限制,扩展性有限
数据规模支持大规模数据的并行计算支持的数据规模相对较小
  1. 查询语言:Hive 提供了针对其特性设计的类 SQL 查询语言 HQL,熟悉 SQL 的开发者可以快速上手。

  2. 数据存储位置:Hive 的数据都存储在 HDFS 中,而关系型数据库则可以保存在本地文件系统或块设备中。

  3. 数据更新:Hive 主要用于读多写少的场景,不建议频繁更新数据,而关系型数据库的设计则支持频繁的 CRUD 操作。

  4. 索引:Hive 在数据加载过程中不会自动创建索引,因此查询时可能需要全表扫描,这会导致较高的延迟。相对而言,关系型数据库通常会为重要字段创建索引,查询效率较高。

  5. 执行:Hive 查询通过 Hadoop 的 MapReduce 来实现,而关系型数据库则通常有自己的执行引擎,处理速度更快。

  6. 执行延迟:由于缺乏索引和使用 MapReduce,Hive 的查询延迟较高,因此不适合在线实时查询。

  7. 可扩展性:Hive 的可扩展性与 Hadoop 一致,能够在集群上水平扩展,支持大规模数据的处理。而传统关系型数据库在 ACID 语义的严格限制下,扩展性相对有限。

  8. 数据规模:Hive 利用 MapReduce 进行并行计算,能够支持 PB/TB 级别的数据规模。相比之下,关系型数据库的处理能力通常较小,适合 GB 级别的数据。

  9. 应用场景:Hive 是为数据仓库设计的,适用于数据分析和批处理,而关系型数据库更适合在线事务处理(OLTP)和实时数据查询。


4. Hive 的元数据存储

元数据是描述数据的数据,Hive 需要有一个地方来存储元数据,它包括以下内容:

  • 数据库的名称
  • 表的名称
  • 表的列名
  • 表的类型
  • 列的类型
  • 表的数据在 HDFS 上的位置

为了管理这些元数据,Hive 一般使用 关系型数据库如MySQL 作为存储后端。

相关操作

1. 登录 MySQL 数据库

在命令行中使用以下命令登录到 MySQL:

mysql -h 127.0.0.1 -u root -p123456

这里,-h 指定主机地址,-u 指定用户名,-p 后跟密码。

2. 查看 MySQL 中的数据库

登录后,可以显示 MySQL 中现有的数据库

sql">SHOW DATABASES;

会看到多个数据库,其中有一个名为 hive数据库,用来存储 Hive 的元数据。

3. 切换到 Hive 数据库

使用以下命令切换到 hive 数据库

sql">USE hive;


http://www.ppmy.cn/devtools/118815.html

相关文章

《解锁高效流程设计:深度剖析责任链模式与实战应用》

《解锁高效流程设计:深度剖析责任链模式与实战应用》 责任链模式 是一种行为设计模式,它允许多个对象来处理请求,而不预先指定具体的处理者。多个处理对象被连接成一条链,沿着这条链传递请求,直到某个处理对象决定处理…

git拉代码时,远程也对文件进行了更改,后面如何操作

解决方法: 1.git stash 把当前未提交的修改暂存起来,让仓库还原到最后一次提交的状态。 2.git pull 拉取远程仓库的代码,让你现在的代码和远程仓库一致 3.git stash pop 放开暂存,恢复当前未提交的修改

Spring Boot使用配置方式整合MyBatis

文章目录 一、实战目标二、步骤概览1. 创建部门映射器接口2. 创建映射器配置文件3. 配置全局映射器4. 测试映射器接口 三、详细步骤1、创建部门映射器接口2、创建映射器配置文件3、配置全局映射器4、测试映射器接口 四、结语 一、实战目标 在本实战课程中,我们将学…

2024年配置YOLOX运行环境+windows+pycharm24.0.1+GPU

1.配置时间2024/9/25 2.Anaconda-python版本3.7,yolox版本0.2.0 YOLOX网址: https://github.com/Megvii-BaseDetection/YOLOX 本人下载的这个版本 1.创建虚拟环境 conda create -n yolox37 python37 激活 conda activate yolox37 2.安装Pytorch cuda等&…

关于PHP 匿名函数在处理数据结构中的应用

PHP 的匿名函数(也称为闭包)在处理数据结构时非常有用。它们可以在需要一次性函数的情况下使用,例如数组函数的回调、事件处理或作为其他函数的参数。以下是一些常见的应用场景: 数组操作: 使用 array_map、array_fil…

【RabbitMQ——SpringBoot整合】

1. fanout模式 Fanout 交换器(Exchange)是 RabbitMQ 中的一种消息路由模式。它是一种广播式的交换器,会将接收到的消息发送给所有绑定到该交换器的队列,而不考虑路由键(routing key)。这意味着无论消息发布…

边缘计算网关:轻工行业的智能化新引擎

在轻工行业迈向智能化转型的浪潮中,边缘计算网关作为关键技术载体,正逐步展现其不可替代的作用。这一前沿技术,通过在数据源附近进行高效数据处理与分析,不仅加速了数据价值挖掘,还推动了生产流程的优化与效率的提升。…

c语言和c++一样吗

C语言和C并不一样,尽管它们有很多相似之处。以下是一些主要区别: 编程范式 C语言:主要是一种过程式编程语言,强调函数和过程。 C:支持面向对象编程(OOP),引入了类、对象、继承、多态…