Spark和Hive的联系

embedded/2024/12/26 9:26:50/
通常来说, Spark Hive 本质上是没有关系的,两者可以互不依赖。但是在企业实际应用中,经常把二者结合起来使用。Spark Hive 结合和使用的方式,主要有以下三种:
1 Hive on Spark
在这种模式下,数据是以 table 的形式存储在 hive 中的,用户处理和分析数据,使用的是 Hive 语法规范的hql。 但 这些 hql ,在用户提交执行时,底层会经过解析编译以 Spark 作业的形式来运行 。(事实上,Hive早期只支持一种底层计算引擎,即 MapReduce ,后期在 Spark 因其快速高效占领大量市场后, Hive 社区才主动拥抱Spark ,通过改造自身代码,支持了 Spark 作为其底层计算引擎。目前 Hive 支持了三种底层计算引擎,即mr Tez Spark 。用户可以通过 set hive.execution.engine=mr/tez/spark 来指定具体使用哪个底层计算引擎。
2 Spark on Hive
Spark 本身只负责数据计算处理,并不负责数据存储。 其计算处理的数据源,可以以插件的形式支持很 多种数据源,这其中也包括 hive 当我们使用 Spark 来处理分析存储在 Hive 中的数据时,这种模式就称 为为 Spark on Hive 。这种模式下,用户可以使用 Spark java/scala/pyhon/r api ,也可以使用 Spark 语法规范的sql ,甚至也可以使用 hive 语法规范的 hql (之所以也能使用 hql ,是因为 Spark 在推广面世之初,就主动拥抱了hive ,通过改造自身代码提供了原生对 hql 包括 hive udf 的支持,这也是市场推广策略的一种吧)。
3 Spark+Spark Hive catalog
这是 Spark Hive 结合的一种新形势,随着数据湖相关技术的进一步发展,这种模式现在在市场上受到了越来越多用户的青睐。其本质是,数据以 orc/parquet/delta lake 等格式存储在分布式文件系统如 hdfs 对象存储系统如 s3 中,然后通过使用 Spark 计算引擎提供的 scala/java/python api Spark 语法规范的 sql 来进行处理 。由于在处理分析时针对的对象是 table ,而 table 的底层对应的才是 hdfs/s3 上的文件 / 对象,所以我们需要维护这种table 到文件 / 对象的映射关系,而 Spark 自身就提供了 Spark Hive catalog 来维护这种table 到文件 / 对象的映射关系。注意这里的 Spark Hive catalog ,其本质是使用了 Hive metasore 相关api来读写表到文件 / 对象的映射关系(以及一起其他的元数据信息)到 metasore db mysql postgresql等数据库中。(由于Spark 编译时可以把 Hive metastore api 等相关代码一并打包到 Spark 的二进制安装包中,所以使用这种模式,我们并不需要额外单独安装hive )。

http://www.ppmy.cn/embedded/148855.html

相关文章

Day56 图论part06

108.冗余连接 并查集应用类题目,关键是如何把题意转化成并查集问题 代码随想录 import java.util.Scanner;public class Main{public static void main (String[] args) {Scanner scanner = new Scanner(System.in);int n = scanner.nextInt();DisJoint disjoint = new DisJo…

【Java】Jackson序列化案例分析

1.Jackson介绍 Jackson 是一个流行的 Java 库,用于处理 JSON 数据。它提供了高效的序列化和反序列化功能,能够将 Java 对象转换为 JSON 格式,反之亦然。 它由 FasterXML 开发和维护。Jackson 的设计目标是提供高效、灵活且易于使用的 JSON 处…

微软的AI转型故事

在一次备受瞩目的深度访谈中,微软的CEO萨提亚纳德拉与著名投资人比尔格里和布拉德格斯特纳展开了一场关于微软十年转型与AI未来的深入探讨。这次对话不仅回顾了微软在纳德拉领导下的重大发展轨迹,也为AI时代的战略布局提供了洞见。 纳德拉的职业起点 故…

openwrt 负载均衡方法 openwrt负载均衡本地源接口

openwrt 负载均衡方法 openwrt负载均衡本地源接口_mob6454cc647bdb的技术博客_51CTO博客 本人注重原理分析,要求对其原理掌握,否则按教程操作,你怕是什么都学不会,仔细看,认真记比较好。 首先确认一下基本细节 1、路由…

【微信小程序】2|轮播图 | 我的咖啡店-综合实训

轮播图 引言 在微信小程序中,轮播图是一种常见的用户界面元素,用于展示广告、产品图片等。本文将通过“我的咖啡店”小程序的轮播图实现,详细介绍如何在微信小程序中创建和管理轮播图。 轮播图数据准备 首先,在home.js文件中&a…

智能网关在电力物联网中的应用

摘要 随着电力技术的快速发展,断路器从传统的单一保护功能演变为具备智能监控和远程管理能力的多功能设备。智能断路器作为配电系统的重要组成部分,集成了实时监测、远程控制和多层保护功能,显著提升了配电系统的安全性、稳定性和管理效率…

记我的Springboot2.6.4从集成swagger到springdoc的坎坷路~

项目背景 主要依赖及jdk信息: Springboot:2.6.4 Jdk: 1.8 最近新搭建了一套管理系统,前端部分没有公司的前端团队,自己在github上找了一个star较多使用相对也简单的框架。在这个管理系统搭建好上线之后,给组内的小伙…

在瑞芯微RK3588平台上使用RKNN部署YOLOv8Pose模型的C++实战指南

在人工智能和计算机视觉领域,人体姿态估计是一项极具挑战性的任务,它对于理解人类行为、增强人机交互等方面具有重要意义。YOLOv8Pose作为YOLO系列中的新成员,以其高效和准确性在人体姿态估计任务中脱颖而出。本文将详细介绍如何在瑞芯微RK3588平台上,使用RKNN(Rockchip N…