【Apache Paimon】-- 14 -- Spark 集成 Paimon 之 Filesystem Catalog 与 Hive Catalog 实践

news/2025/1/14 10:07:45/

目录

1. 背景介绍

2. 环境准备

2.1、技术栈说明

2.2、环境依赖

2.3、硬件与软件环境

2.4、主要工具清单

2.5、Maven 项目结构

2.6、maven pom.xml 依赖

3. Spark 与 Paimon Filesystem Catalog 集成

3.1、HDFS FileSystem catalog

3.1.1、代码内容

3.1.2、运行输出结果

3.1.2.1、Spark 运行日志

3.1.2.2、HDFS 文件目录

hive%20%E7%9A%84%20paimon%20%E6%A0%BC%E5%BC%8F%E5%A4%96%E9%83%A8%E8%A1%A8%E5%B9%B6%E6%9F%A5%E8%AF%A2-toc" style="margin-left:80px;">3.1.3、创建 hivepaimon 格式外部表并查询

3.2、S3 FileSystem catalog

3.2.1、代码内容

3.2.2、运行输出结果

3.2.2.1、Spark 运行日志

3.2.2.2、S3 存储目录

3.3、OSS FileSystem catalog

3.3.1、代码内容

3.3.2、运行输出结果

3.3.2.1、Spark 运行日志

3.3.2.2、OSS 存储目录

4. Spark 与 Paimon Hive Catalog 集成

4.1、代码内容

4.2、运行输出结果

4.2.1、Spark 运行日志

4.2.2、查询 Hive 表

5. 参考


1. 背景介绍

  • 为什么选择将 Spark 与 Paimon 集成,解决什么问题?
  • 文件系统 Catalog 和 Hive Catalog 的适用场景?

2. 环境准备

2.1、技术栈说明

  • Spark、Paimon 的版本选择及其兼容性说明
    • Paimon 0.8、0.9 支持版本:Spark 3.1

http://www.ppmy.cn/news/1563004.html

相关文章

C# 多线程基础 锁 死锁 Monitor lock

设置俩个 共享对象 lock1 lock2 模拟竞争情况 在主线程和子线程 分别使用 monitor 以及 lock 对这俩个对象 分别上锁以及使用 通过 net 8控制台代码实例 看下效果 讲解在代码后 class Program {static void Main(string[] args){object lock1 new object();object lock2 new…

C语言二级考试

你必须知道的 二级考试不是编写程序,或者说不只是编程的考核,它还会考核计算机C语言相关语言还有内涵等基础知识,比较全面综合(说人话,要看最新考纲具备一定的基础知识) 考试时间 120 分钟 分值 100 分&…

LED灯按键调光芯片、PWM调光IC、发光灯控制调光芯片

按键调光芯片,特别是LED灯使用PWM调光的芯片IC,是一种用于控制LED灯具亮度的集成电路,常用于台灯、壁灯、吊灯等照明设备中。这种芯片通过脉冲宽度调制(PWM)技术来调节LED的亮度,可以实现从最亮到最暗的平滑…

aws(学习笔记第二十三课) step functions进行开发(lambda函数调用)

aws(学习笔记第二十三课) 开发step functions状态机的应用程序 学习内容: step functions状态机的概念开发简单的step functions状态机 1. step functions状态机概念 官方说明文档和实例程序 AWS的官方给出了学习的链接和实例程序。使用SAM创建step functions 借…

贪心算法汇总

1.贪心算法 贪心的本质是选择每一阶段的局部最优,从而达到全局最优。 如何能看出局部最优是否能推出整体最优 靠自己手动模拟,如果模拟可行,就可以试一试贪心策略,如果不可行,可能需要动态规划。 如何验证可不可以…

scala基础学习(数据类型)-集合

文章目录 集合创建集合isEmpty获取数据添加元素删除元素常见方法交集 &差集 diff --并集 unionto stringto listto Arrayto Map其余常用方法 集合 Scala Set(集合)是没有重复的对象集合,所有的元素都是唯一的。 Scala 集合分为可变的和不可变的集合。 默认情…

深入理解计算机系统阅读笔记-第十二章

第12章 网络编程 12.1 客户端-服务器编程模型 每个网络应用都是基于客户端-服务器模型的。根据这个模型,一个应用时由一个服务器进程和一个或者多个客户端进程组成。服务器管理某种资源,并且通过操作这种资源来为它的客户端提供某种服务。例如&#xf…

【设计模式】工厂方法

工厂方法设计模式引入 定义一个用于创建对象的接口,让子类决定实例化哪一个类。工厂方法使一个类的实例化延迟到其子类。 工厂方法设计模式分为简单工厂、工厂方法和抽象工厂三个小类。以咖啡店点餐系统为案例展开讲解。咖啡店点餐系统初始设计包含咖啡类&#xff0…