CyberData统一元数据服务

devtools/2024/9/25 7:25:04/

CyberData统一元数据服务功能完善,实现了湖仓平台元数据在整个平台的统一管理以及外部数据源元数据的主动发现和多计算引擎间元数据的互通互联。

同时,我们支持跨多元计算场景,以及在元数据基础上的统一数据权限管理和数据湖的自动化优化加速。

满足多元异构大数据计算引擎对元数据的需求。支持与Hive Metastore集成,通过Hive的标准化的元数据能力,为不同的分析计算引擎提供元数据管理和服务;支持基于Spark和Flink的自定义Catalog扩展机制,支持支持更大范围的数据源元数据管理能力,使Spark和Flink引擎能够访问关系型数据库,以及实现与湖仓数据源之间的跨源数据访问。

通过统一调度引擎的能力,满足元数据采集高性能、高可用,通过全文搜索引擎和图引擎能力提高元数据全文快速、高可用查询。

数据血缘支持API自定义血缘模型,灵活性高;基于Antlr语法解析,扩展性高;支持异构数据源间血缘构建;架构简洁,易接入,不强绑定和依赖数据底座引擎;准确率能够达到98%以上。

元数据部署规格可根据用户元数据体量灵活适配。

01 元数据架构设计

元数据统一存储:

MySQL+ElasticSearch+Graph Engine;

统一元数据服务,高度抽象元数据对外API、支持高可用集群部署。

统一Catalogo模型设计优势:

  • 支持用户自定义Catalog;

  • 同源数据源自动绑定已有Catalog;

  • 元数据集中管理,统一Catalog数据目录:规范元数据检索、存储;

  • 支持异构数据源间数据交互场景:如通过Catalog数据·目录去做Oracle数据源JOIN MySQL数据源查询;

  • 联邦查询:更好的跨数据源的查询。

图片

元数据guid的唯一模型设计:

通过guid快速的定位一个表或者列,例如定位元数据表列信息可通过catalogName、schema、tableName、columnName 快速定位,从而确保元数据的唯一性,避免了数据重复、冲突和混淆,更方便的对外透出统一查询元数据的能力。

02 统一数据血缘技术

通过数据开发、埋点、API导入与血缘应用四种方式触发血缘,以消息队列(MQ)的形式接受血缘;通过API(Http/REST)的方式构建统一血缘入口,进行统一血缘的解析后转化为统一的模型进行存储。

图片

目前血缘支持JDBCSQL、离线同步、实时任务、FlinkSQL四种任务类型。

当下血缘解析具有以下优势:

  • 灵活性高,支持API自定义血缘模型,通过API快速构建血缘;

  • 扩展性高,基于Antlr语法进行解析,灵活适配不同的数据库SQL语法;

  • 支持异构数据源间血缘构建,如MySQL到Hive,Oracle到Starrocks等;

  • 架构简洁,易接入;

  • 不强绑定和依赖数据底座引擎(如HiveHook机制);

  • 当下血缘解析淮确率>98%。

图片

通过Antlr定义的语法树编译自动构建解析代码后,用户通过Antllr Vistor访问模式构建血缘信息。

基于Antlr的血缘解析流程高度灵活,可兼容所有SQl语法;扩展性极高,支持自定义的抽象语法;同时具有强大的自动生成代码后实现解析逻辑。

03 元数据技术优势

元数据采集高可用容灾

图片

元数据高性能、高可用查询

  • 集群部署多节点,支持多种维度检索元数据,查询速度快,血缘全链路查询,根据用户元数据体量灵活部署;

  • 血缘构建方式多样:DTS、SQL解析、API构建、Hook引擎;

  • 血缘准实时解析;

  • 血缘解析支持的引擎:Hive、SparkSQL、FlinkSQL、 Gauss、StarRocks, Doris、OceanBase、ClickHouse、MaxCompute等15+;

  • 数据源支持情况 MySQL、SQLServer、Oracle、PG、DM、DB2、PolarDB、Sysbase、GBase + 等。

图片


http://www.ppmy.cn/devtools/23679.html

相关文章

OceanBase 分布式数据库【信创/国产化】- 登录 OceanBase 租户

本心、输入输出、结果 文章目录 OceanBase 分布式数据库【信创/国产化】- 登录 OceanBase 租户前言OceanBase 数据更新架构OceanBase 租户架构登录系统租户通过 MySQL 客户端登录通过 OBClient 登录登录最佳实践登录用户租户登录 Meta 租户OceanBase 分布式数据库【信创/国产化…

某知乎APP - X-Zse-96

⚠️前言⚠️ 本文仅用于学术交流。 学习探讨逆向知识,欢迎私信共享学习心得。 如有侵权,联系博主删除。 请勿商用,否则后果自负。 接口网址 app 版本: 8.10.0 aHR0cHM6Ly93d3cuemhpaHUuY29tL2FwaS92NC9zZWFyY2hfdjM 加密位置分析 > …

mpv编译播放器无视频输出

编译了几天终于编译好了,但发现没有视频输出,只有声音 百度后发现 mpv -vohelp命令查询当前识别驱动 Available video outputs: gpu Shader-based GPU Renderer gpu-next Video output based on libplacebo libmpv …

神之浩劫2测试资格在哪获取 神之浩劫2测试下载教程分享

继备受追捧的第三人称动作MOBA游戏《神之浩劫》之后,其续集《神之浩劫2》定于5月3日北京时间正式启动Alpha测试阶段,初期将开放14名英雄供幸运的测试者探索。该游戏的一大特色,在于实现真正的跨平台功能,不仅允许玩家在多设备间无…

Git Submodule 全流程使用指南

Git Submodule 是 Git 中用于管理子项目的强大功能。它允许我们将一个 Git 仓库作为另一个 Git 仓库的子模块进行管理,从而使项目结构更加清晰,代码维护更加方便。 本指南将详细讲解 Git Submodule 的创建、规划、更新、合并全流程的使用过程和操作步骤…

AIGC技术带来的安全与隐私问题探讨

如何看待AIGC技术? 简介:探讨AIGC技术的发展现状和未来趋势。提醒:在发布作品前,请把不需要的内容删掉。 方向一:技术应用 机遇和挑战 AIGC国内场景应用图谱 方向二:伦理与风险 垄断与隐私风险 AI民主化诉…

银行卡归属地查询API接口快速对接

银行卡归属地查询API接口指的是通过银行卡号查询该银行卡详细信息,包括银行卡名称、卡种、卡品牌、发卡行、编号以及归属地等信息,支持一千多家银行返回归属地信息,那么银行卡归属地查询API接口如何快速对接呢? 首先找到有做银行…

Linux制作docker镜像

一、制作镜像 1.在/home/data/images目录下编写Dockerfile文件 Dockerfile:是制作镜像的文件 vi Dockerfile FROM java:8 ENV JAVA_HOME/usr/lib/jvm/jdk1.8.0_181 ENV PATH$PATH:$JAVA_HOME/bin ENV LC_ALLen_US.utf8 ENV LANGen_US.utf8 ENV LANGUAGEen_US.utf…