火山引擎DataLeap的Data Catalog系统公有云实践 (上)

news/2024/11/28 11:52:00/

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

前言

Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景。本篇内容源自于火山引擎大数据研发治理套件DataLeap中的Data Catalog 功能模块的实践,主要介绍Data Catalog在公有云部署和发布中遇到挑战及解决方案。

背景

  • Data Catalog是一种元数据管理的服务,会收集技术元数据,并在其基础上提供更丰富的业务上下文与语义,通常支持元数据编目、查找、详情浏览等功能。目前Data Catalog作为火山引擎大数据研发治理套件DataLeap产品的核心功能之一,经过多年打磨,服务于字节跳动内部几乎所有核心业务线,解决了数据生产者和消费者对于元数据和资产管理的各项核心需求。

  • DataLeap作为一站式数据中台套件,汇集了字节内部多年积累的数据集成、开发、运维、治理、资产、安全等全套数据中台建设的经验,助力ToB市场客户提升数据研发治理效率、降低管理成本。

  • Data Catalog作为DataLeap的核心功能之一,本文汇集了Data Catalog团队在最近一年公有云从0到1实践的整体经验,主要讲解遇到的各项挑战和对应的解决方案。

Data Catalog公有云发展历程

Data Catalog已经随着DataLeap一起作为公有云产品正式在火山引擎对外发布,下面是Data Catalog在功能演进上的一些重要时间节点:

  • 2021年9月,Data Catalog随着DataLeap完成在火山引擎公有云首个版本部署和发布,包含60%内部核心功能,支持EMR Hive数据源元数据管理。

  • 2022年2月,Data Catalog随着DataLeap完成火山引擎公有云Beta版本发布,吸引了一批客户试用。

  • 2022年5月,Data Catalog随着DataLeap完成火山引擎公有云GA版本发布,正式对外开放。

  • 2021年9月至2022年5月,Data Catalog发布10+版本,对齐95%内部核心功能以及发布新功能20+,包括支持LAS/ByteHouse数据源、OpenAPI和元数据采集等ToB场景新特性。

Data Catalog公有云整体架构

Data Catalog支持综合搜索、血缘分析、库表管理、元数据采集、备注问答、专题管理、OpenAPI等功能,和DataLeap其他功能模块(如数据开发、数据集成、数据质量、数据安全等)一起提供了大数据研发和治理场景的一站式解决方案。同时,Data Catalog公有云产品是基于火山引擎提供的数据引擎和云基础设施来部署和服务的,下面会简单介绍下我们所依赖和使用的产品和服务:

  • 数据引擎:是火山引擎提供的数据分析、数据仓库和数据湖相关产品,包括ByteHouse/EMR/LAS等产品。通常Data Catalog会从这类系统内采集元并存储元数据,进行处理加工后,再提供搜索、血缘分析等功能;另外,库表管理模块也会依赖这类系统提供对应的接口来做建库建表等操作。

  • 内部公共服务:是火山引擎为支持公司内部产品上公有云提供的若干公共基础服务,主要作用是方便内部产品能快速在公有云部署,提供和公司内部兼容性比较高的公共服务,降低改造和迁移成本。其中Data Catalog使用较多的包括:API网关、网络代理、访问控制、安全认证、监控报警等。

  • 基础服务:这类服务或产品相较于上面说的内部公共服务主要区别是,他们是火山引擎对外售卖的标准云服务,内外部用户都可使用,且和业界主流云厂商能力是基本对齐的,不过会和公司内部一些类似的基础服务会有不少差异。Data Catalog主要使用这类基础服务来进行自身服务的部署运维,并且进行较多的兼容性改造,包括容器部署、网络打通、内外部CICD和监控报警流程一致性等方面。

  • 数据库和中间件:是和业界主流云厂商对齐的存储和中间件领域的标准云服务,和公司内部对应组件也会有若干差异,Data Catalog为此也做了多版本的兼容。Data Catalog在元数据存储上使用到了Hbase/MySQL/ES/Redis,然后在元数据采集和同步场景使用了Kafka,同时用到了日志服务来提高研发运维效率。

下篇将继续给大家分享Data Catalog公有云遇到的挑战及解决方案。

点击跳转大数据研发治理套件 DataLeap了解更多


http://www.ppmy.cn/news/979215.html

相关文章

使用node内置test runner,和 Jest say 拜拜

参考 https://nodejs.org/dist/latest-v20.x/docs/api/test.html#test-runner 在之前,我们写单元测试,必须安装第三方依赖包,而从node 20.0.0 版本之后,可以告别繁琐的第三方依赖包啦,可直接使用node的内置test runner…

Ubuntu18.04 下配置Clion

配置Clion 安装gcc、g、make Ubuntu中用到的编译工具是gcc©,g(C),make(连接)。因此只需安装对应的工具包即可。Ubuntu下使用命令安装这些包: (1)安装gcc sudo apt install gcc&am…

MFC第二十天 数值型关联变量 和单选按钮与复选框的开发应用

文章目录 数值型关联变量数值型关联变量的种类介绍 单选按钮与复选框单选按钮的组内选择原理解析单选按钮和复选框以及应用数值型关联变量的开发CMainDlg.cppCInputDlg.hCInputDlg.cpp 附录 数值型关联变量 数值型关联变量的种类介绍 1、 数值型关联变量: a)控件型…

高压开关柜无线测温系统设计与实现 安科瑞 许敏

摘要:文章提出了一种用于小车式开关柜的无线测温系统,包括设于小车动触头套管上的温度传感器、环绕设于小车动触头上的电流传感器,温度传感器及电流传感器均分别连接有数据接收处理器,数据接收处理器电连接有设于小车式开关柜上的…

min_free_kbytes

转自:技术分享 | MemAvailable 是怎么计算的-腾讯云开发者社区-腾讯云 背景 前两天安装 OceanBase 时遇到一个小问题: 很明显,安装OB时要求服务器可用内存至少 8G,不达标就无法安装。为了凑这3台10G内存的服务器我已经费了不少劲…

[DDPM] Denoising Diffusion Probabilistic Models

直接看paper云里雾里,一些推荐的讲解: The Annotated Diffusion Model 生成扩散模型漫谈(一):DDPM 拆楼 建楼 生成扩散模型漫谈(二):DDPM 自回归式VAE 生成扩散模型漫谈&#xff…

管理类联考——数学——技巧篇——四大招——第一招 拿下应用题,稳江山

第一招 拿下应用题,稳江山 应用题占 6 个题,计 18 分,拿分策略 【2 易,2 中,2 难】,【4 必考,2 可选】,【4 固定,2 灵活】核心:等量关系 等量关系 类型 设未…

快速跑 nerf instant-ngp 快速调试与配置,跑自己的数据

1.下载Anaconda3 2.打开Anaconda Prompt (Anaconda) 创建虚拟环境 conda create -n nerf-ngp python3.8切换到虚拟环境 conda activate nerf-ngp安装相关依赖包 pip install commentjson imageio numpy opencv-python-headless pybind11 pyquaternion scipy tqdm安装完毕后…