火山引擎 DataLeap:一个易用、高效的数据目录,是如何搭建的?

news/2024/11/29 6:42:36/

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

企业如何找到数据、了解数据以及使用数据?

这离不开数据目录的能力。数据目录有着类似于“字典”的作用,能够帮助数据生产者和使用者快速定位数据、解释数据、找到数据,并从中提取业务价值。

对以研发人员为代表的数据生产者来说,他们利用数据目录来组织、梳理各类元数据。例如,数据生产者会将元数据以目录等形式编排到一起,方便维护,并通过打业务标签、添加应用场景描述、字段解释等丰富业务相关属性。

对以数据分析师、产品、运营等数据使用者来说,他们通过数据目录来查找和理解数据,例如通过关键字检索,或目录浏览,来查找业务场景数据,并浏览详情介绍、字段描述、产出关系等,进一步理解并利用数据决策。

在字节跳动,也有这么一套被内部广泛使用的数据目录系统。目前,该系统已通过火山引擎DataLeap数据地图平台对外输出。外部用户也可以在DataLeap数据地图平台,收集、组织、访问和补充元数据信息,为自身数据建设和治理提供支持。

火山引擎DataLeap数据地图平台-数据目录

要构建一套扩展性强、易维护且易用的数据目录系统并非易事。在大数据领域,各类计算和存储系统百花齐放,概念和原理又千差万别,对于元数据的采集、组织、理解、信任等,都带来了很大挑战。

在调研各个开源软件及技术体系基础上,火山引擎DataLeap选择基于Apache Atlas改造,而这套数据目录系统主要依赖五大关键技术:

第一,数据模型统一。一方面,DataLeap通过充分复用各种元数据类型间的相似能力,获得数据模型定制灵活性;另一方面,DataLeap将数据源关联的能力进行收敛到一起,以降低后续的维护成本。

第二,数据接入标准化。当用户接入新的元数据时,只需要重新编写Source和Diff Operator,而其他组件可直接复用,以标准化的connector节省接入和运维成本。

第三,搜索优化。在数据目录中,搜索是用户最广泛使用的功能,也是用户找数主要的手段。搜索优化可分为离线部分和在线部分。离线部分负责汇集各类与搜索相关的数据,完成数据清洗或者模型训练,再根据不同的用途,写入不同的存储,供给在线搜索模块使用。在线部分则分为搜索理解、召回、精排三个主要阶段,步骤和概念与通用搜索引擎对齐。

第四,血缘能力。完备的血缘能力,既可以帮助数据生产者梳理、组织元数据,也可以帮助数据消费者找数、理解数据上下文。火山引擎DataLeap在设计上充分考虑血缘链路的多样性和复杂性,并在血缘质量上,通过定义有效的血缘准确率、覆盖率和时效性,确保血缘信息准确、全面和实时性。

第五,存储层优化。当业务中有越来越多的元数据接入数据目录,图存储中的点和边将分别到达百万和千万量级,造成读写性能出现问题。在读优化和写优化层面,火山引擎DataLeap分别通过开启MutilPreFetch 能力、去除Guid全局唯一性检查,最终实现小表性能小于100ms、中表性能2~5s、大表性能0.5~1min。

据介绍,火山引擎DataLeap能帮助企业快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,其中数据目录能力主要涵盖在数据地图平台,该平台通过提供数据检索、元数据详情查看、数据理解等功能,解决找数难、理解数据难的痛点,同时支持数据专题、血缘图谱、数据发现、库表管理等特色功能。

 

目前,火山引擎DataLeap的数据地图平台已接入全链路核心元数据,包括LAS、MySQL、ByteHouse CE、ByteHouse CDW、TOS、LasFS、EMR hive等,提供可视化的血缘关系展示能力,帮助用户全面的探查了解数据,支持表、字段级别血缘可视化查询,以及按层级、范围筛选展示,可根据用户需求灵活适配。

立即跳转火山引擎DataLeap了解详情


http://www.ppmy.cn/news/382861.html

相关文章

基于Google breakpad编译构建和使用案例

Googlepad是一款用于程序崩溃时自动生成转储文件(.dmp)的可跨平台开源库。 1.Googlepad代码下载地址: git clone https://chromium.googlesource.com/breakpad/breakpad 如果翻不了墙可以在gitee上下载breakpad模块。 2.Googlepad采用gyp来…

视频剪辑需要学哪些软件 视频剪辑在哪里学

视频剪辑涉及到素材准备、视频的编辑与生成、格式的转换等方面,因此需要学习到的软件类型也不少。比如在准备素材时,可能会涉及到音频、图片等处理,以及特效的应用等。接下来,就让我们详细了解下视频剪辑需要学哪些软件&#xff0…

逆元(费马小定理、扩展欧几里得、逆元线性打表)

逆元 逆元应用与证明费马小定理方法扩展欧几里得求逆元这里给出扩展欧几里得算法的模板代码: 打表求逆元逆元打表求1!~n! 逆元应用与证明 在学习逆元之前我们先来了解一下同余的概念: 简单来讲就是整数a mod(m)b mod(m) ,写做 a …

ubuntu 安装网卡驱动

ubuntu 安装网卡驱动 查看当前网卡 # 首先 查看当前所有的 网卡, ifconfig -a # 一定要加 -a (表示all) # 若有显示,说明识别成功,再查看目前已经启动的网卡有没有 ifconfig # 查看目前启动的网卡 (防止识别到了硬件,但没有启动,热插拔未启动的现象)下载相应的驱动 #…

Win10查看网卡驱动的方法

Win10电脑中的网卡驱动出现问题,可以试试卸载重装网卡驱动的方法,那么Win10网卡驱动在哪找呢?下面小编就给大家介绍一下Win10查看网卡驱动的方法,简单几步即可完成。 Win10网卡驱动位置在哪? 1、右击桌面的此电脑&…

台式计算机网卡在哪里查看,网卡驱动在哪里查看,教您如何查看电脑网卡驱动...

一些对电脑还不是很了解的用户问小编,为什么在电脑装完系统后,有时电脑连不上网,是不是没有安装好呢?有或者在安装系统的过程中忘了操作哪一步还是哪个选项选错了呢?要不要重装过系统呢?面对这一连串的疑问…

Java问题二十道

问题 1:什么是Java?它有哪些特点? 答案:Java是一种面向对象的编程语言,具有以下特点: 简单性:Java语法相对简单,易于学习和使用。 面向对象:Java支持面向对象的编程范式…

网卡驱动无法安装怎么办?

最近有用户反映这个问题,没有网卡驱动就没办法上网,安装的时候发现一直安装不上,这是怎么回事呢?针对这一问题,本篇带来了详细的Win7系统网卡驱动无法安装的解决方法,快来看看。 1、最先在桌面,…