谈一谈数据虚拟化的技术核心和应用架构

devtools/2025/1/7 6:52:02/

数据虚拟化(Data Virtualization)是对数据资源的抽象,通过屏蔽数据资源的存储位置和访问方式,能够将不同数据源、不同格式的数据资源,进行逻辑上的整合集成。这一技术方案与过去面对传统数仓的弊端,业界过去经常采取的方式 Presto 方案有一定相似,但存在明显差别。

Presto 的架构本质上是一个 MPP 的引擎,其架构导致绝大部分使用 Presto 的场景都是在 ETL 最末端的消费层 ,本身面向的是 OLAP 查询。但是 Presto 可以支持跨源查询,如果想延伸到数据仓库,就意味着需要获取支持大规模数据构建的能力,而 Presto 的架构便无法再支持。

所以,数据虚拟化不等于 Presto,Presto 可以解决一部分类似于虚拟化的问题,但无法支持大规模数据构建,限制了其在数据仓库领域的应用。

其实,早期的虚拟化技术也能解决部分数据采集、数据转换的问题,而 Aloudata 的数据虚拟化技术却能做到面向全场景的能力,其核心最关键的就在于 RP 技术的突破

RP(Relational Projection)的全称是关系投影,可以理解为是一个简化传统物理作业的过程。以前 ETL 工程师需要编写 SQL,并要将数据插入到物理表中,而现在,只需编写生成数据的逻辑,再也不必关心数据是否插入了物理表。

RP 跟传统的 OLAP 引擎里面的物化视图有明显不同。传统的物化视图更多面向一些大的 SQL 的性能加速,更多的是一种加速或缓存,这种特征代表了其丢失后不会产生影响。RP 实际对标着 ETL 同学研发的作业,以前在数仓中,如果 ETL 研发作业、作业数据出现问题,查询失误则不可避免。因此物化视图与RP 的定位是不同的,在技术设计方案上也有着极大差别,包括:

一、多层 RP 构建与调度:这些真实物理作业生成的 RP 与 ETL 作业并无差别,也会有强弱依赖、分区对齐、跨周期依赖等,但其是自动生成的,而非人工配置。此外,RP 支持大规模的数据构建,支持自动推导判断全量构建、增量构建或分区构建;

二、数据的多版本能力 :RP 的数据有多个版本,而物化视图则是缓存逻辑,数据一旦构建出错,其物化视图就失效了;RP和数据通过版本切换及数据缝合技术实现新老数据的切换和组合。

三、PRP(Predictive Relational Projection)技术:这是我们在技术上取得的一个较大的突破,可以通过根据的用户的查询历史,以及定义资产的关系来实现自适应的智能加速方案;

四、RP 的自动回收:从数据仓库或 ETL 同学的视角来看,很多数仓作业在上线之后便无人关心其使用情况和生命周期的问题,造成只上不下的局面。因此,数仓数据越堆越多,必然需要通过治理来降低其计算存储成本。在拥有虚拟化之后,此过程凭借自动回收能力,取消人工操作步骤。

说完了数据虚拟化的技术原理,我们再来看一下数据虚拟化的应用架构,它主要包括两种典型的架构,不同的应用架构对应的应用场景也不相同

单层的虚拟化架构:通过一个虚拟化层把公司所有元数据连接在一起,随时可用;

多层的虚拟化架构:更多的是用于集团性公司或分地域的、多层级的公司。由于组织架构的复杂性,对数据使用有着严格的隔离和权限要求,很多情况下不具备将数据进行物理集中的条件,但又希望能够实现全域数据要素的流通和价值挖掘。

值得一提的是,作为 Data Fabric 架构理念的实践者与引领者,依托于自研的数据虚拟化技术,Aloudata 打造了国内首个逻辑数据平台——Aloudata AIR,能够帮助用户轻松实现全域数据的逻辑连接、快速访问和查询,并能够根据业务分析需求,进行跨数据源的数据整合,以及灵活开展数据分析和应用工作。

同时,Aloudata AIR 支持全局数据资产目录和统一数据服务,为下游用户与应用提供了统一的数据发现和访问入口,解决了“数据孤岛”造成的全域数据查找难、跨源查询难和集中安全治理等问题;支持人工指定物化加速和 AI 增强的自适应物化加速,基于用户查询行为,实现自动化物化链路编排和智能查询下推,让用户无需担心虚拟化带来的大数据量查询性能问题,实现全域数据更低成本、更实时地流通和消费。

 

目前,Aloudata AIR 逻辑数据平台已帮助招商银行构建了统一的敏捷数据使用平台,使业务团队在一个地方即可统一查找和理解数据,并通过逻辑视图定义和自动化编排,轻松处理和准备数据,每月由业务团队自助生成的数据已占总数据的 70% 以上。同时,动态集成和自动化编排减少了不必要的数据复制、计算和存储,至少节约了 50% 以上的存算成本。访问Aloudata 官网,即刻了解。

文章来源:https://blog.csdn.net/Aloudata/article/details/141256069
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ppmy.cn/devtools/98484.html

相关文章

Linux非VP扩容方案

Linux系统非VP扩容方案 描述:现有虚拟机磁盘1TB 容量不够,需要扩容。 采用:https://bbs.sangfor.com.cn/forum.php?modviewthread&tid110403 扩容失败。原因是没有VP 和LV 解决方案: 1,查看分区 cat /proc/p…

回归分析在因果分析中的应用:原理、方法与局限性

目录 1. 引言2. 回归分析的基本原理3. 线性回归与因果分析4. 多元回归与因果分析5. 回归分析的优势与局限6. 结论1. 引言 在数据分析的世界中,回归分析不仅是揭示数据背后故事的强大工具,它还是理解因果关系的重要方法。无论你是在探索广告投入对销售的影响,还是在研究教育…

Eureka Server与Eureka Client详解:服务注册与发现的交互机制

Eureka Server与Eureka Client详解:服务注册与发现的交互机制 Eureka 是 Netflix 开源的一个服务发现框架,它是 Spring Cloud 微服务架构中的核心组件之一。Eureka 主要由两个关键组件构成:Eureka Server 和 Eureka Client。它们之间通过一定…

APO 集成生态exporter一键完成指标采集

Metrics 作为可观测性领域的三大支柱之一,Metrics数据采集显得尤为重要。传统的prometheus工具采集指标,需要指定路径抓取,当指标越来越多配置会显得复杂。同时prometheus只能采集指定的指标,当用户需要节点系统相关、中间件等指标…

【MeterSphere】占用磁盘空间过大问题处理方式

目录 一、现象 二、 清理docker系统命令(效果不大) 三、 追踪文件 四、 处理logs(小处理) 五、 对比容器问题发现node容器问题 六、结果 前言:部署ms使用一段时间,服务器监控发现磁盘空间占用过大&am…

一伴app相亲交友源码开发

一伴APP的开发需求与功能架构可以清晰地归纳为以下几点: 一、开发需求 用户友好性:界面设计应简洁明了,操作流程应直观易懂,确保用户能够快速上手并使用APP。 安全性与隐私保护:需要实施严格的用户认证和数据加密措…

浅谈Kafka(一)

浅谈Kafka(一) 文章目录 浅谈Kafka(一)Kafa的设计是什么样的数据传输的事务定义消息队列的应用场景Kafka怎么样判断节点是否存活Kafka的消息是采用pull模式还是push模式Kafka在磁盘上的消息格式Kafka高效文件存储设计特点Kafka与传…

Vitis AI 进阶认知(Torch量化基础+映射+量化参数+对称性+每通道+PTQ+QAT+敏感性)

目录 1. 介绍 2. 基本概念 2.1 映射函数 2.2 量化参数 2.3 校准 2.4 对称与非对称量化 2.5 Per-Tensor and Per-Channel 2.6 PTQ 2.7 QAT 2.8 敏感性分析 2.6 退火学习率 3. 几点建议 4. 总结 1. 介绍 Practical Quantization in PyTorch | PyTorchQuantization i…