NoETL

devtools/2024/11/15 1:19:12/

目录

什么是NoETL

NoETL 构建的方法


Data Fabric 的核心理念认为,将所有数据完全集中存储既不现实也不经济,应该通过虚拟化和其他技术手段实现逻辑上的集中管理。这个理念承认了数据分散的现状,提出用新的思路来解决问题,并将其转化成行之有效的方法。

个人而言,我认为 Data Fabric 与其说是一种技术的进步,不如说是技术演化必然走向的一个妥协的结果。Data Fabric 的核心技术是数据虚拟化。数据虚拟化主要由几个层次构成,首先是底层的连接层。这一层的关键特点在于它能够把各种不同结构、来源、地域和存储介质的数据映射为一个统一的模型层,为用户提供了一个数据交互的统一平面。这种通过连接层屏蔽差异性来实现数据虚拟化的做法,为上层的各种数据整合奠定了基础。
有了这个基础之后,我们就可以在其之上进行各种数据加工处理逻辑定义,然后让终端消费者通过上层产品来使用这些数据。这便构成了数据虚拟化的典型架构。在这个架构下,我们面临的最大挑战,正如我之前提到的,是在查询虚拟化的数据时如何解决性能问题,确保无论数据的规模有多大,用户都能获得近似于在本地直接进行数据查询的性能和使用体验。

什么是NoETL

NoETL ("Not Only ETL") is a workflow automation library and framework to simplify the process of defining, managing, and executing complex workflows. Particularly well-suited for orchestrating data processing pipelines, it extends beyond just ETL tasks and is designed for task automation in distributed runtime environments.

相对于ETL先生产后消费的模式。NoETL是一种直接消费,是否预计算、如何预计算由一个系统决定。

NoETL 构建的方法

  • 生产模式革新

传统数据仓库采取“预处理模式”,即在用户实际使用数据前,预先完成所有ETL 过程及物理数据表的构建工作。而逻辑数据平台则借鉴了“按需生产”的理念,以业务数据需求为导向,优先进行数据探查并制定逻辑取数规则,而非预先进行物理数据加工。系统依据用户对数据的实际应用场景和性能需求动态响应,仅在必要时,如遇到性能瓶颈时,才针对性地创建 RP 以实现物理数据的生成与优化。相较于传统数仓“先生产后消费”的模式,更加灵活高效。

  • 数据集成能力提升

逻辑数据平台能够更简易地实现全域数据资产的集成,克服了传统数仓物理集成的挑战,集成过程更为灵活且全面。

  • 数据加工自动化

在逻辑数据平台中,能够无缝执行传统数据仓库中的各类数据处理任务,包括构建常规视图与具备历史快照功能的视图,以及运用分层加工和资产管理等策略。相较于传统模式,逻辑数据平台的一大革新在于自动化处理原本需要人工创建和管理的 ETL 任务及其发布、回收流程,从而极大地减轻了用户的后台运维负担,提升了系统的智能化水平,并显著优化了整体数据处理效率。

  • 数据消费便捷化

在数据消费层面,传统数据仓库通常需将数据迁移至独立的 OLAP 引擎以进行深度处理,但逻辑数据平台通过其内置的虚拟化引擎智能适配跑批与 OLAP 分析查询功能,从而消除了这一需求。当 BI 工具或其他消费者访问逻辑数据时,无需关注查询应被导向哪个具体执行引擎,所有查询均统一通过逻辑数据平台的虚拟化引擎进行处理。这一特性极大地削减了用户在数据消费过程中因对接不同引擎和数据导出所带来的额外成本与复杂性,提升了数据使用的便捷性和效率。

  • 资产管理范围扩大

传统数仓局限于管理已同步的数据资产,而逻辑数据平台则能对企业的所有数据资产进行全面整合和管理,不受资产是否同步至仓库的限制。

  • 基础设施解耦升级便捷

逻辑数据平台实现了逻辑层与底层引擎的完全解耦,使得技术升级或引擎替换时,对上层业务的影响降到最低,确保业务连续性和稳定性。

ETL原罪是什么?NoETL怎么搞?

https://github.com/noetl/noetl


http://www.ppmy.cn/devtools/134046.html

相关文章

基于微信小程序的校园失物招领系统的设计与实现,LW+源码+讲解

摘 要 校园失物招领系统使用Java语言进行编码,使用Mysql创建数据表保存本系统产生的数据。系统可以提供信息显示和相应服务,其管理校园失物招领系统信息,查看校园失物招领系统信息,管理校园失物招领系统。 总之,校园…

UNIX 域套接字

UNIX 域套接字(UNIX Domain Socket,简称 UDS)是一种在同一台机器上的进程间通信(IPC,Inter-Process Communication)机制,允许不同的进程通过文件系统中的特殊文件进行数据交换,而不需…

PCL 点云拟合 基于角度约束的Ransac拟合直线

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.1.1 加载点云数据 2.1.2 设置 RANSAC 算法参数 2.1.3 拟合直线模型 2.1.4 提取拟合直线内点 2.2完整代码 三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接: PCL点云算法与…

我自己nodejs练手时常用的一些库基础用法

我自己在使用nodejs以及前端实战练习时常用的一些库的基本使用 1.bcrypt //注册账号时,给密码加密 password是前端传过来的密码,hashPassword是存到数据库中的密码 const bcrypt require(bcrypt) const hashPassword bcrypt.hash(password,10) //登…

349. 两个数组的交集

目录 题目解法 题目 给定两个数组 nums1 和 nums2 &#xff0c;返回 它们的 交集 。输出结果中的每个元素一定是 唯一 的。我们可以 不考虑输出结果的顺序 。 解法 class Solution { public:vector<int> intersection(vector<int>& nums1, vector<int>…

高级java每日一道面试题-2024年11月01日-Redis篇-Redis支持的数据类型有哪些?

如果有遗漏,评论区告诉我进行补充 面试官: Redis支持的数据类型有哪些? 我回答: 在 Java 高级面试中&#xff0c;Redis 的数据类型是一个常见的考点。Redis 是一个高性能的键值存储系统&#xff0c;支持多种数据类型&#xff0c;每种数据类型都有其特定的用途和操作方法。以…

渗透利器-kali工具 (第三章-5) sqlmap之sql注入一、二

一&#xff1a;常见的注入方式 1.sqlmap用于Access数据库注入 2.sqlmap用于Cookie注入  --cookie 3.sqlmap用于Post注入  --froms 、--data、抓包 4.sqlmap用于mysql注入 绕过waf脚本测试&#xff1a;--tamper "space2morehash.py" 常见sqlmap使用方法&#xff1…

计算机网络基础(3)_应用层自定义协议与序列化

个人主页&#xff1a;C忠实粉丝 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 C忠实粉丝 原创 计算机网络基础(3)_应用层自定义协议与序列化 收录于专栏【计算机网络】 本专栏旨在分享学习计算机网络的一点学习笔记&#xff0c;欢迎大家在评论区交流讨论&a…