分布式kettle调度平台- web版转换,作业编排新功能介绍

news/2025/2/8 7:07:58/

介绍

Kettle(也称为Pentaho Data Integration)是一款开源的ETL(Extract, Transform, Load)工具,由Pentaho(现为Hitachi Vantara)开发和维护。它提供了一套强大的数据集成和转换功能,用于从各种数据源提取数据、进行数据转换和清洗,并将数据加载到目标系统中。

  1. ETL功能:Kettle专注于提供ETL功能,即从不同的数据源(如数据库、文件、Web服务等)中提取数据,并对数据进行转换和整理,最后将数据加载到目标系统中。它支持各种数据处理操作,如过滤、排序、聚合、连接、转换等,以满足不同的数据集成需求。

  2. 可视化设计:Kettle提供了一个可视化的设计界面,称为Spoon。通过Spoon,用户可以通过拖拽和连接各种组件来创建数据转换和工作流程。这种可视化的设计方式使得ETL过程更加直观和易于理解。

  3. 多种数据源支持:Kettle支持多种数据源的连接和操作,包括关系型数据库(如MySQL、Oracle、SQL Server等)、非关系型数据库(如MongoDB、Hadoop等)、文件(如CSV、Excel等)、Web服务(如REST API、SOAP等)等。这使得Kettle可以处理各种不同类型和格式的数据。

  4. 强大的转换和清洗功能:Kettle提供了丰富的转换和清洗功能,可以对数据进行各种操作,如字段映射、数据类型转换、数据清洗、数据合并、数据拆分等。这些功能使得数据在整个ETL过程中能够得到有效的处理和准备。

  5. 可扩展性:Kettle提供了一套插件机制,允许用户根据自己的需求进行功能扩展和定制。用户可以编写自定义的插件,以满足特定的数据集成和处理需求。

Kettle是一款功能强大、灵活可扩展的ETL工具,适用于各种数据集成和转换任务。在开源系统中,它的可视化设计界面和丰富的功能使得数据处理变得更加简单和高效。

尽管目前市面上开源ETL老牌工具有Sqoop,datax,Canal、StreamSets等,新晋ELT工具有airbyte, seaTunnel等。但kettle作为传统老牌ETL工具,在易用性,资料丰富性等方面仍然有一席之地,对于千万级内的数据量级处理,仍是不可替代的优秀ETl工具之一。

本人是KETTLE使用爱好者以及二次开发者,拥有8年的丰富使用经验。在使用过程中针对kettle的弱项,以及对市面上一些kettle二开工具的对比发现,目前尚未有一款好用的调度管理工具。经此,于是准备开发一款简单易用,灵活部署,可以水平扩展的分布式调度管理平台。

此次新功能是基于kettle的spoon进行web化处理,实现了spoon客户端的95%的功能,兼容kettle 99%的底层能力。web化的目的是为了数据开发人员去编排数据任务,增强了数据安全,权限管理,角色管理,以及任务执行监控的能力。

新功能介绍 

1、kettle spoon功能的全面web化,更流畅的操作

采用extJs前端技术将kettle spoon进行1比1的web化,实现了其95%的功能,兼容kettle7.x, 8.x, 9.x, 10.x工作流。解决了spoon不能多实例部署和容易卡死的情况,所有用户都可以登录系统,进行数据开发工作的任务编排。

kettle web化演示视频

2、全部组件更友好的汉化结果

每个组件的每个配置项给了详细的说明,便于使用者更好的上手

3、 增强 转换,作业资源的统一存储,管理

用户的资源文件支持本地存储,minio分布式存储,支持用户数据权限设置,分配

4、增强  系统的稳定性提升

采用springcloud微服务架构,可单点部署,也可集群部署,支持任务执行失败的重试机制,和单点故障的转移机制。

5、增强 插件式开发,支持kettle多版本的兼容性 

系统本身功能和spoon类似,仅作为一个agent,  但更贴近于高内聚低耦合设计思想,通过向server端发送相关请求,即可实现全流程的操作。无集成kettle源码,无入侵kettle源码,采用插件式开发,只需将插件包复制到kettle目录中即可完成新功能的升级,丝滑升级,灵活管理。

6、增强 更简化的任务集群执行方式 

支持各个集群节点的执行步骤详情汇总展示,相比原版Spoon更直观。

更直观的子任务执行日志查看 

7、增强 更简单的插件开发模式

全面web化之后,无需开发xxxDialog相关ui组件,只需开发后端插件即可,前端组件通过拖拉拽即可完成开发。

8、更精准的任务状态监听机制

采用最新的回调监听机制,毫秒级的状态变更捕获,同时辅助于轮询队列的补偿监听,防止节点宕机无法触发回调通知,进而自动触发补偿执行机制,保证了单点故障的转移。确保了任务执行率99%以上

总结

该全新功能采用微服务开发模式,与分布式kettle调度平台无耦合,二者即可组合使用,也可各自单独使用 。web化模块仅支持企业版,如需体验,可单独私信。


http://www.ppmy.cn/news/1570268.html

相关文章

通向AGI之路:人工通用智能的技术演进与人类未来

文章目录 引言:当机器开始思考一、AGI的本质定义与技术演进1.1 从专用到通用:智能形态的范式转移1.2 AGI发展路线图二、突破AGI的五大技术路径2.1 神经符号整合(Neuro-Symbolic AI)2.2 世界模型架构(World Models)2.3 具身认知理论(Embodied Cognition)三、AGI安全:价…

开源安全一站式构建!开启企业开源治理新篇章

在如今信息技术日新月异、飞速发展的数字化时代,开源技术如同一股强劲的东风,为企业创新注入了源源不断的活力,然而,正如一枚硬币有正反两面,开源技术的广泛应用亦伴随着不容忽视的挑战。安全风险如影随形,…

【Elasticsearch】post_filter

post_filter是 Elasticsearch 中的一种后置过滤机制,用于在查询执行完成后对结果进行过滤。以下是关于post_filter的详细介绍: 工作原理 • 查询后过滤:post_filter在查询执行完毕后对返回的文档集进行过滤。这意味着所有与查询匹配的文档都…

Axure原型设计:AI开发平台解决方案及设计案例

一、项目背景 随着人工智能技术的迅速发展,各行各业对AI应用的需求日益增长。为了满足这一需求,我们设计了一款全面的AI开发平台,旨在帮助用户高效地进行图像分类、物体检测、视频分析、语音识别、产品推荐、异常检测等多种AI应用场景的开发…

WebAssembly:前后端开发的未来利器

引言 在互联网的世界里,前端和后端开发一直是两块重要的领域。而 JavaScript 长期以来是前端的霸主,后端则有各种语言诸如 Java、Python、Node.js、Go 等等。然而,近年来一个名为 WebAssembly (Wasm) 的技术正在逐渐改变这一格局。它的高性能…

发布:大彩科技DN系列2.8寸高性价比串口屏发布!

一、产品介绍 该产品是一款2.8寸的工业组态串口屏,采用2.8寸液晶屏,分辨率为240*320,支持电阻触摸、电容触摸、无触摸。可播放动画,带蜂鸣器,默认为RS232通讯电平,用户短接屏幕PCB上J5短接点即可切换为TTL电…

【医院绩效管理专题】2.绩效管理:医院发展的核心驱动力

医院成本核算、绩效管理、运营统计、内部控制、管理会计专题索引 一、引言 在当今医疗行业快速发展的背景下,医院管理面临着日益复杂的挑战。绩效管理作为医院管理的核心组成部分,对于提升医院运营效率、优化医疗服务质量以及实现可持续发展具有举足轻重的作用。它不仅是医…

云上考场微信小程序的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…