DataX--Web:图形化界面简化大数据任务管理

server/2024/9/21 9:01:38/

        在处理大数据任务时,频繁地修改配置文件或编写脚本可能会变得繁琐且容易出错。DataX Web提供了一个图形化界面,旨在简化这些操作,让用户通过直观的界面管理数据同步任务。

DataX Web简介

        DataX Web是一个开源项目,它允许用户通过Web界面来配置和管理DataX的数据同步任务。它支持RDBMS、Hive、HBase、ClickHouse、MongoDB等多种数据源,使得数据同步任务的创建和管理变得更加便捷。

安装与配置

        安装DataX Web相对简单,用户可以从GitHub上下载源码并按照文档进行配置。配置过程中可能需要调整一些环境变量或配置文件,以确保DataX Web能够正确连接到数据源。

github地址:https://github.com/WeiYe-Jing/datax-web

网盘下载链接:datax-web-2.1.2.tar.gz

安装

1、上传
2、解压
tar -zxvf datax-web-2.1.2.tar.gz -C /opt/installs/
3、安装
cd /opt/installs/datax-web-2.1.2/bin
执行安装程序
./install.sh

修改配置文件

vi /opt/installs/datax-web-2.1.2/modules/datax-executor/bin/env.properties修改此处:
PYTHON_PATH=/opt/installs/datax/bin/datax.py

启动和关闭

因为它的启动和关闭命令跟我的hadoop集群命令一模一样,所以我要修改它:
mv start-all.sh start-web.sh
mv stop-all.sh stop-web.sh配置环境变量:
export DATAX_WEB_HOME=/opt/installs/datax-web
export PATH=$PATH:$DATAX_WEB_HOME/bin记得刷新!!source /etc/profile
bin路径下,有一个 start-all.sh  启动
stop-all.sh 关闭
不要配置环境变量/opt/installs/datax-web-2.1.2/bin
运行的时候  ./start-all.sh

浏览

在上一步启动dataxweb之后,通过浏览器可以进行dataxweb的访问,具体地址如下:
http://bigdata01:9527/index.html
进入网页之后,要求输入登录的用户名与密码,使用默认的即可:
用户名:admin
密码:123456

查看jps

使用DataX Web

        在DataX Web中,用户首先需要创建一个项目并添加相应的数据源,如MySQL、Hive等,用户可以根据需要添加DataX模板,这些模板定义了数据同步任务的配置模板。通过图形化界面,用户可以轻松编写数据同步任务,如从Hive导出数据到MySQL。DataX Web允许用户执行任务并实时查看运行日志和监控执行器资源。这使得任务的监控和管理变得更加直观和方便。

创建项目

添加数据源

首先添加mysql数据源

 

添加hive的数据源

启动hive的远程连接
hive-server-manager.sh start hiveserver2查看日志:
tail -f  /var/log/my_hive_log/hiveserver2.log
连接正常再进行配置

添加DataX模板

名词解释:
- 执行器:目前只有datax可选
- 路由策略:用于集群化部署后,任务的分配,默认随机即可。
- 阻塞处理:在调度出现积压时(同时启动大量的数据处理任务)使用的策略:
- 单机串行:调度请求进入单机执行器后,调度请求进入FIFO队列并以串行方式运行;
- 丢弃后续调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,本次请求将会被丢弃并标记为失败;
- 覆盖之前调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,将会终止运行中的调度任务并清空队列,然后运行本地调度任务;
    `建议使用单机串行与丢弃后续调度`
- 任务类型:目前只有DataX选项可以选择
- Cron:调度定时执行器,通过该配置可以完成定时、定周期启动

编写任务

以hive数据导出到mysql为例

配置hdfsreader

配置mysqlwriter

配置字段映射

查看json

记得点击【下一步】,否则任务不创建。

任务执行与监控

查看任务并执行

查看运行结果和日志

编辑任务

注意事项

        在使用DataX Web时,需要注意数据源的字段类型与DataX或Hive中的字段类型匹配。例如,Hive中的int类型在DataX中可能需要改为long

结语

        DataX Web作为一个图形化工具,极大地简化了DataX数据同步任务的管理。它通过提供一个用户友好的界面,使得即使是非技术用户也能够轻松地配置和管理复杂的数据同步任务。随着大数据技术的不断发展,DataX Web有望成为大数据任务管理的重要工具。


http://www.ppmy.cn/server/119742.html

相关文章

PostgreSQL维护——解决索引膨胀和数据死行

注意: 本文内容于 2024-09-16 00:40:33 创建,可能不会在此平台上进行更新。如果您希望查看最新版本或更多相关内容,请访问原文地址:PostgreSQL维护——解决索引膨胀和数据死行。感谢您的关注与支持! 我有一张表&#…

基于python+django+vue的家居全屋定制系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于协同过滤pythondjangovue…

solidity-21-call_contract

调用其他合约 练笔时刻,首先创建一个合约用于被其他合约调用 // SPDX-License-Identifier: MIT pragma solidity ^0.8.21;contract othercontract{// 定义一个只有自己能访问的参数uint256 private _x 0;event log(uint amount,uint gas);function getbalance() …

linux命令行快捷键

第一章 linux之帮助命令 第二章 linux命令行快捷键 文章目录 linux命令行快捷键 linux命令行快捷键 Tab 命令补全或文件补全Ctrlu 删除或剪切光标之前的命令Ctrla 将光标移动到命令行开头Ctrle 将光标移动到命令行结尾ctrlc 终止当前命令ctrll 清屏ctrly 粘贴ctrlu的内容 参考…

使用注意力机制可以让你的模型更加灵活,但是需要额外的计算资源。rnn lstm bilstm attension

确实,使用注意力机制可以使模型更加灵活,但也确实需要额外的计算资源。注意力机制允许模型在处理序列数据时,能够动态地关注不同位置的重要性,从而更好地捕捉长依赖关系。下面是一个简单的注意力机制实现示例,可以帮助…

基于VUE的学生信息系统的设计与实现,包含学籍,成绩,课程选择选课,成绩分析统计百度图表echarts等功能

学生信息系统是一种用于管理学校学生信息的电子化系统,可以方便学校管理者和教师对学生的信息进行录入、查询和统计等操作,提高学校管理效率。本文将介绍学生信息系统的设计与实现。 首先,学生信息系统应该具备以下功能: 学生信息…

904.水果成篮

目录 题目介绍解题方法 题目介绍 解题方法 题目翻译成人话就是 :找包含两种元素的最长子串,返回其长度,和2958题的区别是:本题是找种类最多为2,上题是单个种类个数最多为k。 法一: class Solution {publ…

JavaSE--集合总览02:单列集合Collection的体系之一:List

Collection体系的特点 分为 list 和set集合,这篇文章主要讲述List,下篇讲述Set。 简单认识单列集合collection集合的特点 : list集合的特点: 有序 可重复 有索引 set集合的特点:无序 不重复 无索引 其中LinkedHashSet有序 TreeS…