【职业发展】从ETL到大数据:如何规划你的数据职业生涯?

devtools/2024/11/30 11:40:01/

首先:ETL工程师其实是一个特别简单的岗位。

为什么简单?

ETL就是数据仓库项目建设和日常维护中的一种工作,ETL,就是抽取、转换、装载的英文缩写。但是这个现实中都是使用相应工具软件的。至于怎么抽取,怎么转换、怎么装载,都是与具体业务相结合的。

比如:每天晚8点抽取,a+b转换成c,从A设备读出a和b,计算成c之后存到W设备上。这就是ETL要干的事。特别简单。没有技术含量。但是工作量却比较大。但是工作量主要发生在初始阶段,因为日后变成那个自动化的软件执行就没什么工作量了。所以ETL这工作的复杂性在于项目建设阶段,当项目建成就变成自动化的运维了。这样一来ETL工作就不难了。

正因为上面说的,所以ETL工程师的技术性不高,主要的问题在于相关的ETL软件会用。其他的就是业务问题。因为抽取的频率,以及如何抽取是由业务上的要求决定的。甚至如何转换也是业务需要决定的,装载同样依赖业务要求。所以这并不是技术问题。

ETL工程师每天都做什么

ETL就业范围广泛,例如:各种大型公司的开发部、研发部、科技部。一线城市,如:(北上广深),其次新一线的(杭州、南京、武汉、成都、合肥、重庆、青岛)等很多ETL工程师的月薪都是过万以上,就算是普通刚入门的菜鸟小白也都是6-9k,工作内容分为:(数据整合、数据存储管理、数据挖掘设计、多维分析展现)

ETL工程师的岗位职责

  1. 海量数据的ETL开发
  2. 参与数据仓库架构的设计与开发
  3. 参与数据仓库ETL流程优化及解决ETL相关技术问题
  4. 熟悉主流数据库技术,如:oracle、DB2、SQL sever等
  5. 精通ETL架构、有一定的ETL开发经验,了解日常作业的部署和调度
  6. 熟悉ETL企业级开发工具和应用,如:Kettle、TASKCTL、海豚调度、XXL-job等

ETL工具种类

现在ETL工具级软禁啊网上开源或商用付费版的同类工具有很多。

免费(开源)项目级工具

Kettle,xxl-job,oozie,Azkaban,TASKCTL,DolphinScheduler(海豚调度)等;

企业级应用工具平台

TASKCTL,Moia Comtrol,Comtrol-m等;

关于你怎么办

找一个简单的项目经验包装一下自己;其次关于ETL软件现在实际上市面上可以下载到的试用版,你随便找一种能找到的就行。在这里个人比较推荐小白可以先以 “TASKCTL或海豚调度”这2款工具作为入门学习了解;

理由:以上2款工具是一个开放的调度平台,尤其是企业级应用的 TASKCTL,为了适应诸如Datastage、Informatic、kettle、一体机、大数据、存储过程、java以及各种脚本任务程序的支持与扩展,同时保证不同任务类型的应用统一,TASKCTL 对作业的控制采用插件驱动机制,从而实现不同技术平台、不同作业类型调度控制,很多金融、零售、制造、物流等近1000家头部公司都在使用该产品的 TASKCTL 商业版,其中免费版为了迎合中小企业以及个人项目级学习的需要横向扩展的一款轻量级调度工具;

如何转型自学ETL

有编程基础的学生&在职人员

熟悉sql语言;会简单脚本(shell)编程,会使用一种ETL数据抽取工具(kettle);会使用一种ETL作业自动化排程工具(TASKCTL);熟练使用增删改查、会添加主键索引,熟练使用时间格式转换,会行转列列转行,会update数据更新,会写sql存储过程。

安装数据库工具

常用的关系型数据库语言都要会,包括:mysql,sqlserver,oracle,db2数据库。所以学习sql需要第一步要安装数据库,及数据库管理工具(关于数据库管理工具这里建议使用navicat)

mysql安装包:Mysql8.0安装教程

安装包: https://pan.baidu.com/s/1Vwlsc7BF3MJd3SYsyLeKhw (提取码:886p)

oracle安装包: https://pan.baidu.com/s/12oDFAmqFH--6VXmo1dQZ5g (提取码:25p6)

navicat安装包:Navicat Premium 15.0安装教程

oracle数据库在使用时需要安装jdk,jdk链接: https://pan.baidu.com/s/1-B-r7ZED09T9TLOAvk6RBQ (提取码:3ss8)

jdk安装后需要配置环境变量:JDK安装与环境变量配置

软件安装好后,就用navicat链接这3个数据库。

SQL需要学习

sql学习先了解基本的查询语言,进一步提升需要结合kettle进行学习

第一步学习sql查询语言,对数据库有大概的了解。

推荐mysql-3小时入门视频:https://www.bilibili.com/video/BV177411U7Yr/

SQL配套练习1:https://blog.csdn.net/mrbcy/article/details/68965271

SQL配套练习2:https://blog.csdn.net/flycat296/article/details/63681089

ETL数据抽取工具(kettle)及作业排程工具(TASKCTL)的使用

掌握ETL增量、全量、插入更新等抽取方式;能集成excel,数据库,web接口,hive,spark等数据源;

这里推荐大家学习  TASKCTL安装入门简单。结合Kettle也是永久免费的。

TASKCTL安装包:http://www.taskctl.com

TASKCTL学习视频:https://www.bilibili.com/video/BV1jz4y1y7nL

shell编程

能写简单的shell脚本,比如通过1个shell脚本将5张表导入到目标库中。

shell视频:https://www.bilibili.com/video/av31981602?p=15

最后

ETL工程师会发现有很多岗位,所以我们学习之后不会存在找不到工作的情况。进一步提升可以往大数据工程,数据产品经理,或者大数据产品经理发展。

转行到etl开发后,建议先用半年努力学习公司所需要的知识和技术,熟悉公司业务后、从第7个月开始学习大数据相关组件,学习半年后在投递大数据工程师相关岗位。

最后关于etl转行说下学习成本。etl开发学习成本真的很低很低,基本上自学1个月就可以开始找工作,而我们学习后跟 java开发、跟数据分析工资基本上是一样的。

与数据分析相比,市场需求更多,学历门槛更低。最后一起努力吧。


http://www.ppmy.cn/devtools/138177.html

相关文章

浅谈telnet和ping

telnet 和 ping 是网络诊断工具,用于测试网络连接性和故障排查,但它们有不同的用途和功能。以下是它们的主要区别: 1. ping 功能描述 用途:ping 命令用于测试主机与目标地址(IP或域名)之间的连通性。工作…

python代码示例(读取excel文件,自动播放音频)

目录 python 操作excel 表结构 安装第三方库 代码 自动播放音频 介绍 安装第三方库 代码 python 操作excel 表结构 求出100班同学的平均分 安装第三方库 因为这里的表结构是.xlsx文件,需要使用openpyxl库 如果是.xls格式文件,需要使用xlrd库 pip install openpyxl /…

DNS查询工具

DNS查询工具是用于查询和获取域名相关信息的工具。通过这些工具,您可以获取到诸如IP地址、邮件服务器以及域名服务器等信息,这对于排查问题、设置域名配置以及确保网站正常运行都非常重要。 以下是五款常用的DNS记录查询工具: MxToolbox MxTo…

OKR,SMART目标管理

OKR(Objectives and Key Results,即目标与关键结果法)是一种目标管理方法,它包括目标(Objective)和关键结果(Key Results)两个部分。具体来说: 目标(Objectiv…

Python从0到100(七十四):计算机视觉-距离变换算法的实战应用(文末送书)

前言: 零基础学Python:Python从0到100最新最全教程。 想做这件事情很久了,这次我更新了自己所写过的所有博客,汇集成了Python从0到100,共一百节课,帮助大家一个月时间里从零基础到学习Python基础语法、Pyth…

[SWPUCTF 2021 新生赛]include

参考博客: 文件包含 [SWPUCTF 2021 新生赛]include-CSDN博客 NSSCTF | [SWPUCTF 2021 新生赛]include-CSDN博客 考点:php伪协议和文件包含 PHP伪协议详解-CSDN博客 php://filter php://filter可以获取指定文件源码。当它与包含函数结合时,php://filter流会被当…

《String类》

目录 一、定义与概述 二、创建字符串对象 2.1 直接赋值 2.2 使用构造函数 三、字符串的不可变性 四、常用方法 4.1 String对象的比较 4.1.1 比较是否引用同一个对象 4.1.2 boolean equals(Object anObject)方法:按照字典序比较 4.1.3 int compareTo(Strin…

AD7606使用方法

AD7606是一款8通道最高16位200ksps的AD采样芯片。5V单模拟电源供电,真双极性模拟输入可以选择10 V,5 V两种量程。支持串口与并口两种读取方式。 硬件连接方式: 配置引脚 引脚功能 详细说明 OS2 OS1 OS2 过采样率配置 000 1倍过采样率 …