背景
必备技能
一、编程语言
二、数据存储与处理
-
Hadoop:开源分布式存储和计算框架,处理海量数据集。
HDFS
MapReduce
Yarn机制
-
Spark:内存计算引擎,比Hadoop更快更通用。
-
Hive:基于Hadoop的数据仓库工具,提供 SQL 查询功能。
-
HBase:面向列的 NoSQL 数据库,适合非结构化数据存储。
-
Kettle:数据迁移工具
三、数据挖掘与机器学习
四、数据可视化
-
Tableau:商业智能和数据可视化平台,提供交互式仪表盘和图表。
-
ggplot2:基于 R 的数据可视化包,提供丰富的绘图功能。
-
Power bi:数据可视化
五、云计算
六、其他技术
-
Linux 操作系统:大数据开发常用的操作系统。
-
ZooKeeper:分布式协调服务,用于配置管理和故障恢复。
-
Kafka:分布式流处理平台,处理实时数据流。
-
Docker:容器化技术,实现应用的隔离和可移植性。
学习路线
第一阶段:大数据开发入门
在这个阶段,我们将从传统的关系型数据库开始,掌握数据迁移工具、BI数据可视化工具以及SQL,为后续学习打下坚实基础。
MySQL是IT基础课程中的重要一环,因为熟练掌握SQL不仅可以轻松应对工作,而且能够随时随地找到工作。
学习目标:
-
掌握MySQL数据库的使用
-
熟悉SQL语法
-
熟练运用Kettle数据迁移工具
-
掌握BI可视化工具的使用
-
具备一定的数据开发认知,掌握BI工程师的基本技能
第二阶段:大数据核心基础
这个阶段主要学习Linux、Hadoop、Hive等,掌握大数据的核心技术。
学习目标:
-
掌握Linux常用命令,为后续数据开发学习奠定基础
-
理解大数据核心框架Hadoop及其生态系统,包括HDFS、MapReduce和Yarn机制,能够搭建Hadoop高可用HA集群
-
掌握Hive的使用和优化
-
具备Hadoop开发和离线数据仓库开发能力
-
能够构建基本的企业级数据仓库
第三阶段:千亿级数仓技术
这个阶段的学习内容以真实项目驱动为主,着重掌握离线数仓技术。
学习目标:
-
掌握离线数仓的分层设计和建模,从需求到上线的完整项目流程
-
深度应用Presto项目,解决海量数据场景下的优化配置问题
-
学习拉链表的具体应用,以及新增数据和更新数据的抽取和分析
-
提供新零售大型商超集团的数据存储分析和服务监控方案
-
使用Git对代码进行管理
第四阶段:PB内存计算
现在,Spark官方已将Python列为首选语言,并在3.2版本中强调了内置Pandas。因此,建议同学们学习黑马程序员Python on Spark的内容,顺应社区和招聘需求的趋势。
Python基础编程
学习目标:
-
配置Python开发环境
-
使用运算符、表达式、流程控制语句、数组等
-
熟悉字符串基本操作
-
初步掌握面向对象编程思维
-
熟悉异常处理流程
Python进阶
学习目标:
-
掌握面向对象编程
-
理解Python高级语法特性
-
实现多任务编程
-
理解多进程多线程原理
-
掌握网络编程技术和通讯协议原理
-
使用日志进行开发
-
能够使用Python处理数据
Spark 3.2 相关内容
学习目标:
-
掌握Spark的RDD、DAG、CheckPoint等设计思想
-
使用SparkSQL进行结构化数据处理,实现Spark On Hive
-
掌握Pandas数据处理分析,以及Pandas on Spark
-
实现Structured Streaming,完成多数据源的实时数据处理
-
具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发需求,提供就业核心竞争力。
完成以上学习后,你将能够运用大数据技术架构解决工业互联网制造行业的数据存储、分析、可视化和个性化推荐等问题,基于SparkSQL进行数据分析。
这个路线也很好:2021最全大数据学习路线(建议收藏)_大数据_小林玩大数据-GitCode 开源社区
换了新工作,买了PS5,DIY台机,又要学新东西了~