大家好,我是明哥!
1 会议介绍 - Cloudera Sessions China 2021
Cloudera 官方于 2021/11/18 进行了一场全天的技术分享会 “Cloudera Sessions China 2021”,并同步进行了线上直播。
在本次全天的 Cloudera Sessions China 2021 活动中,Cloudera 以用户落地案例为主,为新老用户带来最新技术趋势的讨论和 CDP 典型场景和案例分享。其中包括混合云和私有云上数据平台的技术路线,实时数仓的架构建设,并有多位金融、制造业、零售业用户大咖以及合作伙伴介绍其最佳技术实践。
笔者有幸参加了全程线上直播,也从官方获取了大部分会议资料,在此回顾下会议亮点,并提供资料下载链接给大家。
2 会议议程回程
整个会议议程如下:
Cloudera 亚太区总裁致开幕辞
主题演讲:Hybrid Cloud – The Power of “AND”
数字化转型中的大数据趋势和技术方向
Dell EMC PowerScale 助力 CDP 开启大数据元宇宙
浦发银行最佳实践分享
CDP私有云版本的最新进展与演示
实时场景、实时数仓建设和演进
用户分享 - 上海银行数据湖建设实践
基于GPU的Spark应用加速
用户分享 - 申万宏源基于混搭架构的大数据平台最佳实践
用户分享 - 信也科技大数据与AI赋能新金融
用户分享 – 永辉超市基于CDP的数据中台建设
CDP 迁移实例详解
Cloudera 金牌合作伙伴威士顿落地案例分享
IT大咖说官网提供了会议的直播回放,链接如下:
https://www.itdks.com/Home/Act/apply?id=5810&mUid=10267
3 会议精彩亮点回顾:主题演讲重点推介 CDP 混合云
Cloudera 在会议上重点推介了他们的 CDP 混合云。
4 会议精彩亮点回顾:数字化转型中的大数据趋势和技术方向
Cloudera 在会议上回顾了 HADOOP 的历史和现状,分析了当下数据类型和工作负载的变迁,由此引出了数字化转型中的大数据趋势和技术方向的预测。
这些分析和预测,刚好对应了笔者原来一篇博文里讲到的以下几点大数据发展趋势:
从技术视角看大数据行业的发展趋势
大数据和云计算进一步深度融合,大数据拥抱云计算走向云原生化
大数据更加青睐存储计算分离的架构
大数据更加青睐对象存储
大数据和机器学习/人工智能日益融合
大数据日益重视数据安全
大数据日益重视数据治理
5 会议精彩亮点回顾:CDP 混合云解决的用户痛点
CDP 混合云,解决了用户以下痛点:
注:PPT 的标题中陈述的是 CDP 私有云,这其实并不冲突,因为在 CDP 私有云的 CDP private cloud base 的基础上,按需灵活扩展增加了若干个计算集群 ECS 或 OCP 后,就是 CDP 混合云了。在下一章节 “CDP 混合云的架构”中,有进一步的阐述。
6 会议精彩亮点回顾:CDP 混合云的架构介绍与展示
CDP Hybrid Cloud 顺应了企业数字化转型并最终使用混合云的大趋势,以统一的体验整合了公有云和私有云的资源,具有以下技术特点:
存储计算分离
计算集群快速搭建和销毁
计算集群弹性扩展和收缩
使用Ozone替代HDFS
集中式用户权限管理
集中式元数据管理
通过CML整合支持机器学习和人工智能
CDP 混合云的架构如下,这里有几个要点解释下:
用户通过熟悉的 Cloudera Manager,使用熟悉的 parcel包,来安装和管理 CDP BASE CLUSETER, 也就是 CDP private cloud base, 就像原来安装和管理 CDH 一样;
用户通过熟悉的 Cloudera Manager,在需要的时候,使用 docker 镜像,在公有云上或私有云上,安装和管理一个或多个 ECS 或 OCP; ( ECS: Amazon Elastic Container Service; OCP: Red Hat OpenShift Container Platform, 两者都是基于 K8S/DOCKER的封装);
CDP BASE CLUSETER,主要当做存储集群来使用,当不使用其计算能力时,甚至可以不安装 impala/hs2/spark等计算引擎;
ECS 或 OCP,主要当做计算集群来使用,可以不安装也可以安装多个,当不使用其存储能力时,可以不安装 hdfs/ozone 等存储引擎;
ECS 或 OCP,对应不同的使用场景,可以安装多个集群,比如对应数仓场景的 CDW(cloudera datawarehouse, 其底层主要是hs2,impala,hue),对应机器学习的CML (cloudera machile learning,其底层主要是 python/r/scala 的jupiter notebook),对应数据工程的 CDE(cloudera data engineering,其底层主要是 spark,airflow)
当然在复杂的场景下,CDP BASE CLUSETER 和 ECS/OCP,也可以是多对多的关系:
7 会议精彩亮点回顾:实时场景、实时数仓建设和演进
在实时场景或实时数仓场景,Cloudera 采用的是主流的 LAMBDA 架构,主要整合了以下组件:
导入层:NIFI/KAFKA CONNECT + sqoop
计算层:SPARK STREAMING/FLINK/KAFKA STREAM + spark/hive/impala
存储层:KAFKA/KUDU/HBASE/HIVE/S3
8 会议精彩亮点回顾:基于GPU的Spark应用加速
9 会议精彩亮点回顾:CDP 迁移实例详解
关于 CDP 迁移,笔者原来有关相关博文进行详细介绍,大家可以查阅;
在会上留意到的一点是,已经有不少国内客户已经迁移完毕或正在迁移中了;
迁移完毕后,数据一致性校验的方法需要注意;
2021 最新 Cloudera 大数据平台 CDP 升级指南白皮书完整版开放下载!(中文版)
一文看懂Cloudera对CDH/HDP/CDP的产品支持策略
为了方便读者获取,笔者已经将上述资料上传到了百度云盘,小伙伴们可以通过如下方式获取:
关注下方公众号"明哥的IT随笔",在后台回复关键词「CDP」获取下载链接;
▲点击卡片进行关注▲
▲回复「CDP」,获取PDF▲