侯圣文大数据体验课笔记,大数据基础,离线数仓,实时计算

news/2024/11/30 10:56:13/

侯圣文大数据体验课笔记

一、玩转大数据和互联网大厂大数据解析

大数据职位有广袤的海洋:

image-20220510153509178

未来比较吃香的ABC

A:AI人工智能

B:Big Date大数据

C:云计算

逛吃看买肉眼检索数据库查询智能推荐
脑袋海报数据库DB大数据BD

image-20220510153407460

客户买东西的演进过程:
  1. 超市买物品,寻找商品只能靠人走看买,有哪些商品在大脑里存储
  2. 海报:寻找商品在海报上肉眼检索,物品在海报上记录
  3. 比较先进:自己家附近3公里内,有点像早期的外卖,买什么在在线购物平台上,寻找:直接搜索,数据存储在数据库中
  4. 智能推荐:基于大数据统计,发现人们买东西的时候,出现捆绑消费的习惯,把捆绑消费的东西提前放在一起,有点像现在网购,你买个手机,给你推荐同手机型号的的手机壳。寻找商品智能推荐,数据存储在大数据BD.

智能:对用户来说,体验比较好。对老板来说赚钱比较多。

阶段1:价格

阶段2:价值

阶段3:爽,价值观

分布式

​ 分布式系统,可以类比显示生活中的牛拉物,我们不可能创造出无穷无尽的牛,来拉取比较大的东西。计算机我们不能期望制造一台无穷大的机器,要留多少个卡槽合适呢,插硬盘,显卡,这种怎么设计呢。显然不太现实。牛,我们用多个牛。不能指望一头牛变得无穷大。不能指望一个机器无穷大。

​ 大数据分布式存储,分布式计算的演进过程。

image-20220510153301112

从DB到BD

数据库(DB)技术发展的三个时代
  • 数据库发展的三个时代,成就了三种商业形态

    • 商业数据库时代:成就了商业软件行业;

    • 开源数据库时代:成就了互联网

    • 新(开)数据库时代:是商业和开源、SQL和NewSQL交融的时代,成就了云和数字化时代

      image-20220510153246350

DatabaseBigData
OLTP交易OLAP分析
ACID事务 TBCAP BASE PB
业务系统洞察
大数据的3v特征–多块好省

image-20220510153221846

多:规模大、多样性

快:高速性

腾讯的大数据演进之路

image-20220510152843992

阿里的数据演进之路

image-20220508221742939

Hadoop Core

账本表格云ERP
算盘计算器

image-20220508221851171

房子丢失,每份数据存三份

image-20220508222128335

多副本还有一个好处就是可以分布式计算

image-20220508222554176

副本是怎么放的:

​ 首先,客户端会挑选一个离客户端近的节点,然后再选一个跟第一个节点不同的服务器下的空闲节点(发起挑选第二个节点的是第一个副本的集群),第二个副本为了效率,会找一个同一机架下的另外一个空闲节点。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DJ8ettH7-1652168221131)(C:/Users/MSI-NB/AppData/Roaming/Typora/typora-user-images/image-20220508223259757.png?lastModify=1652154537)]

MapReduce的Map阶段

计算的时候一个数据量过大及会通过map分给不同的节点。并把数据变成(the,1)二元组的格式

image-20220508223557390

MapReduce的shuffle&sort

将相同的key分成相同的组,

image-20220508223627913

MapReduce的Reduce阶段

相同的key,合并对应的value

image-20220508223657660

MapReduce 的并行执行,Mappers提速

image-20220508223830014

MapReduce—应用案例:网页访问延迟分析

image-20220508223926241

统计网页中部分访问的时长;

大数据的架构模型永远遵循I-P-O模型

image-20220508224042872

输入-计算-输出

image-20220508224439630

image-20220508230534160

技术:是一个习得的东西,自行车,一样,一旦学会终生受益。

image-20220509080305785

二、离线数仓搭建哪些你不知道的点

1、数据仓库定义及演进史

2、数据仓库及核心概念

3、数据仓库建模流程讲解

4、走进大厂数据仓库搭建案例

image-20220509080955240

数据仓库类似于:

淘宝开时尚潮流店,流程:生产工厂、物流公司、商品仓库、时尚潮流店。

数仓的流程:数据库、ETL、数据仓库、可视化看板。

image-20220509081225819

image-20220509081627700

image-20220509082146106

模型:E-R、维度

E-R:支持多对多(N:N)关系 相对容易扩展 高度结构化

维度模型:面向主题、适合多维度分析。

image-20220509082843179

image-20220509083101302

概念模型、逻辑模型、物理模型

image-20220509083238156

概念模型:可以看到整体规划小区有哪些功能区:商家、商品、买家、订单

逻辑模型:类似于图纸,显示生活中卖房子的户型图,对应中文字段信息

物理模型:煤火电是怎么走的。对应,英文库表

分层

分层:是为了在管理和使用数据时能清洗、有序、高效。

image-20220509083519616

事实表:

也叫度量,使用户评价业务的数据值型数据。是原子指标,不能再分的。

image-20220509083626565

维度:

数据观察的角度,验证指标。

image-20220509083703643

事实,我想找个女朋友是一个实时。维度,我想找个什么样的,身高,体重,年龄等

image-20220509084509247

image-20220509084742047

数据调研
需求调研

​ 数据产品经理做的。1、爆款商品的排行数据。2、双11的销售额有哪些。3财务数据:营收额,费用。4有多少商家入驻,总共有多少商品了。5平台上的用户量有多少。

数仓建模:慢就是快。

业务调研:

​ 看数据都有谁看,商家产品部,平台运营部,CEO…。

数据调研:

​ 数据是怎么产生的:1.商品购买流程。2.线上活动流程。3.客服售后流程

​ 数据长什么样?1、有哪些数据库,数据表。2、有哪些字段,字段含义,字段类型。3.数据的更新方式,更新时间。

数仓规划

image-20220509090255790

image-20220509090401705

image-20220509090419486

image-20220509090505638

分析主题
数据分层
数据事实
数据维度
第三步:模型设计

星型模型,雪花模型

image-20220509090949912

第四步:模型开发

image-20220509091042733

image-20220509091155956

image-20220509091456952

image-20220509091543101

image-20220509093051404

image-20220509093158923

三、带你走出实时数据计算的坑

实时计算:

STORM

SPARK STREAME

FLINK

实时大屏;

image-20220508200850773

image-20220508200943457

小汽车绿灯状态下,就是流式,源源不断的进去。

直饮机。直接来了过滤,没有等一等。

车流的例子也能

image-20220508201736141

image-20220508202042192

当接到电话的时候同时收到防诈骗的短息。

image-20220508202314719

车路协同

机场高速,实时技术,摄像头,实现快速扣费,极大的提升了通信效率,无感通行。提升出行体验。

2、三大实时计算框架比较。

spark streaming :

storm 快、准确不强,吞吐能力有限。Twitter 自研的

flink

image-20220508203507316

image-20220508203737033

flink:

快速灵动;

image-20220508204028795

image-20220508204039140

4大根技术

容错机制:一个一个栅栏分一段一段的。

状态管理

时间窗口

时间语义

2

image-20220508204535996

image-20220508204947473

等等我让我数清楚:

核酸检测:等等我,可能比我早捅,但是检测时间比较晚

“无界数据流”中的“有界数据集”:

数车流:不管是按照时间3秒数、还是三辆数。分段数的对象就是有界数据集

image-20220508205756815

image-20220508210231452


http://www.ppmy.cn/news/278535.html

相关文章

售前售后问题(甲润)

在这里插入代码片TOC 运费 茶吧机一般是55元以内,饮水机45元以内,偏远地区贵一些,但是运费90以上为不合理 建议换快递 都是10A 快递问题 深圳韵达 发QQ安德智联 收货地址和显示签收的地址不同 发查件群 格式: 韵达快递,43296…

水质无声净化,热水随叫随到,莱卡直饮过滤饮水机体验

冬季不仅天气冷,空气还特别干燥,在屋里坐一会儿,不知不觉就口干舌燥了,想喝杯热水解解渴,烧好一大壶水之后,很快又凉了。相信很多朋友在冬天都有喝不到热水的烦恼,好在这两年市面上出现了即热式饮水机,解决了不少问题,最近我发现了一款莱卡直饮过滤饮水机,体积不大、…

自己装修总结/商转公

商转公写在前面,装修的写在后面,都只代表我自己的情况,仅供参考。 ~~~~~~~~~~~~~~~~~~~~~~~商贷转公积金~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 我们是2019年在长沙买的房,首付30w,向建行贷款60w,利率5.485%&…

java中的static关键字

1.static关键字【重点】 static中文意思:静态的 static是和对象无关的。 1.1生活的角度来理解静态的资源 公共的资源的都属于静态的东西 对象可以使用静态的资源,但是和对象无关 厕所里面直饮机 就是静态资源 对象.name 1.2Java中的静态 1.修饰成员变量 …

基于ESP32 D0WDQ6芯片+MicroPython的溢水报警系统

目录 背景 基本构思 设计原则 硬件介绍 ESP32D0WDQ6 土壤湿度传感器 JQ8400-10P MP3 module 其他 硬件连接 MicroPython代码 成品以及效果 背景 办公室里的直饮机的水流很小,装满一瓶水需要在旁等待许久。 尤其是往热水壶接水时经常出现由于等待时间长-&…

如何去掉JSON数据key的双引号

背景:今天使用到树形菜单,ztree插件,遇到两个问题: 问题一: 给ztree传递的参数并不是真正的JSON数据,其key是没有双引号的。所以需要把json数据的key去掉双引号,采用的方式是在后端处理的。 Jav…

A.O.史密斯净水热饮机 -- 直接获得多温度净水,热饮不再等待

南京2018年7月30日电 /美通社/ -- 近年来,水资源污染日益严峻,重金属污染已经成为越来越多消费者关注的问题,为了家人的饮水安全,很多家庭都选择安装一台反渗透净水机。在日常使用净水机的时候,是否出现了以下的情况&a…

尚筹网-前台-会员系统(springboot,springcloud 实战)

总目标: 环境搭建会员登录注册发起众筹项目展示众筹项目支持众筹项目订单支付 1. 会员系统架构 1.1 架构图 1.2 需要创建的工程 父工程、聚合工程:shangcouwang01-member-parent(唯一的pom工程)注册中心:shangcouw…