侯圣文大数据体验课笔记,大数据基础，离线数仓，实时计算

侯圣文大数据体验课笔记

一、玩转大数据和互联网大厂大数据解析

大数据职位有广袤的海洋：

未来比较吃香的ABC

A:AI人工智能

B：Big Date大数据

C：云计算


	人	工	智	能
算	逛吃看买	肉眼检索	数据库查询	智能推荐
存	脑袋	海报	数据库DB	大数据BD

客户买东西的演进过程：

超市买物品，寻找商品只能靠人走看买，有哪些商品在大脑里存储
海报：寻找商品在海报上肉眼检索，物品在海报上记录
比较先进：自己家附近3公里内，有点像早期的外卖，买什么在在线购物平台上，寻找：直接搜索，数据存储在数据库中
智能推荐：基于大数据统计，发现人们买东西的时候，出现捆绑消费的习惯，把捆绑消费的东西提前放在一起，有点像现在网购，你买个手机，给你推荐同手机型号的的手机壳。寻找商品智能推荐，数据存储在大数据BD.

智能：对用户来说，体验比较好。对老板来说赚钱比较多。

阶段1：价格

阶段2：价值

阶段3：爽，价值观

分布式

分布式系统，可以类比显示生活中的牛拉物，我们不可能创造出无穷无尽的牛，来拉取比较大的东西。计算机我们不能期望制造一台无穷大的机器，要留多少个卡槽合适呢，插硬盘，显卡，这种怎么设计呢。显然不太现实。牛，我们用多个牛。不能指望一头牛变得无穷大。不能指望一个机器无穷大。

大数据分布式存储，分布式计算的演进过程。

从DB到BD

数据库（DB）技术发展的三个时代

数据库发展的三个时代，成就了三种商业形态
- 商业数据库时代：成就了商业软件行业；
- 开源数据库时代：成就了互联网
- 新（开）数据库时代：是商业和开源、SQL和NewSQL交融的时代，成就了云和数字化时代

Database	BigData
OLTP交易	OLAP分析
ACID事务 TB	CAP BASE PB
业务系统	洞察

大数据的3v特征–多块好省

多：规模大、多样性

快：高速性

好

省

腾讯的大数据演进之路

阿里的数据演进之路

Hadoop Core

存	账本	表格	云ERP
算	算盘	计算器	？

房子丢失，每份数据存三份

多副本还有一个好处就是可以分布式计算

副本是怎么放的：

首先，客户端会挑选一个离客户端近的节点，然后再选一个跟第一个节点不同的服务器下的空闲节点（发起挑选第二个节点的是第一个副本的集群），第二个副本为了效率，会找一个同一机架下的另外一个空闲节点。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DJ8ettH7-1652168221131)(C:/Users/MSI-NB/AppData/Roaming/Typora/typora-user-images/image-20220508223259757.png?lastModify=1652154537)]