大数据周会-本周学习内容总结015

news/2024/11/16 14:25:59/

开会时间:2023.05.28 15:30 线下会议

目录

01【fhzny项目】

02【Spark】

03【调研-数仓构建】

3.1【数仓构建,流程图、架构图、使用场景】

场景选择

组件设计

构建流程

04【专利】

05【导师点评】


01【fhzny项目】

  1. GitLab
  2. MyBatis-Plus
  3. Springboot,黑马瑞吉外卖项目视频
  4. 算法模块和镜像模块代码
  5. docker

02【Spark】

sparkSql

03【调研-数仓构建】

分享“数仓构建”,流程图、架构图、使用场景,五分钟。

数仓构建(场景实时、离线、组件、流程)(第二周)【元数据管理、主数据】

3.1【数仓构建,流程图、架构图、使用场景】

数仓(Data Warehouse)是一个用于集成、管理和分析组织内部和外部数据的存储系统。数仓构建的过程涉及多个方面,包括场景选择(实时和离线)、组件设计和构建流程。下面是一个常见的数仓构建的概述。

场景选择

  1. 实时场景(Real-time):适用于需要快速获取最新数据并进行实时分析和决策的情况。这种场景通常涉及数据流处理和流式计算,要求低延迟和高吞吐量。
  2. 离线场景(Offline):适用于对历史数据进行批处理分析和决策支持的情况。这种场景通常使用批处理作业和离线计算,能够处理大规模的数据集。

组件设计

  1. 数据抽取(Extraction):从各个数据源(例如数据库、日志文件、API)中提取数据,并进行必要的清洗和转换,以满足数据仓库的要求。
  2. 数据存储(Storage):选择合适的存储技术和架构,例如关系型数据库、列式数据库或者分布式文件系统,用于存储数据仓库中的数据。
  3. 数据转换和集成(Transformation and Integration):对抽取的数据进行转换和整合,以便进行分析。这包括数据清洗、格式转换、字段映射等操作。
  4. 数据加载(Loading):将转换和整合后的数据加载到数据仓库中,保证数据的完整性和一致性。可以使用批量加载或者增量加载的方式。
  5. 数据建模(Modeling):设计和创建数据仓库的逻辑模型,包括维度模型和事实模型。这有助于提供用户友好的数据访问和分析方式。

构建流程

  1. 需求分析:明确业务需求和数据分析目标,确定需要收集和分析的数据类型和来源。
  2. 数据源识别和接入:确定需要接入的数据源,并制定相应的数据接入策略和技术方案。
  3. 数据抽取和清洗:实施数据抽取和清洗的过程,确保数据的准确性和一致性。
  4. 数据转换和集成:将清洗后的数据进行转换和整合,形成统一的数据模型。
  5. 数据存储和加载:选择合适的存储技术和加载方式,将整合后的数据加载到数据仓库中。
  6. 数据建模和优化:设计和创建数据仓库的逻辑模型,对数据进行建模和优化,以满足用户的查询和分析需求。
  7. 数据访问和分析:提供用户友好的数据

04【专利】

做一个工具实现mysql与es数据的完全一致。

linux,三个节点的es集群。

在mysql中编写包含json类型字段的数据表,将mysql中的数据插入到es中后,mysql中的json数据插入es后效果如下:

05【导师点评】

模型创新点、模型的改造与创新、一个新的应用场景。

  1. 算法创新点
  2. 场景创新点

mysql->es

canal记录数据的变化,加入触发器,一旦表变化,写到另外一个表。

canal更改配置文件,很多企业不让更改配置文件。

一种算法型的东西,快速地查找数据条数是否一样。

es—>es

flink-cdc,更改binLog,企业不让改。

es到es的数据备份,快速定位-二分查找,数量核对,

集群数据备份

高考大数据的数据备份与迁移及数据变化。

系统、分析模型、xxx。


http://www.ppmy.cn/news/98813.html

相关文章

秒懂数据湖、数仓关系

数据湖,可以保存任何格式的原始数据,包括类似sql的结构化数据、json/csv/xml/html等半结构化数据、pdf/xlsx/音视频二进制数据等非结构化数据 数据仓库,提供OLAP能力,需要提前定义Schema 参考: 《云原生数据中台&am…

shader 混合模式

在所有着色器执行完毕,所有纹理都被应用,所有像素准备被呈现到屏幕之后,使用Blend命令来操作这些像素进行混合。 3.2 blend的语法 BlendOff:关闭blend混合(默认值) BlendSrcFactor DstFactor :配置并启动混…

几种常用的正则表达式

1、身份证号正则表达式 身份证号是一串18位数字和字母的组合,其中最后一位可能为数字或者字母 X。以下是可以用于匹配身份证号的正则表达式: /^[1-9]\d{5}(19|20)\d{2}((0[1-9])|(1[0-2]))(([0-2][1-9])|10|20|30|31)\d{3}[Xx\d]$/上述正则表达式中包含…

【喜闻乐见,包教包会】二分图最大匹配:匈牙利算法(洛谷P3386)

🎭不要管上面那玩意。。。 引入 现在,你,是一位酒店的经理。 西装笔挺,清瘦智慧。 金丝眼镜,黑色钢笔。 大理石的地板,黑晶石的办公桌,晶莹的落地玻璃。 而现在,有几个雍容华贵的…

哈希应用: 位图 + 布隆过滤器

文章目录 哈希应用: 位图 布隆过滤器1. 位图1.1 提出问题1.2 位图概念1.3 位图实现1.4 位图应用1.4.1 变形题1代码 1.4.2 变形题21.4.3 找文件交集思路1思路2 1.4.4 总结 1.5 位图优缺点 2. 哈希切割3. 布隆过滤器3.1 提出问题3.2 布隆过滤器概念3.3 布隆过滤器的各个接口3.3.…

路径规划算法:基于帝国主义竞争优化的路径规划算法- 附代码

路径规划算法:基于帝国主义竞争优化的路径规划算法- 附代码 文章目录 路径规划算法:基于帝国主义竞争优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用…

[k8s]Kubernetes简介

文章目录 Kubernetes介绍术语Label StatefulSet 存储类VolumePersistent Volume IP地址Node IPPod IPService Cluster IPExternal IP PodPod定义Pod生命周期与重启策略NodeSelector(定向调度)NodeAffinity(亲和性调度)PodAffinity…

抽奖中的分布式锁应用

开发抽奖时遇到的分布式锁问题,特此记录一下几种实现方案 背景 开发中遇到个抽奖需求,会根据当前奖池内道具数量随机道具并发送给用户。这里面涉及到超发的问题,需要使用到分布式锁,特此记录一下常用的几种方案。 “超发”&#…