数据湖 Data Lake-概述

news/2024/9/23 4:29:54/

Data Lake

在这里插入图片描述

1. 数据湖的定义

数据湖是一种存储系统,用于集中存储大量的原始数据,可以按数据本来的原始格式进行存储,用户可以在需要时提取和分析这些数据。

在这里插入图片描述
A data lake is a centralized repository designed to hold vast volumes of data in its native, raw format — be it structured, semi-structured, or unstructured.

Data Lake不仅支持结构化数据(如关系数据库中的数据),还支持半结构化(如JSON、XML)和非结构化数据(如文本、图片、视频等)。
在这里插入图片描述


2. 数据湖的架构

(1)Data sources 数据源

在这里插入图片描述
In a data lake architecture, the data journey starts at the source.

  • 结构化数据:如关系数据库中的数据,通常以表格形式存储,便于处理和查询。常见的来源包括ERP系统、CRM系统等。

  • 半结构化数据:如JSON、XML等格式的数据,虽然没有严格的模式,但仍然包含一定的结构,便于解析。这类数据源通常来自于Web服务、社交媒体等。

  • 非结构化数据:如文本、图片、音频和视频文件等,这些数据没有固定格式,需要特定的技术进行处理和分析。来源包括文档管理系统、传感器数据等。

(2)Data ingestion 数据摄取

在这里插入图片描述
Data ingestion is the process of importing data into the data lake from various sources.数据摄取是将数据导入数据湖的过程。

  • 批处理:定期将数据从源系统批量导入数据湖,适用于数据变化频率较低的情况。这种方式可以在低峰时段进行,提高效率。

  • 实时摄取:通过流处理技术(如Apache Kafka)实时收集数据,适用于需要即时分析的场景,如金融交易监控或社交媒体实时分析。

  • 数据预处理:在摄取过程中,可能会应用一些轻量级的转换,但数据通常保持原始格式。


(3) Data storage and processing 数据存储和处理

在这里插入图片描述

原始数据存储区 Raw data store section

  • 数据以原始格式存放,未经过任何清理或转化。
  • 使用存储解决方案如Hadoop HDFS、Amazon S3或Azure Blob Storage。

转化区 Transformation section

  • 数据经过多种处理,提升其质量。
    • 数据清理:去除或修正不准确的记录。
    • 数据增强:增加额外信息以提升价值。
    • 规范化:统一数据格式,确保一致性。
    • 结构化:将非结构化数据转化为结构化格式。

处理数据区 Processed data section

  • 可信数据可移动到精细或一致数据区。
  • 进一步转化以适应特定业务需求,供分析师和数据科学家使用,便于分析和机器学习。

(4)分析沙箱 Analytical sandboxes

在这里插入图片描述
分析沙箱是隔离的环境,确保实验活动不会干扰主数据存储。

用于数据探索和分析,提供一个不影响主数据流的实验环境,促进假设测试和模型开发,推动数据驱动的创新和敏捷分析文化。

  • 数据摄取
    • 原始数据:保留数据的原始上下文,便于进行初步的探索性分析。
    • 处理数据:经过清洗和转换的数据,适合用于更复杂的分析和机器学习模型。
  • 数据发现
    • 分析师和数据科学家在此阶段探索数据的结构、质量和潜在价值,通常通过描述性统计和数据可视化工具进行。
  • 机器学习与预测建模
    • 在对数据有充分理解后,应用机器学习算法创建预测或分类模型,使用如TensorFlow、PyTorch或Scikit-learn等库。
  • 探索性数据分析(EDA)
    • 通过统计图形和信息表分析变量之间的关系、模式或异常,无需事先假设。

(5) 数据消费 Data Consumption

数据消费层是将所有前期努力的成果展示给最终用户的地方。
在这里插入图片描述

  • 数据展示

    • 打磨过的、可靠的数据通过商业智能工具(如Tableau或Power BI)对外展现,便于用户分析和决策。
  • 角色参与

    • 数据分析师、商业分析师和决策者在此阶段利用处理过的数据驱动业务决策,提供关键洞察。

(6) 交叉治理、安全和监控层(Crosscutting Governance, Security, and Monitoring Layer)

在这里插入图片描述
这一层贯穿整个数据流,是确保数据湖有效性和安全性的基础.

  • 治理

    • 确立并执行数据访问、质量和可用性的规则和政策,确保信息一致性和责任使用。工具如Apache Atlas和Collibra可用于实现数据治理。
  • 安全性

    • 实施安全协议防止未经授权的数据访问,确保遵守数据保护法规。可以集成如Varonis或McAfee等解决方案。
  • 监控和ELT流程

    • 负责监督数据从原始形式到可用格式的流转,使用Talend或Apache NiFi等工具来优化流程并维持性能标准。
  • 数据管理与监护

    • 由专门团队或指定的数据所有者进行,使用Alation或Waterline Data等平台追踪数据的增改删,管理元数据。

5. 数据湖与数据仓库的比较

在这里插入图片描述

  1. 数据处理
    • 数据湖:支持多种数据类型(结构化、半结构化、非结构化),存储原始数据。
    • 数据仓库:主要处理结构化数据,经过严格的清洗和处理。

在这里插入图片描述

  1. 存储

    • 数据湖:设计为低成本存储,适合处理海量数据。
    • 数据仓库:存储成本相对较高,适合经过处理的数据。
  2. 灵活性(敏捷性)

    • 数据湖:高度灵活,可随时配置和重新配置。
    • 数据仓库:较为固定,调整配置较为复杂。

在这里插入图片描述

  1. 安全性

    • 数据湖:安全机制仍在完善中,治理相对较新。
    • 数据仓库:安全性和治理措施较为成熟且规范。
  2. 用户

    • 数据湖:主要面向数据科学家和分析师,支持探索性分析。
    • 数据仓库:主要服务于业务专业人士,提供稳定的报表和分析。
  3. 模式

    • 数据湖:采用“读取时模式”(schema-on-read),在数据读取时定义结构。
    • 数据仓库:采用“写入时模式”(schema-on-write),在数据写入时定义结构。
      在这里插入图片描述

在这里插入图片描述

仅供学习使用哈~

整理不易,一键三连呀列位彦祖😂


http://www.ppmy.cn/news/1529150.html

相关文章

Kubernetes从零到精通(11-CNI网络插件)

Kubernetes网络模型 Kubernetes的网络模型(Kubernetes Networking Model)旨在提供跨所有节点、Pod和服务的统一网络连接。它的核心理念是通过统一的网络通信规则,保证集群中的所有组件能够顺畅地相互通信。Kubernetes网络模型主要有以下几个关…

网络编程问题解答

TCP/IP是哪种模型的协议 TCP/IP 是一组通信协议的集合,它基于 TCP/IP 模型。TCP/IP 模型通常被认为是一种实用的网络通信模型,与 OSI 模型相比,TCP/IP 模型更加简洁和侧重于实际应用,被广泛应用于互联网和大多数计算机网络中。 T…

React学习day07-ReactRouter-抽象路由模块、路由导航、路由导航传参、嵌套路由、默认二级路由的设置、两种路由模式

14、ReactRouter续 (2)抽象路由模块 1)新建page文件夹,存放组件 组件内容: 2)新建router文件夹,在其下创建实例 3)实例导入,使用 4)效果 (3&…

PG198-jesd204-phy阅读笔记

JESD204B接口学习资料收集 简介 介绍 JESD204 PHY IP核实现了JESD204的物理接口,简化在发送和接收核心之间共享串行收发器信息通道。此内核一般不单独使用,只能与JESD204或JESD204C内核结合使用。 特性 根据JESD204B和JESD204C草案设计   支持1至12…

动手深度学习 线性回归从零开始实现实例

🎈 作者:Linux猿 🎈 简介:CSDN博客专家🏆,华为云享专家🏆,Linux、C/C、云计算、物联网、面试、刷题、算法尽管咨询我,关注我,有问题私聊! &…

架构师:在 Spring Cloud 中实现全局异常处理的技术指南

1、简述 在分布式系统中,微服务架构是最流行的设计模式之一。Spring Cloud 提供了各种工具和库来简化微服务的开发和管理。然而,随着服务的增多,处理每个服务中的异常变得尤为复杂。因此,实现统一的全局异常处理成为了关键。本篇博客将介绍如何在 Spring Cloud 微服务架构…

微服务、云计算、分布式开发全套课程课件,来原于企培和多年大厂工作提炼

本课内容为笔者16年企业工作期间企培经验总结的 全套课件。需要自取,已分块和整体上传至资源下载中。 全部来源于笔者多年企业培训迭代整理,并做了特殊处理,所以内容无涉密和版权麻烦。 课件内容全部来源于笔者在京东、58、阿里;中…

tb的数数问题(牛客小白月赛)

思路:首先好的数一定在A数组里面,之后我们就可以判断哪些数是好数,如果一个数的所有约数都在A里面,那就是一个好数,这个问题我们可以用调和级数暴力来解决,就是当一个数x的约数个数等于其位于A数组中的约数…