读数据工程之道:设计和构建健壮的数据系统21数据获取

news/2024/10/27 7:59:13/

1. 数据获取

1.1. 数据获取是将数据从一个地方移动到另一个地方的过程

  • 1.1.1. 数据获取与系统内部获取是不同的

1.2. 数据获取是数据工程生命周期中将数据从源系统移入存储的一个中间步骤

1.3. 数据集成则是将来自不同来源系统的数据组合到一个新的数据集

1.4. 数据获取的核心是数据管道,将管道连接到其他管道,确保数据持续安全地流向目的地

1.5. 在你作为数据工程师>数据工程师的工作中,数据获取可能会消耗你很大一部分的时间和精力

2. 数据管道

2.1. 数据管道从源系统开始,但获取是数据工程师>数据工程师开始投入精力设计数据管道的最初阶段

2.2. 数据管道是在数据工程生命周期的各个阶段用来移动数据的架构、系统和过程的组合

  • 2.2.1. 一个传统的ETL系统,数据从本地事务处理系统中获取,通过单一的处理器,然后写入数据仓库中

  • 2.2.2. 一个基于云的数据管道,从100个数据源提取数据,将其合并到20个宽表,训练5个机器学习模型,然后再将它们部署到生产环境中,并持续监控性能

2.3. 数据管道应该足够灵活,以适应数据工程生命周期中的需求

3. 上游利益相关者

3.1. 负责生成数据的人(通常是软件工程师)与为分析和数据科学准备这些数据的数据工程师>数据工程师之间往往存在着明显的脱节

3.2. 数据工程师>数据工程师可以通过邀请软件工程师成为数据项目成果的利益相关者来提高数据质量

3.3. 绝大多数的软件工程师都很清楚分析和数据科学的价值,但不一定有动机直接为数据工程工作做出贡献

3.4. 简单地改善沟通是关键的第一步

3.5. 数据工程师>数据工程师还可以向团队成员、管理层,特别是产品经理强调软件工程师的贡献

3.6. 将稀缺的软件工程师分配到与数据工程师>数据工程师的合作中来

4. 下游利益相关者

4.1. 数据工程师>数据工程师专注于数据从业者和技术领导者,如数据科学家、分析师和首席技术官

4.2. 将数据工程视为一项业务,并认识到你的客户是谁

4.3. 获取过程的自动化具有重要的价值,特别对于像市场营销这样控制大量预算并处于业务收入核心的部门

4.4. 数据工程师>数据工程师和其他数据从业者还是应该为高管提供关于数据驱动业务的最佳结构指导

4.5. 要强调降低数据生产者和数据工程师>数据工程师之间的障碍的价值,同时支持高管们打破孤岛,建立激励机制,形成更统一的数据驱动文化

4.6. 坦诚地与利益相关者尽早并且频繁沟通,将很大程度上为你的数据获取增加价值

5. 底层设计

5.1. 安全

  • 5.1.1. 移动数据会带来安全风险,因为你必须在不同地点之间传输数据

  • 5.1.2. 最不希望的就是在移动过程中破坏数据

  • 5.1.3. 在VPC内移动的数据应该使用安全的终端,并且永远不要离开VPC的范围

  • 5.1.4. 如果你需要在云和本地网络之间发送数据,请使用虚拟专用网络或专用私人连接

  • 5.1.5. 安全是一项好的投资。如果你的数据需要经过公共互联网,请确保传输是加密的

  • 5.1.6. 在网络上对数据进行加密始终是一个好的实践

5.2. 数据管理

  • 5.2.1. 数据管理自然地从数据获取开始

  • 5.2.2. 这是数据血缘和数据目录的起点

  • 5.2.3. 数据工程师>数据工程师需要考虑模式变化、道德、隐私和合规

  • 5.2.4. 将不可避免地遇到敏感数据

    • 5.2.4.1. 在确实有必要跟踪敏感的个人信息的时候,通常的做法是在模型训练和分析中应用令牌化对敏感信息做匿名处理

    • 5.2.4.2. 数据工程师>数据工程师在某些情况下会不可避免地与高度敏感的数据打交道

    • 5.2.4.3. 工程师在处理敏感数据时必须按照最高的道德标准行事

    • 5.2.4.4. 在涉及敏感数据的情况下,尽可能实现无接触生产环境

      5.2.4.4.1. 意味着工程师可以在开发和预生产环境中用模拟或脱敏的数据来开发和测试代码,然后用自动化的方式将代码部署到生产中

    • 5.2.4.5. 工程师应该努力实现无接触生产环境的目标,但在开发和预生产环境中难免会出现问题无法完全解决的情况

      5.2.4.5.1. 对生产环境中敏感数据的访问至少需要两个人批准

      5.2.4.5.2. 种访问应严格限制在特定问题上,并附有截止日期

    • 5.2.4.6. 对人为问题的技术解决方案要保持警惕

    • 5.2.4.7. 加密和令牌化往往被当作处理隐私数据的灵丹妙药

      5.2.4.7.1. 单字段加密存在合规的用例,但要防止形式主义的加密

      5.2.4.7.2. 在令牌化方面,使用常识并评估数据访问情况

5.3. DataOps

  • 5.3.1. 可靠的数据管道是数据工程生命周期的基石

  • 5.3.2. 确保你的数据管道得到合适的监控是实现可靠性和有效的故障响应的关键步骤

  • 5.3.3. 如果说在数据工程的生命周期中,有一个阶段的监控是至关重要的,那就是获取阶段

  • 5.3.4. 监控是关键,了解你所依赖的上游系统的行为以及它们如何生成数据也是关键

    • 5.3.4.1. 正常运行时间、延迟和处理的数据量是很好的开始

    • 5.3.4.2. 你应该知道你关注的每个时间间隔产生的事件数量(事件数/分钟,事件数/秒,等等)以及每个事件的平均大小

    • 5.3.4.3. 你的数据管道应该同时满足所获取的事件的频率和大小的要求

  • 5.3.5. 并不存在对于第三方故障的通用的响应计划

    • 5.3.5.1. 如果你可以做故障转移,最好将服务放在另一个区域或地域
  • 5.3.6. 数据质量测试

    • 5.3.6.1. 数据称为无声的杀手

    • 5.3.6.2. 如果优质且有效的数据是当今企业成功的基础,那么使用糟糕的数据来做决策比没有数据要更糟糕

    • 5.3.6.3. 糟糕的数据给企业带来了难以计数的损失,这有时被称为数据灾难

    • 5.3.6.4. 数据是有熵力的,它经常在没有警告的情况下以意想不到的方式变化

    • 5.3.6.5. DevOps和DataOps之间的内在区别之一是软件回归只有在部署变更时才会遇到,而数据经常因为我们无法控制的事件而出现回归现象

      5.3.6.5.1. DevOps工程师通常能够使用二元条件来检测问题

      5.3.6.5.2. 在数据空间,回归往往表现为微妙的统计异常

      5.3.6.5.2.1. 一些数据故障是立即可见的

      5.3.6.5.2.2. 真正危险的数据故障是悄无声息的,可能来自企业内部或外部

      5.3.6.5.2.3. 应用程序开发人员可能会改变数据库字段的含义,而不与数据团队进行充分的沟通

      5.3.6.5.2.4. 统计数据测试是一个新领域,但在未来五年内可能会急剧增长

    • 5.3.6.6. 只要有可能,就与软件工程师一同从源头上解决数据质量问题

      5.3.6.6.1. 许多数据质量问题可以通过遵从软件工程中的基本最佳实践来处理,如记录数据变化的历史,检查(空值等)和异常处理(尝试、捕获等)

5.4. 编排

  • 5.4.1. 所谓编排工具,指的是一个能够编排完整任务图而不是单个任务的系统

  • 5.4.2. 编排系统可以在适当的计划时间启动每个数据获取任务

    • 5.4.2.1. 当获取任务完成时,下游的处理和转换步骤会开始

    • 5.4.2.2. 再往下走,处理步骤会触发更多的处理步骤

  • 5.4.3. 获取通常位于大且复杂的数据流图的起始位置

  • 5.4.4. 由于获取是数据工程生命周期的第一阶段,获取的数据将流入更多的处理过程,来自许多数据源的数据将以复杂的方式组合在一起

  • 5.4.5. 处于数据成熟度早期阶段的组织可能会选择将获取过程部署为简单的cron任务

  • 5.4.6. 随着数据管道复杂性的增加,编排工具是必要的

5.5. 软件工程

  • 5.5.1. 数据工程生命周期的数据获取阶段是工程密集型的

  • 5.5.2. 避免编写对源系统或目标系统有严格依赖的单体系统


http://www.ppmy.cn/news/1542309.html

相关文章

springboot配置文件占位符${},赋值方式

一:配置文件内部赋值 server:port: 48080 url: http://127.0.0.1:${server.port}这时url中的${server.port}48080 二:系统环境变量 有时我们在看到配置文件怎么没有找到占位符的变量的设置了,那就有可能调用了,系统的环境变量 …

漫画 | Java对Python的渗透能成功吗?

后记:Java有自己的领地,Python有自己的江山,现在的编程世界,势力范围已经被瓜分完毕,任何一方想要在存量市场中继续增加份额,都需要付出非常大的努力,还要捎带上一些运气。比如JavaScript&#…

【后端】会话管理-cookiesession

一、会话管理定义 会话管理(Session Management)是 Web 开发中的一项关键技术,用于在用户与服务器之间的多次交互中维持状态。 会话:建立连接,相互交流。 eg:客户端和服务端交流 客户端发起请求&#xf…

[每周一更]-(第120期):Lua入门学习指南及示例

接触Lua,还得追溯到Redis使用场景里,针对原子性的操作,需要借助lua脚本来实现。 在 Redis中,执行 Lua脚本的原子性是指:整个 Lua脚本在执行期间,不会被其他客户端的命令打断。 1、什么是Lua? …

大语言模型微调方法详解【全量微调、PEFT、LoRA、Adapter】

NLP-大语言模型学习系列目录 一、注意力机制基础——RNN,Seq2Seq等基础知识 二、注意力机制【Self-Attention,自注意力模型】 三、Transformer图文详解【Attention is all you need】 四、大语言模型的Scaling Law【Power Low】 五、大语言模型微调 文章目录 NLP-大语言模型学…

Spring Cloud 微服务全面概述

Spring Cloud 微服务全面概述 1. 微服务架构概述 微服务架构(Microservices Architecture)是将应用程序拆分为多个小的、独立的服务,每个服务围绕特定的业务功能构建。这种架构使得应用程序能够更灵活地扩展和维护。 1.1 微服务的特点 模…

PMP–一、二、三模–分类–11.风险管理–技巧–风险登记册

文章目录 技巧一模11.风险管理--7.监督风险--风险登记册--记录已识别单个项目风险、风险责任人、商定的风险应对策略,以及具体的应对措施。11.风险管理--关键在于区分风险和问题--风险代表对将来问题的预判,问题代表对过去问题事件的跟踪;两者…

AI大模型开发架构设计(16)——ChatGPT Code Interpreter应用场景和技术原理动手实践

文章目录 ChatGPT Code Interpreter应用场景和技术原理动手实践1 Code Interpreter 应用场景解析Code Interpreter 是什么?Code Interpreter 如何使用?Code Interpreter 应用场景为什么需要Code Interpreter 2 Code Interpreter 技术架构深度剖析Code Interpreter 技术架构LL…