dbt snapshot命令及应用示例

ops/2024/11/14 4:05:17/

DBT是一种功能强大的数据转换工具,它使数据分析师和工程师能够更有效地转换仓库中的数据。dbt的一个关键特性是能够创建快照,这是跟踪数据随时间变化的一种方法。本文带你一起完成创建和使用dbt快照的过程。

理解缓慢变化维度

缓慢变化维度(scd)是数据仓库中的概念,指的是数据(通常为主数据)随时间缓慢变化方式。它们被称为“缓慢变化”,因为这些变化相对不经常发生,如客户的地址或产品的分类,但这些变化的影响对数据分析来说可能是重大的。

scd通常分为三种类型:

  • 类型1: 这种方法用新数据覆盖旧数据,因此不保留历史记录。
  • 类型2: 这种方法使用新数据添加新记录,并将旧记录保留为历史数据。这是最常见的SCD类型,也是dbt快照实现的SCD类型。
  • 类型3: 这种方法为新数据添加新列,并在原始列中保留旧数据。这种类型不太常见,只在需要查看更改进展的情况下使用。

dbt快照与scd的概念直接相关,特别是类型2 scd。dbt中的快照是一种跟踪数据随时间变化的方法,可以有效地创建每行数据的版本历史记录。创建快照时,dbt将元数据列添加到数据中,包括dbt_valid_fromdbt_valid_to,它们表示记录的特定版本有效的时间范围。

这种机制允许dbt快照实现类型2 scd。当源数据发生更改时,dbt不是覆盖现有记录(类型1)或添加新列(类型3),而是添加带有新数据的新记录(类型2)。快照表中的dbt_valid_fromdbt_valid_to列表示记录的每个版本何时有效,从而允许您跟踪一段时间内更改的完整历史。

实战案例

创建dbt 快照模型

dbt中的快照模型是一种特殊的模型,用于跟踪数据随时间的变化。要创建快照模型,需要在dbt项目的snapshots目录中创建一个新文件。这个文件应该包含一个snapshots块,并定义快照的配置。

下面是一个快照模型的例子,它跟踪用户表中的变化:

{% snapshot users_snapshot %}  {{config(      target_schema='snapshots',      strategy='timestamp',      unique_key='id',      updated_at='updated_at'    )  
}}  select * from raw.users{% endsnapshot %}

在本例中,策略被设置为timestamp,这意味着dbt将基于updated_at列跟踪更改。unique_key设置为id,这是用户表中每一行的唯一标识符。

理解快照策略

在dbt中,创建快照有两种主要策略:时间戳策略和检查策略。

  • 时间戳策略

时间戳策略用于源数据包含时间戳列的情况,该列在记录更改时进行更新。在这种策略中,只要时间戳列比上一次运行快照的时间更近,dbt就会创建一个新的快照记录。当您希望根据更改发生的时间跟踪更改时,此策略非常有用。您可以在前一段中看到时间戳策略的示例。

  • 检查策略

另一方面,当希望根据特定列的值跟踪更改时,可以使用check策略。在此策略中,只要指定列中的值与上次运行快照时不同,dbt就会创建新的快照记录。如果希望根据更改内容而不是更改时间来跟踪更改时,此策略非常有用。

下面是一个使用check策略的快照配置示例:

{% snapshot users_snapshot %}  {{    config(      target_schema='snapshots',      strategy='check',      unique_key='id',      check_cols=['status']    )  
}}  select * 
from raw.users{% endsnapshot %}

在本例中,当用户的**status** 列发生变化时,dbt将创建新的快照记录。为快照选择正确的策略取决于源数据的性质和用例的特定需求。

运行快照模型

一旦创建了快照模型,就可以使用dbt snapshot命令运行它。该命令将执行dbt项目中的所有快照模型,并在数据仓库中创建了新的快照表。

以下是运行快照模型的方法:

dbt snapshot

运行此命令后,您应该在snapshot模式(或在快照配置中指定的目标模式)下的数据仓库中看到新创建的快照表。

快照模型数据

dbt创建的快照表包含数据的完整历史记录,每行表示记录的不同版本。现状可以查询此表,以查看数据随时间的变化情况。

下面是查询示例,显示了对users表状态列的所有更改:

select id, status, dbt_valid_from, dbt_valid_to
from snapshots.users_snapshot
order by id, dbt_valid_from;

该查询将返回一个结果集,其中显示每个status值何时对每个用户有效。

高级快照技术

除了基本的快照功能之外,dbt还提供了一些高级特性,可以帮助您更有效地管理快照。例如,可以使用invalidate_hard_deletes配置选项来跟踪已从源数据中删除的记录。

以下是如何修改前节的示例快照模型来跟踪硬删除:

{% snapshot users_snapshot %}  {{    config(      target_schema='snapshots',      strategy='timestamp',      unique_key='id',      updated_at='updated_at',      invalidate_hard_deletes=True    )  
}}  select * 
from raw.users{% endsnapshot %}

通过这种配置,dbt将为从users表中删除的每条记录在快照表中创建新记录行,dbt_valid_to列设置为删除的时间戳。

最佳实践指南

在使用dbt快照时,您应该遵循以下几个最佳实践:

  • 保持简单: 避免在快照模型中添加复杂的逻辑或连接。如果需要可以在创建快照之后,在下游模型中实现这些逻辑。
  • 为快照配置独立schema: 这样更容易区分快照表和数据仓库中其他类型的表。
  • 确保unique键的唯一性: 在快照配置中指定的unique键应该唯一地标识源数据中的每条记录。

总结

DBT快照是跟踪数据随时间变化的强大工具。通过学习本教程,现在应该对如何创建和使用dbt快照有了较好的理解。期待您的真诚反馈,更多内容请阅读数据分析工程专栏。


http://www.ppmy.cn/ops/114866.html

相关文章

【LeetCode】289.生命游戏

如何原地对数组进行修改是比较困难的,递归的算法无法做到。那有什么方式能简化吗?可以设计多种数字用于记录细胞的状态,不同的数字记录了不同的时刻和状态,从而简化了题目。 1.题目 2.思想 本题题意虽然比较复杂,但是…

【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器(上)

系列文章目录 【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器(上) 【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器(下) 文章目录 系列文章目录前言一、ArkTS基本介绍1、 ArkTS组成2、组件参数和属性2.1、区…

【BetterBench博士】2024年华为杯E题:高速公路应急车道紧急启用模型 Python代码实现

题目 【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析 【BetterBench博士】2024年中国研究生数学建模竞赛 E题:高速公路应急车道紧急启用模型 问题分析 【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动…

Linux Kernel Makefiles 编译标志详解

在Linux内核开发中,Makefile文件扮演着至关重要的角色,它指导make命令如何编译和链接内核源代码。Makefile中包含了多种编译标志(flags),这些标志控制着编译、汇编和链接过程的不同方面。本文将详细介绍几种关键的编译…

1. ZYNQ 2. MPSOC 3. FPGA 4. Vitis 5. 项目

### 1. 建立Vitis SDK自带的Hello World工程 首先,我们需要在Vitis SDK中创建一个基本的Hello World工程。这是学习FPGA开发和ZYNQ MPSOC平台的重要第一步。Hello World工程的主要目的是验证开发环境的正确性以及熟悉基本的编程流程。 #### 步骤: - 打开…

系统架构设计师 大数据架构篇一

🌐大数据架构 大数据处理系统分析 🔍 大数据处理系统三大挑战 🚀 非结构化数据处理:如何处理非结构化和半结构化数据。复杂性与不确定性:大数据复杂性、不确定性特征描述的刻画方法和大数据的系统建模。异构性影响&…

Java中的事件(动作监听-ActionListener)

(一)、ActionListener接口 ActionListener接口用于处理用户界面上的动作事件,例如:按钮点击、菜单选择等。实现ActionListener接口需要重写actionPerformed(ActionEvent e)方法,该方法会在动作发生时被调用。 &#…

数据库基础知识---------------------------(3)

MYSQL的索引 用于快速找出在某个列中有一特定值的行,不使用索引,MySQL必须从第一条记录开始读完整个表,直到找出相关的行。按实现方式分为Hash索引和BTree索引 单列索引 普通索引 允许在定义索引的列中插入重复值和空值唯一索引 索引列的值必…