理解dbt artifacts及其实际应用

server/2024/10/25 11:15:27/

dbt是数据分析领域的一种变革性工具,它使数据专业人员能够对仓库中的数据进行转换和建模。它的强大功能之一是生成dbt artifacts:dbt运行的结构化输出,提供对dbt项目及其操作的深入了解。

dbt 构件介绍

dbt构件是每次dbt运行时生成的JSON文件。它们包括:

  • semantic_manifest.json:包含为每个模型编译的SQL代码。
  • manifest.json:提供dbt项目上次运行的全面结果清单视图。
  • catalog.json:提供有关数据库模式的详细信息,包括列数据类型和描述。
  • run_results.json:包含上次dbt运行的结果,包括成功或失败状态。
  • sources.json:项目中使用的source数据表的详细信息。

这些构件对于文档、查看dbt项目状态以及可视化source的新鲜度都是必不可少的。

生成并访问构件

每次调用dbt时,它都会生成构件。例如,当你运行:

dbt run

DBT将在DBT项目的target/目录中生成构件。你可以直接访问这些JSON文件,并利用dbt的内置文档站点等工具可视化其内容。

dbt artifacts 包实际应用

brooklyn-data提供的dbt_artifacts是非常强大的工具,可以对dbt项目及其运行的元数据进行建模。目前该包支持下面几种数仓:

  • Databricks ✅
  • Spark ✅
  • Snowflake ✅
  • Google BigQuery ✅
  • Postgres ✅
  • SQL Server ✅

生成模型包括:

  • dim_dbt__current_models

  • dim_dbt__exposures

  • dim_dbt__models

  • dim_dbt__seeds

  • dim_dbt__snapshots

  • dim_dbt__sources

  • dim_dbt__tests

  • fct_dbt__invocations

  • fct_dbt__model_executions

  • fct_dbt__seed_executions

  • fct_dbt__snapshot_executions

  • fct_dbt__test_executions

  • 安装依赖

packages:- package: brooklyn-data/dbt_artifactsversion: 2.7.0

执行 dbt deps命令安装依赖。

  • 配置

dbt_project.yml中指定数据上传位置:

models:dbt_artifacts:+database: your_destination_database+schema: your_destination_schema

我们还可以分类设置:

models:...dbt_artifacts:+database: your_destination_database # optional, default is your target database+schema: your_destination_schema # optional, default is your target schemastaging:+database: your_destination_database # optional, default is your target database+schema: your_destination_schema # optional, default is your target schemasources:+database: your_sources_database # optional, default is your target database+schema: your sources_database # optional, default is your target schema
  • 增加run-end hook
on-run-end:- "{{ dbt_artifacts.upload_results(results) }}"

建议增加条件,保证仅在生产环境启用:

on-run-end:- "{% if target.name == 'prod' %}{{ dbt_artifacts.upload_results(results) }}{% endif %}"
  • 运行

设置完成后,可以直接运行。

dbt run --select dbt_artifacts

总结

DBT 构件是一项极为强大的特性,它能够让我们对 DBT 项目及运行请看有更深理解。如果我们能够有效地理解并利用这些构件,就可以对数据转换流程进行优化,从而确保数据的可靠性。期待您的真诚反馈,更多内容请阅读数据分析工程专栏。


http://www.ppmy.cn/server/134701.html

相关文章

Excel功能区变灰是什么原因造成?怎么解决?

Microsoft Excel是广泛使用的电子表格软件,但有时用户可能会遇到功能区变灰的问题,这可能导致功能无法使用,影响工作效率和用户体验。本文将深入探讨Excel功能区灰色的原因及解决方案,帮助读者快速解决这一问题。 一、Excel功能区…

计算机毕业设计 基于Python的校园个人闲置物品换购平台的设计与实现 Python毕业设计 Python毕业设计选题【附源码+安装调试】

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

STM32G4系列MCU的启动项配置

目录 概述 1 配置方法 1.1 配置类型 1.2 启动模式类别 1.3 注意点介绍 2 应用案例介绍 2.1 主内存启动模式 2.2 GPIO配置启动模式 2.3 注意点介绍 3 物理内存映射 3.1 映射内存类别 3.2 注意点介绍 概述 本文主要介绍STM32G4系列MCU的启动项配置功能,包…

使用Redisson的布隆过滤器解决缓存穿透问题

使用Redisson实现缓存穿透的布隆过滤器示例 以下是一个使用Redisson库的RBloomFilter来解决缓存穿透问题的Java代码示例。在这个示例中,我们会通过布隆过滤器预先过滤无效的请求,以减少对数据库的压力。 代码示例 首先,确保在项目中引入Re…

vscode使用make编译c的问题

问题1:makefile:2: *** missing separator. Stop vscode的配置问题,看这哥们的文章即可:https://blog.csdn.net/m0_57464986/article/details/134220676 问题2:创建makefile文件 直接创建文件名为“makefile”的文件即可&#x…

Linux 命令—— ping、telnet、curl、wget(网络连接相关命令)

文章目录 网络连接相关命令pingtelnetcurlwget 网络连接相关命令 ping ping 命令是用于测试网络连接和诊断网络问题的工具。它通过向目标主机发送 ICMP(Internet Control Message Protocol)回显请求,并等待回复,以确定目标主机是…

【1024特辑 | 机器学习-无监督学习】EM算法

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈Python机器学习 ⌋ ⌋ ⌋ 机器学习是一门人工智能的分支学科,通过算法和模型让计算机从数据中学习,进行模型训练和优化,做出预测、分类和决策支持。Python成为机器学习的首选语言,…

【C#】.NET Framework 和 .NET的联系与区别

.NET Framework 和 .NET(通常指 .NET Core 或 .NET 5/6/7) 是微软推出的两种不同的开发平台,它们虽然都基于 .NET 技术,但有一些关键区别。让我们逐一分析它们的不同点,以帮助你在选择开发环境时做出合适的决定。 1. …