10分钟了解数据质量管理-奥斯汀格里芬 Apache Griffin

10分钟了解数据质量管理-奥斯汀格里芬 Apache Griffin

news/2024/11/3 5:22:21/

在不重视数据质量的大数据发展时期，Griffin并不能引起重视，但是随着数据治理在很多企业的全面开展与落地，数据质量的问题开始引起重视。

1.Griffin简介

Griffin是一个开源的大数据数据质量解决方案，由eBay开源，它支持批处理和流模式两种数据质量检测方式，是一个基于Hadoop和Spark建立的数据质量服务平台 (DQSP)。它提供了一个全面的框架来处理不同的任务，例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证，以及跨多个数据系统的统一数据质量可视化。

Griffin于2016年12月进入Apache孵化器，Apache软件基金会2018年12月12日正式宣布Apache Griffin毕业成为Apache顶级项目。

Griffin官网地址：https://griffin.apache.org/

Github地址：https://github.com/apache/griffin

Apache Giffin目前的数据源包括HIVE, CUSTOM, AVRO, KAFKA。Mysql和其他关系型数据库的扩展根据需要进行扩展。

各部分的职责如下：

Define：主要负责定义数据质量统计的维度，比如数据质量统计的时间跨度、统计的目标（源端和目标端的数据数量是否一致，数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等）

Measure：主要负责执行统计任务，生成统计结果

Analyze：主要负责保存与展示统计结果

注册数据，把想要检测数据质量的数据源注册到griffin。

配置度量模型，可以从数据质量维度来定义模型，如：精确度、完整性、及时性、唯一性等。

配置定时任务提交spark集群，定时检查数据。

在门户界面上查看指标，分析数据质量校验结果

项目有提供Restful 服务来完成 Apache Griffin 的所有功能，例如探索数据集、创建数据质量度量、发布指标、检索指标、添加订阅等。因此，开发人员可以基于这些 Web 开发自己的用户界面服务。

Griffin 系统分为：数据收集处理层（Data Collection&Processing Layer）、后端服务层（Backend Service Layer）和用户界面（User Interface）

数据收集处理层

模型引擎（Model Engine）是核心，Griffin 是模型驱动的解决方案。基于目标数据集，可以选择不同的数据质量维度执行目标数据质量验证。

内置的程序库能 batch 和 streaming 两种类型的数据源：

对于 batch 数据，通过数据连接器从 Hadoop 平台收集数据。
对于 streaming 数据，可以连接到消息系统（kafka）做近似实时数据分析。

在拿到数据之后，模型引擎将在 spark 集群中计算数据质量。

后端服务层

服务层有三个关键组件：

核心服务：管理元数据，如：模型定义、订阅管理和用户定制等
作业调度：根据模型的定义创建并调度作业，触发模型引擎的运行并取得度量值结果，然后存储度量值，在检测到数据质量问题时发送电子邮件通知。
接口服务：提供 REST 接口服务，如：注册数据资产，创建数据质量模型，度量发布，度量检索，添加订阅等等。可以基于这些接口服务开发自己的用户界面。

用户界面

Griffin 有一个内置的可视化工具，基于 AngularJS 和 eCharts 开发的。

Griffin 代码结构，可对照上面的三层划分

griffin-doc 管理文档
measure 执行统计任务，通过 Livy 提交任务到 Spark。模型定义。
service 服务层，提供管理接口
ui 内置的展示层

http://www.ppmy.cn/news/1450494.html

相关文章

2024.4.29力扣每日一题——将矩阵按对角线排序

2024.4.29力扣每日一题——将矩阵按对角线排序

2024.4.29 题目来源我的题解方法一模拟题目来源力扣每日一题；题序：1329 我的题解方法一模拟先以第一行的每个元素作为对角线的开始，然后再以第一列的每个元素作为对角线的开始。并在遍历过程中记录（数组或者list&#xf…

阅读更多...

32.Docker认识

32.Docker认识

Docker介绍 Docker是一个快速交付应用，运行应用的技术。 1.可以将程序、依赖、运行环境一起打包为一个镜像，可以迁移到任意Linux操作系统。 2.运行时利用沙箱机制行程隔离容器，各个应用互不干扰。 3.启动、移除都可以通过一行命令完成&am…

阅读更多...

【redis】redix在Linux下的环境配置和redis的全局命令

【redis】redix在Linux下的环境配置和redis的全局命令

˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好，我是xiaoxie.希望你看完之后,有不足之处请多多谅解，让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如…

阅读更多...

Android数据恢复软件快速比较：Android数据恢复的7最佳工具

Android数据恢复软件快速比较：Android数据恢复的7最佳工具

您在 Android 设备上保留哪些类型的数据？如果您和大多数人一样，那么您可能已经列出了文档、照片、视频和音频文件。如果您使用智能手机或平板电脑的时间足够长，我们愿意打赌您拥有Android数据丢失的第一手经验。幸运的是，我们也…

阅读更多...

思科防火墙查如何查看现有ipsec隧道信息

思科防火墙查如何查看现有ipsec隧道信息

环境： 思科ASA5555 问题描述： 思科防火墙查如何看现有ipsec隧道信息解决方案： 1.进入特权模式： enable 查看isakmp信息 show crypto isakmp sa2.查看ipsec信息 show crypto ipsec sa上述命令将显示当前的ISAKMP安全关联…

阅读更多...

【分享一款不错的APP下载官网单页源码】

【分享一款不错的APP下载官网单页源码】

分享一款不错的APP下载官网单页源码效果图部分源码领取源码下期更新预报效果图部分源码 <!--自行修改使用，版权所有归孤客--!> <!DOCTYPE html> <html lang"zh-Hans"> <head> <meta http-equiv"Content-Security-Pol…

阅读更多...

java中的字符串（String）常量池理解

java中的字符串（String）常量池理解

下面创建String对象的方式一样吗？ 上述程序创建对象类似，为什么s1和s2引用对象一样，但是s3和s4不一样呢？ 在java程序中，许多基本类型的字面常量会经常用到，例如2,3.11，“hyy”等。为了提升程序…

阅读更多...

移动机器人系统与技术：自动驾驶、移动机器人、旋翼无人机

移动机器人系统与技术：自动驾驶、移动机器人、旋翼无人机

这本书全面介绍了机器人车辆的技术。它介绍了道路上自动驾驶汽车所需的概念。此外，读者可以在六足机器人的构造、编程和控制方面获得宝贵的知识。这本书还介绍了几种不同类型旋翼无人机的控制器和空气动力学。它包括各种旋翼推进飞行器在不同空气动力学环境下的模…

阅读更多...

最新文章