货拉拉0-1数据指标体系构建与应用

embedded/2024/10/25 16:32:18/

目录

一、背景

二、指标体系搭建

2.1 指标设计

2.2 指标体系搭建

2.3 指标维度拆解

三、指标标准化建设

四、指标元数据管理

五、指标应用&未来规划


   原文大佬介绍的这篇指标体系构建有借鉴意义,现摘抄下来用作沉淀学习。如有侵权请告知~

一、背景

    指标体系是指一系列维度、有组织以及结构的指标集合。构建指标体系是为了公司业务目标落地做辅助决策,以及监控业务运行的稳定性情况等。 具体从业务,技术及产品这三个视角来阐述指标体系构建中的痛点:

1. 业务视角:

  • 可信任性:业务口径不一致,导致指标数据不一致,影响到业务部门对数据的信任感;
  • 可理解性:业务术语不一致,导致不同人对业务的理解不一致,从而导致数据存在略微的差异,增加沟通成本;
  • 可衡量性:指标与业务的真实相关程度,能否准确衡量业务的变化,指导目标的达成;
  • 可追溯性:随着业务的发展,业务以及数据口径的变更,历史较难回溯;

2. 技术视角

  • 数据稳定性:数据的产出是否稳定及时;
  • 数据质量:数据是否准确,完整,一致。

3. 产品视角

  • 可访问性:数据是否易于访问;
  • 合规性:使用是否安全合规,如何防止数据泄露的风险等。

二、指标体系搭建

2.1 指标设计

针对上述痛点,我们从以下三个方面去解决:

  • 解决业务痛点:在指标设计时首先选取核心业务成体系化的来搭建指标体系,并将整个建设流程标准化;
  • 解决技术痛点:将数据研发流程规范化,把握好数据模型的业务扩展性及ETL的性能问题,并做好数据链路及质量监控;
  • 解决产品痛点:将建设的元数据产品化,数据的使用做到服务化。

    对于建设范围:先聚焦核心业务,快速将核心业务的指标体系搭建出来并落地应用,然后再迭代优化切忌刻意地追求指标的业务覆盖面,避免导致需求范围过大,实现周期太长,导致指标的应用落地严重延期。整个核心构建过程如上图中所示,目标是围绕赋能业务去设计指标。

2.2 指标体系搭建

   下面以货拉拉为例,简单介绍指标体系搭建的思路(例子与实际业务不一定相符,仅供参考):

  • 首先会制定业务的主要目标,然后依据参与人的业务轨迹梳理核心的业务过程;
  • 然后拆解负责各个核心业务的相关部门的具体目标,接着业务部门依此制定落地的方案或策略;
  • 最后为了指导目标达成,再梳理各业务具体的衡量指标。

2.3 指标维度拆解

 上图中列出了指标及维度拆解中的一些经典原则及常用数据模型。这里强调两点:

  • 遵循MECE原则,尤其是在底层数据模型的设计过程中,最好将维度和指标拆解地互斥且不交叉,这样有利于保证上层应用层维度及指标组合的灵活性,同时也有利于提升复用率、降低整体的计算及研发成本;具体的拆分方法参考如上图所示,二(多)分法、流程法等。
  • 需要深入理解各核心业务场景的常用数据分析模型(比如上图中 AARRR 等模型),结合自己公司的业务特点,选取合适的业务数据模型来搭建部门内部的指标体系。

三、指标标准化建设

指标体系建设的标准化流程可以参考以上流程图,重点强调的内容有以下两点:

  • 数据需求准入评审:为了解决业务口径描述不一致,业务口径转换为数据口径的质量问题,一定要成立一个指标评审组织,至少由业务方,数据分析人员,数仓研发人员这三部分组成,此项工作人力投入价值最大,直接影响后续研发的效率、交付质量以及是否返工修复数据口径等工作量。
  • 数据研发的标准化:为了数据模型设计工作的高质量开展,需要梳理好数据口径:核心工作内容是数据的维度及指标梳理,落地为指标维度矩阵,再进一步拆解到事实层(DWD)的维度及原子指标,这样可以更加准确得评估后续数据研发的工作量。

   指标体系建设过程中数据研发的工作重点:依据数仓的架构主要集中在汇总层各业务主题域的指标维度事实表的建设落地,其次是集市层,面向业务的多账期、跨业务主题域、衍生指标的建设工作等。

四、指标元数据管理

指标建设完成后,则需要进行指标元数据管理,主要有四部分内容:

  • 首先管理好指标建设流程;前期可以先采用 SOP 等文档落地,后续再产品化;
  • 其次管理好数据模型,包括偏向技术的物理模型和偏向业务的逻辑模型;
  • 然后管理好指标及维度的元数据信息,包括业务数据域、业务口径、数据口径、血缘关系等;
  • 最后将数据封装成服务,并将业务应用方的使用和调用信息登记管理起来,以便后期的服务稳定性分级管理及指标体系建设的业务收益回收等。

对于指标元数据管理方面,介绍以下三个相关定义:

  • 数据需求=时间+维度+指标

  • 指标=时间+修饰词+原子指标

  • 维度=通用维度+个性化的业务维度

 因此对应的具体管理内容主要是如上图所示的三部分元数据的管理,修饰词管理、指标管理和维度管理。

五、指标应用&未来规划

    对于指标体系的主要应用场景包括:业务报表和看板、特定的业务数据产品等,另外实际已落地的新场景是:结合 AI 大模型通过自然语言快速取数,具体框架如上图所示。

   具体应用场景功能设计上,对于衍生指标,即基础指标的四则运算、派生及衍生维度,关联父子维度,或者简单关联转化的维度,我们都是通过元数据配置来实现的,这样极大提高了数据应用的灵活性,并大大降低了数据及后端数据接口服务研发的成本,同时提高了需求响应的及时性。

    对于指标体系应用在未来的热门发展方向主要体现在通过自然语言快速取数、归因诊断及智能运营这三个方面:

  • 自然语言快速取数及简单可视化,在货拉拉已经接近落地,相关云厂商或者头部互联网公司也基本都有相关产品。这个场景的主要挑战是如何降低错误率,个人理解在这个场景中可以拒答,但是不能给出错误数据。
  •  诊断归因,则处于探索逐步落地阶段,前期主要先基于业务部门的分析经验来配置归因的逻辑来实现,后续再探索如何让大模型通过对行业业务的理解学习,结合数理统计分析算法来自主归因。
  • 智能运营场景,为了提高运营效率,进一步对 AI 大模型提出了更高的定制化能力要求。传统运营早已深入各行业公司的具体业务,主要是基于个人经验和历史沉淀的经验知识等,因此需要更深入理解行业及公司业务的运营知识。同时由于涉及到具体的运营策略及业务数据,对于这部分的数据安全性也是一个挑战。为了这个场景能更好地落地及推广,还要求相关产品能具备通用化且安全的行业知识学习及更新能力,并最好将大模型行业知识的学习流程产品化,降低大家的学习使用成本,在保证运营效果的同时,大大减少公司的运营人力投入成本。

参考文章:

从0到1,聊聊货拉拉如何搭建数据指标体系


http://www.ppmy.cn/embedded/9438.html

相关文章

二叉搜索树中的搜索(力扣700)

解题思路:因为二叉搜索树的左小右大特点,中只是寻找比较目标,怎么序遍历都可以,终止条件就是遍历完毕和找到了,然后就遍历左右子树开始寻找就好了 具体代码如下: class Solution { public: TreeNode* searchBST(Tre…

防、治、管融合一体化旅居健康守护系统

随着人口老龄化趋势的加剧和人们生活水平的提高,养老服务需求不断增长。旅居养老作为一种新型的养老模式,逐渐受到广大老年人的青睐。在生命健康服务运营平台中,为了给老人提供全方位、个性化的生命健康服务,我们平台也特意开设了…

Linux之 USB驱动框架-USB总线核心和主控驱动(4)

一、USB设备描述符 一个USB设备描述符中可以有多个配置描述符,即USB设备可以有多种配置;一个配置描述符中可以有多个接口描述符,即USB设备可以支持多种功能(接口);一个接口描述符中可以有多个端点描述符。 …

Linux 网络基本命令

一、查看网络信息 ifconfig 二、关闭网络 ifdown ens33 (有的电脑不一定是ens33,具体看上图画线的地方) 三、开启网络 ifup ens33

工作与生活的平衡术:顶尖专家的十大建议

在快速变化的现代社会中,维持工作与生活的平衡是许多人的追求。以下是顶尖专家根据心理学、管理学和自身经验总结出的十大建议,帮助您找到工作与生活之间的平衡点。 1. 设定清晰的界限 现代工作环境常常要求我们随时在线,但顶尖专家建议&…

centos安装服务及设置自启动

centos安装redis及设置自启动 centos安装redis及设置自启动redis安装脚本redis启动脚本chkconfig设置开机自启动systemctl设置开机自启动nginx脚本mysql脚本mongodb脚本rabbitmq脚本java服务脚本删除日志定时任务 centos安装redis及设置自启动 redis安装脚本 进入 /opt/redis…

线程和进程的区别(面试)

线程和进程的区别 进程和线程的区别线程的优点 进程和线程的区别 1. 进程是系统进行资源分配和调度的一个独立单位,线程是程序执行的最小单位. 2. 进程有自己的内存地址空间,线程只独享指令流执行的必要资源,如寄存器和栈. 3. 由于同一进程的各线程共享内存和文件资源,可以不通…

什么是防抖和节流?有什么区别? 如何实现?

防抖(Debounce)和节流(Throttle)是两种常用的技术手段,主要用于控制某个函数在一定时间内触发的次数,以减少触发频率,提高性能并避免资源浪费。 防抖(Debounce)的工作原…