大数据开发数据治理方向

news/2025/2/22 2:01:00/

模型合规(包括了元数据治理,原来只到了元数据层次):1.数据标准重制定及修复,包括对原来数据域重构,表字段命名体系重构,并对原来模型按照新标准合规改造 2.元数据补充 owner、使用说明、字段中文名具体内容、颗粒度声明、主键声明等补充保障下游及内部使用时候清晰 3.制度建设:完善模型评审制度、代码提交强审核,保障内容合规后上线 4.分层合理性,治理不规范的模型分层引用,例如ADS层表依赖了非DWS层的表,建议优化
5.数据链路合理性:减少因内容不足产出烟囱模型,从而相互依赖加长链路情况

数据质量合规:1.流程化,任务上线/变更流程,指标变更流程 2.dqc管控:对原4大基础dqc进行补充以及核心业务模型dqc补充,并对原无效dqc下线,对常触发dqc进行调整(例如表行数波动,可通过算法对近7天数据量监测) 3.sla及基线治理(这里也可以放到人员运维roi治理中):上线前把控,保障基线正常运行,核心任务优先产出且分配高资源,培训及整理值班运维手册,建设容灾备份快恢能力临时修复数据 4.上游问题数据治理:数据质量长期监测体系

数据安全合规:1.角色权限管控,对不同使用/开发角色提供不同使用权限,根据报表、看板的权限等级,在同一个图表中限制不同的用户能够看到的数据也不一样(常用于报表各模块内容展示) 2.数据脱敏,通过脱敏防止数据泄漏 3.表/字段分级:对每个表及字段进行打标,保障每张表都有数据安全管控 4.数据权限使用 表/字段走审批流程 并设置数据使用申请时卡点负责人/组 5.其他 数据下载管控(一般来说最多下载1000行/次),离职数据风险管控等等

存储资源治理:1.设置统一表生命周期,并对当前表按照新标准裁剪,对未分区表重制定分区 2.长期未引用/被使用/临时的表下线 3.压缩格式/存储格式优化 4.根据业务对表存储重划分:对较大数据量表可以采取全量转增量操作、拉链表操作

计算资源治理:1.数据倾斜任务治理(后面我会细讲治理方法 这里跳过)2.消耗大core/内存任务治理 3.无效监控项、重复开发情况占用计算资源、数据价值低的模型占用计算资源及时下线 4.梳理数据链路并对任务调度治理 5.规划核心任务 并分配任务执行优先级 把非核心的任务靠后运行 6.小文件治理 7.其他 例如hive spark2 切换spark3采用aqe特性 采用z-order+spark排序算法解决join时读取效果提升

数据价值治理 (整体来说是提升模型复用性):1.烟囱数据模型及对应任务、模型粒度重复及时下线 2.ads指标下沉到dws 3.建立模型价值度指标,持续下线低价值模型 4.下线ads层对应业务不再使用的场景模型

人力成本治理:1.指导培训组员技术侧/业务侧能力能够独挡一面,并完善文档沉淀帮助后续新人培训开展 2.让熟悉不同数据域的组员安排在合理的数据域范围,同时做backup 3.建立相应需求开发流程机制,统计人员产出效率,方便针对性安排后续开发内容4.为当前需求及项目难度打分,帮助大家更好意识到项目能否落地、以及产出时间,同时衡量每人产出roi


http://www.ppmy.cn/news/1214950.html

相关文章

VS Code设置技巧

基础设置 中文界面 安装扩展:Chinese(Simplified) Language Pack 自动换行 文件 - 首选项 - 设置,搜索wrap,找到Editor: Word Wrap,将其更改为on。

js运算,笔试踩坑知识点

文章目录 前端面试系列运算符记住口诀先计算 后 赋值赋值从右向左 和 - -计算从左向右括号里的加减优先于括号外的乘除交换俩数的值答案 前端面试系列 js运算 笔试踩坑知识点 前端js面试题 (三) 前端js面试题(二) 前端js面试题 (…

day54 django中orm数据库增删改查

昨日内容回顾 三板斧问题 HttpResponse # 返回的是字符串 render # 渲染一个HTML静态文件,模板文件 redirect # 重定向的 ​ """在视图文件中得视图函数必须要接收一个形参request,并且,视图…

web网站 固定的邀请码字符 能被爬虫爬取吗?动态改变邀请码的字符是不是可以避免爬虫爬取或数据泄露

无论邀请码字符是固定的还是动态改变的,都无法完全避免爬虫爬取或数据泄露的风险。以下是一些要考虑的因素: 爬虫技术的发展:爬虫技术不断发展,可以智能地解析和获取网页内容。即使邀请码字符是固定的,高级爬虫仍然可以…

CCF ChinaSoft 2023 论坛巡礼 | 泛在计算时代的操作系统论坛

2023年CCF中国软件大会(CCF ChinaSoft 2023)由CCF主办,CCF系统软件专委会、形式化方法专委会、软件工程专委会以及复旦大学联合承办,将于2023年12月1-3日在上海国际会议中心举行。 本次大会主题是“智能化软件创新推动数字经济与社…

ElasticSearch搜索详细讲解与操作

全文检索基础 全文检索流程 流程: 创建索引 返回结果 查询索引 原始文档 创建索引 索引库 查询索引 创建索引: 获取文档 构建文档对象 分析文档分词 创建索引 查询索引: 用户查询结构 创建查询 执行查询 渲染结果 相关概念 索引库 索引库就…

Leetcode_46:全排列

题目描述: 给定一个不含重复数字的数组 nums ,返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1: 输入:nums [1,2,3] 输出:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]]示例 2: 输…

线性表->栈

文章目录 前言概述栈的初始化销毁压栈出栈判断栈为不为空栈的有效个数 前言 栈相对于链表,稍微简单一点,但是栈的难点在于通过栈去理解递归算法。 概述 **栈:**一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。…