1104报表
1104报表主要包括:资产负债,表外业务、流动性风险、贷款质量、投向行业和地区、重点客户等。
1104报表分类
普通报表、机构特色类报表。
反洗钱
大额交易、可疑交易。标签分类:疑似犯罪、疑似毒品、疑似传销。
反洗钱—接口报表
数仓面试题
什么时候用星型模式?什么时候用雪花模型?
在数仓建设时比较适合使用星型模型构建底层数据Hive表,通过大量的冗余来提升查询效率。
雪花模型比较适合用在数据市集。
如果现在有一千张表从一个库到另外一个库的ODS层,你会怎么做?
利用消息队列做数据订阅发布。
说说数仓分层?
- ODS层:原始数据层。存放原始数据。
- DWD层:明细数据层。对ODS层数据进行清洗(去除空值、脏数据、超过极限范围的数据)。
- DWS层:服务数据层。以DWD为基础,进行轻度汇总。
- ADS层:数据应用层。为各种统计报表提供数据。
为什么要对数仓进行分层?
- 把复杂问题简单化。
- 减少重复开发。
- 隔离原始数据。
说说你对数据仓库的理解?
数据仓库经历三个阶段:简单报表阶段、数据集市阶段、数据仓库阶段。
常见的缓慢变化维处理方式有那三种?
- 直接覆盖:不记录历史数据,薪数据覆盖旧数据。
- 新加一行数据(纵向扩展)。
- 新加两个字段(横向扩展)。
如何控制数据质量?
- 运用校验机制。
- 数据内容的比对,抽样对比。
- 复盘、每月做一次全量。
说一下你们数仓的数据处理流程?
按照数仓分层思想,分为ods贴源层、dw主题层、mid维表层、dm集市层、app应用层。
过程如下:
- 数据通过采集或同步落地基于HDFS存储的ods层。
- 主题抽取确认。
- 构建维表层数据,如时间、地区、产品类别等数据。
- 进行数据集市构建如统计结果、用户画像、TopN热门数据。
- 进行集市数据的输出到app进行BI可视化展示。
表分类?
- 实体表:指业务对象。
- 维度表。
- 事务型事实表:一般指随着业务发生不断产生数据,特点是一旦发生不会再变化。
- 周期型事实表:一般指随着业务发生不断产生变化(更新,新增)的数据。
同步策略有哪些?
- 全量表:存储完整的数据。
- 增量表:存储新增加的数据。
- 新增及变化表:存储新增加的数据和变化的数据。
- 拉链表:对新增及变化表做定期合并。
实体表(用户,商品,商家):每日全量。
维度表(订单状态,审批状态,商品分类):每日全量。
事务型实时表(交易流水,操作日志):数据量大且不变,每日增量表,每日创建一个分区存储。
周期型事实表(订单,请假等):用每日新增和变化表,制作一张拉链表。