PART 2 数据结构 (占比15%)
0. 总体要求
理解表格结构与表结构的数据特征、理解表结构与表结构数据获取操作方法、理解表结构数据连接及汇总的逻辑、能够应用表结构连接及汇总逻辑关联多表进行汇总求值计算、能够制作 ER关系图.
1. 表格结构数据特征 (占比2%)
※ 表格结构数据概念:
以单元格为基本的加工处理单位的数据结构就叫做表格结构数据。
※ 表格结构数据处理工具:
Excel,WPS,Numbers。
※ 表格结构数据特征:
1)计算基本单位:单元格,单元格的集合叫做单元格区域,单元格区域的集合叫做工作表,工作表的集合叫做工作簿;
2)表格结构数据的数据类型:
数值型:数值型中包含整数值与小数值的信息,主要用来进行数学计算
文本型:文本值中包含文字、符号、数字等信息,主要用来对文本内容进行描述时使用
逻辑型:逻辑值中只包含真(true)与假值(false)两种信息,主要用来进行逻辑判断。
3)单元格的格式属性:
数字格式:决定显示形式
显示格式:决定显示效果
2. 表格结构数据获取、引用、查询与计算 (占比3%)
※ 表格结构数据获取方法:
从企业后台数据库系统获取;
前端操作平台获取数据;
从企业外部渠道获取数据。
※ 单元格区域的特征:
单元格区域指的是单个的单元格、或者是由多个单元格组成的区域、或者是整行、整列等。
1)单元格区域需要由连续的单元格构成;
2)单元格区域需要是一个方形区域。
※ 表格结构数据的引用方法:
1)单元格值的引用方法:
引用同一工作表内单元格值:通过“=列号+行号”定位单元格;
引用不同工作表内单元格值:通过“=表名!+列号+行号”定位单元格。
2)单元格区域值的引用方法:
引用相同工作表内的单元格区域:“=左上单元格:右下单元格”;
引用不同工作表内的单元格区域:“=表名!左上单元格:右下单元格”;
引用多行:“=上边行号:下边行号”;
引用多列:“=左边列号:右边列号”。
※ 表格结构数据的查询方法:
1)使用表格工具搜索功能进行查询;
2)使用查询函数进行查询,如:vlookup()函数。
※ 表格结构数据的常用函数:
其他函数链接: https://zhuanlan.zhihu.com/p/368728144
3. 表结构数据特征 (占比5%)
※ 理解主键的意义
1)物理意义:
单字段主键:由一个字段构成的主键;
多字段联合主键:由多个字段构成的主键;
非空不重复;
定位记录行、字段名+主键值定位具体数值;
多以“xxID”、“xxNo”、“xx编号”等名称命名。
2)业务意义:
表的业务记录单位。在一个数据表中的所有非主键字段都要围绕主键展开。
※ 理解维度及度量的意义
维度:业务观测角度;
度量:业务行为结果。
※ 理解缺失值
根据数据类型以及生成信息重要程度的不同,使用不同方法处理缺失值。
文本型字段:
影响不大:以选择不进行处理,或者也可以用其他没有实际业务含义的文本字符对缺失值进行替换;
影响大:招业务人员进行确认后替换,或者与业务人员核实后删除。
数值型字段:
综合考虑该数值型字段所代表的度量意义以及针对该数值型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法。
※ 表结构数据特征
1)以字段或记录作为数据的引用、操作及计算的基本单位的数据;
2)所有字段记录行数相同;
3)一个表中有且只有一个主键。
※ 表结构数据与表格结构数据差异
1)基本单位不同
2)行号和列号不同
3)类型范围不同
4. 表结构数据获取、加工与使用 (占比5%)
※ 表结构数据获取渠道及方法
从企业后台数据库系统获取;
前端操作平台获取数据;
从企业外部渠道获取数据。
与表格结构数据一样。
※ 表结构数据连接逻辑
1)横向合并:将不同表中的字段信息合并到同一个表中使用。
通过公共字段匹配;
左表与右表;
连接方向;
对应关系;
E - R 图。
2)纵向合并:多表中记录信息合并到同一个表中进行使用的合并方式称为纵向合并。
字段个数相同;
相同位置字段的数据类型相同;
去重合并与全合并。
※ 表结构数据汇总逻辑
1)数据透视表模板
2)设置维度
3)设置度量
4)汇总计算规则
※ ETL 作用、特征
将数据从数据源端经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库。
1)E - 抽取:
创建与不同数据源间的连接关系,对这些数据源中的数据进行“引用”
2)T - 清洗转换:
清洗的主要任务是筛选过滤不完整、错误及重复的数据记录;
对“粒度”不一致的数据进行转换,
对业务规则不一致的数据进行转换。
3)L - 加载:
将抽取出来的数据经过清洗与转换后加载到数据仓库中进行存储与使用。
※ 应用 E-R 图
实体关系图。
表与表的关系有:一对一,一对多,多对多
1代表1表,*代表多表。
※ 计算两表连接汇总值
1)合计规则
将相同维度值下对应的多个度量值相加在一起、一般用SUM函数代表合计规则
2)计数规则
对相同纬度值下的度量个数进行计数、COUNT非空计数、DISTINCTCOUNT去重计数
3)平均规则
用合计规则的结果除以计数规则的结果(平均=合计/计数)、一般用AVERAGE函数表示
4)最大值规则
求相同维度之下最大的度量值、一般用MAX函数表示
5)最小值规则
求相同维度之下最小的度量值、一般用MIN函数表示
参考资料:
- CDA I 级 备考之 PART 1
- CDA I 级 备考之 PART 2
- 其他待续~