1、SEMMA 的基本思想是从样本数据开始,通过统计分析与可视化技术,发现并转换最有价值的预测变量,根据变量进行构建模型,并检验模型的可用性和准确性。【强调探索性】
2、CRISP-DM模型Cross Industry Standard Process of Data Mining,被称为跨产业的数据挖掘标准流程
商业理解:其目的是要了解企业的整个运作过程。商业理解的作用主要是确定题目,即通过数据挖掘想要解决什么问题。【强调商业性】
数据理解:检查解决问题所需要的数据是否收集齐全,若没有则退回到商业理解这一步。
数据预处理:对收集到的数据进行处理,此阶段耗时最长。
建模:建立模型,若结果不好,则退回到数据预处理这一步,进行相应的调整。
评估:评估结果好就可以实施,评估结果不好就直接退回到商业理解这一步,重新开始。
实施:模型的实际应用。
3、数据分析的基本流程为以下6步曲:
问题定义、数据获取、数据预处理、数据分析与建模、数据可视化、数据报告的撰写。
4、EXCEL常用函数:
日期函数:
EDATE
函数用于计算某个日期之前或之后的月份数。它的基本语法如下:
EDATE(start_date, months)
=EDATE("2024-01-01", 1)
返回 “2024-02-01”,即2024年1月1日加上1个月后的日期
start_date
:起始日期。months
:你想要添加或减去的月份数。正值表示添加月份,负值表示减去月份。
EOMONTH
函数用于计算某个日期所在月份的最后一天。它的基本语法如下:
=EOMONTH("2024-01-15", 5)
返回 "2024-06-30”,即2024年1月15日所在月份的最后一天
5、主键的业务意义:
表的业务记录单位,数据表中的非主键字段都要围绕主键展开,具备相关性。
6、ETL功能:Extract-Transform-Load,将数据从数据源端经过提取、清洗转换之后加载到数据仓库。
E:创建于数据源的连接,对数据进行引用
T:清洗–筛选过滤不完整、错误及重复的数据记录,转换–‘粒度’不一致、业务规则不一致
L:加载到数据仓库中存储和使用
7、from>where>group by >having >select >order by
8、开窗函数
实体完整性是是指每个表都有唯一的标识符–主键,主键不能为空或重复。
参照完整性是指外键的取值必须是另一个表的有效值或空值。
用户定义完整性是指满足用户的某个需求,字段不为空等。
域完整性约束:域代表当前单元格,限制此单元格的数据正确。
9、集中趋势的描述 – 平均指标 各种数(众数、中位数、分位数、平均数)
大蒜有几条 算术>=几何>=调和平均数
离散程度的描述(各种差)–变异指标(极差、平均差、方差、四分位差、标准差、离散系数即变异系数)
描述性统计图表:直方图、散点图、箱线图
10、箱线图:
在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。四分位距IQR=Q3-Q1。
统计分布:两点分布、二项分布、正态分布、卡方、t分布、F分布
相关关系:散点图、线性、正相关、协方差、相关系数
参数估计
95% 对应 1.96
90% 对应 1.645
汇总规则
单向,只能一表筛选多表
双向,多表可以筛选一表,但是用规则二
基本透视规则:合计、计数、平均、最大最小值
什么是指标?
基本指标:求和类(常规求和、累计求和、时间维度下累计指标)、计数类、比较类(差异百分比、均比、定基比增长率、同环比增长率)
场景指标:
可视化报表和业务分析报告的差异:
RFM模型
重要价值用户–保持现状
重要发展用户–提升频次
重要保持用户–用户回流
重要挽留用户–重点召回
业务分析决策树
1.比较类
图表–油量表、进度图、柱图、条形图、雷达图、词云图、树状图、地图
2.序列类
图表(连续、有序类别的数据波动)折线图、面积图、柱图、漏斗图
3.构成类
图表–环状图、饼图、堆积图、瀑布图
4.描述类
图表–直方图、盒须图、气泡图、散点图
报告撰写流程: 业务理解→数据收集→数据处理→数据分析→图表制作→报告绘制