线性回归分析基本内容
回归分析 是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。
回归分析的任务就是:
通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
线性回归有3个关键词:相关性、Y、X
- 相关性≠因果性
- Y为因变量
- X为自变量
回归分析的使命:
1、识别重要变量
识别并判断,哪些X变量是同Y相关的,哪些变量不相关。去除了那些于Y无关的自变量X,那么剩下的,就都是重要的、有用的X变量了。
2、判断相关性的方向
这些有用的变量同Y的相关是正的,还是负的呢?
3、估计权重(回归系数)
在确定了重要自变量X后,我们还需要给X赋予一定的地位(权重,也就是不同的回归系数),进而我们可以知道这些重要变量X中,不同变量之间的相对重要程度。
利用SPSS软件进行一元线性回归
Step1:导入数据
本例采用的是模拟数据,将Excel中的数据导入到SPSS中。
Step2:绘制散点图
从菜单栏中依次点击:图形→旧对话框→散点图/点状图→简单散点图;再添加趋势线。
***散点图的意义:***该步骤Step2,是为了 更加直观地观察出 X于Y 之间是否线性相关。
如果散点图都不呈现出一元线性相关,也没有必要 分析一元线性回归关系了。(此时应该考虑 更换数学模型。)
也可以直接在Excel做散点图。
Step3:线性回归分析
在菜单栏上依次点击:分析→回归→线性
具体操作给大家一个视频:SPSS线性回归操作
B站上类似的操作视频很多,大家也可以自己找找更适合自己的教学视频。
Step4:线性回归结果分析
SPSS的数据分析 “输出”窗口中会出现很多图表,接下来我们来分析分析一些重要的图表。
图表1:【输入/除去的变量】
此表是拟合过程中变量输入/除去模型的情况记录。
由于我们只引入了一个自变量,所以只出现了一个模型1(在多元线性回归中就会依次出现多个回归模型)
图表2:【模型摘要】
此表为所拟合模型的情况汇总,对于模型1:
相关系数 | R=0.992 |
---|---|
拟合优度 | R方=0.983 |
调整后的拟合优度 | 调整R方=0.982 |
标准估算的误差 | 0.3512 |
【注意】R方(拟合优度):是回归分析的决定系数,说明自变量和因变量形成的散点图与回归曲线的接近程度,数值介于0和1之间,这个数值越大说明回归的越好,也就是散点越集中于回归线上。
图表3:【ANOVA】-Analysis of variance
此表是所用模型的检验结果,一个标准的方差分析表。
显著性(Sig./Significant)值是回归关系的显著性系数。Sig.是F值的实际显著性概率,即P值。
- 当Sig.≤0.05时,说明回归具有统计学意义;
- 若Sig.>0.05,说明两者之间用当前模型回归没有统计学意义,应该考虑更换模型(联系之前的散点图思考一下)
由表可见,显著性为0.000,因此我们的这个回归模型时具有统计学意义的,可以继续看下面【系数】
图表4:【系数】
由表中显著性,可知常量和x系数 都是具有统计学意义的。
- 由此得回归方程:y = 0.463x + 0.51