在学习统计学贾书的过程,在第6—14章节出有许多需要理解与记忆的公式和概念,在此通过博客的形式做一次梳理,主要内容为统计学中抽样分布、假设检验、参数估计、分类数据分析、方差分析、一元二元线性分析、时间序列分析、指数的理论知识,不足之处望多多指正。
1.变量间关系的度量
1.1变量间的关系
- 函数关系
是一一对应的确定关系;变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数(特点是唯一确定) - 相关关系
变量间关系不能用函数关系精确表达;一个变量的取值不能由另一个变量唯一确定。
(1)常用的一些相关关系:
(2)相关关系的描述与测度
1.2相关系数的描述与测度
- 相关系数的定义:度量变量之间关系强度的一个统计量,对两个变量之间线性相关强度的度量称为简单相关系数记总体相关系数为 ρ \rho ρ;样本的相关系数为r
- 样本相关系数的计算公式: r = ∑ ( x − x ˉ ) ( y − y ˉ ) ∑ ( x − x ˉ ) 2 ⋅ ∑ ( y − y ˉ ) 2 化 简 得 到 r = n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 ⋅ n ∑ y 2 − ( ∑ y ) 2 r=\frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{\sum(x-\bar{x})^{2} \cdot \sum(y-\bar{y})^{2}}} 化简得到 r=\frac{n \sum x y-\sum x \sum y}{\sqrt{n \sum x^{2}-\left(\sum x\right)^{2}} \cdot \sqrt{n \sum y^{2}-\left(\sum y\right)^{2}}} r=∑(x−xˉ)2⋅∑(y−yˉ)2∑(x−xˉ)(y−yˉ)化简得到r=n∑x2−(∑x)2⋅n∑y2−(∑y)2n∑xy−∑x∑y
- 样本相关系数r的常用性质
(1)r的取值范围是[-1,1],|r|=1时,两变量完全相关,r=0不存在线性相关关系,小于0时负相关,大于0时正相关;
(2)r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等;
(3)r数值大小与x和y原点及尺度无关;
(4)仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着, r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系;
(5)r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系 - 对于相关系数r的经验解释
(1)|r|>0.8时,可视为两个变量之间高度相关;
(2)0.5<|r|<0.8时,可视为中度相关;
(3)0.3<|r|<0.5时,视为低度相关;
(4)|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关;
(5)上述解释必须建立在对相关系数的显著性进行检验的基础之上
1.3相关系数的显著性检验
- 需要知道的性质
(1)用于检验两个变量之间是否存在线性相关关系;
(2)等价于对回归系数 β 1 \beta_1 β1的检验;
(3)检验方式是t检验。 - 检验步骤
(1)提出假设:H0: ρ = 0 \rho=0 ρ=0 ;H1: ρ ≠ 0 \rho \neq 0 ρ=0;
(2)计算检验的统计量: t = ∣ r ∣ n − 2 1 − r 2 ∼ t ( n − 2 ) t=|r| \sqrt{\frac{n-2}{1-r^{2}}} \sim t(n-2) t=∣r∣1−r2n−2∼t(n−2);
(3)确定显著性水平 α \alpha α,并作出决策。
2. 一元线性回归
2.1.一元线性回归的几种格式与求解
- 1、一元线性回归模型: y = β 0 + β 1 x + ε {y}={\beta}_{0}+{\beta}_{1} x+\varepsilon y=β0+β1x+ε
(1)模型的特点y 是 x 的线性函数(部分)加上误差项;
(2)线性部分反映了由于 x 的变化而引起的 y 的变化;
(3)误差项 ε \varepsilon ε是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响,是不能由 x 和 y 之间的线性关系所解释的变异性
(4) β 0 \beta_0 β0 和 β 1 \beta_1 β1 称为模型的参数 - 一元线性回归模型的假定
(1)因变量x与自变量y之间具有线性关系;
(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的
(3)误差项ε是一个期望值为0的随机变量,既有: E ( y ) = β 0 + β 1 x E(y)={\beta}_{0}+{\beta}_{1} x E(y)=β0+β1x
(4)误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0 ,σ2 )(关于随机误差的理解)
- 2、一元线性回归方程: E ( y ) = β 0 + β 1 x E(y)={\beta}_{0}+{\beta}_{1} x E(y)=β0+β1x
(1) β 0 \beta_0 β0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值
(2) β 1 \beta_1 β1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值 - 3、估计的回归方程
(1)作用:用样本统计量 β ^ 0 \hat\beta_0 β^0 和 β ^ 1 \hat\beta_1 β^1 代替回归方程中的未知参数 β 0 \beta_0 β0 和 β 1 \beta_1 β1 就得到了估计的回归方程
(2)估计的回归方程: y ^ = β ^ 0 + β ^ 1 x \hat y=\hat\beta_0+\hat\beta_ 1 x y^=β^0+β^1x - 用最小二乘法估计回归方程的参数:
(1)本质:使得 ∑ i = 1 n ( y i − y ^ ) 2 = ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i ) 2 = min \sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2}=\sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)^{2}=\min ∑i=1n(yi−y^)2=∑i=1n(yi−β^0−β^1xi)2=min,求法是分别对 β ^ 0 \hat\beta_0 β^0 和 β ^ 1 \hat\beta_1 β^1求偏导;
(2)求解公式:求偏导 { ∂ Q ∂ β 0 ∣ β 0 = β ^ 0 = − 2 ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i ) 2 = 0 ∂ Q ∂ β 1 ∣ β 1 − β ^ 1 = − 2 ∑ i = 1 n x i ( y i − β ^ 0 − β ^ 1 x i ) 2 = 0 \left\{\begin{array}{l}\left.\frac{\partial Q}{\partial \beta_{0}}\right|_{\beta_{0}=\hat{\beta}_{0}}=-2 \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)^{2}=0 \\ \left.\frac{\partial Q}{\partial \beta_{1}}\right|_{\beta_{1}-\hat{\beta}_{1}}=-2 \sum_{i=1}^{n} x_{i}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)^{2}=0\end{array}\right. ⎩⎪⎨⎪⎧∂β0∂Q∣∣∣β0=β^0=−2∑i=1n(yi−β^0−β^1xi)2=0∂β1∂Q∣∣∣β1−β^1=−2∑i=1nxi(yi−β^0−β^1xi)2=0
解得: β ^ 1 = n ∑ i = 1 n x i y i − ( ∑ i = 1 n x i ) ( ∑ i = 1 n y i ) n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_{1}=\frac{n \sum_{i=1}^{n} x_{i} y_{i}-\left(\sum_{i=1}^{n} x_{i}\right)\left(\sum_{i=1}^{n} y_{i}\right)}{n \sum_{i=1}^{n} x_{i}^{2}-\left(\sum_{i=1}^{n} x_{i}\right)^{2}} \quad \hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1} \bar{x} β^1=n∑i=1nxi2−(∑i=1nxi)2n∑i=1nxiyi−(∑i=1nxi)(∑i=1nyi)β^0=yˉ−β^1xˉ
2.2.回归直线的拟合优度检验
-
误差分解;
拆分格式: ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n ( y ^ i − y ˉ ) 2 + ∑ i = 1 n ( y i − y ^ ) 2 \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}+\sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2} ∑i=1n(yi−yˉ)2=∑i=1n(y^i−yˉ)2+∑i=1n(yi−y^)2
(1)总平方和SST= ∑ i = 1 n ( y i − y ˉ ) 2 \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2} ∑i=1n(yi−yˉ)2;反映因变量的 n 个观察值与其均值的总误差
(2)回归平方和SSR= ∑ i = 1 n ( y ^ i − y ˉ ) 2 \sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2} ∑i=1n(y^i−yˉ)2;反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和
(3)残差平方和SSE= ∑ i = 1 n ( y i − y ^ ) 2 \sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2} ∑i=1n(yi−y^)2。反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和 -
判定系数 R 2 R^2 R2的计算
(1)计算公式: R 2 = S S R S S T = ∑ i = 1 n ( y ^ i − y ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 = 1 − ∑ i = 1 n ( y i − y ^ ) 2 ∑ i = 1 n ( y ^ i − y ˉ ) 2 R^{2}=\frac{S S R}{S S T}=\frac{\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}=1-\frac{\sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2}}{\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}} R2=SSTSSR=∑i=1n(yi−yˉ)2∑i=1n(y^i−yˉ)2=1−∑i=1n(y^i−yˉ)2∑i=1n(yi−y^)2;
(2)反映回归直线的拟合程度;
(3)取值范围在 [ 0 , 1 ] 之间;
(4)判定系数等于相关系数的平方,即 R 2 = r 2 R^2=r^2 R2=r2 -
标椎估计误差的计算:
(1)计算公式: s e = ∑ i = 1 n ( y i − y ^ i ) 2 n − 2 = S S E n − 2 = M S E s_{e}=\sqrt{\frac{\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}}{n-2}}=\sqrt{\frac{S S E}{n-2}}=\sqrt{M S E} se=n−2∑i=1n(yi−y^i)2=n−2SSE=MSE;
(2)实际观察值与回归估计值误差平方和的均方根;
(3)对误差项 ε \varepsilon ε的标准差σ2 的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量。
2.3. 显著性检验
- 线性关系检验
(1)检验自变量与因变量之间的线性关系是否显著
(2)计算:将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著,回归平方和SSR除以相应的自由度(自变量的个数k) ,残差平方和SSE除以相应的自由度(n-k-1)。计算公式为: F = S S R / 1 S S E / ( n − 2 ) = M S R M S E ∼ F ( 1 , n − 2 ) F=\frac{S S R / 1}{S S E /(n-2)}=\frac{M S R}{M S E} \sim F(1, n-2) F=SSE/(n−2)SSR/1=MSEMSR∼F(1,n−2) - 回归系数检验
(1)目的:检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著;
(2)理论基础是回归系数 β ^ 1 \hat\beta_1 β^1 的抽样分布
(3)t检验统计量计算公式: t = β ^ 1 s β ^ ∼ t ( n − 2 ) t=\frac{\hat{\beta}_{1}}{s_{\hat{\beta}}} \sim t(n-2) t=sβ^β^1∼t(n−2)(等价于相关系数的显著性检验)
3.利用回归方程进行评估和预测
3.1点估计
- y平均值的点估计
(1)定义:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计
(2)公式: E ( y 0 ) = β 0 + β 1 x E(y_0)={\beta}_{0}+{\beta}_{1} x E(y0)=β0+β1x - y个别值的点估计;
(1)定义:利用估计的回归方程,对于自变量 x 的一个给定值 x 0 x_0 x0 ,求出因变量 y 的一个个别值的估计值 y ^ 0 \hat y_0 y^0,就是个别值的点估计
(2)公式: y ^ 0 = β ^ 0 + β ^ 1 x \hat y_0=\hat\beta_0+\hat\beta_ 1 x y^0=β^0+β^1x
3.2区间估计
-
y平均值的置信区间估计
(1)定义:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间;
(2)E( y 0 y_0 y0)1-a置信区间水平下的计算公式: y ^ 0 ± t α / 2 ( n − 2 ) s e 1 n + ( x 0 − x ˉ ) 2 ∑ i = 1 n ( x i − x ˉ ) 2 \hat{y}_{0} \pm t_{\alpha / 2}(n-2) s_{e} \sqrt{\frac{1}{n}+\frac{\left(x_{0}-\bar{x}\right)^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}} y^0±tα/2(n−2)sen1+∑i=1n(xi−xˉ)2(x0−xˉ)2 -
y估计值的预测区间估计
(1)定义:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间;
(2)公式: y ^ 0 ± t α / 2 ( n − 2 ) S e 1 + 1 n + ( x 0 − x ˉ ) 2 ∑ i = 1 n ( x i − x ˉ ) 2 \hat{y}_{0} \pm t_{\alpha / 2}(n-2) S_{e} \sqrt{1+\frac{1}{n}+\frac{\left(x_{0}-\bar{x}\right)^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}} y^0±tα/2(n−2)Se1+n1+∑i=1n(xi−xˉ)2(x0−xˉ)2两种区间估计区别在于根号里面(几何区别)
几者的区别:在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同。
4.残差分析
4.1残差与残差图
*残差
(1)因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示公式为: e i = y i − y ^ i e_{i}=y_{i}-\hat{y}_{i} ei=yi−y^i
(2)反映了用估计的回归方程去预测而引起的误差 ;
(3)作用:可用于确定有关误差项的假定是否成立 。
- 残差图像
(1)好坏判别:判断误差项 ε \varepsilon ε是否符合假定(均值为零的正态分布)
(2)一般图像:
标椎化残差
- 标椎化残差的计算:(残差除以它的标准差): z e i = e i s e = y i − y ^ i s e z_{e_{i}}=\frac{e_{i}}{s_{e}}=\frac{y_{i}-\hat{y}_{i}}{s_{e}} zei=seei=seyi−y^i即: z i = y i − y ^ i s e 1 − ( 1 n + ( x i − x ˉ ) 2 ∑ ( x i − x ˉ ) 2 ) z_{i}=\frac{y_{i}-\hat{y}_{i}}{s_{e} \sqrt{1-\left(\frac{1}{n}+\frac{\left(x_{i}-\bar{x}\right)^{2}}{\sum\left(x_{i}-\bar{x}\right)^{2}}\right)}} zi=se1−(n1+∑(xi−xˉ)2(xi−xˉ)2)yi−y^i
(1)作用:用以直观地判断误差项服从正态分布这一假定是否成立 ;
(2)若假定成立,标准化残差的分布也应服从正态分布;
(3)在标准化残差图中,大约有95%的标准化残差在-2到+2之间。
参考
《统计学》 第7版_贾俊平