(续)残差的尺度化方法

ops/2024/10/31 22:57:43/

内容来源

线性回归分析导论 原书第5版 机械工业出版社


本篇讲PRESS残差与R-学生残差


PRESS残差(也称剔除残差)

剔除法

寻找离群值的另一个思路是剔除法

即剔除第 i i i 个点,基于剩下的 n − 1 n-1 n1 个观测值生成回归模型

再用这个模型生成第 i i i 个点的预测值

对比第 i i i 个点的观测值与预测值来判断是否为离群点

定义

PRESS残差定义如下

e ( i ) = y i − y ^ ( i ) e_{(i)}=y_i-\hat{y}_{(i)} e(i)=yiy^(i)

其中

y ^ ( i ) \hat{y}_{(i)} y^(i) 为基于除了第 i i i 个观测值的其他所有观测值的第 i i i 个响应变量的拟合值

y i y_i yi 是被剔除的点的响应变量的观测值

计算

直觉上,计算 P R E S S PRESS PRESS 残差似乎需要拟合 n n n 个不同的回归,非常繁琐

但事实是, P R E S S PRESS PRESS 残差可以通过对所有观测值的一次拟合得到

β ^ ( i ) \hat{\beta}_{(i)} β^(i) 为没有第 i i i 个观测值时所获得的回归系数向量,则

β ^ ( i ) = [ X ( i ) ′ X ( i ) ] − 1 X ( i ) ′ y ( i ) \hat{\beta}_{(i)}=[X'_{(i)}X_{(i)}]^{-1}X'_{(i)}y_{(i)} β^(i)=[X(i)X(i)]1X(i)y(i)

其中 X ( i ) , y ( i ) X_{(i)},y_{(i)} X(i),y(i) 为剔除第 i i i 个观测值的 X , y X,y X,y 向量

再设 x i x_i xi 为第 i i i 个观测值的回归变量的观测值

P R E S S PRESS PRESS 残差可以写为

e ( i ) = y i − y ^ ( i ) = y i − x i ′ β ^ ( i ) = y i − x i ′ [ X ( i ) ′ X ( i ) ] − 1 X ( i ) ′ y ( i ) e_{(i)}=y_i-\hat{y}_{(i)}=y_i-x'_i\hat{\beta}_{(i)} =y_i-x'_i[X'_{(i)}X_{(i)}]^{-1}X'_{(i)}y_{(i)} e(i)=yiy^(i)=yixiβ^(i)=yixi[X(i)X(i)]1X(i)y(i)

( X ′ X ) − 1 (X'X)^{-1} (XX)1 矩阵与 [ X ( i ) ′ X ( i ) ] − 1 [X'_{(i)}X_{(i)}]^{-1} [X(i)X(i)]1 矩阵的关系如下

[ X ( i ) ′ X ( i ) ] − 1 = ( X ′ X ) − 1 + ( X ′ X ) − 1 x i x i ′ ( X ′ X ) − 1 1 − h i i [X'_{(i)}X_{(i)}]^{-1}=(X'X)^{-1}+\frac {(X'X)^{-1}x_ix'_i(X'X)^{-1}}{1-h_{ii}} [X(i)X(i)]1=(XX)1+1hii(XX)1xixi(XX)1

X ( i ) ′ X ( i ) = X ′ X − x i ′ x i X'_{(i)}X_{(i)}=X'X-x'_ix_i X(i)X(i)=XXxixi 应用矩阵求逆引理可得上式

式中 h i i = x i ′ ( X ′ X ) − 1 x i h_{ii}=x'_i(X'X)^{-1}x_i hii=xi(XX)1xi

这个 h i i h_{ii} hii 与上篇文章的 h i i h_{ii} hii 是一个东西

用上两个矩阵的关系后

e ( i ) = y i − x i ′ [ ( X ′ X ) − 1 + ( X ′ X ) − 1 x i x i ′ ( X ′ X ) − 1 1 − h i i ] X ( i ) ′ y ( i ) = y i − x i ′ ( X ′ X ) − 1 X ( i ) ′ y ( i ) − x i ′ ( X ′ X ) − 1 x i x i ′ ( X ′ X ) − 1 X ( i ) ′ y ( i ) 1 − h i i = ( 1 − h i i ) y i − ( 1 − h i i ) x i ′ ( X ′ X ) − 1 X ( i ) ′ y ( i ) − h i i x i ′ ( X ′ X ) − 1 X ( i ) ′ y ( i ) 1 − h i i = ( 1 − h i i ) y i − x i ′ ( X ′ X ) − 1 X ( i ) ′ y ( i ) 1 − h i i \begin{align*} e_{(i)}&=y_i-x'_i\left[(X'X)^{-1}+\frac {(X'X)^{-1}x_ix'_i(X'X)^{-1}}{1-h_{ii}}\right]X'_{(i)}y_{(i)}\\ &=y_i-x'_i(X'X)^{-1}X'_{(i)}y_{(i)}-\frac {x'_i(X'X)^{-1}x_ix'_i(X'X)^{-1}X'_{(i)}y_{(i)}}{1-h_{ii}}\\ &=\frac {(1-h_{ii})y_i-(1-h_{ii})x'_i(X'X)^{-1}X'_{(i)}y_{(i)} -h_{ii}x'_i(X'X)^{-1}X'_{(i)}y_{(i)}}{1-h_{ii}}\\ &=\frac{(1-h_{ii})y_i-x'_i(X'X)^{-1}X'_{(i)}y_{(i)}}{1-h_{ii}}\\ \end{align*} e(i)=yixi[(XX)1+1hii(XX)1xixi(XX)1]X(i)y(i)=yixi(XX)1X(i)y(i)1hiixi(XX)1xixi(XX)1X(i)y(i)=1hii(1hii)yi(1hii)xi(XX)1X(i)y(i)hiixi(XX)1X(i)y(i)=1hii(1hii)yixi(XX)1X(i)y(i)

因为 X ′ y = X ( i ) ′ y ( i ) + x i y i X'y=X'_{(i)}y_{(i)}+x_iy_i Xy=X(i)y(i)+xiyi 将矩阵分块即可得

e ( i ) = ( 1 − h i i ) y i − x i ′ ( X ′ X ) − 1 ( X ′ y − x i y i ) 1 − h i i = ( 1 − h i i ) y i − x i ′ ( X ′ X ) − 1 X ′ y + x i ′ ( X ′ X ) − 1 x i y i 1 − h i i = ( 1 − h i i ) y i − x i ′ β ^ + h i i y i 1 − h i i = y i − x i ′ β ^ 1 − h i i = e i 1 − h i i \begin{align*} e_{(i)}&=\frac{(1-h_{ii})y_i-x'_i(X'X)^{-1}(X'y-x_iy_i)}{1-h_{ii}}\\ &=\frac{(1-h_{ii})y_i-x'_i(X'X)^{-1}X'y+x'_i(X'X)^{-1}x_iy_i} {1-h_{ii}}\\ &=\frac{(1-h_{ii})y_i-x'_i\hat{\beta}+h_{ii}y_i}{1-h_{ii}}\\ &=\frac{y_i-x'_i\hat{\beta}}{1-h_{ii}}=\frac{e_i}{1-h_{ii}} \end{align*} e(i)=1hii(1hii)yixi(XX)1(Xyxiyi)=1hii(1hii)yixi(XX)1Xy+xi(XX)1xiyi=1hii(1hii)yixiβ^+hiiyi=1hiiyixiβ^=1hiiei

从结果来看, P R E S S PRESS PRESS 残差就是根据帽子矩阵对角线元素 h i i h_{ii} hii ,由普通残差加权而得

标准化

i i i 个残差的方差为

V a r [ e ( i ) ] = V a r [ e i 1 − h i i ] = 1 ( 1 − h i i ) 2 V a r [ σ 2 ( 1 − h i i ) ] = σ 2 1 − h i i Var[e_{(i)}]=Var\left[\frac{e_i}{1-h_{ii}}\right]= \frac{1}{(1-h_{ii})^2}Var[\sigma^2(1-h_{ii})]=\frac{\sigma^2}{1-h_{ii}} Var[e(i)]=Var[1hiiei]=(1hii)21Var[σ2(1hii)]=1hiiσ2

e i e_i ei 的方差在上篇文章里

所以标准化 P R E S S PRESS PRESS 残差为

e ( i ) V a r [ e ( i ) ] = e i / ( 1 − h i i ) σ 2 ( 1 − h i i ) = e i σ 2 ( 1 − h i i ) \frac{e_{(i)}}{\sqrt{Var[e_{(i)}]}}= \frac{e_i/(1-h_{ii})}{\sqrt{\sigma^2(1-h_{ii})}}= \frac{e_i}{\sqrt{\sigma^2(1-h_{ii})}} Var[e(i)] e(i)=σ2(1hii) ei/(1hii)=σ2(1hii) ei

如果使用 M S 残 MS_{残} MS 估计 σ 2 \sigma^2 σ2 ,你会发现这与上篇文章的学生化残差一模一样

R-学生残差

但是 M S 残 MS_{残} MS 中仍然包含了第 i i i 个点的信息,这与剔除法的思路是冲突的

所以,再求剔除了第 i i i 个点的残差均方,记为 S ( i ) 2 S^2_{(i)} S(i)2 ,定义如下

( n − p − 1 ) S ( i ) 2 = ∑ j ≠ i ( y j − x j ′ β ^ ( i ) ) 2 (n-p-1)S^2_{(i)}=\sum_{j\neq i}(y_j-x'_j\hat{\beta}_{(i)})^2 (np1)S(i)2=j=i(yjxjβ^(i))2

利用上文的两矩阵关系

[ X ( i ) ′ X ( i ) ] − 1 = ( X ′ X ) − 1 + ( X ′ X ) − 1 x i x i ′ ( X ′ X ) − 1 1 − h i i [X'_{(i)}X_{(i)}]^{-1}=(X'X)^{-1}+\frac {(X'X)^{-1}x_ix'_i(X'X)^{-1}}{1-h_{ii}} [X(i)X(i)]1=(XX)1+1hii(XX)1xixi(XX)1

两边右乘 X ′ y − x i y i X'y-x_iy_i Xyxiyi ,得

β ^ ( i ) = β ^ − ( X ′ X ) − 1 x i y i + ( X ′ X ) − 1 x i x i ′ ( X ′ X ) − 1 ( X ′ y − x i y i ) 1 − h i i \hat{\beta}_{(i)}=\hat{\beta}-(X'X)^{-1}x_iy_i+\frac {(X'X)^{-1}x_ix'_i(X'X)^{-1}(X'y-x_iy_i)}{1-h_{ii}} β^(i)=β^(XX)1xiyi+1hii(XX)1xixi(XX)1(Xyxiyi)

化简为

β ^ − β ^ ( i ) = ( X ′ X ) − 1 x i e i 1 − h i i \hat{\beta}-\hat{\beta}_{(i)}=\frac{(X'X)^{-1}x_ie_i}{1-h_{ii}} β^β^(i)=1hii(XX)1xiei

代入定义中

∑ j ≠ i [ y j − x j ′ β ^ + x j ′ ( X ′ X ) − 1 x i e i 1 − h i i ] 2 = ∑ j = 1 n [ y j − x j ′ β ^ + x j ′ ( X ′ X ) − 1 x i e i 1 − h i i ] 2 − [ y i − x i ′ β ^ + x i ′ ( X ′ X ) − 1 x i e i 1 − h i i ] 2 = ∑ j = 1 n [ e j + h j i e i 1 − h i i ] 2 − e i 2 ( 1 − h i i ) 2 \begin{align*} &\sum_{j\neq i}\left[y_j-x'_j\hat{\beta}+ \frac{x'_j(X'X)^{-1}x_ie_i}{1-h_{ii}}\right]^2\\ &=\sum^n_{j=1}\left[y_j-x'_j\hat{\beta}+ \frac{x'_j(X'X)^{-1}x_ie_i}{1-h_{ii}}\right]^2- \left[y_i-x'_i\hat{\beta}+ \frac{x'_i(X'X)^{-1}x_ie_i}{1-h_{ii}}\right]^2\\ &=\sum^n_{j=1}\left[e_j+\frac{h_{ji}e_i}{1-h_{ii}}\right]^2- \frac{e^2_i}{(1-h_{ii})^2} \end{align*} j=i[yjxjβ^+1hiixj(XX)1xiei]2=j=1n[yjxjβ^+1hiixj(XX)1xiei]2[yixiβ^+1hiixi(XX)1xiei]2=j=1n[ej+1hiihjiei]2(1hii)2ei2

将第一项展开,得

∑ j = 1 n [ e j + h j i e i 1 − h i i ] 2 = ∑ j = 1 n e j 2 + 2 e 1 − h i i ∑ j = 1 n e j h j i − e i 2 ( 1 − h i i ) 2 ∑ j = 1 n h j i 2 \sum^n_{j=1}\left[e_j+\frac{h_{ji}e_i}{1-h_{ii}}\right]^2= \sum^n_{j=1}e^2_j+\frac{2e}{1-h_{ii}}\sum^n_{j=1}e_jh_{ji}- \frac{e^2_i}{(1-h_{ii})^2}\sum^n_{j=1}h^2_{ji} j=1n[ej+1hiihjiei]2=j=1nej2+1hii2ej=1nejhji(1hii)2ei2j=1nhji2

由于 H y = H y ^ Hy=H\hat{y} Hy=Hy^ H H H 是对称幂等的,所以

∑ j = 1 n e j h j i = 0 , ∑ j = 1 n h j i 2 = h i i \sum^n_{j=1}e_jh_{ji}=0,\sum^n_{j=1}h^2_{ji}=h_{ii} j=1nejhji=0,j=1nhji2=hii

所以

( n − p − 1 ) S ( i ) 2 = ∑ j = 1 n e j 2 + h i i e i 2 ( 1 − h i i ) 2 − e i 2 ( 1 − h i i ) 2 = ∑ j = 1 n e j 2 − e i 2 1 − h i i = ( n − p ) M S 残 − e i 2 1 − h i i \begin{align*} (n-p-1)S^2_{(i)}&=\sum^n_{j=1}e^2_j+\frac{h_{ii}e^2_i}{(1-h_{ii})^2} -\frac{e^2_i}{(1-h_{ii})^2}\\ &=\sum^n_{j=1}e^2_j-\frac{e^2_i}{1-h_{ii}}\\ &=(n-p)MS_{残}-\frac{e^2_i}{1-h_{ii}}\\ \end{align*} (np1)S(i)2=j=1nej2+(1hii)2hiiei2(1hii)2ei2=j=1nej21hiiei2=(np)MS1hiiei2

最终式为

S ( i ) 2 = ( n − p ) M S 残 − e i 2 / ( 1 − h i i ) n − p − 1 S^2_{(i)}=\frac{(n-p)MS_{残}-e^2_i/(1-h_{ii})}{n-p-1} S(i)2=np1(np)MSei2/(1hii)

R R R-学生残差为

t i = e i S ( i ) 2 ( 1 − h i i ) t_i=\frac{e_i}{\sqrt{S^2_{(i)}(1-h_{ii})}} ti=S(i)2(1hii) ei


http://www.ppmy.cn/ops/129960.html

相关文章

【问题解决】pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。

今天配置完poetry环境变量之后pnpm不能用了 具体报错 pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后再试一次。 所在位置 行:1 字符: 1pnpm run dev~~~~ Ca…

零跑汽车嵌入式面试题汇总及参考答案

C++ 的三大特性是什么? C++ 的三大特性分别是封装、继承和多态。 封装 概念:封装是把数据和操作数据的函数绑定在一起,对数据的访问进行限制。通过将数据成员声明为私有或保护,只允许通过公共的成员函数来访问和修改数据,从而隐藏了类的内部实现细节。这有助于提高代码的安…

安装使用docker harbor并推送镜像到仓库

1.概要 通过上一章节的讲解,我们基本了解了docker的操作命令,在文章的最后我们成功的推送一个镜像到DockerHub的镜像仓库。从流程上说,操作过程可以说很完美,但是整个推送过程消耗的时间太长,我们消耗了大量时间在访问…

spring中bean的四种创建方式

本次分享一下spring中bean的四种创建方式 1. 方式一:普通配置 <bean id"myBean" class"cn.cjc.MyBean"> </bean>2. 方式二:集成静态工厂 // 准备静态工厂 public class CarFactory { //静态方法&#xff0c;返回一个对象 public static Car…

webSocket简单接收发送案例

pom添加&#xff1a; <!-- websocket--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId></dependency> socket服务实现 import com.alibaba.fastjson.JSON; impo…

【Qt】系统相关——多线程、Qt多线程介绍、常用函数、线程安全、网络、UDP Socket、TCP Socket

文章目录 Qt系统相关1. 多线程1.1 Qt多线程介绍1.2 常用函数1.3 线程安全 2. 网络2.1 UDP Socket2.2 TCP Socket Qt 系统相关 1. 多线程 1.1 Qt多线程介绍 QThread 代表一个在应用程序中可以独立控制的线程&#xff0c;它还可以和进程中的其他线程共享数据。QThread 对象管理…

无人机避障——路径规划篇(一) JPS跳点搜索算法A*算法对比

JSP 跳点搜索算法与改进 A*算法对比 一、算法概述: 跳点搜索(Jump Point Search,JPS)算法:一种用于路径规划的启发式搜索算法。它主要用于在网格地图(如游戏地图、机器人运动规划地图等)中快速找到从起点到终点的最短路径。该算法在改进 A*算法的基础上进行了优化,通过跳过一…