将线性模型拟合到时间序列时,通常使用最小二乘法在模型 y ^ ( t ) = a + b t \hat{y}(t) = a + bt y^(t)=a+bt中找到系数 a a a和 b b b,其中 y ^ ( t ) \hat{y}(t) y^(t)是时间 t t t的预测值,而的观测值是 y ( t ) y(t) y(t)。
残差平方和又称误差平方和(SSE),计算公式为:
S S E = ∑ i = 1 n ( y i − y ^ i ) 2 SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 SSE=i=1∑n(yi−y^i)2
其中 y i y_i yi为 i i i时刻的观测值, y ^ i \hat{y}_i y^i为 i i i时刻的预测值, n n n为观测数。
为了使其规范化,可以将SSE除以表示原始数据可变性的度量。一种常见的选择是使用总平方和(SST),它测量数据集中的总方差:
S S T = ∑ i = 1 n ( y i − y ˉ ) 2 SST = \sum_{i=1}^{n} (y_i - \bar{y})^2 SST=i=1∑n(yi−yˉ)2
其中 y ˉ \bar{y} yˉ为观测值的平均值。
然后,可以计算决定系数,也称为 R 2 R^2 R2,这是一个指标,表明因变量中方差的比例,可以从自变量预测:
R 2 = 1 − S S E S S T R^2 = 1 - \frac{SSE}{SST} R2=1−SSTSSE
R 2 R^2 R2范围从0到1,其中接近1的值表明该模型解释了结果变量的大部分方差,表明更线性的关系。
然而,如果想要一个专门衡量非线性的指标,可以考虑使用以下规范化值:
N L = S S E S S T = 1 − R 2 NL = \frac{SSE}{SST} = 1 - R^2 NL=SSTSSE=1−R2
对于被线性趋势很好地近似的时间序列,这种归一化线性度量(NL)将接近于0,对于不被线性趋势很好地近似的时间序列,这种归一化线性度量(NL)将接近于1。
如果不考虑模型和数据的上下文,使用 R 2 R^2 R2和 N L NL NL可能会产生误导。它们没有表明回归量是否与结果变量有因果关系,也没有表明模型是否是备选方案中最好的。查看残差并执行其他诊断检查以确保模型的适当性总是很重要的。