OLS回归分析理论基础

前言

由于目前的实证研究中需要对变量间的因果关系进行定量分析，所以以伍德里奇和陈强两版本计量经济学教材为基础，有针对性的整理出OLS回归的相关知识，以解决实证分析中的实际问题。

1）本文重点：本文重点研究OLS下面板数据的有效性，重点关注遗漏变量问题

2）本文缺陷：本文为有倾向性的知识整理，并非两本教材的整体综述；由于笔者才疏学浅，重文字描述轻数学推导。

一数据结构分类

OLS的数据集通常为结构化数据（至少经过处理后为结构化数据）；按照我们关心的个体（可能是一个人、一个城市、一个指标等）和时间两个维度，可以将数据集大致分为四种类型：

1.横截面数据（cross-sectional data）

简称截面数据，某特定时点上个体变量（通常是一个时间点上多个个体）的取值所形成的数据集，如三个省份在2023年本科线分数：

省份	本科线分数
001	424
002	508
003	476

2.时间序列数据（time series data）

时间序列是指某个个体在不同时间点上（通常是一个个体在多个时间点上）的取值所形成的数据集，如近三年某省份本科线分数：

年份	本科线分数
2021	431
2022	408
2023	475

3.混合截面数据（pooled cross section）

多于一个时点的多个个体变量（在至少两个时点对多个个体的有放回随机抽样；不同时点的个体不一定相同）的取值所形成的数据集，如近三年各省份本科线分数（抽样，n=2）：

省份	2021	2022	2023
001	465	476	-
002	527	-	-
003	-	510	-
004	-	-	509
005	-	-	455

4.面板数据（panel data）

由横截面数据中的每个个体变量的一个时间序列组成（多个个体在多个时间点上的取值）；如果解释变量包含被解释变量的滞后值，称为“动态面板”，否则称为“静态面板”；面板数据通常不满足独立同分布假定，因为同一个个体在不同时期的扰动项一般存在自相关,但面板数据有三个优点，其一是可以解决普遍存储的遗漏变量问题，遗漏变量常由不可观测的个体差异造成，如果这种个体差异不随时间而改变，则面板数据是解决遗漏变量问题的有效方法。其二，面板数据可以提供个体的动态行为信息，由于其拥有横截面和时间两个维度，往往可以解决其中一个维度不能解决的问题。第三，由于同时拥有两个维度，其数据量往往更大，从而可以提高估计的精确度。例如，省份001~005在2021~2023年的本科分数线：

省份	2021	2022	2023
001	465	476	435
002	527	497	480
003	476	510	432
004	523	540	509
005	544	501	455

二 OLS估计量可靠性

OLS线性模型的“线性”，使其具有很强的可解释性（因为人类自己不能理解非线性的过程）；而OLS的可解释性，依赖于我们对“总体”真实回归系数 $\beta$ 的准确估计；总体系数我们无法观测，只能通过样本估计，得到回归系数的估计值 $\hat{\beta }$ ；所以，要使OLS的可解释性“靠得住”，就要保证 $\hat{\beta }$ 与 $\beta$ 的差异足够小。为此，要量化差异的大小（换句话说，量化估计的可靠性），我们从“偏差”和“方差”两个维度进行分析，幸运的是，当OLS估计量满足某些特定的假定时，我们就可以确信OLS估计量参数估计的偏差或方差足够小，使估计量的可解释性具有可信度。打破某些OLS估计量的假设可能不会降低模型的预测能力，但会使系数产生偏差或方差。当我们的目标只是预测能力，而不关系变量间的因果关系时，适当打破一些假设或许可以接受。

对于OLS的可靠性分析，以截面数据作为出发点，并在模型无偏性和一致性的问题中，面板数据作为解决方案之一被引出。OLS的有效性分析可以分为两个部分，首先是基于有限样本或小样本的精确性质，如OLS在高斯-马尔可夫假定以及经典线性模型假定下（接下来将给出假设内容）的最优无偏估计，就是一个有限样本性质。除了有限样本性质，大样本容量的渐进性质，可以使样本容量无限增加的情况下，拥有比有限样本性质更可喜的性质，其假设相对于小样本来说较弱，更加容易实现；且大样本下不需要研究统计量的精确分布，只需要研究其渐进分布，也同样降低了模型实现的难度。大样本的代价是要求样本容量大，一般要求至少n>=30（这好像不是什么难事）。

1.小样本性质

（1）高斯-马尔科夫定理：偏差与方差

在分析估计参数的偏差和方差之前，首先给出“高斯-马尔科夫定理”及其定义的五个基本假设，这是一个非常重要且有力的理论工具，它向我们说明了为什么要使用OLS方法，在横截面数据分析中，当模型满足高斯-马尔科夫5个假定时，在一群线性无偏估计中，OLS具有最小的方差；高斯-马尔科夫假定的前四项能够保证模型系数的无偏性，得到模型参数的无偏估计，如果其中一个假定不成立，那么无偏性一般也不成立；最后一项假定能够保证模型估计量拥有最小方差，当最后一项假定不成立时，OLS估计仍然是无偏的，但不再具有最小方差，其定义及五个假定如下：

【高斯-马尔科夫定理】：在下述5个基本假设下，OLS参数估计将是总体参数的最优线性无偏估计（BLUE），其中5个基本假设如下：

【假定1-模型线性假定】：OLS模型是参数的线性函数，而因变量y和自变量x可以是原变量的任意函数（如自然对数和平方等）

【假定2-随机抽样】：假定样本数据是从总体中随机抽取的，如果样本不是随机抽取的，例如存在选择性抽样偏差或非随机样本，那么回归的结果可能无法推广到整个总体。

【假定3-条件均值为零】：即零条件均值，给定数据矩阵X，扰动项条件期望为0。当自变量与因变量的关系被错误的设定、当一个变量在总体中应该以对数出现时我们却使用了其水平值（或相反）、当我们漏掉一个与任一自变量相关的重要因素时，都可能使当前假定不成立

【假定4-不存在严格多重共线性】：自变量之间不存在严格的线性关系；完全共线性是指，一个自变量刚好是其他自变量的一个线性组合，重要的是允许自变量之间存在相关关系，只是不能完全相关

【假定5-同方差性】：假定5意味着以解释变量为条件的误差项u的方差，不管解释变量出现怎样的组合，都是一样的，如果此假定不成立，则称为异方差性。方差的大小在实践中也很重要，方差越大，则意味着估计量的置信区间越大和假设检验越不准确。

（2）经典线性模型（CLM）假定

除了上述提到的5个高斯-马尔科夫假定，我们还假定，总体中不可观测的误差是正态分布，且有假定6必然有假定3和假定5；如果误差不是正态分布，那么t统计量的分布不再恰好是T分布，F统计量也不再完全服从一个F分布；

【假定6-误差正态性假定】：总体误差独立于自变量，且服从均值为0和方差为 $\sigma ^{2}$ 的正态分布；

假定1~ 假定6共同称为经典线性模型（CLM）假定，在CLM假定下，OLS在所有的无偏估计中具有最小方差（不局限于线性估计），正态性对OLS的无偏性不起任何作用，也不影响OLS在高斯-马尔科夫假定下是最优线性无偏估计的结论，但基于t统计量和F统计量的准确推断是基于假定6,而t统计量和F统计量在检验自变量对模型的单独/联合显著性时非常重要。

2.大样本容量下OLS的渐进性质

在CLM假定下OLS在所有无偏估计中具有最小偏差的性质是一个有限样本性质，对任意样本容量有效，其中仅限制最低样本数n>=k+1(其中k是参数个数)；除了有限样本性质外，大样本容量的渐进性质也很重要。

（1）OLS的一致性

如果随着样本量的增加，估计量“收敛”到要估计的参数的真实值，则估计量是一致的。更精确一点,一致性意味着，随着样本数量的增加，估计量的样本分布越来越集中在真实参数值上；在假定1~ 假定4下，OLS参数估计量都是总体参数的无偏估计；如果我们的假定只有零相关，那么OLS就是一致的；描述假定如下：

【假定3' 零均值与零相关】：对所有参数都有，E(u)=0和Cov(x,u)=0；

假定3'弱于假定3，OLS在假定3下既是无偏的也是一致的，但在假定3'下仅是一致的；如果误差与任何一个自变量相关，那么OLS就是有偏且不一致的估计，即使当样本量无限增大；

（2）OLS的渐进正态性

OLS的一致性是大样本推断的必要条件，但不是充分条件，仅知道估计值随着样本量的增大越来越接近总体值，还不足以让我们对参数进行检验，为了进行检验，还需要知道OLS估计量的抽样分布，在CLM的6个假定下，抽样分布是正态的，这个结论是推断t分布和F分布的基础。在大样本容量情况下，根据中心极限定理，OLS估计量近似正态分布，对误差分布的唯一限制是，它具有有限方差，同时假定了u的零条件均值和同方差性；如果条件方差不是常数，那么不论样本容量多大，t统计量和置信区间都是无效的，在异方差情况下，中心极限定理也不能保证正态渐近性。

（3）OLS的渐近有效性

在高斯-马尔科夫假定下，OLS在一类估计量中也是渐近有效的。OLS渐近有效是指该种估计方法在中小样本时可能不是最有效的，但随着样本数的增加，慢慢变得有效。在大样本容量下，即使因变量不近似正态分布，我们仍可以继续应用OLS并使用t统计量和F统计量进行检验。

（4）拉格朗日乘数检验

在大样本容量下的渐进分析背景下，允许我们使用除t统计量和F统计量之外的其他统计量对模型进行检验，如“拉格朗日乘数LM统计量”，该统计量基于高斯-马尔科夫假定，不需要正态性假定。在大样本情况下，LM检验和F检验的结果较为近似。

三函数形式讨论

在上节高斯-马尔科夫的线性假定中曾提到，OLS模型是参数的线性函数，而因变量y和自变量x可以是原变量的任意函数，在本节将着重讨论函数形式的变形和推广，这种变形和推广在实际应用中也会经常出现。

1.对数形式

对数形式的函数形式（其中log(x)均表示x的自然对数），通过对自变量和因变量是采取水平值x,y,还是对数值log(x),log(y)进行区分，可以将函数形式分为四类，如下表：

模型	因变量	自变量	对 $\beta _{1}$ 的解释
水平值-水平值	y	x	x变化1单位,y变化的单位
对数-水平值	y	log(x)	x变化1%,y变化的单位
水平值-对数	log(y)	x	x变化1单位,y变化的百分比（半弹性模型）
对数-对数	log(y)	log(x)	x变化1%,y变化的百分比（常弹性模型）

从上表我们可以看到，当用自变量或因变量的对数取代水平值时，模型系数的解释方式也发生了相应的变化，而且由于斜率系数不随测度单位而变化，所以可以忽略以对数形式出现的变量的度量单位。在应用研究中如此广泛的使用对数，还有其他几方面的原因。首先，当y>0时，使用log(y)作为因变量的模型，通常比y的水平值作为因变量的模型更接近CLM假定。严格为正的变量，其条件分布常常具有异方差性或偏态性；取对数后，即使不能消除这两方面的问题，也可以使之有所缓和。此外，取对数通常会缩小变量的取值范围，在某些情况下还相等可观。这就使得估计值对因变量或自变量的异常观测不是那么敏感。至于何时取对数，没有一个固定模式，但使用对数所受到的一个限制是，变量不能取零或负值。但在y非负而又可等于零的情形中，有时采用log(1+y)。一般而言，当数据并非多数为0时，使用log(1+y)，并把估计值做变量为log(y)时的解释，通常是可以解释的。使用对数形式的因变量的一个缺陷是，更难以预测原变量的值。不过，把对log(y)的预测转变为对y的预测是相当容易的（接下来将详细讨论），一个相关的问题是，将y作为因变量的模型的R平方，与log(y)作为因变量的模型的R平方进行比较，是不合逻辑的，他们解释的是不同变量的变异。

当因变量为log(y)时对y的预测：

（1） $logy^{\hat{}}$ 为 $x_{1},x_{2},...,x_{k}$ 对 $logy$ 的拟合值

（2）对每个观测i，都求出 $m_{i}^{\hat{}}= exp(logy_{i}^{\hat{}})$

（3）在不设截距的情况下求y对 $m^{\hat{}}$ 的回归，即做一个过原点的简单回归， $m^{\hat{}}$ 的系数就是 $a_{0}^{\hat{}}$ 的估计值

（4）根据式 $y^{\hat{}}=a_{0}^{\hat{}}exp(logy^{\hat{}})$ ,得到y的预测值

2.二次模型

为描述递减或递增的边际效应，也常常用到二次函数，当模型同时存在x的一次型和二次型，考虑最简单情形：

$y=\beta _{0}+\beta _{1}x+\beta _{2}x^{2}+u$ 其估计方程为 $\hat{y}=\hat{\beta }_{0}+\hat{\beta }_{1}x+\hat{\beta }_{2}x^{2}$

这说明，x和y之间的斜率取决于x的值,所估计的斜率是 $\hat{\beta }_{1}+2\hat{\beta }_{2}x$ ，如果代入x=0,就会看到, $\hat{\beta }_{1}$ 可被解释为x=0到x=1的近似斜率，此外，都需要考虑第二项 $2\hat{\beta }_{2}x$ 。

当x的系数为正，而 $x^{2}$ 的系数为负时，二次式便具有抛物线形态。总存在一个正的x值，此时x对y的影响为零；在此点之前，x对y的影响为正，而在此点之后，x对y的影响为负，实践中，重要的是知道这个转折点在哪。在所估计的 $\hat{\beta }_{1}>0$ 和 $\hat{\beta }_{2}<0$ 的方程中，转折点（或函数最大值点），总是x的系数与2倍的 $x^{2}$ 的系数之比：

$x^{*}=\left | \frac{\hat{\beta _{1}}}{2\hat{\beta _{2}}} \right |$

相反的，当x的系数为负，而 $x^{2}$ 的系数为正时，二次式便具有U型而不是抛物线型，这就刻画了x对y的递增影响。除了二次式，回归模型还可能包含三次、四次式，对这样模型的估计并没有什么新的困难，但是对参数的解释更难以处理。

3.虚拟变量

在OLS估计量中，由于变量值的大小总是传递了有用的信息，所以自变量通常都具有定量的含义。有时在经验研究中，我们还必须在回归模型中考虑定性因素，定性信息通常以二值信息的形式出现，有关信息可以通过定义一个二值变量或一个0-1变量来刻画，我们称之为虚拟变量。在某种意义上，虚拟变量的取值可以是任意的而并非一定是0-1，使用0-1变量来刻画定性信息的真正好处，在于它能够使回归模型中的参数有十分自然的解释。

在只有一个虚拟变量的简单情形中，设 $x_{1}$ 为虚拟变量：

$y=\beta _{0}+\delta _{0}x1+\beta _{1}x2+u$

用 $\delta _{0}$ 表示 $x_{1}$ 的参数，以强调虚拟变量参数的含义,参数 $\delta _{0}$ 具有如下含义：给定同等的 $x_{2}$ ， $\delta _{0}$ 是 $x_{1}=0$ 和 $x_{1}=1$ 之间在y上的差异。在上述模型中，当 $x_{1}=0$ 时截距是 $\beta _{0}$ ，当 $x_{1}=1$ 时截距是 $\beta _{0}+\delta _{0}$ ，由于只有两组数据，所以我们只需要两个不同的截距。另外，在应用研究中有一个常见的设定，当自变量中有一个或多个虚拟变量时，因变量则以对数形式出现，在这种情况下，虚拟变量的系数具有一种百分比解释。当然，我们可以在模型中包含多个虚拟变量，此时，模型的总体截距表示基组截距，而某一组虚拟变量的系数，则表示了该组与基组之间在截距上的估计差异。

4.交互变量

因变量对一个解释变量的偏效应、弹性或半弹性，有时很自然的取决于另一个解释变量的大小，比如，在下列简单交互模型：

$y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\beta _{3}x_{1}x_{2}+u$ （1）

$x_{1}$ 对y的偏效应为：

$\frac{\Delta y}{\Delta x_{1}}=\beta _{2}+\beta _{3}x2$ （2）

若 $\beta _{3}$ >0,则式（2）意味着， $x_{2}$ 越大，增加一单位 $x_{1}$ 导致y增加的越大，换言之， $x_{1}$ 与 $x_{2}$ 之间存在着交互效应。

模型的交互对象同样可以为两个虚拟变量，或一个虚拟变量与一个定量变量；在后一种情况下，交互项可能会使模型出现不同的斜率。

四模型设定和数据问题

如果一个多元回归模型没有正确的解释自变量和因变量之间的关系，那它就存在函数形式误设的问题，如遗漏一个关键变量、特定形式的测量误差或解释变量与被解释变量相互作用等，都会导致误差u和解释变量x相关（即内生解释变量），从而导致OLS估计量的偏误和不一致性。另外，数据本身的问题，如多重共线性、强影响值等，同样会导致额外误差，由于数据本身的问题不是本文关心的重点，所以不展开分析。

很多经济关系是非线性的，因此，多元线性回归只能看作是非线性经济关系的一阶线性近似；但有时非线性关系是重要的，我们可以使用RESET对高次项的显著性进行检验，其思想是，如果怀疑非线性项被遗漏了，就将非线性项引入方程，并检验其系数是否显著，但RESET的缺陷是，当模型检验被拒绝后，它不能为我们该怎么做提供一个方向；且只要被遗漏的变量的期望值是模型中所包含自变量的线性函数，RESET就无法识别出变量遗漏问题。函数形式的正确设定，需要从研究领域的理论出发，通过理论模型的推导得到回归方差的具体形式，在缺乏理论指导的情况下，可以先从线性模型出发，然后根据RESET检验决定是否加入高次项。

1.无关变量

当模型中含有无关变量，说明我们对模型进行了过度设定，一个或多个自变量对因变量的预测没有贡献却仍被放在模型中；此时，无关变量的模型系数为0（实际情况下可能非常接近于0），模型包含无关变量，并不会影响模型的无偏性，但却会对OLS估计量的方差有不良影响。

2.遗漏变量

由于在实际研究中我们很难获得所有对因变量产生影响的自变量，因此遗漏变量几乎是普遍存在的问题，说明我们对模型设定不足；当遗漏变量没有被加入模型时，将被归入到扰动项中；但并不是所有遗漏变量都需要处理，可以分为两种情况进行讨论：

当遗漏变量与自变量不相关：此时，扰动项与解释变量不相关；根据大样本理论，OLS依然可以一致的估计模型参数，但由于遗漏变量被纳入扰动项，这可能增大扰动项的方差；此时，可以不做特别处理，也不必将其加到模型中；

当遗漏变量与自变量相关：此时，根据OLS大样本定理,OLS不再是一致估计，其偏差称为“遗漏变量偏差”，此时模型参数的估计将是有偏的；

解决“遗漏变量偏差”的方法主要有：

（1）加入控制变量：加入控制变量的方法，试图把遗漏的变量补上去；在多数研究中，各解释变量的作用并不是对称的，通常方程中有些解释变量是我们研究的核心，而对方程中另一些解释变量的兴趣不大，把这些我们不感兴趣的变量加入模型中是为了控制那些对被解释变量有影响的遗漏变量，这类变量便称为“控制变量”

（2）使用“代理变量”：代理变量就是某种与我们在分析中试图控制而又观测不到的变量相关的东西，我们用可观测的代理变量，代替观测不到的遗漏变量加入模型中，要做这个操作，代理变量要满足几个基本假设，首先，代理变量要与遗漏变量相关，设代理变量为x,遗漏变量为 $x^{*}$ ,则由简单回归方程定义两者的关系：

$x^{*}=\delta _{0}+\delta _{1}x+v$

在建立回归方程时，我们用x代替 $x^{*}$ 加入模型，我们称之为遗漏变量问题的植入解。但由于x与 $x^{*}$ 并不相同，为得到参数的一致估计量我们还需要分别对u和v进行假定，首先，u与遗漏变量、代理变量及其他自变量都不相关；其次，v与代理变量及其他变量均不相关。

（3）工具变量法：工具变量法是将未观测到的变量留在误差项中，但是不用OLS估计模型，而是运用一种承认存在遗漏变量的估计方法。为描述该方法，设简单回归模型：

$y=\beta _{0}+\beta _{1}x+u$ (1)

其中我们认为x与u相关：

$cov(x,u)\neq 0$ (2)

假设有可观测新变量z,满足两个假定，则称z是x的工具变量：

其1，z与u不相关，即 $cov(z,u)=0$ (3)

其2，z与x相关，即 $cov(z,x)\neq 0$ (4)

z与u的协方差需凭经验决定，z与x的协方差可通过简单回归模型进行检验

$x=\pi _{0}+\pi _{1}z+\tau$ (5)

利用（1），z与y间协方差为

$cov(z,y)=\beta _{1}cov(z,x)+cov(z,u)$ (6)

在（3）和（4）的假定下，可解出

$\beta _{1}=\frac{cov(z,y)}{cov(z.x)}$ (7)

给定随机样本，在（7）的分子分母中约去样本容量后，得到 $\beta _{1}$ 的工具变量（IV）估计量 $\hat{\beta }_{1}=\frac{\sum_{n}^{i=1}(z_{i}-\bar{z})(y_{i}-\bar{y})}{\sum_{n}^{i=1}(z_{i}-\bar{z})(x_{i}-\bar{x})}$ (8)

$\beta _{0}$ 的IV估计量为 $\hat{\beta }_{0}=y-\hat{\beta }_{1}x$ (9)

当z=x时，或者说当x是外生的时，它可做自身的IV,IV估计量等同于OLS估计量。大数定律下，如果满足（3）和（4）的假定， $\beta _{1}$ 的IV估计量具有一致性，如果任一假定不成立，IV估计量都将是非一致的。为了对 $\beta _{1}$ 进行推断，我们需要一个可用于计算t统计量和置信区间的标准误，通常的方法是增加一个同方差的假定，不过同方差性的假定是以工具变量z而不是以内生变量x为条件来表述的，除了前面关于u,x,z的假定之外，我们增加：

$E(u^{2}|z)=\sigma ^{2}$ (10)

当z与u不相关，而z与x存在相关时，IV是一致的，但当z与x只是弱相关时IV估计值可能有大的标准误。z与x之间的弱相关可能产生甚至是更加严重的后果，即使z与u只是适度相关，IV估计量也会有大的渐进偏误。

（4）使用面板数据：在面板数据中，当遗漏变量不随时间变化时，我们可以用固定效应或随机效应估计量来消除非观测效应，排除了不随时间变化的变量，具体实现方式将在“面板数据的估计策略“中阐述。尽管这个方法很有用，但其首先需要我们有面板数据，其次，固定效应估计量不能解决与解释变量相关的随时间而变化的遗漏变量问题。

（5）随机实验与自然实验：遗漏变量是指研究中未被控制或测量的潜在变量，这些变量可能对因果关系的解释产生混淆或误导。随机实验相对于自然实验具有更好的控制遗漏变量的能力，因此在推断因果关系时，随机实验的结果更可靠；然而，在实践中，并不是所有的研究都可以进行随机实验，这时研究者需要采用其他方法来尽可能的控制和纠正遗漏变量的影响。

3.特定形式的测量误差

我们有时不能搜集到那些确实影响因变量的数据，当我们在一个回归模型中使用经济变量不精确的度量时，我们的模型就包含了测量误差。当因变量含有测量误差，且该误差与一个或多个解释变量系统相关，就会导致OLS的误差；如果该误差只是与解释变量无关的随机报告误差，那么OLS就完全适用。当解释变量含有误差，且该误差与模型误差项相关时，就会导致内生性问题。例如，如果解释变量的观测值中存在系统性的偏差或测量误差，且这些误差与模型误差项相关，那么模型的估计结果可能受到误导。

五面板数据的估计策略

面板数据同时具有横截面和时间两个维度，使得它的估计策略更加灵活多样。

1.混合回归模型

混合策略将面板数据看做截面数据进行回归，忽略时间维度，对所有的个体和所有时间点一视同仁，使用完全相同的回归方程；但这种策略忽略了个体间不可观测的异质性，而该异质性可能与自变量相关从而导致估计不一致。同一个体在不同时期的扰动项之间往往存在自相关。为此，对标准差的估计应该使用聚类稳健的标准差，而所谓聚类，就是由每个个体不同时期的所有观测值所组成，同一聚类的观测值允许存在相关性，而不同聚类的观测值则不相关。混合回归的基本假设是不存在个体效应，这个假设必须进行统计检验。

2.个体独立回归模型

是相对混合回归另一个方向的极端策略，其为每一个个体估计一个单独的回归方程，这种策略忽略了个体间的共性，同时使每个子模型样本量大幅度减少，且当个体数量很多时，子模型的数量将是一场灾难。

3.个体效应模型

在实践中常采用折中的估计策略，即假定个体的回归方程拥有相同的斜率，但可以有不同的截距项，以此来捕捉异质性。在面板数据中，我们观测不到但对因变量有影响的变量分为两类，一类是恒常不变的，另一类是随时间而变的，我们将不随时间而变的恒常变量记为 $a_{i}$ ,其中i表示横截面单元,，则简单回归模型为：

$y_{it}=\beta _{0}+\beta _{1}x_{it}+a_{i}+u_{it}$ （1）

其中，i表示个人，t表示时期， $a_{i}$ 表示影响 $y_{it}$ 的，且观测不到的在时间上恒定的因素；通常把 $a_{i}$ 称为“非观测效应”或“固定效应”； $u_{it}$ 被称作“特异性误差”或“时变误差”。在式（1）中，由于 $a_{i}$ 观测不到，故可将其与 $u_{it}$ 合并为复合误差 $v_{it}=a_{i}+u_{it}$ ，则式一可改写为：

$y_{it}=\beta _{0}+\beta _{1}x_{it}+v_{it}$ （2）

为了使OLS估计符合一致性，必须假定 $v_{it}$ 与 $x_{it}$ 不相关，因此，即使我们假定特异性误差 $u_{it}$ 与 $x_{it}$ 不相关，但如果 $a_{i}$ 与 $x_{it}$ 相关的话，混合OLS估计就是偏误且不一致的，这是由于遗漏了时间上恒常的变量引起的。当 $a_{i}$ 与 $x_{it}$ 相关时，我们使用固定效应估计量，在估计之前对模型做一个变换，把非观测效应 $a_{i}$ 消除掉，任何不随时间而变的解释变量也将随着 $a_{i}$ 一起被消除掉；当 $a_{i}$ 与 $x_{it}$ 不相关时，我们使用随机效应模型估计量，随机效应模型估计量使未被考虑的异因只能引起复合误差项中的时序相关，而不会产生符合误差与解释变量之间的相关。

固定效应模型：固定效应模型有三种估计方法，分别为“固定效应估计量（FE）”，“最小二乘虚拟变量模型(LSDV)”和“一阶差分法（FD）”，考虑固定效应法等同于考虑每个观测有一个不同的截距。下面分别介绍三种方法的实施流程。

（1）固定效应估计量（FE）：对于简单回归模型

$y_{it}=\beta _{1}x_{it}+a_{i}+u_{it}$ (1)

对每个i求方程在时间上的均值，得到

$\bar{y} = \beta _{1}\bar{x_{i}}+a_{i}+\bar{u_{i}}$ (2)

因为 $a_{i}$ 在时间上不变，故它在两式中均出现，如果对每个t用式（1）-式（2），则得到

$y_{it}-\bar{y_{i}}= \beta _{1}(x_{it}-\bar{x_{i}})+(u_{it}-\bar{u_{i}})$ 或 $\ddot{y}_{it}= \beta _{1}\ddot{x}_{it}+\ddot{u}_{it}$ （3）

其中， $\ddot{y}_{it}= y_{it}-\bar{y}_{i}$ 是y的除去时间均值后的数据，对 $\ddot{x}_{it}$ 和 $\ddot{u}_{it}$ 类似。在方程（3）中，非观测效应 $a_{i}$ 已经消失，从而我们可以使用混合OLS去估计式（3）；基于除时间均值变量的混合OLS估计量被称为‘固定效应估计量’或“组内估计量”。虽然不能把时间上恒常的哪些变量本身包括到固定效应模型中来，却能把他们同随时间而变的变量交互起来分析。

（2）虚拟变量回归(LSDV)：传统观点认为，非观测效应 $a_{i}$ 对每个i来说都是有待估计的一个参数，如果在原方程中引入（n-1）个虚拟变量（如果没用截距项，则引入n个虚拟变量）来代表不同的个体，则可以得到与上述FE模型相同的结果，但是，如果我们删除了某些不显著的个体虚拟变量，那么LSDV的结果就不会与FE相同。以上固定效应模型没有考虑时间效应，被称为“单向固定效应”，如果将“时间”引入模型，则称为“双向固定效应”，方法之一是引入一个时间趋势项，其仅依时间而变化，而不依个体而变化；方法之二是对每个时期定义一个虚拟变量，然后把（T-1）个时间虚拟变量包括在回归方程中（未包括的时间虚拟变量即为基期）。

（3）一阶差分法：若要消去非观测效应 $a_{i}$ ,还可以对同一截面不同时期的回归方程进行一阶差分 $y_{t}-y_{i,t-1} =\beta _{1}(x _{it}-x_{i,t-1})+(u _{it}-u_{i,t-1})$ ，对该差分形式的方程使用OLS就可以得到“一阶差分估计量”。

随机效应模型：对于回归方程（1），随机效应模型假设 $a_{i}$ 与解释变量 $x_{it}$ 均不相关，故OLS是一致的。如果我们相信 $a_{i}$ 与自变量不相关，则可用复合回归对参数做一致性估计，但是使用复合回归显然忽视了其他时期许多有用的信息，如果我们定义复合误差项为 $v_{it}=a_{i}+u_{it}$ ，由于 $a_{i}$ 在每个时期都是复合误差的一部分， $v_{it}$ 在不同时间上就应是时序相关的。因此我们可用广义最小二乘法来估计带有时序相关的模型，

然而，由于扰动项由 $\left (a _{i}+u_{it} \right )$ 组成，不是球形扰动项，因此OLS不是最有效率的。

六规范的实证研究

这部分梳理了实证研究的基本流程和重点

1.提出研究问题

提出好的研究问题，也许你的研究就成功了一半，总的来说，研究问题越具体、越新颖、越有可行性、则越好！

具体：简单来说，在以”x对y有何作用“这样的句型上，应该明确x与y具体是什么

有趣：你研究的问题别人会感兴趣吗？为什么我们要在乎你的问题？知道你的答案后，能影响人们对世界的某个方面的看法吗？你的研究问题为什么重要？

新颖：论文的核心价值在于它的创新性，边际贡献，做研究的过程是创造新知识的过程。

可行：有数据作为依托

有了潜在的研究问题后，就可以进行初步的探索性研究，比如，查看文献，看别人是否做过类似研究，或大致了解数据是否可得。

2.文献回顾

只有当自己已经有了一定想法后，再系统的看文献，这样才知道自己究竟想看什么，也更能带着批判性的眼光去看

3.建立理论模型

回归分析一般只能说明变量之间的相关关系，面对变量之间的因果关系做出判断，长需要依赖于经济理论，因此，即使无法提供完整的理论模型，也应进行一定的理论分析

4.收集数据

正式研究前，应大致知道所需要数据是否存在可得

5.使用适当的计量方法：

二元标签：probit/logit

非负整数：泊松回归

面板数据：固定效应、随机效应、时间效应动态面板

时间序列：先判断是否含单位根再决定计量方法

对于一般的数据，通常

先做OLS作为参照

画残差图，看扰动项是否符合经典假设

再进行严格检验，如果有所违背，则做相应的处理

另对数据的质量进行检验，判断是否存在多重共线性、极端值、弱工具变量等，并作相应调整

对回归函数的具体形式，可考虑线性，对数，双对数，非线性（边际效应不是常数）等

由于数据的可获得性，遗漏变量几乎不可避免，进行判断并作相应的处理

如果存在内生解释变量，一般需要找到有效的工具变量也能得到一致估计

七参考文献

《计量经济学导论——现代观点》（Introductory Econometrics A Modern Approach）[美]J.M.伍德里奇著中国人民大学出版社

《高级计量经济学及Stata应用》陈强著高等教育出版社