![计量经济学](https://wfqqreader-1252317822.image.myqcloud.com/cover/385/26832385/b_26832385.jpg)
§2.6 回归分析的应用——预测
一、预测概述
计量经济分析的目的之一就是预测。预测是关于未来事件可能结果的估计,对结果的估计依赖于过去和现在的信息。而预测信息就包含在回归分析模型中。把模型结果外推到样本区间以外,就能对被解释变量的未来值进行预测。
在时间序列分析中,预测就是指对事物未来状态的估计。在截面数据分析中,预测分析同样适用,此时的目的是预测当X取特定值X0时,Y的可能结果值为Y0。
点预测就是对预测对象的未来值给出一个估计值,区间预测就是给出预测对象实际值的一个置信区间。
由预测分析得到的信息有许多用途。经济系统中,预测常常用来指导经济政策和方针的制定。当预测到经济系统将出现高通货膨胀时,政府往往会提前采取紧缩的政策。当预测石油价格会上涨时,人们会增加石油的储备。预测结果还能用于指导建立模型。当预测结果与实际结果相差较大时,会利用误差信息对模型进行修正。
预测分事后模拟预测和事先预测。事后模拟预测指对样本区内已知Y的结果值的区间进行估计,也称为模拟值。事先预测指对样本区外未知Y的结果进行估计。
二、均值预测
在收入-消费模型中,我们得到样本回归模型为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0046_0107.jpg?sign=1739376223-9PHEXF45u4b3d3egYFZVcxJKVzakLtBT-0-1e14083d9639c3f59f67ffbcb023abbc)
其中是对应于给定Xi的Yi的总体均值E(Yi)的估计量。均值预测就是预测对于给定的X0,Y的条件均值的值,也就是预测总体回归线本身上的点。
利用式(2.82)进行预测,假定X0=2000,我们对Yi的均值E(Y|X0=2000)进行预测,预测的点估计为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0046_0108.jpg?sign=1739376223-yn5KMg0qssnTDfelBCScSX897G4XtIcG-0-edf37ec8dfcb5080932f4d4445a5702c)
其中是E(Y|X0)的估计量。可以证明,这个点预测是一个最佳线性无偏估计量。
是一个估计量,不同于它的真实值E(Y|X0)。因为
是随机变量
,
的函数,因此,
也是一个随机变量。
可以证明,是服从正态分布的,其均值为β1+β2X0,而方差为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0046_0109.jpg?sign=1739376223-ngfJIYBwa5F1j8WunTsGdTn3XmRgoJNz-0-a1a5c7a2b2ee677cb64612d60a600e44)
用σ2的无偏估计量代替式(2.84)中的σ2,可得
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0046_0110.jpg?sign=1739376223-4NQDEnmkcXFPQFBenDF3iQmhqobRpd7x-0-620828a85feb75ba0fed1e900af44002)
其中se()代表
的标准误。可以证明,式(2.85)中t服从自由度为n-2的t分布。据式(2.85)可得到E(Y|X0)的置信区间为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0047_0111.jpg?sign=1739376223-d3JJGROBLT7Spx8na3PrbWcYFY36rQHb-0-6186658da26421e84259a44bf84d6a10)
根据收入-消费例中数据(表2.4)可得
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0047_0112.jpg?sign=1739376223-FZGnVmJYMHCkjgIlLi9sns3Xl7VdzHVP-0-ef4caf8d9aa26544988c9449b62c9ce1)
由此,可得到真实均值E(Y|X0)=β1+β2X0的95%置信区间为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0047_0113.jpg?sign=1739376223-QWIVTWWf8Jq47DuhLx5zkn35tlydx6tj-0-9b0ebe292d2eaf15b17ecde36b7e1c9c)
即
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0047_0114.jpg?sign=1739376223-lWee6H93M58XO8tEwmTeLaY51g2oytmq-0-074d9dc3dab32956e1c56e25f073b598)
上式的意义为,给定X0=2000,在重复抽样中,每100个类似式(2.87)的区间将有95个包含着真实的均值;真实均值的单个最优估计就是点估计值1683.879。
对表2.4中的每个X值求类似于式(2.87)的置信区间,并把这些置信区间在二维直角坐标系中联结起来,我们就得到如图2.7所示的一个关于总体回归模型的置信域。
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0047_0115.jpg?sign=1739376223-ZR3uYjg6pGBMoopP0ZL5x4EftSUqTOD9-0-0abd3709e0c8ce765cbccaf374a19a43)
图2.7 Y均值与Y个值的置信域
三、个值预测
如果我们想预测个别家庭的消费支出,即预测对应于给定X值(X=X0)的单个Y值(Y=Y0),其点预测为=
+
X0,
为Y0的最佳线性无偏估计量。个值预测的点预测与均值预测的点预测结果相同,但其方差不同,区间预测的结果也不同。其方差为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0116.jpg?sign=1739376223-D4SufPSXpYESr1UnShMtRI6DxTcCqQKw-0-4fd8055d796cea1cc0d789df6c605d86)
可以证明,用代替σ2时,
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0117.jpg?sign=1739376223-0VAWPJNmsWunazqjGGGqx0abZC3V9Koo-0-ac9f9cf9fa95c862d64753a806e33970)
服从t分布,可根据t分布推断Y0的置信区间,即对Y0进行区间预测。
在个值预测中,Y0-=
,代表预测误差。
的来源有两个,一个是
的抽样误差,来自于我们对βj的估计,即Var(
),它随样本容量的增大而变小。另一个是总体误差项u的方差σ2,它不随样本容量的变化而变化。
据式(2.89),可得到个值预测的置信区间为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0118.jpg?sign=1739376223-e4rzC2hVL1FgYZG0VJK4j0godyCdTBXD-0-b1955f57d09a800422332f708a1b46a4)
以收入-消费模型为例进行个值预测。Y0的点预测与的点预测一样,同样是1683.879.在5%的显著性水平下,X0=2000时,(Y0-
)的方差和标准误为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0119.jpg?sign=1739376223-NwHgwZlCs0rIHIviw1EO7i6vIe1zrO8V-0-235670318e5a332f04c8f57cd4f58998)
则Y0的置信区间为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0120.jpg?sign=1739376223-7c261iPBBdm1s2u94iTf9e4Xr8n4QRay-0-d9d871bd78af72827f05a9f3cd41f680)
即
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0121.jpg?sign=1739376223-ZjU6lTnlnRC0LM5byA1HQ4HL1gn0TYka-0-6f54bf12d3ebcf41a96a3f2b202ac884)
可以看出个值预测的置信区间比均值预测的置信区间要宽。这是因为个值预测的误差除了来源于抽样波动外,还来源于误差项u的随机扰动,而均值预测的误差来源仅仅为抽样波动。
据表2.4中的每个X值求类似于式(2.91)的置信区间,并把这些置信区间在二维直角坐标系中联结起来,我们就得到如图2.7所示的一个关于Y的个值预测的95%的置信域。
在图2.7中,置信区间的宽度是随着X0与的距离而变化的。
时,宽度最小。随着X0远
置信区间的宽度变大。由此可知样本回归线对未来结果的预测能力随着X0远
越来越低。因此,当进行均值或个值预测时,就必须慎重考虑它的可靠性。预测点距离样本期越远,其可靠性就越差。