您的当前位置:首页正文

(整理)回归分析貌似没传完

来源:九壹网
-------------

回归分析课后作业

第二章

2.14 为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y(万元)和广告费用x(万元),数据见表2.1,要求用手工计算:

表2.1: 月份 x y 1 1 10 2 2 10 3 3 20 4 4 20 5 5 40

(1) 画散点图(2.1);

图(2.1)

(2) x与y之间是否大致呈线性关系?

-------------

-------------

从(1)中看出x与y没有线性关系。

(3) 用最小二乘估计求出回归方程;

令回归方程为y01x,则可知道1xi15i15ixyiixx2,代入数据易得17,

0y1x1,从而得到回归方程为y17x。

(4) 求回归标准误差;

我们知道回归标准差1n(yiyi)26.0553。 n2i1(5) 给出0和1置信度为95%的区间估计;

212x因为我们知道0~N0,,可以算出var040.3333,n(xix)2,var00-所以我们知道0置信度为95%的区间估计为(0-t/2t/2)

var0,所以0的得到区间为[21.211,19.211](注意这里的2估计时用其有偏估计值)。

2同理我们知道1~N1,xix2,13.667,所以可得1置可以算出var信度为95%的区间估计为1t/23var1,1t/23var1,所以可得到1的区间估计为[0.906,13.094]。

(6) 计算x与y的决定系数。

SSR因为rSST2yiyi1n2yi1niy2L2xyLL2xx2yy0.8167。

(7) 对回归方程作方差分析;

-------------

-------------

(8) 做回归系数1显著性的检验;

我们用t检验做回归系数1的显著性。检验的原假设是H0:10,对立假设是

H0:10(回归系数的显著性检验就是要检验因变量y对自变量x的影响程度

2是否显著)当原假设成立时1~N0,xix2,此时构造1在零附近波动,t统计量t121Lxx,我们可以由题中数据算出t=3.6556,给定显著性

Lxx水平为0.05时,我们可以查表得到t0.025(3)3.182,因为tt0.025(3),所以我们拒绝原假设,认为1显著不为零,因变量对自变量x的一元线性回归成立。

(9) 做相关系数的显著性检验;

我们用tn2r1r2统计量来对做对相关系数的显著性检验。我们可以算出

r0.904,代入t统计量为t=3.6556,我们发现这个t值跟对回归系数的显著性

检验的t值相等。同理我们可知相关系数的显著性检验通过了。

(10) 对回归方程作残差图并作相应的分析;

残差图(2.2)为:

-------------

-------------

图(2.2)

我们从残差图中得知残差围绕e=0随机波动,从而模型的基本假定是满足的。

(11) 求当广告费用为4.2万时,销售收入将达到多少,并给出置信度95%的置信区间。

由回归方程我们预测收入将达到y028.4万。

1xxvar(y0)0nLxx21xx2,从而var(y0y0)10nLxx置

22,所以我们

以求得

y0信度95%

的置信区

【y0t/2(3)var(y0y0),y0t/2(3)var(y0y0)】,我们通过代数计算可以求

出因变量新值的区间估计为6.05932,50.74068。

-------------

-------------

1xx220因为Ey001x0为常数,所以y0Ey0~N0,(),所以得

nLxx到Ey0置信度95%的置信区间为【y0t/2(3)var(y0),y0t/2(3)var(y0)】,带

入数据可以的到区间估计为17.09746,39.70254。

2.15 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下状况。经过10周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周签发的新保单数目,y为每周加班工作时间(小时)。见表2.2。

表2.2: 周序1 号 x 825 y 3.5 2 215 1.0 3 4 5 480 1.0 6 920 3.0 7 8 9 670 3.0 10 1215 5.0 1070 550 4.0 2.0 1350 325 4.5 1.5 (1)画出散点图(2.3):

图(2.3)

-------------

-------------

(2)x与y之间是否大致呈线性关系?

从散点图中我们可以看出x与y大致呈线性关系。

(3) 用最小二乘法求出回归方程;

我们用SPSS软件输入题中所给的数据,在菜单栏中按Analyze-regression-linear把x输入independent中,而把y输入dependent中,单击OK即可,结果如下:

我们可以知道回归方程为:y0.1180.00359x。

(4)求出回归标准误差;

同第三问我们可以同时求出回归标准误差:

所以回归标准误差为:0.48002

(5) 给出0和1置信度为95%的区间估计;

因为在SPSS软件中,回归系数的区间估计不是默认的输出结果。在线性回归对话框中,点选下面的统计量Statistics框条进入统计量对话框,再点选Confidence interval,这样在输出的回归系数表中就增加了回归系数的区间估计。用SPSS软件计算出的0和1的置信度为95%的置信区间分别为:(-0.701,0.931),(0.003,0.005).

(6) 计算x与y的决定系数;

我们可以由上面的回归分析时SPSS同时给出x与y的决定系数:r20.900,途

-------------

-------------

中R square即为所求的决定系数:

(7) 对回归方程作方差分析;

我们先给出方差分析表:

从图中我们可以知道:总的离差平方和为18.525,其分别由回归平方和16.682和残差平方和1.843组成。而且我们知道在总的离差平方和中回归平方和所占的比重越大,则线性回归效果就越好,说明回归直线与样本观测值拟合优度就越好;如果残差平方和所占的比重大,则回归直线与样本的拟合优度就会很不理想。我们规定决定系数即为回归平方和与总的离差平方和之比。它反映了因变量中变异中能用自变量解释得比例。我们得出用线性回归得出的结果效果是比较好的。

(8)做回归系数1显著性的检验;

我们用t检验做回归系数1的显著性。检验的原假设是H0:10,对立假设是

H0:10(回归系数的显著性检验就是要检验因变量y对自变量x的影响程度

2是否显著)当原假设成立时1~N0,xix2,此时构造1在零附近波动,t统计量t121Lxx,我们可以由题中数据算出t=8.509,给定显著性

Lxx水平为0.05时,我们可以查表得到t0.025(8)2.306,因为tt0.025(8),所以我们拒绝原假设,认为1显著不为零,因变量对自变量x的一元线性回归成立。 同时我们可以从回归系数表里得到1的显著性检验的t值和p值,表如下:

-------------

-------------

(9) 做相关系数的显著性检验;

我们用tn2r1r2统计量来对做对相关系数的显著性检验。我们可以算出

r0.949,代入t统计量为t=8.5086,我们发现这个t值跟对回归系数的显著性

检验的t值相等。同理我们可知相关系数的显著性检验通过了。

(10) 对回归方程作残差图(2.4)并作相应的分析;

图(2.4)

从残差图中我们看出残差围绕e=0随机波动,从而模型的基本假定是满足的。

(11) 该公司预计下一周签发新保单x01000张,需要的加班时间是多少?

-------------

-------------

由回归方程我们可以预测y03.70326小时。即预测需要的加班时间为3.70326小时。

(12) 给出y0的置信水平为95%的精确预测区间和近似预测区间。

21x0xy0~N01x0,2nxxi2,所以

1xxy0y0~N0,10nLxx22,我们知道y的置信水平为95%的精确预测

022x0xx0x11区间为y0t/281,y0t/281,我们22nnxixxix带入数据可得到精确的预测区间为2.51949,4.88703。

2xx10我们知道当样本容量较大时,x0x较小时,2nxix接近零,y的

0置信度为95%的置信区间近似为y02,我们知道y03.70326,0.48002,代入可得到近似区间估计为2.7432,4.6633。

(13)给出Ey0置信水平为95%的区间估计;

2x0x1y0Ey0~N0,2nxix2,统计量

ty0Ey0~tn2,可得P21x0xnLxxy0Ey0t/2n21,进21x0xnLxx而我们可得置信水平为1的置信区间为y0t/2n21x0x,我们nLxx2用SPSS可以算出置信水平95%的区间估计为3.28373,4.12279。

-------------

-------------

2.16 表2.3是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和对学生的人均经费投入x(美元)。

序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 y 19583 20263 20325 26800 29470 26610 30678 27170 25853 24500 24274 27170 30168 26525 27360 21690 21974 x 3346 3114 3554 4542 4669 4888 5710 5536 4168 3547 3159 3621 3782 4247 3982 3568 3155 序号 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 y 20816 18095 20939 22644 24624 27186 33990 23382 20627 22795 21570 22080 22250 20940 21800 22934 18443 x 3059 2967 3285 3914 4517 4349 5020 3594 2821 3366 2920 2980 3731 2853 2533 2729 2305 序号 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 y 19538 20460 21419 25160 22482 20969 27224 25892 22644 24640 22341 25610 26015 25788 29132 41480 25845 x 2642 3124 2752 3429 3947 2509 5440 4042 3402 2829 2297 2932 3705 4123 3608 8349 3766 (1) 绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?

用SPSS作散点图(2.5)如下:

-------------

-------------

图(2.5)

从散点图得出可以用直线回归描述两者之间的关系。

(2)建立y对x的线性回归;

y01x,并用最小二乘法对回归常数0我们建立y对x的线性回归方程为:

和回归系数1进行估计,用SPSS软件算出结果如下:

我们得到了012161.68,13.302,所以我们得到y对x的线性回归方程:

y12161.683.302x。

我们将线性回归方程表示在散点图中如下图(2.6):

图(2.6)

-------------

-------------

(3)用线性回归的Plots功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假设。

标准残差的直方图(2.7):

图(2.7)

正态概率图(2.8):

-------------

-------------

图(2.8)

Tests of normality:

Tests of Normality Standardized Residual Kolmogorov-Smirnov Statistic .072 df 51 Sig. .200 *aShapiro-Wilk Statistic .968 df 51 Sig. .179 a. Lilliefors Significance Correction *. This is a lower bound of the true significance. 我们可以由D检验和W检验知道误差项是服从正态性假设的。

第三章

3.11研究货运总量y(万吨)与工业总产值x1(亿元),农业总产值x2(亿元),居民非商品支出x3(亿元)的关系。数据见表3.1。 表3.1:

-------------

-------------

编号 货运总量 y(万吨) 160 260 210 265 240 220 275 160 275 250 工业总产值 农业总产值 居民非商品支出x3(亿元) 1.0 2.4 2.0 3.0 1.2 1.5 4.0 2.0 3.2 3.0 x1(亿元) 70 75 65 74 72 68 78 66 70 65 x2(亿元) 35 40 40 42 38 45 42 36 44 42 1 2 3 4 5 6 7 8 9 10 (1) 计算出y,x1,x2,x3的相关系数矩阵;

用SPSS进行回归分析时点选Statistics选项框中的Descriptives选项。

点击继续,再点击OK,我们可以得到因变量与自变量任意两个量之间的简单相关系数矩阵如下表:

(2)求y关于x1,x2,x3的三元线性回归方程;

我们用SPSS软件对数据进行三元线性回归结果如下:

我们从上表中知道0446.421,15.217,27.223,36.880,所以y关于

-------------

-------------

x1,x2,x3的三元线性回归方程为:y446.4215.217x17.223x26.880x3。

(3)求所得的方程作拟合优度检验;

拟合优度用于检验回归方程对样本观测值的拟合程度。我们知道在一元线性回归

SSRSSE中,定义了样本决定系数r2,在多元回归方程中,同样定义样1SSTSSTSSRSSE本决定系数R2。 1SSTSST样本决定系数R2的取值越接近于1,表明回归拟合的效果就越好,越接近0,表明拟合效果就越差。但它并不能作为严格的显著性检验。

人们用复相关系数R来表示回归方程对原有数据拟合程度的好坏,它衡量作为一个整体的x1,x2,x3xp与y的线性关系的大小。

我们用SPSS软件得到了样本决定系数的值,结果如下表:

我们从上表中可以知道样本决定系数R2=0.806,所以我们给回归模型以肯定的态度。

(4)对回归方程作显著性检验;

多元线性回归方程的显著性检验就是看自变量从总体上对随机变量y是否有明显的影响。

我们提出原假设:H0:12p0,原假设被接受,表明我们建立的回归模型不合适。

建立对H0进行检验的F统计量,利用总离差平方和的分解式:

yiyyyy2i2iyi,简写为:SSTSSRSSE。

2-------------

-------------

SSR我们构造F检验统计量如下:FpSSE,在正态假设下,当原假设成立

np1时,F服从自由度为p,np1的F分布。于是我们利用F同力量对回归方程的总体显著性进行检验。我们利用SPSS可以得到F统计量的值,结果如下表:

给定显著性水平0.05,查F分布表得到F0.053,64.76,我们知道

FF0.05(3,6),所以拒绝原假设,认为在显著性水平0.05下,y对自变量总

体有显著的线性关系,也即回归方程是显著的。

(5)对每一个回归系数做显著性检验;

不同于一元线性回归,多元线性回归回归方程显著并不意味着每个自变量对y的影响都显著,我们需要剔除那些可有可无的变量,所以就需要我们对每个自变量进行显著性检验。

检验自变量xi是否显著,等价于检验假设:H0j:j0j1,2,3p

如果我们接受原假设,则xi不显著,如果拒绝原假设,则xi是显著的。 我们知道~N,2X'X1,记XX'1ciji,j0,1,2p(其中X为系数

Ejj,varjcjj2矩阵)。于是我们知道:,

j~Nj,cjj2,j0,1,2p。

据此我们构造t统计量

tjjcjj(其中1ei2np11yiyi,为回归标准np12差)。

我们用SPSS软件可以算出回归系数j的t统计量tjj1,2p,及相应的p值,

-------------

-------------

结果见下表:

我们发现在显著性水平0.05下,只有x2对因变量y有显著性的影响,而x1,x3对因变量y没有显著性影响(我们可以观测p来清楚的知道他们在多大的显著性水平才会对因变量y有显著性的影响)。

(6)如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程的显著性检验和回归系数的显著性检验;

用后退法来对多余的变量进行剔除。当有多个自变量对因变量y无显著性影响时,由于自变量之间的交互作用,不能一次剔除掉所有的不显著的变量,则我们规定先剔除其中t值最小的(或p值最大的)一个变量,然后再对所得的新的回归方程进行检验,有不显著的变量再剔除,直到保留所有的变量都对y有显著影响为止。

对于本题我们首先剔除p值最大的自变量x3,用y对其余的两个变量进行回归,计算结果如下表:

-------------

-------------

剔除x3后,其余自变量的显著性都发生不同程度的变化,我们分析这可能是由于自变量之间的相关性造成的。此时p10.037,p20.008,说明自变量x1,x2在显著性水平0.05的条件下,均已对因变量y有显著性影响。 我们用SPSS软件作出对回归方程的显著性检验,结果见下表:

从上表中我们知道在显著性水平为0.05的条件下,y对自变量x1,x2整体是显著的。

我们再用SPSS软件作出对剔除x3的自变量x1,x2分别进行显著性分析(方法同第五问的方法一样),结果见本题相关性分析表,结果我们对自变量x1的回归系数进行显著性分析时P0.037,说明回归系数的显著性检验通过。自变量x2的回归系数进行显著性分析时P0.008,说明回归系数的显著性检验通过。 此时我们建立的回归方程为:

y459.6244.676x18.971x2。

(7)求出每一个回归系数的置信水平为95%的置信区间;

我们可以利用SPSS软件直接作出1和2置信水平95%的置信区间如下表:

-------------

-------------

从图中我们知道1置信水平95%的置信区间为0.381,8.971,2置信水平95%的置信区间为3.314,14.808。

(8)求标准化回归方程;

我们用spss软件做线性回归,系数相关性表中列出了标准化回归方程的回归系数大小,具体数据见下表:

由图中数据我们知道标准化回归方程为:

y0.385x10.535x20.277x3。

(9)求当x0175,x0242,x033.1时的y0,给定置信水平为95%,用SPSS软件计算精确置信区间,用手工计算近似预测空间;

我们知道做三元线性回归方程为:y348.2803.754x17.101x212.447x3,我们把数据代入得到:y0270.0897,预测货运总量为270.0897万吨。 通过SPSS软件计算精确的置信区间206.05895,334.12038。

-------------

-------------

其置信度为95%的近似置信区间为y2,y2,其中y0270.0897,

23.44188,见数据代入得到近似置信区间为:223.2059,316.9734。

(10)结合回归方程对问题作一些基本分析;

在实际的应用当中,尤其是在经济问题的研究中,我们研究的某种经济现象涉及

多个因素,这些因素元之间也大都有一定的联系。回归方程中某一个自变量的变动也往往会牵动其他变量的值的变动。这时,回归系数的值都是在全体自变量值的联合变动的格局内起作用。 另外,回归自变量之间的相关性在经济问题研究中经常存在,只要涉及多个自变量,就很难找到某些自变量是不相关的。所以当我们建立经济问题的回归模型时,应尽可能地避免自变量的高度相关。这会使得最小二乘法估计的参数稳健性很差。

3.12 用表3.2的数据,建立GDP对x1和x2的回归。对得到的二元回归方程y2914.60.607x11.709x2,你能够合理地解释两个回归系数吗?如果现在不能给出合理的解释,不妨学过第六章多重共线性后再来解释这个问题,在学过第7章岭回归后再来改进这个问题。

表3.2 国内生产总值GDP和三次产业数据 第一产业增加第二产业增加年份 GDP 值x1 值x2 1990 18547.9 5017.0 1991 21617.8 5288.6 1992 26638.1 5800.0 1993 34634.4 6882.1 1994 46759.4 9457.2 1995 58478.1 11993.0 1996 67884.6 13844.2 1997 74462.6 14211.2 1998 78345.2 14552.4 1999 82067.5 14472.0 2000 89468.1 14628.2 2001 97314.8 15411.8 2002 105172.3 16117.3 2003 117390.2 16928.1 2004 136875.9 20768.1 用本章我们学习过的内容进行简单的分析: 7717.4 9102.2 11699.5 16428.5 22372.2 28537.9 33612.9 37222.7 38619.3 40557.8 44935.3 48750.0 52980.2 61274.1 72387.2 第三产业增加值x3 5813.5 7227.0 9138.6 11323.8 14930.0 17947.2 20427.5 23028.7 25173.5 27037.7 29904.6 33153.0 36074.8 39188.0 43720.6 对二元回归方程,解释自变量x1时,我们强调当第二产业增加值保持不变时,但

-------------

-------------

方程以外的有关变量发生相应的变化(这时第三产业的增加值也会发生变化),第一产业增加值每增加1亿元时,GDP会增加0.607亿元,也就是说第三产业会随着第一产业的增加相应减少0.393亿元。

同理当我们解释自变量x2时,必须强调当第一产业增加值保持不变时,方程以外的有关变量作相应的变化时,第二产业增加值每增加1亿元时,GDP会增加1.709亿元。其中第二产业直接贡献为1亿元,第三产业贡献为0.709亿元。

第四章

4.9参考文献(陈希孺,王松贵 近代回归分析),表4.1是用电高峰每小时用电量y与每月总用电量x的数据。

用户序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 -------------

x 679 292 1012 493 582 1156 997 2186 1097 2078 1818 1700 747 2030 1643 414 354 1276 745 435 540 874 1543 1029 710 1434 837 y 0.79 0.44 0.56 0.79 2.70 3.64 4.73 9.50 5.34 6.85 5.84 5.21 3.25 4.43 3.16 0.50 0.17 1.88 0.77 1.39 0.56 1.56 5.28 0.64 4.00 0.31 4.20 用户序号 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 x 1748 1381 1428 1255 1777 370 2316 1130 463 770 724 808 790 783 406 1242 658 1746 468 1114 413 1787 3560 1495 2221 1526 y 4.88 3.48 7.58 2.63 4.99 0.59 8.19 4.79 0.51 1.74 4.10 3.94 0.96 3.29 0.44 3.24 2.14 5.71 0.64 1.90 0.51 8.33 14.94 5.11 3.85 3.93 -------------

(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图;

将数据导入到SPSS软件中,再进行线性回归,结果见下图:

我们得到回归方程为;y0.8350.004x。 并画出残差图:

(2)诊断该问题是否存在异方差;

方法一 我们根据上一问的残差散点图可以大致看出残差值随着y值的增大而增大,具有明显的规律,因而可以认为模型的随机误差项的方差是非其次的,存在异方差。

-------------

-------------

方法二 但为了更清楚地判断是否真的具有异方差性,我们用等级相关系数法来进行检验;

等级相关系数法的步骤:

第一步,作y关于x的普通最小二乘回归,求出i的估计值,即ei的值。 第二步,取ei的绝对值,即ei,把xi和ei按递增或递减的次序排列后分成等级,按下式计算出等级相关系数

rs1nn216di

2i1n其中,n为样本容量,di为对应于xi和ei的等级的差数。

第三步,做等级相关系数的显著性检验。在n>8的情况下,用下式对样本等级相关系数rs进行t检验。检验统计量为

tn2rs1rs2

如果tt/2n2,可以认为异方差性问题不存在,如果tt/2n2,说明xi与

ei之间存在系统关系,异方差性问题存在。

我们从上面大致了解了等级相关系数的概念和对其做的显著性检验,我们针对本题做具体的分析:

首先我们计算等级相关系数di17164,带入上面的式子得

2rs16171640.308

535321将rs0.308代入t检验统计量,得

t5320.30810.30822.312

给定显著性水平0.05,自信度51,查得临界值t0.025512.011,由于,认为残差绝对值ei与自变量xi显著相关,误差项存在异方差。 t2.3122.011 等级相关系数的检验可以用SPSS软件实现,首先用Transform-compute命令计算出残差绝对值eiabsei,然后在Analyze下拉菜单中点选Correlate-Bivariate-Spearman,计算ei与xi的等级相关系数,如图结果所示:

-------------

-------------

同样得到等级相关系数为0.308,P值为0.025,认为残差绝对值ei与自变量xi显著相关,存在异方差。

(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程;

当我们所研究的问题存在异方差性时,线性回归模型的基本假定就被违反了。此时,就不能用普通最小二乘法进行参数估计,对原来模型变换,使变换后的模型满足同方差假设,然后进行模型参数估计,就可以得到理想的回归模型。 对于一元线性回归方程来说,普通最小二乘法的离差平方和为

Q0,1yiEyiyi01xi

22i1i1nn其中每个观测值的权数相同。在等房差的条件下,平方和中的每一项的地位是相同的。然而,在异方差的条件下,平方和中的每一项的地位是不相同的,误差项方差i大的项,在上式平方和中的作用就偏大,因而普通最小二成估计的回归线就被拉向方差大的项,而方差小的项的拟合程度就差。加权最小二乘估计的方法是在平方和中加入一个适当的权数wi,用来调整各项在平方和中的作用。一元线性回归的加权最小二乘的离差平方和为

Qw0,1wiyiEyiwiyi01xi

22i1i1nn2wi为给定的第i个观测值的权数。其中,加权最小二乘估计就是寻找参数0,1的

估计值0w,1w,使得上式子的离差平方和Qw达到最小。如果所有的权数相等,则wi就等于一个常数,则问题就成为普通的最小二乘法。可以证明加权最小二乘估计为:

-------------

-------------

0wyw1wxwnwixixwyiyw i11wn2wxxwiii1其中,xw1wi1wiwxiii为自变量的加权平均;

ywwyi为因变量的加权平均;

而我们可以用SPSS软件计算出加权最小二乘估计值。 我们从上面了解到,为了消除异方差性的影响,使得加权式子中的各项地位相同,观测值的权数应该是观测值误差项方差的倒数,即

wi1i2

所以误差项较大的观测值接受较小的权数;误差项较小的接受较大的权数。 但在实际的问题研究中,我们并不知道i2通常是未知的,但是,当误差项随自变量水平以系统的形式变化时,我们可以利用这种关系。如,已知误差项方差i2与xi2成比例,那么i2kxi2,其中k为比例系数。权数wi为:

wi1 2kxi我们可以看出比例系数k在参数估计中可以消去,所以我们可以直接使用权数

wi1 xi2在社会,经济研究中,经常会遇到这种特殊的权数,即误差项方差与x的幂函数

xm成比例,其中,m为待定的未知参数。此时全数矩阵为

wi1 xim从上面的阐述,我们大致了解了加权一元线性回归的基本思想与操作步骤,下面我们对本题利用SPSS软件进行计算。

首先我们找到最优权函数

利用SPSS软件可以确定wi-------------

1幂指数m的最优取值。对本题数据,依次点选xim-------------

Analyze-Regression-Weight Estimation进入估计权函数对话框,默认的幂指数m的取值为m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0,这一默认值是可以改变的。先将因变量y与自变量x选入各自的变量框,再把x选入Weight变量框,幂指数(Power)取默认值,得到输出结果如下表:

从上表中我们可知在m=1.5时对数似然函数达到最大,因而最优权函数的幂m取值为1.5。

从上表我们看到加权最小二乘的r20.659,F值=98.393;而普通最小二乘的

r20.705,F值=121.658,我们发现加权最小二乘法的效果并没有普通最小二乘

-------------

-------------

的效果好。因为加权最小二乘法是以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果,有时可能我们做出的牺牲会更大一些,才得到这样的结果。 经验回归方程为:

y0.6830.003557x

(4)用方差稳定变换y'y消除异方差。

参考陈希孺编写的近代回归分析,我们大致了解了方差稳定性变换的基本思想,其实就是把因变量做适当的变换,再用最小二乘法进行线性回归(本题即是我们参考文献第124的一个例题,原著中即用方差稳定性变换来消除异方差的)。 把y'作为因变量对自变量x进行线性回归,我们用SPSS软件做出结果如下表:

这是y'的普通残差对x的残差图,从图中我们知道y'的方差已稳定了,所选的变换是适宜的。 经验回归方程为:

y'0.58220.0009529x

(4.13)下表中是某种软件公司月销售额数据,其中,x为总公司的月销售额(万元);y为某分公司的月销售额(万元)。

-------------

-------------

序号 1 2 3 4 5 6 7 8 9 10 x 127.3 130.0 132.7 129.4 135.0 137.1 141.1 142.8 145.5 145.3 y 20.96 21.40 21.96 21.52 22.39 22.76 23.48 23.66 24.10 24.01 序号 11 12 13 14 15 16 17 18 19 20 x 148.3 146.4 150.2 153.1 157.3 160.7 164.2 165.6 168.7 172.0 y 24.54 24.28 25.00 25.64 26.46 26.98 27.52 27.78 28.24 28.78 (1)用普通最小二乘法建立y关于x的回归方程;

由前面的题目我们已经掌握了用spss软件利用普通最小二乘法进行线性回归的基本思想,我们现在将结果输出,见下表:

用普通最小二乘法我们得到回归方程:

y1.4350.176x

(2)用残差图及DW检验诊断序列的相关性;

我们在检验随机扰动项存在序列相关性时,用到了图示检验法,图示法是一种直观的诊断方法,它是把给定的回归模型直接用普通最小二乘法估计参数,求出残差项et,et作为随机项t的真实值的估计值,再描绘et的散点图,根据et的相关性来判断随机项t的序列相关性。残差et的散点图有两种绘制方式。

1.绘制et,et1的散点图。如果大部分点落在第1,3象限,表明随机扰动项存在正的序列相关,如果大部分点落在第2,4象限,那么随机项存在负相关。我们作出本题的et,et1散点图,如下表:

-------------

-------------

我们从上图中可以看到图中的点大部分落在了第1,3象限,我们大致可以了解看出序列呈现正相关。

2.按照时间顺序绘制回归残差项et的图形。如果et随着t的变化逐次有规律地变化,呈现锯齿形或循环形状的变化,就可断言et存在相关,表明随机项存在序列相关,由于本题目并没有给出时间序列,所以我们就不给出相应的图形了。

DW检验是杜宾和沃特森提出的一种适合小样本的一种检验方法。这种检验方法只能用于减压随机扰动项具有一阶自回归形式的序列相关问题。 随机扰动项的一阶自回归形式为

tt1ut

为了检验序列的相关性,构造的假设是

H0:0

为了检验上述假设,构造DW统计量首先要求出回归估计式的残差et,定义DW统计量为

-------------

-------------

nDWet2tet12t2et2n

又由于误差项的自相关系数定义为

tt22tt2nnt1n

2t1t2其估计项即用et来估计t即可。 我们可以发现统计量DW和的关系为

DW21

因而DW的值与的对应关系如下表:

 DW 误差项的自相关性 -1 4 完全负相关 (-1,0) (2,4) 负相关 0 2 无自相关 (0,1) (0,2) 正相关 1 0 完全正相关 有上述讨论知道DW的取值范围为 0DW4

根据样本容量n和解释变量的数目k(这里包括常数项)查DW分布表,得到临界值dL和dU,然后依下列准则考察计算得到的DW值,以决定模型的自相关状态,见下表: 0DWdL dLDWdU dUDW4dU 4dUDW4dL 误差项1,2,,n间存在正相关 不能判定是否有自相关 误差项1,2,,n间无自相关 不能判定是否有自相关 误差项1,2,,n间存在负相关 0DWdL 我们算出本题目的DW值如下表: -------------

-------------

我们差DW分布表知道dL1.20,dU1.41,此时统计量DW=0.663<1.20,所以我们得出了此随机误差项是存在正相关性的。

(3)用迭代法处理序列相关,并建立回归方程;

用迭代法消除自相关。依照下面公式做变换

yt'ytt1 xt'xtxt1

0'01,1'1

于是一元线性回归式子就变成了

yt'0'1'x1'ut

注意我们这里的ut假定为不存在自相关性的,所以变化后的式子就已经满足线性回归模型的基本假设。

首先我们必须先来估计出自相关系数估计值的大小,根据上面的式子有

11DW,计算出估计值后,带入上面的式子,计算出变换后的因变量和

2自变量,再用最小二乘估计法对变换后的式子进行回归。如果误差项确实是一阶自相关,通过上述变化就可以消除随机项的自相关。

我们根据本题目的数据作出变换后的因变量和自变量的回归方程和回归残差,我们的到的数据如下表: -------------

-------------

对变化后的因变量和自变量进行回归下表所示:

-------------

-------------

我们得到的新回归残差et'的DW=1.360.由上面的分析n=20,k=2。显著性水平

0.05,得dL1.20,dU1.41,由于1.20<1.360<1.41,因而DW检验落入了不

确定区域。误差项u的标准差u0.07296,小于t的标准差0.09744,yt'对xt'的回归方程为:

yt0.3000.173xt'

''t然后将yt'yt0.6684yt1,xt'xt0.6684xt1带入上式,还原为原始的变量的方程

yt0.6684yt10.3000.173xt0.6684xt1

yt0.3000.6684yt10.173xt.0.1156xt1

(4)用一阶差分法处理数据,建立回归方程;

差分法就是用增量数据代替原来的样本数据,将原来的回归模型变为差分形式的模型。一阶差分法通常适用于原模型存在较高程度的一阶自相关的情况。 当1时,上面介绍的迭代过程方程可以转化为

ytyt11xtxt1tt1

以ytytyt1,xtxtxt1代入,得到

yt1xtut

其中ut不存在序列的自相关,它是以差分数据yt和xt建立的回归方程。

其中我们由第二章知道 1yxtt2nnt。

xt22t对于本题我们首先计算差分ytytyt1,xtxtxt1,差分结果列在了下表:

-------------

-------------

后面三列即为差分数据和残差值。 用SPSS做出的输出结果如下表:

-------------

-------------

残差et'的DW=1.462,因为2.59>1.462>1.41,可知残差序列et'不存在自相关,一阶差分法成功地消除了序列自相关。差分法的回归标准误差为0.07576,大于迭代法的标准差0.07296,小于t的标准差0.09744,本例的自相关系数0.6684,远远小于1,因而差分法的效果低于迭代法的效果。yt对xt的回归方程为:

yt0.169xt

将ytytyt1,xtxtxt1代入,还原为原始变量的方程

ytyt10.169xtxt1

(5)比较普通最小二乘法所得的回归方程和迭代法、一阶差分法所

-------------

-------------

建回归方程的优良性。

我们从上面三种方法的随机误差项的大小可以简单的看出它们的效果以及好坏。我们发现用迭代法的随机误差项的回归标准差0.07296为最小,因而它的效果最好,而一阶差分法的随机误差项的回归标准差0.07576,效果不及迭代法。而普通最小二乘法的回归标准差为0.09744最大,效果最差。

4.14某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变量是每周演出场次x1和乐队网站的周点击率x2,数据表如下:

周次 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 销售额y 893.93 1091.27 1229.97 1045.85 997.24 1495.14 1200.56 747.24 866.43 603 343.52 472.1 171.79 135.79 925.95 1574.01 1405.33 971.27 1165.2 597.85 490.34 709.59 987.3 954.6 1216.89 1491.52 周演出场次x1 5 5 5 5 5 6 5 4 5 5 5 6 4 4 5 5 5 4 5 4 4 5 5 6 6 5 周点击率x2 292 252 267 379 318 393 331 204 266 253 315 271 166 204 335 352 274 333 302 324 327 206 310 306 350 275 周次 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 销售额y 668.3 915.03 565.92 1267.98 930.24 379.38 500.74 83.65 982.94 722.28 1337.44 1150.51 1514.84 1442.08 767.64 1020.03 1067.49 1484.12 957.68 1344.91 1361.78 1424.69 1158.21 827.56 803.16 1447.46 周演出场次x1 4 5 4 5 6 4 5 5 6 4 5 4 6 5 5 5 5 6 4 5 5 6 4 4 4 6 周点击率x2 173 360 340 380 285 232 294 220 391 279 322 231 368 357 260 298 350 320 227 261 303 263 215 294 288 257 (1)用普通最小二乘法建立y对x1和x2的回归方程,用残差图及DW检验诊断序列的自相关;

-------------

-------------

用SPSS软件作出回归方程,结果输出如下表:

回归方程为:

y574.062191.098x12.045x2

然后作出et和et1的残差图:

-------------

-------------

从图中大部分点落在了第1,3象限,从而我们判断随机扰动项t大致存在正的序列相关。

做DW检验,结果输出如下:

查DW分布表得到dL1.30,dU1.46,因为我们得到的DW0.7451.30,同样我们得到随机误差项t存在序列正相关。

(2)用迭代法处理序列相关,并建立回归方程;

我们首先算出自相关系数的估计值1变量和自变量的值,部分结果见下图:

-------------

1DW0.62737,计算出变换后的因2-------------

然后对变换后的因变量和自变量用普通最小二乘法进行线性回归,结果见下表:

-------------

-------------

从结果中看出DW=1.716>1.46,所以DW检验证明变换后的随即干扰项不存在序列相关了。误差项ut257.85642,小于t329.69302。yt'对xt'的回归方程为:

'yt178.844211.110x1't1.437x2t

'将yt'yt0.62737yt1,x1'tx1t0.62737x1t1,x2还tx2t0.62737x2t1代入上式,

'原为原始变量的方程:

yt178.8440.62737yt1211.110x1t1.437x2t132.444x1t10.90153x2t1。

(3)用一阶差分法处理序列相关,建立回归方程;

我们将部分差分数值列出,见下表:

-------------

-------------

对变换后的差分数据进行回归,得到不含常数项的回归方程,结果见下表:

-------------

-------------

由上表知道1.461小于普通回归的回归标准差329.69302。本例中的1DW0.62737远远要

2小于1,因而差分法的效果低于迭代法的效果。yt对x1t,x2t的回归方程为:

yt259.719x1t0.003x2t

将ytytyt1,x1tx1tx1t1,x2tx2tx2t1代入,还原为原始变量的方程

ytyt1259.719x1tx1t10.003x2tx2t1

(4)用最大似然法处理序列相关,建立回归方程;

-------------

-------------

直接用SPSS软件的自回归功能。依照Analyze-Time series-Autoregression进入时间序列的自回归对话框,我们选择精确最大似然(Exact Maximum-Likelihood),单击OK得到的输出结果如下表:

从Iteration History可以看出迭代到第三步结束,自相关系数0.631,

0487.097,1211.025,21.435。从Residual Diagnostics表中得到

''u258.068从而我们得到001179.7388,1211.025,21.435,

'则yt'对xt'的回归方程为:

'yt179.7388211.025x1't1.435x2t

'将yt'yt0.631yt1,x1'tx1t0.631x1t1,x2tx2t0.631x2t1代入上式,还原为原

'始变量的方程:

yt179.73880.631yt1211.025x1t1.435x2t133.1568x1t10.9055x2t1。

-------------

-------------

(5)用科克伦-奥克特迭代法处理序列相关,建立回归方程;

我们采用SPSS自回归功能进行迭代,结果输出如下表:

共迭代了3次,从Autocorrelation Coefficient表中得最终的0.632,从Model Fit Summary表中得到u260.560,DW1.748,从Regression Coefficients表中得到0479.341,1211.139,21.435,从而我们得到

''001176.3975,1211.139,21.435。

'则yt'对xt'的回归方程为:

'yt176.3975211.139x1't1.435x2t '-------------

-------------

'将yt'yt0.631yt1,x1'tx1t0.631x1t1,x2tx2t0.631x2t1代入上式,还原为原

始变量的方程:

yt176.39750.632yt1211.139x1t1.435x2t133..4398x1t10.9069x2t1

(6)用普莱斯-温斯登迭代法处理序列相关,建立回归分析;

我们仍用SPSS的自相关回归功能分析此问,得到输出结果:

共迭代了3次,从Autocorrelation Coefficient表中得最终的0.631,从Model Fit Summary表中得到u258.066,DW1.746,从Regression

-------------

-------------

Coefficients表中得到0487.100,1211.025,21.435,

''001179.7399,1211.025,21.435。

'则yt'对xt'的回归方程为:

'yt179.7399211.025x1't1.435x2t

'将yt'yt0.631yt1,x1'tx1t0.631x1t1,x2tx2t0.631x2t1代入上式,还原为原

'始变量的方程:

yt179.73990.631yt1211.025x1t1.435x2t133..1568x1t10.9055x2t1

(7)比较以上各方法所建回归方程的优良性。

我们先列出下表: 自回'010归0  方 法 迭0.6273-479.950代-178.844 7 6 法 差分— — 0 法 精确最0.631 -487.097 -179.7388 大似然 克伦特-0.632 -479.341 -176.3975 奥克特 普莱0.631 -487.100 -179.7399 斯 -------------

11 211.110 259.719 '22 'DW u 1.437 1.716 2.235 257.8564 297.31693 -0.003 211.025 1.435 — 258.068 211.139 1.435 1.748 260.560 211.025 1.435 1.746 258.066 -------------

从上表中我们看到,差分法的DW最大,对自相关的消除得最干净,但是其回归标准误差297.31693也是最大,拟合效果并不好,其他几个方法结果相差不是很大,以迭代法的回归标准差257.8564为最小,并且方法也是最简便的,要优先选择。

第五章

5.9在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入

-------------

因篇幅问题不能全部显示,请点此查看更多更全内容