一元线性模型

第二章 一元线性回归模型

基本要求:

1、了解相关与回归的概念 2、理解线性回归模型的假定 3、掌握普通最小二乘法

4、理解最小二乘估计量的性质 5、会进行回归模型的检验

第一节 一元线性回归模型概述

一、相关与回归的基本概念

(一)变量之间的关系

各种经济变量之间的关系,一般可以分成两类,即完全确定的关系和非确定性的依存关系。 1.确定性关系或函数关系

如果一个变量值能被一个或若干个其他变量值按某一规律唯一的确定,则这类变量之间就具有完全确定的关系。

例如,当每吨水的价格为P 元时,居民应缴纳的水费Y (元)与用水量X (吨)之间的关系可表示为Y=PX。

2.非确定性关系

如果变量之间既存在密切的数量关系,又不能由一个(或几个)变量之值精确的求出另一个变量之值,但在大量统计资料的基础上,可以判别这类变量之间的数量变化具有一定的规律性,也称为统计相关关系。

例如消费支出Y 与可支配收入X 之间有一定的关系,在一定范围内,收入增加,在理论上可以估计出增加的消费支出额。但应看到,可支配收入虽然是影响消费支出的重要因素,却不是唯一的因素。因此,根据可支配收入并不能精确的求出消费支出,也就不能用精确的函数关系表达式来表示这两个变量之间的关系。

计量经济学就是研究变量间的非确定关系的,变量间的统计相关关系可以通过相关分析和回归分析来研究。

(二)相关分析

1、涵义

相关分析是通过对经济现象的依存关系的分析,找出现象间的相互依存的形式和相关程度,以及依存关系的变动规律。

2、类型——从变量间的依存形式看,可分为线性相关和非线性相关。

线性相关反映变量间的依存关系可以近似的表示为一条直线;变量间的依存关系近似的表示为一条曲线则称为非线性相关。

3、指标

从变量间的相关程度看,可以通过相关系数来度量。两个变量之间的相关程度可以用简单相关系数来衡量;多个变量之间的相关程度可以用复相关系数、偏相关系数等来衡量。

(三)回归分析

1.回归的定义

回归分析是研究某一被解释变量(因变量)与另一个或多个解释变量(自变量)间的依存关系,其目的在于根据已知的解释变量值或固定的解释变量值(重复抽样)来估计和预测被解释变量的总体平均值。

在研究某一社会经济现象的发展变化规律时,所研究的现象或对象称为被解释变量,它是分析的对象,把引起这一现象变化的因素称为解释变量,它是引起这一现象变化的原因。

被解释变量则反映了解释变量变化的结果。 2.回归模型的分类

(1)按模型中自变量的多少,分为一元回归模型和多元回归模型。 一元回归模型是指只包含一个解释变量的回归模型

多元回归模型是指包含两个或两个以上解释变量的回归模型。

(2)按模型中参数与被解释变量之间是否线性,分为线性回归模型和非线性回归模型。 对于“线性”的解释:

一种是就变量而言是线性的,即线性回归模型是指解释变量与被解释变量之间呈线性关系; 另一种是就参数而言是线性的,即线性回归模型是指参数与被解释变量之间呈线性关系;非线性回归模型是指参数与被解释变量之间呈非线性关系。就回归模型而言,通常“线性”是就参数而言的。

(3)按模型中方程数目的多少,分为单一方程模型和联立方程模型。 单一方程模型是指只包含一个方程的回归模型;

联立方程模型是指包含两个或两个以上方程的回归模型。 3.相关与回归的关系

相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。

相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。

相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。

注意避免“虚假回归”:只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。 二者的区别:

(1)在相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。

(2)在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是惟一确定的,而会表现出一定的随机波动性。

(3)相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间

是对等的,因此相关系数是惟一确定的。而在回归分析中,对于互为因果的两个变量,则有可能存在多个回归方程。

二、一元线性回归模型

(一)总体回归函数

1、总体回归函数

假若我们要研究的问题是某市N 户城镇居民家庭的可支配收入X 和消费支出Y 之间的关系,则全体N 户居民家庭构成了研究的总体。表2-1给出了全部居民家庭可支配收入和消费支出统计资料。

表2-1 居民家庭可支配收入和消费支出统计表

可支配收入 消费支出 户数 平均消费支出 (X ) (Y )

X 1 Y 11 Y 12 Y 1j Y 1N 1 N 1 E (Y |X 1) X 2 Y 21 Y 22 Y 2j Y 2N 2 N 2 E (Y |X 2)

X i Y i 1 Y i 2 Y ij Y iN i N i E (Y |X i ) X k Y k 1 Y k 2 Y kj Y kN k N k E (Y |X k )

从表2-1可以看出:对于某一收入水平X i (i =1, 2, , k ) ,有N i (N =N 1+N 2+ +N k ) 户居民家庭消费支出与其对应,反映出在某一收入水平下有关消费支出的条件分布。根据该条件分布,可以计算出在某一收入水平下平均消费支出E (Y /X i ) ,即条件均值。从表2-1还可以看出:对于每一收入水平X i ,仅有唯一的一个条件均值E (Y /X i ) 与其对应,这种一一对应的关系构成了函数关系,该函数称为总体回归函数(Population Regression Function, PRF)。记为:

E (Y /X i ) =f (X i ) (2-1)总体回归函数反映了给定X i 的Y 分布的总体均值随X 的变化而变化的关系。 2、回归系数:β0和β1

总体回归函数f (X i ) 若采用线性函数的形式,有:

E (Y /X i ) =β0+β1X i (2-2)

其中β0和β1是未知而固定的参数,称为回归系数(Regression Coefficients),β0称为截距系数(Intercept Coefficients),β1称为斜率系数(Slope Coefficients)。该函数称为线性总体回归函数。

(二)总体回归函数的随机设定

E (Y /X i ) 描述了在某一收入水平下平均消费支出水平,但是对于某一户居民的家庭消费支出Y i 不一定恰好与该水平一致,或多或少地存在一些偏差。该偏差用μi 表示,并定义:

μi =Y i -E (Y /X i ) (2-3)则有:

Y i =E (Y /X i ) +μi =β0+β1X i +μi ( 2-4)

式(2-4)中μi 反映了除收入之外众多影响消费支出的因素的综合影响,是一个不能观测的随机变量,称为随机误差项(Stochastic Error)。式(2-4)为总体回归函数的随机设定形式。

(三)样本回归函数

根据总体资料可以建立总体回归函数,揭示被解释变量随解释变量的变化而变化的规律。但在

大多数实际情况中,总体的信息往往无法全部获得,我们所掌握的不过是与某些固定的X 值相对应的Y 值的样本。需要根据已知的样本信息去估计总体回归函数。

假定现在不知道建立总体回归函数的总体资料,仅仅掌握来自总体的一组样本数据,例如,根据调查得到某市职工个人月可支配收入与月消费支出数据资料(见表2-2)

表2-2 某市职工个人月可支配收入与月消费支出调查资料 单位:元/月

序 号 可支配收入(X ) 消费支出(Y )

1 800 700

2

3

4 1400 950

5 1600 1100

6 1800 1150

7 2000 1200

8 2200 1400

9 2400 1550

10 2600 1500

1000 1200 650

900

根据以上样本数据拟合一个线性方程:

(2-5)

X 该方程式称为样本回归函数(Sample Regression Function, SRF)。

ˆ充分地“接近”β,并且βˆ也充分地“接近”β,就可以比较式(2-2)与(2-5),假若β0101

ˆ称为β的ˆ去估计总体回归函数E (Y | Xi ) 。所以Y ˆ亦称为E (Y | Xi ) 的估计量;β用样本回归函数Y i i 00

ˆ称为β的估计量。 估计量;β11

ˆ与实际的值存在一定的偏差,该偏差e 用表示。定义: 式(2-5)中Y i i ˆ则有: e i =Y i -Y i

ˆ+βˆX +e (2-6)ˆ+e =βY i =Y i i 01i i

e i 称为样本剩余项,也称为残差。

Y

ˆ+βˆX Y i β01i

β0+β1X i

i 图2-1 总体回归函数与样本回归函数的关系

第二节 一元线性回归模型参数估计

一、古典线性回归模型的假定

以一元线性回归模型Y i = β0 + β1X i + μi 为例,古典线性回归模型的假定如下: 假定1:在给定X i 的条件下,μi 的条件均值为零。即,E (μi | Xi )=0。

假定2:在给定任意X i 、X j 的条件下,μi 、μj 不相关。即,Cov(μi , μj )=0。

2

假定3:对于每一个X i ,μi 的条件方差是一个等于σ的常数。即,Var (μi | Xi )=σ2 。 假定4:在给定X i 的条件下,X i 和μi 不相关。即,Cov (μi , X i )=0。

满足以上四个假定的线性回归模型称为古典线性回归模型。所谓“古典”是作为一种标准或规范来使用的,凡是不满足以上假定的回归模型,就不是“古典”回归模型。

在前述假定下,用最小二乘法得到的回归参数的估计值,按照高斯—马尔可夫定理(Gauss-Markov Theorem)的意义来说,是“最优的”。

假定5:对于每一个μi 都服从于均值为零、方差为σ2正态分布。即,μi ~ N (0,σ2) 满足以上五个假定的线性回归模型称为古典正态线性回归模型。

二、普通最小二乘法

(一)最小二乘原理

利用样本回归函数估计总体回归函数,是根据一个给定的包含n 组X 和Y 观测数据的样本,建

ˆ尽可能接近观测值Y i 。最小二乘原理就是根据使样本剩余的平方和达立样本回归函数,使估计值Y i

到最小的准则,确定模型中的参数,建立样本回归函数。

(二)最小二乘估计量 1、计算、推导

ˆ-βˆX ,得 ˆ=Y -β由 e i =Y i -Y i i 01i

∑e

2

i

ˆ-βˆX ) 2 (2-7)=∑(Y i -β 01i

对于给定的样本,

∑e

2

i

ˆ和βˆ的大小,即的大小取决于β01

∑e

2

i

ˆ和βˆ的函数。按照最小是β01

ˆ和βˆ应使二乘原理,要求所选定的β01

∑e

2

i

最小,要做到这一点,可以借助微积分中求极值的方法,

∑e

2

i

ˆ和βˆ和βˆ求偏导数,并令其为零,满足该条件的βˆ可以使分别对β0011

∑e

2

i

最小。即:

∂e i 2∂e i 2

=0, =0 ∂β∂β

1

可得到:

ˆˆ⎧⎪∑(Y i -β0-β1X i ) =0 ⎨ˆˆ⎪⎩∑(Y i -β0-β1X i ) X i =0

整理后有:

(2-8)

(2-9)

ˆˆ⎧⎪∑Y i =n β0+β1 ∑X i

⎨ˆˆ X 2 X Y =βX +β∑∑⎪i 0i 1∑i i ⎩

求解得:

ˆ=β1

n X i Y i -X i Y i n X -(X i )

2

i i

2

(2-10)

ˆ=β0

Y

n

ˆ-β

1

X

n

i

(2-11)

令=

∑X

n

i

, =

∑Y

n

i 2

i

ˆ=β1

∑(X -)(Y -) (2-12)

(X -) i

i

ˆ=-βˆ (2-13)β 01

令x i =X i -, y i =Y i - (离差)

ˆ=则β1

x y

∑x

i 2i

i

(2-14)

ˆ和βˆ是根据最小二乘原理求得的,故称为普通最小二乘估计量。 以上β01

2、实例

利用表2-2的样本资料建立最小二乘回归模型的过程如下:

表2-3 计算表 2 2

序号 X i Y i x i y i x i y i x i y i X i 2

1 800 700 -900 -410 810000 168100 369000 640000 2 1000 650 -700 -460 490000 211600 322000 1000000 3 1200 900 -500 -210 250000 44100 105000 1440000 4 1400 950 -300 -160 90000 25600 48000 1960000 5 1600 1100 -100 -10 10000 100 1000 2560000 6 1800 1150 100 40 10000 1600 4000 3240000 7 2000 1200 300 90 90000 8100 27000 4000000 8 2200 1400 500 290 250000 84100 145000 4840000 9 2400 1550 700 440 490000 193600 308000 5760000 10 2600 1500 900 390 810000 152100 351000 6760000 合计 17000 11100 0 0 3300000 889000 1680000 32200000 平均 1700 1110

ˆ=β1

∑x y

∑x

i 2i

i

=

1680000

=0. 5091

3300000

ˆ=-βˆ=1110-0. 5091⨯1700=244. 5455 β01

样本回归函数为:

ˆ=244. 5455+0. 5091X Y i i

上式表明,该市职工每月可支配收入若是增加100元,职工将会拿出其中的50.91元用于消费。 (三)普通最小二乘回归直线的性质 回归直线具有以下性质: 1.回归直线通过样本均值。

2.估计值Y i 的均值等于观测值Y i 的均值。 3.剩余项e i 的均值为零。

ˆ

ˆY e i 4.剩余项与估计量i 不相关。

5.剩余项e i 与解释变量X i 不相关。

三、最小二乘估计量的性质

(一)线性性

最小二乘法计算的估计量是随机变量Y i 的线性函数。

ˆ的线性 1. β1

由式(2-14)得:

∑x i y i ∑x i (Y i -) ∑xY ∑x i ∑xY xY i i i i ˆβ1===-==∑i i 2(这里∑x i =0) 22222

∑x i ∑x i ∑x i ∑x i ∑x i ∑x i

令k i =

x i ∑x i 2

ˆ=∑k Y (2-15)有:β 1i i ˆ的线性 2. β0

由式(2-13)得:

ˆ=-βˆ=β01

令h i =

11

Y i -∑k i Y i =∑(-k i ) Y i ∑n n

1

-k i n

ˆ=∑h Y (2-16)有:β 0i i

(二)无偏性

ˆ的均值等于总体参数真值β,则该估计量就是无偏估计量。即:E (βˆ) =β如果估计量β。 ˆ的无偏性 1. β1

由式(2-15)得:

ˆ=β∑k i Y i =∑k i (β0+β1X i +μi ) =β0∑k i +β1∑k i X i +∑k i μi 1

因为:

∑k

i

=0 ,

∑k X

i

i

=1

i

i

ˆ=β +所以:β11

由此可得:

∑k μ (2-17)

ˆ) =E (β +k μ) =E (β) +E (k μ) =β+k E (μ) =β E (β∑i i ∑i i 1∑i i 1111

ˆ) =β (2-18)即:E (β 11

ˆ的无偏性 2. β0

由式(2-16)可得:

ˆ=β+h μ (2-19) β∑i i 00

ˆ) =β (2-20)E (β 00

(三)有效性(最佳无偏性)

ˆ具有最小方差,则βˆ就是β的最佳在所有关于总体参数真值β的无偏估计量中,若估计量β

无偏估计量。

1. β1的有效性 由式(2-17)可得:

ˆ

ˆ) =Var (β +k μ) Var (β∑i i 11 =Var (β1) +Var (∑k i μi ) =∑Var (k i μi ) =∑k i 2Var (μi ) =σ2∑k i 2⎛x =σ2∑ i 2

x

i ⎝ =

⎫⎪⎪⎭

2

(2-21)

σ2

x

2

i

ˆ=∑ωY ,ˆ*是用其他估计方法得到的关于β的线性无偏估计量。由其线性性质可知β设β1i i 11

*

对其求方差可得:

ˆ*) =Var ((ω-k ) +k ) Y =σ2(ω-k ) 2+Var (βˆ) Var (β∑i i i i ∑i i 11

这里σ2

∑(ω

i

ˆ*) ≥Var (βˆ) -k i ) 2≥0,所以有:Var (β11。

ˆ的有效性 2. β0

同理,由式(2-16)可得:

ˆVar (β0

X ) =

n x

2i 2i

σ2 (2-22)

ˆ是用其他估计方法得到的关于β0的线性无偏估计量,则有: ˆ的有效性分析相同,设β与对β01

*

ˆ*) ≥Var (βˆ) Var (β00

结论:在古典线性回归模型的假定下,最小二乘估计量在所有线性无偏估计量中,具有最小方

差,这一结论即是著名的高斯-马尔可夫(Gauss-Markov )定理。

ˆˆ

四、估计量β0 和β1的分布

1、理论基础

对于一个古典正态线性回归模型,即同时满足第二节中假定5的古典线性回归模型,其随机扰

ˆ和βˆ又分别是Y 的线性函数,根据正态分布动项μi 服从正态分布。由于Y i 是μi 的线性函数,而βi 01ˆ和βˆ也服从正态分布。 的性质可知,β01

由以上分析可知:

ˆ) =β,E (βˆ) =β E (β0011

ˆVar (β

X ∑) =

n x

2i

σ2

ˆ σ,Var (β1) =22

x i i

2

从而有:

22⎛⎫⎛X σi 2ˆ~N β, ˆ~N β, βσ⎪,β01 0n x 2⎪ 1x 2

i i ⎝⎭⎝

⎪ ⎪⎭

ˆ和βˆ方差的表达式中,除了随机扰动项的方差σ2之外,都是可以根据样本资料在上面计算β01

ˆ和βˆ的方差。 ˆ2来代替σ2计算β估计的。可以用σ2的无偏估计量σ01

ˆσ

2

e =

2

i

2i

n -2

(2-23)

∑e

可以根据式(2-8)计算,也可以由下式计算:

22ˆ2x 2 (2-24)e =y +β ∑i ∑i 1∑i

2、实例

对于例题2-1

ˆσ

2

n -2

889000-0.50912⨯3300000 =

10-2

=4212. 0909

∑y =

2i

ˆ2x 2+β1∑i

X ˆVar (β) =

n x

2i 2i

ˆ2=σ

32200000⨯4212.0909

=4109.98

10⨯3300000

ˆ) =(β) =64. 1091 S e (β00

ˆ) =Var (β1

ˆ2σ

x

2

i

=

4212. 0909

3300000

ˆ) =(β) =0. 0357。 S e (β11

第三节 显著性检验

一、拟合优度与相关系数检验

(一) 拟合优度与可决系数

拟合优度是指样本回归直线对观测数据拟合的优劣程度。 我们所希望的就是围绕回归直线的剩余尽可能的小。 拟合优度通常用可决系数来度量。

可决系数是样本回归直线对数据拟合程度的综合度量。在双变量的情况下,通常用r 2表示可决系数。

可决系数是建立在对被解释变量总变差分解的基础之上。

Y

i 图2-2总变差分解图

ˆ+Y ˆ-=e +y ˆi 。 图2-2中,观测值Y i 的离差y i =Y i -=Y i -Y i i i

ˆ-,是样本回归直线所确定的估计值与平均值的差; ˆi =Y 其中,y i ˆ,是样本观测值与回归直线所确定的估计值之差。 e i =Y i -Y i

ˆi 时,ˆi 越大,e i 越小,估计值与观测值越接近,该点拟合的越好;反之,拟合的越差。当y i =y y

完全拟合。

采用

∑y

2

i

2i

指标进行分析,该指标称为总变差或总离差平方和,简记为TSS 。

22i

i

i

ˆ) ∑y =∑(e +y ˆ =∑e +∑y

2

i

+2

ˆi e i y

根据

ˆ∑e y

i 2

i

i

=0,所以有

2i

2i

ˆ∑y =∑e +∑y

其中,

(2-25)

ˆ-) ˆ=∑(Y ∑y

2

i

i

2

,称为回归平方和,简记为ESS ;

∑e =∑(Y

2i

i

ˆ) 2,称为残差平方和,简记为RSS 。 -Y i

这样式(2-25)也可以记为:

TSS=RSS+ESS (2-26) 当根据样本采用最小二乘法确定了一条回归直线时,TSS 的大小是一定的。ESS 越大,RSS 越小,该回归直线拟合的越好;反之,拟合的越差。

1、定义:r 2=

ESS 2

, r 称为(样本)可决系数,它是最常用的回归直线拟合优度的度量,表示TSS

由回归模型做出解释的变差在总变差中所占的比重。

由式(2-26)得

r 2=

TSS -RSS RSS

=1- (2-27)

TSS TSS

上式表明,若样本剩余RSS 越小,r 2的值就越大,拟合优度越好;反之,RSS 越大,r 2的值就

越小,拟合优度越差。

2、可决系数r 2还可以按以下推导出的公式求得:

ˆ+βˆX ) -(βˆ+βˆ) =βˆx (2-28)ˆ-=(βˆi =Y y i 01i 011i ESS

r 2==

TSS

ˆ∑y y

2

2i 2i

ˆ x ) (β∑=

y

1

i 2i

2

ˆ2=β1

∑x y

2i 2i

(2-29)

由式(2-14)和(2-27)可得:

r 2

x y ) =

(x )(y

(

i i 2i

2i )

(2-30)

对于例题2-1,

r

2

∑x y )

=

(x )(y

(

2i i 2i

16800002

==0. 9621 2

3300000⨯889000i )

3、r 具有以下两个性质 (1)r 2是一个非负数。

(2)r 2的取值范围是:0≤ r2 ≤1。

r 2 =1意味着完全拟合,r 2 =0意味着被解释变量与解释变量之间没有线性关系,0

越接近于1拟合效果越好。

(二)相关系数检验 1. 相关系数

相关系数是两个变量之间的相关程度的度量。 定义:

2

r =

X -Y -

i

i =

x y

(2-31)

在一元线性回归中,相关系数在数值上是可决系数开平方。可以根据下式计算:

r = (2-32)r 具有以下性质:

(1)它可以是正值也可以是负值,其符号取决于式(2-31)中分子的符号。 (2)它的取值范围在-1和+1之间,即 –1 ≤ r ≤ +1。

(3)它的性质是对称的,X 与Y 的相关系数r xy 和Y 与X 的相关系数r yx 是相同的,都是r 。 (4)它只是线性联系或线性相关的度量,不用来描述非线性关系。 2. 相关系数检验法

相关系数检验法是在建立一元线性回归模型之后,考察两个变量之间是否具有显著的线性相关关系,相关系数检验法的步骤如下:

(1)根据相关系数的计算公式计算相关系数r 。

(2)给定显著性水平α,根据α和从相关系数临界值表中查出相关系数临界值r α(n -2)的值,比较r 与r α(n -2)的值。若 | r | ≥ r α(n -2),表明两变量在显著性水平α 时线性相关关系显著;否则 | r |

二、回归系数估计量的检验(t 检验)

进行回归系数估计量的检验方法随所构造的检验统计量不同而不同,应用最为普遍的是t 检验。 (一)t 统计量

回归系数估计量服从正态分布:

22⎛⎫⎛X σ∑i 2ˆˆβ0~N β0, σ⎪,β1~N β1, 22 ⎪ n x x i i ⎝⎭ ⎝

⎪ ⎪⎭

ˆ用σ的无偏估计量σ

22

e ∑=

2

i

n -2

来代替σ2时,可以构造t 统计量:

ˆ-βˆ-β11t 1==) S e (β1

(2-33)

ˆ-ββ0

t 0=0=

S e (β0)

ˆ-ββ (2-34)

所构造的t 统计量服从自由度为n-2的t 分布。即t ~ t (n-2) (二) 回归系数估计量的t 检验步骤

ˆ为例,介绍t 检验的步骤。 下面以估计量β1

1.提出假设

原假设H 0:β1=0 备择假设H 1:β1≠0

2.给定显著性水平,查t 分布表获得临界值t α(n -2) ,对于例2-1,在显著性水平α=0.05,n-2=8

2

时,查t 分布表,得到:t α(n -2) =2. 306。

2

3.根据式(2-33)利用样本数据计算检验统计量t 的值

ˆ-ββ0.509111t 1===14.2605

Se (β1) 0.0357

4.进行比较,做出判断

若|t|>t α(n -2) ,差异显著,拒绝原假设,接受备择假设

2

若|t|

2

本例中,14.2605>2.306,即|t1|>t α(n -2) ,差异显著,拒绝β1=0的假设。

2

图2-3 阴影部分为t 检验的否定域

t

三、方程的整体性检验(F 检验)

(一)方差分析 由式(2-25)可知:

ˆ∑y =∑e +∑y

2

i

2i

2i

或TSS=RSS+ESS

对总平方和(TSS )的这两个分量进行研究,就称为从回归角度进行的方差分析(Analysis of Variance ,AOV )。

每个平方和都具有相应的自由度,假定给n 个变量赋予数值,在计算平方和时,总有k 个变量可以自由取值,即是这k 个变量线性独立,我们说这个平方和的自由度为k 。与每一个平方和相联系的是它们的自由度。对于一元线性回归模型,TSS 有n -1个自由度;ESS 有1个自由度;RSS 有n -2个自由度。

平方和与自由度之比即为平均平方和。将平方和、自由度及平均平方和列成一个表,该表称为方差分析表(见表2-4)。

表2-4 方差分析表

平方和 自由度 平均平方和 ESS 1

ˆ2x 2β1∑i

2

i

e

RSS n -2 ∑

(二)F 检验统计量定义

-2

从方差分析的角度进行的回归模型整体性检验所采用的检验统计量是F 统计量。 检验统计量F 反映平均回归平方和与平均剩余平方和的比较。

ˆ2x 2β1∑i

F =

e

2

i

(2-35)

-2

且F 服从自由度为1和n-2的F 分布。即:F ~F (1,n-2)

可以推导,F 与可决系数r 2有以下关系

r 2

F =(n -2) (2-36)

1-r 2

利用检验统计量是F 可以对回归方程进行显著性检验,即F 检验。 (三)方程的整体性检验(F 检验)的步骤

1.提出假设

原假设H 0:β1=0 备择假设H 1:β1≠0

2.给定显著性水平α,查F 分布表获得临界值F α(1,n-2),

对于例2-1,在显著性水平α=0.05,n-2=8时,查F 分布表,得到:F 0.05(1,8)=5.32。 3.根据式(2-35)利用样本数据计算检验统计量F 的值

F =

e

ˆ2x 2β1∑i

2i

/n -2

=

855303. 273

=203. 0591

4212. 0909

4.进行比较,做出判断 若F > Fα(1,n-2),差异显著,拒绝原假设,接受备择假设;若F ≤F α(1,n-2),差异不显著,接受原假设(见图2-4)。

本例中,203.0591>5.32,即F > F0.05(1,8),差异显著,拒绝β1=0的假设,方程显著不为零。

图2-4 阴影部分为F 检验的否定域

第四节 一元线性回归模型案例及预测

预测就是利用模型已含有过去和现在的样本数据或信息拟合的回归模型,对被解释变量的可能值做出定量的估计。

一、点预测

根据样本数据,利用最小二乘法,可以得到最小二乘估计值,建立一元回归的预测模型。根据预测模型可以在给定X 的条件下,求得Y 的估计值,并进行点预测。

根据样本数据,得到以下样本回归函数

ˆ+βˆX ˆ=βY i 01i

ˆ+βˆX ,Y ˆ=βˆ为点预测值。 当X i =X0时,Y 00010

例如,根据所给样本数据,建立了如下样本回归函数

ˆ=244. 5455+0. 5091X Y i i

ˆ为: 若已知家庭月可支配收入X i =1600元,根据上述模型,可预测家庭的月消费支出Y 0ˆ=244. 5455+0. 5091⨯1600=1059. 11(元) Y 0

二、区间预测

分为两类:

预测对应于给定X 条件下的个别Y 值。这类预测我们称为个别值预测。

(一)均值预测

即,对应于给定X 条件下的Y 的总体均值的预测。

ˆ=Y ˆ,Y ˆ是总体均值E(Y |X ) 的一个估计值。 当给定X i =X 0时,Y i 0000

ˆ服从于均值为E(Y |X ) 的正态分布。根据正态分布与检验统计量t 的关系,有: 且Y 000

ˆ-E(Y |X ) Y 00

t =0 (2-37)

S e (Y 0)

ˆ) 为Y ˆ的标准误差, 服从于自由度为n -2的t 分布。式中S e (Y 00

2

(X -) 10ˆ) =σˆS e (Y + (2-38) 02n x i

给定显著性水平α 有:

ˆ-E(Y |X ) ⎡⎤Y 000

P ⎢-t α≤≤t α⎥=1-α

Se(Y 0) ⎢2⎥⎣2⎦

或:

⎡ˆˆ) ≤E(Y |X ) ≤Y ˆ+t S (Y ˆ) ⎤(2-39) P ⎢Y -t S (Y 0αe 0000αe 0⎥=1-α

22⎣⎦

上式表明,在重复抽样中,若构造100个这样的区间,将会有(1-α)⨯100以上的区间包含总体均值E(Y 0|X 0) 。

建立所预测的总体均值E(Y 0|X 0) 的置信区间为:

⎡ˆ⎤ˆˆˆ Y -t S (Y ) , Y +t S (Y ) ⎢0αe 00αe 0⎥ (2-40)22⎣⎦

对于前述例题,

2⎛1(X 0-) 2(X -) 120ˆ) =σˆˆ +S e (Y +=022 n n x x i i ⎝

⎪⎪⎭

⎛11600-1700) 2

=4212. 0909⨯ 10+3300000

=20.8320

⎫⎪⎪⎭

给定显著性水平α=0.05,n -2=8时,查t 分布表,得到:t 0. 025=2.306 从而

ˆ-t S (Y ˆ) =1059.11-2.306⨯20.8320=1011.67(元) Y 0αe 0

2

ˆ+t S (Y ˆ) =1059.11+2.306⨯20.8320=1107.14(元) Y 0αe 0

2

P [1011. 67≤E(Y 0|X 0) ≤1107. 14]=95%

即每月可支配收入为1600元的家庭,其平均消费支出在1011.07元至1107.14元之间的概率为95%。

(二)个别值预测

即,对应于给定X 条件下的个别Y 值的预测。

ˆ。 ˆ=Y ˆ,Y =Y ,残差为e ,e =Y -Y 当给定X i =X 0时,Y i 0000i 00

可以证明e 0服从于均值为零的正态分布。根据正态分布与检验统计量t 的关系,有:

ˆe 0-0Y 0-Y 0

(2-41) t ==

S e (e 0) S e (e 0)

服从于自由度为n -2的t 分布。式中S e (e 0) 为e 0的标准误差,

1(X 0-) 2

ˆ++S e (e 0) =σ (2-42) 2

n x i

给定显著性水平α 有:

ˆ⎡⎤Y 0-Y 0

P ⎢-t α≤≤t α⎥=1-α

S (e ) ⎢e 02⎥⎣2⎦

或:

⎡ˆˆ+t S (e ) ⎤(2-43) P ⎢Y -t S (e ) ≤Y ≤Y 0αe 000αe 0⎥=1-α 22⎣⎦

上式表明,在重复抽样中,若构造100个这样的区间,将会有(1-α)⨯100以上的区间包含个别值Y 0。

建立所预测的个别值Y 0的置信区间为:

⎡ˆ⎤ˆ Y -t S (e ) , Y +t S (e ) ⎢0αe 00αe 0⎥ (2-44)22⎣⎦

对于前述例题,

⎛1(X 0-) 21(X 0-) 22 ˆ++ˆ1++S e (e 0) =σ=σ22 n n x x i i ⎝⎛1(1600-1700) 2

=4212. 0909⨯ 1+10+3300000

=68. 1620

⎫⎪⎪⎭

⎫⎪⎪⎭

给定显著性水平α=0.05。n -2=8时,查t 分布表,得到:t 0. 025=2.306 从而

ˆ-t S (e ) =1059.11-2.306⨯68.1620=901.92(元) Y 0αe 0

2

ˆ+t S (e ) =1059.11+2.306⨯68.1620=1216.29(元) Y 0αe 0

2

P [901. 92≤Y 0≤1216. 29]=95%

即每月可支配收入为1600元的家庭,以家庭消费支出在901.92元至1216.29元之间的概率为95%。

三、一元回归模型实例分析

(一)研究目的

依据1996-2005年《中国统计年鉴》提供的资料,经过整理,获得以下农村居民人均消费支出和人均纯收入的数据如表2-5:

表2-5 农村居民1995-2004人均消费支出和人均纯收入数据资料 单位:元

年度

人均纯

1577.74

收入 人均消

1310.36

费支出

1572.08

1617.15

1590.33

1577.42

1670.13

1741.09

1834.31

1943.30

2184.65

1926.07

2090.13

2161.98

2210.34

2253.42

2366.40

2475.63

2622.24

2936.40

1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

(二)建立模型

以农村居民人均纯收入为解释变量X ,农村居民人均消费支出为被解释变量Y ,分析Y 随X 的变化而变化的因果关系。考察样本数据的分布并结合有关经济理论,建立一元线性回归模型如下:

Y i =β0+β1X i +μi

根据表2-5编制计算各参数的基础数据计算表。 求得:

=2262. 035=1704. 082

2i

∑x =1264471. 423∑y =516634. 011 ∑x y =788859. 986∑X =52432495.137

2i i i 2i

根据以上基础数据求得:

ˆ=β1

∑x y

∑x

i 2i

i

=

788859. 986

=0. 623865

126447. 423

ˆ=-βˆ=1704. 082-0. 623865⨯2262. 035=292. 8775 β01

样本回归函数为:

ˆ=292. 8775+0. 623865X Y i i

上式表明,中国农村居民家庭人均可支配收入若是增加100元,居民们将会拿出其中的62.39元用于消费。

(三)模型检验

1.拟合优度检验

r 2x y ) ∑=(x )(y (2i i 2

i 788859. 9862==0. 952594 21264471. 423⨯516634. 011) i

2. t 检验

ˆ2σn -2

516634. 011-0.6238652⨯1264471. 423 =10-2

=3061. 525164y =2i ˆ2x 2-β1i

ˆ) =(β) =S e (β11

ˆ) =(β) =S e (β00ˆ2σx 2i =2i

i 3061. 525164=0. 049206 1264471. [1**********]. 1373061. 525164=112. 6717在显10⨯1264471. 423X n x 2ˆσ=2

著性水平α=0.05,n-2=8时,查t 分布表,得到:

t α(n -2) =2. 306

2

提出假设, 原假设H 0:β1=0,备择假设H 1:β1≠0

ˆ-ββ0. 6238651ˆt (β1) =1==12. 67864 S e (β) 0. 049206

ˆ) =12. 67864>t (n -2) ,差异显著,拒绝β1=0的假设。 t (β1α

2

3. F检验

提出原假设H 0:β1=0,备择假设H 1:β1≠0

在显著性水平α=0.05,n-2=8时,查F 分布表,得到:

F (1,8)=5. 32。

ˆ2x 2β1∑i

F ==492141. 8097=160. 7505 3061. 525164e i 2-2

160.7505>5.32,即F > F(1,8),差异显著,拒绝β1=0的假设。

(四)预测

当农村居民家庭人均纯收入增长到3500元时, 对农村居民人均消费支出预测如下:

ˆ=292. 8775+0. 623865⨯3500=2476. 405(元) Y 0

⎛1(X 0-) 21(X 0-) 2

2 ˆ++ˆ1++S e (e 0) =σ=σ22 n n x x i i ⎝

⎛1(3500-2262. 035) 2

=3061. 525164⨯ 1+10+1264471. 423⎝

=84. 13257219

在显著性水平α=0.05,n -2=8时, t 0. 025=2.306

从而 ⎫⎪⎪⎭ ⎫⎪⎪⎭

ˆ-t S (e ) =2476.405-2.306⨯84.13257219=2282.40(元) Y 0αe 0

2

ˆ+t S (e ) =2476.405+2.306⨯84.13257219=2670.41(元) Y 0αe 0

2

P [2282. 40≤Y 0≤2670. 41]=95%

当农村居民家庭人均纯收入增长到3500元时, ,农村居民人均消费支出在2282.40元至2670.41元之间的概率为95%。

(五) 利用计算机进行实验

本章小结:本章以最基本的计量经济模型——一元线性回归模型为对象,介绍了模型的古典假定、回归函数、构造样本回归函数(SRF) 和普通最小二乘法(OLS ),证明了最小二乘估计量的最佳线性无偏性。并结合实例就有关参数估计、拟合优度、t 检验、F 检验、预测方法以及EViews 软件在实例中的应用作了介绍。

第二章 一元线性回归模型

基本要求:

1、了解相关与回归的概念 2、理解线性回归模型的假定 3、掌握普通最小二乘法

4、理解最小二乘估计量的性质 5、会进行回归模型的检验

第一节 一元线性回归模型概述

一、相关与回归的基本概念

(一)变量之间的关系

各种经济变量之间的关系,一般可以分成两类,即完全确定的关系和非确定性的依存关系。 1.确定性关系或函数关系

如果一个变量值能被一个或若干个其他变量值按某一规律唯一的确定,则这类变量之间就具有完全确定的关系。

例如,当每吨水的价格为P 元时,居民应缴纳的水费Y (元)与用水量X (吨)之间的关系可表示为Y=PX。

2.非确定性关系

如果变量之间既存在密切的数量关系,又不能由一个(或几个)变量之值精确的求出另一个变量之值,但在大量统计资料的基础上,可以判别这类变量之间的数量变化具有一定的规律性,也称为统计相关关系。

例如消费支出Y 与可支配收入X 之间有一定的关系,在一定范围内,收入增加,在理论上可以估计出增加的消费支出额。但应看到,可支配收入虽然是影响消费支出的重要因素,却不是唯一的因素。因此,根据可支配收入并不能精确的求出消费支出,也就不能用精确的函数关系表达式来表示这两个变量之间的关系。

计量经济学就是研究变量间的非确定关系的,变量间的统计相关关系可以通过相关分析和回归分析来研究。

(二)相关分析

1、涵义

相关分析是通过对经济现象的依存关系的分析,找出现象间的相互依存的形式和相关程度,以及依存关系的变动规律。

2、类型——从变量间的依存形式看,可分为线性相关和非线性相关。

线性相关反映变量间的依存关系可以近似的表示为一条直线;变量间的依存关系近似的表示为一条曲线则称为非线性相关。

3、指标

从变量间的相关程度看,可以通过相关系数来度量。两个变量之间的相关程度可以用简单相关系数来衡量;多个变量之间的相关程度可以用复相关系数、偏相关系数等来衡量。

(三)回归分析

1.回归的定义

回归分析是研究某一被解释变量(因变量)与另一个或多个解释变量(自变量)间的依存关系,其目的在于根据已知的解释变量值或固定的解释变量值(重复抽样)来估计和预测被解释变量的总体平均值。

在研究某一社会经济现象的发展变化规律时,所研究的现象或对象称为被解释变量,它是分析的对象,把引起这一现象变化的因素称为解释变量,它是引起这一现象变化的原因。

被解释变量则反映了解释变量变化的结果。 2.回归模型的分类

(1)按模型中自变量的多少,分为一元回归模型和多元回归模型。 一元回归模型是指只包含一个解释变量的回归模型

多元回归模型是指包含两个或两个以上解释变量的回归模型。

(2)按模型中参数与被解释变量之间是否线性,分为线性回归模型和非线性回归模型。 对于“线性”的解释:

一种是就变量而言是线性的,即线性回归模型是指解释变量与被解释变量之间呈线性关系; 另一种是就参数而言是线性的,即线性回归模型是指参数与被解释变量之间呈线性关系;非线性回归模型是指参数与被解释变量之间呈非线性关系。就回归模型而言,通常“线性”是就参数而言的。

(3)按模型中方程数目的多少,分为单一方程模型和联立方程模型。 单一方程模型是指只包含一个方程的回归模型;

联立方程模型是指包含两个或两个以上方程的回归模型。 3.相关与回归的关系

相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。

相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。

相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。

注意避免“虚假回归”:只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。 二者的区别:

(1)在相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。

(2)在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是惟一确定的,而会表现出一定的随机波动性。

(3)相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间

是对等的,因此相关系数是惟一确定的。而在回归分析中,对于互为因果的两个变量,则有可能存在多个回归方程。

二、一元线性回归模型

(一)总体回归函数

1、总体回归函数

假若我们要研究的问题是某市N 户城镇居民家庭的可支配收入X 和消费支出Y 之间的关系,则全体N 户居民家庭构成了研究的总体。表2-1给出了全部居民家庭可支配收入和消费支出统计资料。

表2-1 居民家庭可支配收入和消费支出统计表

可支配收入 消费支出 户数 平均消费支出 (X ) (Y )

X 1 Y 11 Y 12 Y 1j Y 1N 1 N 1 E (Y |X 1) X 2 Y 21 Y 22 Y 2j Y 2N 2 N 2 E (Y |X 2)

X i Y i 1 Y i 2 Y ij Y iN i N i E (Y |X i ) X k Y k 1 Y k 2 Y kj Y kN k N k E (Y |X k )

从表2-1可以看出:对于某一收入水平X i (i =1, 2, , k ) ,有N i (N =N 1+N 2+ +N k ) 户居民家庭消费支出与其对应,反映出在某一收入水平下有关消费支出的条件分布。根据该条件分布,可以计算出在某一收入水平下平均消费支出E (Y /X i ) ,即条件均值。从表2-1还可以看出:对于每一收入水平X i ,仅有唯一的一个条件均值E (Y /X i ) 与其对应,这种一一对应的关系构成了函数关系,该函数称为总体回归函数(Population Regression Function, PRF)。记为:

E (Y /X i ) =f (X i ) (2-1)总体回归函数反映了给定X i 的Y 分布的总体均值随X 的变化而变化的关系。 2、回归系数:β0和β1

总体回归函数f (X i ) 若采用线性函数的形式,有:

E (Y /X i ) =β0+β1X i (2-2)

其中β0和β1是未知而固定的参数,称为回归系数(Regression Coefficients),β0称为截距系数(Intercept Coefficients),β1称为斜率系数(Slope Coefficients)。该函数称为线性总体回归函数。

(二)总体回归函数的随机设定

E (Y /X i ) 描述了在某一收入水平下平均消费支出水平,但是对于某一户居民的家庭消费支出Y i 不一定恰好与该水平一致,或多或少地存在一些偏差。该偏差用μi 表示,并定义:

μi =Y i -E (Y /X i ) (2-3)则有:

Y i =E (Y /X i ) +μi =β0+β1X i +μi ( 2-4)

式(2-4)中μi 反映了除收入之外众多影响消费支出的因素的综合影响,是一个不能观测的随机变量,称为随机误差项(Stochastic Error)。式(2-4)为总体回归函数的随机设定形式。

(三)样本回归函数

根据总体资料可以建立总体回归函数,揭示被解释变量随解释变量的变化而变化的规律。但在

大多数实际情况中,总体的信息往往无法全部获得,我们所掌握的不过是与某些固定的X 值相对应的Y 值的样本。需要根据已知的样本信息去估计总体回归函数。

假定现在不知道建立总体回归函数的总体资料,仅仅掌握来自总体的一组样本数据,例如,根据调查得到某市职工个人月可支配收入与月消费支出数据资料(见表2-2)

表2-2 某市职工个人月可支配收入与月消费支出调查资料 单位:元/月

序 号 可支配收入(X ) 消费支出(Y )

1 800 700

2

3

4 1400 950

5 1600 1100

6 1800 1150

7 2000 1200

8 2200 1400

9 2400 1550

10 2600 1500

1000 1200 650

900

根据以上样本数据拟合一个线性方程:

(2-5)

X 该方程式称为样本回归函数(Sample Regression Function, SRF)。

ˆ充分地“接近”β,并且βˆ也充分地“接近”β,就可以比较式(2-2)与(2-5),假若β0101

ˆ称为β的ˆ去估计总体回归函数E (Y | Xi ) 。所以Y ˆ亦称为E (Y | Xi ) 的估计量;β用样本回归函数Y i i 00

ˆ称为β的估计量。 估计量;β11

ˆ与实际的值存在一定的偏差,该偏差e 用表示。定义: 式(2-5)中Y i i ˆ则有: e i =Y i -Y i

ˆ+βˆX +e (2-6)ˆ+e =βY i =Y i i 01i i

e i 称为样本剩余项,也称为残差。

Y

ˆ+βˆX Y i β01i

β0+β1X i

i 图2-1 总体回归函数与样本回归函数的关系

第二节 一元线性回归模型参数估计

一、古典线性回归模型的假定

以一元线性回归模型Y i = β0 + β1X i + μi 为例,古典线性回归模型的假定如下: 假定1:在给定X i 的条件下,μi 的条件均值为零。即,E (μi | Xi )=0。

假定2:在给定任意X i 、X j 的条件下,μi 、μj 不相关。即,Cov(μi , μj )=0。

2

假定3:对于每一个X i ,μi 的条件方差是一个等于σ的常数。即,Var (μi | Xi )=σ2 。 假定4:在给定X i 的条件下,X i 和μi 不相关。即,Cov (μi , X i )=0。

满足以上四个假定的线性回归模型称为古典线性回归模型。所谓“古典”是作为一种标准或规范来使用的,凡是不满足以上假定的回归模型,就不是“古典”回归模型。

在前述假定下,用最小二乘法得到的回归参数的估计值,按照高斯—马尔可夫定理(Gauss-Markov Theorem)的意义来说,是“最优的”。

假定5:对于每一个μi 都服从于均值为零、方差为σ2正态分布。即,μi ~ N (0,σ2) 满足以上五个假定的线性回归模型称为古典正态线性回归模型。

二、普通最小二乘法

(一)最小二乘原理

利用样本回归函数估计总体回归函数,是根据一个给定的包含n 组X 和Y 观测数据的样本,建

ˆ尽可能接近观测值Y i 。最小二乘原理就是根据使样本剩余的平方和达立样本回归函数,使估计值Y i

到最小的准则,确定模型中的参数,建立样本回归函数。

(二)最小二乘估计量 1、计算、推导

ˆ-βˆX ,得 ˆ=Y -β由 e i =Y i -Y i i 01i

∑e

2

i

ˆ-βˆX ) 2 (2-7)=∑(Y i -β 01i

对于给定的样本,

∑e

2

i

ˆ和βˆ的大小,即的大小取决于β01

∑e

2

i

ˆ和βˆ的函数。按照最小是β01

ˆ和βˆ应使二乘原理,要求所选定的β01

∑e

2

i

最小,要做到这一点,可以借助微积分中求极值的方法,

∑e

2

i

ˆ和βˆ和βˆ求偏导数,并令其为零,满足该条件的βˆ可以使分别对β0011

∑e

2

i

最小。即:

∂e i 2∂e i 2

=0, =0 ∂β∂β

1

可得到:

ˆˆ⎧⎪∑(Y i -β0-β1X i ) =0 ⎨ˆˆ⎪⎩∑(Y i -β0-β1X i ) X i =0

整理后有:

(2-8)

(2-9)

ˆˆ⎧⎪∑Y i =n β0+β1 ∑X i

⎨ˆˆ X 2 X Y =βX +β∑∑⎪i 0i 1∑i i ⎩

求解得:

ˆ=β1

n X i Y i -X i Y i n X -(X i )

2

i i

2

(2-10)

ˆ=β0

Y

n

ˆ-β

1

X

n

i

(2-11)

令=

∑X

n

i

, =

∑Y

n

i 2

i

ˆ=β1

∑(X -)(Y -) (2-12)

(X -) i

i

ˆ=-βˆ (2-13)β 01

令x i =X i -, y i =Y i - (离差)

ˆ=则β1

x y

∑x

i 2i

i

(2-14)

ˆ和βˆ是根据最小二乘原理求得的,故称为普通最小二乘估计量。 以上β01

2、实例

利用表2-2的样本资料建立最小二乘回归模型的过程如下:

表2-3 计算表 2 2

序号 X i Y i x i y i x i y i x i y i X i 2

1 800 700 -900 -410 810000 168100 369000 640000 2 1000 650 -700 -460 490000 211600 322000 1000000 3 1200 900 -500 -210 250000 44100 105000 1440000 4 1400 950 -300 -160 90000 25600 48000 1960000 5 1600 1100 -100 -10 10000 100 1000 2560000 6 1800 1150 100 40 10000 1600 4000 3240000 7 2000 1200 300 90 90000 8100 27000 4000000 8 2200 1400 500 290 250000 84100 145000 4840000 9 2400 1550 700 440 490000 193600 308000 5760000 10 2600 1500 900 390 810000 152100 351000 6760000 合计 17000 11100 0 0 3300000 889000 1680000 32200000 平均 1700 1110

ˆ=β1

∑x y

∑x

i 2i

i

=

1680000

=0. 5091

3300000

ˆ=-βˆ=1110-0. 5091⨯1700=244. 5455 β01

样本回归函数为:

ˆ=244. 5455+0. 5091X Y i i

上式表明,该市职工每月可支配收入若是增加100元,职工将会拿出其中的50.91元用于消费。 (三)普通最小二乘回归直线的性质 回归直线具有以下性质: 1.回归直线通过样本均值。

2.估计值Y i 的均值等于观测值Y i 的均值。 3.剩余项e i 的均值为零。

ˆ

ˆY e i 4.剩余项与估计量i 不相关。

5.剩余项e i 与解释变量X i 不相关。

三、最小二乘估计量的性质

(一)线性性

最小二乘法计算的估计量是随机变量Y i 的线性函数。

ˆ的线性 1. β1

由式(2-14)得:

∑x i y i ∑x i (Y i -) ∑xY ∑x i ∑xY xY i i i i ˆβ1===-==∑i i 2(这里∑x i =0) 22222

∑x i ∑x i ∑x i ∑x i ∑x i ∑x i

令k i =

x i ∑x i 2

ˆ=∑k Y (2-15)有:β 1i i ˆ的线性 2. β0

由式(2-13)得:

ˆ=-βˆ=β01

令h i =

11

Y i -∑k i Y i =∑(-k i ) Y i ∑n n

1

-k i n

ˆ=∑h Y (2-16)有:β 0i i

(二)无偏性

ˆ的均值等于总体参数真值β,则该估计量就是无偏估计量。即:E (βˆ) =β如果估计量β。 ˆ的无偏性 1. β1

由式(2-15)得:

ˆ=β∑k i Y i =∑k i (β0+β1X i +μi ) =β0∑k i +β1∑k i X i +∑k i μi 1

因为:

∑k

i

=0 ,

∑k X

i

i

=1

i

i

ˆ=β +所以:β11

由此可得:

∑k μ (2-17)

ˆ) =E (β +k μ) =E (β) +E (k μ) =β+k E (μ) =β E (β∑i i ∑i i 1∑i i 1111

ˆ) =β (2-18)即:E (β 11

ˆ的无偏性 2. β0

由式(2-16)可得:

ˆ=β+h μ (2-19) β∑i i 00

ˆ) =β (2-20)E (β 00

(三)有效性(最佳无偏性)

ˆ具有最小方差,则βˆ就是β的最佳在所有关于总体参数真值β的无偏估计量中,若估计量β

无偏估计量。

1. β1的有效性 由式(2-17)可得:

ˆ

ˆ) =Var (β +k μ) Var (β∑i i 11 =Var (β1) +Var (∑k i μi ) =∑Var (k i μi ) =∑k i 2Var (μi ) =σ2∑k i 2⎛x =σ2∑ i 2

x

i ⎝ =

⎫⎪⎪⎭

2

(2-21)

σ2

x

2

i

ˆ=∑ωY ,ˆ*是用其他估计方法得到的关于β的线性无偏估计量。由其线性性质可知β设β1i i 11

*

对其求方差可得:

ˆ*) =Var ((ω-k ) +k ) Y =σ2(ω-k ) 2+Var (βˆ) Var (β∑i i i i ∑i i 11

这里σ2

∑(ω

i

ˆ*) ≥Var (βˆ) -k i ) 2≥0,所以有:Var (β11。

ˆ的有效性 2. β0

同理,由式(2-16)可得:

ˆVar (β0

X ) =

n x

2i 2i

σ2 (2-22)

ˆ是用其他估计方法得到的关于β0的线性无偏估计量,则有: ˆ的有效性分析相同,设β与对β01

*

ˆ*) ≥Var (βˆ) Var (β00

结论:在古典线性回归模型的假定下,最小二乘估计量在所有线性无偏估计量中,具有最小方

差,这一结论即是著名的高斯-马尔可夫(Gauss-Markov )定理。

ˆˆ

四、估计量β0 和β1的分布

1、理论基础

对于一个古典正态线性回归模型,即同时满足第二节中假定5的古典线性回归模型,其随机扰

ˆ和βˆ又分别是Y 的线性函数,根据正态分布动项μi 服从正态分布。由于Y i 是μi 的线性函数,而βi 01ˆ和βˆ也服从正态分布。 的性质可知,β01

由以上分析可知:

ˆ) =β,E (βˆ) =β E (β0011

ˆVar (β

X ∑) =

n x

2i

σ2

ˆ σ,Var (β1) =22

x i i

2

从而有:

22⎛⎫⎛X σi 2ˆ~N β, ˆ~N β, βσ⎪,β01 0n x 2⎪ 1x 2

i i ⎝⎭⎝

⎪ ⎪⎭

ˆ和βˆ方差的表达式中,除了随机扰动项的方差σ2之外,都是可以根据样本资料在上面计算β01

ˆ和βˆ的方差。 ˆ2来代替σ2计算β估计的。可以用σ2的无偏估计量σ01

ˆσ

2

e =

2

i

2i

n -2

(2-23)

∑e

可以根据式(2-8)计算,也可以由下式计算:

22ˆ2x 2 (2-24)e =y +β ∑i ∑i 1∑i

2、实例

对于例题2-1

ˆσ

2

n -2

889000-0.50912⨯3300000 =

10-2

=4212. 0909

∑y =

2i

ˆ2x 2+β1∑i

X ˆVar (β) =

n x

2i 2i

ˆ2=σ

32200000⨯4212.0909

=4109.98

10⨯3300000

ˆ) =(β) =64. 1091 S e (β00

ˆ) =Var (β1

ˆ2σ

x

2

i

=

4212. 0909

3300000

ˆ) =(β) =0. 0357。 S e (β11

第三节 显著性检验

一、拟合优度与相关系数检验

(一) 拟合优度与可决系数

拟合优度是指样本回归直线对观测数据拟合的优劣程度。 我们所希望的就是围绕回归直线的剩余尽可能的小。 拟合优度通常用可决系数来度量。

可决系数是样本回归直线对数据拟合程度的综合度量。在双变量的情况下,通常用r 2表示可决系数。

可决系数是建立在对被解释变量总变差分解的基础之上。

Y

i 图2-2总变差分解图

ˆ+Y ˆ-=e +y ˆi 。 图2-2中,观测值Y i 的离差y i =Y i -=Y i -Y i i i

ˆ-,是样本回归直线所确定的估计值与平均值的差; ˆi =Y 其中,y i ˆ,是样本观测值与回归直线所确定的估计值之差。 e i =Y i -Y i

ˆi 时,ˆi 越大,e i 越小,估计值与观测值越接近,该点拟合的越好;反之,拟合的越差。当y i =y y

完全拟合。

采用

∑y

2

i

2i

指标进行分析,该指标称为总变差或总离差平方和,简记为TSS 。

22i

i

i

ˆ) ∑y =∑(e +y ˆ =∑e +∑y

2

i

+2

ˆi e i y

根据

ˆ∑e y

i 2

i

i

=0,所以有

2i

2i

ˆ∑y =∑e +∑y

其中,

(2-25)

ˆ-) ˆ=∑(Y ∑y

2

i

i

2

,称为回归平方和,简记为ESS ;

∑e =∑(Y

2i

i

ˆ) 2,称为残差平方和,简记为RSS 。 -Y i

这样式(2-25)也可以记为:

TSS=RSS+ESS (2-26) 当根据样本采用最小二乘法确定了一条回归直线时,TSS 的大小是一定的。ESS 越大,RSS 越小,该回归直线拟合的越好;反之,拟合的越差。

1、定义:r 2=

ESS 2

, r 称为(样本)可决系数,它是最常用的回归直线拟合优度的度量,表示TSS

由回归模型做出解释的变差在总变差中所占的比重。

由式(2-26)得

r 2=

TSS -RSS RSS

=1- (2-27)

TSS TSS

上式表明,若样本剩余RSS 越小,r 2的值就越大,拟合优度越好;反之,RSS 越大,r 2的值就

越小,拟合优度越差。

2、可决系数r 2还可以按以下推导出的公式求得:

ˆ+βˆX ) -(βˆ+βˆ) =βˆx (2-28)ˆ-=(βˆi =Y y i 01i 011i ESS

r 2==

TSS

ˆ∑y y

2

2i 2i

ˆ x ) (β∑=

y

1

i 2i

2

ˆ2=β1

∑x y

2i 2i

(2-29)

由式(2-14)和(2-27)可得:

r 2

x y ) =

(x )(y

(

i i 2i

2i )

(2-30)

对于例题2-1,

r

2

∑x y )

=

(x )(y

(

2i i 2i

16800002

==0. 9621 2

3300000⨯889000i )

3、r 具有以下两个性质 (1)r 2是一个非负数。

(2)r 2的取值范围是:0≤ r2 ≤1。

r 2 =1意味着完全拟合,r 2 =0意味着被解释变量与解释变量之间没有线性关系,0

越接近于1拟合效果越好。

(二)相关系数检验 1. 相关系数

相关系数是两个变量之间的相关程度的度量。 定义:

2

r =

X -Y -

i

i =

x y

(2-31)

在一元线性回归中,相关系数在数值上是可决系数开平方。可以根据下式计算:

r = (2-32)r 具有以下性质:

(1)它可以是正值也可以是负值,其符号取决于式(2-31)中分子的符号。 (2)它的取值范围在-1和+1之间,即 –1 ≤ r ≤ +1。

(3)它的性质是对称的,X 与Y 的相关系数r xy 和Y 与X 的相关系数r yx 是相同的,都是r 。 (4)它只是线性联系或线性相关的度量,不用来描述非线性关系。 2. 相关系数检验法

相关系数检验法是在建立一元线性回归模型之后,考察两个变量之间是否具有显著的线性相关关系,相关系数检验法的步骤如下:

(1)根据相关系数的计算公式计算相关系数r 。

(2)给定显著性水平α,根据α和从相关系数临界值表中查出相关系数临界值r α(n -2)的值,比较r 与r α(n -2)的值。若 | r | ≥ r α(n -2),表明两变量在显著性水平α 时线性相关关系显著;否则 | r |

二、回归系数估计量的检验(t 检验)

进行回归系数估计量的检验方法随所构造的检验统计量不同而不同,应用最为普遍的是t 检验。 (一)t 统计量

回归系数估计量服从正态分布:

22⎛⎫⎛X σ∑i 2ˆˆβ0~N β0, σ⎪,β1~N β1, 22 ⎪ n x x i i ⎝⎭ ⎝

⎪ ⎪⎭

ˆ用σ的无偏估计量σ

22

e ∑=

2

i

n -2

来代替σ2时,可以构造t 统计量:

ˆ-βˆ-β11t 1==) S e (β1

(2-33)

ˆ-ββ0

t 0=0=

S e (β0)

ˆ-ββ (2-34)

所构造的t 统计量服从自由度为n-2的t 分布。即t ~ t (n-2) (二) 回归系数估计量的t 检验步骤

ˆ为例,介绍t 检验的步骤。 下面以估计量β1

1.提出假设

原假设H 0:β1=0 备择假设H 1:β1≠0

2.给定显著性水平,查t 分布表获得临界值t α(n -2) ,对于例2-1,在显著性水平α=0.05,n-2=8

2

时,查t 分布表,得到:t α(n -2) =2. 306。

2

3.根据式(2-33)利用样本数据计算检验统计量t 的值

ˆ-ββ0.509111t 1===14.2605

Se (β1) 0.0357

4.进行比较,做出判断

若|t|>t α(n -2) ,差异显著,拒绝原假设,接受备择假设

2

若|t|

2

本例中,14.2605>2.306,即|t1|>t α(n -2) ,差异显著,拒绝β1=0的假设。

2

图2-3 阴影部分为t 检验的否定域

t

三、方程的整体性检验(F 检验)

(一)方差分析 由式(2-25)可知:

ˆ∑y =∑e +∑y

2

i

2i

2i

或TSS=RSS+ESS

对总平方和(TSS )的这两个分量进行研究,就称为从回归角度进行的方差分析(Analysis of Variance ,AOV )。

每个平方和都具有相应的自由度,假定给n 个变量赋予数值,在计算平方和时,总有k 个变量可以自由取值,即是这k 个变量线性独立,我们说这个平方和的自由度为k 。与每一个平方和相联系的是它们的自由度。对于一元线性回归模型,TSS 有n -1个自由度;ESS 有1个自由度;RSS 有n -2个自由度。

平方和与自由度之比即为平均平方和。将平方和、自由度及平均平方和列成一个表,该表称为方差分析表(见表2-4)。

表2-4 方差分析表

平方和 自由度 平均平方和 ESS 1

ˆ2x 2β1∑i

2

i

e

RSS n -2 ∑

(二)F 检验统计量定义

-2

从方差分析的角度进行的回归模型整体性检验所采用的检验统计量是F 统计量。 检验统计量F 反映平均回归平方和与平均剩余平方和的比较。

ˆ2x 2β1∑i

F =

e

2

i

(2-35)

-2

且F 服从自由度为1和n-2的F 分布。即:F ~F (1,n-2)

可以推导,F 与可决系数r 2有以下关系

r 2

F =(n -2) (2-36)

1-r 2

利用检验统计量是F 可以对回归方程进行显著性检验,即F 检验。 (三)方程的整体性检验(F 检验)的步骤

1.提出假设

原假设H 0:β1=0 备择假设H 1:β1≠0

2.给定显著性水平α,查F 分布表获得临界值F α(1,n-2),

对于例2-1,在显著性水平α=0.05,n-2=8时,查F 分布表,得到:F 0.05(1,8)=5.32。 3.根据式(2-35)利用样本数据计算检验统计量F 的值

F =

e

ˆ2x 2β1∑i

2i

/n -2

=

855303. 273

=203. 0591

4212. 0909

4.进行比较,做出判断 若F > Fα(1,n-2),差异显著,拒绝原假设,接受备择假设;若F ≤F α(1,n-2),差异不显著,接受原假设(见图2-4)。

本例中,203.0591>5.32,即F > F0.05(1,8),差异显著,拒绝β1=0的假设,方程显著不为零。

图2-4 阴影部分为F 检验的否定域

第四节 一元线性回归模型案例及预测

预测就是利用模型已含有过去和现在的样本数据或信息拟合的回归模型,对被解释变量的可能值做出定量的估计。

一、点预测

根据样本数据,利用最小二乘法,可以得到最小二乘估计值,建立一元回归的预测模型。根据预测模型可以在给定X 的条件下,求得Y 的估计值,并进行点预测。

根据样本数据,得到以下样本回归函数

ˆ+βˆX ˆ=βY i 01i

ˆ+βˆX ,Y ˆ=βˆ为点预测值。 当X i =X0时,Y 00010

例如,根据所给样本数据,建立了如下样本回归函数

ˆ=244. 5455+0. 5091X Y i i

ˆ为: 若已知家庭月可支配收入X i =1600元,根据上述模型,可预测家庭的月消费支出Y 0ˆ=244. 5455+0. 5091⨯1600=1059. 11(元) Y 0

二、区间预测

分为两类:

预测对应于给定X 条件下的个别Y 值。这类预测我们称为个别值预测。

(一)均值预测

即,对应于给定X 条件下的Y 的总体均值的预测。

ˆ=Y ˆ,Y ˆ是总体均值E(Y |X ) 的一个估计值。 当给定X i =X 0时,Y i 0000

ˆ服从于均值为E(Y |X ) 的正态分布。根据正态分布与检验统计量t 的关系,有: 且Y 000

ˆ-E(Y |X ) Y 00

t =0 (2-37)

S e (Y 0)

ˆ) 为Y ˆ的标准误差, 服从于自由度为n -2的t 分布。式中S e (Y 00

2

(X -) 10ˆ) =σˆS e (Y + (2-38) 02n x i

给定显著性水平α 有:

ˆ-E(Y |X ) ⎡⎤Y 000

P ⎢-t α≤≤t α⎥=1-α

Se(Y 0) ⎢2⎥⎣2⎦

或:

⎡ˆˆ) ≤E(Y |X ) ≤Y ˆ+t S (Y ˆ) ⎤(2-39) P ⎢Y -t S (Y 0αe 0000αe 0⎥=1-α

22⎣⎦

上式表明,在重复抽样中,若构造100个这样的区间,将会有(1-α)⨯100以上的区间包含总体均值E(Y 0|X 0) 。

建立所预测的总体均值E(Y 0|X 0) 的置信区间为:

⎡ˆ⎤ˆˆˆ Y -t S (Y ) , Y +t S (Y ) ⎢0αe 00αe 0⎥ (2-40)22⎣⎦

对于前述例题,

2⎛1(X 0-) 2(X -) 120ˆ) =σˆˆ +S e (Y +=022 n n x x i i ⎝

⎪⎪⎭

⎛11600-1700) 2

=4212. 0909⨯ 10+3300000

=20.8320

⎫⎪⎪⎭

给定显著性水平α=0.05,n -2=8时,查t 分布表,得到:t 0. 025=2.306 从而

ˆ-t S (Y ˆ) =1059.11-2.306⨯20.8320=1011.67(元) Y 0αe 0

2

ˆ+t S (Y ˆ) =1059.11+2.306⨯20.8320=1107.14(元) Y 0αe 0

2

P [1011. 67≤E(Y 0|X 0) ≤1107. 14]=95%

即每月可支配收入为1600元的家庭,其平均消费支出在1011.07元至1107.14元之间的概率为95%。

(二)个别值预测

即,对应于给定X 条件下的个别Y 值的预测。

ˆ。 ˆ=Y ˆ,Y =Y ,残差为e ,e =Y -Y 当给定X i =X 0时,Y i 0000i 00

可以证明e 0服从于均值为零的正态分布。根据正态分布与检验统计量t 的关系,有:

ˆe 0-0Y 0-Y 0

(2-41) t ==

S e (e 0) S e (e 0)

服从于自由度为n -2的t 分布。式中S e (e 0) 为e 0的标准误差,

1(X 0-) 2

ˆ++S e (e 0) =σ (2-42) 2

n x i

给定显著性水平α 有:

ˆ⎡⎤Y 0-Y 0

P ⎢-t α≤≤t α⎥=1-α

S (e ) ⎢e 02⎥⎣2⎦

或:

⎡ˆˆ+t S (e ) ⎤(2-43) P ⎢Y -t S (e ) ≤Y ≤Y 0αe 000αe 0⎥=1-α 22⎣⎦

上式表明,在重复抽样中,若构造100个这样的区间,将会有(1-α)⨯100以上的区间包含个别值Y 0。

建立所预测的个别值Y 0的置信区间为:

⎡ˆ⎤ˆ Y -t S (e ) , Y +t S (e ) ⎢0αe 00αe 0⎥ (2-44)22⎣⎦

对于前述例题,

⎛1(X 0-) 21(X 0-) 22 ˆ++ˆ1++S e (e 0) =σ=σ22 n n x x i i ⎝⎛1(1600-1700) 2

=4212. 0909⨯ 1+10+3300000

=68. 1620

⎫⎪⎪⎭

⎫⎪⎪⎭

给定显著性水平α=0.05。n -2=8时,查t 分布表,得到:t 0. 025=2.306 从而

ˆ-t S (e ) =1059.11-2.306⨯68.1620=901.92(元) Y 0αe 0

2

ˆ+t S (e ) =1059.11+2.306⨯68.1620=1216.29(元) Y 0αe 0

2

P [901. 92≤Y 0≤1216. 29]=95%

即每月可支配收入为1600元的家庭,以家庭消费支出在901.92元至1216.29元之间的概率为95%。

三、一元回归模型实例分析

(一)研究目的

依据1996-2005年《中国统计年鉴》提供的资料,经过整理,获得以下农村居民人均消费支出和人均纯收入的数据如表2-5:

表2-5 农村居民1995-2004人均消费支出和人均纯收入数据资料 单位:元

年度

人均纯

1577.74

收入 人均消

1310.36

费支出

1572.08

1617.15

1590.33

1577.42

1670.13

1741.09

1834.31

1943.30

2184.65

1926.07

2090.13

2161.98

2210.34

2253.42

2366.40

2475.63

2622.24

2936.40

1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

(二)建立模型

以农村居民人均纯收入为解释变量X ,农村居民人均消费支出为被解释变量Y ,分析Y 随X 的变化而变化的因果关系。考察样本数据的分布并结合有关经济理论,建立一元线性回归模型如下:

Y i =β0+β1X i +μi

根据表2-5编制计算各参数的基础数据计算表。 求得:

=2262. 035=1704. 082

2i

∑x =1264471. 423∑y =516634. 011 ∑x y =788859. 986∑X =52432495.137

2i i i 2i

根据以上基础数据求得:

ˆ=β1

∑x y

∑x

i 2i

i

=

788859. 986

=0. 623865

126447. 423

ˆ=-βˆ=1704. 082-0. 623865⨯2262. 035=292. 8775 β01

样本回归函数为:

ˆ=292. 8775+0. 623865X Y i i

上式表明,中国农村居民家庭人均可支配收入若是增加100元,居民们将会拿出其中的62.39元用于消费。

(三)模型检验

1.拟合优度检验

r 2x y ) ∑=(x )(y (2i i 2

i 788859. 9862==0. 952594 21264471. 423⨯516634. 011) i

2. t 检验

ˆ2σn -2

516634. 011-0.6238652⨯1264471. 423 =10-2

=3061. 525164y =2i ˆ2x 2-β1i

ˆ) =(β) =S e (β11

ˆ) =(β) =S e (β00ˆ2σx 2i =2i

i 3061. 525164=0. 049206 1264471. [1**********]. 1373061. 525164=112. 6717在显10⨯1264471. 423X n x 2ˆσ=2

著性水平α=0.05,n-2=8时,查t 分布表,得到:

t α(n -2) =2. 306

2

提出假设, 原假设H 0:β1=0,备择假设H 1:β1≠0

ˆ-ββ0. 6238651ˆt (β1) =1==12. 67864 S e (β) 0. 049206

ˆ) =12. 67864>t (n -2) ,差异显著,拒绝β1=0的假设。 t (β1α

2

3. F检验

提出原假设H 0:β1=0,备择假设H 1:β1≠0

在显著性水平α=0.05,n-2=8时,查F 分布表,得到:

F (1,8)=5. 32。

ˆ2x 2β1∑i

F ==492141. 8097=160. 7505 3061. 525164e i 2-2

160.7505>5.32,即F > F(1,8),差异显著,拒绝β1=0的假设。

(四)预测

当农村居民家庭人均纯收入增长到3500元时, 对农村居民人均消费支出预测如下:

ˆ=292. 8775+0. 623865⨯3500=2476. 405(元) Y 0

⎛1(X 0-) 21(X 0-) 2

2 ˆ++ˆ1++S e (e 0) =σ=σ22 n n x x i i ⎝

⎛1(3500-2262. 035) 2

=3061. 525164⨯ 1+10+1264471. 423⎝

=84. 13257219

在显著性水平α=0.05,n -2=8时, t 0. 025=2.306

从而 ⎫⎪⎪⎭ ⎫⎪⎪⎭

ˆ-t S (e ) =2476.405-2.306⨯84.13257219=2282.40(元) Y 0αe 0

2

ˆ+t S (e ) =2476.405+2.306⨯84.13257219=2670.41(元) Y 0αe 0

2

P [2282. 40≤Y 0≤2670. 41]=95%

当农村居民家庭人均纯收入增长到3500元时, ,农村居民人均消费支出在2282.40元至2670.41元之间的概率为95%。

(五) 利用计算机进行实验

本章小结:本章以最基本的计量经济模型——一元线性回归模型为对象,介绍了模型的古典假定、回归函数、构造样本回归函数(SRF) 和普通最小二乘法(OLS ),证明了最小二乘估计量的最佳线性无偏性。并结合实例就有关参数估计、拟合优度、t 检验、F 检验、预测方法以及EViews 软件在实例中的应用作了介绍。


相关内容

  • 多元回归分析的应用研究
  • 目 录 摘要: .............................................................................................................................................. ...

  • 安徽省人口总数的预测
  • 统 计 预 测 和 决 策 课 程 论 文 -------------------安徽省人口总数的预测 学 院: 数理学院 班 级: 学生姓名 : 指导教师: 完成时间: 目 录 摘要„„„„„„„„„„„„„„„„„„„„„„„„2 一 绪论„„„„„„„„„„„„„„„„„„„„„„„3 二 数 ...

  • 第9章SPSS的线性回归分析
  • 第9章SPSS 的线性回归分析 学习目标 1. 掌握线型回归分析的主要目标, 了解回归方程的最小二乘法估计的基本设计思路. 2. 熟练掌握线性回归分析的具体操作,能够读懂基本分析结果,掌握计算结果之间的 数量关系,并能够写出回归方程.对回归方程进行各种统计检验. 3. 了解多元线性回归分析哦那个自变 ...

  • 5.1回归模型
  • 第一节 回归模型 回归分析是研究随机现象中变量之间关系的一种数理统计方法. 它的 主要内容是:从一组数据出发,确定这些变量间的关系式,对这些关系式 的可信程度进行统计检验,从影响一个量的许多变量中,判断哪些变量的 影响是显著的,哪些是不显著的,寻找具有较好统计性质的回归设计,利 用所求得的关系式进行 ...

  • 对一元线性拟合的显著性检验的进一步分析
  • 第!5卷第%期连云港职业技术学院学报G7 文章编号:(( 对一元线性拟合的显著性检验的进一步分析 颜士新 (连云港职业技术学院,江苏连云港((( 摘 ! 讨论了自变量与因变量之间除线性关系外是要:在常用的*统计量检验一元线性回归模型的基础上, 否存在其它关系的判定方法. 关键词:线性回归:显著性检验 ...

  • 计量一元线性回归模型参数估计
  • 1一元线性回归模型的参数估计 1.普通最小二乘估计(OLS ) 对于所研究的经济问题,通常真实的回归直线是观测不到的.收集样本的目的就是要对这条真实的回归直线做出估计. 假如给出了样本观测值(X i ,Y i ), i=1, 2, -, n (是样本容量). ˆ+βˆ X i +u ˆi (也可以记 ...

  • 回归分析在数学建模中的应用
  • 摘 要 回归分析和方差分析是探究和处理相关关系的两个重要的分支, 其中回归分析方法是预测方面最常用的数学方法, 它是利用统计数据来确定变量之间的关系, 并且依据这种关系来预测未来的发展趋势.本文主要介绍了一元线性回归分析方法和多元线性回归分析方法的一般思想方法和一般步骤, 并且用它们来研究和分析我们 ...

  • 客房预订的价格和数量
  • 客房预订的价格和数量 摘要 经过分析可知,本题是关于客房预订和数量的问题.此类问题可以通过建立 数学模型,运用线性回归方程来求解.在宾馆追求利润最大化的前提下,宾馆一方面要保持自己的信誉度,又要尽最大的努力去寻求更多的客户.根据市场需求情况,在旅游的淡季和旺季又要有不同的价格,而且还要尽量减少客房预 ...

  • 数据分析与统计计算软件 DASC
  • DATA ANALYSIS AND STATISTICAL COMPUTATION 数据分析与统计计算软件DASC 模型菜单 武汉金雀数据科技有限公司出品 2010 一.数据预处理 数据整理: 排序:删除:截断:取整:转置:重排. 数据变换: 各列全变换:逐列变换:逐行变换. 数据中心标准化: 中心 ...