方差的基本思想

方差分析的基本思想

2008-10-15 10:36 【大 中 小】

多组样本均数比较时要用方差分析,而不能作任两组均数间比较的t检验。因为后者会明显增大犯第一类错误的概率。方差分析和前面介绍的u检验、t检验一样,也属于是参数检验方法,它要求各组数据均服从正态分布,且各

组的总体方差相等,即方差齐性。

用样本方差描述其总的离散趋势。而样本方差的分子是离均差平方和,又叫作总变异SS总;

完全随机设计的方差分析是将多组数据内部的总变异分解为组内、组间变异两部分;

组内变异反映的是随机变异,组间变异反映了随机变异和可能起作用的研究因素。组内变异除以组内自由度得到

组内均方,组间变异除以组间自由度得到组间均方。

如果研究因素不起作用,即假定H0成立,那么组间均方与组内均方之比(F值)将服从组间,组内的F分布,

从而可以确定P值并得出统计结论。

方差分析的基本思想对于学习方差分析是很重要的,不少研究生考试都会有这样的题目。而目前的教材中关于方差分析的基本思想都比较晦涩难懂。这里以本人的个人理解对此进行阐述。

这里通过举例来说明,三组人群,每组20人,服用三种降压药,比较用药后的血压值。

首先,这三组60人之间的血压值肯定各有不同,这种不同用专业术语称之为变异(variation),而方差则是体现变异的常用指标。如果你仔细看一下方差分析的英文analysis of variance,实际上就是对变异的分析,所以,有的统计教材也称之为变异数分析。

三组的所有人群之间存在变异(统计教材上称之为总变异(SS)),我们就需要分析一下,为什么会存在变异?当然,我们可以想到很多原因。至少有两类:第一是个体之间的差异(统计教材上称之为组内变异),每个人的体质不同,比如肥胖程度等肯定会有所影响。第二是药物的影响(统计教材上称之为组间变异),比如三种药物中,可能A药效果好,从而服用A药的人血压比较低。

总的来讲,变异可以分为这两部分。但是我们如何确定到底哪部分影响更大呢?这就需要把总的变异进行分解也就是分解上上面所说的组间变异和组内变异。如果是完全随机设计,那组内变异也就是误差,它包含了个体的差异以及由于抽样所造成的变异(抽样误差总是存在的),这一种设计由于误差比较多,所以结果比较粗糙。所以人们想到了控制个体间的差异,这就是随机区组设计,即选择样本时有意识将各组人的体形等因素相同,这样就减少误差了。

对于完全随机设计而言,有了组间变异和组内变异,我们就可以比较一下,如果组间变异远远大于组内变异,那我们就可以认为总变异主要是由组间变异引起的(本例中就是主要是药物的不同降压效果造成的)。如果二者差别不大,那就不能说主要是由药物的疗效造成的,换句话说,药物的疗效可能对血压的影响并不大。

但是还有一个问题,那就是数据存在这样一个规律,数据越多,变异越大,这个很容易理解,1000个人之间的差异肯定要比10个人之间的差异多。所以就有一个问题,组间只有3组,而每个组内有20个人,很明显,20个人的差异要大于3个人的差异,为了抵消人数的影响,所以我们就想出一个办法,那就是用变异除以自由度(例数-1),这样比较的就是平均的变异了。所以统计教材上又出现了组间均方(MS)和组内均方这两个概念,以这两个概念代表变异。

组间均方/组内均方就是通常所说的F值,实际上代表了这样一个含义:如果组间变异远远大于组内变异,那么组间均方除以组内均方的值肯定很大,反之,这一值就会很小。但是,到底大到什么程度才认为有统计学意义呢,那就得根据F分布了(你仔细看一下F分布的图形就会有所领悟)。由于我们所有的计算都是在一种假定(统计教材上称之为无效假设,即首先假定组间无差异)的基础上算出来的,从F分布图形来看,过大的值出现的概率是很小的,所以F值越大,表明你的结果在假定的条件下出现的概率越小(这句话需要仔细体会一下),或者说,在假定的条件下,不大可能出现太大的F值,而一旦出现,我们可能要怀疑,是不是假定的条件不对?如果这种概率小于0.05,我们更加怀疑了,这时候我们就有95%的把握认为,假定的条件是不对的。据此我们就得出了结论,推翻初始的假定,而认为假定的对立面是正确的。

方差计算公式

一.方差的概念与计算公式

例1 两人的5次测验成绩如下:

X: 50,100,100,60,50 E(X )=72;

Y: 73, 70, 75,72,70 E(Y )=72。

平均成绩相同,但X 不稳定,对平均值的偏离大。

方差描述随机变量对于数学期望的偏离程度。

单个偏离是

消除符号影响

方差即偏离平方的均值,记为D(X ):

直接计算公式分离散型和连续型,具体为:

这里 是一个数。推导另一种计算公式

得到:“方差等于平方的均值减去均值的平方”,即

其中

分别为离散型和连续型计算公式。 称为标准差或均方差,方差描述波动程度。

二.方差的性质

1.设C为常数,则D(C) = 0(常数无波动);

2. D(CX )=C2 D(X ) (常数平方提取);

证:

特别地 D(-X ) = D(X ), D(-2X ) = 4D(X )(方差无负值)

3.若X 、Y 相互独立,则

证:记

前面两项恰为 D(X )和D(Y ),第三项展开后为

当X、Y 相互独立时,

故第三项为零。

特别地

独立前提的逐项求和,可推广到有限项。

三.常用分布的方差

1.两点分布

2.二项分布

X ~ B ( n, p )

引入随机变量 Xi (第i次试验中A 出现的次数,服从两点分布)

3.泊松分布(推导略)

4.均匀分布

另一计算过程为

5.指数分布(推导略)

6.正态分布(推导略)

~

正态分布的后一参数反映它与均值 的偏离程度,即波动程度(随机波动),这与图形的特征是相符的。

例2 求上节例2的方差。

解 根据上节例2给出的分布律,计算得到

工人乙废品数少,波动也小,稳定性好。

方差的定义:

设一组数据x1,x2,x3······xn中,各组数据与它们的平均数x(拔)的差的平方分别是(x1-x拔)2,(x2-x拔)2······(xn-x拔)2,那么我们用他们的平均数s2=1/n【(x1-x拔)2+(x2-x拔)2+·····(xn-x拔)2】来衡量这组数据的波动大小,并把它叫做这组数据的方差

方差分析

目录[隐藏] 什么是方差分析 方差分析的基本思想 方差分析的分类及举例 方差分析的主要内容

方差分析(Analysis of Variance,简称ANOVA)

[编辑本段]

什么是方差分析

方差分析(ANOVA)又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。

由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。 经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。

1、多个样本均数间两两比较

多个样本均数间两两比较常用q检验的方法,即Newman-kueuls法,其基本步骤为:建立检验假设-->样本均数排序-->计算q值-->查q界值表判断结果。

2、多个实验组与一个对照组均数间两两比较

多个实验组与一个对照组均数间两两比较,若目的是减小第II类错误,最好选用最小显著差法(LSD法);若目的是减小第I类错误,最好选用新复极差法,前者查t界值表,后者查q'界值表。

[]

方差分析的基本思想

基本思想:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

下面我们用一个简单的例子来说明方差分析的基本思想:

如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下:

患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11

健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87

问该地克山病患者与健康人的血磷值是否不同?

从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均数的变异情况,则总变异有以下两个来源:

组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;

组间变异,即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。

而且:SS总=SS组间+SS组内 v总=v组间+v组内

如果用均方(即自由度v去除离均差平方和的商)代替离均差平方和以消除各组样本数不同的影响,则方差分析就是用组内均方去除组间均方的商(即F值)与1相比较,若F值接近1,则说明各组均数间的差异没有统计学意义,若F值远大于1,则说明各组均数间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。

[]

方差分析的分类及举例

一、单因素方差分析

(一)单因素方差分析概念理解步骤

是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。

例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差 分析得到答案。

单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地区、学历。

单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值得变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。

单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。

(二)单因素方差分析原理总结

容易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。

(三)单因素方差分析基本步骤

• 1、提出原假设:H0——无差异;H1——有显著差异

• 2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。

• 3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。

• 4、给定显著性水平 ,并作出决策

(四)单因素方差分析的进一步分析

在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验。

1、方差齐性检验

是对控制变量不同水平下各观测变量总体方差是否相等进行检验。

前面提到,控制变量不同各水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足

这个前提要求,就不能认为各总体分布相同。因此,有必要对方差是否齐性进行检验。

SPSS单因素方差分析中,方差齐性检验采用了方差同质性(homogeneity of variance)检验方法,其原假设是:各水平下观测变量总体的方差无显著差异。

2、多重比较检验

单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量产生了显著影响,进一步还应确定控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显区别于其他水平,哪个水平的作用是不显著的,等等。

例如,如果确定了不同施肥量对农作物的产量有显著影响,那么还需要了解10公斤、20公斤、30公斤肥料对农作物产量的影响幅度是否有差异,其中哪种施肥量水平对提高农作物产量的作用不明显,哪种施肥量水平最有利于提高产量等。掌握了这些重要的信息就能够帮助人们制定合理的施肥方案,实现低投入高产出。

多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤。

介绍几种常用检验统计量的构造方法

(1)LSD方法

LSD方法称为最小显著性差异(Least Significant Difference)法。最小显著性差异法的字画就体现了其检验敏感性高的特点,即水平间的均值只要存在一定程度的微小差异就可能被检验出来。

正是如此,它利用全部观测变量值,而非仅使用某两组的数据。LSD方法适用于各总体方差相等的情况,但它并没有对犯一类错误的概率问题加以有效控制。

(2)S-N-K方法

S-N-K方法是一种有效划分相似性子集的方法。该方法适合于各水平观测值个数相等的情况,

3、其他检验

(1)先验对比检验

在多重比较检验中,如果发现某些水平与另外一些水平的均值差距显著,如有五个水平,其中x1、x2、x3与x4、x5的均值有显著差异,就可以进一步分析比较这两组总的均值是否存在显著差异,即1/3(x1+x2+x3)与1/2(x4+x5)是否有显著差异。这种事先指定各均值的系数,再对其线性组合进行检验的分析方法称为先验对比检验。通过先验对比检验能够更精确地掌握各水平间或各相似性子集间均值的差异程度。

(2)趋势检验

当控制变量为定序变量时,趋势检验能够分析随着控制变量水平的变化,观测变量值变化的总体趋势是怎样的,是呈现线性变化趋势,还是呈二次、三次等多项式变化。通过趋势检验,能够帮助人们从另一个角度把握控制变量不同水平对观测变量总体作用的程度。

二、多因素方差分析

(一)多因素方差分析基本思想

多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。

例如:

分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量作为观测变量,品种和施肥量作为控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究

哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。

(二)多因素方差分析的其他功能

1、均值检验

在SPSS中,利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较,实现方式有两种,即多重比较检验和对比检验。多重比较检验的方法与单因素方差分析类似。对比检验采用的是单样本t检验的方法,它将控制变量不同水平下的观测变量值看做来自不同总体的样本,并依次检验这些总体的均值是否与某个指定的检验值存在显著差异。其中,检验值可以指定为以下几种: 观测变量的均值(Deviation);

第一水平或最后一个水平上观测变量的均值(Simple);

前一水平上观测变量的均值(Difference);

后一水平上观测变量的均值(Helmert)。

2、控制变量交互作用的图形分析

控制变量的交互作用可以通过图形直观分析。

(三)多因素方差分析的进一步分析

在上述案例中,已经对广告形式、地区对销售额的影响进行了多因素方差分析,建立了饱和模型。由分析可知:广告形式与地区的交互作用不显著,先进一步尝试非饱和模型,并进行均值比较分析、交互作用图形分析。

1、建立非饱和模型

2、均值比较分析

3、控制变量交互作用的图形分析

三、协方差分析

(一)协方差分析基本思想

通过上述的分析可以看到,不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响。

例如,在研究农作物产量问题时,如果仅考察不同施肥量、品种对农作物产量的影响,不考虑不同地块等因素而进行方差分析,显然是不全面的。因为事实上有些地块可能有利于农作物的生长,而另一些却不利于农作物的生长。不考虑这些因素进行分析可能会导致:即使不同的施肥量、不同品种农作物产量没有产生显著影响,但分析的结论却可能相反。

再例如,分析不同的饲料对生猪增重是否产生显著差异。如果单纯分析饲料的作用,而不考虑生猪各自不同的身体条件(如初始体重不同),那么得出的结论很可能是不准确的。因为体重增重的幅度在一定程度上是包含诸如初始体重等其他因素的影响的。

(二)协方差分析的原理

协方差分析将那些人为很难控制的控制因素作为协变量,并在排除协变量对观测变量影响的条件下,分析控制变量(可控)对观测变量的作用,从而更加准确地对控制因素进行评价。

协方差分析仍然沿承方差分析的基本思想,并在分析观测变量变差时,考虑了协变量的影响,人为观测变量的变动受四个方面的影响:即控制变量的独立作用、控制变量的交互作用、协变量的作用和随机因素的作用,并在扣除协变量的影响后,再分析控制变量的影响。

方差分析中的原假设是:协变量对观测变量的线性影响是不显著的;在协变量影响扣除的条件下,控制变量各水平下观测变量的总体均值无显著差异,控制变量各水平对观测变量的效应同时为零。检验统计量仍

采用F统计量,它们是各均方与随机因素引起的均方比。

(三)协方差分析的应用举例

为研究三种不同饲料对生猪体重增加的影响,将生猪随机分成三组各喂养不同的饲料,得到体重增加的数据。由于生猪体重的增加理论上会受到猪自身身体条件的影响,于是收集生猪喂养前体重的数据,作为自身身体条件的测量指标。

方差分析的应用条件为①各样本须是相互独立的随机样本;②各样本来自正态分布总体;③各总体方差相等,即方差齐性。

[1]

[编辑本段]

方差分析的主要内容

根据资料设计类型的不同,有以下两种方差分析的方法:

1、对成组设计的多个样本均数比较,应采用完全随机设计的方差分析,即单因素方差分析。

2、对随机区组设计的多个样本均数比较,应采用配伍组设计的方差分析,即两因素方差分析。

两类方差分析的基本步骤相同,只是变异的分解方式不同,对成组设计的资料,总变异分解为组内变异和组间变异(随机误差),即:SS总=SS组间+SS组内,而对配伍组设计的资料,总变异除了分解为处理组变异和随机误差外还包括配伍组变异,即:SS总=SS处理+SS配伍+SS误差。整个方差分析的基本步骤如下:

1、建立检验假设;

H0:多个样本总体均数相等;

H1:多个样本总体均数不相等或不全等。

检验水准为0.05。

2、计算检验统计量F值;

3、确定P值并作出推断结果。

方差分析的基本思想

2008-10-15 10:36 【大 中 小】

多组样本均数比较时要用方差分析,而不能作任两组均数间比较的t检验。因为后者会明显增大犯第一类错误的概率。方差分析和前面介绍的u检验、t检验一样,也属于是参数检验方法,它要求各组数据均服从正态分布,且各

组的总体方差相等,即方差齐性。

用样本方差描述其总的离散趋势。而样本方差的分子是离均差平方和,又叫作总变异SS总;

完全随机设计的方差分析是将多组数据内部的总变异分解为组内、组间变异两部分;

组内变异反映的是随机变异,组间变异反映了随机变异和可能起作用的研究因素。组内变异除以组内自由度得到

组内均方,组间变异除以组间自由度得到组间均方。

如果研究因素不起作用,即假定H0成立,那么组间均方与组内均方之比(F值)将服从组间,组内的F分布,

从而可以确定P值并得出统计结论。

方差分析的基本思想对于学习方差分析是很重要的,不少研究生考试都会有这样的题目。而目前的教材中关于方差分析的基本思想都比较晦涩难懂。这里以本人的个人理解对此进行阐述。

这里通过举例来说明,三组人群,每组20人,服用三种降压药,比较用药后的血压值。

首先,这三组60人之间的血压值肯定各有不同,这种不同用专业术语称之为变异(variation),而方差则是体现变异的常用指标。如果你仔细看一下方差分析的英文analysis of variance,实际上就是对变异的分析,所以,有的统计教材也称之为变异数分析。

三组的所有人群之间存在变异(统计教材上称之为总变异(SS)),我们就需要分析一下,为什么会存在变异?当然,我们可以想到很多原因。至少有两类:第一是个体之间的差异(统计教材上称之为组内变异),每个人的体质不同,比如肥胖程度等肯定会有所影响。第二是药物的影响(统计教材上称之为组间变异),比如三种药物中,可能A药效果好,从而服用A药的人血压比较低。

总的来讲,变异可以分为这两部分。但是我们如何确定到底哪部分影响更大呢?这就需要把总的变异进行分解也就是分解上上面所说的组间变异和组内变异。如果是完全随机设计,那组内变异也就是误差,它包含了个体的差异以及由于抽样所造成的变异(抽样误差总是存在的),这一种设计由于误差比较多,所以结果比较粗糙。所以人们想到了控制个体间的差异,这就是随机区组设计,即选择样本时有意识将各组人的体形等因素相同,这样就减少误差了。

对于完全随机设计而言,有了组间变异和组内变异,我们就可以比较一下,如果组间变异远远大于组内变异,那我们就可以认为总变异主要是由组间变异引起的(本例中就是主要是药物的不同降压效果造成的)。如果二者差别不大,那就不能说主要是由药物的疗效造成的,换句话说,药物的疗效可能对血压的影响并不大。

但是还有一个问题,那就是数据存在这样一个规律,数据越多,变异越大,这个很容易理解,1000个人之间的差异肯定要比10个人之间的差异多。所以就有一个问题,组间只有3组,而每个组内有20个人,很明显,20个人的差异要大于3个人的差异,为了抵消人数的影响,所以我们就想出一个办法,那就是用变异除以自由度(例数-1),这样比较的就是平均的变异了。所以统计教材上又出现了组间均方(MS)和组内均方这两个概念,以这两个概念代表变异。

组间均方/组内均方就是通常所说的F值,实际上代表了这样一个含义:如果组间变异远远大于组内变异,那么组间均方除以组内均方的值肯定很大,反之,这一值就会很小。但是,到底大到什么程度才认为有统计学意义呢,那就得根据F分布了(你仔细看一下F分布的图形就会有所领悟)。由于我们所有的计算都是在一种假定(统计教材上称之为无效假设,即首先假定组间无差异)的基础上算出来的,从F分布图形来看,过大的值出现的概率是很小的,所以F值越大,表明你的结果在假定的条件下出现的概率越小(这句话需要仔细体会一下),或者说,在假定的条件下,不大可能出现太大的F值,而一旦出现,我们可能要怀疑,是不是假定的条件不对?如果这种概率小于0.05,我们更加怀疑了,这时候我们就有95%的把握认为,假定的条件是不对的。据此我们就得出了结论,推翻初始的假定,而认为假定的对立面是正确的。

方差计算公式

一.方差的概念与计算公式

例1 两人的5次测验成绩如下:

X: 50,100,100,60,50 E(X )=72;

Y: 73, 70, 75,72,70 E(Y )=72。

平均成绩相同,但X 不稳定,对平均值的偏离大。

方差描述随机变量对于数学期望的偏离程度。

单个偏离是

消除符号影响

方差即偏离平方的均值,记为D(X ):

直接计算公式分离散型和连续型,具体为:

这里 是一个数。推导另一种计算公式

得到:“方差等于平方的均值减去均值的平方”,即

其中

分别为离散型和连续型计算公式。 称为标准差或均方差,方差描述波动程度。

二.方差的性质

1.设C为常数,则D(C) = 0(常数无波动);

2. D(CX )=C2 D(X ) (常数平方提取);

证:

特别地 D(-X ) = D(X ), D(-2X ) = 4D(X )(方差无负值)

3.若X 、Y 相互独立,则

证:记

前面两项恰为 D(X )和D(Y ),第三项展开后为

当X、Y 相互独立时,

故第三项为零。

特别地

独立前提的逐项求和,可推广到有限项。

三.常用分布的方差

1.两点分布

2.二项分布

X ~ B ( n, p )

引入随机变量 Xi (第i次试验中A 出现的次数,服从两点分布)

3.泊松分布(推导略)

4.均匀分布

另一计算过程为

5.指数分布(推导略)

6.正态分布(推导略)

~

正态分布的后一参数反映它与均值 的偏离程度,即波动程度(随机波动),这与图形的特征是相符的。

例2 求上节例2的方差。

解 根据上节例2给出的分布律,计算得到

工人乙废品数少,波动也小,稳定性好。

方差的定义:

设一组数据x1,x2,x3······xn中,各组数据与它们的平均数x(拔)的差的平方分别是(x1-x拔)2,(x2-x拔)2······(xn-x拔)2,那么我们用他们的平均数s2=1/n【(x1-x拔)2+(x2-x拔)2+·····(xn-x拔)2】来衡量这组数据的波动大小,并把它叫做这组数据的方差

方差分析

目录[隐藏] 什么是方差分析 方差分析的基本思想 方差分析的分类及举例 方差分析的主要内容

方差分析(Analysis of Variance,简称ANOVA)

[编辑本段]

什么是方差分析

方差分析(ANOVA)又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。

由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。 经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。

1、多个样本均数间两两比较

多个样本均数间两两比较常用q检验的方法,即Newman-kueuls法,其基本步骤为:建立检验假设-->样本均数排序-->计算q值-->查q界值表判断结果。

2、多个实验组与一个对照组均数间两两比较

多个实验组与一个对照组均数间两两比较,若目的是减小第II类错误,最好选用最小显著差法(LSD法);若目的是减小第I类错误,最好选用新复极差法,前者查t界值表,后者查q'界值表。

[]

方差分析的基本思想

基本思想:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

下面我们用一个简单的例子来说明方差分析的基本思想:

如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下:

患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11

健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87

问该地克山病患者与健康人的血磷值是否不同?

从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均数的变异情况,则总变异有以下两个来源:

组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;

组间变异,即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。

而且:SS总=SS组间+SS组内 v总=v组间+v组内

如果用均方(即自由度v去除离均差平方和的商)代替离均差平方和以消除各组样本数不同的影响,则方差分析就是用组内均方去除组间均方的商(即F值)与1相比较,若F值接近1,则说明各组均数间的差异没有统计学意义,若F值远大于1,则说明各组均数间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。

[]

方差分析的分类及举例

一、单因素方差分析

(一)单因素方差分析概念理解步骤

是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。

例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差 分析得到答案。

单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地区、学历。

单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值得变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。

单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。

(二)单因素方差分析原理总结

容易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。

(三)单因素方差分析基本步骤

• 1、提出原假设:H0——无差异;H1——有显著差异

• 2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。

• 3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。

• 4、给定显著性水平 ,并作出决策

(四)单因素方差分析的进一步分析

在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验。

1、方差齐性检验

是对控制变量不同水平下各观测变量总体方差是否相等进行检验。

前面提到,控制变量不同各水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足

这个前提要求,就不能认为各总体分布相同。因此,有必要对方差是否齐性进行检验。

SPSS单因素方差分析中,方差齐性检验采用了方差同质性(homogeneity of variance)检验方法,其原假设是:各水平下观测变量总体的方差无显著差异。

2、多重比较检验

单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量产生了显著影响,进一步还应确定控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显区别于其他水平,哪个水平的作用是不显著的,等等。

例如,如果确定了不同施肥量对农作物的产量有显著影响,那么还需要了解10公斤、20公斤、30公斤肥料对农作物产量的影响幅度是否有差异,其中哪种施肥量水平对提高农作物产量的作用不明显,哪种施肥量水平最有利于提高产量等。掌握了这些重要的信息就能够帮助人们制定合理的施肥方案,实现低投入高产出。

多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤。

介绍几种常用检验统计量的构造方法

(1)LSD方法

LSD方法称为最小显著性差异(Least Significant Difference)法。最小显著性差异法的字画就体现了其检验敏感性高的特点,即水平间的均值只要存在一定程度的微小差异就可能被检验出来。

正是如此,它利用全部观测变量值,而非仅使用某两组的数据。LSD方法适用于各总体方差相等的情况,但它并没有对犯一类错误的概率问题加以有效控制。

(2)S-N-K方法

S-N-K方法是一种有效划分相似性子集的方法。该方法适合于各水平观测值个数相等的情况,

3、其他检验

(1)先验对比检验

在多重比较检验中,如果发现某些水平与另外一些水平的均值差距显著,如有五个水平,其中x1、x2、x3与x4、x5的均值有显著差异,就可以进一步分析比较这两组总的均值是否存在显著差异,即1/3(x1+x2+x3)与1/2(x4+x5)是否有显著差异。这种事先指定各均值的系数,再对其线性组合进行检验的分析方法称为先验对比检验。通过先验对比检验能够更精确地掌握各水平间或各相似性子集间均值的差异程度。

(2)趋势检验

当控制变量为定序变量时,趋势检验能够分析随着控制变量水平的变化,观测变量值变化的总体趋势是怎样的,是呈现线性变化趋势,还是呈二次、三次等多项式变化。通过趋势检验,能够帮助人们从另一个角度把握控制变量不同水平对观测变量总体作用的程度。

二、多因素方差分析

(一)多因素方差分析基本思想

多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。

例如:

分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量作为观测变量,品种和施肥量作为控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究

哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。

(二)多因素方差分析的其他功能

1、均值检验

在SPSS中,利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较,实现方式有两种,即多重比较检验和对比检验。多重比较检验的方法与单因素方差分析类似。对比检验采用的是单样本t检验的方法,它将控制变量不同水平下的观测变量值看做来自不同总体的样本,并依次检验这些总体的均值是否与某个指定的检验值存在显著差异。其中,检验值可以指定为以下几种: 观测变量的均值(Deviation);

第一水平或最后一个水平上观测变量的均值(Simple);

前一水平上观测变量的均值(Difference);

后一水平上观测变量的均值(Helmert)。

2、控制变量交互作用的图形分析

控制变量的交互作用可以通过图形直观分析。

(三)多因素方差分析的进一步分析

在上述案例中,已经对广告形式、地区对销售额的影响进行了多因素方差分析,建立了饱和模型。由分析可知:广告形式与地区的交互作用不显著,先进一步尝试非饱和模型,并进行均值比较分析、交互作用图形分析。

1、建立非饱和模型

2、均值比较分析

3、控制变量交互作用的图形分析

三、协方差分析

(一)协方差分析基本思想

通过上述的分析可以看到,不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响。

例如,在研究农作物产量问题时,如果仅考察不同施肥量、品种对农作物产量的影响,不考虑不同地块等因素而进行方差分析,显然是不全面的。因为事实上有些地块可能有利于农作物的生长,而另一些却不利于农作物的生长。不考虑这些因素进行分析可能会导致:即使不同的施肥量、不同品种农作物产量没有产生显著影响,但分析的结论却可能相反。

再例如,分析不同的饲料对生猪增重是否产生显著差异。如果单纯分析饲料的作用,而不考虑生猪各自不同的身体条件(如初始体重不同),那么得出的结论很可能是不准确的。因为体重增重的幅度在一定程度上是包含诸如初始体重等其他因素的影响的。

(二)协方差分析的原理

协方差分析将那些人为很难控制的控制因素作为协变量,并在排除协变量对观测变量影响的条件下,分析控制变量(可控)对观测变量的作用,从而更加准确地对控制因素进行评价。

协方差分析仍然沿承方差分析的基本思想,并在分析观测变量变差时,考虑了协变量的影响,人为观测变量的变动受四个方面的影响:即控制变量的独立作用、控制变量的交互作用、协变量的作用和随机因素的作用,并在扣除协变量的影响后,再分析控制变量的影响。

方差分析中的原假设是:协变量对观测变量的线性影响是不显著的;在协变量影响扣除的条件下,控制变量各水平下观测变量的总体均值无显著差异,控制变量各水平对观测变量的效应同时为零。检验统计量仍

采用F统计量,它们是各均方与随机因素引起的均方比。

(三)协方差分析的应用举例

为研究三种不同饲料对生猪体重增加的影响,将生猪随机分成三组各喂养不同的饲料,得到体重增加的数据。由于生猪体重的增加理论上会受到猪自身身体条件的影响,于是收集生猪喂养前体重的数据,作为自身身体条件的测量指标。

方差分析的应用条件为①各样本须是相互独立的随机样本;②各样本来自正态分布总体;③各总体方差相等,即方差齐性。

[1]

[编辑本段]

方差分析的主要内容

根据资料设计类型的不同,有以下两种方差分析的方法:

1、对成组设计的多个样本均数比较,应采用完全随机设计的方差分析,即单因素方差分析。

2、对随机区组设计的多个样本均数比较,应采用配伍组设计的方差分析,即两因素方差分析。

两类方差分析的基本步骤相同,只是变异的分解方式不同,对成组设计的资料,总变异分解为组内变异和组间变异(随机误差),即:SS总=SS组间+SS组内,而对配伍组设计的资料,总变异除了分解为处理组变异和随机误差外还包括配伍组变异,即:SS总=SS处理+SS配伍+SS误差。整个方差分析的基本步骤如下:

1、建立检验假设;

H0:多个样本总体均数相等;

H1:多个样本总体均数不相等或不全等。

检验水准为0.05。

2、计算检验统计量F值;

3、确定P值并作出推断结果。


相关内容

  • 方差分析与协方差分析
  • 方差分析 方差分析(Analysis of Variance,简称ANOVA),又称"变异数分析"或"F检验",是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验. 由于各种因素的影响,研究所得的数据呈现波动状.造成波动的原因可分成两类, ...

  • 4统计学基础
  • <统计学>课程教学大纲 (2002年制定 2006年修订) 课程编号: 英 文 名:Statistics 课程类别:专业基础课 前 置 课:政治经济学.线性代数.微积分.概率论 后 置 课:专业课 学 分:2学分 课 时:54课时 主讲教师: 周迪 选定教材:管于华等,统计学,北京:高等 ...

  • 经济数学概率论与数理统计
  • <经济数学--概率论与数理统计> 教学大纲 第一部分 大纲说明 一.课程性质与任务 本课程是为经济学院的国际经济与贸易.金融学等经济学类专业本科生开设的一门必修的重要基础课课.本课程由概率论与数理统计两部分组成.概率论部分侧重于理论探讨,介绍概率论的基本概念,建立一系列定理和公式,寻求解 ...

  • 方差分析实例分析
  • 方差分析实例分析1. 方差分析的概念 方差分析(ANOVA)又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义.我们要学习的主要内容包括单因素方差分析即完全随机设计或成组设计的方差分析和两因素方差分析即配伍组设计的方差分析. 2. 方差 ...

  • 应用多元统计分析daan)
  • 第二章 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X(X1,X2,Xp)的联合分布密度函数是一个p维的函数,而边际分布讨论是X(X1,X2,Xp)的子向量的概率分布,其概率密度函数的维数小于p. 2.2设二维随机向量(X1 ...

  • 卫生统计学教学大纲
  • 卫生统计学教学大纲 (供预防医学专业五年制本科生使用) 前言 卫生统计学是研究居民健康状况以及卫生服务领域中数据的收集.整理和分析的一门科学.本课程的教学目的是为学生在校学习专业课程,毕业后从事公共卫生领域的研究和实际工作,打下必要的卫生统计学基础.在学习本课程时,应注意掌握卫生统计学的基本理论.基 ...

  • 分位数回归的思想与简单应用
  • 第10期 )(总第121期 2009年10月 统计教育Statistical Thinktank No. 10(SeriesNo. 121) Oct 2009 分位数回归的思想与简单应用 苏 瑜 万宇艳 与普通最小二乘法相比,分位数回归能够更充分反映自变量对不同部分因变量的分布产生不同的影响,摘要: ...

  • 应用多元统计(朱建平)课后答案
  • 第二章 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X=(X1,X2, Xp)'的联合分布密度函数是一个p维的函数,而边际分布讨论是X=(X1,X2, Xp)'的子向量的概率分布,其概率密度函数的维数小于p. 2.2设二维随机向量(X1 ...

  • 计量经济学思考题答案
  • 计量经济学思考题答案 第一章 绪论 1.1怎样理解产生于西方国家的计量经济学能够在中国的经济理论研究和现代化建设中发挥重要作用? 答:计量经济学的产生源于对经济问题的定量研究,这是社会经济发展到一定阶段的客观需要.计量经济学的发展是与现代科学技术成就结合在一起的,它反映了社会化大生产对各种经济因素和 ...