excel方差分析

第9章 方差分析

9.1方差分析概述

下面通过例子来了解方差分析的基本原理。

【例9.1】 某机构的各级管理者需要适当的信息来完成他们的任务。为此就信息来源对于信息传播的影响进行了研究调查(Journal of Management Information System,1988年秋季号)。在该研究中,信息来源分别为上级、同事和下属。已经得到了每种情形的传播程度的数据:数值越高表明信息传播的越好。对于=0.05及如下数据,信息来源对传播是否有显著影响。结论如何?

本例要判断的是信息来源对传播是否有显著影响,换言之,也就是要判断不同的信息来源即上级、同事、下属传播程度是否相同。调查获得的24个数据之间是存在差异的,即使是相同信息来源的传播程度也存在差异。这可能有两方面的原因,一是抽样的随机性对传播程度的影响,二是不同的信息来源对传播程度的影响。因此,要想根据每种情形的传播程度的数据,判断信息来源对传播是否有显著影响,就要看不同信息来源下传播程度数据的平均值是否相等,如果相等则说明数据之间的差异主要是由于抽样的随机性所致,数据来自于相同的总体,信息来源对传播无显著影响,反之,则说明数据之间的差异是由于信息来源的不同所致,数据来自于不同的总体,信息来源对传播有显著影响。为此,首先提出假设:

原假设:三种情形下的传播程度的平均值相等

备择假设:三种情形下的传播程度的平均值不相等

在前面我们已经了解了两个总体均值的假设检验,但本例假设中涉及到三个总体,如果按照前述检验方法,需要进行3次均值组合检验。假如涉及9个总体均值检验的话,就需要进行45次均值组合检验。因此,表9.1 原有的方法显然不适合。那么,如何能更好地进行三个或三个以上的总体均值检验呢?

从表9.1中可以看出,信息来源为上级时,传播程度的平均值是5.75。信

信息来源 上级 同事 下属

计数 8 8 8

求和 46 44 42

平均 5.75 5.5 5.25

方差分析

息来源为同事时,传播程度的平均值是5.5。信息来源为下属时,传播程度的平均值是5.25。信息来源不同其传播程度的平均值是不相等的,问题的关键是三种信息来源传播程度平均值之间的差异是否是由于随机因素引起的。从以上分析可知,传播程度数据之间差异的产生来自于两个方面,一个方面是不同的信息来源造成的,对此我们可以称为系统性差异;另一个方面是由于抽选样本的随机性而产生的差异。两个方面产生的差异可以用两个方差来计量,一个是不同信息来源之间的方差,另一个是相同信息来源内部的方差。前者既包括系统性因素,也包括随机性因素。后者仅包括随机性因素。如果不同的信息来源对传播程度没有影响,那么在不同信息来源之间的方差中,就仅仅有随机因素的差异,而没有系统性差异,它与相同信息来源内部方差就应该近似,两个方差的比值就会接近于1;反之,如果不同的信息来源对传播程度有影响,在不同信息来源之间的方差中就不仅包括了随机性差异,也包括了系统性差异。这时,该方差就会大于相同信息来源内部方差,两个方差的比值就会显著地大于l,比值越大,差异越显著。当这个比值大到某个程度,或者说达到某临界点,就可以做出判断,说明不同的信息来源之间的传播程度存在显著性差异。从而做出接受原假设或拒绝原假设的判断。

由于差异是用方差来计算,所以,这种用比较差异的方法来进行三个或三个以上的总体均值检验的统计方法就是方差分析(ANOVA)。方差分析研究的对象,在方差分析中称为因素,用于研究因素的取值称为因素的水平。本例中的信息来源是方差分析的因素,因素的水平有三个,即信息的三种来源上级、同事和下属。本例中的传播程度称为响应变量。

上述相同信息来源内部的方差在方差分析中称为组内均方差或为水平内均方差,而不同信息来源之间的方差则称为组间均方差或水平间均方差。数理统计证明,组间均方差与组内均方差之比是统计量,这个统计量服从F分布(F Distribution)。因此,给定显著性水平,就可以确定临界值,此时的检验为右侧检验,当F统计量值大于临界值时,认为各组均值不相等或差异显著。本例可计算出组间均方差为0.5,组内均方差为1.86,计算的F统计量值0.27小于临界值3.47,因此,接受原假设,也就是说信息来源对传播程度无显著影响。

表9.2 计算结果

根据涉及因素的个数,方差分析又分为单因素分析和多因素分析。当分析只涉及一个因素时,称为单因素方差分析。当分析涉及两个以上因素时,称多因素方差分析。本章主要介绍单因素和双因素的方差分析。

值得注意的是方差分析是在以下三个假定下进行的:

1. 因素各水平的观测数据服从正态分布。在本例这意味着上级、同事、下属的传播

范霄文:excel软件与数据分析

程度(响应变量)必须服从正态分布。

2. 因素各水平的观测数据的方差相等。本例意味着上级、同事、下属传播程度的方差相等。

3. 各观察值是独立的。本例意味着样本各个传播程度的一个观测值与另一个观察值是独立的。

在实际应用过程中,应用方差分析时应符合以上的假定,至少是近似符合假定条件。

9.2单因素方差分析

Excel中的“方差分析:单因素方差分析”分析工具通过简单的方差分析,对单因素进行显著性检验。下面结合【例9.2】来了解该分析工具的具体操作步骤及如何对结果进行分析。

【例9.2】 为检验三家工厂生产的机器混合一批原料所需平均时间是否相同,Jacobs化学公司得到了关于混合原料所需时间的如下数据。利用这些数据检验三家工厂混合一批原料所需平均时间是否相同(见表9.3)。(=0.05)

表9.3

工 厂

本例中,工厂是因素,3个工厂分别是3个水平,混合原料所需的时间是响应变量。在此假定混合原料所需的时间服从正态分布,并且3个工厂混合原料所需时间的方差相等。符合独立的假定。由于只有一个因素,因此是单因素分析。为检验三家工厂混合一批原料所需平均时间是否相同,提出假设:

原假设:三个工厂混合原料所需的平均时间相同

备择假设:三个工厂混合原料所需的平均时间不相同

使用Excel的“方差分析:单因素方差分析”分析工具进行单因素的方差分析。 操作步骤:

第1步:将分析数据输入工作表单元格区域A1:C6。

第2步:单击“工具”菜单,选定“数据分析”命令,出现“数据分析”对话框。 第3步:在分析工具列表栏中选择“方差分析:单因素方差分析”(如图9-1)。

方差分析

图9.2-1 数据分析对话框

第4步:单击“确定”按钮,出现“方差分析:单因素方差分析”对话框(如图9.2-2): 输入区域:输入待分析数据区域的单元格引用$A$3:$C$6。 分组方式:复选框单击“列”。

标志位于第一行/列:如果输入区域的第一行中包含标志项,请选中“标志位于第一行”复选框;如果输入区域的第一列中包含标志项,请选中“标志位于第一列”复选框;如果输入区域没有标志项,则该复选框不会被选中, Excel 将在输出表中生成适宜的数据标志。

: 输入显著性水平0.05。

输出区域: 在此输入对输出表左上角单元格的引用$D$1。当输出表将覆盖已有的数据,或是输出表越过了工作表的边界时,Excel 会自动确定输出区域的大小并显示信息。

新工作表组: 单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果。如果需要给新工作表命名,请在右侧的编辑框中键入名称。 新工作簿: 单击此选项,可创建一新工作簿,并在新工作簿的新工作表中粘贴计算结果。

图9.2-2 “方差分析:单因素方差分析”对话框

第5步:单击“确定”按钮,给出计算结果,见图9.2-3。

范霄文:excel软件与数据分析

图9.2-3 计算结果

在图9.2-3给出的计算结果中,SS表示离差平方和,df表示自由度,MS表示均方差,P-value即p-值,F crit表示临界值。本例的F统计量值等于9.63636,大于临界值4.256492,因此我们应拒绝三个工厂混合原料的平均时间相等的假设,也就是说三个工厂混合原料的平均时间之间的差异是显著的。如果用p-值判断,由于P-value等于0.00426小于0.05,因此可得出相同的结论。

9.3双因素方差分析

【例9.3】某农科所试验在水溶液中种植西红柿,采用了三种不同的施肥方式和四种不同的水温。三中施肥方式是:一开始就给以全部可溶性肥料;每两个月给以1/2的溶液;每月给以1/4的溶液。水温分别为:4℃、9℃、16℃、20℃。试验产量如下表:

在0.05的显著性水平下,分析施肥方式和水温对产量的影响各自是否显著。(本例引自贾俊平、何晓群、金勇进《统计学》205页)

本例中试验采用了三种不同的施肥方法和四种不同的水温,因此,分析涉及两个因素,应使用双因素的方差分析。这里两因素分别是施肥方式和水温。施肥方式有三个水

方差分析 平,而温度有四个水平。产量是响应变量。

通过进行方差分析,可以分析出:施肥方式及不同水温各自对于产量的影响是否不同。

双因素方差分析根据双因素对响应变量的影响是否独立分为两类:当两因素对响应变量的影响相互独立时,即两因素不相互作用对响应变量产生效应,称为无交互作用的双因素方差分析。当两因素对响应变量的影响相互不独立时,即两因素相互作用对响应变量产生一种新的效应,称为有交互作用的双因素方差分析。

双因素方差分析的计算原理同单因素方差分析相同,所不同的是对于无交互作用的双因素方差分析,观测数据间的差异是由两因素各自的组间均方差和组内均方差来测度,此时,两因素各自的组间均方差与组内均方差之比均服从F分布。对于有交互作用的方差分析而言,观测数据间的差异是由两因素各自的组间均方差、两因素的交互作用均方差和组内均方差来测度,此时,两因素各自的组间均方差、交互作用的均方差与组内均方差之比均服从F分布。因此,给定显著性水平,就可以确定临界值,此时的检验为右侧检验,当F统计量值大于临界值时,因素、交互作用对响应变量的影响是显著的。本例要求分析的是施肥方式和温度各自对产量的影响,因此,是无交互作用的方差分析。

Excel中的“方差分析:无重复双因素分析”分析工具,通过双因素方差分析(但每组数据只包含一个样本),对两个以上样本均值进行相等性假设检验。下面采用该工具对本例进行方差分析。

操作步骤: 第1步:将分析数据输入工作表单元格区域A1:D6。

第2步:单击“工具”菜单,选定“数据分析”命令,出现“数据分析”分析工具对话框(如图9.3-1)。

图9.3-1 数据分析对话框

第3步:在对话框中选择“方差分析:无重复双因素分析”,单击“确定”按钮,出现“方差分析:无重复双因素分析”对话框。

第4步:在“方差分析:无重复双因素分析”对话框中(如图9.3-2)。

范霄文:excel软件与数据分析

图9.3-2 “方差分析:无重复双因素分析”对话框

输入区域:输入待分析数据区域的单元格引用$B$3:$D$6。

标志:如果在输入区域中没有标志项,则不选中本复选框,Excel 将在输出表中生成适宜的数据标志。

:输入显著性水平0.05。

输出区域:输入对输出表左上角单元格的引用$E$1。当输出表将覆盖已有的数据,或是输出表越过了工作表的边界时,Excel 会自动确定输出区域的大小并显示信息。

新工作表组:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果。如果需要给新工作表命名,请在右侧的编辑框中键入名称。 新工作簿:单击此选项,可创建一新工作簿,并在新工作簿的新工作表中粘贴计算结果。

第5步:单击“确定”按钮,给出计算结果,见图9.3-3。

图9.3-3 计算结果

方差分析

图9-6中给出的计算结果中,行表示温度,列表示施肥方式,温度的F统计量值78.4大于临界值4.757055;施肥方式的F统计量值0.2小于临界值5.1432;因此,认为温度对产量的影响是显著的,而施肥方式对产量的影响是不显著的。

本例如果考虑温度和施肥方式的交互作用,则需要使用“方差分析:可重复双因素方差分析”分析工具进行分析。此分析工具用于进行重复实验数据的方差分析,即每一组数据包含不止一个样本,也即每一试验都可重复多次。假如获得的实验数据如图9.3-4所示。

图9.3-4 实验数据

操作步骤:

第1步:将分析数据输入工作表单元格区域A1:D9。

第2步:单击“工具”菜单,选定“数据分析”命令,出现“数据分析”对话框(如图9.3-5)。

图9.3-5数据分析对话框

范霄文:excel软件与数据分析

第3步:在对话框中选择“方差分析:可重复双因素分析”,单击“确定”按钮,出现“方差分析:可重复双因素分析”对话框(如图9.3-6)。 第4步:在“方差分析:可重复双因素分析”对话框中:

图9.3-6“方差分析:可重复双因素分析”对话框

输入区域:输入待分析数据区域的单元格引用$A$1:$D$9。

每一样本的行数:输入包含在每个样本中的行数2。每个样本必须包含同样的行数,因为每一行代表数据的一个副本。

: 输入显著性水平0.05。

输出区域: 输入对输出表左上角单元格的引用$A$11。当输出表将覆盖已有的数据,或是输出表越过了工作表的边界时,Excel 会自动确定输出区域的大小并显示信息。 新工作表组: 单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果。如果需要给新工作表命名,可在右侧的编辑框中键入名称。

新工作簿:单击此选项,可创建一个新工作簿,并在新工作簿的新工作表中粘贴计算结果。

第5步:单击“确定”按钮,给出计算结果,见表9.4。

表9.4给出的结果中,样本表示因素温度,列表示因素施肥方式。从计算结果看:因素温度的F统计量值147.8966大于临界值3.4903;因素施肥方式的F统计量值1.655172小于临界值3.88529;交互作用的F统计量值3.586207大于临界值2.996117。因此,不同的温度对产量的影响是显著的,而不同的施肥方式对产量则没有显著影响,但温度和施肥方式存在交互作用,交互作用所产生的效应对产量的影响是显著的。也就是说虽然施肥方式对产量无显著影响,但是,应充分考虑施肥方式和温度相互作用产生的效应对产量的影响,寻找两因素的最佳组合。

方差分析

表9.4

范霄文:excel软件与数据分析

9.4案例分析

案例:工业产品推销员的回报

最近十年,《工业产品销售》(Industrial Distribution)一直研究工业产品推销员的回报问题。在1997年年薪调查中,358名回答者的结果表明,有27%的回答者在销售额超过4000万美元的公司工作,其中典型的工业产品推销员在销售额为1200万美元的公司工作,那些在中小型公司(销售额在600万~2000万美元之间)工作的人比在大公司工作的人可获得较高的收益,薪水最低的雇员在销售额不足90万美元的公司工作。1996年典型的户外推销员的收入为50000美元,而典型的室内推销员只有30000美元的收入(Industrial Distribution,1997.11)。假设在较大的旧金山地区工业产品推销员的一个分会,进行了关于它会员资格的一次调查,以研究雇员资历与在户外或室内场所推销的人的年薪之间是否有关系。在这个调查中,被调查者指定为三种资历水平:低(1~9年)、中(11~20年)、高(21年及以上)。所得资料如下:

方差分析

本案例要研究的是推销人员的年薪和他们的资历与工作场所是否有关? 本例中资历和工作场所是分析的对象即因素,年薪是响应变量。

为使用Excel进行分析,首先将原始数据输入工作表sheet3的单元格区域A1:D121。然后,根据原始数据筛选出工作场所分别是室内和户外,资历为低、中、高推销员的年薪数据。操作步骤如下:

第1步:单击sheet3的单元格区域A1:D121中任一单元格。

第2步:单击“数据”菜单,指向“筛选”,再单击“自动筛选”命令。

第3步:自动筛选箭头会出现在被调查者、年薪、场所、资历的右边。单击“场所”列右边的下拉箭头,选择“室内”。单击“资历”列右边的下拉箭头,分别单击“低、中、高”。分别出现工作场所为室内的资历为低、中、高的被调查者年薪数据清单。同样的步骤选出场所为户外,资历分别为低、中、高的年薪数据。

范霄文:excel软件与数据分析

第4步:将筛选出的年薪数据复制到工作表sheet4的单元格区域A2:D42。数据如表9.5所示。

表9.5

利用Excel中的“方差分析:可重复双因素分析”分析工具进行两因素方差分析。 操作步骤:

第1步:单击“工具”菜单,选定“数据分析”命令,出现“数据分析”对话框(如图9.3-5)。

第2步:在对话框中选择“方差分析:可重复双因素分析”,单击“确定”按钮,出现“方差分析:可重复双因素分析”对话框。

方差分析

图9.4-1数据分析对话框

续表9.5

第3步:在“方差分析:可重复双因素分析”对话框中(如图9.4-2)。

范霄文:excel软件与数据分析

图9.4-2 “方差分析:可重复双因素分析”对话框

输入区域:输入待分析数据区域的单元格引用$A$2:$D$42。

每一样本的行数: 输入包含在每个样本中的行数20。每个样本必须包含同样的行数,因为每一行代表数据的一个副本。

: 输入显著性水平0.05。 输出区域: 输入对输出表左上角单元格的引用$F$2。当输出表将覆盖已有的数据,或是输出表越过了工作表的边界时,Excel 会自动确定输出区域的大小并显示信息。

新工作表组:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果。如果需要给新工作表命名,可在右侧的编辑框中键入名称。 新工作簿:单击此选项,可创建一个新工作簿,并在新工作簿的新工作表中粘贴计算结果。

第4步:单击“确定”按钮,给出计算结果,见表9.6。

表9.6-1

方差分析

表9.6-2

从表9.6给出的计算结果中可以看出,室内推销员的平均年薪是3920.35美元,户外推销员的平均年薪是48830.433美元,与所说的基本接近。由于工作场所、资历及其交互作用的F统计量值均远远大于其临界值,所以,可以得出结论:不同工作场所、不同资历的推销员的年薪是有显著差异的,并且资历与在户外或室内场所推销的人的年薪之间是有关系的。

附录:公式

一、单因素方差分析

设总体共分为k种处理进行观察,第j种处理试验了容量为nj的样本。

范霄文:excel软件与数据分析

1.计算各项离差平方和

在单因素方差分析中,需要计算的离差平方和有三个,它们分别是总离差平方和,误差项离差平方和以及水平项离差平方和。

总离差平方和,用SST(Sum of Squares for Total)代表:

SSTxijx)2

i1j1

nj

k

式中:表示全部样本观察值的总均值,其计算公式为:

xx

n

ij

误差离差平方和,用SSE(Sum of Squares for Error)代表:

2

SSExijj

i1j1nj

k

式中:xj表示第j种水平的样本均值,

x

xj

i1

nj

ij

nj

水平项离差平方和。为了后面叙述方便,可以把单因素方差分析中的因素称为A。于是水平项离差平方和可以用SSA(Sum of Squares for Factor A)表示。SSA的计算公式为:

2 SSAjx)

i1j1nj

k

2. 计算平均平方

用离差平方和除以自由度即可得到平均平方(Mean Square)。对SST来说,其自由

度为n-l;对SSA来说,其自由度为r-l,这里r表示水平的个数; 对SSE来说,其自由度为n-r。与离差平方和一样,SST,SSA,SSE之间的自由度也存在着如下的关系:

n-l=(r-1)+(n-r)

这样对于SSA,其平均平方MSA(组间均方差)为:

MSA

SSA

r1SSE

nr

对于SSE,其平均平方MSE(组内均方差)为:

MSE

方差分析

3. 检验统计量F

F

MSA

MSE

二、两因素方差分析

设两个因素A、B分别有k个水平和n个水平,共进行nk次试验。

1.计算各项离差平方和

在两因素方差分析中,需要计算的离差平方和有四个,它们分别是总离差平方和,误差项离差平方和以及水平A、B项离差平方和。

总离差平方和,用SST(Sum of Squares for Total)代表:

SST(xij)2

式中:表示全部样本观察值的总均值,其计算公式为:

1nk1nk

xijxij nki1j1nki1j1

水平项离差平方和可以分别用SSA(Sum of Squares for Factor A)和SSB(Sum of Squares for Factor B)表示。SSA的计算公式为:

SSAj

2

i1j1

nk

式中:j

1n

xij ni1

SSB的计算公式为:

SSBi

2

i1j1

nk

1k

式中:ixij

kj1

误差离差平方和,用SSE(Sum of Squares for Error)代表:

SSExijij

i1j1

nk

2

2.计算平均平方

用离差平方和除以自由度即可得到平均平方(Mean Square)。对SST来说,其自由

范霄文:excel软件与数据分析

度为nk-l;对SSA来说,其自由度为k-l,这里k表示水平A的个数;对SSB来说,其自由度为n-l,这里n表示水平B的个数;对SSE来说,其自由度为(n-1)(k-1)。 这样,把各项离差平方和除以各自的自由度,即得到平均的离差平方和,简称为均方:

SSA

k1SSB

MSB

n1

SSE

MSE

k1n1MSA

3. 检验统计量F

MSA

MSEMSB

FB

MSEFA

第9章 方差分析

9.1方差分析概述

下面通过例子来了解方差分析的基本原理。

【例9.1】 某机构的各级管理者需要适当的信息来完成他们的任务。为此就信息来源对于信息传播的影响进行了研究调查(Journal of Management Information System,1988年秋季号)。在该研究中,信息来源分别为上级、同事和下属。已经得到了每种情形的传播程度的数据:数值越高表明信息传播的越好。对于=0.05及如下数据,信息来源对传播是否有显著影响。结论如何?

本例要判断的是信息来源对传播是否有显著影响,换言之,也就是要判断不同的信息来源即上级、同事、下属传播程度是否相同。调查获得的24个数据之间是存在差异的,即使是相同信息来源的传播程度也存在差异。这可能有两方面的原因,一是抽样的随机性对传播程度的影响,二是不同的信息来源对传播程度的影响。因此,要想根据每种情形的传播程度的数据,判断信息来源对传播是否有显著影响,就要看不同信息来源下传播程度数据的平均值是否相等,如果相等则说明数据之间的差异主要是由于抽样的随机性所致,数据来自于相同的总体,信息来源对传播无显著影响,反之,则说明数据之间的差异是由于信息来源的不同所致,数据来自于不同的总体,信息来源对传播有显著影响。为此,首先提出假设:

原假设:三种情形下的传播程度的平均值相等

备择假设:三种情形下的传播程度的平均值不相等

在前面我们已经了解了两个总体均值的假设检验,但本例假设中涉及到三个总体,如果按照前述检验方法,需要进行3次均值组合检验。假如涉及9个总体均值检验的话,就需要进行45次均值组合检验。因此,表9.1 原有的方法显然不适合。那么,如何能更好地进行三个或三个以上的总体均值检验呢?

从表9.1中可以看出,信息来源为上级时,传播程度的平均值是5.75。信

信息来源 上级 同事 下属

计数 8 8 8

求和 46 44 42

平均 5.75 5.5 5.25

方差分析

息来源为同事时,传播程度的平均值是5.5。信息来源为下属时,传播程度的平均值是5.25。信息来源不同其传播程度的平均值是不相等的,问题的关键是三种信息来源传播程度平均值之间的差异是否是由于随机因素引起的。从以上分析可知,传播程度数据之间差异的产生来自于两个方面,一个方面是不同的信息来源造成的,对此我们可以称为系统性差异;另一个方面是由于抽选样本的随机性而产生的差异。两个方面产生的差异可以用两个方差来计量,一个是不同信息来源之间的方差,另一个是相同信息来源内部的方差。前者既包括系统性因素,也包括随机性因素。后者仅包括随机性因素。如果不同的信息来源对传播程度没有影响,那么在不同信息来源之间的方差中,就仅仅有随机因素的差异,而没有系统性差异,它与相同信息来源内部方差就应该近似,两个方差的比值就会接近于1;反之,如果不同的信息来源对传播程度有影响,在不同信息来源之间的方差中就不仅包括了随机性差异,也包括了系统性差异。这时,该方差就会大于相同信息来源内部方差,两个方差的比值就会显著地大于l,比值越大,差异越显著。当这个比值大到某个程度,或者说达到某临界点,就可以做出判断,说明不同的信息来源之间的传播程度存在显著性差异。从而做出接受原假设或拒绝原假设的判断。

由于差异是用方差来计算,所以,这种用比较差异的方法来进行三个或三个以上的总体均值检验的统计方法就是方差分析(ANOVA)。方差分析研究的对象,在方差分析中称为因素,用于研究因素的取值称为因素的水平。本例中的信息来源是方差分析的因素,因素的水平有三个,即信息的三种来源上级、同事和下属。本例中的传播程度称为响应变量。

上述相同信息来源内部的方差在方差分析中称为组内均方差或为水平内均方差,而不同信息来源之间的方差则称为组间均方差或水平间均方差。数理统计证明,组间均方差与组内均方差之比是统计量,这个统计量服从F分布(F Distribution)。因此,给定显著性水平,就可以确定临界值,此时的检验为右侧检验,当F统计量值大于临界值时,认为各组均值不相等或差异显著。本例可计算出组间均方差为0.5,组内均方差为1.86,计算的F统计量值0.27小于临界值3.47,因此,接受原假设,也就是说信息来源对传播程度无显著影响。

表9.2 计算结果

根据涉及因素的个数,方差分析又分为单因素分析和多因素分析。当分析只涉及一个因素时,称为单因素方差分析。当分析涉及两个以上因素时,称多因素方差分析。本章主要介绍单因素和双因素的方差分析。

值得注意的是方差分析是在以下三个假定下进行的:

1. 因素各水平的观测数据服从正态分布。在本例这意味着上级、同事、下属的传播

范霄文:excel软件与数据分析

程度(响应变量)必须服从正态分布。

2. 因素各水平的观测数据的方差相等。本例意味着上级、同事、下属传播程度的方差相等。

3. 各观察值是独立的。本例意味着样本各个传播程度的一个观测值与另一个观察值是独立的。

在实际应用过程中,应用方差分析时应符合以上的假定,至少是近似符合假定条件。

9.2单因素方差分析

Excel中的“方差分析:单因素方差分析”分析工具通过简单的方差分析,对单因素进行显著性检验。下面结合【例9.2】来了解该分析工具的具体操作步骤及如何对结果进行分析。

【例9.2】 为检验三家工厂生产的机器混合一批原料所需平均时间是否相同,Jacobs化学公司得到了关于混合原料所需时间的如下数据。利用这些数据检验三家工厂混合一批原料所需平均时间是否相同(见表9.3)。(=0.05)

表9.3

工 厂

本例中,工厂是因素,3个工厂分别是3个水平,混合原料所需的时间是响应变量。在此假定混合原料所需的时间服从正态分布,并且3个工厂混合原料所需时间的方差相等。符合独立的假定。由于只有一个因素,因此是单因素分析。为检验三家工厂混合一批原料所需平均时间是否相同,提出假设:

原假设:三个工厂混合原料所需的平均时间相同

备择假设:三个工厂混合原料所需的平均时间不相同

使用Excel的“方差分析:单因素方差分析”分析工具进行单因素的方差分析。 操作步骤:

第1步:将分析数据输入工作表单元格区域A1:C6。

第2步:单击“工具”菜单,选定“数据分析”命令,出现“数据分析”对话框。 第3步:在分析工具列表栏中选择“方差分析:单因素方差分析”(如图9-1)。

方差分析

图9.2-1 数据分析对话框

第4步:单击“确定”按钮,出现“方差分析:单因素方差分析”对话框(如图9.2-2): 输入区域:输入待分析数据区域的单元格引用$A$3:$C$6。 分组方式:复选框单击“列”。

标志位于第一行/列:如果输入区域的第一行中包含标志项,请选中“标志位于第一行”复选框;如果输入区域的第一列中包含标志项,请选中“标志位于第一列”复选框;如果输入区域没有标志项,则该复选框不会被选中, Excel 将在输出表中生成适宜的数据标志。

: 输入显著性水平0.05。

输出区域: 在此输入对输出表左上角单元格的引用$D$1。当输出表将覆盖已有的数据,或是输出表越过了工作表的边界时,Excel 会自动确定输出区域的大小并显示信息。

新工作表组: 单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果。如果需要给新工作表命名,请在右侧的编辑框中键入名称。 新工作簿: 单击此选项,可创建一新工作簿,并在新工作簿的新工作表中粘贴计算结果。

图9.2-2 “方差分析:单因素方差分析”对话框

第5步:单击“确定”按钮,给出计算结果,见图9.2-3。

范霄文:excel软件与数据分析

图9.2-3 计算结果

在图9.2-3给出的计算结果中,SS表示离差平方和,df表示自由度,MS表示均方差,P-value即p-值,F crit表示临界值。本例的F统计量值等于9.63636,大于临界值4.256492,因此我们应拒绝三个工厂混合原料的平均时间相等的假设,也就是说三个工厂混合原料的平均时间之间的差异是显著的。如果用p-值判断,由于P-value等于0.00426小于0.05,因此可得出相同的结论。

9.3双因素方差分析

【例9.3】某农科所试验在水溶液中种植西红柿,采用了三种不同的施肥方式和四种不同的水温。三中施肥方式是:一开始就给以全部可溶性肥料;每两个月给以1/2的溶液;每月给以1/4的溶液。水温分别为:4℃、9℃、16℃、20℃。试验产量如下表:

在0.05的显著性水平下,分析施肥方式和水温对产量的影响各自是否显著。(本例引自贾俊平、何晓群、金勇进《统计学》205页)

本例中试验采用了三种不同的施肥方法和四种不同的水温,因此,分析涉及两个因素,应使用双因素的方差分析。这里两因素分别是施肥方式和水温。施肥方式有三个水

方差分析 平,而温度有四个水平。产量是响应变量。

通过进行方差分析,可以分析出:施肥方式及不同水温各自对于产量的影响是否不同。

双因素方差分析根据双因素对响应变量的影响是否独立分为两类:当两因素对响应变量的影响相互独立时,即两因素不相互作用对响应变量产生效应,称为无交互作用的双因素方差分析。当两因素对响应变量的影响相互不独立时,即两因素相互作用对响应变量产生一种新的效应,称为有交互作用的双因素方差分析。

双因素方差分析的计算原理同单因素方差分析相同,所不同的是对于无交互作用的双因素方差分析,观测数据间的差异是由两因素各自的组间均方差和组内均方差来测度,此时,两因素各自的组间均方差与组内均方差之比均服从F分布。对于有交互作用的方差分析而言,观测数据间的差异是由两因素各自的组间均方差、两因素的交互作用均方差和组内均方差来测度,此时,两因素各自的组间均方差、交互作用的均方差与组内均方差之比均服从F分布。因此,给定显著性水平,就可以确定临界值,此时的检验为右侧检验,当F统计量值大于临界值时,因素、交互作用对响应变量的影响是显著的。本例要求分析的是施肥方式和温度各自对产量的影响,因此,是无交互作用的方差分析。

Excel中的“方差分析:无重复双因素分析”分析工具,通过双因素方差分析(但每组数据只包含一个样本),对两个以上样本均值进行相等性假设检验。下面采用该工具对本例进行方差分析。

操作步骤: 第1步:将分析数据输入工作表单元格区域A1:D6。

第2步:单击“工具”菜单,选定“数据分析”命令,出现“数据分析”分析工具对话框(如图9.3-1)。

图9.3-1 数据分析对话框

第3步:在对话框中选择“方差分析:无重复双因素分析”,单击“确定”按钮,出现“方差分析:无重复双因素分析”对话框。

第4步:在“方差分析:无重复双因素分析”对话框中(如图9.3-2)。

范霄文:excel软件与数据分析

图9.3-2 “方差分析:无重复双因素分析”对话框

输入区域:输入待分析数据区域的单元格引用$B$3:$D$6。

标志:如果在输入区域中没有标志项,则不选中本复选框,Excel 将在输出表中生成适宜的数据标志。

:输入显著性水平0.05。

输出区域:输入对输出表左上角单元格的引用$E$1。当输出表将覆盖已有的数据,或是输出表越过了工作表的边界时,Excel 会自动确定输出区域的大小并显示信息。

新工作表组:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果。如果需要给新工作表命名,请在右侧的编辑框中键入名称。 新工作簿:单击此选项,可创建一新工作簿,并在新工作簿的新工作表中粘贴计算结果。

第5步:单击“确定”按钮,给出计算结果,见图9.3-3。

图9.3-3 计算结果

方差分析

图9-6中给出的计算结果中,行表示温度,列表示施肥方式,温度的F统计量值78.4大于临界值4.757055;施肥方式的F统计量值0.2小于临界值5.1432;因此,认为温度对产量的影响是显著的,而施肥方式对产量的影响是不显著的。

本例如果考虑温度和施肥方式的交互作用,则需要使用“方差分析:可重复双因素方差分析”分析工具进行分析。此分析工具用于进行重复实验数据的方差分析,即每一组数据包含不止一个样本,也即每一试验都可重复多次。假如获得的实验数据如图9.3-4所示。

图9.3-4 实验数据

操作步骤:

第1步:将分析数据输入工作表单元格区域A1:D9。

第2步:单击“工具”菜单,选定“数据分析”命令,出现“数据分析”对话框(如图9.3-5)。

图9.3-5数据分析对话框

范霄文:excel软件与数据分析

第3步:在对话框中选择“方差分析:可重复双因素分析”,单击“确定”按钮,出现“方差分析:可重复双因素分析”对话框(如图9.3-6)。 第4步:在“方差分析:可重复双因素分析”对话框中:

图9.3-6“方差分析:可重复双因素分析”对话框

输入区域:输入待分析数据区域的单元格引用$A$1:$D$9。

每一样本的行数:输入包含在每个样本中的行数2。每个样本必须包含同样的行数,因为每一行代表数据的一个副本。

: 输入显著性水平0.05。

输出区域: 输入对输出表左上角单元格的引用$A$11。当输出表将覆盖已有的数据,或是输出表越过了工作表的边界时,Excel 会自动确定输出区域的大小并显示信息。 新工作表组: 单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果。如果需要给新工作表命名,可在右侧的编辑框中键入名称。

新工作簿:单击此选项,可创建一个新工作簿,并在新工作簿的新工作表中粘贴计算结果。

第5步:单击“确定”按钮,给出计算结果,见表9.4。

表9.4给出的结果中,样本表示因素温度,列表示因素施肥方式。从计算结果看:因素温度的F统计量值147.8966大于临界值3.4903;因素施肥方式的F统计量值1.655172小于临界值3.88529;交互作用的F统计量值3.586207大于临界值2.996117。因此,不同的温度对产量的影响是显著的,而不同的施肥方式对产量则没有显著影响,但温度和施肥方式存在交互作用,交互作用所产生的效应对产量的影响是显著的。也就是说虽然施肥方式对产量无显著影响,但是,应充分考虑施肥方式和温度相互作用产生的效应对产量的影响,寻找两因素的最佳组合。

方差分析

表9.4

范霄文:excel软件与数据分析

9.4案例分析

案例:工业产品推销员的回报

最近十年,《工业产品销售》(Industrial Distribution)一直研究工业产品推销员的回报问题。在1997年年薪调查中,358名回答者的结果表明,有27%的回答者在销售额超过4000万美元的公司工作,其中典型的工业产品推销员在销售额为1200万美元的公司工作,那些在中小型公司(销售额在600万~2000万美元之间)工作的人比在大公司工作的人可获得较高的收益,薪水最低的雇员在销售额不足90万美元的公司工作。1996年典型的户外推销员的收入为50000美元,而典型的室内推销员只有30000美元的收入(Industrial Distribution,1997.11)。假设在较大的旧金山地区工业产品推销员的一个分会,进行了关于它会员资格的一次调查,以研究雇员资历与在户外或室内场所推销的人的年薪之间是否有关系。在这个调查中,被调查者指定为三种资历水平:低(1~9年)、中(11~20年)、高(21年及以上)。所得资料如下:

方差分析

本案例要研究的是推销人员的年薪和他们的资历与工作场所是否有关? 本例中资历和工作场所是分析的对象即因素,年薪是响应变量。

为使用Excel进行分析,首先将原始数据输入工作表sheet3的单元格区域A1:D121。然后,根据原始数据筛选出工作场所分别是室内和户外,资历为低、中、高推销员的年薪数据。操作步骤如下:

第1步:单击sheet3的单元格区域A1:D121中任一单元格。

第2步:单击“数据”菜单,指向“筛选”,再单击“自动筛选”命令。

第3步:自动筛选箭头会出现在被调查者、年薪、场所、资历的右边。单击“场所”列右边的下拉箭头,选择“室内”。单击“资历”列右边的下拉箭头,分别单击“低、中、高”。分别出现工作场所为室内的资历为低、中、高的被调查者年薪数据清单。同样的步骤选出场所为户外,资历分别为低、中、高的年薪数据。

范霄文:excel软件与数据分析

第4步:将筛选出的年薪数据复制到工作表sheet4的单元格区域A2:D42。数据如表9.5所示。

表9.5

利用Excel中的“方差分析:可重复双因素分析”分析工具进行两因素方差分析。 操作步骤:

第1步:单击“工具”菜单,选定“数据分析”命令,出现“数据分析”对话框(如图9.3-5)。

第2步:在对话框中选择“方差分析:可重复双因素分析”,单击“确定”按钮,出现“方差分析:可重复双因素分析”对话框。

方差分析

图9.4-1数据分析对话框

续表9.5

第3步:在“方差分析:可重复双因素分析”对话框中(如图9.4-2)。

范霄文:excel软件与数据分析

图9.4-2 “方差分析:可重复双因素分析”对话框

输入区域:输入待分析数据区域的单元格引用$A$2:$D$42。

每一样本的行数: 输入包含在每个样本中的行数20。每个样本必须包含同样的行数,因为每一行代表数据的一个副本。

: 输入显著性水平0.05。 输出区域: 输入对输出表左上角单元格的引用$F$2。当输出表将覆盖已有的数据,或是输出表越过了工作表的边界时,Excel 会自动确定输出区域的大小并显示信息。

新工作表组:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果。如果需要给新工作表命名,可在右侧的编辑框中键入名称。 新工作簿:单击此选项,可创建一个新工作簿,并在新工作簿的新工作表中粘贴计算结果。

第4步:单击“确定”按钮,给出计算结果,见表9.6。

表9.6-1

方差分析

表9.6-2

从表9.6给出的计算结果中可以看出,室内推销员的平均年薪是3920.35美元,户外推销员的平均年薪是48830.433美元,与所说的基本接近。由于工作场所、资历及其交互作用的F统计量值均远远大于其临界值,所以,可以得出结论:不同工作场所、不同资历的推销员的年薪是有显著差异的,并且资历与在户外或室内场所推销的人的年薪之间是有关系的。

附录:公式

一、单因素方差分析

设总体共分为k种处理进行观察,第j种处理试验了容量为nj的样本。

范霄文:excel软件与数据分析

1.计算各项离差平方和

在单因素方差分析中,需要计算的离差平方和有三个,它们分别是总离差平方和,误差项离差平方和以及水平项离差平方和。

总离差平方和,用SST(Sum of Squares for Total)代表:

SSTxijx)2

i1j1

nj

k

式中:表示全部样本观察值的总均值,其计算公式为:

xx

n

ij

误差离差平方和,用SSE(Sum of Squares for Error)代表:

2

SSExijj

i1j1nj

k

式中:xj表示第j种水平的样本均值,

x

xj

i1

nj

ij

nj

水平项离差平方和。为了后面叙述方便,可以把单因素方差分析中的因素称为A。于是水平项离差平方和可以用SSA(Sum of Squares for Factor A)表示。SSA的计算公式为:

2 SSAjx)

i1j1nj

k

2. 计算平均平方

用离差平方和除以自由度即可得到平均平方(Mean Square)。对SST来说,其自由

度为n-l;对SSA来说,其自由度为r-l,这里r表示水平的个数; 对SSE来说,其自由度为n-r。与离差平方和一样,SST,SSA,SSE之间的自由度也存在着如下的关系:

n-l=(r-1)+(n-r)

这样对于SSA,其平均平方MSA(组间均方差)为:

MSA

SSA

r1SSE

nr

对于SSE,其平均平方MSE(组内均方差)为:

MSE

方差分析

3. 检验统计量F

F

MSA

MSE

二、两因素方差分析

设两个因素A、B分别有k个水平和n个水平,共进行nk次试验。

1.计算各项离差平方和

在两因素方差分析中,需要计算的离差平方和有四个,它们分别是总离差平方和,误差项离差平方和以及水平A、B项离差平方和。

总离差平方和,用SST(Sum of Squares for Total)代表:

SST(xij)2

式中:表示全部样本观察值的总均值,其计算公式为:

1nk1nk

xijxij nki1j1nki1j1

水平项离差平方和可以分别用SSA(Sum of Squares for Factor A)和SSB(Sum of Squares for Factor B)表示。SSA的计算公式为:

SSAj

2

i1j1

nk

式中:j

1n

xij ni1

SSB的计算公式为:

SSBi

2

i1j1

nk

1k

式中:ixij

kj1

误差离差平方和,用SSE(Sum of Squares for Error)代表:

SSExijij

i1j1

nk

2

2.计算平均平方

用离差平方和除以自由度即可得到平均平方(Mean Square)。对SST来说,其自由

范霄文:excel软件与数据分析

度为nk-l;对SSA来说,其自由度为k-l,这里k表示水平A的个数;对SSB来说,其自由度为n-l,这里n表示水平B的个数;对SSE来说,其自由度为(n-1)(k-1)。 这样,把各项离差平方和除以各自的自由度,即得到平均的离差平方和,简称为均方:

SSA

k1SSB

MSB

n1

SSE

MSE

k1n1MSA

3. 检验统计量F

MSA

MSEMSB

FB

MSEFA


相关内容

  • Excel在生物统计学双样本异方差资料t检验中的应用
  • 摘要 利用Excel对双样本异方差的数据资料进行t检验,并以在pH=5和pH=8条件下测定果蝇的TPI酶活性为案例详细阐述了其分析过程及其注意事项,利用显著性概率P(T≤t)来判定结果更为简单一些. 关键词 Excel:生物统计学:t检验:双样本异方差资料 中图分类号 G642.0 文献标识码 A ...

  • Excel方差分析在市场营销中的应用
  • Excel方差分析在市场营销中的应用 [摘 要] Excel 2003 提供了一组称为"分析工具库"的数据分析工具,这些分析工具可使我们很方便地进行复杂的统计分析.只要提供必要的数据和参数,分析工具就会使用适宜的统计函数,在输出表格中显示相应的结果.本文主要利用方差分析工具,阐述 ...

  • 使用Excel进行有交互作用的正交设计方差分析
  • Computer与技术电脑知识与技术ComputerKnowledgeKnowledgeandandTechnologyTechnology电脑知识 Vol.6,No.21,July2010,pp.5800-58011009-3044第6卷第21期(2010年7月)http://www.dnzs.n ...

  • EXCEL在医学统计学中的应用(三)
  • --EXCEL统计分析工具库 1.Anova:单因素方差分析工具 :无重复双因素分析分析工 3.Anova:可重复双因素分析工具 相关系数分析工具 回归分析工具EXCEL在医学统计学中的应用(三)倪关森,金正均本课程所需所有EXCEL示例程序,请下载:一般函数解释.xls,统计函数解释.xls,统计 ...

  • EXCEL金融计算实验指导
  • <金融学>实验指导手册 EXCEL 金融计算 南京审计学院金融学院 前 言 本实验指导手册为金融学院<金融学>.<证券投资学>课程配套书.该实验指导手册侧重于培养学生应用<金融学>.<证券投资学>课程所学的基本原理,利用EXCEL 软件为计 ...

  • EXCEL金融计算
  • <EXCEL 金融计算> 实验教学大纲 金融学院金融系 2009年2月 一.课程简介 本实验课程侧重于培养学生应用<金融学>.<证券投资学>课程所学的基本原理,利用EXCEL 软件为计算工具,分析各种金融工具的风险与收益能力. 二.实验学时 12学时 三.考核方式 ...

  • 管理统计学课程教学大纲
  • <管理统计学>课程教学大纲 课程名称:管理统计学 课程类别:专业拓展课 适用专业(方向):信息管理与信息系统专业 总学时数:32(其中:理论20,实验12) 学 分:2 编制部门:信息与软件工程系 修订日期:2015-03-01 一.课程的性质与任务 本课程属于专业拓展课程.管理统计学是 ...

  • 最优投资组合实验
  • <证券投资分析>上机实验 上机实验要求: 第6,8,10,12周星期三1,2节实验课,共分为四项上机实验项目,上机完成实验内容: 具体内容与步骤: (一)数据收集:3-5项股票的价格,上证指数(至少1年时间跨度),K线图,上市公司财务数据 中国股市股票组合的适宜规模为5-10种股票 为了 ...

  • 硕士论文质量评价问题
  • 赛题类型代码:B 硕士论文质量评价问题 我国自1980年建立新的学位制度以来,已初步形成了具有我国特色的研究生招生和培养模式,并且随着社会环境的变化和人才培养的不同要求适时作出调适.如:入学类型开始有了在职人员和非在职人员.定向培养和非定向培养.直博和提前攻博等类型:招生工作中的计划内定向培养意识逐 ...