正态性检验的图示方法及其应用

11卷第3期1996年9月

数理统计与应用概率

MathematicalStatisticsandAppliedProbability

Vol.11,No.3Sep. 1996

正态性检验的图示方法及其应用

王斌会

(第一军医大学,广州,510515)

3

  

徐勇勇

(第四军医大学,西安,710032)

  摘 要 用图示方法进行正态性检验,不需要作复杂的运算,简单直观.近年来,正态性

的图示方法又有了许多发展.本文在这些发展的基础上,给出了一些图形的接受区间,提高了使用效率,排除了对图形解释的直观性,并且适合在计算机上作图.MonteCarlo模拟结果和两个实例也说明了这些方法是用的.

关键词 概率图 Michael检验 接受区间 MonteCarlo模拟

1 引言

许多统计方法要求数据呈正态分布,如t检验、方差分析、相关分析和—性模型拟合效果的残差分析等.目前,正态性检验主要有三类方法:一是计算综合统计量,如动差法、Shapiro2Wilk法(W检验)[1]、D′Agostino法(D检验)[1]、Shapiro2Francia法(W′检验)[1].二是正态分布的拟合优度检验,如χ2检验[1]、对数似然比检验[1]、Kolmogorov2Smirov检验[1].三是图示法(正态概率图NormalProbabilityplot),如分位数图(QuantileQuantileplot,简称QQ图)[1]、百分位数(PercentPercentplot,简称PP图)[5]和稳定化概率图(Sta2blizedProbabilityplot,简称SP图)[2]等.在以上三类方法中,图示方法计算量最小,也最为直观,但对结果的判定易受主观性因素的影响,为了克服图示法这一缺点,本文在QQ图、PP图和SP图的基础上,参照Michael拟合优度检验方法[2]给出了这些图形的接受区间,

为结论的解释给出了一定的标准.

2 原理与方法

一般的二维概率图是这样一种散点图,其中一个坐标为原始数据排序后的数据,而另

一个坐标来自标准分布的期望有序统计量.如果来自某一总体的数据的分布只与标准分布仅差一位置或尺度常数,那么最终概率图将近似为一条直线,极端偏离直线表明该资料不是来自所指定的分布.随着概率图的不断发展,目前已发展了许多新型的概率图,如SP图等.

设X(1)≤X(2)≤…≤X(n)是分布函数F(X)的有序随机样本,假设存在连续位置尺

3 收稿日期:94年3月.

度函数F0{(X-μ)/σ}(本文假定F0(X)为正态分布),其中μ和σ分别为总体均值和标

[2]准差,通常可用样本的极大似然估计μ^和σ^代替.

要检验F=F0,等价于下列散点图中点近似在一条直线上.

(1)QQ图就是作q1与X(1)的散点图.

(2)PP图就是作ti与ui的散点图.(3)SP图就是作ri与si的散点图.

-1

其中,ti=(i-1/2)/n,ui=F0[(X(1)-μ^)/σ^],qi=F0(ti)

/2

)arcsin{t1ri=(2/πi},

/2

)arcsin{u1si=(2/πi},   i=1,2,…,n.

  将上述作图公式总结如下,见表1所见

  这里QQ图较为常用,而SP图效率最高,因为SP图相当于对统计量进行方差稳定

化转换(反正弦变换).

此外,由于人们对概率图中点偏离直线的看法不同,因而在作结论时带有人为主观因素,所以给它们加上接受区间是十分必要的,本文采用Michael拟合优度检验方法[2]给出了这些图形的接受区间.

Michael拟合优度统计量Dsp[2]是一种类似于Kolomgrov2Smirnov拟合优度统计量

D[1,2]的统计量,

Dsp=max|r1-s1|

(1)

  通过它可在以上概率图上加100(1-α)%接受区间,如果图中所有点落在这些区间之间(见表2),那么就可认为在α水准上接受假设,其中da为Dsp在显著性水准α处的界值,见表3.

表1 作概率图公式图形形式横坐标纵坐标

QQPPSP

qitiri

X(i)uisi

)%接受区间计算公式表2 三种图形的100(1-α

图形形式

QQPPSP

接受区间界线

/2

πX=μ+σF0-1{sin2{arcsin[F1/2da}}0(qi)]±

πu=sin2{arcsin(t1/2)±/2da}

s=r±da

  关于Dsp在α处的界值,Michael[1]本人应用MonteCarlo方法只给出很少一部分界值,文献[4]中也给出了部分界值,本文给出其较为详细的界值(模拟10000次结果),其结果与文献[2]和[4]的一致.

3 效率研究

为了考察统计量Dsp检验正态分布的效率,分别对16个对称分布和16个非对称分布共32个备择分布进行了MonteCarlo模拟研究,取样本含量n分别为20,50,100,每种组合重复1000次(n=100时的结果限于篇幅未列出).所有效率模拟比较都是在I型错误率a=0105水准上进行的,它们包括了偏度从-0157到6118,峰度从-115到∞的广

范围的分布,见表3.

表3 Michael正态检验Dsp界值表

样本含量

(n)

显著性水平α

015

[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0214

[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0248

[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0271

[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0323

[***********][***********][***********][***********]

[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]

252数理统计与应用概率

表4 检验正态分布时的模拟百分效率(α=0105)

第11卷第3期

编号

[***********][***********][***********]2

分布形式

LoConN(015,10)

LoConN(015,3)LoConN(015,1)Beta(015,015)Uniform(0,1)Beta(2,2)Triangle(1)Weibull(316)t(10)Laplace(0,1)ScConN(011,3)ScConN(011,5)ScConN(011,7)t(2)t(1)Cauchy(0,1)Beta(2,1)Beta(3,2)Weibull(4)Weibull(2)HalfN(0,1)LoConN(012,5)LoConN(012,7)LoConN(011,5)LoConN(011,7)LoConE(011,3)LoConE(011,5)Gumbel(0,1)Chi(4)Exp(011)Chi(1)

Lognormal(0,1)

偏度0100

[***********][***********][***********]000100-0157-0129-[***********][***********][***********]18

峰度-1185

-0196-0108-1150-1120-0186-0160-[***********]15018150

例数

[***********][***********][***********][***********][***********][***********][***********]Dsp[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][**************]Kks[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][1**********]1rqq[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][1**********]116D[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]7512∞∞∞

-0160-0164-[***********][***********][***********]1319

第11卷第3期王斌会等:正态性检验的图示方法及其应用253

  分布1,2和3是三个位置污染正态分布,它们是对称的有较低峰值的分布,符号Lo2ConN(p,a)表示观察值是从概率为1-p的标准正态分布和概率为p均值为a,方差为1的正态分布中随机抽取,即x~(1-p)N(0,1)+pN(a,1).分布7Triangle(c)表示密度函数为f(x)=1/c-|x|/c2(|x|

值是从概率为1-p的指数分布和概率为p位置参数为a的指数分布中随机抽取,即x~(1-p)Exp(0,1)+pExp(a,1).

这里还考虑了其它三种常用的正态性检验统计量,统计量D表示R.B.D′Agostino检验统计量[1]

D=

(i-(n+1)/2)X(i)n[

3

统计量Dks表示Kolomgrov2Smirnov检验统计量[2]

Dks=max|ti-ui|+1/(2n)统计量rqq表示QQ图相关性检验统计量[1,5]

rqq=

(Xi-X

11卷第3期1996年9月

数理统计与应用概率

MathematicalStatisticsandAppliedProbability

Vol.11,No.3Sep. 1996

正态性检验的图示方法及其应用

王斌会

(第一军医大学,广州,510515)

3

  

徐勇勇

(第四军医大学,西安,710032)

  摘 要 用图示方法进行正态性检验,不需要作复杂的运算,简单直观.近年来,正态性

的图示方法又有了许多发展.本文在这些发展的基础上,给出了一些图形的接受区间,提高了使用效率,排除了对图形解释的直观性,并且适合在计算机上作图.MonteCarlo模拟结果和两个实例也说明了这些方法是用的.

关键词 概率图 Michael检验 接受区间 MonteCarlo模拟

1 引言

许多统计方法要求数据呈正态分布,如t检验、方差分析、相关分析和—性模型拟合效果的残差分析等.目前,正态性检验主要有三类方法:一是计算综合统计量,如动差法、Shapiro2Wilk法(W检验)[1]、D′Agostino法(D检验)[1]、Shapiro2Francia法(W′检验)[1].二是正态分布的拟合优度检验,如χ2检验[1]、对数似然比检验[1]、Kolmogorov2Smirov检验[1].三是图示法(正态概率图NormalProbabilityplot),如分位数图(QuantileQuantileplot,简称QQ图)[1]、百分位数(PercentPercentplot,简称PP图)[5]和稳定化概率图(Sta2blizedProbabilityplot,简称SP图)[2]等.在以上三类方法中,图示方法计算量最小,也最为直观,但对结果的判定易受主观性因素的影响,为了克服图示法这一缺点,本文在QQ图、PP图和SP图的基础上,参照Michael拟合优度检验方法[2]给出了这些图形的接受区间,

为结论的解释给出了一定的标准.

2 原理与方法

一般的二维概率图是这样一种散点图,其中一个坐标为原始数据排序后的数据,而另

一个坐标来自标准分布的期望有序统计量.如果来自某一总体的数据的分布只与标准分布仅差一位置或尺度常数,那么最终概率图将近似为一条直线,极端偏离直线表明该资料不是来自所指定的分布.随着概率图的不断发展,目前已发展了许多新型的概率图,如SP图等.

设X(1)≤X(2)≤…≤X(n)是分布函数F(X)的有序随机样本,假设存在连续位置尺

3 收稿日期:94年3月.

度函数F0{(X-μ)/σ}(本文假定F0(X)为正态分布),其中μ和σ分别为总体均值和标

[2]准差,通常可用样本的极大似然估计μ^和σ^代替.

要检验F=F0,等价于下列散点图中点近似在一条直线上.

(1)QQ图就是作q1与X(1)的散点图.

(2)PP图就是作ti与ui的散点图.(3)SP图就是作ri与si的散点图.

-1

其中,ti=(i-1/2)/n,ui=F0[(X(1)-μ^)/σ^],qi=F0(ti)

/2

)arcsin{t1ri=(2/πi},

/2

)arcsin{u1si=(2/πi},   i=1,2,…,n.

  将上述作图公式总结如下,见表1所见

  这里QQ图较为常用,而SP图效率最高,因为SP图相当于对统计量进行方差稳定

化转换(反正弦变换).

此外,由于人们对概率图中点偏离直线的看法不同,因而在作结论时带有人为主观因素,所以给它们加上接受区间是十分必要的,本文采用Michael拟合优度检验方法[2]给出了这些图形的接受区间.

Michael拟合优度统计量Dsp[2]是一种类似于Kolomgrov2Smirnov拟合优度统计量

D[1,2]的统计量,

Dsp=max|r1-s1|

(1)

  通过它可在以上概率图上加100(1-α)%接受区间,如果图中所有点落在这些区间之间(见表2),那么就可认为在α水准上接受假设,其中da为Dsp在显著性水准α处的界值,见表3.

表1 作概率图公式图形形式横坐标纵坐标

QQPPSP

qitiri

X(i)uisi

)%接受区间计算公式表2 三种图形的100(1-α

图形形式

QQPPSP

接受区间界线

/2

πX=μ+σF0-1{sin2{arcsin[F1/2da}}0(qi)]±

πu=sin2{arcsin(t1/2)±/2da}

s=r±da

  关于Dsp在α处的界值,Michael[1]本人应用MonteCarlo方法只给出很少一部分界值,文献[4]中也给出了部分界值,本文给出其较为详细的界值(模拟10000次结果),其结果与文献[2]和[4]的一致.

3 效率研究

为了考察统计量Dsp检验正态分布的效率,分别对16个对称分布和16个非对称分布共32个备择分布进行了MonteCarlo模拟研究,取样本含量n分别为20,50,100,每种组合重复1000次(n=100时的结果限于篇幅未列出).所有效率模拟比较都是在I型错误率a=0105水准上进行的,它们包括了偏度从-0157到6118,峰度从-115到∞的广

范围的分布,见表3.

表3 Michael正态检验Dsp界值表

样本含量

(n)

显著性水平α

015

[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0214

[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0248

[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0271

[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]0323

[***********][***********][***********][***********]

[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]

252数理统计与应用概率

表4 检验正态分布时的模拟百分效率(α=0105)

第11卷第3期

编号

[***********][***********][***********]2

分布形式

LoConN(015,10)

LoConN(015,3)LoConN(015,1)Beta(015,015)Uniform(0,1)Beta(2,2)Triangle(1)Weibull(316)t(10)Laplace(0,1)ScConN(011,3)ScConN(011,5)ScConN(011,7)t(2)t(1)Cauchy(0,1)Beta(2,1)Beta(3,2)Weibull(4)Weibull(2)HalfN(0,1)LoConN(012,5)LoConN(012,7)LoConN(011,5)LoConN(011,7)LoConE(011,3)LoConE(011,5)Gumbel(0,1)Chi(4)Exp(011)Chi(1)

Lognormal(0,1)

偏度0100

[***********][***********][***********]000100-0157-0129-[***********][***********][***********]18

峰度-1185

-0196-0108-1150-1120-0186-0160-[***********]15018150

例数

[***********][***********][***********][***********][***********][***********][***********]Dsp[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][**************]Kks[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][1**********]1rqq[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][1**********]116D[***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********][***********]7512∞∞∞

-0160-0164-[***********][***********][***********]1319

第11卷第3期王斌会等:正态性检验的图示方法及其应用253

  分布1,2和3是三个位置污染正态分布,它们是对称的有较低峰值的分布,符号Lo2ConN(p,a)表示观察值是从概率为1-p的标准正态分布和概率为p均值为a,方差为1的正态分布中随机抽取,即x~(1-p)N(0,1)+pN(a,1).分布7Triangle(c)表示密度函数为f(x)=1/c-|x|/c2(|x|

值是从概率为1-p的指数分布和概率为p位置参数为a的指数分布中随机抽取,即x~(1-p)Exp(0,1)+pExp(a,1).

这里还考虑了其它三种常用的正态性检验统计量,统计量D表示R.B.D′Agostino检验统计量[1]

D=

(i-(n+1)/2)X(i)n[

3

统计量Dks表示Kolomgrov2Smirnov检验统计量[2]

Dks=max|ti-ui|+1/(2n)统计量rqq表示QQ图相关性检验统计量[1,5]

rqq=

(Xi-X

相关内容

  • 化学注意事项
  • [知识点的认识]物质的相互转化和制备主要是指以氧气.氢气.碳.硫.磷等为代表的非金属单质,以铝.镁.锌.铁.铜为代表的金属单质,以一氧化碳.二氧化碳等为代表的非金属氧化物,以氧化铜.氧化铁等为代表的金属氧化物,以盐酸.硫酸.碳酸等为代表的酸,以氢氧化钠.氢氧化钙等为代表的碱,以氯化钠.碳酸钠.碳酸氢 ...

  • 六西格玛绿带考试大纲
  • 六西格玛绿带知识大纲 目录 Ⅰ六西格玛管理概论.......................................................................................................................2 A.六西格玛 ...

  • 质量管理工具及其应用
  • 质量管理工具在实验室管理中的应用 一.鱼刺图(P253-256)(如图所示) 1.概念及特点: 鱼刺图又名因果图,是一种用于分析质量特性(结果)与可能影响质量特性的因素(原因)的一种工具.其主要用于分析质量特性与影响质量特性的可能原因之间的因果关系,通过把握现状.分析原因.寻找措施来促进问题的解决. ...

  • 服装面料知识培训大纲
  • 服装面料知识课程计划 即"服装面料知识培训计划 课程目标:"服装面料知识"面向那些在职的商务人士,提供基本实用的服装面料知识技能培训.整个课程将给学习者灌输在服装面料方面的相关知识,与实操技能. 结合"联华华商服装鞋帽部部"的实际情况和具体运用,在原 ...

  • 全面质量管理考试题库
  • 全面质量管理考试题库 一. 判断题(对的划√,错的划×) 1.顾客对质量的认知具有时效性,因此组织应适时调整对质量的要求. 2.提高质量能为社会带来效益,但是企业的成本也会增加,因为质量越高,成本越高. 3.质量检验是一种事后把关型的质量管理方法,不能保证产品设计和生产过程的质量. 4.全面质量管理 ...

  • 不同呈现方式对小学三年级数学概念形成的影
  • 不同呈现方式对小学三年级数学概念形成的影响 专业:06应用心理 姓名:罗斯娜.邓茹今.欧静.樊雪荣 学号:[1**********]0 1. 实验目的: 概念是外部世界中客体集合在人脑中的表征.概念形成是概念学习的一种重要形式,它是指个体在没有先行概念可利用的情况下,逐步形成一个新的概念.在这项实验 ...

  • 统计套利模型的理论综述与应用分析
  • 2011年第6期下旬刊(总第448期) 时 代 金 融 Times Finance NO.6,2011 (CumulativetyNO.448) 统计套利模型的理论综述与应用分析 李 婷 (中南财经政法大学金融学院,湖北 武汉 430073) [摘要]统计套利模型是基于数量经济学和统计学建立起来的, ...

  • 螺纹锁紧环换热器采购技术规范
  • 中国石化物资采购技术标准 螺纹锁紧环换热器 (暂行) SPTS-EQ02-Z001 2013-05-18发布 2013-06-01实施 中国石油化工集团公司 目 次 前言................................................................. ...

  • 马克思主义哲学图解
  • 图一说明: 哲学有两个基本问题,即思维与存在何者为第一性和思维与存在是否同一.其中哲学的第一个基本问题:思维与存在何者为第一性是划分唯物主义和唯心主义的惟一标准.唯物主义认为物质第一性.意识第二性,物质决定意识.(注意:在考研政治中,通常把"思维"等同于"意识" ...