如何检验数据是否服从正态分布

如何检验数据是否服从正态分布

一、图示法

1、P-P图

以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。

2、Q-Q图

以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。

以上两种方法以Q-Q图为佳,效率较高。

3、直方图

判断方法:是否以钟形分布,同时可以选择输出正态性曲线。

4、箱式图

判断方法:观测离群值和中位数。

5、茎叶图

类似与直方图,但实质不同。

二、计算法

1、偏度系数(Skewness)和峰度系数(Kurtosis)

计算公式:

g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误σg1及σg2然后作U检验。两种检验同时得出U0.05的结论时,才可以认为该组资料服从正态分布。由公式可见,部分文献中所说的“偏度和峰度都接近0……可以认为……近似服从正态分布”并不严谨。

2、非参数检验方法

非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk (W 检验)。

SAS中规定:当样本含量n ≤2000时,结果以Shapiro – Wilk(W 检验)为准,当样本含量n >2000 时,结果以Kolmogorov – Smirnov(D 检验)为准。

SPSS中则这样规定:(1)如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算 Shapiro-Wilk 统计量。对于无权重或整数权重,在加权样本大小位于3 和 5000 之间时,计算该统计量。由此可见,部分SPSS教材里面关于“Shapiro – Wilk适用于样本量3-50之间的数据”的说法是在是理解片面,误人子弟。(2)单样本 Kolmogorov-Smirnov 检验可用于检验变量(例如income)是否为正态分布。

对于此两种检验,如果P值大于0.05,表明资料服从正态分布。

三、SPSS操作示例

SPSS中有很多操作可以进行正态检验,在此只介绍最主要和最全面最方便的操作:

1、工具栏--分析—描述性统计—探索性

2、选择要分析的变量,选入因变量框内,然后点选图表,设置输出茎叶图和直方图,选择输出正态性检验图表,注意显示(Display)要选择双项(Both)。

3、Output结果

(1)Descriptives:描述中有峰度系数和偏度系数,根据上述判断标准,数据不符合正态分布。

Sk=0,Ku=0时,分布呈正态,Sk>0时,分布呈正偏态,Sk0曲线比较陡峭,Ku

(2)Tests of Normality:D检验和W 检验均显示数据不服从正态分布,当然在此,数据样本量为1000,应以W检验为准。

(3)直方图

直方图验证了上述检验结果。

(4)此外还有茎叶图、P-P图、Q-Q图、箱式图等输出结果,不再赘述。结果同样验证数据不符合正态分布。

如何检验数据是否服从正态分布

一、图示法

1、P-P图

以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。

2、Q-Q图

以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。

以上两种方法以Q-Q图为佳,效率较高。

3、直方图

判断方法:是否以钟形分布,同时可以选择输出正态性曲线。

4、箱式图

判断方法:观测离群值和中位数。

5、茎叶图

类似与直方图,但实质不同。

二、计算法

1、偏度系数(Skewness)和峰度系数(Kurtosis)

计算公式:

g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误σg1及σg2然后作U检验。两种检验同时得出U0.05的结论时,才可以认为该组资料服从正态分布。由公式可见,部分文献中所说的“偏度和峰度都接近0……可以认为……近似服从正态分布”并不严谨。

2、非参数检验方法

非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk (W 检验)。

SAS中规定:当样本含量n ≤2000时,结果以Shapiro – Wilk(W 检验)为准,当样本含量n >2000 时,结果以Kolmogorov – Smirnov(D 检验)为准。

SPSS中则这样规定:(1)如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算 Shapiro-Wilk 统计量。对于无权重或整数权重,在加权样本大小位于3 和 5000 之间时,计算该统计量。由此可见,部分SPSS教材里面关于“Shapiro – Wilk适用于样本量3-50之间的数据”的说法是在是理解片面,误人子弟。(2)单样本 Kolmogorov-Smirnov 检验可用于检验变量(例如income)是否为正态分布。

对于此两种检验,如果P值大于0.05,表明资料服从正态分布。

三、SPSS操作示例

SPSS中有很多操作可以进行正态检验,在此只介绍最主要和最全面最方便的操作:

1、工具栏--分析—描述性统计—探索性

2、选择要分析的变量,选入因变量框内,然后点选图表,设置输出茎叶图和直方图,选择输出正态性检验图表,注意显示(Display)要选择双项(Both)。

3、Output结果

(1)Descriptives:描述中有峰度系数和偏度系数,根据上述判断标准,数据不符合正态分布。

Sk=0,Ku=0时,分布呈正态,Sk>0时,分布呈正偏态,Sk0曲线比较陡峭,Ku

(2)Tests of Normality:D检验和W 检验均显示数据不服从正态分布,当然在此,数据样本量为1000,应以W检验为准。

(3)直方图

直方图验证了上述检验结果。

(4)此外还有茎叶图、P-P图、Q-Q图、箱式图等输出结果,不再赘述。结果同样验证数据不符合正态分布。


相关内容

  • IPQC的工作流程?及检验流程?七大手法?
  • IPQC IPQC(InPut Process Quality Control)中文意思为制程控制,是指产品从物料投入生产到产品最终包装过程的品质控制. (属品质保证部) 1.负责首检和部分过程检查.制程中不良品的确认,标识及统计: 2.负责巡检,对整个生产过程物料使用.装配操作.机器运行.环境符合 ...

  • 基于Matlab的假设检验和方差分析实现
  • 基于Matlab的假设检验和方差分析实现 作 者 指导教师 张 跳 施明华 摘 要:假设检验和方差分析是数理统计计算中重要的内容.但由于它们在实际计算与应用中,经常会遇到一些复杂繁琐的计算,这往往是我们力所不能及的.面对这样的难题,我们便可以借助于Matlab进行实现.本文主要阐述了如何利用Matl ...

  • 生物统计学答案
  • 第一章 绪论 一.名词解释 1.总体:根据研究目的确定的研究对象的全体称为总体. 2.个体:总体中的一个研究单位称为个体. 3.样本:总体的一部分称为样本. 4.样本含量:样本中所包含的个体数目称为样本含量(容量)或大小. 5.随机样本:从总体中随机抽取的样本称为随机样本,而随机抽取是指总体中的每一 ...

  • 统计学笔记
  • 统计学笔记 第一章 绪论 第一节 统计与统计学 (统计学是一门收集.整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识.) 第二节 统计学的分科 第三节 统计学与其他学科的关系 第四节 统计学的产生与发展 第二章 统计数据的搜集 第一节 数据的计量与类型 一. 数 ...

  • 统计和数据
  • 第一章 统计和数据 复习要点 一.基本含义 1.统计就是用来处理数据的,它是关于数据的一门学问. 2.统计学是用以收集数据,分析数据和由数据得出结论的一组概念.原则和方法.统计分析数据的方法大体上可分为描述统计和推断统计两大类. 描述统计是研究数据搜集.处理和描述的统计学方法.其内容包括如何取得研究 ...

  • 数量分析方法模拟试题一
  • 商务统计方法模拟试题一 一.判断题 1. 一般的统计分析人员和SPSS 初学者适合采用程序运行方式. ( ) 2. 在定义数据结构时,每个变量都要定义变量值标签. ( ) 3. 在定义SPSS 变量名时,变量名可以以数字开头. ( ) 4. 利用SPSS 进行数据分析的首要任务是明确数据分析目标. ...

  • 计量经济学检验汇总
  • 最全计量经济学检验汇总 现代计量经济学的检验包括以下三个大类: §1.1 系数检验 一.Wald 检验--系数约束条件检验 Wald 检验没有把原假设定义的系数限制加入回归,通过估计这一无限制回归来计算检验统计量.Wald 统计量计算无约束估计量如何满足原假设下的约束.如果约束为真,无约束估计量应接 ...

  • [孙振球第三版]医学统计学复习题(整理版)
  • 1.总体:根据研究目的确定的同质观察单位的全体.是同质所有(2)多分类:各类间互不相容.24.无序分类变量资料:计数资观察单位的某种变量值的集合.2.有限总体:是指空间.时间范料,又称定性资料.是将观察单位按照某种属性或类别分组计数,围限制的总体.3.无限总体:是指没有空间.时间限制的总体.分组汇总 ...

  • 学生成绩分析数学建模优秀范文
  • 2012年暑期培训数学建模第二次模拟 承 诺 书 我们仔细阅读了数学建模联赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话.电子邮件.网上咨询等)与本队以外的任何人(包括指导教师)研究.讨论与赛题有关的问题. 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或 ...