第一节 事件与概率
(一)概率的定义
⏹ 研究随机试验,需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的
统计规律性。
⏹ 能够刻画事件发生可能性大小的数量指标称之为概率(probability)。事件A 的概率
记为P (A )。 1.概率的古典定义 (先验概率)
⏹ 随机试验具有以下特征,称为古典概型。
1. 试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个; 2. 各试验的结果出现的可能性相等,即所有基本事件的发生是等可能的; 3. 试验的所有可能结果两两互不相容。 对于古典概型,概率的定义:
设样本空间由 n 个等可能的基本事件所构成,其中事件A 包含有m 个基本事件,则事件A 的概率为m/n,即
P (A )=m/n 这样定义的概率称为古典概率
2.概率的统计定义(经验概率)
⏹ 在相同条件下进行n 次重复试验,如果随机事件A 发生的次数为m ,那么m/n称为
随机事件A 的频率;当试验重复数n 逐渐增大时,随机事件A 的频率越来越稳定地
接近某一数值p ,那么就把 p 称为随机事件A 的概率(probability ) 。
2.概率的运算法则
⏹ 加法法则:互斥事件A 和B 的和事件的概率等于事件A 和事件B 的概率之和。即 P(A+B)=P(A)+P(B)。
⏹ 加法定理对于多个两两互斥的事件也成立。P(A+B+…+N)=P(A)+P(B)+…P(N) P (A+B)=P(A )+P(B )-P (AB ) 乘法法则:
⏹ 如果A 事件和 B 事件为独立事件,则事件A 与B 事件同时发生的概率等于两独立
事件概率的乘积,即: P(AB)=P(A) •P(B)
⏹ 乘法定理对于n 个相互独立的事件也成立,即 P(A1A2 • • • An)=P(A1) P(A2) • • •P (An) 书上例题
第二节 常用离散变量的理论分布 一、二项分布
(一)贝努里试验及其概率函数:
指只有两种可能结果的随机试验,我们将其中比较关注的结果称为“成功”,另一个结果称为“失败”。
将某随机试验重复进行n 次,若各次试验结果互不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称n 次试验是独立的
对于n 次独立的试验
如果每次试验结果出现且只出现对立事件A 与 之一, 在每次试验中出现A 的概率是常数p (0
在n 重贝努里试验中,事件 A 可能发生0,1,2,…,n 次,来求事件 A 恰好发生k (0≤k ≤n ) 次的概率Pn (k ) 。
例:抛掷4次硬币,正面朝上(A )出现2次的概率。先取n =4,k =2。在4次试验
中,事件A 发生2次的方式有以下C42种:
一般,在n 重贝努里试验中,事件A 恰好发生k (0≤k ≤n) 次的概率为
k n -k
C n k p k =0,1,2…, n P (k ) =q n
(二)二项分布的定义及性质
1、二项分布的定义:
设随机变量 x 所有可能取的值为零和正整数:0,1,2, …,n ,且有:
P n ( k ) = C n k p k q n - k k =0,1,2…, n
其中p >0,q >0,p+q=1,则称随机变量x 服从参数为n 和p 的二项分布 ,记为:
B(x;n,p)。
二项分布是一种离散型随机变量的概率分布。参数n 称为正整数离散参数;p 是连
续参数,它能取0与1之间的任何数值(q =1-p ) 。
2、二项分布的性质:容易验证,二项分布具有概率分布的一切性质,即: (1)P(x=k)= Pn(k) (k=0,1, …,n ) (2)二项分布的概率之和等于1,即 (3) (4)
n
∑C n p
k =0
k k
q
n -k
=(q +p )
n
=1
k
m
P (x ≤m ) =P n (k ≤m ) =
n
∑C n
k =0
k n
p q
k n -k
P (x ≥m ) =P n (k ≥m ) =
∑C
k =m
p q
m 2
k n -k
(5) P (m 1≤x ≤m 2) =p n (m 1≤k ≤m 2) =(m1
3、二项分布的图形特征:
二项分布的图形由n 和p 两个参数决定:
∑C n p
k =m 1
k k
q
n -k
(1)当p 值较小且n 不大时,分布是偏斜的。但随着n 增大 ,分布逐渐趋于对称; (2)当p 值趋于0.5时,分布趋于对称;
(3)对于固定n 及p ,当k 增加时 , 概率P (X=k) 先是随之增加直至 达到最大值, 随后单调减少。
此外,在n 较大,np 、nq 较接近时 ,二项分布接近于正态分布;当n →∞时,二项分布的极限分布是正态分布。(n≥30,np ≥5,nq ≥5时,近似正态分布。)
(三)二项分布概率计算及应用条件 二项分布的应用条件有三:
1. 各观察单位只具有互相对立 的一种结果,属于二项分类资料;
2. 已知发生某一结果的概率为p ,其对立结果的概率则为1-p=q ,要求p 是从大量观察中获得的稳定数值;
3. n 个观察单位的观察结果互相独立,即每个观察单位的结果不会影响到其它观察单位的观察结果
(四)二项分布的平均数与标准差
统计学证明,服从二项分布B (n ,p ) 的随机变量之平均数μ、标准差σ与参数n 、p
有如下关系:
当试验结果以事件A 发生次数k 表示时 μ= np σ=
三. 几何分布(Geometry distribution)
在贝努里试验中,每次试验成功的概率为p ,失败的概率为q=1-p, 设试验进行到第 ξ 次才出现成功。 ξ (xi)的分布列为
P ( k -1 k=1.2… ξ = k ) = pq
-1
(k=1.2…)是几何级数的 pq k 一般项。因此称它为几何分布记为 ~
ξ
g(k;p) 。
四、超几何分布
npq
∑
对于抽样调查,只有在大群体(即总体比样本相对大很多)的情况下,二项分布的
独立试验要求才能够近似得到满足(重复抽样)。但如果研究对象是小群体,这时总
体单位不多,一般只有几十个。假定总体只有两类,其中K 个成功类,(N-K )个为失败类,这时如果从总体中抽取一容量为n 的样本,那么成功的概率将不再恒定,也就是二相分布所要求的独立试验的条件不再被满足,而超几何分布将适合于这种
小群体的研究。
形式:P(X=k)=
K=0,1,…超几何概型, 例:产品检验。有N 个产品(其中有K 个合格品)从N 个产品中取n 个检验,求n 中有X 个合格品的概率。
(即X ——合格品个数) 不回置抽样! 期望:E (X )=nK/N=np
方差:D(X)=npq(N-n)/(N-1)
当研究对象是小群体,并且采用不回置抽样时,成功的概率将不再恒定,也就是二项分布所要求的独立试验的条件不再被满足,而超几何分布将适合于这种情况的研究。
当群体规模逐渐增大,以致不回置抽样可以作为回置抽样来处理,可用二项分布来近似超几何分布。一般当n/N≤0.1时,这种近似就是可以采用的。 五、泊松分布
泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量 n
必须很大 。
例:盒子中装有999个黑棋子,一个白棋子,在一次抽样中,抽中白棋子的概率1/1000
(一)泊松分布的定义与特征
1、定义:若随机变量x(x=k)只取零和正整数值0,1,2,…,且其概率分布为
x !
x=0,1,……(稀有事件出现的次数)
其中λ>0;e 是自然对数的底数(e =2.71828) ,则称 x 服从参数为λ的泊松分布
P (x =k ) =
λ
x
e
-λ
(Poisson‘s distribution) ,记为P (x;λ)
2、泊松分布重要的特征
平均数和方差相等,都等于常数λ,即 μ=σ2=λ=np 3、泊松分布的图形特征:
λ是泊松分布所依赖的唯一参数。 λ值愈小分布愈偏倚,随着λ的增大,分布趋于对称。 当λ= 20时分布接近于正态分布;当λ=50时,可以认为波松分布呈正态分布。 在实际工作中,当λ≥20时就可以用正态分布来近似地处理泊松分布的问题 (二)泊松分布的概率计算
泊松分布的概率计算依赖于参数λ,只要参数λ确定了,把k =0,1,2,…代入公式即可
求得各项的概率。但是在大多数服从泊松分布的实例中,分布参数λ往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为λ的估计值,将其代替公
式中的λ,计算出k = 0,1,2,…时的各项概率。
例:一个合订本共100页, 假定每页上印刷错误的, 数目X 服从泊松分布(λ=1),计算该合订本中各页的印刷错误都不超过4个的概率。 解:由题目P(x;1).
P(X≤4)=P(X=0)+ P(X=1)+ P(X=2)+ P(X=3)+ P(X=4). 查表求值 =?+?+?+?+?
所求概率为 (?)100=0.0045。
【例】为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400个记录如下
经计算得每毫升水中平均细菌数 =0.500,方差S2=0.496。两者很接近, 故可认为细菌数/ml(水) 服从泊松分布。以 =0.500代替公式中的λ,得 k (k =0,1,2…)
0. 5-0. 5
P (x =k ) =e
k ! 计算结果如下表。
细菌数的泊松分布
可见细菌数的频率分布与λ=0.5的波松分布是相当吻合的,进一步说明用波松分布描述单位容积(或面积) 中细菌数的分布是适宜的。 注意:泊松分布的应用条件与二项分布相似 (三)泊松分布与二项分布
泊松定理:设随机变量B(x;n,p)。 当 n 很大时,p 很小。有以下近似式:
其中λ=np
实际计算中,n ≥10,p ≤0.1, 近似效果就较好, 而
n ≥ 100, np ≤ 10 时近似效果就很好。
由泊松定理,n 重贝努里试验中稀有事件出现的次数近似地服从泊松分布。 例见:P133,例8.2.3
(四)泊松分布与正态分布的关系
当λ较小时, Piosson 分布呈偏态分布,随着λ增大,迅速接近正态分布,当λ ≥20
时,可以认为近似正态分布。
第三节 常用连续型随机变量的理论分布 一、正态分布
正态分布是最重要的概率分布。因为:
第一,许多自然现象与社会现象,都可用正态分布加以叙述; 第二, 许多概率分布以正态分布为其极限; 第三,许多统计量的抽样分布呈现正态分布。 因此,许多统计分析方法都是以正态分布为基础的 (一)正态分布的概率函数
若连续型随机变量x 的概率分布密度函数为
f (x ) =
1
-
(x -μ) 2σ
2
2
σ2π
e
其中μ为平均数,σ2为方差,则称随机变量x 服从正态分布(normal distribztion),记为x ~N (μ, σ2) 。相应的概率分布函数为
1
F (x ) =
σ2π
标准正态分布的三个常用概率
⎰
x
-
(x -μ) 2σ
2
2
-∞
e dx
(二) 正态分布的特征
1. 正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x =μ; 2. f (x ) 在x =μ处达到极大,极大值 ; 3. f (x ) 是非负函数,以x 轴为渐近线,分布从-∞至+∞;
4. 曲线在x =μ±σ处各有一个拐点,即曲线在(-∞, μ-σ) 和(μ+σ,+∞) 区间上是下凸的,在[μ-σ, μ+σ]区间内是上凸的;
5. 正态分布有平均数μ和标准差σ两个参数。μ是位置参数,σ是变异度参数。 6. 分布密度曲线与横轴所夹面积为1,即: 2
(x -μ) -+∞ 12
P (-∞
(三)标准正态分布
⎰-∞σ
2π
2σ
dx =1
正态分布是依赖于参数μ和σ的一簇分布。将一般的N (μ,σ2) 转换为μ= 0,σ2=1的正态分布,应用就方便了。
称μ=0,σ2=1的正态分布为标准正态分布
标准正态分布的概率密度函数及分布函数分别记作φ(z)和Φ(z),得:
ϕ ( z ) =
e
2 π
- 2
2
φ ( z ) =
2 π
⎰-∞e
z
2 - z 2
dz
随机变量z 服从标准正态分布,记作z ~N (0,1) 。
对于任何一个服从正态分布N (μ, σ2) 的随机变量x ,都可以通过标准化变换: z=(x-μ) /σ
将其变换为服从标准正态分布的随机变量z 。z 称为标准正态变量或标准正态离差 (四)正态分布的概率计算 1.标准正态分布的概率计算
设z 服从标准正态分布,则z 在[z1,z2 )何内取值的概率为:
=Φ(z2) -Φ(z1)
而Φ(z1) 与Φ(z2) 可由附表查得 【例】 已知z -N(0,1) ,试求: (1) P(z <-1.64) =? (2) P (z ≥2.58)=?
(3) P (|z |≥2.56)=? (4) P (0.34≤z <1.53) =?
关于标准正态分布,以下几种概率应当熟记: P (-1≤z <1)=0.6826 P (-2≤z <2)=0.9546 P (-3≤z <3)=0.9974 P (-1.96≤z <1.96)=0.95
P (-2.58≤z <2.58)=0.99 z 在上述区间以外取值的概率分别为:
P (|z |≥1)=2Φ(-1)=1- P(-1≤z <1) =1-0.6826=0.3174 P (|z |≥2)=2Φ(-2)
=1- P(-2≤z <2)=1-0.9545=0.0455 P (|z |≥3)=1-0.9973=0.0027 P (|z |≥1.96)=1-0.95=0.05 P (|z |≥2.58)=1-0.99=0.01 2.一般正态分布的概率计算
正态分布密度曲线和横轴围成的区域,其面积为1,是一个必然事件。
若随机变量x 服从正态分布N (μ, σ2) ,则x 的取值落在任意区间[x1, x2)的概率,
记作P (x1≤ x <x2) ,等于这部分曲边梯形面积。即:
(x -μ) 2σ
2
2
P (x 1≤x
1
σ2π
⎰x
x 2
1
-
e dx
对上式作变换z =(x -μ) /σ,得dx =σdz ,故有
P (x 1≤x
1
σ2π
⎰
x 2
-
(x -μ) 2σ
2
2
x 1
e du =
1
σ2π
⎰
(x 2-μ) /σ
(x 1-μ) /σ
e
12-2
σdu
=
1 2π
⎰
z 2
z 1
e
1 2
z - 2
d = Φ ( z 2) Φ ( z 1) -
其中,z 1=(x 1-μ) /σ,z 2=(x 2-μ) /σ)
这表明服从正态分布N (μ, σ2) 的随机变量x 在[x1,x2)内取值的概率,等于服从标准正态
分布的随机变量z 在[(x1-μ) /σ, (x2-μ) /σ)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化) ,就可用查标准正态分布的概率表的方法求得概率了。
【例】设x 服从μ=30.26,σ2=5.102的正态分布,试求P (21.64≤x <32.98) 。 令
则z 服从标准正态分布,故
=P (-1.69≤z <0.53) =Φ(0.53)-Φ(-1.69)
=0.7019-0.04551=0.6564
关于一般正态分布,以下几个概率是经常用到的。 P (μ-σ≤x <μ+σ)=0.6826 P (μ-2σ≤x <μ+2σ) =0.9546 P (μ-3σ≤x <μ+3σ) =0.9974 P (μ-1.96σ≤x μ+1.96σ)=0.95 P (μ-2.58σ≤x μ+2.58σ)=0.99 3、正态分布分位点计算 正态分布的分位点的定义
标准正态分布 密度函数图形为
图中的点 x α 称为标准正态分布的 ( 1 )% 的分位点,相当于已知 α - α
Φ(x α) =p (X ≤x α) =1-
α
求其中的 x
4、单侧概率与双侧概率
统计学中,把随机变量 x 落在区间(μ-k σ, μ+k σ) 之外的概率称为双侧(两尾) 概率,
记作α。
对应于双侧概率可以求得随机变量x 小于μ-k σ或大于μ+k σ的概率,称为单侧
概率,记作α/2。
如,x 落在(μ-1.96σ, μ+1.96σ) 之外的双侧概率为0.05,而单侧概率为0.025。即 P (x <μ-1.96σ)= P (x >μ+1.96σ)=0.025
x 落在(μ-2.58σ, μ+2.58σ) 之外的双侧概率为0.01,而单侧概率 P (x <μ-2.58σ)=
P (x > μ+2.58σ)=0.005
(五)二项分布及泊松分布与正态分布的关系
对于二项分布,在n →∞,p →0,且np =λ(较小常数) 情况下,二项分布趋于泊松分
布。在这种场合,泊松分布中的参数 λ用二项分布的np 代之;在n →∞,p →0.5
时,二项分布趋于正态分布。在这种场合,正态分布中的 μ、σ2用二项分布的np 、npq 代之。在实际计算中,当p <0.1且n 很大时 , 二项分布可由泊松分布近似;
当p >0.1且n 很大时 ,二项分布可由正态分布近似。对于泊松分布,当λ→∞时,泊松分布以正态分布为极限。在实际计算中,当λ≥20时,用泊松分布中的λ代替正态分布中的μ及σ2,即可由后者对前者进行近似计算。 二、抽样分布与中心极限定理
研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可
从两方面着手:
一是从总体到样本,这就是研究抽样分布(sampling distribution)的问题; 二是从样本到总体,这就是统计推断(statistical inference)问题
(一) 抽样分布的含义与无偏估计量
1、抽样分布的含义:统计推断是以总体分布和样本抽样分布的理论关系为基础的。
由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量也将随样本的不同而有所不同。因而样本统计量也是随机变量,也有其概率分布,我们把统计量的概率分布称为抽样分布。
2、无偏估计
在统计学上,如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值。
设有一N =3的总体,具有变量3,4,5;求得μ=4,σ2=0.6667, σ=0.8165 现以n=2作独立的回置抽样,总共得Nn =32=9个样本。 抽样结果列入下表:
N =3 n=2时抽样的平均数 方差 标准差
:
样本平均数的平均数μx =4
样本方差的平均数μS2=0.6667=σ2
样本标准差的平均数μS =0.6285≠0.8165=σ 所以,惟有样本标准差s 的平均数不是总体标准差σ的无偏差估计值。其余两个参数为无偏差估计值。
(二) 样本平均数的抽样分布
1、样本平均数抽样分布的含义及其参数 设有一个总体 ,总体平均数为μ, 方差为σ2,总体中各变数为xi ,将 此总体称为原总体。现从这个总体中随机抽取含量为n 的样本,样本平均数记为 。可以设想,从原总体中可抽出很多甚至无穷多个含量为n 的样本。
如果从容量为N 的有限总体抽样,若每次抽取容量为n 的样本,那么一共可以得到 个样本(所有可能的样本个数) 。
抽样所得到的每一个样本可以计算一个平均数,全部可能的样本都被抽取后可以得到许多平均数。
如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体,平均数就成为这个新总体的变量。
由平均数构成的新总体的分布,称为平均数的抽样分布。
随机样本的任何一种统计数都可以是一个变量,这种变量的分布称为统计数的抽样分布。
由这些样本算得的平均数与原总体平均数μ相比往往表现出不同程度的差异。这种
差异是由随机抽样造成的,称为抽样误差(sampling error)。由样本平均数构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为 和 。
是样本平均数抽样总体的标准差,简称标准误(standard error),它表示平均数抽样
误差的大小。统计学上已证明总体的两个参数与x 总体的两个参数有如下关系:
σ
μσ
μ=μ
σ
=
σ
n
2、中心极限定理
设有一个N =4的有限总体,变数为2,3,3,4。根据μ=Σx /N 和σ2=Σ(x -μ)2/N 求得该总体的μ、σ2、σ为: μ=3,σ2=1/2,σ=1/21/2=0.707
从有限总体作回置随机抽样,所有可能的样本数为Nn 其中n 为样本含量 。以上述
总体而论,如果从中抽取n =2的样本,共可得 42=16 个样本;如果样本含量n 为4,则一共可抽得44=256个样本。分别求这些样本的平均数 ,其次数分布如下表所示。
在n =2的试验中,样本平均数抽样总体的平均数、方差与标准差分别为
μ=
2
∑
f /N
n
=48. 0/16=3=μ
2
σ=
∑
f (-μ) N
2
n
=
∑f -(∑f ) /N
N
n
22n
148-48/16 =
16
=4/16=1/4=(1/2)/2= σ2/n
2
σ=σ=/4=2/2=σn
表 N =4, n=2和n=4时的次数分布
同理,可得n =4时:
μ=768/256=3=μ
σ=32/256=1/8=(1/2) /4=σ
2
2
验证了 μ = μ , σ = σ
/ n 的正确性。
/n
也可以将表中两个样本平均数的抽样总体作次数分布图。
由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,即使样本含量很小,样本平均数的分布却趋向于正态分布形式。随着样本含量 n 的增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分布。当n >30时, 的分布就近似正态分布了。X 变量与 变量概率分布间的关系可由下列两个定理说明:
(1) 若随机变量x 服从正态分布N (μ, σ2) ;x1、x2、…、xn ,是由x 总体得来的随机样本,则统计量 =Σx /n 的概率分布也是正态分布,且有 ,
即服从正态分布N (μ, σ2/n ) 。
(2) 若随机变量x 服从平均数是μ,方差是σ2的分布(不是正态分布) ; x1、x2、…、xn ,是由此总体得来的随机样本,则统计量 =Σx /n 的概率分布,当n 相当大时逼近正态分布N (μ, σ2/n ) 。这就是中心极限定理。 中心极限定理告诉我们:不论x 变量是连续型还是离散型,也无论x 服从何种分布,一般只要n >30,就可认为 的分布是正态分布。若x 的分布不很偏斜,在n >20时 , 的分布就近似于正态分布了
由中心极限定理知,只要样本容量适当大,不论总体分布形状如何,其 的分布都可看
μ 和方差 2 。在实际应用上,如n >30就可以应用这作为正态分布,且具平均数
一定理。
平均数的标准化分布是将上述平均数 x 转换为z 变数。
σn
( x - μ ) ( x - μ )
= z =
σ σ n x
3、标准误
标准误(平均数抽样总体的标准差) 的大小反映样本平均数 的抽样误
差的大小,即精确性的高低。标准误大,说明各样本平均数 间差异程度大,样本平均数的精确性低。反之, 小,样本平均数的精确性高。 的大小与原总
体的标准差σ成正比,与样本含量n 的平方根成反比。从某特定总体抽样,因为σ是一常数,所以只有增大样本含量才能降低样本平均数 的抽样误差。
在实际工作中,总体标准差σ往往是未知的,因而无法求得 。此时,可用样本标准差S 估计σ。于是,以 估计 。记 为 , 称作样本标准误或均数标准误。样本标准误 是平均数抽样误差的估计值。若样本中各观测值为 x1、x2、…、xn ,则
== S =
n (n -1) n (n -1) n
注意:样本标准差与样本标准误是既有联系又有区别的两个统计量。
二者的区别是样本标准差S 是反映样本中各观测值的变异程度,它的大小说明了 对该
样本代表性的强弱。
样本标准误是样本平均数 的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。
(二) 两个独立样本平均数差数的分布
假定有两个正态总体各具有平均数和标准差为 μ 1, σ 1 和 μ 2 , σ 2,从第一个总体随机抽取n 1个观察值,同时独立地从第二个总体随时机抽取n 2个观察值。这样计算出样本平均数和标准差 ,s 1和 ,s 2。
12
S
∑(x -)
2
∑x
2
-(∑x ) /n
2
从统计理论可以推导出其样本平均数的差数( ) 的抽样分布,具有以下特性
12
(1) 如果两个总体各作正态分布,则其样本平均数差数 ( 1 - 2 ) 准确地遵循正态分布律,无论样本容量大或小,都有N ( 2 ) 。 μ , σ
-
1-2
1-2
μ1-2=μ1-μ2(2) 两个样本平均数差数分布的平均数必等于两个总体平均数的差数,即
(3) 两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即 σ 2 σ 2
σ1-2=σ
其差数标准差为:
σ-=
1
2
2
2
1
+σ
22
22
=
1
n 1
+
2
n 2
σ1
2
+
σ
n 1n 2
这个分布也可标准化,获得z 值
z =
( y 1 - y 2 ) - ( μ - μ )
1
2
2 2 σ 1σ 2
n 1
态分布具:
+
n 2
=σ
1+
1
小结:
● 若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正
μ1-2
=0,σ
1
1-2
n n
2
● 若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在n 1和n 2相当大时(大于30) 才逐渐接近于正态分布。
2
● 若两个样本抽自于两个非正态总体,当n 1和n 2相当大、而 σ 1 2σ与 2 相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。 (三) 二项总体的抽样分布
1、 二项总体的分布参数(成数)
μ = p 平均数:
方差: σ 2 = p (1 - p pq ) =
标准差: σ = p (1-p ) = pq
2、 样本平均数(成数) 的抽样分布
从二项总体进行抽样得到样本,样本平均数(成数)抽样分布的参数为: 平均数: μ = p
σ
2=
pq n
方差:
标准误: σ = pq = p ( 1 - p )
n n
(四) 不重复抽样的修正系数
前所讲的抽样分布和抽样平均误差的计算公
式,都是就重复抽样而言的。可以证明,采用不重复抽样时,平均数和比例的抽样平均误差应为: σ( ) =
N -n
σ
2
n
(
N -n N -1
) ≈
σn
2
(1 -
n N
)
n N
σ(P ) =
P (1-P ) N -n
() ≈n N -1
p (1-p ) n
(1-)
可见,不重复抽样的抽样平均误差公式比重复抽样的相应公式多一个系数
N -1
N
N -1
n 这个系数称为不重复抽样修正系数。当N 很大时, N - n ≈ - (其中:n/N为抽样
比例)。 实际中,当抽样比例很小时,(一般认为小于5%),不重复抽样的抽样误差常采用重复抽样的公式计算。 三、t 分布 1、t 分布的定义:
若x ~N(μ, σ2) , 则 ~N (μ, σ2/n ) 。 将随机变量 标准化得: ,则z ~N (0,1)。 当总体标准差σ未知时, 以样本标准差S 代替σ所得到的统计量 记为t 。在计算 时,由于采用S 来代替σ,使得t 变量不再服从标准正态分布,而是服从t 分布(t-distribztion) 。它的概率分布密度函数如下:
f (t ) =
1
Γ[(df +1) /2]
(1+
t
2
Γ(df /2) df
式中,t 的取值范围是(-∞,+∞); df=n-1为自由度。 Γ- 函 数 +∞
df
)
-
df +12
Γ-函数的定义:
Γ(r )=
. Γ-函数的定义域:(-∞,+∞)
自由度df(degree of freedom )的含义
⎰
x
r -1
e dx
-x
df=k=n-1
T 分布密度曲线
2、t 分布的图形特征
t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布。
(1)t 分布受自由度的制约,每一个自由度都有一条t 分布密度曲线。
(2)t 分布密度曲线以纵轴为对称轴,左右对称,且在t =0时,分布密度函数取得最大值。 (3)与标准正态分布曲线相比,t 分布曲线顶部略低,两尾部稍高而平。df 越小这种趋势越明显。df 越大,t 分布越趋近于标准正态分布。 3、 t ( n ) 分布分位点计算
n ) 分布求它的分位点而不是求其概率。其分位点的定义 在统计中经常对给定的 t (
与标准正态分布相同。
p {t (n ) >t α(n ) }=α
四、χ 2 (n ) 分布(卡方分布)
χ 2 ( n ) 分布是统计中经常用到的一个分布,通常是由 n 个相互独立的标准正态分布的平方和得到。它的概率密度函数为
n x -1-⎧1
x 2e 2, x >0⎪n
⎪n
f (x ) =⎨22Γ(2⎪
⎪ x ≤0⎩ 0 ,
假设从正态总体中抽取k 个独立样本z 12 、z 22 、z 32 、…、zk 2 ,则定义它们的和为x 2 ,
x - μ 2
= ∑(x = z + z + z = ∑z )
2
2
1
2 2
.
2 k
k
2 i
k
i =11
σ
x 2具有自由度df=n-1的连续型变量的分布, 不同的自由度的x 2分布曲线不同。
附表7列出了各种自由度下的x 2分布的一尾(右尾) 概率。例x 0.052(2)=5.99,x 0.012(2)=9.21。
x 2分布的特征:
1.x 2分布于区间[0,∞+);
2.x 2分布的偏斜度随自由度降低而增大,df=1时,曲线以纵轴为渐进线;
3.随自由度增大x 2分布曲线趋于左右对称,当df=30时,x 2分布接近正态分布。
χ ( n ) 分布密度的图形随自由度n 的不同而变化,当n 很大时接近正态分布 2 χ n ) 分布分位点计算 (
在统计中经常对给定的 χ 2 ( n ) 分布求它的分位点而不是求其概率。其分位点的定
义与标准正态分布相同。
2
p χ(n ) >χα(n ) =α
{
22
}
五、 F 分布 1、F 分布的定义:
设从一正态总体N (μ, σ2) 中随机抽取样本容量为n 1和 n 2的两个独立样本,其样
本方差为s 12和s 22,则定义s 12/ n 1和s 22 / n 2的比值为F 。此F 值具有s 12的自由度df1=n1-1和s 22的自由度df2=n2-1 。如果对一个正态总体特定的df1和df2
进
行 一系列随机抽样,则所有可能的F 值构成一个F 分布。F 分布记作F ( m , n )。
m 、n 分别表示df1、df2。
F ( m , n ) 分布的概率分布密度
F ( m , n ) 分布也是统计中经常用到的一个分布,通常是由相互独立的自由度分别
为m 和n 的 χ 2 ( n ) ,χ 2 ( m ) 分布的函数得到。它的概率密度函数为:
m +n ⎧Γ() m ⎪m m m -m +n 1
()(x ) 2(1+x ) 2 , x≥0⎪
m n f (x ) =⎨n n n Γ() ⋅Γ(⎪22⎪
⎩ 0 , x
2、F 分布的特征
(1)F 的取值区间[0,∞);
(2)F 分布曲线仅决定于df1和df2 。df1=1或2时,曲线为反J 型;当df1≥3时,转为偏态曲线。
F 分布概率查附表8,如df1=4 ,df2=10时,F0.05=3.48, F0.01=5.99,为所有F 值大
于3.48的概率为0.05,大于5.99的概率为0.01 。
F 分布
F n ) 分布分位点计算 3、 ( m ,
在统计中经常对给定的 分布,我们经常需要求它的分位点而不是求其概
率。其分位点的定义与前面相同。
p {F (m , n ) >F α(m , n ) }=α
第一节 事件与概率
(一)概率的定义
⏹ 研究随机试验,需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的
统计规律性。
⏹ 能够刻画事件发生可能性大小的数量指标称之为概率(probability)。事件A 的概率
记为P (A )。 1.概率的古典定义 (先验概率)
⏹ 随机试验具有以下特征,称为古典概型。
1. 试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个; 2. 各试验的结果出现的可能性相等,即所有基本事件的发生是等可能的; 3. 试验的所有可能结果两两互不相容。 对于古典概型,概率的定义:
设样本空间由 n 个等可能的基本事件所构成,其中事件A 包含有m 个基本事件,则事件A 的概率为m/n,即
P (A )=m/n 这样定义的概率称为古典概率
2.概率的统计定义(经验概率)
⏹ 在相同条件下进行n 次重复试验,如果随机事件A 发生的次数为m ,那么m/n称为
随机事件A 的频率;当试验重复数n 逐渐增大时,随机事件A 的频率越来越稳定地
接近某一数值p ,那么就把 p 称为随机事件A 的概率(probability ) 。
2.概率的运算法则
⏹ 加法法则:互斥事件A 和B 的和事件的概率等于事件A 和事件B 的概率之和。即 P(A+B)=P(A)+P(B)。
⏹ 加法定理对于多个两两互斥的事件也成立。P(A+B+…+N)=P(A)+P(B)+…P(N) P (A+B)=P(A )+P(B )-P (AB ) 乘法法则:
⏹ 如果A 事件和 B 事件为独立事件,则事件A 与B 事件同时发生的概率等于两独立
事件概率的乘积,即: P(AB)=P(A) •P(B)
⏹ 乘法定理对于n 个相互独立的事件也成立,即 P(A1A2 • • • An)=P(A1) P(A2) • • •P (An) 书上例题
第二节 常用离散变量的理论分布 一、二项分布
(一)贝努里试验及其概率函数:
指只有两种可能结果的随机试验,我们将其中比较关注的结果称为“成功”,另一个结果称为“失败”。
将某随机试验重复进行n 次,若各次试验结果互不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称n 次试验是独立的
对于n 次独立的试验
如果每次试验结果出现且只出现对立事件A 与 之一, 在每次试验中出现A 的概率是常数p (0
在n 重贝努里试验中,事件 A 可能发生0,1,2,…,n 次,来求事件 A 恰好发生k (0≤k ≤n ) 次的概率Pn (k ) 。
例:抛掷4次硬币,正面朝上(A )出现2次的概率。先取n =4,k =2。在4次试验
中,事件A 发生2次的方式有以下C42种:
一般,在n 重贝努里试验中,事件A 恰好发生k (0≤k ≤n) 次的概率为
k n -k
C n k p k =0,1,2…, n P (k ) =q n
(二)二项分布的定义及性质
1、二项分布的定义:
设随机变量 x 所有可能取的值为零和正整数:0,1,2, …,n ,且有:
P n ( k ) = C n k p k q n - k k =0,1,2…, n
其中p >0,q >0,p+q=1,则称随机变量x 服从参数为n 和p 的二项分布 ,记为:
B(x;n,p)。
二项分布是一种离散型随机变量的概率分布。参数n 称为正整数离散参数;p 是连
续参数,它能取0与1之间的任何数值(q =1-p ) 。
2、二项分布的性质:容易验证,二项分布具有概率分布的一切性质,即: (1)P(x=k)= Pn(k) (k=0,1, …,n ) (2)二项分布的概率之和等于1,即 (3) (4)
n
∑C n p
k =0
k k
q
n -k
=(q +p )
n
=1
k
m
P (x ≤m ) =P n (k ≤m ) =
n
∑C n
k =0
k n
p q
k n -k
P (x ≥m ) =P n (k ≥m ) =
∑C
k =m
p q
m 2
k n -k
(5) P (m 1≤x ≤m 2) =p n (m 1≤k ≤m 2) =(m1
3、二项分布的图形特征:
二项分布的图形由n 和p 两个参数决定:
∑C n p
k =m 1
k k
q
n -k
(1)当p 值较小且n 不大时,分布是偏斜的。但随着n 增大 ,分布逐渐趋于对称; (2)当p 值趋于0.5时,分布趋于对称;
(3)对于固定n 及p ,当k 增加时 , 概率P (X=k) 先是随之增加直至 达到最大值, 随后单调减少。
此外,在n 较大,np 、nq 较接近时 ,二项分布接近于正态分布;当n →∞时,二项分布的极限分布是正态分布。(n≥30,np ≥5,nq ≥5时,近似正态分布。)
(三)二项分布概率计算及应用条件 二项分布的应用条件有三:
1. 各观察单位只具有互相对立 的一种结果,属于二项分类资料;
2. 已知发生某一结果的概率为p ,其对立结果的概率则为1-p=q ,要求p 是从大量观察中获得的稳定数值;
3. n 个观察单位的观察结果互相独立,即每个观察单位的结果不会影响到其它观察单位的观察结果
(四)二项分布的平均数与标准差
统计学证明,服从二项分布B (n ,p ) 的随机变量之平均数μ、标准差σ与参数n 、p
有如下关系:
当试验结果以事件A 发生次数k 表示时 μ= np σ=
三. 几何分布(Geometry distribution)
在贝努里试验中,每次试验成功的概率为p ,失败的概率为q=1-p, 设试验进行到第 ξ 次才出现成功。 ξ (xi)的分布列为
P ( k -1 k=1.2… ξ = k ) = pq
-1
(k=1.2…)是几何级数的 pq k 一般项。因此称它为几何分布记为 ~
ξ
g(k;p) 。
四、超几何分布
npq
∑
对于抽样调查,只有在大群体(即总体比样本相对大很多)的情况下,二项分布的
独立试验要求才能够近似得到满足(重复抽样)。但如果研究对象是小群体,这时总
体单位不多,一般只有几十个。假定总体只有两类,其中K 个成功类,(N-K )个为失败类,这时如果从总体中抽取一容量为n 的样本,那么成功的概率将不再恒定,也就是二相分布所要求的独立试验的条件不再被满足,而超几何分布将适合于这种
小群体的研究。
形式:P(X=k)=
K=0,1,…超几何概型, 例:产品检验。有N 个产品(其中有K 个合格品)从N 个产品中取n 个检验,求n 中有X 个合格品的概率。
(即X ——合格品个数) 不回置抽样! 期望:E (X )=nK/N=np
方差:D(X)=npq(N-n)/(N-1)
当研究对象是小群体,并且采用不回置抽样时,成功的概率将不再恒定,也就是二项分布所要求的独立试验的条件不再被满足,而超几何分布将适合于这种情况的研究。
当群体规模逐渐增大,以致不回置抽样可以作为回置抽样来处理,可用二项分布来近似超几何分布。一般当n/N≤0.1时,这种近似就是可以采用的。 五、泊松分布
泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量 n
必须很大 。
例:盒子中装有999个黑棋子,一个白棋子,在一次抽样中,抽中白棋子的概率1/1000
(一)泊松分布的定义与特征
1、定义:若随机变量x(x=k)只取零和正整数值0,1,2,…,且其概率分布为
x !
x=0,1,……(稀有事件出现的次数)
其中λ>0;e 是自然对数的底数(e =2.71828) ,则称 x 服从参数为λ的泊松分布
P (x =k ) =
λ
x
e
-λ
(Poisson‘s distribution) ,记为P (x;λ)
2、泊松分布重要的特征
平均数和方差相等,都等于常数λ,即 μ=σ2=λ=np 3、泊松分布的图形特征:
λ是泊松分布所依赖的唯一参数。 λ值愈小分布愈偏倚,随着λ的增大,分布趋于对称。 当λ= 20时分布接近于正态分布;当λ=50时,可以认为波松分布呈正态分布。 在实际工作中,当λ≥20时就可以用正态分布来近似地处理泊松分布的问题 (二)泊松分布的概率计算
泊松分布的概率计算依赖于参数λ,只要参数λ确定了,把k =0,1,2,…代入公式即可
求得各项的概率。但是在大多数服从泊松分布的实例中,分布参数λ往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为λ的估计值,将其代替公
式中的λ,计算出k = 0,1,2,…时的各项概率。
例:一个合订本共100页, 假定每页上印刷错误的, 数目X 服从泊松分布(λ=1),计算该合订本中各页的印刷错误都不超过4个的概率。 解:由题目P(x;1).
P(X≤4)=P(X=0)+ P(X=1)+ P(X=2)+ P(X=3)+ P(X=4). 查表求值 =?+?+?+?+?
所求概率为 (?)100=0.0045。
【例】为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400个记录如下
经计算得每毫升水中平均细菌数 =0.500,方差S2=0.496。两者很接近, 故可认为细菌数/ml(水) 服从泊松分布。以 =0.500代替公式中的λ,得 k (k =0,1,2…)
0. 5-0. 5
P (x =k ) =e
k ! 计算结果如下表。
细菌数的泊松分布
可见细菌数的频率分布与λ=0.5的波松分布是相当吻合的,进一步说明用波松分布描述单位容积(或面积) 中细菌数的分布是适宜的。 注意:泊松分布的应用条件与二项分布相似 (三)泊松分布与二项分布
泊松定理:设随机变量B(x;n,p)。 当 n 很大时,p 很小。有以下近似式:
其中λ=np
实际计算中,n ≥10,p ≤0.1, 近似效果就较好, 而
n ≥ 100, np ≤ 10 时近似效果就很好。
由泊松定理,n 重贝努里试验中稀有事件出现的次数近似地服从泊松分布。 例见:P133,例8.2.3
(四)泊松分布与正态分布的关系
当λ较小时, Piosson 分布呈偏态分布,随着λ增大,迅速接近正态分布,当λ ≥20
时,可以认为近似正态分布。
第三节 常用连续型随机变量的理论分布 一、正态分布
正态分布是最重要的概率分布。因为:
第一,许多自然现象与社会现象,都可用正态分布加以叙述; 第二, 许多概率分布以正态分布为其极限; 第三,许多统计量的抽样分布呈现正态分布。 因此,许多统计分析方法都是以正态分布为基础的 (一)正态分布的概率函数
若连续型随机变量x 的概率分布密度函数为
f (x ) =
1
-
(x -μ) 2σ
2
2
σ2π
e
其中μ为平均数,σ2为方差,则称随机变量x 服从正态分布(normal distribztion),记为x ~N (μ, σ2) 。相应的概率分布函数为
1
F (x ) =
σ2π
标准正态分布的三个常用概率
⎰
x
-
(x -μ) 2σ
2
2
-∞
e dx
(二) 正态分布的特征
1. 正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x =μ; 2. f (x ) 在x =μ处达到极大,极大值 ; 3. f (x ) 是非负函数,以x 轴为渐近线,分布从-∞至+∞;
4. 曲线在x =μ±σ处各有一个拐点,即曲线在(-∞, μ-σ) 和(μ+σ,+∞) 区间上是下凸的,在[μ-σ, μ+σ]区间内是上凸的;
5. 正态分布有平均数μ和标准差σ两个参数。μ是位置参数,σ是变异度参数。 6. 分布密度曲线与横轴所夹面积为1,即: 2
(x -μ) -+∞ 12
P (-∞
(三)标准正态分布
⎰-∞σ
2π
2σ
dx =1
正态分布是依赖于参数μ和σ的一簇分布。将一般的N (μ,σ2) 转换为μ= 0,σ2=1的正态分布,应用就方便了。
称μ=0,σ2=1的正态分布为标准正态分布
标准正态分布的概率密度函数及分布函数分别记作φ(z)和Φ(z),得:
ϕ ( z ) =
e
2 π
- 2
2
φ ( z ) =
2 π
⎰-∞e
z
2 - z 2
dz
随机变量z 服从标准正态分布,记作z ~N (0,1) 。
对于任何一个服从正态分布N (μ, σ2) 的随机变量x ,都可以通过标准化变换: z=(x-μ) /σ
将其变换为服从标准正态分布的随机变量z 。z 称为标准正态变量或标准正态离差 (四)正态分布的概率计算 1.标准正态分布的概率计算
设z 服从标准正态分布,则z 在[z1,z2 )何内取值的概率为:
=Φ(z2) -Φ(z1)
而Φ(z1) 与Φ(z2) 可由附表查得 【例】 已知z -N(0,1) ,试求: (1) P(z <-1.64) =? (2) P (z ≥2.58)=?
(3) P (|z |≥2.56)=? (4) P (0.34≤z <1.53) =?
关于标准正态分布,以下几种概率应当熟记: P (-1≤z <1)=0.6826 P (-2≤z <2)=0.9546 P (-3≤z <3)=0.9974 P (-1.96≤z <1.96)=0.95
P (-2.58≤z <2.58)=0.99 z 在上述区间以外取值的概率分别为:
P (|z |≥1)=2Φ(-1)=1- P(-1≤z <1) =1-0.6826=0.3174 P (|z |≥2)=2Φ(-2)
=1- P(-2≤z <2)=1-0.9545=0.0455 P (|z |≥3)=1-0.9973=0.0027 P (|z |≥1.96)=1-0.95=0.05 P (|z |≥2.58)=1-0.99=0.01 2.一般正态分布的概率计算
正态分布密度曲线和横轴围成的区域,其面积为1,是一个必然事件。
若随机变量x 服从正态分布N (μ, σ2) ,则x 的取值落在任意区间[x1, x2)的概率,
记作P (x1≤ x <x2) ,等于这部分曲边梯形面积。即:
(x -μ) 2σ
2
2
P (x 1≤x
1
σ2π
⎰x
x 2
1
-
e dx
对上式作变换z =(x -μ) /σ,得dx =σdz ,故有
P (x 1≤x
1
σ2π
⎰
x 2
-
(x -μ) 2σ
2
2
x 1
e du =
1
σ2π
⎰
(x 2-μ) /σ
(x 1-μ) /σ
e
12-2
σdu
=
1 2π
⎰
z 2
z 1
e
1 2
z - 2
d = Φ ( z 2) Φ ( z 1) -
其中,z 1=(x 1-μ) /σ,z 2=(x 2-μ) /σ)
这表明服从正态分布N (μ, σ2) 的随机变量x 在[x1,x2)内取值的概率,等于服从标准正态
分布的随机变量z 在[(x1-μ) /σ, (x2-μ) /σ)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化) ,就可用查标准正态分布的概率表的方法求得概率了。
【例】设x 服从μ=30.26,σ2=5.102的正态分布,试求P (21.64≤x <32.98) 。 令
则z 服从标准正态分布,故
=P (-1.69≤z <0.53) =Φ(0.53)-Φ(-1.69)
=0.7019-0.04551=0.6564
关于一般正态分布,以下几个概率是经常用到的。 P (μ-σ≤x <μ+σ)=0.6826 P (μ-2σ≤x <μ+2σ) =0.9546 P (μ-3σ≤x <μ+3σ) =0.9974 P (μ-1.96σ≤x μ+1.96σ)=0.95 P (μ-2.58σ≤x μ+2.58σ)=0.99 3、正态分布分位点计算 正态分布的分位点的定义
标准正态分布 密度函数图形为
图中的点 x α 称为标准正态分布的 ( 1 )% 的分位点,相当于已知 α - α
Φ(x α) =p (X ≤x α) =1-
α
求其中的 x
4、单侧概率与双侧概率
统计学中,把随机变量 x 落在区间(μ-k σ, μ+k σ) 之外的概率称为双侧(两尾) 概率,
记作α。
对应于双侧概率可以求得随机变量x 小于μ-k σ或大于μ+k σ的概率,称为单侧
概率,记作α/2。
如,x 落在(μ-1.96σ, μ+1.96σ) 之外的双侧概率为0.05,而单侧概率为0.025。即 P (x <μ-1.96σ)= P (x >μ+1.96σ)=0.025
x 落在(μ-2.58σ, μ+2.58σ) 之外的双侧概率为0.01,而单侧概率 P (x <μ-2.58σ)=
P (x > μ+2.58σ)=0.005
(五)二项分布及泊松分布与正态分布的关系
对于二项分布,在n →∞,p →0,且np =λ(较小常数) 情况下,二项分布趋于泊松分
布。在这种场合,泊松分布中的参数 λ用二项分布的np 代之;在n →∞,p →0.5
时,二项分布趋于正态分布。在这种场合,正态分布中的 μ、σ2用二项分布的np 、npq 代之。在实际计算中,当p <0.1且n 很大时 , 二项分布可由泊松分布近似;
当p >0.1且n 很大时 ,二项分布可由正态分布近似。对于泊松分布,当λ→∞时,泊松分布以正态分布为极限。在实际计算中,当λ≥20时,用泊松分布中的λ代替正态分布中的μ及σ2,即可由后者对前者进行近似计算。 二、抽样分布与中心极限定理
研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可
从两方面着手:
一是从总体到样本,这就是研究抽样分布(sampling distribution)的问题; 二是从样本到总体,这就是统计推断(statistical inference)问题
(一) 抽样分布的含义与无偏估计量
1、抽样分布的含义:统计推断是以总体分布和样本抽样分布的理论关系为基础的。
由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量也将随样本的不同而有所不同。因而样本统计量也是随机变量,也有其概率分布,我们把统计量的概率分布称为抽样分布。
2、无偏估计
在统计学上,如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值。
设有一N =3的总体,具有变量3,4,5;求得μ=4,σ2=0.6667, σ=0.8165 现以n=2作独立的回置抽样,总共得Nn =32=9个样本。 抽样结果列入下表:
N =3 n=2时抽样的平均数 方差 标准差
:
样本平均数的平均数μx =4
样本方差的平均数μS2=0.6667=σ2
样本标准差的平均数μS =0.6285≠0.8165=σ 所以,惟有样本标准差s 的平均数不是总体标准差σ的无偏差估计值。其余两个参数为无偏差估计值。
(二) 样本平均数的抽样分布
1、样本平均数抽样分布的含义及其参数 设有一个总体 ,总体平均数为μ, 方差为σ2,总体中各变数为xi ,将 此总体称为原总体。现从这个总体中随机抽取含量为n 的样本,样本平均数记为 。可以设想,从原总体中可抽出很多甚至无穷多个含量为n 的样本。
如果从容量为N 的有限总体抽样,若每次抽取容量为n 的样本,那么一共可以得到 个样本(所有可能的样本个数) 。
抽样所得到的每一个样本可以计算一个平均数,全部可能的样本都被抽取后可以得到许多平均数。
如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体,平均数就成为这个新总体的变量。
由平均数构成的新总体的分布,称为平均数的抽样分布。
随机样本的任何一种统计数都可以是一个变量,这种变量的分布称为统计数的抽样分布。
由这些样本算得的平均数与原总体平均数μ相比往往表现出不同程度的差异。这种
差异是由随机抽样造成的,称为抽样误差(sampling error)。由样本平均数构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为 和 。
是样本平均数抽样总体的标准差,简称标准误(standard error),它表示平均数抽样
误差的大小。统计学上已证明总体的两个参数与x 总体的两个参数有如下关系:
σ
μσ
μ=μ
σ
=
σ
n
2、中心极限定理
设有一个N =4的有限总体,变数为2,3,3,4。根据μ=Σx /N 和σ2=Σ(x -μ)2/N 求得该总体的μ、σ2、σ为: μ=3,σ2=1/2,σ=1/21/2=0.707
从有限总体作回置随机抽样,所有可能的样本数为Nn 其中n 为样本含量 。以上述
总体而论,如果从中抽取n =2的样本,共可得 42=16 个样本;如果样本含量n 为4,则一共可抽得44=256个样本。分别求这些样本的平均数 ,其次数分布如下表所示。
在n =2的试验中,样本平均数抽样总体的平均数、方差与标准差分别为
μ=
2
∑
f /N
n
=48. 0/16=3=μ
2
σ=
∑
f (-μ) N
2
n
=
∑f -(∑f ) /N
N
n
22n
148-48/16 =
16
=4/16=1/4=(1/2)/2= σ2/n
2
σ=σ=/4=2/2=σn
表 N =4, n=2和n=4时的次数分布
同理,可得n =4时:
μ=768/256=3=μ
σ=32/256=1/8=(1/2) /4=σ
2
2
验证了 μ = μ , σ = σ
/ n 的正确性。
/n
也可以将表中两个样本平均数的抽样总体作次数分布图。
由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,即使样本含量很小,样本平均数的分布却趋向于正态分布形式。随着样本含量 n 的增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分布。当n >30时, 的分布就近似正态分布了。X 变量与 变量概率分布间的关系可由下列两个定理说明:
(1) 若随机变量x 服从正态分布N (μ, σ2) ;x1、x2、…、xn ,是由x 总体得来的随机样本,则统计量 =Σx /n 的概率分布也是正态分布,且有 ,
即服从正态分布N (μ, σ2/n ) 。
(2) 若随机变量x 服从平均数是μ,方差是σ2的分布(不是正态分布) ; x1、x2、…、xn ,是由此总体得来的随机样本,则统计量 =Σx /n 的概率分布,当n 相当大时逼近正态分布N (μ, σ2/n ) 。这就是中心极限定理。 中心极限定理告诉我们:不论x 变量是连续型还是离散型,也无论x 服从何种分布,一般只要n >30,就可认为 的分布是正态分布。若x 的分布不很偏斜,在n >20时 , 的分布就近似于正态分布了
由中心极限定理知,只要样本容量适当大,不论总体分布形状如何,其 的分布都可看
μ 和方差 2 。在实际应用上,如n >30就可以应用这作为正态分布,且具平均数
一定理。
平均数的标准化分布是将上述平均数 x 转换为z 变数。
σn
( x - μ ) ( x - μ )
= z =
σ σ n x
3、标准误
标准误(平均数抽样总体的标准差) 的大小反映样本平均数 的抽样误
差的大小,即精确性的高低。标准误大,说明各样本平均数 间差异程度大,样本平均数的精确性低。反之, 小,样本平均数的精确性高。 的大小与原总
体的标准差σ成正比,与样本含量n 的平方根成反比。从某特定总体抽样,因为σ是一常数,所以只有增大样本含量才能降低样本平均数 的抽样误差。
在实际工作中,总体标准差σ往往是未知的,因而无法求得 。此时,可用样本标准差S 估计σ。于是,以 估计 。记 为 , 称作样本标准误或均数标准误。样本标准误 是平均数抽样误差的估计值。若样本中各观测值为 x1、x2、…、xn ,则
== S =
n (n -1) n (n -1) n
注意:样本标准差与样本标准误是既有联系又有区别的两个统计量。
二者的区别是样本标准差S 是反映样本中各观测值的变异程度,它的大小说明了 对该
样本代表性的强弱。
样本标准误是样本平均数 的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。
(二) 两个独立样本平均数差数的分布
假定有两个正态总体各具有平均数和标准差为 μ 1, σ 1 和 μ 2 , σ 2,从第一个总体随机抽取n 1个观察值,同时独立地从第二个总体随时机抽取n 2个观察值。这样计算出样本平均数和标准差 ,s 1和 ,s 2。
12
S
∑(x -)
2
∑x
2
-(∑x ) /n
2
从统计理论可以推导出其样本平均数的差数( ) 的抽样分布,具有以下特性
12
(1) 如果两个总体各作正态分布,则其样本平均数差数 ( 1 - 2 ) 准确地遵循正态分布律,无论样本容量大或小,都有N ( 2 ) 。 μ , σ
-
1-2
1-2
μ1-2=μ1-μ2(2) 两个样本平均数差数分布的平均数必等于两个总体平均数的差数,即
(3) 两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即 σ 2 σ 2
σ1-2=σ
其差数标准差为:
σ-=
1
2
2
2
1
+σ
22
22
=
1
n 1
+
2
n 2
σ1
2
+
σ
n 1n 2
这个分布也可标准化,获得z 值
z =
( y 1 - y 2 ) - ( μ - μ )
1
2
2 2 σ 1σ 2
n 1
态分布具:
+
n 2
=σ
1+
1
小结:
● 若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正
μ1-2
=0,σ
1
1-2
n n
2
● 若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在n 1和n 2相当大时(大于30) 才逐渐接近于正态分布。
2
● 若两个样本抽自于两个非正态总体,当n 1和n 2相当大、而 σ 1 2σ与 2 相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。 (三) 二项总体的抽样分布
1、 二项总体的分布参数(成数)
μ = p 平均数:
方差: σ 2 = p (1 - p pq ) =
标准差: σ = p (1-p ) = pq
2、 样本平均数(成数) 的抽样分布
从二项总体进行抽样得到样本,样本平均数(成数)抽样分布的参数为: 平均数: μ = p
σ
2=
pq n
方差:
标准误: σ = pq = p ( 1 - p )
n n
(四) 不重复抽样的修正系数
前所讲的抽样分布和抽样平均误差的计算公
式,都是就重复抽样而言的。可以证明,采用不重复抽样时,平均数和比例的抽样平均误差应为: σ( ) =
N -n
σ
2
n
(
N -n N -1
) ≈
σn
2
(1 -
n N
)
n N
σ(P ) =
P (1-P ) N -n
() ≈n N -1
p (1-p ) n
(1-)
可见,不重复抽样的抽样平均误差公式比重复抽样的相应公式多一个系数
N -1
N
N -1
n 这个系数称为不重复抽样修正系数。当N 很大时, N - n ≈ - (其中:n/N为抽样
比例)。 实际中,当抽样比例很小时,(一般认为小于5%),不重复抽样的抽样误差常采用重复抽样的公式计算。 三、t 分布 1、t 分布的定义:
若x ~N(μ, σ2) , 则 ~N (μ, σ2/n ) 。 将随机变量 标准化得: ,则z ~N (0,1)。 当总体标准差σ未知时, 以样本标准差S 代替σ所得到的统计量 记为t 。在计算 时,由于采用S 来代替σ,使得t 变量不再服从标准正态分布,而是服从t 分布(t-distribztion) 。它的概率分布密度函数如下:
f (t ) =
1
Γ[(df +1) /2]
(1+
t
2
Γ(df /2) df
式中,t 的取值范围是(-∞,+∞); df=n-1为自由度。 Γ- 函 数 +∞
df
)
-
df +12
Γ-函数的定义:
Γ(r )=
. Γ-函数的定义域:(-∞,+∞)
自由度df(degree of freedom )的含义
⎰
x
r -1
e dx
-x
df=k=n-1
T 分布密度曲线
2、t 分布的图形特征
t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布。
(1)t 分布受自由度的制约,每一个自由度都有一条t 分布密度曲线。
(2)t 分布密度曲线以纵轴为对称轴,左右对称,且在t =0时,分布密度函数取得最大值。 (3)与标准正态分布曲线相比,t 分布曲线顶部略低,两尾部稍高而平。df 越小这种趋势越明显。df 越大,t 分布越趋近于标准正态分布。 3、 t ( n ) 分布分位点计算
n ) 分布求它的分位点而不是求其概率。其分位点的定义 在统计中经常对给定的 t (
与标准正态分布相同。
p {t (n ) >t α(n ) }=α
四、χ 2 (n ) 分布(卡方分布)
χ 2 ( n ) 分布是统计中经常用到的一个分布,通常是由 n 个相互独立的标准正态分布的平方和得到。它的概率密度函数为
n x -1-⎧1
x 2e 2, x >0⎪n
⎪n
f (x ) =⎨22Γ(2⎪
⎪ x ≤0⎩ 0 ,
假设从正态总体中抽取k 个独立样本z 12 、z 22 、z 32 、…、zk 2 ,则定义它们的和为x 2 ,
x - μ 2
= ∑(x = z + z + z = ∑z )
2
2
1
2 2
.
2 k
k
2 i
k
i =11
σ
x 2具有自由度df=n-1的连续型变量的分布, 不同的自由度的x 2分布曲线不同。
附表7列出了各种自由度下的x 2分布的一尾(右尾) 概率。例x 0.052(2)=5.99,x 0.012(2)=9.21。
x 2分布的特征:
1.x 2分布于区间[0,∞+);
2.x 2分布的偏斜度随自由度降低而增大,df=1时,曲线以纵轴为渐进线;
3.随自由度增大x 2分布曲线趋于左右对称,当df=30时,x 2分布接近正态分布。
χ ( n ) 分布密度的图形随自由度n 的不同而变化,当n 很大时接近正态分布 2 χ n ) 分布分位点计算 (
在统计中经常对给定的 χ 2 ( n ) 分布求它的分位点而不是求其概率。其分位点的定
义与标准正态分布相同。
2
p χ(n ) >χα(n ) =α
{
22
}
五、 F 分布 1、F 分布的定义:
设从一正态总体N (μ, σ2) 中随机抽取样本容量为n 1和 n 2的两个独立样本,其样
本方差为s 12和s 22,则定义s 12/ n 1和s 22 / n 2的比值为F 。此F 值具有s 12的自由度df1=n1-1和s 22的自由度df2=n2-1 。如果对一个正态总体特定的df1和df2
进
行 一系列随机抽样,则所有可能的F 值构成一个F 分布。F 分布记作F ( m , n )。
m 、n 分别表示df1、df2。
F ( m , n ) 分布的概率分布密度
F ( m , n ) 分布也是统计中经常用到的一个分布,通常是由相互独立的自由度分别
为m 和n 的 χ 2 ( n ) ,χ 2 ( m ) 分布的函数得到。它的概率密度函数为:
m +n ⎧Γ() m ⎪m m m -m +n 1
()(x ) 2(1+x ) 2 , x≥0⎪
m n f (x ) =⎨n n n Γ() ⋅Γ(⎪22⎪
⎩ 0 , x
2、F 分布的特征
(1)F 的取值区间[0,∞);
(2)F 分布曲线仅决定于df1和df2 。df1=1或2时,曲线为反J 型;当df1≥3时,转为偏态曲线。
F 分布概率查附表8,如df1=4 ,df2=10时,F0.05=3.48, F0.01=5.99,为所有F 值大
于3.48的概率为0.05,大于5.99的概率为0.01 。
F 分布
F n ) 分布分位点计算 3、 ( m ,
在统计中经常对给定的 分布,我们经常需要求它的分位点而不是求其概
率。其分位点的定义与前面相同。
p {F (m , n ) >F α(m , n ) }=α