第一章 计数原理
1.1 分类加法计数与分步乘法计数
分类加法计数原理: 完成一件事有两类不同方案,在第1类方案中有m 种不同的方法,在第2类方案中有n 种不同的方法,那么完成这件事共有 N=m+n种不同的方法。分类要做到“不重不漏”。
分步乘法计数原理:完成一件事需要两个步骤。做第1步有m 种不同的方法,做第2步有n 种不同的方法,那么完成这件事共有N=m×n 种不同的方法。分步要做到“步骤完整”。
n
n 元集合A={a1,a 2⋯,a n }的不同子集有2个。
1.2 排列与组合 1.2.1 排列
一般地,从n 个不同元素中取出m(m≤n)
个元素,按照一定的顺序排成一列,叫做从n 个不同元素中取出m 个元素的一个排列(arrangement)。
从n 个不同元素中取出m(m≤n) 个元素的所有不同排列的个数叫做从n 个不同元素中取出m 个元素的排列数
,用符号
表示。
排列数公式:
n 个元素的全排列数
规定:0!=1
1.2.2 组合
一般地,从n 个不同元素中取出m(m≤n) 个元素合成一组,叫做从n
个不同元素中取
出m 个元素的一个组合(combination)。 从n 个不同元素中取出m(m≤n) 个元素的所有不同组合的个数,叫做从n 个不同元素中取出m 个元素的组合数,
用符号表示。
组合数公式:
∴
或
组合数的性质:
1.3 二项式定理
1.3.1 二项式定理(binomial theorem)
*注意二项展开式某一项的系数与这一项的二项式系数是两个不同的概念。
1.3.2 “杨辉三角”与二项式系数的性质 *表现形式的变化有时能帮助我们发现某些规律! (1) 对称性
(2) 当n 是偶数时,共有奇数项,中间的一项
取得最大值;
当n
是奇数时,共有偶数项,中间的两项,
同时取得最大值。
(3) 各二项式系数的和为
(4) 二项式展开式中,奇数项二项式系数之和等于偶数项二项式系数之和:
(5) 一般地,
第二章 随机变量及其分布
2.1 离散型随机变量及其分布 2.1.1 离散型随机变量
随着试验结果变化而变化的变量称为随机变量(random variable)。
随机变量和函数都是一种映射,随机变量把随机试验的结果映为实数,函数把实数映为实数。试验结果的范围相当于函数的定义域,随机变量的取值范围相当于函数的值域。
所有取值可以一一列出的随机变量,称为离散型随机变量(discrete random variable)。 概率分布列(probability distribution series) ,简称为分布列(distribution series)。
也可用等式表示:
根据概率的性质,离散型随机变量的分布列具有如下性质:
(1) pi ≥0,i=1,2,⋯,n ; (2)
随机变量X 的均值(mean)或数学期望(mathematical expectation):
它反映了离散型随机变量取值的平均水平。
随机变量X 的方差(variance)刻画了随机变量X 与其均值E(X)的平均偏离程度
其算术平方根为随机变量X 的标准差
(standard deviation)。
若随机变量X 的分布具有下表的形式,则称X 服从两点分布(two-point distribution) ,并称p=P(X=1)为成功概率。(两点分布又称0-1分布。由于只有两个可能结果的随机试验叫伯努利试验,所以两点分布又叫伯努利分布)
若X 服从两点分布,则
,
一般地,在含有M 件次品的N 件产品中,任取n 件,其中恰有X 件次品,则
,k=0,1,2,⋯,m
其中m=min{M,n},且n≤N,M≤N,n ,M ,N∈N *
如果随机变量X 的分布列具有上表的形式,则称随机变量X 服从超几何分布(hypergeometric distribution)。
2.2 二项分布及其应用 2.2.1 条件概率
一般地,设A ,B 为两个事件,且P(A)>0,称
为在事件A 发生的条件下,事件B 发生的条件概率(conditional probability)。 如果B 和C 是两个互斥事件,则
2.2.2 事件的相互独立性 设A ,B 为两个事件,若
则称事件A 与事件B 相互独立(mutually independent) 。
可以证明,如果事件A 与B 相互独立,那么A
与
,与B
,
与也都相互独立。
2.2.3 独立重复试验与二项分布
一般地,在相同条件下重复做的n 次试验称为n 次独立重复试验(independent and
repeated trials)。
其中A i (i=1,2,⋯,n) 是第i 次试验的结果。
一般地,在n 次独立重复试验中,用X 表示事件A 发生的次数,设每次试验中事件A 发生的概率为p ,则
此时称随机变量X 服从二项分布(binomial distribution)
,记作
功概率。
若 ,则 ,并称p 为成
*随机变量的均值是常数,而样本的平均值是随着样本的不同而变化的,因此样本的平均值是随机变量。
随机变量的方差是常数,而样本的方差是随着样本的不同而变化的,因此样本的方差是随机变量。
2.4 正态分布
一般地,如果对于任何实数a ,b (a
随机变量X 满足
则称随机变量X 服从正态分布(normal
distribution) 。正态分布完全由参数μ和σ确定,记作N(μ,σ2) 。如果随机变量X 服从正态分布,则记为X~ N(μ,σ2).
的图像称为正态分布密度曲线,简称正态曲线。
(参数μ是反映随机变量取值的平均水平的特征数,可用样本的均值去估计;σ是衡量随机变量总体波动大小的特征数,可用样本的标准差去估计。)
标准正态分布:X~N(0,1)
经验表明,一个随机变量如果是众多的、互
不相干的、不分主次的偶然因素作用结果之和,它就服从或近似服从正态分布。
正态曲线的特点:
(1) 曲线位于x 轴上方,与x 轴不相交;
(2) 曲线是单峰的,它关于直线x= μ对称;
(3) 曲线在x=μ
处达到峰值 ;
(4) 曲线与x 轴之间的面积为1。
*σ越小,曲线越“高瘦”,表示总体分布越集中;σ越大,曲线越“矮胖”,表示总体分布越分散;
若X~ N(μ,σ2) ,则对于任何实数a>0,
该面积随着σ的减少而变大。这说明σ越小,
X 落在区间
(,]的概率越大,即X 集中在μ周围概率越大。
特别有
在实际应用中,通常认为服从于正态分布N(μ,σ2) 的随机变量X 只
取
之间的值,并简称之为
第三章 统计案例
3.1 回归分析的基本思想
回归分析(regression analysis) 是对具有相关关系的两个变量进行统计分析的一种常用方法。
原则。
对于一组具有线性相关关系的数据
其中 , ,称为样本点的中心,回归直线过样本点的中心。
回归方程:
线性回归模型:
其中a 和b 为模型的未知参数,e 是y 与
bx+a之间的误差。通常e 为随机变量,称为
随机误差(random error)。
与函数关系不同,在回归模型中,y 的值由x 和随机因素e 共同确定,即x 只能解释部分y 的变化,因此我们把x 称为解释变量,把y 称为预报变量。
随机误差e
的方差越小,用bx+a预报真实值y 的精度越高。随机误差是引起预报值与真实值y 之间存在误差的原因之一,其大小取决于随机误差的方差。
另一方面,和为斜率和截距的估计值,它们与真实值a 和b 之间也存在误差,这种
误差是引起预报值与真实值y 之间存在误差的另一个原因。
由于随机误
差
是e 的估计量。
对于样本点 ,所
以
它们的随机误差为
其估计值为
称为相应于点的残差(residual)。 可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果。
以样本编号为横坐标,残差为纵坐标,可作出残差图。
检查残差较大的样本点,确认采集该样本点过程中是否有人为错误,如有,应予以纠正,再重新利用线性回归模型拟合数据;如没有,则需寻找其它原因。
另外,对于已经获取的样本数据,
中的为确定的数。
因此越大,
意味着残差平方和越小,即模型拟合效果越好;越小,残差平方和越大,即模型拟合效果越差。
表示解释变量对于预报变量变化的贡献
率,越接近于1,表示回归的效果越好。
一般地,建立回归模型的基本步骤:
(1) 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2) 画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)
(3) 有经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)
(4) 按一定规则(如最小二乘法) 估计回归方程中的参数;
(5) 得出结果后分析残差图是否有异常(如
个别数据对应残差过大,残差呈现不随机的规律性等) 。若存在异常,则检查数据是否有误,或模型是否合适等。
回归模型的适用范围:
(1) 回归方程只适用于我们所研究的样本的总体;
(2) 我们所建立的回归方程一般都有时间性;
(3) 样本取值的范围会影响回归方程的适用范围;
(4) 不能期望回归方程得到的预报值就是预报变量的精确值。
一般地,比较两个函数模型的拟合程度的步骤如下:
(1)
分别建立对应于两个模型的回归方程与
别是参数a 和b 的估计值 ,
其中
和分
(2) 分别计算两个模型的R 值
(3) 若
果更好;若
拟合效果更好。
3.2 独立性检验的基本思想
不同的“值”表示不同类别的变量叫做分类变量。列出两个分类变量的频数表称为列联表(contingency table)。常用等高条形图展示列联表数据的频率特征。
2利用随机变量K 来判断“两个分类变量有关
系”的方法称为独立性检验(test of independence) 。
反证法原理与独立性检验原理的比较
,则模型1比模型2拟合效
,则模型2比模型12
一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x1,x 2}和{y1,y 2},其样本频数列联表(称为2×2列联表) 为:
假设H 0: X 与Y 没有关系,即X 与Y 独立。 则有P(XY)=P(X)P(Y) ;
根据频率近似于概率,故有
化简得
因此
, 越小,两者关系越弱
;
越大,两者关系越强;
基于以上分析,构造随机变量
为样本容量
K 的值越小则关系越小,K 的值越大则关系越大。(实际应用中通常要求a ,b ,c ,d 都不小于5)
22计算K 的观测值k 并与K 作比较。
统计学研究发现,在H 0成立的情况下,
2即在H 0成立的情况下,K 的观测值超过
6.635的概率非常小,近似为0.01,是一个小概率事件。
若观测值k 大于6.635,则有理由判定H 0不成立,即“X 与Y 有关系”。但这种判断会犯错误,犯错误的概率不会超过0.01 . 22 ,其
中
*(这里概率计算的前提是H 0成立,即H 0:两个分类变量没有关系)
若要推断的论述为H 1:“X 与Y 有关系”。可以通过频率直观地判断两个条件概率P(Y=y1|X=x1) 和P(Y=y1|X=x2) 是否相等。如果判断它们相等,就意味着X 和Y 没有关系;否则就认为它们有关系。由上表可知,在X=x1的情况下,Y=y1
的频率为
的情况下,Y=y1
的频率为 ;在X=x2 。因此,如果
和相通过直接计算或等高条形图发现
差很大,就判断两个分类变量之间有关系。
利用独立性检验原理可以进一步给出推断“两个分类变量有关系”犯错误的概率。具体做法是:
(1) 根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α ,然后查下表确定临界值k
2(2) 利用公式计算随机变量K 的观测值k.
2(3) 如果K 的观测值k 大于判断规则的临界
值k 0,即k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α ;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”。
按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过
定义:
.
则
若“X 和Y 没有关系”则有
有可推出
即可取
于是有以下判断规则:
当W
的观测值时,就判断“X 和Y 有关系” ;否则,判断“X 和Y 没有关系”。
这里为正实数,且满足在“X 和Y 没有关系”的前提下
第一章 计数原理
1.1 分类加法计数与分步乘法计数
分类加法计数原理: 完成一件事有两类不同方案,在第1类方案中有m 种不同的方法,在第2类方案中有n 种不同的方法,那么完成这件事共有 N=m+n种不同的方法。分类要做到“不重不漏”。
分步乘法计数原理:完成一件事需要两个步骤。做第1步有m 种不同的方法,做第2步有n 种不同的方法,那么完成这件事共有N=m×n 种不同的方法。分步要做到“步骤完整”。
n
n 元集合A={a1,a 2⋯,a n }的不同子集有2个。
1.2 排列与组合 1.2.1 排列
一般地,从n 个不同元素中取出m(m≤n)
个元素,按照一定的顺序排成一列,叫做从n 个不同元素中取出m 个元素的一个排列(arrangement)。
从n 个不同元素中取出m(m≤n) 个元素的所有不同排列的个数叫做从n 个不同元素中取出m 个元素的排列数
,用符号
表示。
排列数公式:
n 个元素的全排列数
规定:0!=1
1.2.2 组合
一般地,从n 个不同元素中取出m(m≤n) 个元素合成一组,叫做从n
个不同元素中取
出m 个元素的一个组合(combination)。 从n 个不同元素中取出m(m≤n) 个元素的所有不同组合的个数,叫做从n 个不同元素中取出m 个元素的组合数,
用符号表示。
组合数公式:
∴
或
组合数的性质:
1.3 二项式定理
1.3.1 二项式定理(binomial theorem)
*注意二项展开式某一项的系数与这一项的二项式系数是两个不同的概念。
1.3.2 “杨辉三角”与二项式系数的性质 *表现形式的变化有时能帮助我们发现某些规律! (1) 对称性
(2) 当n 是偶数时,共有奇数项,中间的一项
取得最大值;
当n
是奇数时,共有偶数项,中间的两项,
同时取得最大值。
(3) 各二项式系数的和为
(4) 二项式展开式中,奇数项二项式系数之和等于偶数项二项式系数之和:
(5) 一般地,
第二章 随机变量及其分布
2.1 离散型随机变量及其分布 2.1.1 离散型随机变量
随着试验结果变化而变化的变量称为随机变量(random variable)。
随机变量和函数都是一种映射,随机变量把随机试验的结果映为实数,函数把实数映为实数。试验结果的范围相当于函数的定义域,随机变量的取值范围相当于函数的值域。
所有取值可以一一列出的随机变量,称为离散型随机变量(discrete random variable)。 概率分布列(probability distribution series) ,简称为分布列(distribution series)。
也可用等式表示:
根据概率的性质,离散型随机变量的分布列具有如下性质:
(1) pi ≥0,i=1,2,⋯,n ; (2)
随机变量X 的均值(mean)或数学期望(mathematical expectation):
它反映了离散型随机变量取值的平均水平。
随机变量X 的方差(variance)刻画了随机变量X 与其均值E(X)的平均偏离程度
其算术平方根为随机变量X 的标准差
(standard deviation)。
若随机变量X 的分布具有下表的形式,则称X 服从两点分布(two-point distribution) ,并称p=P(X=1)为成功概率。(两点分布又称0-1分布。由于只有两个可能结果的随机试验叫伯努利试验,所以两点分布又叫伯努利分布)
若X 服从两点分布,则
,
一般地,在含有M 件次品的N 件产品中,任取n 件,其中恰有X 件次品,则
,k=0,1,2,⋯,m
其中m=min{M,n},且n≤N,M≤N,n ,M ,N∈N *
如果随机变量X 的分布列具有上表的形式,则称随机变量X 服从超几何分布(hypergeometric distribution)。
2.2 二项分布及其应用 2.2.1 条件概率
一般地,设A ,B 为两个事件,且P(A)>0,称
为在事件A 发生的条件下,事件B 发生的条件概率(conditional probability)。 如果B 和C 是两个互斥事件,则
2.2.2 事件的相互独立性 设A ,B 为两个事件,若
则称事件A 与事件B 相互独立(mutually independent) 。
可以证明,如果事件A 与B 相互独立,那么A
与
,与B
,
与也都相互独立。
2.2.3 独立重复试验与二项分布
一般地,在相同条件下重复做的n 次试验称为n 次独立重复试验(independent and
repeated trials)。
其中A i (i=1,2,⋯,n) 是第i 次试验的结果。
一般地,在n 次独立重复试验中,用X 表示事件A 发生的次数,设每次试验中事件A 发生的概率为p ,则
此时称随机变量X 服从二项分布(binomial distribution)
,记作
功概率。
若 ,则 ,并称p 为成
*随机变量的均值是常数,而样本的平均值是随着样本的不同而变化的,因此样本的平均值是随机变量。
随机变量的方差是常数,而样本的方差是随着样本的不同而变化的,因此样本的方差是随机变量。
2.4 正态分布
一般地,如果对于任何实数a ,b (a
随机变量X 满足
则称随机变量X 服从正态分布(normal
distribution) 。正态分布完全由参数μ和σ确定,记作N(μ,σ2) 。如果随机变量X 服从正态分布,则记为X~ N(μ,σ2).
的图像称为正态分布密度曲线,简称正态曲线。
(参数μ是反映随机变量取值的平均水平的特征数,可用样本的均值去估计;σ是衡量随机变量总体波动大小的特征数,可用样本的标准差去估计。)
标准正态分布:X~N(0,1)
经验表明,一个随机变量如果是众多的、互
不相干的、不分主次的偶然因素作用结果之和,它就服从或近似服从正态分布。
正态曲线的特点:
(1) 曲线位于x 轴上方,与x 轴不相交;
(2) 曲线是单峰的,它关于直线x= μ对称;
(3) 曲线在x=μ
处达到峰值 ;
(4) 曲线与x 轴之间的面积为1。
*σ越小,曲线越“高瘦”,表示总体分布越集中;σ越大,曲线越“矮胖”,表示总体分布越分散;
若X~ N(μ,σ2) ,则对于任何实数a>0,
该面积随着σ的减少而变大。这说明σ越小,
X 落在区间
(,]的概率越大,即X 集中在μ周围概率越大。
特别有
在实际应用中,通常认为服从于正态分布N(μ,σ2) 的随机变量X 只
取
之间的值,并简称之为
第三章 统计案例
3.1 回归分析的基本思想
回归分析(regression analysis) 是对具有相关关系的两个变量进行统计分析的一种常用方法。
原则。
对于一组具有线性相关关系的数据
其中 , ,称为样本点的中心,回归直线过样本点的中心。
回归方程:
线性回归模型:
其中a 和b 为模型的未知参数,e 是y 与
bx+a之间的误差。通常e 为随机变量,称为
随机误差(random error)。
与函数关系不同,在回归模型中,y 的值由x 和随机因素e 共同确定,即x 只能解释部分y 的变化,因此我们把x 称为解释变量,把y 称为预报变量。
随机误差e
的方差越小,用bx+a预报真实值y 的精度越高。随机误差是引起预报值与真实值y 之间存在误差的原因之一,其大小取决于随机误差的方差。
另一方面,和为斜率和截距的估计值,它们与真实值a 和b 之间也存在误差,这种
误差是引起预报值与真实值y 之间存在误差的另一个原因。
由于随机误
差
是e 的估计量。
对于样本点 ,所
以
它们的随机误差为
其估计值为
称为相应于点的残差(residual)。 可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果。
以样本编号为横坐标,残差为纵坐标,可作出残差图。
检查残差较大的样本点,确认采集该样本点过程中是否有人为错误,如有,应予以纠正,再重新利用线性回归模型拟合数据;如没有,则需寻找其它原因。
另外,对于已经获取的样本数据,
中的为确定的数。
因此越大,
意味着残差平方和越小,即模型拟合效果越好;越小,残差平方和越大,即模型拟合效果越差。
表示解释变量对于预报变量变化的贡献
率,越接近于1,表示回归的效果越好。
一般地,建立回归模型的基本步骤:
(1) 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2) 画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)
(3) 有经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)
(4) 按一定规则(如最小二乘法) 估计回归方程中的参数;
(5) 得出结果后分析残差图是否有异常(如
个别数据对应残差过大,残差呈现不随机的规律性等) 。若存在异常,则检查数据是否有误,或模型是否合适等。
回归模型的适用范围:
(1) 回归方程只适用于我们所研究的样本的总体;
(2) 我们所建立的回归方程一般都有时间性;
(3) 样本取值的范围会影响回归方程的适用范围;
(4) 不能期望回归方程得到的预报值就是预报变量的精确值。
一般地,比较两个函数模型的拟合程度的步骤如下:
(1)
分别建立对应于两个模型的回归方程与
别是参数a 和b 的估计值 ,
其中
和分
(2) 分别计算两个模型的R 值
(3) 若
果更好;若
拟合效果更好。
3.2 独立性检验的基本思想
不同的“值”表示不同类别的变量叫做分类变量。列出两个分类变量的频数表称为列联表(contingency table)。常用等高条形图展示列联表数据的频率特征。
2利用随机变量K 来判断“两个分类变量有关
系”的方法称为独立性检验(test of independence) 。
反证法原理与独立性检验原理的比较
,则模型1比模型2拟合效
,则模型2比模型12
一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x1,x 2}和{y1,y 2},其样本频数列联表(称为2×2列联表) 为:
假设H 0: X 与Y 没有关系,即X 与Y 独立。 则有P(XY)=P(X)P(Y) ;
根据频率近似于概率,故有
化简得
因此
, 越小,两者关系越弱
;
越大,两者关系越强;
基于以上分析,构造随机变量
为样本容量
K 的值越小则关系越小,K 的值越大则关系越大。(实际应用中通常要求a ,b ,c ,d 都不小于5)
22计算K 的观测值k 并与K 作比较。
统计学研究发现,在H 0成立的情况下,
2即在H 0成立的情况下,K 的观测值超过
6.635的概率非常小,近似为0.01,是一个小概率事件。
若观测值k 大于6.635,则有理由判定H 0不成立,即“X 与Y 有关系”。但这种判断会犯错误,犯错误的概率不会超过0.01 . 22 ,其
中
*(这里概率计算的前提是H 0成立,即H 0:两个分类变量没有关系)
若要推断的论述为H 1:“X 与Y 有关系”。可以通过频率直观地判断两个条件概率P(Y=y1|X=x1) 和P(Y=y1|X=x2) 是否相等。如果判断它们相等,就意味着X 和Y 没有关系;否则就认为它们有关系。由上表可知,在X=x1的情况下,Y=y1
的频率为
的情况下,Y=y1
的频率为 ;在X=x2 。因此,如果
和相通过直接计算或等高条形图发现
差很大,就判断两个分类变量之间有关系。
利用独立性检验原理可以进一步给出推断“两个分类变量有关系”犯错误的概率。具体做法是:
(1) 根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α ,然后查下表确定临界值k
2(2) 利用公式计算随机变量K 的观测值k.
2(3) 如果K 的观测值k 大于判断规则的临界
值k 0,即k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α ;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”。
按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过
定义:
.
则
若“X 和Y 没有关系”则有
有可推出
即可取
于是有以下判断规则:
当W
的观测值时,就判断“X 和Y 有关系” ;否则,判断“X 和Y 没有关系”。
这里为正实数,且满足在“X 和Y 没有关系”的前提下