统计学笔记
第一章 绪论
第一节 统计与统计学
(统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。)
第二节 统计学的分科
第三节 统计学与其他学科的关系
第四节 统计学的产生与发展
第二章 统计数据的搜集
第一节 数据的计量与类型
一、 数据的计量尺度
1、 定类尺度
计量层次最低;对事物进行平行的分类(无大小、好坏之分);数据表现为“类别”;使用时必须符合类别穷尽和互斥的要求(如男、女性别)。
2、 定序尺度
在对事物分类的同时给出各类别的顺序;比定类尺度精确;数据表现为“类别”,但有序;未测量出类别之间的准确差值(如成绩的优、良、差,不如100分制精确)。
3、 定距尺度
对事物的准确测度;比定序尺度精确;数据表现为“数值”(如成绩的100分制的分数、温度差别、货币差别等);没有绝对零点。
4、 定比尺度
对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点。
二、 数据的类型和分析方法
非参数方法←品质数据:定类数据、定序数据
参数方法←数量数据:定距数据、定比数据
三、 统计指标及其类型
第二节 统计数据的来源(直接来源、间接来源)
1、 统计调查方式:普查(一次性全面调查)、抽样调查(随机抽取)、统计报表、重点调查
(选择少数重点进行调查)和典型调查(选择少数典型进行调查)
2、 数据的搜集方法:
询问调查:访问调查、邮寄调查、电话调查、电脑辅助、座谈会、个别探访
观察实验:观察法、实验法
第三节 调查方案设计
1、 调查方案的内容:调查目的、调查对象和调查单位、调查项目和调查表、其他
第四节 统计数据的质量
一、 统计数据的误差
1、 误差来源:登记性误差(人为造成,可以消除)、代表性误差(用样本数据推断产
生,无法消除)
二、 统计数据的质量要求:精度、准确性、关联性、及时性、一致性、最低成本
第三章 统计数据的整理与显示
第一节 数据的预处理
1、 数据的审核:审核的内容:完整性审核;准确性审核;适用性审核;时效性审核
2、 数据的筛选:筛选的内容:将某些不符合要求的数据或有明显错误的数据予以剔除;将
符合某种特定条件的数据筛选出来,不符合的予以剔出。
例子:表3-1是8名学生4门课程的考试成绩数据(单位:分)。试找出统计学成绩等于75分的学生,英语成绩最高的前三名学生,4门课程成绩都高于70分的学生。
3、 数据的排序:按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的
线索;定类、定距、定比数据的排序
第二节 品质数据的整理与显示
一、 定类数据的整理与显示
1、 基本问题:对定类数据和定序数据主要是做分类整理;对定距数据和定比数据则主要是
做分组整理
2、 基本过程:列出各类别;计算各类别的频数;制作频数分布表;用图形显示数据
3、 可计算的指标:频数;比例;百分比;比率
4、 例子:一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进
行调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。
二、 定类数据的图示
1、 条形图:是用宽度相同的条形的高度或长短来表示数据变动的图形。在表示定类数据的
分布时,是用条形图的高度来表示各类别数据的频数或频率。
2、 圆形图:也称饼图,是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示
总体中各组成部分所占的比例。
三、 定序数据的整理与显示
1、 可计算的指标:累计频数(将各类别的频数逐级累加);累计频率(将各类别的频率/百
分比逐级累加)
2、 实例:非常不满意、不满意、一般、满意、非常满意
四、 定序数据的图示
1、 累计频数分布图
2、 环形图:中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。
第三节 数值型数据的整理与显示
一、 数据的分组
1、 基本概念:
数据分组:根据统计研究的需要,将原始数据按某种标准划分成不同的组别。
分组数据:分组后的数据。
组距:一个组的上限值与下限值之差。
2、 频数分布表的编制步骤:确定组数、确定组距、计算频数、编制表格
(例子:)某生产车间50名工人日加工零件数如表格。试采用单变量值对数据进行分组。
3、 分组方法:单变量值分组;组距分组(等距分组;异距分组)
(1) 单变量值分组:将一个变量值作为一组;适合于离散变量或变量值较少的情况。
例如:以生产零件个数为变量。
(2) 组距分组:将变量值的一个区间作为一组;适合于连续变量或变量值较多的情
况;可采取等距分组或不等距分组。例如:每五个零件为一个区间(变量)。分
别有上下组限重叠、上下组限间断、使用开口组
一、 数据的图示
1、 分组数据的图示
(1) 直方图:用矩形的面积来表示各组的频数分布的图形;直方图下的总面积等于1。
(2) 直方图与条形图的区别:条形图是用条形的长度表示各类别频数的多少,其宽
度(表示类别)则是固定的,是分开排列;直方图是用面积表示各组频数的多
少,矩形的高度表示每一组的频数,宽度则表示各组的组距,是连续排列。
(3) 折线图:在直方图的基础上,把直方图顶部的中点用直线连接起来,再把原来
的直方图抹掉。
2、 未分组数据的图示
(1) 茎叶图:以该组数据的高位数值作数茎,低位数值作树叶。
(2) 箱线图:由一组数据的5个特征值(最大值、最小值、中位数、上四分位数、
下四分位数)绘制而成,它由一个箱子和两条线段组成。
3、 时间序列数据—线图:时间一般绘在横轴,指标数据绘在纵轴。
4、 多变量数据—雷达图:是显示多个变量的常用图示方法
第四节 统计表
一、 统计表的构成
二、 统计表的设计
第四章 数据分布特征的测度
数据分布的特征和测度:集中趋势:众数、中位数、均值
离散程度:异众比率、四分位差、方差和标准差、离散系数、标准分数 分布的形状:偏态、峰度
第一节 集中趋势的测度
集中趋势:一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值或中心值。
一、 定类数据:众数(一组数据中出现次数最多的变量值,称~;可能没有众数或有几
个众数;主要用于定类数据,也可用于定序数据和数值型数据)
1、 未分组数据的众数(定类数据的算例、定序数据的算例):例如 M0 =商品广告、不满意
2、 分组数据的众数:用于数值型分组数据;相邻两组的频数相等时,众数组的组中值即为
众数,不相等时,众数采用下列近似公式计算: (L众数组的下限值;f众数组的频数;f-1 众数前一组的频数;f+1 众数后一组的频数;i众数的组距)
二、 定序数据:中位数和分位数(一组数据排序后,处于中间位置上的变量值,称中位
数;一组数据排序后处于25%和75%位置上的值,称四分位数。这两个都主要用于定序数据,也可用数值型数据,但不能用于定类数据。)
1、 中位数位置的确定:未分组数据:位置=N+1/2 组距分组数据:位置=N/2
2、 未分组数据的中位数的值计算公式:Me=X(N+1/2)当N为奇数时;1/2(XN/2+XN/2+1)当
N为偶数时
3、 分组数据的中位数的值的计算公式(用于数值型分组数据):
(L中位数所在组的下限;N/2中位数的位置;Sm-1
中位数所在组前一组距的累积频数;fm中位数所在组的频数;i中位数所在组的组距)
4、 四分位数位置的确定:未分组数据:位置=下四分位数N+1/4,上四分位数3(N+1)/4
组距分组数据=下四分位数N/4,上四分位数3N/4
5、 数值型分组数据的四分位数计算公式:
下四分位数QL=LL+[(N/4-SL)/fL ]*iL
上四分位数(LUQ所在组的下限值;N数据个数;SUQ所在组以前各组的累积频数;fUQ所在组的频数;iUQ所在组的组距)
三、 定距和定比数据:均值(用于数值型数据,不能用于定类数据和定序数据)
1、 单变量或未分组数据的简单均值公式:
2、 加权均值:
3、 调和平均数(均值的另一种表现形式;用于定比数据,不能用于定类数据和定序数据)
4、 几何平均数(N个变量值乘积的N次方根;适用于特殊的数据;主要用于计算平均发展
速度)
四、 众数、中位数和均值的比较
1、 数据类型和所使用的集中趋势测度值
定类数据:众数
定序数据:中位数、四分位数、众数
定距数据:均值、众数、中位数、四分位数
定比数据:均值、调和平均数、几何平均数、中位数、四分位数、众数
第二节 离散程度的测度
离中趋势:反映的是各变量值远离其中心值的程度,其各测度值就是对数据离散程度的描述。
一、 定类数据:异众比率(非众数组的频数占总频数的比率;用于衡量众数的代表程度)
1、 计算公式:Vr=1-(Fm众数组频数/变量值总频数)
二、 定序数据:四分位差(上四分位数与下四分位数之差;反映了中间50%数据的离
散程度;用于衡量中位数的代表程度)
1、 计算公式:QD=QU-QL
三、 定距和定比数据:方差及标准差(各变量值与其均值离差平方和的平均数,为方差;
方差的平方根,为标准差)
1、 极差:一组数据的最大值与最小值之差;离散程度的最简单测度值;未考虑数据的分布。
计算公式:未分组数据=最大值-最小值,组距分组数据=最高值上限-最低组下限
2、 平均差:各变量值与其均值离差绝对值的平均数;能全面反映一组数据的离散程度。
计算公式:未分组数据:
组距分组数据:
3、 方差和标准差:反映了各变量值与均值的平均差异;根据总体数据计算的,称为总体方
差或标准差;根据样本数据计算的,称为样本方差或标准差。
计算公式:
方差:未分组数据:
组距分组数据:
标准差:未分组数据:
组距分组数据:
样本方差:未分组数据:
组距分组数据:
样本标准差:未分组数据:
组距分组数据:
4、 标准化值(标准分数):给出某一个值在一组数据中的相对位置;可用于判断一组数据
是否有离群点;用于对变量的标准化处理。Z分数没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差/方差为1。 计算公式为:
四、 相对离散程度:离散系数(一组数据的标准差与其相应的均值之比;测度了数据的
相对离散程度;用于对不同组别数据离散程度的比较)
1、 计算公式:
第三节 偏态与峰度的测度
一、 偏态及其测度
1、 偏态:对数据分布偏斜程度的测度;偏态系数等于0为对称分布,大于0为右偏分布,
小于0为左偏分布。计算公式:
2、 峰度:数据分布扁平程度的测度;峰度系数等于3扁平程度适中;偏态系数小于3为扁
平分布;偏态系数大于3为尖峰分布。计算公式:
第五章
第一节 随机事件(试验、事件和样本空间):
1、 试验:在相同条件下,对事物或现象所进行的观察;可以在相同的条件下重复进行;每
次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的;在试验结束之前,不能确定该次试验的确切结果。
2、 事件:随机试验的每一个可能结果(任何样本点集合)。
3、 样本空间:一个试验中所有基本事件的集合。
第二节 事件的概率
1、 事件A的概率=P(A):是对事件A在试验中出现的可能性大小的一种度量;表示事件A
出现可能性大小的数值
2、 概率的古典定义:如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可
能性相同,则事件A发生的概率为该事件所包含的基本个数m与样本空间中所包含的基本事件个数n的比值,记为P(A)=m/n【区别特点:有限结果;等可能性】
3、 概率的统计定义:在相同条件下进行n次随机试验,事件A出现m次,则比值m/n称
为事件A发生的频率,随着n的增大,该频率围绕某一常数p上下摆动,且波动的幅度逐渐减小,趋向于稳定,这个频率的稳定值即为事件A的概率,记为P(A)=m/n=p
第三节 随机变量的概念
1、 随机变量的概念:一次试验的结果的数值型描述;一般用X、Y、Z来表示;根据取值情
况的不同分为离散型随机变量和连续型随机变量。
2、 离散型随机变量:随机变量X取有限个值或所以取值都可以逐个列举出来X1,X2,...;
以确定的概率取这些不同的值。例:抽查100个产品,取到次品的个数,可能的取值有0,1,2,...,100
3、 连续型随机变量:随机变量X取无限个值;所有可能取值不可以逐个列举出来,而是取
数轴上某一区间内的任意点。例:测量一个产品的长度,测量误差(cm),可能的取值是X大于等于0
第四节 离散型随机变量的概率分布
1、 离散型随机变量的概率分布:列出离散型随机变量X的所有可能取值;列出随机变量取
这些值的概率;离散型随机变量的概率函数:P(X=xi)=pi
2、 离散型随机变量的概率分布(0—1)分布:一个离散型随机变量X只取两个可能的值;
列出随机变量取这两个值的概率。例如:合格品用1表示,不合格用0表示
3、 离散型随机变量的概率分布(均匀分布):一个离散型随机变量取各个值的概率相同;
列出随机变量取值及其取值的概率。例如:投掷一枚骰子,出现的点数及其出现各点的概率
第五节 离散型随机变量的数学期望和方差【数学期望就是均值】
1、 离散型随机变量的数学期望:在离散型随机变量X的一切可能取值的完备组中,各可能
取值xi与其取相对应的概率pi乘积之和;描述离散型随机变量取值的集中程度E(X);计算公式为:
2、 随机变量的方差:随机变量X的每一个取值与期望值的离差平方和的数学期望,记为
D(X);描述离散型随机变量取值的分散程度;计算公式为:
第三节 几种常见的离散型概率分布
二项分布、泊松分布、超几何分布
第六节 连续型随机变量的概率分布
均匀分布、正态分布、指数分布、其他分布
1、 连续型随机变量的概率分布:连续型随机变量可以取某一区间或整个实数轴上的任意一
个值;它取任何一个特定的值的概率都等于0;不能列出每一个值及其相应的概率;通常研究取某一区间值的概率;用数学函数的形式和分布函数的形式来描述
2、 概率密度函数:设X为一连续型随机变量,x为任意实数,X的概率密度函数记为f(x),
f(x)不是概率,是x在密度函数上的取值—频数。
3、 分布函数:F(x),分布函数是X的某个区间对密度函数的积分
4、 【密度函数曲线下的面积等于1;分布函数是曲线下小于X0的面积】
二、 均匀分布
1、 若随机变量X的概率密度函数为:f(x)=1/b-a X大于等于a小于等于b;0 其他。称X
在区间[a,b]上均匀分布。
三、 正态分布
1、 一般的正态分布取决于均值μ和标准差 ;曲线f(x)相对于均值 对称,尾端向两个方
向无限延伸,且理论上永远不会与横轴相交。
2、 若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表
任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布:Z=X-μ/标准差 ~N(0,1),即标准正态分布的均值为0,标准差为1。
第七节 连续型随机变量的期望和方差
1、 连续型随机变量的数学期望为:E(X)=........................................=μ
2、 连续型随机变量的方差为:D(X)=.................................................=
第六章 抽样与参数估计
统计方法:描述统计
推断统计:参数估计、假设检验
第一节 抽样与抽样分布
三、 总体、个体和样本
1、 概念要点:总体:调查研究的事物或现象的全体;个体:组成总体的每个元素;样本:
从总体中所抽取的部分个体;样本容量:样本中所含个体的数量。
2、 抽样推断:从所研究的总体全部元素中抽取一部分元素进行调查,并根据样本数据所提
供的信息来推断总体的数量特征。
简单随机抽样:从含有N个元素的总体中,抽取n个元素作为样本,使得每一个容量为n的样本都有相同的机会被抽中,这样的抽样方式称为~
重复抽样:从总体中抽取一个元素后,把这个元素放回总体中再抽取第二个元素,直至抽取n个元素为止。这样的抽样方法称为~
不重复抽样:一个元素后被抽中后不再放回总体,然后再从剩下的元素中抽取第二个元素,直至抽取n个元素为止。这样的抽样方法称~
三、 抽样方法概念要点:
1、 概率抽样:根据已知的概率选取样本
简单随机抽样:完全随机的抽选样本
分层抽样(是类型抽样或分类抽样):总体分成不同的“层”,然后再每一层内进行抽样 整群抽样(就是分区抽样):将一组被调查者作为一个抽样单位
等距抽样(就是系统抽样):在样本框中每隔一定距离抽选一个被调查者
(分层抽样是层间差异大于层内差异;整群抽样是群内差异大于群间差异。所以,事先对总体结构有一定认识时,可以用分层抽样;在总体没有原始资料可利用时,可以用整群抽样。例如:分专业抽样—分层抽样;分班抽样—整群抽样)
2、 非概率抽样:不是完全按随机原则选取样本
非随机抽样:由调查人员自由选取被调查者
判断抽样:通过某些条件过滤来选择被调查者
3、 配额抽样:选择一群特定数目、满足特定条件的被调查者;是由调查人员在配额内主观
判断选定样本。
四、 样本均值的抽样分布
1、 抽样分布:所有样本指标(如均值、比例、方差等)所形成的分布;随机变量是样本统
计量;结果来自容量相同的所有可能样本
2、 样本均值的抽样分布【样本均值的均值(数学期望)等于总体均值;样本均值的方差等
于总体方差的1/n】(即总体元素个数N—总体的所有个体,样本容量n—每一次取样的数量,重复抽样,得到容量为n的样本的所有可能取值—所有的Nn种可能都出现为止。) 例子:设一个总体,含有4个元素,即总体单位数N=4。4个个体分别为X1=1,X2=2,X3=3,X4=4。总体的均值、方差及分布如下。现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有16个样本。所有样本的结果如下表,计算出各样本的均值,并给出样本均值的抽样分布。
3、 样本均值的抽样分布(数学期望与方差)
样本均值的数学期望=μ 样本均值的方差:重复抽样=方差/n;不重复抽样...................
4、 样本均值的抽样分布与中心极限定理:当总体服从整体分布N~(μ,方差)时,来自
该总体的所有容量为n的样本的均值也服从正态分布,均值的数学期望为μ,方差为方差/n,即X~N(μ,方差/n)
5、 中心极限定理:设从均值为μ,方差为 的一个任意总体中抽取容量为n充分大时,样本均值的抽样分布近似服从均值为μ、方差为 /n的正态分布。
6、 总体分布:正态分布—正态分布
非正态分布—大样本:正态分布
小样本:非正态分布
五、 样本方差的抽样分布
1、 设总体服从正态分布N~(μ,方差),X1,X2,...,Xn为来自该正态总体的样本,则样
本方差S2的分布为:........................................将X2(n-1)称为自由度为(n-1)的卡方分布。(卡方(X2)分布即选择容量为n的简单随机样本,计算样本方差S2,计算卡方值X2,计算出所有的X2值。)
六、 样本比例的抽样分布
1、 比例:总体(或样本)中具有某种属性的单位与全部单位总数之比。
总体比例可表示为:π=N0/N 或 1-π=N1/N
样本比例可表示为:p=n0/n 或 1-p=n1/n
2、 样本比例的抽样分布:在重复选取容量为n的样本时,由样本比例的所有可能取值形成
的相对频数分布;当样本容量很大时,样本比例的抽样分布可用正态分布近似
3、 样本比例的抽样分布:数学期望E(p)=π= N0/N
方差:重复抽样:π(1-π)/n;不重复抽样:[π(1-π)/n]*[N-n/N-1]
七、 样本统计量的抽样分布(两个总体参数推断时)
1、 两个样本均值之差的抽样分布:两个总体都抽取简单随机样本容量n,计算每一对样本,
所有可能样本的抽样分布
2、 两个样本比例之差的抽样分布
3、 两个样本方差比的抽样分布
第二节 参数估计基本方法
参数估计的方法:点估计;区间估计
基本概念:估计量:用来估计总体参数的统计量的具体数值,称~
估计值:用来估计总体参数时计算出来的估计量的具体数值,称~
参数的点估计:用样本估计量的值直接作为总体参数的估计值,称~
参数的区间估计值:在点估计的基础上,给出总体参数估计的一个范围,称~
一、 点估计
1、 点估计:从总体中抽取一个样本,根据该样本的观察值对总体的未知参数作出一个数值
点的估计;例如:用样本均值作为总体未知均值的估计值就是一个点估计。
例子:对某企业的产品进行抽样检验,设抽出100件产品,其中不合格产品5件,试估计该企业产品的合格率是多少?
2、 估计量:用于估计总体某一参数的随机变量;如样本均值、样本比例、样本中位数等
3、 估计量的优良性准则:
一致性:随着样本容量的增加,样本均值与总体均值之间的差异缩小
无偏性:抽样分布的均值等于总体均值
有效性:如果与其他任何无偏估计量相比,样本均值更接近总体均值,我们就称样本均值是个更有效的估计量
四、 区间估计
1、 区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计
量加减抽样误差而得到的;根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。(置信区间是统计量的取值范围;置信水平是概率)
2、 置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数
所占的比率,称为~。a是总体参数未在区间内的比例,置信水平是(1-a)%
3、 置信区间:由样本统计量所构造的总体参数的估计区间,称~,其中区间最小值称置信
下限,最大值称为置信上限。(用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值。)
样本均值落在抽样分布的置信区间等于抽样分布的均值落在样本均值的误差范围之中。若样本区间包含了总体均值,则样本均值落在抽样分布的置信区间。
4、 风险值a 置信水平1-a 边际误差△x 误差范围△x 可靠性系数Za/2 临界值Za/2
估计误差△x:Za/2(δ/更号n) 公式:μx +- Za/2(δ/更号n)=置信上(下)限
第三节 总体均值和总体比例的区间估计
一、 总体均值的区间估计(大样本)
1、 假定条件:总体服从正态分布,且方差δ2未知;如果不是正态分布,可由正态分布来
近似;
2、 使用正态分布统计量z=x-—μ/(δ/更号n)~N(0,1);
3、 总体均值μ落在1-a置信水平下的置信区间为
x- +- Za/2(δ/更号n)或x- +- Za/2(s/更号n)(δ未知)
[此处δ为总体标准差,δ未知时以样本标准差s代替。]
4、 例题:一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门
经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%
5、 例题:一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄数
据如下表。试建立投保人年龄90%的置信区间
二、 总体均值的区间估计(小样本)
1、 假定条件:总体服从正态分布,且方差δ2未知;小样本(n《30);
2、 使用t分布统计量t= x-—μ/(s/更号n)~t(n-1)自由度为n-1的t分布
3、 总体均值μ在1-a置信水平下的置信区间为
x- +-ta/2(s/更号n)
4、 t分布:是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定
的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布。
5、 例题:已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使
用寿命如下。建立该批灯泡平均使用寿命95%的置信区间
三、 总体比例的区间估计
1、 假定条件:总体服从二项分布;可以由正态分布来近似
2、 使用正态分布统计量z=p-π/更号[p(1-p)]/n~N(0,1)
3、 总体比例π在1-a置信水平下的置信区间为
p+- Za/2 更号[π(1-π)]/n或p+- Za/2 更号[p(1-p)]/n(π未知时)
4、 例题:某城市想要估计下岗职工中女性所占的比例,随机抽取了100名下岗职工,其中
65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间
四、 总体方差的区间估计
1、 假设总体服从正态分布
2、 总体方差δ2的点估计量为S2,且[(n-1)s2]/ δ2 ~X2(n-1)自由度为n-1的卡方分布
3、 总体方差在1-a置信水平下的置信区间为
[(n-1)s2]/ X2 a/2 小于等于δ2 小于等于[(n-1)s2]/ X2 1-a/2
置信上限 置信下限
4、 例题:一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了
25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种产品平均重量方差的置信区间
五、 估计总体均值时样本容量的确定
1、 根据中心极限定理当n越大,样本的抽样分布越接近总体的真值。
2、 如果确定了置信区间,就可以确定估计误差(边际误差);如果确定了置信水平,就可
以确定Zα/2;如果确定了估计误差和置信水平,再知道总体标准差σ,就可以求一定误差范围内和一定置信水平下所需要的样本容量n。
3、 估计总体均值时样本容量n为
n=( Zα/2 )2δ2/E2 其中E= Zα/2 δ/更号n
4、 例题:拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估
计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本容量?
六、 估计总体比例时样本容量的确定
1、 根据比例区间估计公式可得样本容量n为
n=[(Za/2)2 *π(1-π)]/E2 其中:E= Zα/2 *更号{[π(1-π)]/n}
2、 根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%
的置信区间时,应抽取多少个产品作为样本?
七、 估计两个总体均值之差时样本容量的确定
八、 估计两个总体比例之差时样本容量的确定
第四节 正态总体方差的区间估计
第九章 相关与回归分析
第一节 变量关系的度量
一、 变量间的关系
1、 函数关系:是一一对应的确定关系;设有两个变量x和y,变量y随变量x一起变化,
并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量;各观测点落在一条线上。
2、 相关关系:变量间关系不能用函数关系精确表达;一个变量的取值不能由另一个变量唯
一确定;当变量x取某个值时,变量y的取值可能有几个;各观测点分布在直线周围。
3、 相关关系类型:线性相关(正相关—负相关)、非线性相关、完全相关(正相关—负相
关)、不相关
4、 相关关系的描述与测度(散点图)
5、 相关关系的描述与测度(相关系数)
相关系数:对变量之间关系密切程度的度量
简单相关系数:对两个变量之间线性相关程度的度量
总体相关系数(p):若相关系数是根据总体全部数据计算的
样本相关系数(r):若是根据样本数据计算的,则称~
r的取值范围是[-1,1];丨r丨=1,为完全相关,r=0,不存在线性相关关系;r大于等于-1小于0,为负相关,r大于0小于等于1,为正相关;丨r丨越趋于1表示关系越密切,越趋于0表示关系越不密切。
6、 相关系数的显著性检验(r的抽样分布)
(1) r的抽样分布随总体相关系数和样本容量的大小而变化(当样本数据来自正态总
体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数p很
小或接近0时,趋于正态分布的趋势非常明显。而当p远离0时,除非n非常
大,否则r的抽样分布呈现一定的偏态。)
(2) 当p为较大的正值时,r呈现左偏分布;当p为较小的负值时,r呈现右偏分布。
只有当p接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机
变量。
7、 相关系数的显著性检验(检验的步骤)
(1) 检验两个变量之间是否存在线性相关关系;
(2) 等价于对回归系数β1的检验;
(3) 采用t检验;
(4) 检验的步骤为:
提出假设:H0:p=0;H1:p不等于0
计算检验的统计量:t=丨r丨更号[(n-2)/1-r2 ]~t(n-2)
确定显著性水平a,并作出决策:
若丨t丨》ta/2,拒绝H0;若丨t丨《ta/2,不能拒绝H0
(5) 例题:对不良贷款与贷款余额之间的相关系数进行显著性检验(a=0.05)
第二节 一元线性回归
回归分析:
从一组样本数据出发,确定变量之间的数学关系式;对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。
(回归与相关分析的区别:相关分析中,变量x变量y处于平等的地位,主要描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。)
回归模型的类型:
一元回归(线性回归、非线性回归)、多元回归(线性回归、非线性回归)
一、 一元线性回归模型
1、 一元线性回归:涉及一个自变量的回归;因变量y与自变量x之间为线性关系(被预测
或被解释的变量成为因变量y;用来预测或用来解释因变量的一个或多个变量称为自变量x)
2、 回归模型:描述因变量y如何依赖于自变量x和误差项 的方程称为~;主要用于预测
和估计。
3、 一元线性回归模型可表示为:y=β0+β1 x+误差项
(1) 解释:y是x的线性函数加上误差项;线性部分反映了由于x的变化而引起的y
的变化;误差项 是随机变量(反映了除x和y之间的线性关系之外的随机因
素对y的影响)
(2) 基本假定:误差项 是一个期望值为0的随机变量,即E( )=0。对于一个
给定的x值,y的期望值为E(y)=β0+β1 x;对于所有的x值,误差项 的方
差 都相同;误差项 是一个服从正态分布的随机变量,且相互独立。即误差
项 ~N(0, )。(独立性意味着对于一个特定的x值,它所对应的误差项 与
其他x值所对应的的 不相关;对于一个特定的x值,它所对应的y值与其他x
所对应的y值也不相关)
4、 估计的回归方程:总体回归参数β0和β1是未知的,必须利用样本数据去估计;用样本
∧∧统计量β0 和β1 代替回归方程中的未知参数β0和β1 ,就得到了估计的回归方程。
∧∧∧一元线性回归中估计的回归方程为:y =β0 +β1 x
一、 参数的最小二乘估计
∧1、 最小二乘估计:使因变量的观察值与估计值之间的离差平方和,达到最小来求得β0 和
∧β1 的方法。用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。
二、 回归直线的拟合优度
1、 变差:因变量y的取值是不同的,y取值的这种波动称为~。
对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差y-y-来表示
2、 离差平方和的分解:
公式:SST=SSR+SSE
① 总平方和SST:反映因变量的n个观察值与其均值的总离差。
② 回归平方和SSR:反映自变量x的变化对因变量y取值变化的影响,或者说,是由
于x与y之间的线性关系引起的y的取值变化。
③ 残差平方和SSE:反映除x以外的其他因素对y取值的影响。
3、 判定系数r2 :回归平方和SSR占总离差平方和SST的比例;反映回归直线的拟合程度;
取值范围在[0,1]之间;R2 越趋向于1,说明回归方程拟合的越好,越趋向于0,说明回归方程拟合的越差;判定系数等于相关系数的平方,即R2=r2
4、 估计标准误差:实际观察值与回归估计值离差平方和的均方根;反映实际观察值在回归
直线周围的分散状况;对误差项 的标准差 的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量;反映用估计的回归方程预测y时预测误差的大小计算公式为:
三、 显著性检验
1、 线性关系的检验:检验自变量与因变量之间的线性关系是否显著;将回归均方MSR(回
归平方和SSR除以相应的自由度—即自变量的个数p)同残差均方MSE(残差平方和SSE除以相应的自由度—n-p-1)加以比较,应用F检验来分析二者之间的差别是否显著。
2、 线性关系的检验步骤:
提出假设:H0:β1=0,线性关系不显著
计算检验统计量F=SSR/1÷SSE/n-2=MSR/MSE~F(1,n-2)
确定显著性水平a,并根据分子自由度1和分母自由度n-2找出临界值Fa
作出决策:若F》Fa,拒绝H0;若F《Fa,不能拒绝H0
3、 回归系数的检验:检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量
y的影响是否显著;在一元线性回归中,等价于线性关系的显著性检验;理论基础是回
∧∧归系数β1的抽样分布(β1 是根据最小二乘法求出的样本统计量,它有自己的分布)。
4、 回归系数的检验步骤:
提出假设:H0:β1=0,没有线性关系;H1:β1不等于0,有线性关系
∧计算检验的统计量t=β1 /Sβ∧1 ~t(n-2)
确定显著性水平a,并进行决策:丨t丨》ta/2,拒绝H0;丨t丨《ta/2,不能拒绝H0
第三节 利用回归方程进行估计和预测
1、 根据自变量x的取值估计或预测因变量y的取值
2、 估计或预测的类型:点估计:y的平均值的点估计、y的个别值的点估计
区间估计:y的平均值的置信区间估计、y的个别值的预测区间估计
一、 点估计
∧1、 对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计值y0
2、 点估计值有 :y的平均值的点估计、y的个别值的点估计
3、 在点估计条件下,平均值的点估计和个别值的点估计是一样的,但在区间估计中则不同。
4、 y的平均值的点估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变
量y的平均值的一个估计值E(y0),就是平均值的点估计。
5、 y的个别值的点估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变
∧量y的一个个别值的估计值y0 ,就是个别值的点估计。
一、 区间估计
1、 点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估
计。对于自变量x的一个给定值x0 ,根据回归方程得到因变量y的一个估计区间。
2、 区间估计有两种类型:置信区间估计、预测区间估计
3、 置信区间估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的估计区间,这一估计区间称为~。
E(y0)在1-a置信水平下的置信区间为................................
4、 预测区间估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y 的一个个别值的估计区间,这一区间称为预测区间。
y0在1-a置信水平下的预测区间为........................................................................
5、 影响区间宽度的因素:
置信水平(1-a):区间宽度随置信水平的增大而增大
数据的离散程度s:区间宽度随离散程度的增大而增大
样本容量:区间宽度随样本容量的增大而减小
用于预测的xp与x-的差异程度:区间宽度随xp与x-的差异程度的增大而增大
第四节 残差分析
一、 用残差证实模型的假定
∧1、 残差:因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示ei=yi-yi ;
反映了用估计的回归方程去预测而引起的误差;确定有关误差项 的假定是否成立。
2、 残差图:表示残差的图形[关于x 的残差图、标准化残差图];用于判断误差?的假定是
否成立。
3、 标准化残差:残差除以它的标准差后得到的数值。计算公式为:..............................
4、 标准化残差图:用以直观地判断误差项服从正态分布这一假定是否成立。若假定成立,
标准化残差的分布也应服从正态分布;在标准化残差图中,大约有95%的标准化残差在-2到+2之间。
5、 用残差证实模型的假定:
(1) 一元线性回归模型(基本假定):
① 误差项 ?是一个期望值为0的随机变量,即E(?)=0。对于一个给定的x
值,y的期望值为E(y)=β0+β1x 。对于所有的x值,?的方差 都相同。
② 误差项?是一个服从正态分布的随机变量,且相互独立。即?~N(0,方差)
独立性意味着对于一个特定的x值,它所对应的?与其他x值所对应的?不
相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相
关。
一、 用残差检测异常值和有影响的观测
1、 异常值(概念):如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异
常点。(如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归的效果;如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型;如果完全是由于随机因素而造成的异常值,则应该保留该数据。)在处理异常值时,若一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔除。
2、 异常值(识别):异常值也可以通过标准化残差来识别;如果某一个观测值所对应的标
准化残差较大,就可以识别为异常值;一般情况下,当一个观测值所对应的标准化残差小于-2或大于+2时,就可以将其视为异常值。
3、 有影响的观测值:如果某一个或某一些观测值对回归的结果有强烈的影响,那么该观测
值或这些观测值就是有影响的观测值。
一个有影响的观测值可能是:一个异常值,即有一个值远远偏离了散点图中的趋势线;对应一个远离自变量平均值的观测值;或者是这二者组合而形成的观测值。
4、 杠杠率点:如果自变量存在一个极端值,该观测值则成为高杠杆率点。一个有高杠杆率
的观测值未必是一个有影响的观测值,它可能对回归直线的斜率没有什么影响
第五节 多元线性回归模型
一、 多元回归模型与回归方程
1、 多元回归模型:一个因变量与两个及两个以上自变量的回归;描述因变量y如何依赖于
自变量x1,x2,...和误差项?的方程,称~。
涉及p在自变量的多元回归模型可表示为:y=β0+β1x1+β2x2+...+βpxp+?
[β0,β1,β2,...,βp是参数;?是被称为误差项的随机变量;y是x1,x2,...,xp的线性函数加上误差项?;?包含在y里面但不能被p个自变量的线性关系所解释的变异性。]
2、 多样回归模型(基本假定):
① 误差项?是一个期望值为0的随机变量,即E(?)=0。
② 对于自变量x1,x2,...,xp的所有值,?的方差 都相同。
③ 误差项?是一个服从正态分布的随机变量,即?~N(0,方差 ),且相互独立。
3、 多元回归方程:描述因变量y的平均值或期望值如何依赖于自变量x1,x2,...,xp的方
程。多元线性回归方程的形式为:E(y)=β0+β1x1+β2x2+...+βpxp
二、 估计的多元回归方程:
∧∧∧∧1、 用样本统计量β0,β1,β2,...,βp 估计回归方程中的参数β0,β1,β2,...,
βp 时得到的方程。由最小二乘法求得
∧∧∧∧∧一般形式为y=β0,β1 x1,β2 x2,...,βp xp
∧∧∧∧∧[β0,β1,β2,...,βp 是β0,β1,β2,...,βp 的估计值;y 是y的估计值]
三、 参数的最小二乘估计
∧1、 参数的最小二乘法:使因变量的观察值与估计值之间的离差平方和达到最小来求得β
∧∧∧0,β1,β2,...,βp 。
2、 求解各回归参数的标准方程如下
第六节 回归方程的拟合优度
一、 多重判定系数
1、 多重判定系数:回归平方和占总平放和的比例,计算公式为R2=SSR/SST=1-SSE/SST。
因变量取值的变差中,能被估计的多元回归方程所解释的比例。
2、 估计标准误差Sy:对误差项?的标准差 的一个估计值;衡量多元回归方程的拟合优度;
计算公式为:Sy=更号SSE/n-p-1=更号MSE
第七节 显著性检验
一、 线性关系检验:
1、 线性关系检验:检验因变量与所有自变量之间的线性关系是否显著;检验方法是将回
归离差平方和SSR同剩余离差平方和SSE加以比较,应用F检验来分析二者之间的差别是否显著[显著,则因变量与自变量之间存在线性关系;如果不显著,...不存在线性关系。
2、 提出假设:H0::β1=β2 =...βp =0 ,线性关系不显著
H1:β1,β2,...,βp 至少有一个不等于0
计算检验统计量F=[SSR/p]/[SSE/n-p-1]~F(p/,n-p-1)
确定显著性水平a和分子自由度p、分母自由度n-p-1找出临界值Fa
做出决策:若F》Fa,拒绝H0
二、 回归系数检验和推断
1、 回归系数的检验:线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验。
应用t检验统计量
2、 提出假设:H0:: βi =0 ,自变量xi与因变量y没有线性关系
H1:βi 不等于0,自变量xi与因变量y有线性关系
∧计算检验统计量t=βi /Sβ∧i ~t(n-p-1)
确定显著性水平a,并进行决策:
若丨t丨》ta/2,拒绝H0 ;丨t丨《ta/2 ,不能拒绝H0
3、 回归系数的推断(置信区间):
∧回归系数在1-a置信水平下的置信区间为βi +- ta/2 (n-p-1)Sβ∧i
第八节 多重共线性
一、 多重共线性及其所产生的问题
1、 多重共线性:回归模型中两个或两个以上的自变量彼此相关;多重共线性可能会使回归
的结果造成混乱,甚至会把分析引入歧途。
2、 多重共线性的识别:最简单的方法就是计算模型中各对自变量之间的相关系数,并对各
相关系数进行显著性检验;若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性。
如果出现下列情况,暗示存在多重共线性:
模型中各对自变量之间显著相关;当模型的线性关系检验F检验显著时,几乎所用回归系数的t检验却不显著;回归系数的正负号与预期的相反。
3、 多重共线性问题的处理:将一个或多个相关的自变量从模型中剔除,使保留的自变量尽
可能不相关。
统计学笔记
第一章 绪论
第一节 统计与统计学
(统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。)
第二节 统计学的分科
第三节 统计学与其他学科的关系
第四节 统计学的产生与发展
第二章 统计数据的搜集
第一节 数据的计量与类型
一、 数据的计量尺度
1、 定类尺度
计量层次最低;对事物进行平行的分类(无大小、好坏之分);数据表现为“类别”;使用时必须符合类别穷尽和互斥的要求(如男、女性别)。
2、 定序尺度
在对事物分类的同时给出各类别的顺序;比定类尺度精确;数据表现为“类别”,但有序;未测量出类别之间的准确差值(如成绩的优、良、差,不如100分制精确)。
3、 定距尺度
对事物的准确测度;比定序尺度精确;数据表现为“数值”(如成绩的100分制的分数、温度差别、货币差别等);没有绝对零点。
4、 定比尺度
对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点。
二、 数据的类型和分析方法
非参数方法←品质数据:定类数据、定序数据
参数方法←数量数据:定距数据、定比数据
三、 统计指标及其类型
第二节 统计数据的来源(直接来源、间接来源)
1、 统计调查方式:普查(一次性全面调查)、抽样调查(随机抽取)、统计报表、重点调查
(选择少数重点进行调查)和典型调查(选择少数典型进行调查)
2、 数据的搜集方法:
询问调查:访问调查、邮寄调查、电话调查、电脑辅助、座谈会、个别探访
观察实验:观察法、实验法
第三节 调查方案设计
1、 调查方案的内容:调查目的、调查对象和调查单位、调查项目和调查表、其他
第四节 统计数据的质量
一、 统计数据的误差
1、 误差来源:登记性误差(人为造成,可以消除)、代表性误差(用样本数据推断产
生,无法消除)
二、 统计数据的质量要求:精度、准确性、关联性、及时性、一致性、最低成本
第三章 统计数据的整理与显示
第一节 数据的预处理
1、 数据的审核:审核的内容:完整性审核;准确性审核;适用性审核;时效性审核
2、 数据的筛选:筛选的内容:将某些不符合要求的数据或有明显错误的数据予以剔除;将
符合某种特定条件的数据筛选出来,不符合的予以剔出。
例子:表3-1是8名学生4门课程的考试成绩数据(单位:分)。试找出统计学成绩等于75分的学生,英语成绩最高的前三名学生,4门课程成绩都高于70分的学生。
3、 数据的排序:按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的
线索;定类、定距、定比数据的排序
第二节 品质数据的整理与显示
一、 定类数据的整理与显示
1、 基本问题:对定类数据和定序数据主要是做分类整理;对定距数据和定比数据则主要是
做分组整理
2、 基本过程:列出各类别;计算各类别的频数;制作频数分布表;用图形显示数据
3、 可计算的指标:频数;比例;百分比;比率
4、 例子:一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进
行调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。
二、 定类数据的图示
1、 条形图:是用宽度相同的条形的高度或长短来表示数据变动的图形。在表示定类数据的
分布时,是用条形图的高度来表示各类别数据的频数或频率。
2、 圆形图:也称饼图,是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示
总体中各组成部分所占的比例。
三、 定序数据的整理与显示
1、 可计算的指标:累计频数(将各类别的频数逐级累加);累计频率(将各类别的频率/百
分比逐级累加)
2、 实例:非常不满意、不满意、一般、满意、非常满意
四、 定序数据的图示
1、 累计频数分布图
2、 环形图:中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。
第三节 数值型数据的整理与显示
一、 数据的分组
1、 基本概念:
数据分组:根据统计研究的需要,将原始数据按某种标准划分成不同的组别。
分组数据:分组后的数据。
组距:一个组的上限值与下限值之差。
2、 频数分布表的编制步骤:确定组数、确定组距、计算频数、编制表格
(例子:)某生产车间50名工人日加工零件数如表格。试采用单变量值对数据进行分组。
3、 分组方法:单变量值分组;组距分组(等距分组;异距分组)
(1) 单变量值分组:将一个变量值作为一组;适合于离散变量或变量值较少的情况。
例如:以生产零件个数为变量。
(2) 组距分组:将变量值的一个区间作为一组;适合于连续变量或变量值较多的情
况;可采取等距分组或不等距分组。例如:每五个零件为一个区间(变量)。分
别有上下组限重叠、上下组限间断、使用开口组
一、 数据的图示
1、 分组数据的图示
(1) 直方图:用矩形的面积来表示各组的频数分布的图形;直方图下的总面积等于1。
(2) 直方图与条形图的区别:条形图是用条形的长度表示各类别频数的多少,其宽
度(表示类别)则是固定的,是分开排列;直方图是用面积表示各组频数的多
少,矩形的高度表示每一组的频数,宽度则表示各组的组距,是连续排列。
(3) 折线图:在直方图的基础上,把直方图顶部的中点用直线连接起来,再把原来
的直方图抹掉。
2、 未分组数据的图示
(1) 茎叶图:以该组数据的高位数值作数茎,低位数值作树叶。
(2) 箱线图:由一组数据的5个特征值(最大值、最小值、中位数、上四分位数、
下四分位数)绘制而成,它由一个箱子和两条线段组成。
3、 时间序列数据—线图:时间一般绘在横轴,指标数据绘在纵轴。
4、 多变量数据—雷达图:是显示多个变量的常用图示方法
第四节 统计表
一、 统计表的构成
二、 统计表的设计
第四章 数据分布特征的测度
数据分布的特征和测度:集中趋势:众数、中位数、均值
离散程度:异众比率、四分位差、方差和标准差、离散系数、标准分数 分布的形状:偏态、峰度
第一节 集中趋势的测度
集中趋势:一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值或中心值。
一、 定类数据:众数(一组数据中出现次数最多的变量值,称~;可能没有众数或有几
个众数;主要用于定类数据,也可用于定序数据和数值型数据)
1、 未分组数据的众数(定类数据的算例、定序数据的算例):例如 M0 =商品广告、不满意
2、 分组数据的众数:用于数值型分组数据;相邻两组的频数相等时,众数组的组中值即为
众数,不相等时,众数采用下列近似公式计算: (L众数组的下限值;f众数组的频数;f-1 众数前一组的频数;f+1 众数后一组的频数;i众数的组距)
二、 定序数据:中位数和分位数(一组数据排序后,处于中间位置上的变量值,称中位
数;一组数据排序后处于25%和75%位置上的值,称四分位数。这两个都主要用于定序数据,也可用数值型数据,但不能用于定类数据。)
1、 中位数位置的确定:未分组数据:位置=N+1/2 组距分组数据:位置=N/2
2、 未分组数据的中位数的值计算公式:Me=X(N+1/2)当N为奇数时;1/2(XN/2+XN/2+1)当
N为偶数时
3、 分组数据的中位数的值的计算公式(用于数值型分组数据):
(L中位数所在组的下限;N/2中位数的位置;Sm-1
中位数所在组前一组距的累积频数;fm中位数所在组的频数;i中位数所在组的组距)
4、 四分位数位置的确定:未分组数据:位置=下四分位数N+1/4,上四分位数3(N+1)/4
组距分组数据=下四分位数N/4,上四分位数3N/4
5、 数值型分组数据的四分位数计算公式:
下四分位数QL=LL+[(N/4-SL)/fL ]*iL
上四分位数(LUQ所在组的下限值;N数据个数;SUQ所在组以前各组的累积频数;fUQ所在组的频数;iUQ所在组的组距)
三、 定距和定比数据:均值(用于数值型数据,不能用于定类数据和定序数据)
1、 单变量或未分组数据的简单均值公式:
2、 加权均值:
3、 调和平均数(均值的另一种表现形式;用于定比数据,不能用于定类数据和定序数据)
4、 几何平均数(N个变量值乘积的N次方根;适用于特殊的数据;主要用于计算平均发展
速度)
四、 众数、中位数和均值的比较
1、 数据类型和所使用的集中趋势测度值
定类数据:众数
定序数据:中位数、四分位数、众数
定距数据:均值、众数、中位数、四分位数
定比数据:均值、调和平均数、几何平均数、中位数、四分位数、众数
第二节 离散程度的测度
离中趋势:反映的是各变量值远离其中心值的程度,其各测度值就是对数据离散程度的描述。
一、 定类数据:异众比率(非众数组的频数占总频数的比率;用于衡量众数的代表程度)
1、 计算公式:Vr=1-(Fm众数组频数/变量值总频数)
二、 定序数据:四分位差(上四分位数与下四分位数之差;反映了中间50%数据的离
散程度;用于衡量中位数的代表程度)
1、 计算公式:QD=QU-QL
三、 定距和定比数据:方差及标准差(各变量值与其均值离差平方和的平均数,为方差;
方差的平方根,为标准差)
1、 极差:一组数据的最大值与最小值之差;离散程度的最简单测度值;未考虑数据的分布。
计算公式:未分组数据=最大值-最小值,组距分组数据=最高值上限-最低组下限
2、 平均差:各变量值与其均值离差绝对值的平均数;能全面反映一组数据的离散程度。
计算公式:未分组数据:
组距分组数据:
3、 方差和标准差:反映了各变量值与均值的平均差异;根据总体数据计算的,称为总体方
差或标准差;根据样本数据计算的,称为样本方差或标准差。
计算公式:
方差:未分组数据:
组距分组数据:
标准差:未分组数据:
组距分组数据:
样本方差:未分组数据:
组距分组数据:
样本标准差:未分组数据:
组距分组数据:
4、 标准化值(标准分数):给出某一个值在一组数据中的相对位置;可用于判断一组数据
是否有离群点;用于对变量的标准化处理。Z分数没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差/方差为1。 计算公式为:
四、 相对离散程度:离散系数(一组数据的标准差与其相应的均值之比;测度了数据的
相对离散程度;用于对不同组别数据离散程度的比较)
1、 计算公式:
第三节 偏态与峰度的测度
一、 偏态及其测度
1、 偏态:对数据分布偏斜程度的测度;偏态系数等于0为对称分布,大于0为右偏分布,
小于0为左偏分布。计算公式:
2、 峰度:数据分布扁平程度的测度;峰度系数等于3扁平程度适中;偏态系数小于3为扁
平分布;偏态系数大于3为尖峰分布。计算公式:
第五章
第一节 随机事件(试验、事件和样本空间):
1、 试验:在相同条件下,对事物或现象所进行的观察;可以在相同的条件下重复进行;每
次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的;在试验结束之前,不能确定该次试验的确切结果。
2、 事件:随机试验的每一个可能结果(任何样本点集合)。
3、 样本空间:一个试验中所有基本事件的集合。
第二节 事件的概率
1、 事件A的概率=P(A):是对事件A在试验中出现的可能性大小的一种度量;表示事件A
出现可能性大小的数值
2、 概率的古典定义:如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可
能性相同,则事件A发生的概率为该事件所包含的基本个数m与样本空间中所包含的基本事件个数n的比值,记为P(A)=m/n【区别特点:有限结果;等可能性】
3、 概率的统计定义:在相同条件下进行n次随机试验,事件A出现m次,则比值m/n称
为事件A发生的频率,随着n的增大,该频率围绕某一常数p上下摆动,且波动的幅度逐渐减小,趋向于稳定,这个频率的稳定值即为事件A的概率,记为P(A)=m/n=p
第三节 随机变量的概念
1、 随机变量的概念:一次试验的结果的数值型描述;一般用X、Y、Z来表示;根据取值情
况的不同分为离散型随机变量和连续型随机变量。
2、 离散型随机变量:随机变量X取有限个值或所以取值都可以逐个列举出来X1,X2,...;
以确定的概率取这些不同的值。例:抽查100个产品,取到次品的个数,可能的取值有0,1,2,...,100
3、 连续型随机变量:随机变量X取无限个值;所有可能取值不可以逐个列举出来,而是取
数轴上某一区间内的任意点。例:测量一个产品的长度,测量误差(cm),可能的取值是X大于等于0
第四节 离散型随机变量的概率分布
1、 离散型随机变量的概率分布:列出离散型随机变量X的所有可能取值;列出随机变量取
这些值的概率;离散型随机变量的概率函数:P(X=xi)=pi
2、 离散型随机变量的概率分布(0—1)分布:一个离散型随机变量X只取两个可能的值;
列出随机变量取这两个值的概率。例如:合格品用1表示,不合格用0表示
3、 离散型随机变量的概率分布(均匀分布):一个离散型随机变量取各个值的概率相同;
列出随机变量取值及其取值的概率。例如:投掷一枚骰子,出现的点数及其出现各点的概率
第五节 离散型随机变量的数学期望和方差【数学期望就是均值】
1、 离散型随机变量的数学期望:在离散型随机变量X的一切可能取值的完备组中,各可能
取值xi与其取相对应的概率pi乘积之和;描述离散型随机变量取值的集中程度E(X);计算公式为:
2、 随机变量的方差:随机变量X的每一个取值与期望值的离差平方和的数学期望,记为
D(X);描述离散型随机变量取值的分散程度;计算公式为:
第三节 几种常见的离散型概率分布
二项分布、泊松分布、超几何分布
第六节 连续型随机变量的概率分布
均匀分布、正态分布、指数分布、其他分布
1、 连续型随机变量的概率分布:连续型随机变量可以取某一区间或整个实数轴上的任意一
个值;它取任何一个特定的值的概率都等于0;不能列出每一个值及其相应的概率;通常研究取某一区间值的概率;用数学函数的形式和分布函数的形式来描述
2、 概率密度函数:设X为一连续型随机变量,x为任意实数,X的概率密度函数记为f(x),
f(x)不是概率,是x在密度函数上的取值—频数。
3、 分布函数:F(x),分布函数是X的某个区间对密度函数的积分
4、 【密度函数曲线下的面积等于1;分布函数是曲线下小于X0的面积】
二、 均匀分布
1、 若随机变量X的概率密度函数为:f(x)=1/b-a X大于等于a小于等于b;0 其他。称X
在区间[a,b]上均匀分布。
三、 正态分布
1、 一般的正态分布取决于均值μ和标准差 ;曲线f(x)相对于均值 对称,尾端向两个方
向无限延伸,且理论上永远不会与横轴相交。
2、 若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表
任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布:Z=X-μ/标准差 ~N(0,1),即标准正态分布的均值为0,标准差为1。
第七节 连续型随机变量的期望和方差
1、 连续型随机变量的数学期望为:E(X)=........................................=μ
2、 连续型随机变量的方差为:D(X)=.................................................=
第六章 抽样与参数估计
统计方法:描述统计
推断统计:参数估计、假设检验
第一节 抽样与抽样分布
三、 总体、个体和样本
1、 概念要点:总体:调查研究的事物或现象的全体;个体:组成总体的每个元素;样本:
从总体中所抽取的部分个体;样本容量:样本中所含个体的数量。
2、 抽样推断:从所研究的总体全部元素中抽取一部分元素进行调查,并根据样本数据所提
供的信息来推断总体的数量特征。
简单随机抽样:从含有N个元素的总体中,抽取n个元素作为样本,使得每一个容量为n的样本都有相同的机会被抽中,这样的抽样方式称为~
重复抽样:从总体中抽取一个元素后,把这个元素放回总体中再抽取第二个元素,直至抽取n个元素为止。这样的抽样方法称为~
不重复抽样:一个元素后被抽中后不再放回总体,然后再从剩下的元素中抽取第二个元素,直至抽取n个元素为止。这样的抽样方法称~
三、 抽样方法概念要点:
1、 概率抽样:根据已知的概率选取样本
简单随机抽样:完全随机的抽选样本
分层抽样(是类型抽样或分类抽样):总体分成不同的“层”,然后再每一层内进行抽样 整群抽样(就是分区抽样):将一组被调查者作为一个抽样单位
等距抽样(就是系统抽样):在样本框中每隔一定距离抽选一个被调查者
(分层抽样是层间差异大于层内差异;整群抽样是群内差异大于群间差异。所以,事先对总体结构有一定认识时,可以用分层抽样;在总体没有原始资料可利用时,可以用整群抽样。例如:分专业抽样—分层抽样;分班抽样—整群抽样)
2、 非概率抽样:不是完全按随机原则选取样本
非随机抽样:由调查人员自由选取被调查者
判断抽样:通过某些条件过滤来选择被调查者
3、 配额抽样:选择一群特定数目、满足特定条件的被调查者;是由调查人员在配额内主观
判断选定样本。
四、 样本均值的抽样分布
1、 抽样分布:所有样本指标(如均值、比例、方差等)所形成的分布;随机变量是样本统
计量;结果来自容量相同的所有可能样本
2、 样本均值的抽样分布【样本均值的均值(数学期望)等于总体均值;样本均值的方差等
于总体方差的1/n】(即总体元素个数N—总体的所有个体,样本容量n—每一次取样的数量,重复抽样,得到容量为n的样本的所有可能取值—所有的Nn种可能都出现为止。) 例子:设一个总体,含有4个元素,即总体单位数N=4。4个个体分别为X1=1,X2=2,X3=3,X4=4。总体的均值、方差及分布如下。现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有16个样本。所有样本的结果如下表,计算出各样本的均值,并给出样本均值的抽样分布。
3、 样本均值的抽样分布(数学期望与方差)
样本均值的数学期望=μ 样本均值的方差:重复抽样=方差/n;不重复抽样...................
4、 样本均值的抽样分布与中心极限定理:当总体服从整体分布N~(μ,方差)时,来自
该总体的所有容量为n的样本的均值也服从正态分布,均值的数学期望为μ,方差为方差/n,即X~N(μ,方差/n)
5、 中心极限定理:设从均值为μ,方差为 的一个任意总体中抽取容量为n充分大时,样本均值的抽样分布近似服从均值为μ、方差为 /n的正态分布。
6、 总体分布:正态分布—正态分布
非正态分布—大样本:正态分布
小样本:非正态分布
五、 样本方差的抽样分布
1、 设总体服从正态分布N~(μ,方差),X1,X2,...,Xn为来自该正态总体的样本,则样
本方差S2的分布为:........................................将X2(n-1)称为自由度为(n-1)的卡方分布。(卡方(X2)分布即选择容量为n的简单随机样本,计算样本方差S2,计算卡方值X2,计算出所有的X2值。)
六、 样本比例的抽样分布
1、 比例:总体(或样本)中具有某种属性的单位与全部单位总数之比。
总体比例可表示为:π=N0/N 或 1-π=N1/N
样本比例可表示为:p=n0/n 或 1-p=n1/n
2、 样本比例的抽样分布:在重复选取容量为n的样本时,由样本比例的所有可能取值形成
的相对频数分布;当样本容量很大时,样本比例的抽样分布可用正态分布近似
3、 样本比例的抽样分布:数学期望E(p)=π= N0/N
方差:重复抽样:π(1-π)/n;不重复抽样:[π(1-π)/n]*[N-n/N-1]
七、 样本统计量的抽样分布(两个总体参数推断时)
1、 两个样本均值之差的抽样分布:两个总体都抽取简单随机样本容量n,计算每一对样本,
所有可能样本的抽样分布
2、 两个样本比例之差的抽样分布
3、 两个样本方差比的抽样分布
第二节 参数估计基本方法
参数估计的方法:点估计;区间估计
基本概念:估计量:用来估计总体参数的统计量的具体数值,称~
估计值:用来估计总体参数时计算出来的估计量的具体数值,称~
参数的点估计:用样本估计量的值直接作为总体参数的估计值,称~
参数的区间估计值:在点估计的基础上,给出总体参数估计的一个范围,称~
一、 点估计
1、 点估计:从总体中抽取一个样本,根据该样本的观察值对总体的未知参数作出一个数值
点的估计;例如:用样本均值作为总体未知均值的估计值就是一个点估计。
例子:对某企业的产品进行抽样检验,设抽出100件产品,其中不合格产品5件,试估计该企业产品的合格率是多少?
2、 估计量:用于估计总体某一参数的随机变量;如样本均值、样本比例、样本中位数等
3、 估计量的优良性准则:
一致性:随着样本容量的增加,样本均值与总体均值之间的差异缩小
无偏性:抽样分布的均值等于总体均值
有效性:如果与其他任何无偏估计量相比,样本均值更接近总体均值,我们就称样本均值是个更有效的估计量
四、 区间估计
1、 区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计
量加减抽样误差而得到的;根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。(置信区间是统计量的取值范围;置信水平是概率)
2、 置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数
所占的比率,称为~。a是总体参数未在区间内的比例,置信水平是(1-a)%
3、 置信区间:由样本统计量所构造的总体参数的估计区间,称~,其中区间最小值称置信
下限,最大值称为置信上限。(用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值。)
样本均值落在抽样分布的置信区间等于抽样分布的均值落在样本均值的误差范围之中。若样本区间包含了总体均值,则样本均值落在抽样分布的置信区间。
4、 风险值a 置信水平1-a 边际误差△x 误差范围△x 可靠性系数Za/2 临界值Za/2
估计误差△x:Za/2(δ/更号n) 公式:μx +- Za/2(δ/更号n)=置信上(下)限
第三节 总体均值和总体比例的区间估计
一、 总体均值的区间估计(大样本)
1、 假定条件:总体服从正态分布,且方差δ2未知;如果不是正态分布,可由正态分布来
近似;
2、 使用正态分布统计量z=x-—μ/(δ/更号n)~N(0,1);
3、 总体均值μ落在1-a置信水平下的置信区间为
x- +- Za/2(δ/更号n)或x- +- Za/2(s/更号n)(δ未知)
[此处δ为总体标准差,δ未知时以样本标准差s代替。]
4、 例题:一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门
经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%
5、 例题:一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄数
据如下表。试建立投保人年龄90%的置信区间
二、 总体均值的区间估计(小样本)
1、 假定条件:总体服从正态分布,且方差δ2未知;小样本(n《30);
2、 使用t分布统计量t= x-—μ/(s/更号n)~t(n-1)自由度为n-1的t分布
3、 总体均值μ在1-a置信水平下的置信区间为
x- +-ta/2(s/更号n)
4、 t分布:是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定
的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布。
5、 例题:已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使
用寿命如下。建立该批灯泡平均使用寿命95%的置信区间
三、 总体比例的区间估计
1、 假定条件:总体服从二项分布;可以由正态分布来近似
2、 使用正态分布统计量z=p-π/更号[p(1-p)]/n~N(0,1)
3、 总体比例π在1-a置信水平下的置信区间为
p+- Za/2 更号[π(1-π)]/n或p+- Za/2 更号[p(1-p)]/n(π未知时)
4、 例题:某城市想要估计下岗职工中女性所占的比例,随机抽取了100名下岗职工,其中
65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间
四、 总体方差的区间估计
1、 假设总体服从正态分布
2、 总体方差δ2的点估计量为S2,且[(n-1)s2]/ δ2 ~X2(n-1)自由度为n-1的卡方分布
3、 总体方差在1-a置信水平下的置信区间为
[(n-1)s2]/ X2 a/2 小于等于δ2 小于等于[(n-1)s2]/ X2 1-a/2
置信上限 置信下限
4、 例题:一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了
25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种产品平均重量方差的置信区间
五、 估计总体均值时样本容量的确定
1、 根据中心极限定理当n越大,样本的抽样分布越接近总体的真值。
2、 如果确定了置信区间,就可以确定估计误差(边际误差);如果确定了置信水平,就可
以确定Zα/2;如果确定了估计误差和置信水平,再知道总体标准差σ,就可以求一定误差范围内和一定置信水平下所需要的样本容量n。
3、 估计总体均值时样本容量n为
n=( Zα/2 )2δ2/E2 其中E= Zα/2 δ/更号n
4、 例题:拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估
计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本容量?
六、 估计总体比例时样本容量的确定
1、 根据比例区间估计公式可得样本容量n为
n=[(Za/2)2 *π(1-π)]/E2 其中:E= Zα/2 *更号{[π(1-π)]/n}
2、 根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%
的置信区间时,应抽取多少个产品作为样本?
七、 估计两个总体均值之差时样本容量的确定
八、 估计两个总体比例之差时样本容量的确定
第四节 正态总体方差的区间估计
第九章 相关与回归分析
第一节 变量关系的度量
一、 变量间的关系
1、 函数关系:是一一对应的确定关系;设有两个变量x和y,变量y随变量x一起变化,
并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量;各观测点落在一条线上。
2、 相关关系:变量间关系不能用函数关系精确表达;一个变量的取值不能由另一个变量唯
一确定;当变量x取某个值时,变量y的取值可能有几个;各观测点分布在直线周围。
3、 相关关系类型:线性相关(正相关—负相关)、非线性相关、完全相关(正相关—负相
关)、不相关
4、 相关关系的描述与测度(散点图)
5、 相关关系的描述与测度(相关系数)
相关系数:对变量之间关系密切程度的度量
简单相关系数:对两个变量之间线性相关程度的度量
总体相关系数(p):若相关系数是根据总体全部数据计算的
样本相关系数(r):若是根据样本数据计算的,则称~
r的取值范围是[-1,1];丨r丨=1,为完全相关,r=0,不存在线性相关关系;r大于等于-1小于0,为负相关,r大于0小于等于1,为正相关;丨r丨越趋于1表示关系越密切,越趋于0表示关系越不密切。
6、 相关系数的显著性检验(r的抽样分布)
(1) r的抽样分布随总体相关系数和样本容量的大小而变化(当样本数据来自正态总
体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数p很
小或接近0时,趋于正态分布的趋势非常明显。而当p远离0时,除非n非常
大,否则r的抽样分布呈现一定的偏态。)
(2) 当p为较大的正值时,r呈现左偏分布;当p为较小的负值时,r呈现右偏分布。
只有当p接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机
变量。
7、 相关系数的显著性检验(检验的步骤)
(1) 检验两个变量之间是否存在线性相关关系;
(2) 等价于对回归系数β1的检验;
(3) 采用t检验;
(4) 检验的步骤为:
提出假设:H0:p=0;H1:p不等于0
计算检验的统计量:t=丨r丨更号[(n-2)/1-r2 ]~t(n-2)
确定显著性水平a,并作出决策:
若丨t丨》ta/2,拒绝H0;若丨t丨《ta/2,不能拒绝H0
(5) 例题:对不良贷款与贷款余额之间的相关系数进行显著性检验(a=0.05)
第二节 一元线性回归
回归分析:
从一组样本数据出发,确定变量之间的数学关系式;对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。
(回归与相关分析的区别:相关分析中,变量x变量y处于平等的地位,主要描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。)
回归模型的类型:
一元回归(线性回归、非线性回归)、多元回归(线性回归、非线性回归)
一、 一元线性回归模型
1、 一元线性回归:涉及一个自变量的回归;因变量y与自变量x之间为线性关系(被预测
或被解释的变量成为因变量y;用来预测或用来解释因变量的一个或多个变量称为自变量x)
2、 回归模型:描述因变量y如何依赖于自变量x和误差项 的方程称为~;主要用于预测
和估计。
3、 一元线性回归模型可表示为:y=β0+β1 x+误差项
(1) 解释:y是x的线性函数加上误差项;线性部分反映了由于x的变化而引起的y
的变化;误差项 是随机变量(反映了除x和y之间的线性关系之外的随机因
素对y的影响)
(2) 基本假定:误差项 是一个期望值为0的随机变量,即E( )=0。对于一个
给定的x值,y的期望值为E(y)=β0+β1 x;对于所有的x值,误差项 的方
差 都相同;误差项 是一个服从正态分布的随机变量,且相互独立。即误差
项 ~N(0, )。(独立性意味着对于一个特定的x值,它所对应的误差项 与
其他x值所对应的的 不相关;对于一个特定的x值,它所对应的y值与其他x
所对应的y值也不相关)
4、 估计的回归方程:总体回归参数β0和β1是未知的,必须利用样本数据去估计;用样本
∧∧统计量β0 和β1 代替回归方程中的未知参数β0和β1 ,就得到了估计的回归方程。
∧∧∧一元线性回归中估计的回归方程为:y =β0 +β1 x
一、 参数的最小二乘估计
∧1、 最小二乘估计:使因变量的观察值与估计值之间的离差平方和,达到最小来求得β0 和
∧β1 的方法。用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。
二、 回归直线的拟合优度
1、 变差:因变量y的取值是不同的,y取值的这种波动称为~。
对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差y-y-来表示
2、 离差平方和的分解:
公式:SST=SSR+SSE
① 总平方和SST:反映因变量的n个观察值与其均值的总离差。
② 回归平方和SSR:反映自变量x的变化对因变量y取值变化的影响,或者说,是由
于x与y之间的线性关系引起的y的取值变化。
③ 残差平方和SSE:反映除x以外的其他因素对y取值的影响。
3、 判定系数r2 :回归平方和SSR占总离差平方和SST的比例;反映回归直线的拟合程度;
取值范围在[0,1]之间;R2 越趋向于1,说明回归方程拟合的越好,越趋向于0,说明回归方程拟合的越差;判定系数等于相关系数的平方,即R2=r2
4、 估计标准误差:实际观察值与回归估计值离差平方和的均方根;反映实际观察值在回归
直线周围的分散状况;对误差项 的标准差 的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量;反映用估计的回归方程预测y时预测误差的大小计算公式为:
三、 显著性检验
1、 线性关系的检验:检验自变量与因变量之间的线性关系是否显著;将回归均方MSR(回
归平方和SSR除以相应的自由度—即自变量的个数p)同残差均方MSE(残差平方和SSE除以相应的自由度—n-p-1)加以比较,应用F检验来分析二者之间的差别是否显著。
2、 线性关系的检验步骤:
提出假设:H0:β1=0,线性关系不显著
计算检验统计量F=SSR/1÷SSE/n-2=MSR/MSE~F(1,n-2)
确定显著性水平a,并根据分子自由度1和分母自由度n-2找出临界值Fa
作出决策:若F》Fa,拒绝H0;若F《Fa,不能拒绝H0
3、 回归系数的检验:检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量
y的影响是否显著;在一元线性回归中,等价于线性关系的显著性检验;理论基础是回
∧∧归系数β1的抽样分布(β1 是根据最小二乘法求出的样本统计量,它有自己的分布)。
4、 回归系数的检验步骤:
提出假设:H0:β1=0,没有线性关系;H1:β1不等于0,有线性关系
∧计算检验的统计量t=β1 /Sβ∧1 ~t(n-2)
确定显著性水平a,并进行决策:丨t丨》ta/2,拒绝H0;丨t丨《ta/2,不能拒绝H0
第三节 利用回归方程进行估计和预测
1、 根据自变量x的取值估计或预测因变量y的取值
2、 估计或预测的类型:点估计:y的平均值的点估计、y的个别值的点估计
区间估计:y的平均值的置信区间估计、y的个别值的预测区间估计
一、 点估计
∧1、 对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计值y0
2、 点估计值有 :y的平均值的点估计、y的个别值的点估计
3、 在点估计条件下,平均值的点估计和个别值的点估计是一样的,但在区间估计中则不同。
4、 y的平均值的点估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变
量y的平均值的一个估计值E(y0),就是平均值的点估计。
5、 y的个别值的点估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变
∧量y的一个个别值的估计值y0 ,就是个别值的点估计。
一、 区间估计
1、 点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估
计。对于自变量x的一个给定值x0 ,根据回归方程得到因变量y的一个估计区间。
2、 区间估计有两种类型:置信区间估计、预测区间估计
3、 置信区间估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的估计区间,这一估计区间称为~。
E(y0)在1-a置信水平下的置信区间为................................
4、 预测区间估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y 的一个个别值的估计区间,这一区间称为预测区间。
y0在1-a置信水平下的预测区间为........................................................................
5、 影响区间宽度的因素:
置信水平(1-a):区间宽度随置信水平的增大而增大
数据的离散程度s:区间宽度随离散程度的增大而增大
样本容量:区间宽度随样本容量的增大而减小
用于预测的xp与x-的差异程度:区间宽度随xp与x-的差异程度的增大而增大
第四节 残差分析
一、 用残差证实模型的假定
∧1、 残差:因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示ei=yi-yi ;
反映了用估计的回归方程去预测而引起的误差;确定有关误差项 的假定是否成立。
2、 残差图:表示残差的图形[关于x 的残差图、标准化残差图];用于判断误差?的假定是
否成立。
3、 标准化残差:残差除以它的标准差后得到的数值。计算公式为:..............................
4、 标准化残差图:用以直观地判断误差项服从正态分布这一假定是否成立。若假定成立,
标准化残差的分布也应服从正态分布;在标准化残差图中,大约有95%的标准化残差在-2到+2之间。
5、 用残差证实模型的假定:
(1) 一元线性回归模型(基本假定):
① 误差项 ?是一个期望值为0的随机变量,即E(?)=0。对于一个给定的x
值,y的期望值为E(y)=β0+β1x 。对于所有的x值,?的方差 都相同。
② 误差项?是一个服从正态分布的随机变量,且相互独立。即?~N(0,方差)
独立性意味着对于一个特定的x值,它所对应的?与其他x值所对应的?不
相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相
关。
一、 用残差检测异常值和有影响的观测
1、 异常值(概念):如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异
常点。(如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归的效果;如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型;如果完全是由于随机因素而造成的异常值,则应该保留该数据。)在处理异常值时,若一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔除。
2、 异常值(识别):异常值也可以通过标准化残差来识别;如果某一个观测值所对应的标
准化残差较大,就可以识别为异常值;一般情况下,当一个观测值所对应的标准化残差小于-2或大于+2时,就可以将其视为异常值。
3、 有影响的观测值:如果某一个或某一些观测值对回归的结果有强烈的影响,那么该观测
值或这些观测值就是有影响的观测值。
一个有影响的观测值可能是:一个异常值,即有一个值远远偏离了散点图中的趋势线;对应一个远离自变量平均值的观测值;或者是这二者组合而形成的观测值。
4、 杠杠率点:如果自变量存在一个极端值,该观测值则成为高杠杆率点。一个有高杠杆率
的观测值未必是一个有影响的观测值,它可能对回归直线的斜率没有什么影响
第五节 多元线性回归模型
一、 多元回归模型与回归方程
1、 多元回归模型:一个因变量与两个及两个以上自变量的回归;描述因变量y如何依赖于
自变量x1,x2,...和误差项?的方程,称~。
涉及p在自变量的多元回归模型可表示为:y=β0+β1x1+β2x2+...+βpxp+?
[β0,β1,β2,...,βp是参数;?是被称为误差项的随机变量;y是x1,x2,...,xp的线性函数加上误差项?;?包含在y里面但不能被p个自变量的线性关系所解释的变异性。]
2、 多样回归模型(基本假定):
① 误差项?是一个期望值为0的随机变量,即E(?)=0。
② 对于自变量x1,x2,...,xp的所有值,?的方差 都相同。
③ 误差项?是一个服从正态分布的随机变量,即?~N(0,方差 ),且相互独立。
3、 多元回归方程:描述因变量y的平均值或期望值如何依赖于自变量x1,x2,...,xp的方
程。多元线性回归方程的形式为:E(y)=β0+β1x1+β2x2+...+βpxp
二、 估计的多元回归方程:
∧∧∧∧1、 用样本统计量β0,β1,β2,...,βp 估计回归方程中的参数β0,β1,β2,...,
βp 时得到的方程。由最小二乘法求得
∧∧∧∧∧一般形式为y=β0,β1 x1,β2 x2,...,βp xp
∧∧∧∧∧[β0,β1,β2,...,βp 是β0,β1,β2,...,βp 的估计值;y 是y的估计值]
三、 参数的最小二乘估计
∧1、 参数的最小二乘法:使因变量的观察值与估计值之间的离差平方和达到最小来求得β
∧∧∧0,β1,β2,...,βp 。
2、 求解各回归参数的标准方程如下
第六节 回归方程的拟合优度
一、 多重判定系数
1、 多重判定系数:回归平方和占总平放和的比例,计算公式为R2=SSR/SST=1-SSE/SST。
因变量取值的变差中,能被估计的多元回归方程所解释的比例。
2、 估计标准误差Sy:对误差项?的标准差 的一个估计值;衡量多元回归方程的拟合优度;
计算公式为:Sy=更号SSE/n-p-1=更号MSE
第七节 显著性检验
一、 线性关系检验:
1、 线性关系检验:检验因变量与所有自变量之间的线性关系是否显著;检验方法是将回
归离差平方和SSR同剩余离差平方和SSE加以比较,应用F检验来分析二者之间的差别是否显著[显著,则因变量与自变量之间存在线性关系;如果不显著,...不存在线性关系。
2、 提出假设:H0::β1=β2 =...βp =0 ,线性关系不显著
H1:β1,β2,...,βp 至少有一个不等于0
计算检验统计量F=[SSR/p]/[SSE/n-p-1]~F(p/,n-p-1)
确定显著性水平a和分子自由度p、分母自由度n-p-1找出临界值Fa
做出决策:若F》Fa,拒绝H0
二、 回归系数检验和推断
1、 回归系数的检验:线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验。
应用t检验统计量
2、 提出假设:H0:: βi =0 ,自变量xi与因变量y没有线性关系
H1:βi 不等于0,自变量xi与因变量y有线性关系
∧计算检验统计量t=βi /Sβ∧i ~t(n-p-1)
确定显著性水平a,并进行决策:
若丨t丨》ta/2,拒绝H0 ;丨t丨《ta/2 ,不能拒绝H0
3、 回归系数的推断(置信区间):
∧回归系数在1-a置信水平下的置信区间为βi +- ta/2 (n-p-1)Sβ∧i
第八节 多重共线性
一、 多重共线性及其所产生的问题
1、 多重共线性:回归模型中两个或两个以上的自变量彼此相关;多重共线性可能会使回归
的结果造成混乱,甚至会把分析引入歧途。
2、 多重共线性的识别:最简单的方法就是计算模型中各对自变量之间的相关系数,并对各
相关系数进行显著性检验;若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性。
如果出现下列情况,暗示存在多重共线性:
模型中各对自变量之间显著相关;当模型的线性关系检验F检验显著时,几乎所用回归系数的t检验却不显著;回归系数的正负号与预期的相反。
3、 多重共线性问题的处理:将一个或多个相关的自变量从模型中剔除,使保留的自变量尽
可能不相关。