多元回归分析的逐步回归预测模型

  摘 要: 回归分析方法是多元统计分析的各方法中应用最广泛的一种,也是数理统计中最成熟最常用的方法,主要是研究变量间的相互依赖关系。本文对多元线形回归模型的逐步回归,最优模型的检验、评价及预测作出了讨论。   关键词: 多元线形回归模型 逐步回归 最优模型      回归分析是一种古典又充满生机的模型,是数理统计中最成熟、最常用的方法。它可广泛应用于社会、经济、科技各个领域的数据分析,建立经验公式,作定理预测预报等,如气象预报、地震预报、病虫预报、股市行情分析,等等。   建立逐步回归多因子回归方程是基于最小二乘法原理,通过逐步回归剔除对因变量不起作用或作用极小的因子,挑选出显著性因子,最终得出最优回归模型,但最优模型是否适用于预测,还得根据实际情况和要求进行模型的假设性检验才能作出评价。另外,对模型的预测精度也应有一个比较正确的认识,不能要求过高。现就多元线形回归模型的逐步回归,最优模型的检验、评价及预测作些讨论。   1.多元线形回归的数学模型   设随机变量y随着m个自变量x,x,…,x变化,且有如下的线形关系式:   y=β+βx+…+βx+ε   此式称为回归方程。其中β,β,…,β称为回归系数,是m+1个待估计的参数,ε是随机变量(剩余参数)。   回归分析的主要问题是根据x,x,…,x,y的n组观测数据(x,x…,x,y),k=1,2,…,n给出各回归系数β的估计值β,同时对β(i=0,1,2,…,m)各作统计检验,以便说明估计值的可靠性。将观测值代入回归方程可得:   y=β+βx+…+βx+ε……y=β+βx+…+βx+ε   其中ε,…,ε是n个相互独立且服从同一正态分布N(0,σ)的随机变量。   假设Y=yy,X=1 x…x1 xx,β=ββ,ε=εε,   则可得对应的矩阵方程:Y=Xβ+ε。   2.回归系数的最小二乘估计   设β,β,…,β分别是参数β,β,…,β的最小二乘估计,则y的观测值可表示为:y=β+βx+…+βx+e,其中k=1,2,…,n,e是误差ε的估计值。又令y为y的估计值,有:y=β+βx+…+βx,e=y-y。根据最小二乘法,β,β,…,β应使得全部观测值y与回归值y的误差平方和达到最小,即:Q=[y-(β+βx+…+βx)]有最小值。   由于Q是β,β,…,β的非负二次式,最小值一定存在。根据数学分析的极值原理,β,β,…,β应满足下面的方程组:=-2(y-y)=0=-2(y-y)x=0=-2(y-y)x=0,称为正规方程组。   通过整理可知正规方程组的系数矩阵是对称矩阵。将其写为矩阵形式的方程为:(X′X)=X′Y,若系数矩阵X′X满秩,求解上述矩阵方程得:=(X′X)X′Y。   3.逐步回归建立最优回归模型   多元逐步回归分析的基本步骤可归纳如下:   (1)对已知数据进行中心化处理,得A阵:A=[(X-)(X-)],=,=(i,j=1,2,…,m+1)。   (2)计算偏回归平方和P并求出其中最大值。各自变量(未引入的)偏回归平方和按①计算,其中偏回归平方和最大值按②选出。①P=A×A/A,②P=max(P),i=1,2,…,m。   (3)检验是否引入第h个自变量因子。采用F检验进行检验:F=。根据给定的显著性水平α,查F分布分位数表,可查出F(1,n-r-2)的值。r为已引入自变量的个数,初值为0,当引入一个自变量因子时r加1,当剔除一个自变量因子时r减1,n为记录数。如果F≤F(1,n-r-2),说明所选的自变量因子均不合适,需另选自变量因子,重新分析该问题;反之,则引入该自变量因子,进入下一步骤。   (4)对A阵按下面各式施行消元变换,得一新A阵。其中:A=(i=h,j=h);A=(i≠h,j=h);A=AA(i=h,j≠h);A=A-(i≠h,j≠h)。   (5)从新的A阵出发,计算偏回归平方和,并从中选出未引入的自变量因子中对应的最大值。计算公式与前面相同只是值不同。   (6)检验是否引入第h个自变量因子,同样应用F检验进行检验。若F≤F(1,n-r-2),不引入该自变量因子,筛选完毕;若F>F(1,n-r-2),则引入该自变量因子,进入下一步骤。   (7)重复步骤(4)和(5),只是在计算出偏回归平方和P时,从中选出已引入自变量因子中对应的最小值:P=min(P)。   (8)检验是否可剔除自变量因子。采用F检验进行检验:   F=。   根据给定的显著性水平α,查F分布分位数表,可查出F(1,n-r-1)的值。r为已引入自变量的个数,n为记录数。若F≤F(1,n-r-1),剔除该自变量因子,然后返回步骤(7);若F>F(1,n-r-1),不剔除该自变量因子,然后返回步骤(5)。   重复循环步骤(5)―(8),直到筛选完毕,则最优回归模型建立。最终所确定的回归系数可根据下式计算:β=Aβ=-(β•)。应当注意的是,上式中的i均在1,2,…,m中取值,但并非所有值,只取引入的自变量的因子对应的序号值。   4.预测模型的检验   回归模型建立后,当前回归系数反映了自变量和因变量的结构关系,这种变动关系是否可预测未来还需进行检验。对预测模型的检验一般包括下面5个方面。   (1)t检验:t检验是对回归系数的显著性检验。   (2)F检验:F检验是对回归方程的显著性检验。   (3)D.W检验:D.W检验是对回归余项服从正态分布的假设检验。   (4)回归标准差的检验:回归标准差越接近于0,说明模型对样本数据的偏差越小,预测的可靠性越高。但实际上S往往较大,因此一般采用相对指标来评价。   (5)拟合优度的检验:拟合优度R越接近1则说明拟合得越好。一般认为当R在0.8以上可认为拟合优度较高。   5.模型预测   模型的预测可分为点预测和区间预测。   (1)点预测:给定未来某时刻t的自变量X值(x,…,x),代入回归方程,得到因变量Y的Y,称为点预测。   (2)区间预测:以一定的概率1-α(或给定的显著性水平α下)预测因变量在点预测值附近的变动范围,称为区间预测。   以上各步,我们都可通过SAS软件来实现,只要编制出适当的SAS程序,把观测数据输入到程序中,就可以得出我们想要的结果。      参考文献:   [1]易丹辉.统计预测――方法与应用[M].北京:中国统计出版社,2001.   [2]朱凯等.逐步回归多元统计预测模型研究及其程序设计[J].统计与决策,2005.   [3]刘严.多元线形回归的数学模型[J].沈阳工程学院学报,2005.      (作者系山西大学数学科学学院2007级硕士)

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

  摘 要: 回归分析方法是多元统计分析的各方法中应用最广泛的一种,也是数理统计中最成熟最常用的方法,主要是研究变量间的相互依赖关系。本文对多元线形回归模型的逐步回归,最优模型的检验、评价及预测作出了讨论。   关键词: 多元线形回归模型 逐步回归 最优模型      回归分析是一种古典又充满生机的模型,是数理统计中最成熟、最常用的方法。它可广泛应用于社会、经济、科技各个领域的数据分析,建立经验公式,作定理预测预报等,如气象预报、地震预报、病虫预报、股市行情分析,等等。   建立逐步回归多因子回归方程是基于最小二乘法原理,通过逐步回归剔除对因变量不起作用或作用极小的因子,挑选出显著性因子,最终得出最优回归模型,但最优模型是否适用于预测,还得根据实际情况和要求进行模型的假设性检验才能作出评价。另外,对模型的预测精度也应有一个比较正确的认识,不能要求过高。现就多元线形回归模型的逐步回归,最优模型的检验、评价及预测作些讨论。   1.多元线形回归的数学模型   设随机变量y随着m个自变量x,x,…,x变化,且有如下的线形关系式:   y=β+βx+…+βx+ε   此式称为回归方程。其中β,β,…,β称为回归系数,是m+1个待估计的参数,ε是随机变量(剩余参数)。   回归分析的主要问题是根据x,x,…,x,y的n组观测数据(x,x…,x,y),k=1,2,…,n给出各回归系数β的估计值β,同时对β(i=0,1,2,…,m)各作统计检验,以便说明估计值的可靠性。将观测值代入回归方程可得:   y=β+βx+…+βx+ε……y=β+βx+…+βx+ε   其中ε,…,ε是n个相互独立且服从同一正态分布N(0,σ)的随机变量。   假设Y=yy,X=1 x…x1 xx,β=ββ,ε=εε,   则可得对应的矩阵方程:Y=Xβ+ε。   2.回归系数的最小二乘估计   设β,β,…,β分别是参数β,β,…,β的最小二乘估计,则y的观测值可表示为:y=β+βx+…+βx+e,其中k=1,2,…,n,e是误差ε的估计值。又令y为y的估计值,有:y=β+βx+…+βx,e=y-y。根据最小二乘法,β,β,…,β应使得全部观测值y与回归值y的误差平方和达到最小,即:Q=[y-(β+βx+…+βx)]有最小值。   由于Q是β,β,…,β的非负二次式,最小值一定存在。根据数学分析的极值原理,β,β,…,β应满足下面的方程组:=-2(y-y)=0=-2(y-y)x=0=-2(y-y)x=0,称为正规方程组。   通过整理可知正规方程组的系数矩阵是对称矩阵。将其写为矩阵形式的方程为:(X′X)=X′Y,若系数矩阵X′X满秩,求解上述矩阵方程得:=(X′X)X′Y。   3.逐步回归建立最优回归模型   多元逐步回归分析的基本步骤可归纳如下:   (1)对已知数据进行中心化处理,得A阵:A=[(X-)(X-)],=,=(i,j=1,2,…,m+1)。   (2)计算偏回归平方和P并求出其中最大值。各自变量(未引入的)偏回归平方和按①计算,其中偏回归平方和最大值按②选出。①P=A×A/A,②P=max(P),i=1,2,…,m。   (3)检验是否引入第h个自变量因子。采用F检验进行检验:F=。根据给定的显著性水平α,查F分布分位数表,可查出F(1,n-r-2)的值。r为已引入自变量的个数,初值为0,当引入一个自变量因子时r加1,当剔除一个自变量因子时r减1,n为记录数。如果F≤F(1,n-r-2),说明所选的自变量因子均不合适,需另选自变量因子,重新分析该问题;反之,则引入该自变量因子,进入下一步骤。   (4)对A阵按下面各式施行消元变换,得一新A阵。其中:A=(i=h,j=h);A=(i≠h,j=h);A=AA(i=h,j≠h);A=A-(i≠h,j≠h)。   (5)从新的A阵出发,计算偏回归平方和,并从中选出未引入的自变量因子中对应的最大值。计算公式与前面相同只是值不同。   (6)检验是否引入第h个自变量因子,同样应用F检验进行检验。若F≤F(1,n-r-2),不引入该自变量因子,筛选完毕;若F>F(1,n-r-2),则引入该自变量因子,进入下一步骤。   (7)重复步骤(4)和(5),只是在计算出偏回归平方和P时,从中选出已引入自变量因子中对应的最小值:P=min(P)。   (8)检验是否可剔除自变量因子。采用F检验进行检验:   F=。   根据给定的显著性水平α,查F分布分位数表,可查出F(1,n-r-1)的值。r为已引入自变量的个数,n为记录数。若F≤F(1,n-r-1),剔除该自变量因子,然后返回步骤(7);若F>F(1,n-r-1),不剔除该自变量因子,然后返回步骤(5)。   重复循环步骤(5)―(8),直到筛选完毕,则最优回归模型建立。最终所确定的回归系数可根据下式计算:β=Aβ=-(β•)。应当注意的是,上式中的i均在1,2,…,m中取值,但并非所有值,只取引入的自变量的因子对应的序号值。   4.预测模型的检验   回归模型建立后,当前回归系数反映了自变量和因变量的结构关系,这种变动关系是否可预测未来还需进行检验。对预测模型的检验一般包括下面5个方面。   (1)t检验:t检验是对回归系数的显著性检验。   (2)F检验:F检验是对回归方程的显著性检验。   (3)D.W检验:D.W检验是对回归余项服从正态分布的假设检验。   (4)回归标准差的检验:回归标准差越接近于0,说明模型对样本数据的偏差越小,预测的可靠性越高。但实际上S往往较大,因此一般采用相对指标来评价。   (5)拟合优度的检验:拟合优度R越接近1则说明拟合得越好。一般认为当R在0.8以上可认为拟合优度较高。   5.模型预测   模型的预测可分为点预测和区间预测。   (1)点预测:给定未来某时刻t的自变量X值(x,…,x),代入回归方程,得到因变量Y的Y,称为点预测。   (2)区间预测:以一定的概率1-α(或给定的显著性水平α下)预测因变量在点预测值附近的变动范围,称为区间预测。   以上各步,我们都可通过SAS软件来实现,只要编制出适当的SAS程序,把观测数据输入到程序中,就可以得出我们想要的结果。      参考文献:   [1]易丹辉.统计预测――方法与应用[M].北京:中国统计出版社,2001.   [2]朱凯等.逐步回归多元统计预测模型研究及其程序设计[J].统计与决策,2005.   [3]刘严.多元线形回归的数学模型[J].沈阳工程学院学报,2005.      (作者系山西大学数学科学学院2007级硕士)

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文


相关内容

  • 逐步回归分析
  • 基于逐步回归法的产品销售量分析模型 摘要:本文根据2010年统计年鉴数据,研究影响某种产品销售量的因素,所选自变量因素包括本产品价格.当地人均收入.竞争品牌价格.利用spss17.0软件,通过逐步回归分析方法,建立线性回归模型,找出影响销售量的主要因素及其影响规律.结果表明,影响产品销售量的因素主要 ...

  • 油田开发成本与开发参数的相关性分析方法研究
  • 摘 要:针对塔里木油碳酸盐岩油气藏地质条件和开发方式的特殊性,为加强经济评价工作,本文提出了基于散点图分析和多元逐步线性回归分析的方法,分析开发成本和开发参数之间的相关性.通过散点图分析每个开发成本与开发参数的相关性,按照相关性排序筛选出开发成本的主要影响因素.利用多元逐步线性回归分析方法进一步分析 ...

  • 多元回归分析的应用研究
  • 目 录 摘要: .............................................................................................................................................. ...

  • 1回归分析
  • 回归分析是处理变量之间的相关关系的一种数学方法. 回归分析是处理变量之间的相关关系的一种数学方法.用回归分析方法解决问题的大致步骤如下: 1. 收集一组包含因变量和自变量的数据: 2. 选定因变量和自变量之间的模型,即一个数学式子,利用数据按照最小二 乘准则计算模型中的系数: 3. 利用统计分析方法 ...

  • 气象中的统计方法总结
  • 中国近20年来气象统计预报综述 中国近20年来气象统计预报综述 谢炯光 曾琮 (广东省气象台) 摘要 近20年来,多元统计分析方法有了长足的进步,涌现出不少新方法.新技术.本文着重介绍了近20年来气象统计预报在中国气象业务科研中的一些应用和发展,主要从多元统计分析意义上来选材. 关键词:多元分析.气 ...

  • 2015现代食品科技
  • 可见/近红外光谱技术无损检测 新鲜鸡蛋蛋白质含量的研究 摘要:鸡蛋是一种重要的食品,蛋白质是鸡蛋的主要营养成分.本研究利用可见近红外反射光谱技术无损检测新鲜鸡蛋的蛋白质含量.使用光谱仪获取新鲜鸡蛋在400-1100nm波段范围内的漫反射光谱; 分别使用多元散射校正 (MSC) 法和一阶导数法 (1- ...

  • 第9章SPSS的线性回归分析
  • 第9章SPSS 的线性回归分析 学习目标 1. 掌握线型回归分析的主要目标, 了解回归方程的最小二乘法估计的基本设计思路. 2. 熟练掌握线性回归分析的具体操作,能够读懂基本分析结果,掌握计算结果之间的 数量关系,并能够写出回归方程.对回归方程进行各种统计检验. 3. 了解多元线性回归分析哦那个自变 ...

  • 多元线性回归分析预测法
  • 多元线性回归分析预测法 (重定向自多元线性回归预测法) 多元线性回归分析预测法(Multi factor line regression method,多元线性回归分析法) [编辑] 多元线性回归分析预测法概述 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一 ...

  • 偏最小二乘回归的研究
  • 浙江大学理学院 硕士学位论文 偏最小二乘回归的研究 姓名:宋高阳 申请学位级别:硕士 专业:概率论与数理统计 指导教师:苏中根 20090505 摘 偏最小二乘回归分析(Partial要Regression简记为PLs)是一种新型的LeastSquares 多元统计分析方法,最早产生于化学领域.PL ...