多元统计分析在数学建模中的应用

多元统计分析在数学建模中的应用

作者:颜亭玉

来源:《学园》2015年第01期

【摘 要】多元统计分析方法在数学建模中的应用越来越广泛,本文阐述了多元统计中的聚类分析、主成分分析和回归分析方法在数学建模竞赛中的应用。

【关键词】聚类分析 主成分分析 回归分析 多元统计分析

【中图分类号】G642 【文献标识码】A 【文章编号】1674-4810(2015)01-0031-02

所谓数学建模,是指现实世界中的实际问题用数学语言表达出来,得到数学建模,然后求解,以此解决现实问题的数学知识应用过程。全国大学生数学建模竞赛创办于1992年,每年一届,目前已成为全国高校规模最大的基础性学科竞赛,也是世界上规模最大的数学建模竞赛。随着竞赛的推广,数学建模被越来越多的教师与学生所熟悉。

多元统计分析方法是处理多维数据不可缺少的工具,并日益显示出其魅力。纵观近几年的数学建模竞赛试题,每年都有大数据试题出现,要解决这些大数据问题,多元统计分析方法是必不可少的工具。

本文选择了在建模试题中常用到的聚类分析、主成分分析和回归分析,针对每种方法,详细说明了其在具体竞赛题中的应用。

一 聚类分析在数学建模中的应用

以葡萄酒评价问题(2012高教社杯全国大学生数学建模竞赛A题第2问)为例,葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。根据某一年份一些葡萄酒的评价结果和该年份这些葡萄酒与酿酒葡萄的成分数据,建立数学模型,根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

本题要求对酿酒葡萄进行分级,酿酒葡萄的成分直接影响着葡萄酒的质量,选取优质营养成分高的葡萄酿酒,保证了葡萄酒的营养价值和保健价值。但是葡萄酒质量的优劣,不单从营养成分和养生价值上考虑,一瓶优质的葡萄酒,还要具备可观赏性、纯正的口感、芬芳的酒香等优点,而这些优点,都是由评酒员来给出评价。

对酿酒葡萄进行分级,不单从葡萄的成分上考虑,还要结合最终酿成的葡萄酒质量综合考虑。因此将酿酒葡萄的各成分与评价员给予所酿成的葡萄酒的质量打分综合起来进行聚类分

析,将酿酒葡萄依据综合指数进行分类,结合聚类分析的结果以及综合指标的分数将葡萄划分等级。

在进行聚类分析之前,需要对原始数据进行预先处理:用酿酒葡萄各项理化指标(多次测试后取平均值)以及酒样的综合指标形成一个31列28行的原始资料阵,并将数据标准化。 将附件中的一组评酒员评价标准,算出各项所占权重并求和,最终求得10位品酒员对每个葡萄酒样品的评价平均值,作为27种酒样品的综合评价指标,并用葡萄酒的综合指标以及酿酒葡萄的理化指标形成一个31列28行的原始资料阵,将其数据标准化,通过Matlab进行聚类分析,得到酒样品的8个类别,并列出每个酒样品所对应的综合指标,得出聚类分析树状图:

不难发现红葡萄酒样品1、10、11、25单独化为一类,而不与综合指标相近的酒品类为一组,根据这4种葡萄酒的理化指标以及酿酒葡萄的成分对综合指标相近的组类进行分析比较,得出酒品1的花色苷含量高达408.028mg/100g鲜重,单宁22.019mol/kg,总酚23.604、总黄酮

9.480mmol/kg、顺式白藜芦醇3.195mg/kg,均高于第一类酒样品理化指标的数据。红葡萄酒样品10、11的花色苷含量较低,白藜芦醇含量较高,样品25氨基酸含量较低,果穗质量含量较高,均与指标相近的类别的理化指标数据有较大差异。根据资料分析得出,新酒主要以花色苷为主色调,陈酒中单宁起到主导作用。有单宁存在,花色苷将减少。氨基酸的含量与人体血液中的氨基酸有着密切联系,与脯氨酸成负相关,但与缬氨酸成正相关。这些含量的高低会影响葡萄酒的口感、色泽、纯正度,从而评酒员对酒的打分存在差异。因此,聚类分析结果在对各项理化指标进行数据处理时,达不到组间距离。

结合综合指标的高低和聚类分析的结果,以及每一种酿酒葡萄所对应的红葡萄酒样品,将酿酒葡萄分为A、B、C、D,四个等级分别代表优质、良好、中等、差。

二 主成分分析在数学建模中的应用

以水资源短缺风险综合评价(2011年数学建模夏令营B题第1问)为例,如何对水资源风险的主要因子进行识别,对风险造成的危害等级进行划分,对不同风险因子采取相应的有效措施规避风险或减少其造成的危害,这对社会经济的稳定、可持续发展战略的实施具有重要的意义。

《北京统计年鉴(2009)》及市政统计资料提供了北京市水资源的有关信息。利用这些资料和自己获得的其他资料,评价判定北京市水资源短缺风险的主要风险因子是什么。影响水资源的因素有很多,例如:气候条件、水利工程设施、工业污染、农业用水、管理制度、人口规模等。

为了寻找影响北京水资源严重短缺的主要风险因子,考虑了降水量、园林绿化覆盖率、人均GDP、人口规模、污水处理率、工业用水、农业用水、第三产业及其他用水、全年供水总

量、全年水资源总量等10个影响因素。通过对1979~2009年各个因素数据的分析,利用降维的思想,采用主成分分析法确定影响北京水资源严重短缺的主要风险因子。

将以上10个影响因素的数据标准化后得到的数据进行主成分计算,通过求累计贡献率来判断取2个主成分。主因子载荷矩阵(正交旋转后)见下表:

由正交旋转后的主因子载荷矩阵可知:

主成分1中各因子载荷值,绝对值比较大的是人口规模、人均GDP、园林绿化覆盖率、污水处理率,分别为0.98252、0.9608、0.94997、0.93986;主成分2中各因子载荷值,绝对值比较大的是降水率、水资源总量,分别为0.83617、0.73066。

根据以上分析可知:在水资源短缺风险中载荷较大的指标为人口规模、人均GDP、园林绿化覆盖率、污水处理率、降水率、水资源总量。

三 回归分析在数学建模中的应用

以上海世博会经济综合评估(2010年全国大学生数学建模竞赛B题)为例,2010年上海世博会是首次由中国举办的世界博览会。从1851年伦敦的“万国工业博览会”开始,至今已开展了四十届,第四十一届在上海举行。上海世博会的申办成功,昭示着我国综合国力和国际影响力的逐日提升,大国崛起的步伐正在稳步迈出。上海世博会是我国向全世界展现自己、介绍自己的平台;是与世界各国交流、合作的媒介,上海世博会能给我国带来巨大的政治、经济和文化效益。

请你们根据自己的兴趣爱好选择某个侧面,收集诸如世界各国举办世博会以及世博会产生影响等相关数据建立数学模型,利用所得数据,对2010年上海世博会的影响力进行定量评估,得出准确有说服力的结论。

本题可以根据世博会参观人数,定量评估上海世博会对经济方面的短期影响力。采集世博会2010年5月1日~2010年9月9日每日参观人数,定量评估上海世博会对经济方面的短期影响力。为了统一变量,我们首先将每日参观人数进行累加,建立相关预测模型,可计算出5月到9月的月参观人数,再根据月参观人数建立按月参观人数变化的模型。

研究表明:世博会参观者分布有其内在不均衡性,如阶段性持续递增、锯齿性曲线、不确定性、工作日和节假日分布差异等;世博会办展质量和吸引力是影响参观者人数和分布的最主要因素;影响参观者人数的外生变量,具有叠加和共振效应,因而形成参观者高峰日或低谷日。从前一届世博会展期阶段S、日程D、节假日H、L长假效应(3天以上,含3天)、T气温和W气候进行分析得出:展期阶段S和节假日H是影响世博会的最大因素,其余因素可忽略。因此建立如下模型:N= S+ H+C。

上海世博会至竞赛日已经进行了4个多月,利用互联网查到5月份和8月份每天的参观人数数据,5月份和8月份分别为世博会第一阶段和第二阶段,即S分别为1和2。5月份和8月份的节假日H很容易查到。再由表中人数数据N,利用Matlab做多元线性回归分析,得到:N=48462S+129610H+2.67330。

根据模型解出上海世博会9月之后的参观人数N1=2802.7(万),从而可以预测出上海世博会最终的参观人数大约是N=N0+N1=7491.4(万)。

利用Matlab作残差分析图,由残差图看出,只有28个点处出现异常点,其他数据的残差离零点较近,且残差的置信区间皆包含零点,故此模型得到的数据与所给数据较吻合,所以此模型较为合理。通过模型计算出的上海世博会总参观人数的预测值与官方统计预测的7000万人次接近,故此模型建立较为合理。

四 结束语

由此可见,多元统计分析方法是处理多维数据不可缺少的重要工具。近几年数学建模竞赛题目大多涉及大量数据,多元统计分析提供了多种处理同一数据的方法,成为解决数学建模中实际问题必不可少的重要方法。

参考文献

[1]江开忠、古晞等.多元统计分析在数学建模中的应用[J].上海工程技术大学学报,2012

(1):84~89

[2]程毛林.Matlab软件在多元统计分析中的应用[J].数理统计与管理,2008(2):279~284

[3]杜海霞、李玉萍.多元统计分析在数学建模中的应用[J].郑州师范教育,2013(6):33~36

[4]左瑞琼.多元统计分析方法介绍及在经济中的应用[J].时代经贸,2007(S9):23~24

[5]姜波.多元统计分析方法在实际问题中的应用[J].沈阳师范大学学报(自然科学版),2012(4):465~468

[6]王玉霞、李果、王芳等.基于多元统计分析的葡萄酒及其理化指标评价研究[J].物流工程与管理,2014(1):160~164

[7]余林云、申初联.数学建模在多元统计分析教学中的应用[J].数学理论与应用,2004

(4):63~66

〔责任编辑:庞远燕〕

多元统计分析在数学建模中的应用

作者:颜亭玉

来源:《学园》2015年第01期

【摘 要】多元统计分析方法在数学建模中的应用越来越广泛,本文阐述了多元统计中的聚类分析、主成分分析和回归分析方法在数学建模竞赛中的应用。

【关键词】聚类分析 主成分分析 回归分析 多元统计分析

【中图分类号】G642 【文献标识码】A 【文章编号】1674-4810(2015)01-0031-02

所谓数学建模,是指现实世界中的实际问题用数学语言表达出来,得到数学建模,然后求解,以此解决现实问题的数学知识应用过程。全国大学生数学建模竞赛创办于1992年,每年一届,目前已成为全国高校规模最大的基础性学科竞赛,也是世界上规模最大的数学建模竞赛。随着竞赛的推广,数学建模被越来越多的教师与学生所熟悉。

多元统计分析方法是处理多维数据不可缺少的工具,并日益显示出其魅力。纵观近几年的数学建模竞赛试题,每年都有大数据试题出现,要解决这些大数据问题,多元统计分析方法是必不可少的工具。

本文选择了在建模试题中常用到的聚类分析、主成分分析和回归分析,针对每种方法,详细说明了其在具体竞赛题中的应用。

一 聚类分析在数学建模中的应用

以葡萄酒评价问题(2012高教社杯全国大学生数学建模竞赛A题第2问)为例,葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。根据某一年份一些葡萄酒的评价结果和该年份这些葡萄酒与酿酒葡萄的成分数据,建立数学模型,根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

本题要求对酿酒葡萄进行分级,酿酒葡萄的成分直接影响着葡萄酒的质量,选取优质营养成分高的葡萄酿酒,保证了葡萄酒的营养价值和保健价值。但是葡萄酒质量的优劣,不单从营养成分和养生价值上考虑,一瓶优质的葡萄酒,还要具备可观赏性、纯正的口感、芬芳的酒香等优点,而这些优点,都是由评酒员来给出评价。

对酿酒葡萄进行分级,不单从葡萄的成分上考虑,还要结合最终酿成的葡萄酒质量综合考虑。因此将酿酒葡萄的各成分与评价员给予所酿成的葡萄酒的质量打分综合起来进行聚类分

析,将酿酒葡萄依据综合指数进行分类,结合聚类分析的结果以及综合指标的分数将葡萄划分等级。

在进行聚类分析之前,需要对原始数据进行预先处理:用酿酒葡萄各项理化指标(多次测试后取平均值)以及酒样的综合指标形成一个31列28行的原始资料阵,并将数据标准化。 将附件中的一组评酒员评价标准,算出各项所占权重并求和,最终求得10位品酒员对每个葡萄酒样品的评价平均值,作为27种酒样品的综合评价指标,并用葡萄酒的综合指标以及酿酒葡萄的理化指标形成一个31列28行的原始资料阵,将其数据标准化,通过Matlab进行聚类分析,得到酒样品的8个类别,并列出每个酒样品所对应的综合指标,得出聚类分析树状图:

不难发现红葡萄酒样品1、10、11、25单独化为一类,而不与综合指标相近的酒品类为一组,根据这4种葡萄酒的理化指标以及酿酒葡萄的成分对综合指标相近的组类进行分析比较,得出酒品1的花色苷含量高达408.028mg/100g鲜重,单宁22.019mol/kg,总酚23.604、总黄酮

9.480mmol/kg、顺式白藜芦醇3.195mg/kg,均高于第一类酒样品理化指标的数据。红葡萄酒样品10、11的花色苷含量较低,白藜芦醇含量较高,样品25氨基酸含量较低,果穗质量含量较高,均与指标相近的类别的理化指标数据有较大差异。根据资料分析得出,新酒主要以花色苷为主色调,陈酒中单宁起到主导作用。有单宁存在,花色苷将减少。氨基酸的含量与人体血液中的氨基酸有着密切联系,与脯氨酸成负相关,但与缬氨酸成正相关。这些含量的高低会影响葡萄酒的口感、色泽、纯正度,从而评酒员对酒的打分存在差异。因此,聚类分析结果在对各项理化指标进行数据处理时,达不到组间距离。

结合综合指标的高低和聚类分析的结果,以及每一种酿酒葡萄所对应的红葡萄酒样品,将酿酒葡萄分为A、B、C、D,四个等级分别代表优质、良好、中等、差。

二 主成分分析在数学建模中的应用

以水资源短缺风险综合评价(2011年数学建模夏令营B题第1问)为例,如何对水资源风险的主要因子进行识别,对风险造成的危害等级进行划分,对不同风险因子采取相应的有效措施规避风险或减少其造成的危害,这对社会经济的稳定、可持续发展战略的实施具有重要的意义。

《北京统计年鉴(2009)》及市政统计资料提供了北京市水资源的有关信息。利用这些资料和自己获得的其他资料,评价判定北京市水资源短缺风险的主要风险因子是什么。影响水资源的因素有很多,例如:气候条件、水利工程设施、工业污染、农业用水、管理制度、人口规模等。

为了寻找影响北京水资源严重短缺的主要风险因子,考虑了降水量、园林绿化覆盖率、人均GDP、人口规模、污水处理率、工业用水、农业用水、第三产业及其他用水、全年供水总

量、全年水资源总量等10个影响因素。通过对1979~2009年各个因素数据的分析,利用降维的思想,采用主成分分析法确定影响北京水资源严重短缺的主要风险因子。

将以上10个影响因素的数据标准化后得到的数据进行主成分计算,通过求累计贡献率来判断取2个主成分。主因子载荷矩阵(正交旋转后)见下表:

由正交旋转后的主因子载荷矩阵可知:

主成分1中各因子载荷值,绝对值比较大的是人口规模、人均GDP、园林绿化覆盖率、污水处理率,分别为0.98252、0.9608、0.94997、0.93986;主成分2中各因子载荷值,绝对值比较大的是降水率、水资源总量,分别为0.83617、0.73066。

根据以上分析可知:在水资源短缺风险中载荷较大的指标为人口规模、人均GDP、园林绿化覆盖率、污水处理率、降水率、水资源总量。

三 回归分析在数学建模中的应用

以上海世博会经济综合评估(2010年全国大学生数学建模竞赛B题)为例,2010年上海世博会是首次由中国举办的世界博览会。从1851年伦敦的“万国工业博览会”开始,至今已开展了四十届,第四十一届在上海举行。上海世博会的申办成功,昭示着我国综合国力和国际影响力的逐日提升,大国崛起的步伐正在稳步迈出。上海世博会是我国向全世界展现自己、介绍自己的平台;是与世界各国交流、合作的媒介,上海世博会能给我国带来巨大的政治、经济和文化效益。

请你们根据自己的兴趣爱好选择某个侧面,收集诸如世界各国举办世博会以及世博会产生影响等相关数据建立数学模型,利用所得数据,对2010年上海世博会的影响力进行定量评估,得出准确有说服力的结论。

本题可以根据世博会参观人数,定量评估上海世博会对经济方面的短期影响力。采集世博会2010年5月1日~2010年9月9日每日参观人数,定量评估上海世博会对经济方面的短期影响力。为了统一变量,我们首先将每日参观人数进行累加,建立相关预测模型,可计算出5月到9月的月参观人数,再根据月参观人数建立按月参观人数变化的模型。

研究表明:世博会参观者分布有其内在不均衡性,如阶段性持续递增、锯齿性曲线、不确定性、工作日和节假日分布差异等;世博会办展质量和吸引力是影响参观者人数和分布的最主要因素;影响参观者人数的外生变量,具有叠加和共振效应,因而形成参观者高峰日或低谷日。从前一届世博会展期阶段S、日程D、节假日H、L长假效应(3天以上,含3天)、T气温和W气候进行分析得出:展期阶段S和节假日H是影响世博会的最大因素,其余因素可忽略。因此建立如下模型:N= S+ H+C。

上海世博会至竞赛日已经进行了4个多月,利用互联网查到5月份和8月份每天的参观人数数据,5月份和8月份分别为世博会第一阶段和第二阶段,即S分别为1和2。5月份和8月份的节假日H很容易查到。再由表中人数数据N,利用Matlab做多元线性回归分析,得到:N=48462S+129610H+2.67330。

根据模型解出上海世博会9月之后的参观人数N1=2802.7(万),从而可以预测出上海世博会最终的参观人数大约是N=N0+N1=7491.4(万)。

利用Matlab作残差分析图,由残差图看出,只有28个点处出现异常点,其他数据的残差离零点较近,且残差的置信区间皆包含零点,故此模型得到的数据与所给数据较吻合,所以此模型较为合理。通过模型计算出的上海世博会总参观人数的预测值与官方统计预测的7000万人次接近,故此模型建立较为合理。

四 结束语

由此可见,多元统计分析方法是处理多维数据不可缺少的重要工具。近几年数学建模竞赛题目大多涉及大量数据,多元统计分析提供了多种处理同一数据的方法,成为解决数学建模中实际问题必不可少的重要方法。

参考文献

[1]江开忠、古晞等.多元统计分析在数学建模中的应用[J].上海工程技术大学学报,2012

(1):84~89

[2]程毛林.Matlab软件在多元统计分析中的应用[J].数理统计与管理,2008(2):279~284

[3]杜海霞、李玉萍.多元统计分析在数学建模中的应用[J].郑州师范教育,2013(6):33~36

[4]左瑞琼.多元统计分析方法介绍及在经济中的应用[J].时代经贸,2007(S9):23~24

[5]姜波.多元统计分析方法在实际问题中的应用[J].沈阳师范大学学报(自然科学版),2012(4):465~468

[6]王玉霞、李果、王芳等.基于多元统计分析的葡萄酒及其理化指标评价研究[J].物流工程与管理,2014(1):160~164

[7]余林云、申初联.数学建模在多元统计分析教学中的应用[J].数学理论与应用,2004

(4):63~66

〔责任编辑:庞远燕〕


相关内容

  • 经济应用数学06956
  • 课程名称:经济应用数学 课程代码:06956 第一部分 课程性质与目标 一 .课程的性质与特点 <经济应用数学>是高等教育自学考试会计电算化专业开设的基础课,是重要 的工具学科.在经济管理科学中有着广泛的应用.该课程具有广泛的应用性.高度 的抽象性和严密的逻辑性,对学生的专业学习和培养学 ...

  • 回归分析在数学建模中的应用
  • 摘 要 回归分析和方差分析是探究和处理相关关系的两个重要的分支, 其中回归分析方法是预测方面最常用的数学方法, 它是利用统计数据来确定变量之间的关系, 并且依据这种关系来预测未来的发展趋势.本文主要介绍了一元线性回归分析方法和多元线性回归分析方法的一般思想方法和一般步骤, 并且用它们来研究和分析我们 ...

  • 多元线性回归预测模型论文
  • 伊犁师范学院数学与统计学院 2012届本科毕业论文 摘要:本文以多元统计分析为理论基础,在对数据进行统计分析的基础上建立多元线 性回归模型并对未知量作出预测,为相关决策提供依据和参考.重点介绍了模型中参数的 估计和自变量的优化选择及简单应用举例. 关键词:统计学:线性回归:预测模型 ┊ ┊ 一.引言 ...

  • 代入法求解条件极值的一点补遗
  • V01.12.No.2 Mar..2009STUDIESINCOLLEGEMATHEMATICS高等数学研究39 代入法求解条件极值的一点补遗. 于涛 摘要(哈尔滨工程大学理学院哈尔滨150001)以二元函数为例.阐明把约束条件代入目标函数.从而将多元函数的条件极值转化为无 条件极值这种常见求解方法 ...

  • 在职高数学教学中实践多元智能理论 1
  • 在职高数学教学中实践多元智能理论减小字体 增大字体 作者:不详    发布时间:最新发布 在职高数学教学中实践多元智能理论是小柯论文网通过网络搜集,并由本站工作人员整理后发布的,在职高数学教学中实践多元智能理论是篇质量较高的学术论文,供本站访问者学习和学术交流参考之用,不可用于其他商业目的,在职高数 ...

  • 数学毕业论文题目
  • 数学毕业论文题目 1.数学中的研究性学习 2.数字危机 3.中学数学中的化归方法 4.高斯分布的启示 5.a2+b2≧2ab 的变形推广及应用 6.网络优化 7.泰勒公式及其应用 8.浅谈中学数学中的反证法 9.数学选择题的利和弊 10.浅谈计算机辅助数学教学 11.论研究性学习 12.浅谈发展数学 ...

  • 同济高等数学(第五版)150教时
  • 同济<高等数学>(第五版) 150教时 教学建议书 1 总体建议 1.1 总课时分配: 第1章 分析引论 16 第2章 导数与微分 14 第3章 中值定理与导数的应用 14 第4章 不定积分 14 第5章 定积分 12 第6章 定积分的应用 4 第7章 空间解析几何与向量代数 10 第8 ...

  • 偏最小二乘法基本知识
  • 偏最小二乘法(PLS )简介-数理统计 偏最小二乘法partial least square method是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出.近几十年来,它在理论.方法和应用方面都得到了迅速的发展. 偏最小二乘法 长期以来, ...

  • 多元函数可微性的判定
  • JOURNAL OF SHAAMXI INSTITUTE OF TECHNOLOGY 1999年 第2期 第15卷 No.2 vol.15 1999 多元函数可微性的判定 李小斌 [摘 要] 多元函数的可微性一般情况下是通过讨论偏导数的连续性来进行判断的,本文改进了这种方法,将多元函数连续性的讨论弱 ...