多元统计分析在数学建模中的应用
作者:颜亭玉
来源:《学园》2015年第01期
【摘 要】多元统计分析方法在数学建模中的应用越来越广泛,本文阐述了多元统计中的聚类分析、主成分分析和回归分析方法在数学建模竞赛中的应用。
【关键词】聚类分析 主成分分析 回归分析 多元统计分析
【中图分类号】G642 【文献标识码】A 【文章编号】1674-4810(2015)01-0031-02
所谓数学建模,是指现实世界中的实际问题用数学语言表达出来,得到数学建模,然后求解,以此解决现实问题的数学知识应用过程。全国大学生数学建模竞赛创办于1992年,每年一届,目前已成为全国高校规模最大的基础性学科竞赛,也是世界上规模最大的数学建模竞赛。随着竞赛的推广,数学建模被越来越多的教师与学生所熟悉。
多元统计分析方法是处理多维数据不可缺少的工具,并日益显示出其魅力。纵观近几年的数学建模竞赛试题,每年都有大数据试题出现,要解决这些大数据问题,多元统计分析方法是必不可少的工具。
本文选择了在建模试题中常用到的聚类分析、主成分分析和回归分析,针对每种方法,详细说明了其在具体竞赛题中的应用。
一 聚类分析在数学建模中的应用
以葡萄酒评价问题(2012高教社杯全国大学生数学建模竞赛A题第2问)为例,葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。根据某一年份一些葡萄酒的评价结果和该年份这些葡萄酒与酿酒葡萄的成分数据,建立数学模型,根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
本题要求对酿酒葡萄进行分级,酿酒葡萄的成分直接影响着葡萄酒的质量,选取优质营养成分高的葡萄酿酒,保证了葡萄酒的营养价值和保健价值。但是葡萄酒质量的优劣,不单从营养成分和养生价值上考虑,一瓶优质的葡萄酒,还要具备可观赏性、纯正的口感、芬芳的酒香等优点,而这些优点,都是由评酒员来给出评价。
对酿酒葡萄进行分级,不单从葡萄的成分上考虑,还要结合最终酿成的葡萄酒质量综合考虑。因此将酿酒葡萄的各成分与评价员给予所酿成的葡萄酒的质量打分综合起来进行聚类分
析,将酿酒葡萄依据综合指数进行分类,结合聚类分析的结果以及综合指标的分数将葡萄划分等级。
在进行聚类分析之前,需要对原始数据进行预先处理:用酿酒葡萄各项理化指标(多次测试后取平均值)以及酒样的综合指标形成一个31列28行的原始资料阵,并将数据标准化。 将附件中的一组评酒员评价标准,算出各项所占权重并求和,最终求得10位品酒员对每个葡萄酒样品的评价平均值,作为27种酒样品的综合评价指标,并用葡萄酒的综合指标以及酿酒葡萄的理化指标形成一个31列28行的原始资料阵,将其数据标准化,通过Matlab进行聚类分析,得到酒样品的8个类别,并列出每个酒样品所对应的综合指标,得出聚类分析树状图:
不难发现红葡萄酒样品1、10、11、25单独化为一类,而不与综合指标相近的酒品类为一组,根据这4种葡萄酒的理化指标以及酿酒葡萄的成分对综合指标相近的组类进行分析比较,得出酒品1的花色苷含量高达408.028mg/100g鲜重,单宁22.019mol/kg,总酚23.604、总黄酮
9.480mmol/kg、顺式白藜芦醇3.195mg/kg,均高于第一类酒样品理化指标的数据。红葡萄酒样品10、11的花色苷含量较低,白藜芦醇含量较高,样品25氨基酸含量较低,果穗质量含量较高,均与指标相近的类别的理化指标数据有较大差异。根据资料分析得出,新酒主要以花色苷为主色调,陈酒中单宁起到主导作用。有单宁存在,花色苷将减少。氨基酸的含量与人体血液中的氨基酸有着密切联系,与脯氨酸成负相关,但与缬氨酸成正相关。这些含量的高低会影响葡萄酒的口感、色泽、纯正度,从而评酒员对酒的打分存在差异。因此,聚类分析结果在对各项理化指标进行数据处理时,达不到组间距离。
结合综合指标的高低和聚类分析的结果,以及每一种酿酒葡萄所对应的红葡萄酒样品,将酿酒葡萄分为A、B、C、D,四个等级分别代表优质、良好、中等、差。
二 主成分分析在数学建模中的应用
以水资源短缺风险综合评价(2011年数学建模夏令营B题第1问)为例,如何对水资源风险的主要因子进行识别,对风险造成的危害等级进行划分,对不同风险因子采取相应的有效措施规避风险或减少其造成的危害,这对社会经济的稳定、可持续发展战略的实施具有重要的意义。
《北京统计年鉴(2009)》及市政统计资料提供了北京市水资源的有关信息。利用这些资料和自己获得的其他资料,评价判定北京市水资源短缺风险的主要风险因子是什么。影响水资源的因素有很多,例如:气候条件、水利工程设施、工业污染、农业用水、管理制度、人口规模等。
为了寻找影响北京水资源严重短缺的主要风险因子,考虑了降水量、园林绿化覆盖率、人均GDP、人口规模、污水处理率、工业用水、农业用水、第三产业及其他用水、全年供水总
量、全年水资源总量等10个影响因素。通过对1979~2009年各个因素数据的分析,利用降维的思想,采用主成分分析法确定影响北京水资源严重短缺的主要风险因子。
将以上10个影响因素的数据标准化后得到的数据进行主成分计算,通过求累计贡献率来判断取2个主成分。主因子载荷矩阵(正交旋转后)见下表:
由正交旋转后的主因子载荷矩阵可知:
主成分1中各因子载荷值,绝对值比较大的是人口规模、人均GDP、园林绿化覆盖率、污水处理率,分别为0.98252、0.9608、0.94997、0.93986;主成分2中各因子载荷值,绝对值比较大的是降水率、水资源总量,分别为0.83617、0.73066。
根据以上分析可知:在水资源短缺风险中载荷较大的指标为人口规模、人均GDP、园林绿化覆盖率、污水处理率、降水率、水资源总量。
三 回归分析在数学建模中的应用
以上海世博会经济综合评估(2010年全国大学生数学建模竞赛B题)为例,2010年上海世博会是首次由中国举办的世界博览会。从1851年伦敦的“万国工业博览会”开始,至今已开展了四十届,第四十一届在上海举行。上海世博会的申办成功,昭示着我国综合国力和国际影响力的逐日提升,大国崛起的步伐正在稳步迈出。上海世博会是我国向全世界展现自己、介绍自己的平台;是与世界各国交流、合作的媒介,上海世博会能给我国带来巨大的政治、经济和文化效益。
请你们根据自己的兴趣爱好选择某个侧面,收集诸如世界各国举办世博会以及世博会产生影响等相关数据建立数学模型,利用所得数据,对2010年上海世博会的影响力进行定量评估,得出准确有说服力的结论。
本题可以根据世博会参观人数,定量评估上海世博会对经济方面的短期影响力。采集世博会2010年5月1日~2010年9月9日每日参观人数,定量评估上海世博会对经济方面的短期影响力。为了统一变量,我们首先将每日参观人数进行累加,建立相关预测模型,可计算出5月到9月的月参观人数,再根据月参观人数建立按月参观人数变化的模型。
研究表明:世博会参观者分布有其内在不均衡性,如阶段性持续递增、锯齿性曲线、不确定性、工作日和节假日分布差异等;世博会办展质量和吸引力是影响参观者人数和分布的最主要因素;影响参观者人数的外生变量,具有叠加和共振效应,因而形成参观者高峰日或低谷日。从前一届世博会展期阶段S、日程D、节假日H、L长假效应(3天以上,含3天)、T气温和W气候进行分析得出:展期阶段S和节假日H是影响世博会的最大因素,其余因素可忽略。因此建立如下模型:N= S+ H+C。
上海世博会至竞赛日已经进行了4个多月,利用互联网查到5月份和8月份每天的参观人数数据,5月份和8月份分别为世博会第一阶段和第二阶段,即S分别为1和2。5月份和8月份的节假日H很容易查到。再由表中人数数据N,利用Matlab做多元线性回归分析,得到:N=48462S+129610H+2.67330。
根据模型解出上海世博会9月之后的参观人数N1=2802.7(万),从而可以预测出上海世博会最终的参观人数大约是N=N0+N1=7491.4(万)。
利用Matlab作残差分析图,由残差图看出,只有28个点处出现异常点,其他数据的残差离零点较近,且残差的置信区间皆包含零点,故此模型得到的数据与所给数据较吻合,所以此模型较为合理。通过模型计算出的上海世博会总参观人数的预测值与官方统计预测的7000万人次接近,故此模型建立较为合理。
四 结束语
由此可见,多元统计分析方法是处理多维数据不可缺少的重要工具。近几年数学建模竞赛题目大多涉及大量数据,多元统计分析提供了多种处理同一数据的方法,成为解决数学建模中实际问题必不可少的重要方法。
参考文献
[1]江开忠、古晞等.多元统计分析在数学建模中的应用[J].上海工程技术大学学报,2012
(1):84~89
[2]程毛林.Matlab软件在多元统计分析中的应用[J].数理统计与管理,2008(2):279~284
[3]杜海霞、李玉萍.多元统计分析在数学建模中的应用[J].郑州师范教育,2013(6):33~36
[4]左瑞琼.多元统计分析方法介绍及在经济中的应用[J].时代经贸,2007(S9):23~24
[5]姜波.多元统计分析方法在实际问题中的应用[J].沈阳师范大学学报(自然科学版),2012(4):465~468
[6]王玉霞、李果、王芳等.基于多元统计分析的葡萄酒及其理化指标评价研究[J].物流工程与管理,2014(1):160~164
[7]余林云、申初联.数学建模在多元统计分析教学中的应用[J].数学理论与应用,2004
(4):63~66
〔责任编辑:庞远燕〕
多元统计分析在数学建模中的应用
作者:颜亭玉
来源:《学园》2015年第01期
【摘 要】多元统计分析方法在数学建模中的应用越来越广泛,本文阐述了多元统计中的聚类分析、主成分分析和回归分析方法在数学建模竞赛中的应用。
【关键词】聚类分析 主成分分析 回归分析 多元统计分析
【中图分类号】G642 【文献标识码】A 【文章编号】1674-4810(2015)01-0031-02
所谓数学建模,是指现实世界中的实际问题用数学语言表达出来,得到数学建模,然后求解,以此解决现实问题的数学知识应用过程。全国大学生数学建模竞赛创办于1992年,每年一届,目前已成为全国高校规模最大的基础性学科竞赛,也是世界上规模最大的数学建模竞赛。随着竞赛的推广,数学建模被越来越多的教师与学生所熟悉。
多元统计分析方法是处理多维数据不可缺少的工具,并日益显示出其魅力。纵观近几年的数学建模竞赛试题,每年都有大数据试题出现,要解决这些大数据问题,多元统计分析方法是必不可少的工具。
本文选择了在建模试题中常用到的聚类分析、主成分分析和回归分析,针对每种方法,详细说明了其在具体竞赛题中的应用。
一 聚类分析在数学建模中的应用
以葡萄酒评价问题(2012高教社杯全国大学生数学建模竞赛A题第2问)为例,葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。根据某一年份一些葡萄酒的评价结果和该年份这些葡萄酒与酿酒葡萄的成分数据,建立数学模型,根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
本题要求对酿酒葡萄进行分级,酿酒葡萄的成分直接影响着葡萄酒的质量,选取优质营养成分高的葡萄酿酒,保证了葡萄酒的营养价值和保健价值。但是葡萄酒质量的优劣,不单从营养成分和养生价值上考虑,一瓶优质的葡萄酒,还要具备可观赏性、纯正的口感、芬芳的酒香等优点,而这些优点,都是由评酒员来给出评价。
对酿酒葡萄进行分级,不单从葡萄的成分上考虑,还要结合最终酿成的葡萄酒质量综合考虑。因此将酿酒葡萄的各成分与评价员给予所酿成的葡萄酒的质量打分综合起来进行聚类分
析,将酿酒葡萄依据综合指数进行分类,结合聚类分析的结果以及综合指标的分数将葡萄划分等级。
在进行聚类分析之前,需要对原始数据进行预先处理:用酿酒葡萄各项理化指标(多次测试后取平均值)以及酒样的综合指标形成一个31列28行的原始资料阵,并将数据标准化。 将附件中的一组评酒员评价标准,算出各项所占权重并求和,最终求得10位品酒员对每个葡萄酒样品的评价平均值,作为27种酒样品的综合评价指标,并用葡萄酒的综合指标以及酿酒葡萄的理化指标形成一个31列28行的原始资料阵,将其数据标准化,通过Matlab进行聚类分析,得到酒样品的8个类别,并列出每个酒样品所对应的综合指标,得出聚类分析树状图:
不难发现红葡萄酒样品1、10、11、25单独化为一类,而不与综合指标相近的酒品类为一组,根据这4种葡萄酒的理化指标以及酿酒葡萄的成分对综合指标相近的组类进行分析比较,得出酒品1的花色苷含量高达408.028mg/100g鲜重,单宁22.019mol/kg,总酚23.604、总黄酮
9.480mmol/kg、顺式白藜芦醇3.195mg/kg,均高于第一类酒样品理化指标的数据。红葡萄酒样品10、11的花色苷含量较低,白藜芦醇含量较高,样品25氨基酸含量较低,果穗质量含量较高,均与指标相近的类别的理化指标数据有较大差异。根据资料分析得出,新酒主要以花色苷为主色调,陈酒中单宁起到主导作用。有单宁存在,花色苷将减少。氨基酸的含量与人体血液中的氨基酸有着密切联系,与脯氨酸成负相关,但与缬氨酸成正相关。这些含量的高低会影响葡萄酒的口感、色泽、纯正度,从而评酒员对酒的打分存在差异。因此,聚类分析结果在对各项理化指标进行数据处理时,达不到组间距离。
结合综合指标的高低和聚类分析的结果,以及每一种酿酒葡萄所对应的红葡萄酒样品,将酿酒葡萄分为A、B、C、D,四个等级分别代表优质、良好、中等、差。
二 主成分分析在数学建模中的应用
以水资源短缺风险综合评价(2011年数学建模夏令营B题第1问)为例,如何对水资源风险的主要因子进行识别,对风险造成的危害等级进行划分,对不同风险因子采取相应的有效措施规避风险或减少其造成的危害,这对社会经济的稳定、可持续发展战略的实施具有重要的意义。
《北京统计年鉴(2009)》及市政统计资料提供了北京市水资源的有关信息。利用这些资料和自己获得的其他资料,评价判定北京市水资源短缺风险的主要风险因子是什么。影响水资源的因素有很多,例如:气候条件、水利工程设施、工业污染、农业用水、管理制度、人口规模等。
为了寻找影响北京水资源严重短缺的主要风险因子,考虑了降水量、园林绿化覆盖率、人均GDP、人口规模、污水处理率、工业用水、农业用水、第三产业及其他用水、全年供水总
量、全年水资源总量等10个影响因素。通过对1979~2009年各个因素数据的分析,利用降维的思想,采用主成分分析法确定影响北京水资源严重短缺的主要风险因子。
将以上10个影响因素的数据标准化后得到的数据进行主成分计算,通过求累计贡献率来判断取2个主成分。主因子载荷矩阵(正交旋转后)见下表:
由正交旋转后的主因子载荷矩阵可知:
主成分1中各因子载荷值,绝对值比较大的是人口规模、人均GDP、园林绿化覆盖率、污水处理率,分别为0.98252、0.9608、0.94997、0.93986;主成分2中各因子载荷值,绝对值比较大的是降水率、水资源总量,分别为0.83617、0.73066。
根据以上分析可知:在水资源短缺风险中载荷较大的指标为人口规模、人均GDP、园林绿化覆盖率、污水处理率、降水率、水资源总量。
三 回归分析在数学建模中的应用
以上海世博会经济综合评估(2010年全国大学生数学建模竞赛B题)为例,2010年上海世博会是首次由中国举办的世界博览会。从1851年伦敦的“万国工业博览会”开始,至今已开展了四十届,第四十一届在上海举行。上海世博会的申办成功,昭示着我国综合国力和国际影响力的逐日提升,大国崛起的步伐正在稳步迈出。上海世博会是我国向全世界展现自己、介绍自己的平台;是与世界各国交流、合作的媒介,上海世博会能给我国带来巨大的政治、经济和文化效益。
请你们根据自己的兴趣爱好选择某个侧面,收集诸如世界各国举办世博会以及世博会产生影响等相关数据建立数学模型,利用所得数据,对2010年上海世博会的影响力进行定量评估,得出准确有说服力的结论。
本题可以根据世博会参观人数,定量评估上海世博会对经济方面的短期影响力。采集世博会2010年5月1日~2010年9月9日每日参观人数,定量评估上海世博会对经济方面的短期影响力。为了统一变量,我们首先将每日参观人数进行累加,建立相关预测模型,可计算出5月到9月的月参观人数,再根据月参观人数建立按月参观人数变化的模型。
研究表明:世博会参观者分布有其内在不均衡性,如阶段性持续递增、锯齿性曲线、不确定性、工作日和节假日分布差异等;世博会办展质量和吸引力是影响参观者人数和分布的最主要因素;影响参观者人数的外生变量,具有叠加和共振效应,因而形成参观者高峰日或低谷日。从前一届世博会展期阶段S、日程D、节假日H、L长假效应(3天以上,含3天)、T气温和W气候进行分析得出:展期阶段S和节假日H是影响世博会的最大因素,其余因素可忽略。因此建立如下模型:N= S+ H+C。
上海世博会至竞赛日已经进行了4个多月,利用互联网查到5月份和8月份每天的参观人数数据,5月份和8月份分别为世博会第一阶段和第二阶段,即S分别为1和2。5月份和8月份的节假日H很容易查到。再由表中人数数据N,利用Matlab做多元线性回归分析,得到:N=48462S+129610H+2.67330。
根据模型解出上海世博会9月之后的参观人数N1=2802.7(万),从而可以预测出上海世博会最终的参观人数大约是N=N0+N1=7491.4(万)。
利用Matlab作残差分析图,由残差图看出,只有28个点处出现异常点,其他数据的残差离零点较近,且残差的置信区间皆包含零点,故此模型得到的数据与所给数据较吻合,所以此模型较为合理。通过模型计算出的上海世博会总参观人数的预测值与官方统计预测的7000万人次接近,故此模型建立较为合理。
四 结束语
由此可见,多元统计分析方法是处理多维数据不可缺少的重要工具。近几年数学建模竞赛题目大多涉及大量数据,多元统计分析提供了多种处理同一数据的方法,成为解决数学建模中实际问题必不可少的重要方法。
参考文献
[1]江开忠、古晞等.多元统计分析在数学建模中的应用[J].上海工程技术大学学报,2012
(1):84~89
[2]程毛林.Matlab软件在多元统计分析中的应用[J].数理统计与管理,2008(2):279~284
[3]杜海霞、李玉萍.多元统计分析在数学建模中的应用[J].郑州师范教育,2013(6):33~36
[4]左瑞琼.多元统计分析方法介绍及在经济中的应用[J].时代经贸,2007(S9):23~24
[5]姜波.多元统计分析方法在实际问题中的应用[J].沈阳师范大学学报(自然科学版),2012(4):465~468
[6]王玉霞、李果、王芳等.基于多元统计分析的葡萄酒及其理化指标评价研究[J].物流工程与管理,2014(1):160~164
[7]余林云、申初联.数学建模在多元统计分析教学中的应用[J].数学理论与应用,2004
(4):63~66
〔责任编辑:庞远燕〕