四葡萄酒的评价

葡萄酒的评价

摘要

本文围绕葡萄酒，酿酒葡萄的理化指标，利用层次聚类分析法，主成分分析法，统计理论，建立了偏相关系数模型，多元分析模型，从而对葡萄酒、酿酒葡萄质量高低进行排名，并找到二者关系，得到葡萄酒等级的划分。

问题一，针对葡萄酒，首先通过直方图的检验，认为评酒员对葡萄酒的评分服从正态分布，采用t检验法检验两组评酒员打出的分数的相关度，判断出红葡萄酒、白葡萄酒的两组评价都具有显著性差异，并且白葡萄酒的显著性差异大。利用统计理论得到两组评分的方差波动，我们得出白葡萄酒、红葡萄酒都是第二组评分可信度高的结论。

问题二需要根据酿酒葡萄的理化指标和葡萄酒的理化指标对这些葡萄样品进行分级。我们首先通过主成分分析法，选择酿酒葡萄和葡萄酒的有效指标进行讨论,然后通过聚类分析法得到分级结果（见表3，表4）,我们规定特级和一级为高档次葡萄酒，最终判断高档次的红葡萄样品大约占81.48%，高档次的白葡萄样品大约占82.14%。

问题三是为得到酿酒葡萄与葡萄酒的理化指标的联系，通过主成分分析法选择部分理化指标，建立偏相关系数模型，利用SPSS软件得到酿酒葡萄与葡萄酒的理化指标的相关系数，从而得到各个指标之间的联系，最终得出葡萄酒样品的某些理化指标和葡萄样品的某些理化指标之间有着很大的相关性。

关键词： t检验；聚类分析模型；主成分分析法；关联度分析；偏相关系数模型

1.问题重述

通过聘请一批有资质的评酒员对葡萄酒进行品尝。每个评酒员在对葡萄酒进行品尝后对其分类指标打分，然后求和得到其总分，从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。本题给出了某一年份一些葡萄酒的评价结果以及该年份这些葡萄酒的和酿酒葡萄的成分数据。

本题要求分析附件1中两组评酒员的评价结果有无显著性差异，并判断哪一组结果更可信。根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。分析酿酒葡萄与葡萄酒的理化指标之间的联系。分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

2.模型的假设

（1）葡萄酒暴露在空气中，没有受到各种病菌的污染。（2）评酒师的评价都是客观公正的。 (3)我们认为平均值的方差越小，可信度越高。

3.通用符号说明

4.问题一：模型的建立、求解及评价

4.1 问题一分析

我们做出评分员打出的分数的分布直方图，然后用Matlab编程做出评分的Q-Q概率图，从而证明了评酒员的评分服从正态分布。

葡萄酒样品的打分总分为100分，首先得到每名评酒师对葡萄酒打分的平均值，以及每组打分的方差，利用t检验公式得出t值，通过t值大小从而判断显著性是否存在，如果两组评分存在显著性差异，需要得到葡萄酒两组评分的方差，通过对方差大小进行比较，判断可信度的高低。 4.2 模型准备

利用题中给出的附录，通过Excel，利用统计理论得到两种葡萄酒，各个评酒师打分的平均值，各个分数段的评酒师人数以及打分方差值。 4.3 模型建立与求解

考虑到葡萄酒的品质的高低由打分决定，我们建立排名与打分分数高低相关的一元线性回归模型，通过分数的高低，建立排名前后。

根据附录一的数据，通过Excel得到红葡萄酒，各个评酒师打分的平均值，再利用Excel，得到各个分数段的评酒师的人数，最后把数据导入Matlab绘制出两组评酒师分数于人数对应的频数直方图，见图1.1。图1.2

1.1红葡萄酒第一组频数直方图 1.2红葡萄酒第一组频数直方图

同时，根据频数直方图，通过Matlab绘制红葡萄酒两组评分的Q-Q

概率图，横坐

标为评酒员打出的总评分的分布区间，纵坐标为处于该分数段的总评分的个数，见图1.3，图1.4。

图1.3红葡萄酒第一组的Q-Q概率图图1.4红葡萄酒第一组的Q-Q概率图

通过观察红葡萄酒的Q-Q概率图，斜率为45度，说明红葡萄酒评分的频数直方图符合正态分布，从而可以对两组评价进行显著性的判断。

已知两组红葡萄酒的各个评酒师打分平均值。把数据导入Matlab，我们得到两组评酒师与评酒分数对应的平均分数图。见图2.（红色表示红酒第一组平均分，蓝色表示红酒第二组平均分）

图2平均分数图

通过观察评酒师与评酒分数对应的平均分数图，我们假设红葡萄酒的两组评价具有显著性差异。

同时，我们已知两组评酒中，各个评酒师对应的方差，导入Matlsb绘制出评酒师与其方差对应的图像，见图3（红色是红葡萄酒第一组评酒员评分的方差，蓝色是红葡萄酒第二组评酒员评分的方差）

图3 方差对应图

通过对方差的图像观察，根据方差越小，可信度越高，我们认为红葡萄酒的第二组评价可信度高。

用同样的方法，我们得到白葡萄酒两组评酒师分数于人数对应的频数直方图见图4.1，图4.2，白葡萄酒的两组评价的Q-Q概率图，见图4.3，图4.4，两组评价的评酒师与评酒分数对应的平均分数图5，评酒师与其方差对应的图像6。

4.1白葡萄酒第一组频数直方图 4.2白葡萄酒第二组频数直方图

4.3白葡萄酒第一组的Q-Q概率图 4.4白葡萄酒第二组的Q-Q概率图

图5平均分数图图6方差对应图

针对白葡萄酒通过图像4.1，4.2的观察，通过图4.3，4.4的检验，我们认为两组评价的评数直方图符合正态分布，通过图5，我们假设两组评价具有显著性差异，通过图6，我们认为第二组评价具有更高的可信度。（红色是白葡萄酒第一组评价，蓝色是白葡萄酒第二组评价） 4.4 模型验证

已知平均值，方差，并且由频数直方图，知道符合正态分布。因此我们选用t检验。t检验用于估计两个表达水平的差异性。T检验公式见（1）。通过t检验，我们判断

t

（1）

对于红葡萄酒，i1 XAi表示其第一组评分的平均值，XBi表示其第组组评分的平均值。n是样本容量,为27个。 SAi表示其第一组评分的方差，SBi表示其第一组评分的方差。

对于白葡萄酒，i2 XAi表示其第一组评分的平均值，XBi表示其第组组评分的平均值。n是样本容量,为28个。 SAi表示其第一组评分的方差，SBi表示其第一组评分的方差。

对于红葡萄酒，t=1.82。对于白葡萄酒，t=3.1478。所以白葡萄酒，红葡萄酒的两组评价具有显著性，白葡萄酒的显著性大。

综上，我们认为，红葡萄酒和白葡萄酒的两组评分都具有显著性差异，白葡萄酒的显著性差异大。红葡萄酒和白葡萄酒都是第二组评分准确度高。 5.4 模型的评价

通过建立一元线性回归模型，

可以简洁明了的对葡萄酒的两组评价进行显著性的判

断，但是对葡萄酒的评价和外观分析，香气分析，口感分析，整体评价都有关系，单一的对总分进行判断，存在一定的误差。 5.5 模型的方向

对葡萄酒的两组评分，通过对外观分析，香气分析，口感分析，整体评价都进行显著性判断，得出更准确的评论。

5.问题二：模型的建立、求解及评价

5.1 问题二分析

问题二通过主程序分析法处理葡萄的理化指标，得出每种试样葡萄的综合指标打分，然后针对总评分采用层次聚类法对酿酒葡萄进行分级。 5.2 模型准备

经查阅相关资料及对附件中样品葡萄的理化指标进行分析后，我们发现样品中的一级指标和二级指标对整个葡萄样品质量的影响程度不同，所以我们对附2中的各指标作如下处理：

（1）对测试多次的的理化指标，我们用其一级指标平均值反映该指标；（2）对于属于同一类别的一级指标下的二级指标，我们采用二级指标反映该指标，例如我们没有选取氨基酸总量作为指标，而是选取不同种类的氨基酸含量作为有效的指标。

经过处理后的有效指标数据见附录(Excel文件1：红葡萄、Excel文件2：白葡萄)。红葡萄酒理化指标30种，酿酒葡萄27种；白葡萄酒指标30种，酿酒葡萄28种。 5.3 模型的建立与求解

根据做出的有效指标数据表，我们把不同样品酿酒葡萄的有效理化指标和葡萄酒的有效理化指标结合，构成主成分分析的相关矩阵，通过主成分分析，得到不同主分量的线性组合，我们用Matlab编程得到各个成分对样品的累计贡献率，我们选取贡献率大于85%的作为最终的主成分的信息贡献率，然后用贡献率与主分量之积的和来确定各样本的综合得分，采用层次聚类法对酿酒葡萄进行分级。具体步骤如下： 5.3.1 对原始数据进行标准化处理

假设进行主成分分析的一级理化指标变量有m 个，有n 个酿酒葡萄样本，第i 个酿酒葡萄样本的第j个指标的取值为xij。将各指标值xij 转换成标准化指标xij。其计算公式如下：

xij

xijxj

(2)

其中xj，sj，分别是第j 个指标的样本平均值和样本方差。对应地，称：

xi

xixj

,(i1,2,3......,m) 为标准化指标变量。

5.3.2 计算相关系数矩阵R

相关系数矩阵R(rij)mm

rij



k1ki

x*xkj

n1

,(i,j1,2,3,m)

（3）

式中： rii1 ，rijrji ，rij是第i 个指标与第 j 个指标的相关系数。 5.3.3 计算特征值和特征向量

计算相关系数R的特征值123...m0，及相应的特征向量

u1,u2,u3,

um ，由特征向量组成m 个新的指标变量 :

y1u11x1u21x2

„„ „„ „„ „„

un1xn

ymu1mx1u2mx2...unmxn

式中y1 是第一主成分，y2 是第二主成分，

，ym 是第m 主成分。

5.3.4 选择 P(Pm)个主成分，计算综合评价值

（1）计算特征值j 的信息贡献率和累计贡献率。称：

bj

j



mk1

k

(j1, 2, 3, , m) 为主成分的信息贡献率；

P



Pk1mk1

kk

为主成分y1,y2,y3,,yP 的累计贡献率。

当P接近1时，则选择前P 个指标变量y1,y2,y3,,yP 作为P的主成分，代替原

来m 个指标变量，从而可对P 个主成分进行综合分析，在这里我们取P =0.85 。

（2）计算综合得分

用Z 来表示总和得分，我们规定：Zk1bjyj

其中bj 为第j 个主成分的信息贡献率，根据综合得分就可进行评价。

通过Matlab软件我们得出综合酿酒葡萄的理化指标与葡萄酒的理化指标打分的总评分如下表I和表II：

5.3.5 运用层次聚类法对酿酒葡萄进行质量分级 1、层次聚类法原理：

（1）设n 个样本点记为：{w1,w2,

,wn}，

计算n 个样本点两两之间的距离{

dij} ，记为矩阵 D(dij)nn ； ; （4）首先构造n 个类，每一个类中只包含一个样本点，每一类的平台高度均为零；（3）合并距离最近的两类为新类，并且以这两类间的距离值作为聚类图中的平台高度；

（4）计算新类与当前各类的距离，若类的个数已经等于1

，转入步骤(5)，否则，回到步骤(3)；（5）画聚类图；（6）决定类的个数和类。

显然，这种系统归类过程与计算类和类之间的距离有关，采用不同的距离定义，有可能得出不同的聚类结果。

2、对酿酒葡萄进行质量分级

将表I和表II中的总评分数据看做一个样本空间，运用层次聚类法中的最短距离法对葡萄质量的总评分进行分级，我们用Matlab编程（程序见附录），运行程序，经过分析数据，可以整理得出结果，我们将葡萄分为四个等级：特技，一级，二级，三级。每个等级所对应的样品编号见表III，表IV：

5.4 结果评价

由上表可知，只有一少部分葡萄样品属于中低档次的，高档次的红葡萄样品大约占81.48%，高档次的白葡萄样品大约占82.14%。 5.5 模型的评价与改进

由于该模型是基于以下假设：

假设1：不考虑葡萄酒酿造工艺对葡萄酒质量的影响；

假设2：葡萄酒质量的评定除考虑感官指标、理化指标外，不再考虑其他指标（如：卫生指标指葡萄酒中的微生物（酵母菌、细菌、大肠杆菌）和一些对人体健康有影响的限量成分）；

假设3：所有已知数据均真实可靠条件下建立的，而实际生产中由于加工工艺的不同、卫生指标的影响、储存时间及条件等因素的影响，必然会对其质量评定产生或多或少影响。

故为了更好的贴近实际对原模型再加上一些约束（如不同加工工艺的条件下）在对其进行质量分级，应会更接近实际情况。

6.问题三模型的建立、求解及评价

6.1 问题三分析

本题需要分析酿酒葡萄与葡萄酒的理化指标之间的联系。由题中所给数据，我们发现葡萄酒，酿酒葡萄的指标很多，不利于统计,观察题中的芳香物质的含量，发现芳香物质有缺失，我们最终选择酿酒葡萄与葡萄酒的部分理化指标进行相关性的讨论。 6.2 模型准备

通过对题中的附录表格分析，选择酿酒葡萄与葡萄酒的部分理化指标，通过导入Spss的数据，建立偏相关系数模型，得到指标的相关性系数 6.3 模型的建立与求解

通过偏相关系数模型求出葡萄与葡萄酒的理化指标之间的相关系数 1）偏相关系数模型原理

在研究多个变量之间的相关关系时，由于变量间常常是相互影响的，因而两个

变量间的简单相关（直线相关）系数往往不能正确确定两个变量间的真正关系，有时甚至是假象。只有在排除其他变量影响的情况下，计算它们之间的偏相关系数（partial correlation coefficient）,才能真正地解释他们之间的内在联系。偏相关系数是在多元相关分析中说明当某个自变量在其他自变量固定不变时，分别同因变量线性相关程度指标。偏相关系数的取值范围亦在-1到+1之间。

（1）偏相关系数计算公式：当有一个控制变量z 时，变量x 与y 的偏相关公式为：

rxy(z)

rrr （5）

rrr

当有两个控制变量z1,z2 时，变量x与y的偏相关公式如下：

rxy(z1z2)

（6）

（2）对相关系数的检验

在偏相关分析中，由于两个变量之间相关系数是在固定（控制）了一个或某几个变量后进行的，考虑到这种因素及抽样误差的影响，其检验统计量为：

t

（7）

2) 模型求解

我们选取20个红葡萄的样本分析酿酒红葡萄与红葡萄酒的理化指标之间的偏相关系数，另外的7个样本用来检验相关系数的准确度。同理，我们选取20个白葡萄的样本分析酿酒白葡萄与白葡萄酒的理化指标之间的偏相关系数，另外的8个样本用来检验相关系数的准确度。

利用相关性分析原理，通过SPSS软件计算出酿酒红葡萄与红葡萄酒的理化指标之间的偏相关系数，SPSS运行结果见附录。我们针对红葡萄，认为两者的偏相关系数绝对值大于0.8时，认为两者的相关性显著；针对白葡萄，认为两者的偏相关系数绝对值大于0.6时，认为两者的相关性显著。我们筛选出与葡萄酒理化指标相关性显著的酿酒葡萄的理化指标。具体数据见下表，见表V，表VI。

表V 酿酒葡萄与葡萄酒的理化指标之间的相关系数（红葡萄）

只需将白葡萄样品的各项指标代替上述红葡萄样品的各项指标即可得出白葡萄与白葡萄酒的理化指标之间的相关系数表：

表VI 酿酒葡萄与葡萄酒的理化指标之间的相关系数（白葡萄）

从表中可以发现：

（1）红葡萄酒中的花色苷指标与酿酒红葡萄中的花色苷指标正相关性较为显著，相关度为0.928；红葡萄酒中的总酚指标与酿酒红葡萄中的花色苷指标正相关性较为显著，相关度为0.863；红葡萄酒中的色泽指标与酿酒红葡萄中的花色苷指标负相关性较为显著，相关度为-0.878；红葡萄酒中的花色苷指标与酿酒红葡萄中的褐变度指标正相关性较为显著，相关度为0.863；红葡萄酒中的单宁、总酚、酒总黄酮指标都与酿酒红葡萄中的总酚指标的正相关性较为显著，相关度分别为0.811、0.853、0.849。

（2）白葡萄酒中的总酚指标与酿酒白葡萄中的蛋白质指标、总酚指标、葡萄总黄酮指标、黄酮醇指标的正相关性都比较明显，相关度分别为0.605、0.744、0.697、0.614；白

葡萄酒中的DPPH半抑制体积指标与酿酒白葡萄中的可溶性固体物指标、干物质含量指标的负相关性比较明显，相关度为分别是-0.600、-0.721；白葡萄酒中的色泽指标与酿酒白葡萄中的可溶性固体物指标、干物质含量指标的正相关性都比较明显，相关度分别为0.629、0.684；白葡萄酒中的色泽指标与酿酒白葡萄中的出汁率指标的负相关比较明显，相关度为-0.757。

6.4 模型的分析与评价

我们针对红葡萄，用另外的7个样本所对应的数据来检验上表的准确性，得到了另外一组酿酒红葡萄与红葡萄酒的理化指标之间的偏相关系数，发现二者之间的正负相关性数据有着完全的一致性，两次计算之间得到了有力的验证，同理，我们对白葡萄样本进行检验分析，得到了相同的结果，从而证明了我们用的模型有着较好的可靠度。

参考文献

[1] 宋来忠、王志明.数学建模与实验[M],武汉：科学出版社,2005.

[2] 韩中庚、马晓军、胡宗云.数学建模竞赛—获奖论文精选与点评（第二卷）{M}, 武汉：科学出版社,2005.

[3] 韩中庚.数学建模方法及其应用[M].北京：人民邮电出版社，2005.

[4] 张良圣、倪永年.T验证法用于评价中药色谱指纹图谱的相似度[J].南昌：南昌大学，2007. [5] 宋莎莎、戴峰、卫保璐.基于模糊层次分析法和聚类分析法的突发事件分级研究[J].郑州：解放军信息工程大学，2010.

[6] 郭红霞.相关系数及其应用[J].工程学院学报.2010年3月,第26卷第2期.

附录

问题一直方图

红葡萄酒第一组

x=[692 730 715 742 701 786 749 780 786 599 722 686 746 772 793 627 803 804 723 539 733 856 587 738 815 771 730]; mm=minmax(x); hist(x,8);

[muhat,sigmahat,muci,sigmaci]=normfit(x);

红葡萄酒第二组

x=[ 688 771 746 653 681 699 745 654 758 683 616 657 715 720 726 726 663 682 712

721 740 782 722 715 716 660 688]; mm=minmax(x); hist(x,8);

[muhat,sigmahat,muci,sigmaci]=normfit(x);

白葡萄酒第一组

x=[813 710 794 759 778 722 813 723 724 720 633 731 659 764 743 775 820 783 740 742

684 710 714 788 729 771 733]; mm=minmax(x); hist(x,8);

[muhat,sigmahat,muci,sigmaci]=normfit(x);

白葡萄酒第二组

x=[ 743 673 756 724 714 792 804 766 795 769 798 758 771 755 770 767 784 779 739

803 796 794 761 723 764 815 742 774]; mm=minmax(x); hist(x,8);

[muhat,sigmahat,muci,sigmaci]=normfit(x);

均值

红葡萄酒均值对比图

n=1:1:10;

x=[69.15 75.11 73.41 65.89 74.78 73.3 71.85 72.74 79.19 75.15]; y=[71.37 69.78 76.7 65.89 64.26 72.67 72 72.81 70.15 69.52]; plot(n,x,'r'); hold on; plot(n,y,'b');

白葡萄酒均值对比图

n=1:1:10;

a=[76.29 56.71 83.5 64.39 76.11 72.64 79.21 70.64 81.11 79.5]; b=[77.89 77.04 78.25 78.32 76.25 81.79 80.14 63 74.32 78.32]; plot(n,a,'r'); hold on; plot(n,b,'b'); 方差

红葡萄酒方差对比图 n=1:1:10;

x=[60.9410 122.6914 190.6118 48.17284 166.4691 121.5418 58.6447 92.7846 42.5953 24.7928];

y=[30.4554 31.4320 22.5788 64.3950 48.5624 26.8888 42.1481 38.2249 23.3113 15.1385 ]; plot(n,x,'r'); hold on; plot(n,y,'b');

白葡萄酒方差对比图 n=1:1:10;

a=[ 62.4985 187.8121 13.6168 45.6686 41.3801 137.9955 38.3801 45.5976 69.6686 33.0177];

b=[29.1138 16.4691 17.8628 53.7558 34.6913 20.7846 14.5541 59.0480 55.2839 58.9876]; plot(n,a,'r');

plot(n,b,'b');

问题二

“Excel表1”， %红葡萄样品 “Excel 表2”， %白葡萄样品

标准化原始数据矩阵.

function std=cwstd(vector) cwsum=sum(vector,1); [a,b]=size(vector); for i=1:a

for j=1:b

std(i,j)= vector(i,j)/cwsum(j); end end

计算相关系数矩阵.2

function result=cwfac(vector); fprintf('相关系数矩阵:\n') std=CORRCOEF(vector)

fprintf('特征向量(vec)及特征值(val)：\n') [vec,val]=eig(std) newval=diag(val) ;

[y,i]=sort(newval) ; fprintf('特征根排序：\n') ; for z=1:length(y)

newy(z)=y(length(y)+1-z); end

fprintf('%g\n',newy) rate=y/sum (y);

fprintf('\n 贡献率：\n') newrate=newy/sum(newy) sumrate=0; newi=[];

for k=length(y):-1:1

sumrate=sumrate+rate(k); newi(length(y)+1-k)=i(k); if sumrate>0.85 break; end

end

fprintf('主成分数：%g\n\n',length(newi)); fprintf('主成分载荷：\n') for p=1:length(newi) for q=1:length(y)

result(q,p)=sqrt(newval(newi(p)))*vec(q,newi(p));

end 计算得分程序.3

function score=cwscore(vector1,vector2); sco=vector1*vector2; csum=sum(sco,2);

[newcsum,i]=sort(-1*csum); [newi,j]=sort(i);

fprintf('计算得分：\n')

score=[sco,csum,j] %得分矩阵：sco 为各主成分得分；csum 为综合得分；j 为排序结果

输出结果程序.4

vector=data; %data 为输入的原始数据 fprintf('标准化结果如下：\n') v1=cwstd(vector) result=cwfac (v1); cwscore(v1,result); 聚类分析程序.5 ave=mean(dat,2); for i=1:1:27 sum=0; for j=1:1:10

if dat(i,j)

p(i,j)=1- (dat(i,j)-ave(i,1))./ave(i,1);

end

sum=sum+p(i,j); end b=sum/10; end p b

问题三

红葡萄样品与红葡萄酒样品的理化指标之间的相关系数分布表：

白葡萄样品与白葡萄酒样品的理化指标之间的相关系数分布表：

SPSS软件程序：

红葡萄

GET DATA /TYPE=XLSX

/FILE='C:\Users\QUSTJSZX\Desktop\红葡萄.xlsx' /SHEET=name 'Sheet1' /CELLRANGE=full /READNAMES=on

/ASSUMEDSTRWIDTH=32767. EXECUTE.

DATASET NAME 数据集1 WINDOW=FRONT. GET DATA /TYPE=XLSX

/FILE='C:\Users\QUSTJSZX\Desktop\红酒.xlsx' /SHEET=name 'Sheet1' /CELLRANGE=full /READNAMES=on

/ASSUMEDSTRWIDTH=32767. EXECUTE.

DATASET NAME 数据集2 WINDOW=FRONT. DATASET ACTIVATE 数据集1. PARTIAL CORR

/VARIABLES=@1 @2 @3 @4 @5 @6 @7 @8 @9 @10 @11 @12 @13 @14 @15 @16 @17 @18 @19 @20 @21 @22 @23 @24 @25 @26 @27 @28 @29 @30 BY VAR00001 VAR00002 VAR00003 VAR00004 VAR00005 VAR00006 VAR00007 VAR00008

/SIGNIFICANCE=TWOTAIL /MISSING=LISTWISE. 白葡萄

GET DATA /TYPE=XLSX

/FILE='C:\Users\QUSTJSZX\Desktop\白葡萄与白酒.xlsx'

/SHEET=name 'Sheet1'

/CELLRANGE=full

/READNAMES=on

/ASSUMEDSTRWIDTH=32767.

EXECUTE.

DATASET NAME 数据集1 WINDOW=FRONT.

PARTIAL CORR

/VARIABLES=@1 @2 @3 @4 @5 @6 @7 @8 @9 @10 @11 @12 @13 @14 @15 @16 @17 @18 @19 @20 @21 @22 @23 @24 @25 @26 @27 @28 @29 @30 BY

一二三四五六七八

/SIGNIFICANCE=ONETAIL

/FORMAT=CONDENSED

/STATISTICS=CORR

/MISSING=LISTWISE.

葡萄酒的评价

摘要

关键词： t检验；聚类分析模型；主成分分析法；关联度分析；偏相关系数模型

1.问题重述

2.模型的假设

（1）葡萄酒暴露在空气中，没有受到各种病菌的污染。（2）评酒师的评价都是客观公正的。 (3)我们认为平均值的方差越小，可信度越高。

3.通用符号说明

4.问题一：模型的建立、求解及评价

4.1 问题一分析

我们做出评分员打出的分数的分布直方图，然后用Matlab编程做出评分的Q-Q概率图，从而证明了评酒员的评分服从正态分布。

考虑到葡萄酒的品质的高低由打分决定，我们建立排名与打分分数高低相关的一元线性回归模型，通过分数的高低，建立排名前后。

1.1红葡萄酒第一组频数直方图 1.2红葡萄酒第一组频数直方图

同时，根据频数直方图，通过Matlab绘制红葡萄酒两组评分的Q-Q

概率图，横坐

标为评酒员打出的总评分的分布区间，纵坐标为处于该分数段的总评分的个数，见图1.3，图1.4。

图1.3红葡萄酒第一组的Q-Q概率图图1.4红葡萄酒第一组的Q-Q概率图

通过观察红葡萄酒的Q-Q概率图，斜率为45度，说明红葡萄酒评分的频数直方图符合正态分布，从而可以对两组评价进行显著性的判断。

图2平均分数图

通过观察评酒师与评酒分数对应的平均分数图，我们假设红葡萄酒的两组评价具有显著性差异。

图3 方差对应图

通过对方差的图像观察，根据方差越小，可信度越高，我们认为红葡萄酒的第二组评价可信度高。

4.1白葡萄酒第一组频数直方图 4.2白葡萄酒第二组频数直方图

4.3白葡萄酒第一组的Q-Q概率图 4.4白葡萄酒第二组的Q-Q概率图

图5平均分数图图6方差对应图

t

（1）

对于红葡萄酒，t=1.82。对于白葡萄酒，t=3.1478。所以白葡萄酒，红葡萄酒的两组评价具有显著性，白葡萄酒的显著性大。

通过建立一元线性回归模型，

可以简洁明了的对葡萄酒的两组评价进行显著性的判

断，但是对葡萄酒的评价和外观分析，香气分析，口感分析，整体评价都有关系，单一的对总分进行判断，存在一定的误差。 5.5 模型的方向

对葡萄酒的两组评分，通过对外观分析，香气分析，口感分析，整体评价都进行显著性判断，得出更准确的评论。

5.问题二：模型的建立、求解及评价

5.1 问题二分析

xij

xijxj

(2)

其中xj，sj，分别是第j 个指标的样本平均值和样本方差。对应地，称：

xi

xixj

,(i1,2,3......,m) 为标准化指标变量。

5.3.2 计算相关系数矩阵R

相关内容

热门内容

标签