基于Logistic回归分析模型的足球彩票预测方法

摘要:本文收集了2010年—2011年意大利足球甲级联赛前30场比赛中得分、积分、主客场情况、净胜球数等数据,首先对数据做主成分分析,剔除影响不显著的变量,然后运用多分类Logistic回归方法,建立Logistic回归模型,预测比赛结果。结果显示:对2010年—2011意大利足球甲级联赛结果影响较大的是主客场,多分类Logistic回归模型判断正确率较高。

关键词:Logistic回归分析模型主成分分析足球彩票

随着我国足球彩票的发行,预测足球彩票结果一直是人们探讨的问题,以往的文献中也发现了用不同的方法预测竞猜结果。文献[1～3]采用不同的数学模型方法讨论如何更加准确地预测所涉及的比赛结果。Logistic回归通常以离散型的分类变量发生结果的概率为因变量,以影响因素为自变量建立模型。研究分类变量(因变量)与影响因素(自变量)之间关系的研究方法,属于概率型非线性回归方法。从足球比赛的一般情况来看,一场比赛的结果有三个:胜、平、负,因而对一场比赛的预测结果即因变量可以认为有三类。同时,比赛的结果除了受到球队实力的影响,还与比赛当时的天气、球队排名、球队状态、教练、球队主客场作战能力等因素有关。因而我们首先讨论如何量化以上指标,并运用主成分分析找出影响比赛结果的主要因素,进而将这些主要因素作自变量,比赛结果作为因变量建立多分类Logistic回归分析模型,并利用该模型预测每场足球比赛结果。

1 多分类Logistic回归模型

当因变量是一个多分类指标,特别是有序多分类指标时,如流行病学中某些慢性病的危险因素研究,观察结果为“无、轻、中、重”等不同等级资料,可以采用多分类Logistic回归或有序多分类Logistic进行分析。

本文用有序多分类Logistic回归预测2010年—2011年意大利足球甲级联赛结果。多分类Logistic回归是因变量为多项分类的资料,如足球联赛中的主场的结果可能是胜、平、负,这些结果通常都按3、2、1等整数序列编码。在反应变量的各类中有明确的从低到高的排序,但相邻各类之间的差距未知。对序次测度反应变量建立模型的适当方法之一是累积回归模型,也称序次Logistic回归模型或比例发生比模型。序次Logistic回归模型定义如下:

有了累积分布函数以后,既可以采用logit也可以采用probit作为对序次反应变量建模的关联函数。它们将产生累积Logistic回归模型,累积Logistic回归可以定义如下:

从上式可以看到,累积Logistic回归模型中,logit是按反应变量的类别定义的。也就是说,模型的发生比是通过该发生比分子中的时间

概率的一次连续累积而形成。累计概率可以通过以下公式进行预测:

2 数值试验结果

足彩是从欧洲各大联赛选取一部分场次的比赛进行竞猜,因而每轮竞猜的球队都会发生变化,如果只对足彩涉及的球队进行分析,不具有一般性,因而我们选择具有代表性的联赛如意大利甲级联赛进行统一分析,不论足彩选择哪场比赛都能用本文方法进行分析,其它联赛可以类似地进行讨论。

2.1 数据预处理

现实生活中的数据极易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大,并且多半来自多个数据源。低质量的数据将导致低质量的数据预测结果。因此,在建模前,应进行数据预处理。本文主要运用数据的集成与变换对2010年—2011年意大利足球甲级联赛的数据进行预处理。设:(1):得分,即球队当场比赛的得分,胜得3分,平得2分,负得1分;(2):积分,即累计该场比赛以及之前比赛的得分;(3):主客场,即比赛在该球队的场地,表示主场记;否则;(4):净胜球数,即球队该场比赛胜球数减去失球数;(5):主队主场净胜球率,即主队主场净胜球数除以主队在主场已比赛的场次;(6):客队客场净胜球率,即客队客场

净胜球数除以客队在客场已比赛的场次。为了尽可能完整地获取影响足球比赛结果的相关因素,我们通过网上收集2010年—2011年意大利甲级联赛的第1场到第19场比赛的数据,整理得到得分、积分、主客场、净胜球数、主场主队净胜球率、客场客队净胜球率等指标。

2.2 变量筛选

一般来说,同一个问题所涉及的众多变量之间会存在一定的相关性,相关性会使变量的信息有所重叠,为了使收集的2010年—2011年意大利足球甲级联赛的比赛数据更简明,这里用主成分分析方法筛选预处理得到的数据,删去信息重叠的变量,用为数较少的、信息互不重叠的变量来反应原变量提供的大部分信息,从而简化了数据。为了说明主成分分析筛选过程,现以意大利甲级联赛第7场比赛的筛选为例。2010年—2011意大利足球甲级联赛第7场比赛主成分筛选变量(如表1、2)。

表1表示各样本相关系数矩阵的特征值、相邻两个特征值之差、每个特征值所解释的方差的比率和累计贡献率,可以看出第四主成分的特征值最小,为0.19817180，并且在表2中第四主成分所对应的最大权数为0.738267,所对应的变量为。所以,这一轮筛选应该删去。

删去后的主成分分析结果如表3、4。

同理,第三主成分的贡献率最小,其所对应的特征向量的最大权数为0.721887,对应的变量为。所以,这一轮应该删去。

综合2010-2011意大利足球甲级联赛各场比赛筛选删去变量如表5。

从以上统计删去变量来看,积分和得分被删去的次数最多,累计有15次,其次净胜球数被删去的次数有8次,主客场被删去的次数只有1次。为了便于模型的建立,我们选择用球队主客场比赛情况作为自变量和各场比赛胜平负情况作为因变量建立2010年—2011年意大利足球甲级联赛的多分类Logistic回归模型。

2.3 多分类Logistic模型

根据变量筛选的结果,我们收集了2010年—2011年意大利甲级联赛30场比赛各球队的主客场情况和各场比赛的胜平负情况数据,并统计各球队主客场的胜平负情况,确定自变量:

表8显示,因变量与预测概率的一致性为52%,不一致性为40.1%,

关联系数Somers‘D=0.118和Gamma=0.129表明两者之间有中等程度的关联性,从观测值和预测值之间的对比来看两者基本接近。

这里有序反应变量有3个水平即,为自变量向量,取个水平的概率,将3个水平分为两类,按两分类反应变量Logistic回归模型对多分类有序反应变量Logistic回归,这里得到Logistic回归方程:

其中某轮比赛胜、平、负预测概率的均值和标准差。标准化预测概率后,再根据最大隶属原则进行决策该场比赛属于哪种结果。

以2、3对样本进行预测,预测该队该场比赛为胜的赋值为3,预测该队该场比赛为平或负的赋值为2,所建预测模型的回判结果如表9所示。

在回判情况中,回判正确标为√,回判错误标为×。

表9是用2010年—2011年意大利甲级联赛第15场和第29场结果作为观测值,那不勒斯的两个观测值表示,用于回判的两场比赛都在客场进行,卡利亚里的客场有两个观测值同理。

从模型的回判结果可知,当观测值为1时,模型回判正确率为

78.57%,即通过模型预测出14场比赛中有11场比赛结果会为负或平。当观测值为2时,模型回判正确率为66.67%,12场比赛中有8场比赛结果会为负或平。当观测值为3时,模型回判正确率为69.23%,13场比赛有9场比赛结果会是胜(如表10)。

这里预测正确率都达65%以上,最高的有78.57%,实际比赛还受其他因素的影响,例如天气情况、球队球员状态、历史交锋、球员伤病情况、教练及裁判等不确定因素,致使比赛结果出现冷门现象。

3 结论

总体来说,模型以较少的、能预知的变量对意大利足球甲级联赛各场比赛结果进行评估,具有较好的现实意义。足球比赛结果具有许多不可抗力的因素,本文希望通过多分类Logistic回归模型的构建在可抗力范畴对比赛结果进行评估,为预测足彩结果提供依据。

参考文献

[1]宋鑫,林千惠,陈锡岩,等.基于预测奖金模型的足球彩票过滤方法研究[J].统计与决策,2009(23):53-56.

[2]胡茂林,徐寅峰,徐维军.足球彩票胜负游戏的优化组合—— 在线组合优化[J].系统工程理论与实践,2007(1):119-130.

[3]汪兵,易雯.参考足彩投资的概率模型[J].中南民族大学学报,2003(22):41-42.

[4]王济川,郭志刚.Logistic回归模型—— 方法与应用[M].北京:高等教育出版社,2001,9.

基于Logistic回归分析模型的足球彩票预测方法

关键词:Logistic回归分析模型主成分分析足球彩票

1 多分类Logistic回归模型

从上式可以看到,累积Logistic回归模型中,logit是按反应变量的类别定义的。也就是说,模型的发生比是通过该发生比分子中的时间

概率的一次连续累积而形成。累计概率可以通过以下公式进行预测:

2 数值试验结果

2.1 数据预处理

2.2 变量筛选

删去后的主成分分析结果如表3、4。

同理,第三主成分的贡献率最小,其所对应的特征向量的最大权数为0.721887,对应的变量为。所以,这一轮应该删去。

综合2010-2011意大利足球甲级联赛各场比赛筛选删去变量如表5。

2.3 多分类Logistic模型

表8显示,因变量与预测概率的一致性为52%,不一致性为40.1%,

关联系数Somers‘D=0.118和Gamma=0.129表明两者之间有中等程度的关联性,从观测值和预测值之间的对比来看两者基本接近。

其中某轮比赛胜、平、负预测概率的均值和标准差。标准化预测概率后,再根据最大隶属原则进行决策该场比赛属于哪种结果。

以2、3对样本进行预测,预测该队该场比赛为胜的赋值为3,预测该队该场比赛为平或负的赋值为2,所建预测模型的回判结果如表9所示。

在回判情况中,回判正确标为√,回判错误标为×。

从模型的回判结果可知,当观测值为1时,模型回判正确率为

3 结论

参考文献

[1]宋鑫,林千惠,陈锡岩,等.基于预测奖金模型的足球彩票过滤方法研究[J].统计与决策,2009(23):53-56.

[2]胡茂林,徐寅峰,徐维军.足球彩票胜负游戏的优化组合—— 在线组合优化[J].系统工程理论与实践,2007(1):119-130.

[3]汪兵,易雯.参考足彩投资的概率模型[J].中南民族大学学报,2003(22):41-42.

[4]王济川,郭志刚.Logistic回归模型—— 方法与应用[M].北京:高等教育出版社,2001,9.

基于Logistic回归分析模型的足球彩票预测方法

相关内容

热门内容

标签