基于Logistic回归分析模型的足球彩票预测方法

基于Logistic回归分析模型的足球彩票预测方法

摘要:本文收集了2010年—2011年意大利足球甲级联赛前30场比赛中得分、积分、主客场情况、净胜球数等数据,首先对数据做主成分分析,剔除影响不显著的变量,然后运用多分类Logistic回归方法,建立Logistic回归模型,预测比赛结果。结果显示:对2010年—2011意大利足球甲级联赛结果影响较大的是主客场,多分类Logistic回归模型判断正确率较高。

关键词:Logistic回归分析模型 主成分分析 足球彩票

随着我国足球彩票的发行,预测足球彩票结果一直是人们探讨的问题,以往的文献中也发现了用不同的方法预测竞猜结果。文献[1~3]采用不同的数学模型方法讨论如何更加准确地预测所涉及的比赛结果。Logistic回归通常以离散型的分类变量发生结果的概率为因变量,以影响因素为自变量建立模型。研究分类变量(因变量)与影响因素(自变量)之间关系的研究方法,属于概率型非线性回归方法。从足球比赛的一般情况来看,一场比赛的结果有三个:胜、平、负,因而对一场比赛的预测结果即因变量可以认为有三类。同时,比赛的结果除了受到球队实力的影响,还与比赛当时的天气、球队排名、球队状态、教练、球队主客场作战能力等因素有关。因而我们首先讨论如何量化以上指标,并运用主成分分析找出影响比赛结果的主要因素,进而将这些主要因素作自变量,比赛结果作为因变量建立多分类Logistic回归分析模型,并利用该模型预测每场足球比赛结果。

1 多分类Logistic回归模型

当因变量是一个多分类指标,特别是有序多分类指标时,如流行病学中某些慢性病的危险因素研究,观察结果为“无、轻、中、重”等不同等级资料,可以采用多分类Logistic回归或有序多分类Logistic进行分析。

本文用有序多分类Logistic回归预测2010年—2011年意大利足球甲级联赛结果。多分类Logistic回归是因变量为多项分类的资料,如足球联赛中的主场的结果可能是胜、平、负,这些结果通常都按3、2、1等整数序列编码。在反应变量的各类中有明确的从低到高的排序,但相邻各类之间的差距未知。对序次测度反应变量建立模型的适当方法之一是累积回归模型,也称序次Logistic回归模型或比例发生比模型。序次Logistic回归模型定义如下:

有了累积分布函数以后,既可以采用logit也可以采用probit作为对序次反应变量建模的关联函数。它们将产生累积Logistic回归模型,累积Logistic回归可以定义如下:

从上式可以看到,累积Logistic回归模型中,logit是按反应变量的类别定义的。也就是说,模型的发生比是通过该发生比分子中的时间

概率的一次连续累积而形成。累计概率可以通过以下公式进行预测:

2 数值试验结果

足彩是从欧洲各大联赛选取一部分场次的比赛进行竞猜,因而每轮竞猜的球队都会发生变化,如果只对足彩涉及的球队进行分析,不具有一般性,因而我们选择具有代表性的联赛如意大利甲级联赛进行统一分析,不论足彩选择哪场比赛都能用本文方法进行分析,其它联赛可以类似地进行讨论。

2.1 数据预处理

现实生活中的数据极易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大,并且多半来自多个数据源。低质量的数据将导致低质量的数据预测结果。因此,在建模前,应进行数据预处理。本文主要运用数据的集成与变换对2010年—2011年意大利足球甲级联赛的数据进行预处理。设:(1):得分,即球队当场比赛的得分,胜得3分,平得2分,负得1分;(2):积分,即累计该场比赛以及之前比赛的得分;(3):主客场,即比赛在该球队的场地,表示主场记;否则;(4):净胜球数,即球队该场比赛胜球数减去失球数;(5):主队主场净胜球率,即主队主场净胜球数除以主队在主场已比赛的场次;(6):客队客场净胜球率,即客队客场

净胜球数除以客队在客场已比赛的场次。为了尽可能完整地获取影响足球比赛结果的相关因素,我们通过网上收集2010年—2011年意大利甲级联赛的第1场到第19场比赛的数据,整理得到得分、积分、主客场、净胜球数、主场主队净胜球率、客场客队净胜球率等指标。

2.2 变量筛选

一般来说,同一个问题所涉及的众多变量之间会存在一定的相关性,相关性会使变量的信息有所重叠,为了使收集的2010年—2011年意大利足球甲级联赛的比赛数据更简明,这里用主成分分析方法筛选预处理得到的数据,删去信息重叠的变量,用为数较少的、信息互不重叠的变量来反应原变量提供的大部分信息,从而简化了数据。为了说明主成分分析筛选过程,现以意大利甲级联赛第7场比赛的筛选为例。2010年—2011意大利足球甲级联赛第7场比赛主成分筛选变量(如表1、2)。

表1表示各样本相关系数矩阵的特征值、相邻两个特征值之差、每个特征值所解释的方差的比率和累计贡献率,可以看出第四主成分的特征值最小,为0.19817180,并且在表2中第四主成分所对应的最大权数为0.738267,所对应的变量为。所以,这一轮筛选应该删去。

删去后的主成分分析结果如表3、4。

同理,第三主成分的贡献率最小,其所对应的特征向量的最大权数为0.721887,对应的变量为。所以,这一轮应该删去。

综合2010-2011意大利足球甲级联赛各场比赛筛选删去变量如表5。

从以上统计删去变量来看,积分和得分被删去的次数最多,累计有15次,其次净胜球数被删去的次数有8次,主客场被删去的次数只有1次。为了便于模型的建立,我们选择用球队主客场比赛情况作为自变量和各场比赛胜平负情况作为因变量建立2010年—2011年意大利足球甲级联赛的多分类Logistic回归模型。

2.3 多分类Logistic模型

根据变量筛选的结果,我们收集了2010年—2011年意大利甲级联赛30场比赛各球队的主客场情况和各场比赛的胜平负情况数据,并统计各球队主客场的胜平负情况,确定自变量:

表8显示,因变量与预测概率的一致性为52%,不一致性为40.1%,

关联系数Somers‘D=0.118和Gamma=0.129表明两者之间有中等程度的关联性,从观测值和预测值之间的对比来看两者基本接近。

这里有序反应变量有3个水平即,为自变量向量,取个水平的概率,将3个水平分为两类,按两分类反应变量Logistic回归模型对多分类有序反应变量Logistic回归,这里得到Logistic回归方程:

p

其中某轮比赛胜、平、负预测概率的均值和标准差。标准化预测概率后,再根据最大隶属原则进行决策该场比赛属于哪种结果。

以2、3对样本进行预测,预测该队该场比赛为胜的赋值为3,预测该队该场比赛为平或负的赋值为2,所建预测模型的回判结果如表9所示。

在回判情况中,回判正确标为√,回判错误标为×。

表9是用2010年—2011年意大利甲级联赛第15场和第29场结果作为观测值,那不勒斯的两个观测值表示,用于回判的两场比赛都在客场进行,卡利亚里的客场有两个观测值同理。

从模型的回判结果可知,当观测值为1时,模型回判正确率为

78.57%,即通过模型预测出14场比赛中有11场比赛结果会为负或平。当观测值为2时,模型回判正确率为66.67%,12场比赛中有8场比赛结果会为负或平。当观测值为3时,模型回判正确率为69.23%,13场比赛有9场比赛结果会是胜(如表10)。

这里预测正确率都达65%以上,最高的有78.57%,实际比赛还受其他因素的影响,例如天气情况、球队球员状态、历史交锋、球员伤病情况、教练及裁判等不确定因素,致使比赛结果出现冷门现象。

3 结论

总体来说,模型以较少的、能预知的变量对意大利足球甲级联赛各场比赛结果进行评估,具有较好的现实意义。足球比赛结果具有许多不可抗力的因素,本文希望通过多分类Logistic回归模型的构建在可抗力范畴对比赛结果进行评估,为预测足彩结果提供依据。

参考文献

[1]宋鑫,林千惠,陈锡岩,等.基于预测奖金模型的足球彩票过滤方法研究[J].统计与决策,2009(23):53-56.

[2]胡茂林,徐寅峰,徐维军.足球彩票胜负游戏的优化组合—— 在线组合优化[J].系统工程理论与实践,2007(1):119-130.

[3]汪兵,易雯.参考足彩投资的概率模型[J].中南民族大学学报,2003(22):41-42.

[4]王济川,郭志刚.Logistic回归模型—— 方法与应用[M].北京:高等教育出版社,2001,9.

基于Logistic回归分析模型的足球彩票预测方法

摘要:本文收集了2010年—2011年意大利足球甲级联赛前30场比赛中得分、积分、主客场情况、净胜球数等数据,首先对数据做主成分分析,剔除影响不显著的变量,然后运用多分类Logistic回归方法,建立Logistic回归模型,预测比赛结果。结果显示:对2010年—2011意大利足球甲级联赛结果影响较大的是主客场,多分类Logistic回归模型判断正确率较高。

关键词:Logistic回归分析模型 主成分分析 足球彩票

随着我国足球彩票的发行,预测足球彩票结果一直是人们探讨的问题,以往的文献中也发现了用不同的方法预测竞猜结果。文献[1~3]采用不同的数学模型方法讨论如何更加准确地预测所涉及的比赛结果。Logistic回归通常以离散型的分类变量发生结果的概率为因变量,以影响因素为自变量建立模型。研究分类变量(因变量)与影响因素(自变量)之间关系的研究方法,属于概率型非线性回归方法。从足球比赛的一般情况来看,一场比赛的结果有三个:胜、平、负,因而对一场比赛的预测结果即因变量可以认为有三类。同时,比赛的结果除了受到球队实力的影响,还与比赛当时的天气、球队排名、球队状态、教练、球队主客场作战能力等因素有关。因而我们首先讨论如何量化以上指标,并运用主成分分析找出影响比赛结果的主要因素,进而将这些主要因素作自变量,比赛结果作为因变量建立多分类Logistic回归分析模型,并利用该模型预测每场足球比赛结果。

1 多分类Logistic回归模型

当因变量是一个多分类指标,特别是有序多分类指标时,如流行病学中某些慢性病的危险因素研究,观察结果为“无、轻、中、重”等不同等级资料,可以采用多分类Logistic回归或有序多分类Logistic进行分析。

本文用有序多分类Logistic回归预测2010年—2011年意大利足球甲级联赛结果。多分类Logistic回归是因变量为多项分类的资料,如足球联赛中的主场的结果可能是胜、平、负,这些结果通常都按3、2、1等整数序列编码。在反应变量的各类中有明确的从低到高的排序,但相邻各类之间的差距未知。对序次测度反应变量建立模型的适当方法之一是累积回归模型,也称序次Logistic回归模型或比例发生比模型。序次Logistic回归模型定义如下:

有了累积分布函数以后,既可以采用logit也可以采用probit作为对序次反应变量建模的关联函数。它们将产生累积Logistic回归模型,累积Logistic回归可以定义如下:

从上式可以看到,累积Logistic回归模型中,logit是按反应变量的类别定义的。也就是说,模型的发生比是通过该发生比分子中的时间

概率的一次连续累积而形成。累计概率可以通过以下公式进行预测:

2 数值试验结果

足彩是从欧洲各大联赛选取一部分场次的比赛进行竞猜,因而每轮竞猜的球队都会发生变化,如果只对足彩涉及的球队进行分析,不具有一般性,因而我们选择具有代表性的联赛如意大利甲级联赛进行统一分析,不论足彩选择哪场比赛都能用本文方法进行分析,其它联赛可以类似地进行讨论。

2.1 数据预处理

现实生活中的数据极易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大,并且多半来自多个数据源。低质量的数据将导致低质量的数据预测结果。因此,在建模前,应进行数据预处理。本文主要运用数据的集成与变换对2010年—2011年意大利足球甲级联赛的数据进行预处理。设:(1):得分,即球队当场比赛的得分,胜得3分,平得2分,负得1分;(2):积分,即累计该场比赛以及之前比赛的得分;(3):主客场,即比赛在该球队的场地,表示主场记;否则;(4):净胜球数,即球队该场比赛胜球数减去失球数;(5):主队主场净胜球率,即主队主场净胜球数除以主队在主场已比赛的场次;(6):客队客场净胜球率,即客队客场

净胜球数除以客队在客场已比赛的场次。为了尽可能完整地获取影响足球比赛结果的相关因素,我们通过网上收集2010年—2011年意大利甲级联赛的第1场到第19场比赛的数据,整理得到得分、积分、主客场、净胜球数、主场主队净胜球率、客场客队净胜球率等指标。

2.2 变量筛选

一般来说,同一个问题所涉及的众多变量之间会存在一定的相关性,相关性会使变量的信息有所重叠,为了使收集的2010年—2011年意大利足球甲级联赛的比赛数据更简明,这里用主成分分析方法筛选预处理得到的数据,删去信息重叠的变量,用为数较少的、信息互不重叠的变量来反应原变量提供的大部分信息,从而简化了数据。为了说明主成分分析筛选过程,现以意大利甲级联赛第7场比赛的筛选为例。2010年—2011意大利足球甲级联赛第7场比赛主成分筛选变量(如表1、2)。

表1表示各样本相关系数矩阵的特征值、相邻两个特征值之差、每个特征值所解释的方差的比率和累计贡献率,可以看出第四主成分的特征值最小,为0.19817180,并且在表2中第四主成分所对应的最大权数为0.738267,所对应的变量为。所以,这一轮筛选应该删去。

删去后的主成分分析结果如表3、4。

同理,第三主成分的贡献率最小,其所对应的特征向量的最大权数为0.721887,对应的变量为。所以,这一轮应该删去。

综合2010-2011意大利足球甲级联赛各场比赛筛选删去变量如表5。

从以上统计删去变量来看,积分和得分被删去的次数最多,累计有15次,其次净胜球数被删去的次数有8次,主客场被删去的次数只有1次。为了便于模型的建立,我们选择用球队主客场比赛情况作为自变量和各场比赛胜平负情况作为因变量建立2010年—2011年意大利足球甲级联赛的多分类Logistic回归模型。

2.3 多分类Logistic模型

根据变量筛选的结果,我们收集了2010年—2011年意大利甲级联赛30场比赛各球队的主客场情况和各场比赛的胜平负情况数据,并统计各球队主客场的胜平负情况,确定自变量:

表8显示,因变量与预测概率的一致性为52%,不一致性为40.1%,

关联系数Somers‘D=0.118和Gamma=0.129表明两者之间有中等程度的关联性,从观测值和预测值之间的对比来看两者基本接近。

这里有序反应变量有3个水平即,为自变量向量,取个水平的概率,将3个水平分为两类,按两分类反应变量Logistic回归模型对多分类有序反应变量Logistic回归,这里得到Logistic回归方程:

p

其中某轮比赛胜、平、负预测概率的均值和标准差。标准化预测概率后,再根据最大隶属原则进行决策该场比赛属于哪种结果。

以2、3对样本进行预测,预测该队该场比赛为胜的赋值为3,预测该队该场比赛为平或负的赋值为2,所建预测模型的回判结果如表9所示。

在回判情况中,回判正确标为√,回判错误标为×。

表9是用2010年—2011年意大利甲级联赛第15场和第29场结果作为观测值,那不勒斯的两个观测值表示,用于回判的两场比赛都在客场进行,卡利亚里的客场有两个观测值同理。

从模型的回判结果可知,当观测值为1时,模型回判正确率为

78.57%,即通过模型预测出14场比赛中有11场比赛结果会为负或平。当观测值为2时,模型回判正确率为66.67%,12场比赛中有8场比赛结果会为负或平。当观测值为3时,模型回判正确率为69.23%,13场比赛有9场比赛结果会是胜(如表10)。

这里预测正确率都达65%以上,最高的有78.57%,实际比赛还受其他因素的影响,例如天气情况、球队球员状态、历史交锋、球员伤病情况、教练及裁判等不确定因素,致使比赛结果出现冷门现象。

3 结论

总体来说,模型以较少的、能预知的变量对意大利足球甲级联赛各场比赛结果进行评估,具有较好的现实意义。足球比赛结果具有许多不可抗力的因素,本文希望通过多分类Logistic回归模型的构建在可抗力范畴对比赛结果进行评估,为预测足彩结果提供依据。

参考文献

[1]宋鑫,林千惠,陈锡岩,等.基于预测奖金模型的足球彩票过滤方法研究[J].统计与决策,2009(23):53-56.

[2]胡茂林,徐寅峰,徐维军.足球彩票胜负游戏的优化组合—— 在线组合优化[J].系统工程理论与实践,2007(1):119-130.

[3]汪兵,易雯.参考足彩投资的概率模型[J].中南民族大学学报,2003(22):41-42.

[4]王济川,郭志刚.Logistic回归模型—— 方法与应用[M].北京:高等教育出版社,2001,9.


相关内容

  • 生物信息学软件
  • 生物信息学软件 Bioinformatics software 课程编号: X10001 总学时数: 20学时 主讲教师: 肖 云 教材名称: 生物信息学 出 版 社: 人民卫生出版社 出版时间: 2010年 主 编: 李 霞 开课教研室: 生物信息教研室 学 分: 1学分 开课学期: 第1学期 课 ...

  • 基于Logit模型的国债依存度分析
  • 基于Logit模型的国债依存度分析 [摘要] 在Logit模型的基础上,本文使用1981-2009年的年度数据,对国债依存度超过国际预警线的概率和赤字依存度的关系进行实证分析.实证结果显示,由于我国国债是赤字的主要弥补来源,所以当我国的赤字依存度大于 6.56%时,我国的国债依存度超过国际预警线的概 ...

  • 滑坡稳定性评价的方法及标准
  • 第17卷第3期2006年9月 中国地质灾害与防治学报 ne Chinese V01.17 aIldContml No.3 JoumalofGeological H蹦lId Sep.2006 滑坡稳定性评价的方法及标准 郑静 (中铁西北科学研究院,甘肃兰州 730000) 摘要:滑坡稳定性评价是滑坡防 ...

  • 回归.分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)
  • 选自EliteDataScience 机器之心编译 参与:蒋思源.晏奇 在本教程中,作者对现代机器学习算法进行一次简要的实战梳理.虽然类似的总结有很多,但是它们都没有真正解释清楚每个算法在实践中的好坏,而这正是本篇梳理希望完成的.因此本文力图基于实践中的经验,讨论每个算法的优缺点.而机器之心也在文末 ...

  • 旅游需求预测方法的比较分析
  • 第28卷第6期世界科技研究与发展Vd.28No.62006年12月84-88页WORLDSCI-TECHR&DDec.2006pp.84-88 旅游需求预测方法的比较分析 任来玲刘朝明 (西南交通大学经济管理学院,成都610031) 摘要:需求预测是旅游计划管理的一项重要工作.旅游需求预测对 ...

  • logistic 回归与线性回归的比较
  • 1 logistic回归 logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域.例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等.以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不 ...

  • 中国农村贫困家庭的识别_汪三贵
  • 农业技术经济 2007年第1期 中国农村贫困家庭的识别 汪三贵 王 姮 王萍萍 * (中国人民大学农业与农村发展学院 北京 100872)(中国农业科学院农业经济与发展研究所 北京 100081)(国家统计局农村社会经济调查司 北京 100826) 内容提要 本文利用国家统计局农村贫困监测数据和计量 ...

  • 多项分类Logistic回归分析的功能与意义 (1)
  • 多项分类Logistic 回归分析的功能与意义 我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业.婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型.SPSS 的多项分类Logistic 回归便是一种简便的处理该类因变量问题的分析方 ...

  • 卫生统计学教学大纲
  • 卫生统计学教学大纲 (供预防医学专业五年制本科生使用) 前言 卫生统计学是研究居民健康状况以及卫生服务领域中数据的收集.整理和分析的一门科学.本课程的教学目的是为学生在校学习专业课程,毕业后从事公共卫生领域的研究和实际工作,打下必要的卫生统计学基础.在学习本课程时,应注意掌握卫生统计学的基本理论.基 ...