2018年俄国世界杯赛程完整篇详细介绍本届谁最可能夺得冠军?

引言:令众多粉丝兴奋的2018年俄国世界杯即将开始,相对于粉丝而言,每一届世界杯中,除开玩家精湛的球技以外,令人关心的还有对夺得冠军球队的预测。近期,巴黎圣日耳曼理工大学(Technische Universitt Dortmund)的Andreas Groll专家教授,根特大学(Ghent University)的Christophe Ley专家教授、Hans Van Eetvelde专家教授,德国慕尼黑理工学院(Technical University of Munich)的Gunther Schauberger专家教授较为了一些足球队比赛得分的建模,并使用一种基于任意(管理决策)山林的建模,应用世界足球的排名,平均年龄为和欧冠玩家总数,我国人口比例,国民生产总值,乃至教练的国藉等多种因素,对2018年世界杯足球比赛开展预测。

在此项研究中,大家非常了三种不同类型的足球队比赛得分的建模,而这是依据它们在2002年至2014年四次国际性足球联盟世界杯(FIFA World Cups)的所有比赛中进行的预测性主要表现进行的:泊松线性回归模型(Poisson regression models),决策树(random forests)和排名方式(ranking methods)。前两种方法根据团队协变量信息内容,然后一种方法可能充足的能力主要参数,而这些主要参数体现了现阶段团队最好整体实力。在这样一个较为中,在训练数据中表现比较好的预测方法是什么排名方法和决策树。但是,大家说明,通过将决策树与来源于排名方式的团队能力主要参数相组成做为附加的协变量,我们能进一步提高预测能力。最终,我们在选择此方法的组合做为最后实体模型,根据其可能,2018年世界杯将会被不断仿真模拟,并获得全部参赛队伍的取胜机率。相较卫冕法国,该实体模型稍微偏重适用意大利。除此之外,大家带来了全部球队在所有公开赛环节的生存几率及其最可能的公开赛结论。

如同以前的2014年世界杯一样,即将在俄国举行的世界杯也引起了若干位建模师们的关注,她们尝试预测出公开赛的冠军。有一种方式已经为以往欧洲锦标赛(世界杯)和世界足球世界杯若干项比赛获得了科学合理的结论,此方法都是基于筹码备案艺人经纪人(bookmakers)的几率中常包括的预期信息内容(Leitner、Zeileis和Hornik于2010年、Zeileis、Leitner和Hornik于2012年、2014年、2016年明确提出)。如今,对于这样的关键比赛,筹码备案艺人经纪人在公开赛开始之前为优胜者提供一个筹码。通过将多个家线上筹码备案经纪人的获得胜利概率归纳并将其转化成获得胜利几率,反方向公开赛仿真模拟适合于测算特殊于团队能力,关于这一点可参考Leitner、Zeileis和Hornik(于2010年明确提出)的论文。凭着足球队独有的能力,全部场均比赛都可以通过匹配较为开展仿真模拟,因而,赢得了完备的公开赛课程内容。Zeileis、Leitner和Hornik(于2018年)预测墨西哥会以16.6%的几率获得2018年世界杯,其次法国(15.8%)和西班牙(12.5%)。

相同的三支足球队被瑞士银行UBS的一组权威专家确定为最热门的玩家,但有着不一样的几率和不同的顺序(Audran、Bolliger、Kolb、Mariscal和Pilloud,2018年):她们得到法国深受喜爱的玩家,获得胜利几率为24.0%,其次墨西哥(19.8%)和西班牙(16.1%)。她们应用一个根据四个因素的统计模型,而这四个要素将说明球队在比赛期内表现的将如何:Elo得分,球队在世界杯以前预选赛中的表现,足球队放前几届世界杯公开赛中的成绩与家庭优点。该模式根据使用时五场比赛的结果开展校正,并进行了10,000次蒙特卡罗模拟(Monte Carlo simulations)以确定全部球队的获得胜利几率。

图2:柱形图显示,用于FIFA世界杯2002—2014年数据中的决策树中自变量必要性,评分总数作为响应变量,毕业论文第2一部分描述的自变量作为预测自变量。

另一个被证实在预测以前的国际性足球锦标赛(如世界杯或世界杯)结论中有意义的模型类,是泊松线性回归模型的类,它直接对2个市场竞争团队在场均比赛里的进球得分开展模型。建在i和j队间的比赛中,Xi j和Yi j各自表明第一和第二队的总体目标,其中i,j∈{1,…,n},n代表公开赛中球队的数量。假定Xi jPo(λij)和Yi jPo(μij),在其中λij和μij表明相对应泊松分布强度主要参数(即期望的总体目标总数)。对于这些抗压强度主要参数,存有几类模型对策,他们以不同方式将市场竞争团队能力或协变量包含以内。

在简单的前提下,泊松分布被称作(条件性)独立,完全取决于团队能力或协变量。比如,Dyte和Clarke(于2000年)将此实体模型用于世界足球世界杯的数据中,并让两只参赛队伍的泊松抗压强度在于他的世界足球排名。Groll和Abedieh(于2013年)及其Groll、Schauberger和Tutz(于2015年)分别对世界杯和世界杯数据信息各自考虑了一组潜在的影响很大自变量,并使用L1惩罚方法来检测有关协变量的稀少集。鉴于此,对2012年世界杯和2014年FIFA世界杯的比赛作出了预测。这些方法说明,当牵涉到很多协变量和/或单变量的预测能力事前不具体时,正则化可能方式很有可能是有益的。

很多科研人员早已放宽了对条件独立性的强烈假定,而且引入了不一样的概率来将依靠成绩考虑在内。Dixon和Coles(于1997年)最先确认了得成绩中间的一个(轻度负)关联性。因而,她们引入了一个附加的依靠主要参数。但是,她们忽视了一个事实,即实体模型中强度主要参数,包含2个团队能力(或协变量)本身是有关的。因而,虽然以能力为条件,泊松分布被假设为独立,但是它们是边界有关的。Karlis和Ntzoufras(于2003年)明确提出用双变量泊松分布(bivariate Poisson distribution)对2个团队评分开展模型,该遍布可以表述评分间的(正)关联性。虽然双变量泊松分布只有表述正相关性,但基于copula的实体模型也容许负相关性(可参照McHale和Scarf于2007年、McHale和Scarf于2011年或Boshnakov、Kharrat和McHale于2017年所提出的见解)。

图3:依据FIFA世界杯的100,000次仿真模拟运作及其依据ODDSET欧赔获得胜利的几率,为所有32支球队进到2018年世界杯足球比赛不同阶段的预测几率(以百分数表明)。

但是,有关双变量泊松的案例,Groll、Kneib、Mayr和Schauberger(于2018年)带来了一些直接证据,如果两个市场竞争团队高数据量协变量都包含在两个(条件性)单独泊松分布强度中,那样比赛分数的依靠构造可以被适当地模型。她们涵盖了世界杯数据库的一大组协变量,并使用提高优化算法(boosting approach)来选择一个用以预测2016年世界杯的稀少实体模型。因为双变量泊松分布的依赖感主要参数从没被提高优化算法升级过,所以有2个(条件性)单独泊松分布就足够了。

与根据协变量的泊松线性回归模型密切相关的都是基于泊松的足球队伍排名方式。关键思想是寻找可以反应现阶段精英团队最好实力的足够多的能力主要参数。以一组比赛为载体,再通过最大似然法(maximum likelihood)可能这些主要参数。Ley、Van de Wiele和Van Eetvelde(于2018年)探讨了各种各样泊松实体模型,对其它们预测特性作出了较为。由此产生的最好实体模型是单独泊松实体模型及其Karlis和Ntzoufras(于2003年明确提出)的简单的双变量泊松分布。有趣的是,Ley等(于2018年)发觉,这种实体模型在国外公开赛和中国国家队比赛中的表现都强于对方。这种根据统计分析力量的排名为世界足球的排名提供了一个有意思的挑选。

一种完全不同的建模都是基于任意(管理决策)山林(random (decision) forests),这是一种由Breiman(于2001年)所提出的用以归类、重归和其它任务的集成学习方式。此方法始于机器学习算法和大数据挖掘小区,而且最先通过在训练数据上搭建很多所谓决策树算法进行操作的。随后,根据选用预测类方式(在类别中)或均值预测值(在重返中)来汇总单独树的预测结论。那样,与基本决策树算法对比,决策树降低了过度拟合的态势和标准差,因而,这是常见的强劲预测专用工具。在Schauberger和Groll(于2018年)的基本研究中,不同种类的决策树早已与传统记数数据库的回归方法(如以上泊松实体模型),在包括2002 – 2014年FIFA世界杯的所有比赛的信息中对预测特性作出了较为。事实上,决策树带来了十分令人满意的结论,而且通常要好于回归方法。并且,他的预测主要表现事实上要不贴近甚至超过做为当然标准的筹码备案经纪人的主要表现。这种结论激励我们在目前的科学研究中应用决策树来算即将到来的2018年FIFA世界杯的预测。但是,我们将要证实,如果能对体现中国国家队现阶段实力的团队能力主要参数进行充分的可能,并将其作为附加的协变量,决策树已有的十分出色的预测能力可以获得进一步的改善提升。

发表评论

您的电子邮箱地址不会被公开。