Coupe du monde de foot 2018: quelle équipe va la gagner ?

Machine learning

A moins d’être parti au Pôle Nord, ou au fin fond de la forêt Amazonienne, depuis des mois, vous savez que la coupe du monde de foot commence aujourd’hui. Dans le courant de la semaine dernière, j’ai vu paraître trois études pronostiques de cette coupe du monde, au sein de la communauté R. Par ordre d’apparition : les travaux d’ Achim zeileis, ceux d’ Enora Belz (et ses co auteurs, dont Ewen Gallic) et ceux de Lorenz Gilch et Sebastian Muller.

Je crois que j’ai commencé à m’intéresser aux pronostics le jour où, Donald Trump à gagné les élections américaines ! Je m’en souviens très bien, parce que ça m’a valu un petit-déjeuner pour tout le laboratoire et des excuses. Fin octobre 2016, un doctorant (Thomas F.), vient me parler de ces élections, et évoque le fait que Donald Trump pourrait remporter la présidence. Je lui réponds d’un ton légèrement condescendant “Impossible ! Nate Silver, le pape de la prédiction politique aux Etats Unis dit”Niet“, alors c’est Niet ! Tu ne connais pas Nate Silver ?”.

Voilà, voilà….

Plus récemment, je me suis aussi intéressée aux paris sportifs, et j’ai entraîné le même doctorant, à parier sur la victoire de Marseille, en final de l’Europa Ligue …..Pour ceux qui se posent la question, non, ce n’était pas une tentative de revanche, juste de l’aveuglement ! Du coup, j’ai songé un moment à proposer un nouvel algorithme de prédiction du type “faites l’inverse de ce que je fais” !

Donc aujourd’hui, je ne vais pas vous faire l’affront de vous présenter mes prédictions pour la coupe du monde ! Je vais seulement vous présenter dans les grandes lignes les approches utilisées par les trois études citées plus haut, et leurs principaux résultats.

 

I. L’étude d’Achim Zeileis

Achim Zeileis utilise une méthode relativement simple, basée sur les cotes proposées par 26 sites de paris sportifs (bookmakers), pour estimer la probabilité, de chaque équipe engagée, de gagner cette coupe du monde 2018. Dans un second temps, il utilise, de façon un peu plus complexe, ces probabilités pour simuler le parcours des équipe dans la compétition. Je vais vous expliquer la démarche, tel que je l’ai comprise.

Dans un premier temps, Achim Zeileis collecte les cotes (d’être vainqueur du tournoi) des 32 équipes, proposées par 26 bookmakers. A partir de ces cotes “affichées”, il calcule des cotes “réelles” qui prennent en compte le prix du pari (le -1) et la marge de gain du site ( le delta).

$$cote\; reelle = (cote\; affiche – 1)\delta $$

La cote réèlle est ensuite transformée en probabilité :

$$p_{(i,b)} = 1-\frac{cote\;reelle_{(i,b)}}{1+ cote\;reelle_{(i,b)}} $$

i étant l’indice de l’équipe et b celui du bookmaker.

Ces probabilités sont alors transformées en logit:
$$ logit\;(p) = ln (\frac{p}{1-p}) $$

Puis, pour chaque équipe, les logit des probabilités issues des 26 bookmakers sont moyennés :

$$\hat{logit\;p_i} =\frac{1}{26}\sum_{b=1}^{26} logit\;(p_{(i,b)}) $$

 

Enfin, les logit moyen sont back transformés en probabilité :

$$p_i = logit^{-1}\; (\hat{logit(p_i))}$$

Au final les probabilités de gagner la coupe du monde pour chacune des équipes sont résumées dans ce graphique :

analyses prédictives avec R

 

Dans un second temps, Achim zeileis, prédit le parcours de chaque équipe dans le tournoi en s’appuyant sur les probabilités, par paire, de gagner un match (pairwise winning probabilities). Ces probabilités par paires sont estimées à partir de l’état de forme des deux équipes considérées :

$$ \pi_{ij} = \frac{Etat\; de\ forme\;_i}{(Etat\; de\ forme\;_i + Etat\; de\ forme\;_j)} $$

 

p_ij représente la probabilité que l’équipe i gagne le match qui l’oppose à l’équipe j.

 

Ces probabilités de gagner, pour toutes les équipes considérées deux à deux, sont résumées dans cette matrice :

analyses prédictives avec R

 

Ces probabilités de gagner un match pour une paire d’équipes i et j données, sont utilisées pour simuler un grand nombre de fois (ici 1 million) l’issue de chaque match de groupe. Par exemple si, pour le match d’ouverture “Russie vs Arabie Saoudite”, la probabilité de gagner de la Russie est de 65% alors 65% des simulations conduiront à la victoire de la Russie, et 35% des simulations à celle de l’Arabie Saoudite.

Ces simulations sont donc réalisées pour chaque match de groupe. Puis ensuite le reste du tournoi est déroulé : pour chacune des simulations, les huitième de finales sont à leur tour simulées en faisant se rencontrer le premier et le second de chaque groupe, etc… jusqu’à la finale.

Pour chaque équipe, le nombre de simulations prédisant sa victoire finale dans la compétition est rapporté au nombre total de simulations, c’est à dire un million. Cette fréquence de victoires correspond alors à la probabilité, pour une équipe donnée, de gagner le tournoi.

Achim Zeilis utilise alors une astuce : il contraint les valeurs d’état de formes des équipes i et j pour qu’au final, les fréquences de victoire estimées à partir des simulations correspondent aux probabilités de gagner la coupe de monde, estimées précédemment grâce aux données des bookmakers. Cette approche inversée de simulation du tournoi, lui permet de prédire le parcours des équipes en fonction des données des bookmakers.

Ces parcours sont résumés dans ce diagramme de Sankey :

analyses prédictives avec R

 

D’aprés cette étude, le Brésil a la plus grande probabilité prédite de remporter cette coupe du monde de footbal (16.6%), suivi par l’Allemagne (15.8%), puis par l’Espagne (12.5%) et la France (12.1%).

Si vous voulez plus d’information sur la méthode employée, vous pouvez consulter cette publication ou encore celle là.

 

II. L’étude d’Enora Belz, Ewen Gallic,

Romain Gaté, Jimmy Merlet et Vincent Malardé

Une équipe française, composée de chercheurs juniors en économie, a proposé une autre approche pour estimer la probabilité pour chaque équipe de gagner la coupe du monde, et prédire leur parcours.

Cette approche repose sur des algorithmes de Machine Learning , et l’utilisation des données des rencontres passées entre les équipes engagées, qui ont eu lieu entre 1993 et avril 2018. Plus précisément, comme expliqué dans ce document, les variables fournies en entrées des algorithmes sont “le rang de l’équipe 1 dans le classement mondial de la FIFA, la différence qui la sépare du rang de l’équipe 2, la forme offensive/défensive de chaque équipe (le nombre de buts inscrits/concédés sur les trois derniers matchs, en moyenne), le type de rencontre (s’il s’agit d’une compétition mondiale comme la Coupe du Monde ou continentale comme la Coupe d’Europe des nations), la phase de la compétition (préliminaire ou nale), le mois, l’année, le continent”.

Les algorithmes testés (k plus proche voisin, Classification naïve bayésienne, Bagging et arbres de classification, Forêts aléatoires, Gradient Boosting stochastique, Régression logistique par boosting, Support Vector Machine, Réseaux de neurones, Combinaison des 8 premiers algorithmes) répondent à la problématique de classification, qui est ici “la victoire de l’équipe 1”, ou “le match nul” ou “la victoire de l’équipe 2”. Plus précisément ces modèles renvoient une probabilité pour chacune de ses modalités.

Toute la démarche classique du machine learning a été appliquée : séparation des données en une partie training et une partie testing, le tunning des paramètres des algorithmes par validation croisée, l’évaluation des performances.

Au final, le modèle retenu est une combinaison des 8 algorithmse testés. Evalué sur l’échantillon test, il permet de prédire correctement :

  • 85.8% des victoires de l’équipe 1 ;
  • 0.6% des matchs nuls ;
  • 62.3% des victoires de l’équipe 2.

 

Cet algorithme est, dans un premiers temps, employé pour chaque match de groupe, afin de d’estimer la probabilité d’une victoire de l’équipe 1, la probabilité d’un match nul, et la probabilité d’une victoire de l’équipe 2. Ici par exemple, les probabilité du match d’ouverture.

 

Ces 3 probabilités sont ensuite employées pour simuler un grand nombre de fois (ici 50 000) l’issue de chacun de ces matchs de groupe. Par exemple, pour le match d’ouverture, la probabilité de victoire de la Russie est de 53.38%, la probabilité d’un match nul est de 27.03% et la probabilité de victoire de l’Arabie Saoudite est de 19.59%. En moyenne, 26690 simulations aboutiront alors à la victoire de la Russie, 13515 au match nul et 9795 à la victoire de l’Arabie Saoudite. Ces résultats des match de groupes sont ensuite injectés dans l’algorithme pour la prédiction des matchs de huitième de finale, puis de quart etc…jusqu’à la finale.

Cette approche permet ainsi de prédire le parcours de chaque équipe dans le tournoi, c’est à dire d’estimer la probabilité de “survie” de chaque équipe en huitième, quart, demi et finale. Ces différentes probabilités correspondent aux fréquences des simulations conduisant à une fin du tournoi à chacune des phases.

Ici un graph rapportant le parcours de l’équipe du Brésil :

 

Bien que les méthodes soient différentes, les résultats obtenus sont, au moins pour les quatre premières équipes, relativement similaires aux résultats obtenus par Achim Zeileis : l’équipe du Brésil à la probabilité de victoire la plus élevée ( 19.12%), suivie par celles d’Allemagne ( 15.52%), d’Espagne (10.64%), et de France (9.708%).

D’autres représentations très intéressantes sont proposées notamment pour visualiser les arbres de rencontres des 5 premières équipes, ou encore les séquences de rencontres simulées.

La méthode employée par cette équipe est décrite de façon extrêmement détaillé dans ce document. Si vous vous intéressez au Machine Learning, ça vaut vraiment le coup d’en prendre connaissance, car ce n’est pas si souvent qu’une approche est décrite de façon aussi détaillée, et en français. Je dis chapeau bas !

 

III. L’étude de Lorenz Gilch et Sebastian Muller

Malheureusement, je n’ai pu que survoler cette étude. Les prédictions sont basées sur une méthode encore différente. Ici, se sont les scores des matchs qui sont prédits, en utilisant des modèles de régression de Poisson. Les variables prédictives inclues dans ces modèles sont les notes ELO de chaque équipe. Ensuite, des simulations (ici 100 000) de type Monte Carlo sont utilisées pour simuler l’ensemble des phases du tournoi.

Cette approche conduit à des résultats un peu différents puisque cette fois c’est l’Allemagne qui a la plus forte la probabilité de victoire avec 26%, suivie par le Brésil (13.2%), puis l’Espagne (11.2%) et l’Argentine (9.20%). La France se classe 7ème avec une probabilité de 5.3%.

Les résultats de cette approches sont résumés dans le diagramme de Sankey suivant :

diagramme de sankey

 

 

Si vous voulez en savoir plus sur cette méthode, vous pouvez consulter cette publication, ou encore ce post.

 

J’espère que ce petit article vous a plu. Si c’est le cas, n’hésitez pas à le partager !

Est ce qu’il vous donnera envie de faire des paris en ligne ? A cette question, l’équipe d’Enora Belz répond  “À vos risques et périls : prévoir n’est pas synonyme de savoir. Même si les résultats des rencontres passées peuvent avoir une certaine capacité prédictive, le résultat d’une rencontre reste évidemment déterminé par le talent des joueurs, mais est aussi associé à une part de chance.” Vous voilà prévenus, ne me tenez responsable de rien 😉

Merci à Achim Zeileis, Ewen Gallic, et Sebastian Muller de m’avoir permis d’utiliser certaines de leurs figures pour illustrer cet article.

crédit photo : QuinceMedia

 

Retrouvez ici 4 de mes articles les plus consultés :

Comparaison de moyennes : indiquez la significativité des différences sur le graph

Ressources francophones pour l’analyse de données avec le logiciel R

Tests de permutation avec le logiciel R 

Vous avez des données manquantes ? Essayez missMDA !

Partager l'article
  •  
  •  
  •  
  •  
  •  
    6
    Partages
  • 6
  •  
  •  
  •  
  •  

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *