Hvem vinder VM 2018 og hvem er bedst til at prædiktere det?
Sommeren står i sportens tegn for i år skal vi skal underholdes med både Tour de France og ikke mindst VM i fodbold. Den næste tv-måned bliver rædselsfuld, for man kan ikke tænde for fjernsynet uden at høre om fodbold hele tiden. Fodbold i fjernsynet er dog langtfra så underholdende, som at prædiktere vinderen ved hjælp af statistik, så hvorfor ikke tage forskud på glæderne inden VM sparkes i gang i eftermiddag, og komme med et bud på årets vinder.
Og vinderen er …
Den overordnede introduktion til den anvendte metode er beskrevet i [indlægget fra 2016]({{% relref "2016-06-01-em2016.html" %}}). Som input til modellen bruges enten ELO ranking (indhentet den 12. maj) eller odds for de 32 hold som input til modellen (indhentet fra Bet365 samme dag). Oddsene har allerede inkorporeret, at Rusland spiller på hjemmebane, men det har ELO værdierne ikke, og ligesom ved EM i 2016 øges ELO værdien med 5% for Rusland for at give en hjemmebanefordel.1 Denne hjemmebanefordel inkluderer derfor både gevinsten ved hjemmebanepublikum, effekten af bestikkelser mv. De 5% er - ligesom meget af det andet - grebet lidt ud af luften. Data fremgår af tabellen nedenfor.
Navn | Gruppe | odds | ELO | Navn | Gruppe | odds | ELO | |
---|---|---|---|---|---|---|---|---|
Egypt | A | 151.0 | 1646 | Brazil | E | 5.0 | 2131 | |
Russia | A | 41.0 | 1769 | Costa Rica | E | 501.0 | 1745 | |
Saudi Arabia | A | 1001.0 | 1582 | Switzerland | E | 101.0 | 1879 | |
Uruguay | A | 34.0 | 1890 | Serbia | E | 201.0 | 1770 | |
Iran | B | 501.0 | 1793 | Germany | F | 5.5 | 2092 | |
Morocco | B | 501.0 | 1711 | South Korea | F | 751.0 | 1746 | |
Portugal | B | 26.0 | 1975 | Mexico | F | 101.0 | 1859 | |
Spain | B | 7.0 | 2048 | Sweden | F | 151.0 | 1796 | |
Australia | C | 301.0 | 1714 | Belgium | G | 12.0 | 1931 | |
Denmark | C | 101.0 | 1843 | England | G | 19.0 | 1941 | |
France | C | 7.5 | 1984 | Panama | G | 1001.0 | 1669 | |
Peru | C | 201.0 | 1906 | Tunisia | G | 751.0 | 1649 | |
Argentina | D | 10.0 | 1985 | Colombia | H | 41.0 | 1935 | |
Croatia | D | 34.0 | 1853 | Japan | H | 301.0 | 1693 | |
Iceland | D | 201.0 | 1787 | Poland | H | 51.0 | 1831 | |
Nigeria | D | 201.0 | 1699 | Senegal | H | 201.0 | 1747 |
Når enten odds eller ELO omregnes til sandsynligheder kan holdene indbyrdes sammenlignes. De parvise sandsynligheder for kampene på baggrund af ELO scores kan ses i figuren nedenfor. Jo rødere farven er, jo større sandsynlighed er der for at holdet angivet ude til venstre vinder (før musen henover for at se de konkrete sandsynligheder). Man kan bemærke, at Brasilien, Spanien og Tyskland alle har gode chancer for at vinde hver af deres kampe (deres rækker er meget røde), mens det står noget værre til med eksempelvis Saudi Arabien.
Når vi simulerer 100000 slutrunder og tæller op, hvem der vinder VM, så tegner der sig et ret klart mønster: Tyskland har suverænt størst chance for at vinde VM (med en samlet sandsynlighed for at vinde på 25.357 %), mens Brasilien har den klart næststørste chance med 20.104 %. Resultaterne ændrer sig stort set ikke om man bruger data fra odds eller ELO rating til at lave simulationerne. Det er måske værd at bemærke, at Danmarks chancer for at vinde VM ikke er for gode: Vi har 0.111 % chance for at hive pokalen hjem!
Ser man på, hvilke hold, der kommer til at spille finalekampen mod hinanden er der en del variation. Tabellen nedenfor viser de 8 hyppigste kombinationer, og i ca. 14% af de simulerede slutrunder har det netop været Tyskland mod Brasilien, der har mødtes.
Lande | Hyppighed |
---|---|
Brazil, Germany | 14.037 |
France, Germany | 7.169 |
Belgium, Germany | 5.819 |
Argentina, Brazil | 5.630 |
Brazil, Spain | 5.128 |
Belgium, Brazil | 4.547 |
Belgium, England | 4.308 |
Brazil, England | 4.300 |
Danmarks chancer i gruppekampene
Danmark starter i samme gruppe som Frankrig, Peru og Australien, og vi går kun videre til resten af turneringen, hvis vi slutter som nummer 1 eller 2 i gruppen. Modellen kan udregne, hvor stor sandsynlighed der er, for at et givent hold ender som nummer 1, 2, 3 eller 4 i gruppen. For Danmarks gruppe estimeres sandsynlighederne til at være:
1 | 2 | 3 | 4 | |
---|---|---|---|---|
Australia | 1.28 | 18.77 | 35.93 | 44.02 |
Denmark | 6.97 | 46.62 | 27.09 | 19.32 |
France | 89.55 | 8.84 | 1.39 | 0.22 |
Peru | 2.20 | 25.77 | 35.59 | 36.44 |
Hvilken prædiktion er den bedste?
Min kode til at simulere slutrunder for VM 2018 har ligget offentlig i omkring en måneds tid, og andre er blevet opfordret til at bruge koden til at lave deres egne prædiktioner. Det er der kommet nogle interessant resultater ud af som eksempelvis denne blog-post fra Mango Solutions eller denne artikel i australske The Conversation. Det er altid interessant at se, hvordan andre angriber samme problemstilling, men mere interessant er det, hvordan vi efterfølgende - når VM er slut - kan sammenligne vores prædiktioner og kåre en vinder.
Ved VMs slutning ved vi, hvor langt hvert land nåede i konkurrencen. Når kvaliteten af de enkelte prædiktioner skal vurderes er det ikke nok kun at se på, hvor gode de har været til at prædiktere vinderen af VM. Det skal også tælle med, hvor god man har være til at prædiktere, hvor langt de andre lande når i turneringen. Til det formål benyttes en proper scoring rule, og her har log-loss den attraktive fordel, at den giver ekstra stor straf, hvis man skyder forkert og er sikker på, at man har ret.
“It’s better to be somewhat wrong than emphatically wrong. Of course it’s always better to be right” -Andrew Collier
Log-loss er defineret på følgende måde for et land \(l\), der opnår rang \(r\):
\[-\sum_{\text{rang}\; r} \sum_{\text{land}\; l} I(\text{land $l$ har rang $r$})\log(\hat{p}_{rl}),\]
hvor \(\hat{p}_{rl}\) er den estimerede sandsynlighed for at land \(l\) fpr rang \(r\), og \(I(\text{land $l$ har rang $r$})\) er en indikatorfunktion, der er 1, hvis land \(l\) opnår rang \(r\) og 0 ellers. Det er altså vigtigt, at man ikke bare gætter rigtig med hvem, der kommer på de enkelte pladser, men også at man kan gøre det med så stor sandsynlighed som muligt. Små værdier af log-loss (tæt på 0) betyder, at man har gættet korrekt, og at prædiktionen er god, mens store værdier betyder, at man ikke er så god til at prædiktere.
Log-loss kan imidlertid ikke bruges direkte på resultaterne fra VM. Der gives kun en officiel rang til de 4 bedste hold (guld, sølv, bronze, og 4. plads), mens de resterende 28 hold ikke rangordnes fuldstændigt. Til gengæld ved man, hvilke fire hold, der nåede til kvartfinalen, men ikke gik videre (plads 5-8), hvem der kom til ottendedelsfinalen, men ikke videre (plads 9-16) og så videre.
Løsningen på dette problem er at kollapse sandsynlighederne ned i 7 kategorier: plads 1, 2, 3, 4, 5-8, 9-16, 17-32, og udregne holdenes sandsynlighed for at ende i hver af disse 7 grupper. Log-loss bliver så til
\[-\sum_{\text{kategori}\; k} \sum_{\text{land}\; l} I(\text{land $l$ endte i kategori $k$}) \log(\hat{p}_{kl})\]
Et andet problem ved log-loss er, at alle prædiktioner vægtes lige meget. Det giver selvfølgelig god mening, hvis alle kategorier er lige vigtige, men det er de jo ikke for en situation som VM. Det må være vigtigere at kunne prædiktere vinderen korrekt end at kunne prædiktere, at Saudi Arabien bliver blandt de 16 dårligste hold. Vi kan fikse dette ved at tilføje en vægt, \(w_k\) til lossfunktionen, så vi giver mere vægt til korrekte prædiktioner i toppen af turneringen.
\[-\sum_{\text{kategori}\; k} \sum_{\text{land}\; l} w_k \; I(\text{land $l$ endte i kategori $k$}) \log(\hat{p}_{kl})\]
Et bud på vægte ville være at benytte vægtene \(1, 1, \frac12, \frac12, \frac14, \frac18\) og \(\frac{1}{16}\) for henholdsvis kategori 1, 2, 3, 4, 5-8, 9-16 og 17-32. Så vil det være vigtigst at prædiktere toppen af turneringen korrekt, men der er stadig noget gevinst at hente ved korrekt at kunne forudsige, hvilken kategori et land lander i. Vægtene er valgt, så hver kategori har samme samlede vægt (med 3. og 4. plads som fælles kategori), men i princippet kunne andre vægte bruges.
Laver man en fuldstændig korrekt prædiktion, så får man en vægtet log-loss score på netop 0. Hvis man til gengæld siger, at alle lande er nøjagtig lige gode, så får man en log-loss på 20.79. Prædiktionerne på baggrund af simulationerne skulle gerne ligge et sted mellem disse to punkter, og gerne så tæt på 0 som muligt. Når VM er slut kan vi bruge denne metode til at afgøre, hvilken prædiktion, der klarede sig bedst, og så kan den sande vinder af VM kåres: hvilken prædiktionsmetode er bedste til at prædiktere udfaldet af slutrunden.2 Man kan bruge resultatet til at lave en vægtet ensemble prædiktor baseret på de forskellige modeller, men det må vente til næste slutrunde.
Hvis man selv vil rode med at simulere slutrunder og komme med prædiktioner så er koden tilgængelig her.