Hvem vinder VM 2018 og hvem er bedst til at prædiktere det?

Sommeren står i sportens tegn for i år skal vi skal underholdes med både Tour de France og ikke mindst VM i fodbold. Den næste tv-måned bliver rædselsfuld, for man kan ikke tænde for fjernsynet uden at høre om fodbold hele tiden. Fodbold i fjernsynet er dog langtfra så underholdende, som at prædiktere vinderen ved hjælp af statistik, så hvorfor ikke tage forskud på glæderne inden VM sparkes i gang i eftermiddag, og komme med et bud på årets vinder.

Og vinderen er …

Den overordnede introduktion til den anvendte metode er beskrevet i [indlægget fra 2016]({{% relref "2016-06-01-em2016.html" %}}). Som input til modellen bruges enten ELO ranking (indhentet den 12. maj) eller odds for de 32 hold som input til modellen (indhentet fra Bet365 samme dag). Oddsene har allerede inkorporeret, at Rusland spiller på hjemmebane, men det har ELO værdierne ikke, og ligesom ved EM i 2016 øges ELO værdien med 5% for Rusland for at give en hjemmebanefordel.1 Denne hjemmebanefordel inkluderer derfor både gevinsten ved hjemmebanepublikum, effekten af bestikkelser mv. De 5% er - ligesom meget af det andet - grebet lidt ud af luften. Data fremgår af tabellen nedenfor.

Tabel 1: Input til analysen består af odds og ELO ratings hentet på nettet. Ruslands hjemmebanefordel er medrgnet i tallene i tabellen. Den største forskel mellem ELO og odds ses måske for Peru, hvor ELO rating er meget bedre end de odds, som landet er blevet tildelt.
Navn Gruppe odds ELO Navn Gruppe odds ELO
Egypt A 151.0 1646 Brazil E 5.0 2131
Russia A 41.0 1769 Costa Rica E 501.0 1745
Saudi Arabia A 1001.0 1582 Switzerland E 101.0 1879
Uruguay A 34.0 1890 Serbia E 201.0 1770
Iran B 501.0 1793 Germany F 5.5 2092
Morocco B 501.0 1711 South Korea F 751.0 1746
Portugal B 26.0 1975 Mexico F 101.0 1859
Spain B 7.0 2048 Sweden F 151.0 1796
Australia C 301.0 1714 Belgium G 12.0 1931
Denmark C 101.0 1843 England G 19.0 1941
France C 7.5 1984 Panama G 1001.0 1669
Peru C 201.0 1906 Tunisia G 751.0 1649
Argentina D 10.0 1985 Colombia H 41.0 1935
Croatia D 34.0 1853 Japan H 301.0 1693
Iceland D 201.0 1787 Poland H 51.0 1831
Nigeria D 201.0 1699 Senegal H 201.0 1747

Når enten odds eller ELO omregnes til sandsynligheder kan holdene indbyrdes sammenlignes. De parvise sandsynligheder for kampene på baggrund af ELO scores kan ses i figuren nedenfor. Jo rødere farven er, jo større sandsynlighed er der for at holdet angivet ude til venstre vinder (før musen henover for at se de konkrete sandsynligheder). Man kan bemærke, at Brasilien, Spanien og Tyskland alle har gode chancer for at vinde hver af deres kampe (deres rækker er meget røde), mens det står noget værre til med eksempelvis Saudi Arabien.

Når vi simulerer 100000 slutrunder og tæller op, hvem der vinder VM, så tegner der sig et ret klart mønster: Tyskland har suverænt størst chance for at vinde VM (med en samlet sandsynlighed for at vinde på 25.357 %), mens Brasilien har den klart næststørste chance med 20.104 %. Resultaterne ændrer sig stort set ikke om man bruger data fra odds eller ELO rating til at lave simulationerne. Det er måske værd at bemærke, at Danmarks chancer for at vinde VM ikke er for gode: Vi har 0.111 % chance for at hive pokalen hjem!

Ser man på, hvilke hold, der kommer til at spille finalekampen mod hinanden er der en del variation. Tabellen nedenfor viser de 8 hyppigste kombinationer, og i ca. 14% af de simulerede slutrunder har det netop været Tyskland mod Brasilien, der har mødtes.

Tabel 2: Hyppigheder over de lande, der mødes i finalen. Tysklands of Brasiliens store vinderchance er afspejlet i disse tal, da de ofte formår at komme igennem turneringen og frem til finalen. I tabellen er kun vist de 8 hyppigste kombinationer.
Lande Hyppighed
Brazil, Germany 14.037
France, Germany 7.169
Belgium, Germany 5.819
Argentina, Brazil 5.630
Brazil, Spain 5.128
Belgium, Brazil 4.547
Belgium, England 4.308
Brazil, England 4.300

Danmarks chancer i gruppekampene

Danmark starter i samme gruppe som Frankrig, Peru og Australien, og vi går kun videre til resten af turneringen, hvis vi slutter som nummer 1 eller 2 i gruppen. Modellen kan udregne, hvor stor sandsynlighed der er, for at et givent hold ender som nummer 1, 2, 3 eller 4 i gruppen. For Danmarks gruppe estimeres sandsynlighederne til at være:

Tabel 3: Sandsynlighederne for at hvert land ender som nummer 1, 2, 3 eller 4 i gruppe C. Danmark har en hæderlig chance for at gå videre, men vores chancer afhænger måske nok mest af alt af kampen mellem Danmark-Peru, da Frankrig er en meget sværere modstander (31% chance for at Danmark vinder), og Australien er noget lettere (68% for at Danmark vinder).
1 2 3 4
Australia 1.28 18.77 35.93 44.02
Denmark 6.97 46.62 27.09 19.32
France 89.55 8.84 1.39 0.22
Peru 2.20 25.77 35.59 36.44

Hvilken prædiktion er den bedste?

Min kode til at simulere slutrunder for VM 2018 har ligget offentlig i omkring en måneds tid, og andre er blevet opfordret til at bruge koden til at lave deres egne prædiktioner. Det er der kommet nogle interessant resultater ud af som eksempelvis denne blog-post fra Mango Solutions eller denne artikel i australske The Conversation. Det er altid interessant at se, hvordan andre angriber samme problemstilling, men mere interessant er det, hvordan vi efterfølgende - når VM er slut - kan sammenligne vores prædiktioner og kåre en vinder.

Ved VMs slutning ved vi, hvor langt hvert land nåede i konkurrencen. Når kvaliteten af de enkelte prædiktioner skal vurderes er det ikke nok kun at se på, hvor gode de har været til at prædiktere vinderen af VM. Det skal også tælle med, hvor god man har være til at prædiktere, hvor langt de andre lande når i turneringen. Til det formål benyttes en proper scoring rule, og her har log-loss den attraktive fordel, at den giver ekstra stor straf, hvis man skyder forkert og er sikker på, at man har ret.

“It’s better to be somewhat wrong than emphatically wrong. Of course it’s always better to be right” -Andrew Collier

Log-loss er defineret på følgende måde for et land \(l\), der opnår rang \(r\):

\[-\sum_{\text{rang}\; r} \sum_{\text{land}\; l} I(\text{land $l$ har rang $r$})\log(\hat{p}_{rl}),\]

hvor \(\hat{p}_{rl}\) er den estimerede sandsynlighed for at land \(l\) fpr rang \(r\), og \(I(\text{land $l$ har rang $r$})\) er en indikatorfunktion, der er 1, hvis land \(l\) opnår rang \(r\) og 0 ellers. Det er altså vigtigt, at man ikke bare gætter rigtig med hvem, der kommer på de enkelte pladser, men også at man kan gøre det med så stor sandsynlighed som muligt. Små værdier af log-loss (tæt på 0) betyder, at man har gættet korrekt, og at prædiktionen er god, mens store værdier betyder, at man ikke er så god til at prædiktere.

Log-loss kan imidlertid ikke bruges direkte på resultaterne fra VM. Der gives kun en officiel rang til de 4 bedste hold (guld, sølv, bronze, og 4. plads), mens de resterende 28 hold ikke rangordnes fuldstændigt. Til gengæld ved man, hvilke fire hold, der nåede til kvartfinalen, men ikke gik videre (plads 5-8), hvem der kom til ottendedelsfinalen, men ikke videre (plads 9-16) og så videre.

Løsningen på dette problem er at kollapse sandsynlighederne ned i 7 kategorier: plads 1, 2, 3, 4, 5-8, 9-16, 17-32, og udregne holdenes sandsynlighed for at ende i hver af disse 7 grupper. Log-loss bliver så til

\[-\sum_{\text{kategori}\; k} \sum_{\text{land}\; l} I(\text{land $l$ endte i kategori $k$}) \log(\hat{p}_{kl})\]

Et andet problem ved log-loss er, at alle prædiktioner vægtes lige meget. Det giver selvfølgelig god mening, hvis alle kategorier er lige vigtige, men det er de jo ikke for en situation som VM. Det må være vigtigere at kunne prædiktere vinderen korrekt end at kunne prædiktere, at Saudi Arabien bliver blandt de 16 dårligste hold. Vi kan fikse dette ved at tilføje en vægt, \(w_k\) til lossfunktionen, så vi giver mere vægt til korrekte prædiktioner i toppen af turneringen.

\[-\sum_{\text{kategori}\; k} \sum_{\text{land}\; l} w_k \; I(\text{land $l$ endte i kategori $k$}) \log(\hat{p}_{kl})\]

Et bud på vægte ville være at benytte vægtene \(1, 1, \frac12, \frac12, \frac14, \frac18\) og \(\frac{1}{16}\) for henholdsvis kategori 1, 2, 3, 4, 5-8, 9-16 og 17-32. Så vil det være vigtigst at prædiktere toppen af turneringen korrekt, men der er stadig noget gevinst at hente ved korrekt at kunne forudsige, hvilken kategori et land lander i. Vægtene er valgt, så hver kategori har samme samlede vægt (med 3. og 4. plads som fælles kategori), men i princippet kunne andre vægte bruges.

Laver man en fuldstændig korrekt prædiktion, så får man en vægtet log-loss score på netop 0. Hvis man til gengæld siger, at alle lande er nøjagtig lige gode, så får man en log-loss på 20.79. Prædiktionerne på baggrund af simulationerne skulle gerne ligge et sted mellem disse to punkter, og gerne så tæt på 0 som muligt. Når VM er slut kan vi bruge denne metode til at afgøre, hvilken prædiktion, der klarede sig bedst, og så kan den sande vinder af VM kåres: hvilken prædiktionsmetode er bedste til at prædiktere udfaldet af slutrunden.2 Man kan bruge resultatet til at lave en vægtet ensemble prædiktor baseret på de forskellige modeller, men det må vente til næste slutrunde.

Hvis man selv vil rode med at simulere slutrunder og komme med prædiktioner så er koden tilgængelig her.