Hvem vinder valget?

Den 5. juni skal vi til valgurnerne, og i den mellemliggende periode bombarderer medierne os med valgprognoser og meningsmålinger. Fra et statistisk synspunkt er prognoserne omkring folketingsvalget i år ekstra spændende, fordi der er tre nye partier på valglisten, som ikke tidligere har været en del af valgene. Det gør det sværere for prognoseinstitutterne, og vi checker, hvor gode de egentlig var til at forudsige resultatet af sidste valg, og om det er muligt at gøre det endnu bedre ved dette valg.

Den 7. februar holdt Mikkel Krogsholm et meget fint foredrag i CopenhagenR Users om at lave “poll of polls” - en sammenvejning af prognoserne fra flere meningsmålinger for at øge den samlede stikprøvestørrelse. Mikkels R-pakke gør det let at hente nye og gamle danske meningsmålinger, så man selv kan være med til at modellere videre på de resultater, som opinionsbureauer leverer. Erik Gahner er en af kilderne, som Mikkels R-pakke kan hente fra, og disse data bliver regelmæssigt opdateret med de seneste meningsmålinger. Det er Gahners data, som vil blive benyttet i det efterfølgende.

Sammenvejning af meningsmålinger

Datasættet fra Gahner indeholder meningsmålinger frem til og med 26 maj fra i alt 7 bureauer: Epinion, Gallup, Greens, Megafon, Norstat, Voxmeter, YouGov. Figuren nedenfor viser de seneste meningsmålinger fra de 7 bureauer.

Figur 1: Den forventede fordeling af stemmerne ved sidste meningsmåling for de 7 meningsmålingsbureauer, der indgår i analysen.

Hver meningsmåling er et forsøg på at estimere den underliggende fordeling af de danske stemmer, og de 7 meningsmålinger viser overvejende samme billede. Variationen mellem prognoserne skyldes variationen mellem stikprøverne, og at de forskellige bureauer benytter forskellige modeller til at komme med prædiktioner for fordelingen.1 Man kan ikke få at oplyst, hvilke modeller, som bureauerne præcis har anvendt, da det er forretningshemmeligheder. Formentlig laver de en justering af de indhentede stemmer på baggrund af deres stikprøvers demografiske sammensætning, så den matcher sammensætningen i befolkningen. Foruden at spørge til, hvad hvad personerne i stikprøven vil stemme, så er det kutyme at spørge til, hvad vælgerne stemte ved sidste valg, så man kan estimere ændringen i procent i forhold til fordelingen fra 2015. Bureauerne har givetvis også en fudge-factor, der forsøger at tage højde for de situationer, hvor de tidligere har skudt forkert. En del af danskerne har endnu ikke besluttet sig, og denne usikkerhed spiller også ind.

Hver meningsmåling er baseret på godt 1000 observationer, og meningsmålingerne kan sammenvejes til en samlet meningsmåling baseret på en meget større stikprøve ved at estimere, hvor mange personer fra hver prognose, som har stemt på hvert parti. Da alle meningsmålingerne forsøger at estimere den samme fordeling kan man opfatte de enkelte prognoser som forskellige stikprøver fra samme population og blot lægge stemmerne sammen. Dette vægtede gennemsnit er ikke helt optimalt, da variationen mellem prognoserne ikke kun skyldes forskellige stikprøver men også skyldes forskellige metoder til at frembringe estimaterne. De tilgængelige data giver desuden kun informationer om stikprøvestørrelsen, men præcisionen kan yderligere være påvirket af bureauernes anvendte model, så sammenvejningen kan udelukkende opfattes som en approksimation.

Tabel 1: Vægtede gennemsnit baseret på de seneste prognoser fra de 7 meningsmålingsbureauer. Vægtningen er baseret på stikprøvestørrelsen af de enkelte prognoser.
Parti Procent Fejlmargin (2 SE) Sidste valg (%)
Socialdemokratiet 27.45 0.94 26.3
Venstre 17.63 0.80 19.5
Dansk Folkeparti 11.47 0.67 21.1
Enhedslisten 8.51 0.59 7.8
Socialistisk Folkeparti 7.96 0.57 4.2
Radikale Venstre 7.43 0.55 4.6
Konservative 5.20 0.47 3.4
Liberal Alliance 3.80 0.40 7.5
Alternativet 3.27 0.37 4.8
Nye Borgerlige 2.92 0.35 0.0
Stram Kurs 2.09 0.30 0.0
Kristendemokraterne 1.52 0.26 0.8
Klaus Riskær Pedersen 0.75 0.18 0.0

Udviklingen af det vægtede gennemsnit for de enkelte partier kan ses i figuren nedenfor, hvor de enkelte underliggende prognoser også er indtegnet. Det ses, at der er nogle svage trends i udviklingen af stemmefordelingen for de enkelte partier, men det er ikke fordi der sker så frygtelig meget for prognoserne for de enkelte partier.

Figur 2: Udviklingen af vægtet gennemsnit for de enkelte partier (tykke linjer) og udviklingen i de bagvedliggende prognoser (tynde linjer).

Det er naturligvis interessant, hvordan prognosen for de enkelte partier udvikler sig, men hvis vælgere skifter parti, så er det mere oplagt, hvis de kun rykker sig en lille smule politisk fremfor hvis deres politiske ståsted ændrer sig markant. Det giver derfor mening af se på udviklingen i de politiske blokke. A, B, F, K og Ø udgør den røde blok i dansk politik, mens C, D, E, I, O og V udgør den blå blok. Å peger på sig selv som statsminister og P peger ligeledes på sig selv.

Når man slår de vægtede stemmer sammen i blokke får man figuren 3 nedenfor.

Figur 3: Udviklingen i prognosen af andelen af stemmer mellem rød og blå blok (tykke streger) med tilhørende underliggende prognoser. Bemærk, at procenterne i figuren ikke summerer til 100%, da der er zoomet ind på y aksen for bedre at kunne se forskellen mellem de to store blokke, og at stemmerne på Å og P. ikke kan ses i denne figur. De kan til gengæld ses i figuren ovenfor.

Der er et stort gab mellem de to blokke på næsten ca. 10 procentpoint, og med en udvikling, der lader til at forskellen mellem de to blokke er nogenlunde stabil.

Indtil nu har vi anvendt en simpel sammenvejning af de enkelt meningsmålinger, men antagelserne for at kunne dette er næppe opfyldt, da tallene fra de enkelte bureauer ikke er simple optællinger, men estimater baseret på forskellige - og ukendte - modeller. For at lave en bedre sammenvejning kunne man i stedet se på, hvor godt meningsmålingsbureauerne klarede sig ved sidste valg. I sammenvejningen ovenfor gives automatisk større vægt til studier baseret på flere besvarelser. Hvis en meningsmåling overordnet producerer en dårlig prognose giver det mere mening at lægge større vægt en prognose baseret på færre individer, hvis den prognoser er tættere på sandheden.

Kvaliteten af prognoserne ved folketingsvalget i 2015

Ved folketingsvalget 18. juni 2015 stillede 10 partier op og endte med fordelingen af stemmer vist i tabel 1. Vi kan derfor bruge prognoserne op til valgdagen i 2015 til at sammenligne deres prædiktioner med det aktuelle valgresultat. En metode til at vurdere kvaliteten af en prædiktion er at benytte root-mean-squared-error (også kendt som mean squared prediction error) til at sammenligne hvert bureaus prædiktionen for hvert parti \(\hat\theta_{p}\) med den faktiske fordeling \(\theta_p\):

\[\text{RMSE} = \sqrt{\frac{1}{P}\sum_p (\hat\theta_p - \theta_p)^2}.\]

En anden mulighed er at anvende mean absolute error, der er defineret som

\[\text{MAE} = \frac{1}{P} \sum_p |\hat\theta_p - \theta_p|.\]

MAE er måske lidt lettere at fortolke direkte, men figuren nedenfor viser, at den indbyrdes vurdering af de enkelte prognosebureauer er den samme uanset om man benytter RMSE eller MAE.

Figur 4: Udviklingen i root-mean-squared-error (RMSE, sorte linjer) og mean absolute error (MAE, røde linjer) i perioden fra valget blev udskrevet i 2015 og frem til valgdagen. Lave værdier betyder bedre prædiktioner.

RMSE giver større straf til større afvigelser end MAE og derfor vil jeg bruge den i det videre forløb. Begge fejlvurdering - RMSE og MAE - betragter prædiktionen for hvert parti individuelt, og tager ikke højde for, at nogle skift i vælgertilslutningen er mindre overraskende end andre.2 Hvis der havde været en oplagt ordning af de danske partier kunne man have anvendt en rank probability score, men der er ikke en oplagt og konsistent ordning for alle de danske partier. Alternativt kunne man bruge en overgangsmatrix: hvor tilbøjelige er de enkelte partier til at afgive stemmer til hver af de øvrige partier, men sådanne data offentliggør bureauerne ikke.

Et andet umiddelbart problem ved både RMSE og MAE i denne sammenhæng er, at der ikke tages højde for, hvor stor en stikprøve, som prædiktionen er baseret på. En stikprøve baseret på 20 vælgere kan derfor klare sig bedre end en stikprøve på 2000 vælgere, fordi der ikke er nogen ekstra gevinst ved at have præcise prædiktioner. Ligeledes giver RMSE og MAE heller ingen større straf for at have forkerte prædiktioner, som man er meget skråsikker på.

Nate Silver og hans firma FiveThirtyEight er kendt for at levere gode prædiktioner ved de amerikanske valg. Nate løser ovenstående problemer ved at lave en (noget ad hoc men i praksis effektiv) sammenvejning af størrelsen på de enkelte meningsmålinger og hvor sikre prognosebureauerne plejer at være. Grundstenen i Nate Silvers vægtning af prognoser er baseret på følgende relation, hvor vægten givet til prognosebureau \(i\) er defineret som

\[w_i = \sqrt{\frac{N_i}{\bar{N}}} \times \text{pollster reliability}_i,\]

og hvor \(N_i\) er størrelsen af den \(i\)te meningsmåling og \(\bar{N}\) er den gennemsnitlige stikprøvestørrelse.3 Nate Silver benytter både gamle og nye meningsmålinger, hvor en meningsmåling bliver vejet ned, jo ældre den bliver. Jeg har her valgt bare at bruge den seneste måling fra hver bureau.

Nate Silver vurderer pollster reliability for hvert meningsmålingsbureau ud fra en lang række kriterier baseret på kvaliteten af bureauernes historiske målinger. I praksis benytter FiveThirtyEight en multipel regressionsmodel i stil med nedenstående til at udregne den forventede størrelsesorden af fejlen for et givent bureau, stikprøvestørrelse og tid inden valget. Jeg har tænkt mig at bruge samme model helt ukritisk for at se, hvordan den ændrer den danske sammenvejede prognose.

Regressionsmodellen er \[RMSE = \alpha_\text{pollster} + \beta_\text{pollster}\times\sqrt{\text{Dage til valget}} + \gamma\times\frac{1}{\sqrt{N}} + \varepsilon,\]

hvor \(\alpha_\text{pollster}\) repræsenterer det generelle niveau for et prognosebureau (lavt er godt), \(\beta_\text{pollster}\) er hvor meget prognoseusikkerheden for hvert bureau ændrer sig, efterhånden som man kommer tættere på valget, og \(\gamma\) vægter med størrelsesordenen på stikprøven. \(\varepsilon\) er en normalfordelt fejl.

Har man først et estimat for modellens parametre kan disse bruges til at prædiktere fejlmargin ved prognoserne i 2019 og dermed opnå en bedre sammenvejning af de eksisterende prognoser. Bureauernes relative fejl sammenlignes med deres inverse relative præcision, hvilket benyttes til at komme med et bud på pollster reliability4 Bemærk at der benyttes MSE - mean squared error - og ikke RMSE i udregningen af pollster reliability. Det er for at understrege, at vægtene afhænger af de indbyrdes varianser. I regressionsmodellen benyttes RMSE for at have et udfald, der er mere tilbøjeligt til at være på additiv skala.

\[\text{pollster reliability}_i = \frac{1/MSE_i^k}{\sum_j 1/MSE_j^k}.\]

Parameteren \(k\geq 1\) bestemmer, hvor meget vægt, der lægges på de prognoser, der anslås at være bedst. Jo højere \(k\), jo mere vægt lægges der på de bedste prognoser. Jeg har benyttet \(k=2\) i det efterfølgende, og dette valg er lidt grebet ud af luften.

Opdaterede prognoser for FV 2019

Bruger vi folketingsvalget fra 2015 til at estimere parametrene i modellen ovenfor får man nedenstående udvikling i den forventede RMSE for hvert prognosebureau som funktion af tid til valget og stikprøvestørrelsen i en prognose.

Figur 5: Prædikteret RMSE i 2015 fra en version af Nate Silvers model baseret på FV 2015 data. I 2015 klarede Epinion sig rigtig godt gennem hele optakten til folketingsvalget, mens prognoserne fra Greens, Gallup og Megafon blev markant forbedrede, efterhånden som man kom tættere på valget. Norstat, YouGov og Voxmeter klarede sig mindre godt gennem hele forløbet.

Når parameterestimaterne anvendes på de nuværende eksisterende prognoser fra folketingsvalget i 2019 får man, at den seneste vægtning af de enkelte meningsmålinger, hvor der er 10 dage til valget er vist i tabellen nedenfor.

Tabel 2: Anvendte vægte ved den opdaterede sammenvejning af de seneste danske prognoser baseret på samme model som Nate Silver anvender (baseret på parameterestimater prædikteret fra FV2015).
Bureau Vægt
Epinion 0.33
Greens 0.17
Gallup 0.14
YouGov 0.14
Megafon 0.11
Norstat 0.09
Voxmeter 0.05

Der lægges meget vægt på resultaterne fra Epinion, mens prognoserne fra Voxmeter og Norstat - der ved folketingsvalget i 2015 viste sig at være de mindste præcise - bliver vægtet meget ned. Med de opdaterede vægte af prognoserne bliver den forventede fordeling af stemmerne ved det kommende folketingsvalg som vist i tabel 3 nedenfor.

Tabel 3: Forventet fordeling af stemmer ved folketingsvalget 2019 på baggrund af en version af Nate Silvers vægtningsmodel. Vægtningen bruger meningsmålingsbureauernes kvalitet og stikprøvestørrelsen af de enkelte mesningsmåinger.
Parti Procent Fejlmargin (2 SE) Sidste valg (%)
Socialdemokratiet 28.03 1.09 26.3
Venstre 17.51 0.92 19.5
Dansk Folkeparti 11.22 0.76 21.1
Enhedslisten 8.48 0.67 7.8
Socialistisk Folkeparti 7.69 0.64 4.2
Radikale Venstre 7.48 0.64 4.6
Konservative 5.10 0.53 3.4
Liberal Alliance 3.96 0.47 7.5
Alternativet 3.25 0.43 4.8
Nye Borgerlige 2.87 0.40 0.0
Stram Kurs 2.15 0.35 0.0
Kristendemokraterne 1.47 0.29 0.8
Klaus Riskær Pedersen 0.66 0.20 0.0

Der er ikke den store forskel i forhold til det simple vægtede gennemsnit af prognoserne, og der er kun sket nogle små ændringer. Til gengæld er usikkerheden vokset lidt.

Sandsynligheden for en rød regering

Prognoserne for de enkelte partier er selvfølgelig interessante i sig selv, men der er fire spørgsmål, som er på alles læber: Hvad er sandsynligheden for at hver af de tre nye partier kommer over spærregrænsen, og hvad er sandsynligheden for at rød blok får mere end 50% af stemmerne?

Hvis man tager en Bayesiansk tilgang til problemet kan man komme med svar på netop disse 4 spørgsmål. Dirichletfordelingen kan bruges som a priori fordeling for multinomiale data i stil med stemmefordelingen på de 13 partier, og ved at bruge data kan man opnå en Dirichletfordeling med stort set samme sandsynlighedsfordeling og usikkerheder som estimeret i tabel 3.

Den anvendte Dirichletfordeling bliver

\[X \sim \text{Dir}(6560.59 \times (0.28, 0.03, 0.07, 0.05, 0.03, 0.01, 0.08, 0.04, 0.01, 0.11, 0.08, 0.02, 0.18)),\]

hvor rækkefølgen på parametrene i Dirichletfordelingen ovenfor svarer til Socialdemokratiet, Alternativet, Radikale Venstre, Konservative, Nye Borgerlige, Klaus Riskær Pedersen, Socialistisk Folkeparti, Liberal Alliance, Kristendemokraterne, Dansk Folkeparti, Enhedslisten, Stram Kurs, Venstre. Når der simuleres 100000 gange fra denne fordeling fås, at:

Sandsynligheden for at Nye Borgerlige opnår mere end 2% af stemmerne og kommer i Folketinget er 100%.

Sandsynligheden for at Stram Kurs opnår mere end 2% af stemmerne og kommer i Folketinget er 80.36%.

Sandsynligheden for at Klaus Riskær Pedersen opnår mere end 2% af stemmerne og kommer i Folketinget er 0%.

Sandsynligheden for at Rød Blok (Socialdemokraterne, Radikale Venstre, Socialistisk Folkeparti og Enhedslisten) opnår mere end 50% af stemmerne er 100%.

comments powered by Disqus