INDLÆG


Hvem vinder VM 2018 og hvem er bedst til at prædiktere det?

Sommeren står i sportens tegn for i år skal vi skal underholdes med både Tour de France og ikke mindst VM i fodbold. Den næste tv-måned bliver rædselsfuld, for man kan ikke tænde for fjernsynet uden at høre om fodbold hele tiden. Fodbold i fjernsynet er dog langtfra så underholdende, som at prædiktere vinderen ved hjælp af statistik, så hvorfor ikke tage forskud på glæderne inden VM sparkes i gang i eftermiddag, og komme med et bud på årets vinder.


Bekymringsfri analyse af 2x2-tabeller

Studerende introduceres til analyse af 2x2 tabeller ved hjælp af \(\chi^2\) test som noget af det første i statistikundervisningen. Det er der flere gode grunde til: metoden er anvendelig i mange praktiske situationer, metoden er let at forstå, og man kan lave udregningerne i hånden. I undervisningen bliver mange studerende desuden præsenteret for en eller flere tommelfingerregler, som angiver, hvornår antagelserne for analysen er opfyldte. I praksis viser det sig, at man ikke behøver at bekymre sig om disse tommelfingerregler, hvis man bare vurderer \(\chi^2\)-teststørrelsen korrekt.


Hvor præcise er de danske befolkningsprognoser?

Hvert år laver Danmarks Statistik en befolkningsfremskrivning, hvor de kommer med et estimat for befolkningens fremtidige størrelse og sammensætning for hver af de næste 50 år. Disse tal bruges af staten, regionerne og kommunerne, og har stor betydning i forbindelse med at kunne langtidsplanlægge behovet for skoler, sygehusvæsenet, plejehjem og hvorvidt det er nødvendigt af afskaffe efterlønnen. Da tallene kan have en indflydelse på lokal- og nationalpolitik er det vigtigt, at de er så præcise som muligt, men Danmarks Statistik ikke nogen opgørelse af nøjagtigheden af deres prognoser.


Dronningens nytårstaler

‘Sentiment analysis’ og ‘text mining’ dukker op flere og flere steder og tanken bag er besnærende: få en computer til at løbe tekster igennem (politikernes tweets, litterære værker, anmeldelser af produkter på Amazon, osv.), udled indholdet og hvad forfatteren virkelig mener ud fra teksten. Vi giver os i kast med simpel tekstanalyse af noget, der er så dansk som rødgrød med fløde: dronningens nytårstaler. Hvis en computer kan trække indholdet ud af en tekst, så vil dansklærerne i gymnasiet i fremtiden skulle se sig om efter nye jobs.


Jeg drømmer om en 'vid' jul

Mange danskere har stiftet bekendskab med statistik gennem deres uddannelse, og de fleste giver udtryk for, at det var svært og abstrakt. Politikerne har svært ved det, journalister og meningsdannere har svært ved det, og mange studerende har svært ved det. Derfor er det interessant, når forfattere forsøger at give en populærvidenskabelig forklaring på, hvad statistik er og kan, hvad statistikerne egentlig laver, og hvorfor faget er interessant og spændende. Det er ikke nogen let opgave at formidle, men måske lykkes det for en af forfatterne at finde vej under en masse juletræer, så vi kan få en ‘vid’ jul.


En moderne græsk tragedie om statistikeren, der gjorde sit job

En græsk tragedie ender sørgeligt og har til formål, at give publikum stof til eftertanke, mens de med medlidenhed følger hovedpersonen gå gennem svære prøvelser og valg. De gamle klassiske værker har de fleste været udsat for i gymnasiet, men den nyeste græske tragedie er mere ukendt.


Selvfølgelig hedder det et test

Statistikere siger et test (altså test i intetkøn), når de taler om et statistisk test, men for personer uden for miljøet skurrer dette noget i ørerne, fordi man i dansk tale og ifølge dansk retskrivning udelukkende bruger begrebet en test (i fælleskøn). For statistikere er sprogbrugen dog klar - hvis man laver en test, så er det fordi man er til eksamen, får foretaget en dna-test, laver et forsøg eller tilsvarende, men det er ikke et statistisk test man laver.


Giv dit barn en god start: bliv gravid i maj

Alle kan komme på landsholdet, hvis de bare har de rette evner. Det skulle man i det mindste tro var rigtigt, men flere undersøgelser har indikeret, at det måske ikke gælder. I mange sportsgrene - blandt andet fodbold, amerikansk fodbold og ishockey - er der blandt de professionelle spillere en overrepræsentation af sportsudøvere, der er født i årets første måneder, og færre, der er født i årets sidste måneder. Dette fænomen - på engelsk kaldet “Birthday bulge” - er undersøgt i mange andre lande, og her ser vi på, om fænomenet også optræder i Danmark.


Hænger antallet af Nicolas Cage film sammen med drukning?

At antallet af personer, som drukner i en pool, hænger sammen med antallet af film, som Nicolas Cage medvirker i – og andre absurde sammenhænge – finder man på siden Spurious correlations. Men er der overhovedet tale om en sammenhæng, eller er der tale om et sammenfald, som gør sig ud for at være en sammenhæng? Og er det overhovedet vigtigt? I Danmark har der de sidste år været en massiv debat om HPV-vaccinen.


Datapræsentation og 'den store tabel 1'

Ved formidling af forskningsresultater er det kutyme at give en præsentation af karakteristika for den undersøgte studiepopulation. Præsentationen samles ofte i artiklens første tabel, men på trods af, at denne type præsentation er allestedsnærværende i videnskabelige artikler, er der ofte nogen usikkerhed om, hvad den “store tabel 1” skal indeholde. Det er værd at starte med at slå fast, at der ikke er nogle generelle, formelle krav til indholdet eller udformningen af den “store tabel 1”.


Statistik i gymnasiet

I forbindelse med den kommende gymnasiereform skal der skrives nye læreplaner for blandt andet matematik, og det betyder også, at det eksisterende statistikpensum i gymnasiet og undervisningen i statistik skal diskuteres. Her giver vi vores bud på, hvad man bør lægge vægt på i forbindelse med undervisningen i og brugen af statistik i gymnasiet, og forhåbentlig kan det fungere som input til eventuelle ændringer i de kommende læreplaner. Hvorfor er det vigtigt at lære statistik?


Hvorfor individuel procentvis ændring er skidt

I medicinske forsøg beskæftiger man sig ofte med sammenligninger af før- og efter-data for forskellige typer behandlinger, og det er her interessant at sammenligne de gennemsnitlige ændring over tid på tværs af behandlingerne. Ændringer over tid kan både være absolutte (differencer) og relative (procentvise ændringer). Vi illustrerer her, hvorfor det er en dårlig idé at basere sådanne sammenligninger på gennemsnitlige relative forskelle. Simpelt er ikke altid bedst ⊕Kaldes også baseline og follow-up eller “pre and post test” data Ved statistiske analyser af kliniske randomiserede forsøg er der for størstedelens vedkommende tale om såkaldt før og efter-data.


Hvem vinder EM 2016?

EM 2016 står for døren, hvilket betyder, at en stor del at juni måneds tv-flade vil blive fyldt af fodboldkampe, optaktsudsendelser til fodboldkampe, og studiedebatter efter hver kamp, hvor fodboldkommentatorer øser af deres lommefilosofiske betragtninger. Personligt er jeg ikke super interesseret i fodbold - og slet ikke, når Danmark ikke spiller med. Alligevel kan det være sjovt at regne på, hvem der vinder slutrunden, så her er mit “bud” på, hvem der bliver de nye europamestre.


Kan det virkelig passe?

Forskningsresultater i mainstream-medier er næsten altid noget med iøjenfaldende overskrifter - specielt hvis resultaterne omhandler forskelle mellem mænd og kvinder, sundhed og helbred, eller sex. Det er positivt, når forskningsresultater vinder konkurrencen om pladsen i mediebilledet over historier om dræbersnegle, royale rober, eller hvorfor man bør tænke sig om en ekstra gang inden man sender penge til en nigeriansk prins, men alligevel sidder jeg ofte tilbage med en lidt blandet følelse, når medierne præsenterer nogle forskningsresultater, der virker lidt for fantastiske.


Polemikken om p-værdier

Nyhedsbreve og sociale medier gik i selvsving efter the American Statistical Association (ASA) i marts 2016 udsendte en pressemeddelelse omkring brugen og ikke mindst fortolkningen af p-værdier. Pressemeddelelsen var ansporet af en videnskabelig (og til tider ret filosofisk) debat om p-værdier, der var blusset op igen efter editors for Basic and Applied Social Psychology i 2015 offentliggjorde, at de ikke længere ville acceptere artikler, der gjorde brug af p-værdier. Hvordan er vi så endt der, at verdens største statistikersammenslutning føler anledning til at understrege, hvad begreberne betyder og ikke betyder her mere end 100 år siden disse begreber blev introduceret?


Hvorfor $R^2$ ikke er så nyttig

\(R^2\) eller ‘forklaringsgraden’ (engelsk: coefficient of determination) bliver ofte nævnt som et mål for, hvor godt en regressionsmodel passer til data. Der er dog mange problemer med \(R^2\), som gør, at \(R^2\) ikke er så anvendelig som man skulle tro: \(R^2\) siger ikke noget om, hvor godt modellen passer til data, det siger \(R^2\) ikke noget om, hvor god modellen er til at prædiktere, \(R^2\) kan ikke sammenlignes på tværs af datasæt, og det giver heller ikke mening at sammenligne \(R^2\)-værdier, når man transformerer sine data.


Post-hoc powerberegninger

Forespørgsler på post-hoc powerberegninger dukker op fra tid til anden fra samarbejdspartnere, reviewers og editors - specielt hvis den statistiske analyse viser sig at være ikke-signifikant. Argumentet for at lave post-hoc powerberegninger er, at de kan bruges til at forklare, hvorfor en statistisk analyse viste sig ikke at give et signifikant resultat: Årsagen til et ikke-signifikant resultat kan enten skyldes at den reelle effektstørelse er lille (for eksempel hvis der er meget lille forskel mellem to grupper) eller at der er en forskel, men at styrken bare har været for lav til at man fandt forskellen.


Dikotomisering - sjældent en god ide

Dikotomisering af variable er populært og særdeles udbredt indenfor nogle fagområder. Ved dikotomisering inddeles en variabel i 2 grupper, og påstanden er, at dikotomisering simplificerer de statistiske analyser, gør fortolkningen af resultaterne lettere, og generelt stemmer bedre overens med de medicinske/biologiske situationer, som forskerne beskæftiger sig med i dagligdagen. Fra et statistisk synspunkt skal man helst undgå at dikotomisere kontinuerte variable, for dikotomisering resulterer i tab af styrke (power), øget risiko for falske positiver (type I fejl), og dårligere evne til at beskrive den reelle biologiske effekt.


Danskernes fødselsmønstre

“I de gode gamle dage havde danskerne ikke andet at lave om vinteren end at putte sig under dynerne med det resultat, at der blev født flest børn hen på sensommeren. Og sådan er det stadigvæk”. Det er i hvert fald en kommentar, som man ind imellem hører, men kan det nu også passe? Danmarks Statistiks statistikbank er en næsten uudtømmelig ressource at gå på jagt i, og det viser sig at være overrasksende let at hente data fra statistikbanken og undersøge sagen selv.


Reproducerbare kæpheste

I mange anvendte videnskabelige artikler lever statistikafsnittet en lidt kummerlig tilværelse, hvor man får fornemmer, at både forfattere - og til tider også editors - ser det som et “nødvendigt onde”. Det er fuldt forståeligt, at forfatternes primære interese er i at præsentere de nye fund indenfor deres pågældende fagområde, og at de statistiske metoder derfor må have en tilbagetrukket rolle i den historie. Men det er altså ikke ensbetydende med at statistikmetodeafsnittet helst skal fylde så lidt som muligt, så artiklen netop kan gå igennem reviewernes og editors nåleøje og blive accepteret til publikation.