Post-hoc powerberegninger

Forespørgsler på post-hoc powerberegninger dukker op fra tid til anden fra samarbejdspartnere, reviewers og editors - specielt hvis den statistiske analyse viser sig at være ikke-signifikant. Argumentet for at lave post-hoc powerberegninger er, at de kan bruges til at forklare, hvorfor en statistisk analyse viste sig ikke at give et signifikant resultat: Årsagen til et ikke-signifikant resultat kan enten skyldes at den reelle effektstørelse er lille (for eksempel hvis der er meget lille forskel mellem to grupper) eller at der er en forskel, men at styrken bare har været for lav til at man fandt forskellen. Problemet er bare, at argumentet er helt fejlagtigt, for post-hoc powerberegninger bidrager ikke med nogen form for ekstra information.

Inden vi går videre er det værd at præcisere, hvad vi forstår ved en post-hoc powerberegning. Ved en post-hoc powerberegning forstås en retrospektiv powerberegning baseret på den stikprøvestørrelse og observerede effektstørrelse, som findes i de allerede undersøgte data. Man kan selvfølgelig altid bruge resultaterne fra et foreliggende studie til at vurdere den nødvendige stikprøvestørrelse og styrken i et nyt, fremtidigt studie. I den situation bruger vi powerberegningen prospektivt, og det er naturligvis helt ok.

Matematisk kan vi skrive styrken som en betinget sandsynlighed \[P(\text{ forkast } H_0 \; | \; H_A \;),\] hvor \(H_0\) er nulhypotesen og \(H_A\) er den alternative hypotese med en givet, specificeret effektstørrelse. Lad os forestille os, at vi gerne vil sammenligne middelværdien i to grupper. Styrken (power) er defineret som sandsynligheden for at finde et signifikant resultat givet den sande forskel mellem grupperne. Kender man den sande effektstørrelse kan man med andre ord udregne sandsynligheden for, at den statistiske metode finder en signifikant forskel mellem gruppernes middelværdier.

Ved post-hoc powerberegninger - også kaldet observeret power - udregner man styrken på baggrund af estimaterne og de observerede forskelle fra forsøget for at bruge resultatet til at sige noget om det samme forsøg. Man kan dog vise matematisk, at den observerede styrke er fuldstændig bestemt ud fra den observerede \(p\) værdi. Da den observerede styrke er fuldstændig bestemt ud fra \(p\) værdien kan der altså ikke være ekstra information at hente om forsøget ud fra den observerede styrke. Figuren herunder viser sammenhængen mellem \(p\) værdien i studiet og den observerede styrke.

Figur 1: Figuren viser sammenhængen mellem observeret \(p\) værdi for et tosidet test og observeret power ved sammenligning af middelværdien i to grupper. Hvis data er normalfordelte (og de sammenlignes med et normalfordelingstest) er kurven den samme uanset antallet af observationer, spredningen og hvor stor en forskel, der er mellem grupperne. For normalfordelte data gælder figuren derfor for alle sammenligninger af to gruppemiddelværdier.

Der er to ting, der er værd at bemærke fra figuren. For det første at den observerede styrke er fuldstændig givet ud fra \(p\) værdien, og for det andet, at der for normalfordelte data er lav styrke (< ca. 50%), når man har observeret et ikke-signifikant resultat. For et et-sidet test med normalfordelte data og normalfordelt teststørrelse er styrken præcis 50% ved signifikansniveauet, og det vil være lidt større end 50% for et tosidet test med normalfordelte data. Man vil derfor aldrig komme ud for en situation, hvor man kan sige “vi forkastede ikke nulhypotesen, og styrken viste sig efterfølgende at have været høj, så det tyder på, at der ikke er nogen reel effekt, for så havde vi fundet den.”

Hvis en reviewer efterspørger post-hoc powerberegninger, så send dem en kopi eller et link til Hoenig og Heiseys fremragende og pædagogiske artikel, og forklar, at det ikke giver mening.

John M. Hoenig and Dennis M. Heisey. The Abuse of Power: The Pervasive Fallacy of Power Calculations for Data Analysis. The American Statistician 2001: 55(1); 19-24.