Hvorfor individuel procentvis ændring er skidt

I medicinske forsøg beskæftiger man sig ofte med sammenligninger af før- og efter-data for forskellige typer behandlinger, og det er her interessant at sammenligne de gennemsnitlige ændring over tid på tværs af behandlingerne. Ændringer over tid kan både være absolutte (differencer) og relative (procentvise ændringer). Vi illustrerer her, hvorfor det er en dårlig idé at basere sådanne sammenligninger på gennemsnitlige relative forskelle.

## Warning: The `size` argument of `element_rect()` is deprecated as of ggplot2 3.4.0.
## ℹ Please use the `linewidth` argument instead.

Simpelt er ikke altid bedst

Kaldes også baseline og follow-up eller “pre and post test” data Ved statistiske analyser af kliniske randomiserede forsøg er der for størstedelens vedkommende tale om såkaldt før og efter-data. Patienter, der opfylder forsøgets inklusionskriterier, starter med at få målt en række baseline-variable - herunder også det primære udfald som man er interesseret i at studere. Dernæst bliver de randomiseret til to grupper – f.eks. en aktiv behandling og en placebobehandling – og efter et stykke tid måler man igen det primære udfald.

Man er nu interesseret i at undersøge, hvorvidt den ene gruppe patienter i gennemsnit har udvist en større ændring i udfaldet end den anden gruppe hen over forsøgsperioden. Hvis en sådan ændring er tilpas overbevisende statistisk set og har en størrelse, der er klinisk relevant, konkluderer man, at behandlingen har en signifikant effekt på udfaldet.

Der er forskellige måder at kvantificere individuelle ændringer for hver patient på. Én måde er at kigge på differencen mellem før- og efter-værdierne for hver patient relativt til deres baseline-værdier. Dette svarer til at kigge på de relative ændring i procent for hver patient og så sammenligne disse i gennemsnit på tværs af de to grupper. Det kan være en tanke, der umiddelbart tiltaler mange. Måske fordi de tænker, at begrebet gennemsnitlig procentvis ændring giver anledning til en simpel forståelse af sagsforholdet.

I forbindelse med en fagfællebedømmelse af en artikel modtog jeg fornylig følgende kommentar fra en af de to anonyme bedømmere:

,,Although the analyses take account of their multiple observations, they have ended up examining differences in trajectory, which is quite complex given the fact that this isn’t linear. […] it would have been simpler just to compare percentage change between the baseline and final value ie total gain over the study period.’’

Formålet med dette blogindlæg er at illustrere, at man ikke bør lave sådan en sammenligning baseret på individuelle relative forskelle, da det fører til en dårligere statistisk analyse, der ikke udnytter den tilgængelige information i data på bedste vis - og det er jo både synd og skam!

Forskellige forskelle og deres styrker

Vi sammenligner fire forskellige metoder til analyse af før og efter-data:

  1. Forskel i gennemsnitlig relativ ændring i forhold til baseline i de to grupper (Relativ)
  2. Forskel i gennemsnitlig absolut ændring i de to grupper (Difference)
  3. Forskel i gennemsnitlig follow-up-værdi i de to grupper (Post)
  4. En lineær regressionsmodel for follow-up med baseline som kovariat (ANCOVA)

En type II fejl kaldes også en falsk negativ Vi baserer sammenligningen på metodernes styrke (engelsk: power). Styrken for et statistisk test er dets evne til at detektere en forskel mellem grupperne, såfremt der rent faktisk er en forskel til stede i virkeligheden. En forskel der findes, men som ikke bliver påvist ved testet, kaldes en type II fejl. Det er ønskværdigt, at et test har så høj styrke som muligt, da den i så fald vil være bedst til at opfange tilstedeværelsen af en eksisterende effektforskel.

Gennem computersimulation er det nemt at finde styrken for de forskellige metoder. Idéen er som følger:

  1. Man simulerer et dataset fra en situation, hvor der er en forskel mellem de to grupper
  2. Man udfører det statistiske test og beregner p-værdien for nulhypotesen om ingen forskel mellem grupperne
  3. Hvis p-værdien er lav (her mindre end de sædvanlige 5%), erklæres resultatet signifikant.
  4. Dette gentages en hel masse gange (her 10.000)
  5. Til slut beregnes andelen af gange, hvor testet var signifikant i forhold til antal simulationer

Fordi vi simulerede data under hypotesen om, at der er en forskel mellem grupperne, vil denne andel tilnærme sig sandsynligheden for at detektere en forskel, når den rent faktisk findes, hvilket er definitionen på testets styrke.

Simuleret eksempel

Andrew J Vickers. The use of percentage change from baseline as an outcome in a controlled trial is statistically inefficient: a simulation study. BMC Med Res Methodol. 2001; 1: 6. Vi genskaber eksemplet fra Vickers (2001), hvor de to grupper har samme middelværdi ved baseline, og ved follow-up er der en standardiseret effektforskel (minimum clinically important difference) på 0.5. Vi sætter standardafvigelsen (SD) til 10 og kigger på styrken som en funktion af korrelationen mellem follow-up og baseline.

Figur 1: Simuleret styrke for de fire forskellige metoder under varierende korrelation mellem baseline og follow-up

Ved at studere figuren har vi nu lært følgende:

  1. ANCOVA-metoden er mest efficient, da den generelt har højest styrke
  2. Styrken for metode 3 (POST) er konstant, hvilket ikke er overraskende, da den kun kigger på forskel i follow-up data
  3. Forskelle i gennemsnitlig relative og absolutte forskelle har stort set identisk styrke
  4. Det er mere efficient kun at kigge på follow-up-observationerne end på forskellene mellem baseline og follow-up, når korrelation mellem dem er mindre end \(0.5\).

Årsagen til 4. kan vi let forstå, hvis vi betragter standardafvigelserne i de to tilfælde. Lad \(\sigma\) være samme standardafvigelse for både baseline- og follow-up-observationerne og \(\rho\) korrelationen imellem dem. Differencerne vil da have mindre standardafvigelse end post-målingerne, hvis

\[ \sqrt{2\sigma^2 - 2\rho \sigma^2} < \sigma \]

hvilket er opfyldt for \[ \frac{1}{2} < \rho \leq 1 \].

Billedet ser dog helt anderledes ud, når vi skruer op for variationen. Nedenfor ses samme eksempel som før, men hvor standardafvigelserne er øget til 20 og 30, men samtidig er forskellen i middelværdi mellem de to grupper på follow-up-tidspunktet gjort tilsvarende større, sådan så effektstørrelsen er konstant.

Figur 2: Samme scenarie som før men med forøget varians

Her ses det tydeligt, at alle analysemetoder undtagen den baseret på gennemsnitlige relative ændringer bibeholder samme styrker som før. Styrken for metoden baseret på relative ændringer rasler derimod hastigt mod 0!

Forklaringen

Forklaringen på fænomenet skal findes i forskellen mellem division og subtraktion. Intuitivt set er division en ,,ustabil’’ operation i den forstand, at en lille forskel i nævneren kan give anledning til en stor forskel i resultatet. Det samme er ikke tilfældet for subtraktion. Dette ses tydeligt i eksemplerne fra før, hvor baseline-variansen øges, mens effektforskellen forbliver den samme.

Yderligere indsigt kan fås ved at betragt fordelingerne for de to former for ændringer:

  1. En difference mellem to normalfordelinger er stadig en normalfordeling, og derfor vil de absolutte ændringer også være normalfordelte.
  2. En ratio mellem to normalfordelinger er ikke en normalfordeling og opfører sig radikalt anderledes.

Her er der dog teknisk set tale om en lidt mere komplesk variant af Cauchy-fordeling. Se f.eks. Cedilnik et al. The Distribution of the Ratio of Jointly Normal Variables. Metodoloski zvezki, vol. 1, no. 1, 2004 En ratio mellem to uafhængige standard normalfordelinger er en såkaldt Cauchy-fordeling (som er det samme som en \(t\)-fordeling med én frihedsgrad). En bemærkelsesværdig egenskab ved Cauchy-fordelingen er, at den har uendelig populationsvarians. Det implicerer, at det sædvanlige estimat af variansen vokser, jo større en stikprøve der tages!

Vi kan illustrere dette ved igen at se på eksemplet fra før, hvor vi nu simulerer 500 gange - først med en stikprøvestørrelse på 50 i hvert simuleret forsøg og derefter med en stikprøvestørrelse på 10.000. I hver af de 500 simulationer har vi beregnet standardafvigelsen på henholdsvis differencerne mellem pre og post og på de relative ændringer i forhold til baseline.

Figur 3: Standardafvigelse for absolutte og relative forskelle for to forskellige stikprøvestørrelser.

Vi ser her tydeligt, hvordan variationen på standardafvigelserne for differencerne bliver mindre, når stikprøvestørrelsen bliver større, mens det modsatte er tilfældet for variansen af de relative ændringe, som nærmest eksploderer.

Konklusion

Baseret på disse erfaringer må vi konkludere, at det ikke kan anbefales at basere statistiske analyser af før og efter-data på gruppesammenligninger af gennemsnitlige individuelle relative ændringer.

Anbefalingen er, at hvis man insisterer på udtale sig om relative ændringer mellem grupper, bør disse beregnes på baggrund af gennemsnit i grupper for henholdsvis baseline og follow-up og ikke på ændringer på individniveau. Disse gennemsnit skal i så fald stamme fra en statistik model, der modellerer middelværdierne af rådata i de to grupper på de to tidspunkt og bør da kun indgå som deskriptive statistikker i en samlet præsentation af data.

Dette er en konsekvens af Jensens ulighed Sagsforholdet kompliceres dog yderligere af, at en forskel i gennemsnit af individuelle relative ændringer ikke er det samme som en forskel i relative ændringer af gennemsnit!

Generelt anbefales det derfor at benytte en ANCOVA regressionsmodellen til analyse af før- og efter-data med et enkelt opfølgningstidspunkt.

Det er dog heller ikke altid, at relative ændringer overhovedet giver mening - men det er en anden diskussion.