Dikotomisering - sjældent en god ide

Af: Claus Thorn Ekstrøm, 10. marts 2016

Dikotomisering af variable er populært og særdeles udbredt indenfor nogle fagområder. Ved dikotomisering inddeles en variabel i 2 grupper, og påstanden er, at dikotomisering simplificerer de statistiske analyser, gør fortolkningen af resultaterne lettere, og generelt stemmer bedre overens med de medicinske/biologiske situationer, som forskerne beskæftiger sig med i dagligdagen. Fra et statistisk synspunkt skal man helst undgå at dikotomisere kontinuerte variable, for dikotomisering resulterer i tab af styrke (power), øget risiko for falske positiver (type I fejl), og dårligere evne til at beskrive den reelle biologiske effekt.

I bedste fald er informationsindholdet i den nye dikotomiserede variabel det samme som i den oprindelige variabel, men typisk er informationsindholdet reduceret. Det er jo altid muligt at gå fra den oprindelige variabel til den dikotomiserede, men man kan ikke gå den anden vej.

Når y dikotomiseres reduceres bliver alle værdierne samlet i to nye kategorier. Hvis man kun ved, om en observation er fra kategori 1 eller kategori 2 kan man ikke gå “den anden vej” og rekonstruere de oprindelige y-værdier. Der er derfor mindre detaljeret information i den nye variabel med to kategorier, og konsekvensen af dikotomisering er, at vi har smidt information væk.

Eksempel på dikotomisering.

Figuren nedenfor viser to eksempler, hvor man vil sammenligne BMI for to grupper: behandling og kontrol. Det er tydeligt fra figuren, at der er forskel på middelværdierne i de to grupper i studiet til venstre, mens der næsten ingen forskel er på værdierne i de to grupper i studiet til højre. Gennemsnittet i de to grupper kan sammenlignes med et $t$ test, men i begge tilfælde vælger man at dikotomisere BMI ved grænsen for overvægt BMI>25.

Sammenligning af gennemsnitlig BMI for behandling og kontrol i de to eksempler ved hjælp af et $t$ test giver, at der er kraftig signifikant forskel på middelværdierne i eksempel 1 (estimeret forskel på 0.825, p=0.0089), men ingen forskel i middelværdier mellem behandling og kontrol i eksempel 2 (estimeret forskel 0.175, p=0.177).

A figure in the main column.

Dikotomiseringen producerer i begge eksempler i samme 2x2-tabel, hvilket betyder, at den statistiske konklusion for sammenligningen mellem de to grupper i begge tilfælde ender med at være helt identiske.

Når ovennævnte BMI data dikotomiseres ender man i begge eksempler med helt identiske 2x2 tabeller. Et $\chi^2$ test for denne tabel giver, at der ikke er signifikant sammenhæng mellem behandling og BMI>25.

  Behandling Kontrol
Nej 17 10
Ja 8 15

Den reelle biologiske forskel af den underliggende variabel fremgik både af figuren og af resultatet fra t testet, men den forsvinder helt, når vi udelukkende betragter det dikotomiserede udfald, fordi vi har ændret vores hypotese, og nu taler om personer over en grænse fremfor reelle værdier i BMI.

Problematikken er der ikke kun, når man dikotomiserer udfaldet. De samme potentielle problemer opstår, hvis man kategoriserer en forklarende variabel. Nedenfor er vist fire forskellige situationer, hvor man gerne vil beskrive sammenhængen mellem to kontinuerte variable - x og y - der begge dikotomiseres. I alle fire situationer er der nøjagtig 25 observationer i hvert kvadrant, hvilket betyder at man i ingen af tilfældene vil finde antydningen af en sammenhæng mellem x og y, hvis man betragter den tilhørende 2x2-tabel.

Kun i den øverste venstre figur er der ingen virkelig sammenhæng mellem x og y. I de to eksempler til højre er der en meget tydelig sammenhæng mellem x og y, der helt forsvinder ved dikotomiseringen. I eksemplet nederst til venstre er der variansheterogenitet: spredningen af y afhænger af værdien af x.

A figure in the main column.

Det er naturligvis svært bekymrende, at dikotomisering kan betyde, at man overser eksisterende effekter i data eller ligefrem finder sammenhænge, som i virkeligheden ikke er relevante. Med andre ord skal man forsøge at undgå at dikotomisere sine variable. Umiddelbart kan den statistiske analyse måske virke lettere at udføre og fortolke med de dikotomiserede data, men det fordi man glemmer den “pris”, man betalre for dikotomiseringen: For det første bliver konklusionerne fra studiet mindre præcise. I stedet for at kunne sige “Den gennemsnitlige forskel i BMI mellem de to grupper er 1.8” kan man med dikotomiserede data kun konkludere “andelen af personer med BMI>25 er 1.6 gange større i kontrolgruppen i forhold til behandlingsgruppen”, hvor man ikke kan udtale sig om den reelle biologiske effekt. For det andet glemmer man, at man - når man dikotomiserer - indirekte har lavet (og accepteret) en antagelse om, at der eksisterer en tærskelværdi, så alle målinger over tærsklen er sammenlignelige for alle praktiske formål, og ligeledes for alle målingerne under tærskelværdien. Hvorfor skulle det være sandt?

Det er brandærgerligt, når man læser artikler, hvor det primære udfald er blevet samlet til en enkelt variabel med to niveauer, hvor det ikke var nødvendigt. Det kan for eksempel være blodtryk (der er intet “magisk” ved 120/80 eller 140/90 i blodtryk - det er bare nogle grænser), overvægt (hvorfor ikke bruge de rå værdier af BMI, hofte/talje eller bare vægt i stedet for at lave to grupper) eller diabetes (diabetes er en fællesbetegnelse, som både dækker patienter med nedsat insulinfølsomhed og patienter med nedsat insulinproduktion, og det er i bund og grund to forskelling ting, de fejler).

Der kan selvfølgelig være situationer, hvor det er relevant - enten på grund af tidligere viden eller ud fra biologiske eller økonomiske betragtninger - at se på en dikotomiseret variabel, men det er svært at forestille sig en situation, hvor man har lavet et studie, og det så ikke giver bedre mening at bruge de data, der har bedst mulighed for at finde eller afkræfte de forskelle, der måtte være i data.

Dikotomisering - sjældent en god ide - 10/03 2016 - claus og sandsynligvis.dk