Brug Welch' t test og stop med at teste for ens varianser

På det seneste har vi på afdelingen diskuteret undervisning og drøftet de fremgangsmåder, som de studerende lærer. Det kom der en interessant diskussion ud af, som både understregede, at statistiske analyser sjældent kan fuldstændig automatiseres, men skal tilpasses hver enkelt situation, men også at de studerende lærer lidt forskellige fremgangsmåder på vores kurser. Et emne, som vi ikke diskuterede, men ofte dukker til statistikkonsultationerne, er praksis med at først at teste for ens varianser i forbindelse med t test for to uafhængige stikprøver. Mange studerende har lært, at de skal bruge en to-trins procedure, hvor de først tester for ens varianser, og derefter vælger, hvilket t test de vil benytte, men dette er det helt unødvendigt, og faktisk er det sikrere at lade være.

T testet bruges til at undersøge om middelværdien i to uafhængige populationer er ens. Students sædvanlige t test antager, at værdierne i de to grupper er normalfordelte og har samme spredning, og den tilhørende teststørrelse er givet ved

\[t = \frac{\bar{X}_1 - \bar{X}_2}{s \sqrt{\frac{1}{N_1} + \frac{1}{N_2}}},\]

hvor \(\bar{X}_1\) og \(\bar{X}_2\) er gennemsnittene i de to stikprøver, \(s\) er estimatet for den fælles spredning og \(N_1\) og \(N_2\) er de tilhørende stikprøvestørrelser. \(s\) estimeres som et vægtet gennemsnit af stikprøvespredningerne, \(s_1\) og \(s_2\), \(s = \sqrt{\frac{(N_1-1)\cdot s_1^2 + (N_2-1)\cdot s_2^2}{N_1-1 + N_2-1}}\)1 En implicit antagelse for at det giver mening at udregne den fælles spredning \(s\) er, at \(s_1\) og \(s_2\) er estimater af den samme, fælles spredning., og teststørrelsen \(t\) sammenlignes med en t-fordeling med \(N_1+N_2-2\) frihedsgrader.

Antagelsen om samme spredning i de to grupper giver ofte anledning til problemer i praksis, for i mange situationer er denne antagelse ikke opfyldt. Når spredningerne er forskellige i de to grupper har de fleste lært at benytte Welch’ teststørrelse

\[t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{N_1} + \frac{s_2^2}{N_2}}},\]

som ses at svare til Students teststørrelse når \(s=s1=s2\). Den præcise fordeling af Welch’ teststørrelse under nulhypotesen kan ikke udledes, men Welch foreslog at approksimere teststørrelsens fordeling med en t-fordeling med \(\nu \approx \frac{\left(\frac{s_1^2}{N_1} + \frac{s_2^2}{N_2}\right)^2}{\frac{s_1^4}{N_1^2(N_1-1)} + \frac{s_2^4}{N_2^2(N_2-1)}}\) frihedsgrader.

Det viser sig, at approksimation er rigtig god - selv for små stikprøver og for meget uens varianser.2 Ved at jonglere rundt på formlen for frihedsgraderne kan man ligeledes se, at hvis de to stikprøvestørrelser er ens, \(N_1=N_2\), så vil Welch’ teststørrelse og frihedsgrader stort set svare til Students teststørrelse og frihedsgrader. En konsekvens af dette er, at der derfor heller ikke noget stort problem ved at bruge Students teststørrelse, når spredningnerne er forskellige så længe stikprøvestørrelserne er ens. Det er når både spredningerne og stikprøvestørrelserne er forskellige, at man kan løbe ind i problemer, hvis man udelukkende bruger Students t test, og disse problemer håndterer Welch’ test.

Den to-trins analysefremgangsmåde man ser anbefalet mange steder (en hurtig søgning på nettet gav blandt andet disse danske materialer: Noter i Statistik, Statistik og Sandsynlighedsregning 2, KU og Forudsætninger for lineær regression og variansanalyse efter mindste kvadraters metode) er skitseret i figuren nedenfor. Først testes om der er ens varianser i de to grupper.3 For eksempel ved hjælp af Bartletts eller Levens test. Hvis hypotesen om ens varianser ikke forkastes bruges Students t test og ellers bruges Welch’ t test.

Figur 1: Skitse af den to-trins analyseplan, der anbefales mange steder. Først testes om varianserne er ens og alt afhængig af resultatet vælges enten at lave analysen med Students eller Welch’ t test. Bemærk, at to-trins proceduren ikke er optimal.

Argumentet for denne to-trins-procedure er, at hvis de to varianser er ens, så er det mere optimalt at benytte et test, der udnytter, at man kan bruge data fra begge stikprøver til at estimere den fælles varians. Og så sparer man en frihedsgrad. Når spredningerne er forskellige kan man “falde tilbage” på Welch’ t test.

Der er to ulemper ved denne fremgangsmåde. Den ene er, at man efter varianshomogenitetstestet “glemmer” den oprindelige usikkerhed, der var om spredningerne. Dette er måske mindre problematisk. Et større problem er, at Students t test kan give ret forkerte resultater, hvis man ved en fejltagelse kommer til at bruge det i situationer, hvor spredningerne og stikprøvestørrelserner er forskellige. Dette er vist i figuren nedenfor.

Figur 2: Histogrammer over 10000 simulerede p-værdier for Students t test (rød) og Welch’ t test (sort) under nulhypotesen om ingen forskel i middelværdi i fire situationer. De vandrette stiplede linjer repræsenterer det niveau, som histogrammerne burde have. Øverst til venstre har de to populationer samme varians og begge teststørrelser resulterer i en uniform fordeling af p-værdierne som ønsket. Det samme gør sig gældende øverst til højre, hvor spredningerne er forskellige, men de ens stikprøvestørrelser sikrer at begge tests rammer det rigtige niveau. Når den store gruppe har den store varians giver Students t test for få små p-værdier (nederste venstre figur), mens Students t test giver for mange små p-værdier, når den store gruppe har den mindte varians (nederste højre figur). I alle tilfælde giver Welch’ t test det rigtige niveau.

To-trins-proceduren med først at teste for ens varianser afhænger af styrken af varianshomogenitetstestet, da det er dette test, der bestemmer, om man vælger Students eller Welch’ t test. Konsekvensen er, at hvis styrken af varianshomogenitetstestet er lav - for eksempel ved små stikprøver - så er man mere tilbøjelig til at vælge Students t test, der kan give forkerte analyseresultater. Man risikerer simpelthen at få blandet Students t test ind i billedet, når det ikke er passende, og to-trins-proceduren har dermed ikke det rigtige niveau.

Argumentet for, at det kunne være fordelagtigt at bruge Students t test i stedet for bare konsekvent at benytte Welch’ t test var, at styrken er højere, når modelantagelserne er opfyldte. Det er også korrekt, men forskellen i styrke mellem Students og Welch’ t test er i virkeligheden forsvindende lille. I figuren nedenfor sammenlignes styrken for varierende forskelle i middelværdi (effektstørrelse) mellem populationerne, og for forskellige forhold i stikprøvestørrelser, men med ens varianser, svarende til situationen, hvor Students t test er optimal.

Figur 3: Styrken for at finde en forskel i middelværdier som funktion af effektstørrelsen. Figuren viser styrken for at finde en statistisk forskel i middelværdien mellem to grupper, når antagelserne for Students t test er opfyldte (dvs. ens varianser i de to grupper). De røde kurver er styrken for Studenrts t test, mens de sorte kurver er styrken for Welch’ t test, og de tre par af kurver viser tilfælde, hvor forholdet mellem stikprøvestørrerne er henholdsvis 1 (nederst), 2 og 3 (øverst).

Under nulhypotesen om ingen forskel i middelværdien vinder Welch’ test suverænt, da testet uden problemer rammer det korrekte nominelle niveau både - også når spredningerne og gruppestørrelserne varierer (figur 2). Når spredningerne er ens og der er en forskel i middelværdier, så vil Welch’ test have stort set samme styrke som Students t test. Konklusionen må derfor være, at man altid bør bruge Welch’ t test, og man skal holde sig fra at bruge fremgangsmåden med først at teste for ens varianer, da man blot risikerer at få anvendt Students t test i en situationer, hvor antagelserne ikke er opfyldte.