Det er tid til at kassere boksplottet
“Man skal tegne, før man må regne”. Utallige forskere og studerende har hørt det mundrette råd om at få overblik over data, før de går i gang med analyserne. Boksplottet bliver ofte anbefalet til dette formål, men måske er det tid til at pensionere boksplottet til fordel for nyere visualiseringsmetoder, der bedre viser fordelingens facetter.
Boksplottet er allestedsnærværende til at illustrere og sammenligne fordelinger. Det introduceres allerede i folkeskolens ældste klasser sammen med histogrammet/pindediagrammet, hvor eleverne - typisk i hånden - skal illustrere et lille datasæt. Hvorvidt de forstår hvorfor de laver disse grafiske præsentationer, eller om det mere bare er noget, læreren siger, at “man gør” er mindre vigtigt i denne sammenhæng.1 Selvfølgelig er det ikke uvigtigt i den store sammenhæng. Eleverne skal helst forstå nytten af disse visualiseringsmuligheder, og hvad de skal være opmærksom på. Samme lidt overfladiske tilgang til disse grafiske værktøjers brugbarhed ses til dels også i gymnasieskolen og på universiteterne.
Hele pointen med boksplottet er at få et overblik over en fordeling på baggrund af observationerne i en stikprøve. Både for at kunne formidle, hvilken population stikprøven repræsenterer, finde deciderede fejl, overraskende værdier og mønstre. Boksplottet kommer i lidt forskellige definitioner, og den mest almindelige er vist i figur 1. En hyppig variant af boksplottet strækker enderne - whiskers - helt ud til mindste og største værdi.
Boksplottet har den fordel, at det er let at lave, for det består af at finde grænserne for at inddele datasættet i fire lige store grupper: de mindste 25%, de næstmindste 25%, de næststørste 25% og de største 25%. I præsentationen opsummeres hele datasæt derfor - uanset stikprøvestørrelsen - ved hjælp af 5 tal: minimum, nedre kvartil (Q1), medianen, øvre kvartil (Q3) og maksimum.2 I de fleste boksplots lavet af en computer strækker de to whiskers sig ned til mindste værdi indenfor \(Q1 - 1.5\times\) IQR og op til største værdi indenfor \(Q3 + 1.5\times\) IQR. Det samme er gældende for figur 1. Boksplottet bærer præg af være fra en tid, hvor man ikke havde computere til rådighed. Det kræver ingen tunge udregninger - bare at rangordne observationerne.
Men der er en række problemer med boksplottet: den grove opsummering i 5 tal kan langt fra altid nuancere den underliggende fordeling; det giver ikke information om stikprøvestørrelsen; stikprøvegennemsnittet kan være svært at identificere; det er umuligt at se antallet af toppe (modaliteten) i fordelingen og så er boksplottet ikke så intuitivt at forstå, som mange tror. Spørgsmålet er, om ikke det er værd se på en række alternativer eller hybrider, der bedre viser flere facetter ved den underliggende fordeling.
Hvad er problemet med boksplottet?
Lad os betragte fire forskellige stikprøver og deres tilhørende boksplots. Hver stikprøve består af 60 observationer og boksplottene ses nedenfor i figur 2.
Medianerne, kvartilerne, minimum og maksimum er temmelig ens i de fire grupper. Umiddelbart foranlediges man til at tro, at de fire underliggende fordelinger er ens. Hvis vi tegner histogrammerne op kan vi imidlertid se, at de underliggende fordelinger er ret forskellige (figur 3).
Vi kan også tegne de enkelte observationer op i et dotplot (med lidt støj). Det giver læseren en umiddelbar fornemmelse af stikprøvestørrelserne, men det kan være svært at skelne mellem nogle fordelinger - især hvis stikprøvestørrelsen er lille, eller hvis punkterne ligger så tæt, at de overplottes.
Hvad er der af alternativer?
Formålet med den grafiske fremstilling er at få et overblik over data. Enten for ens egen skyld, fordi data skal præsenteres for andre eller begge dele. Vi bekymrer os derfor ikke om, om det er “let at lave i hånden” - udelukkende om at få et godt overblik over data. Det er derfor, vi har computere. Ligeledes sigter vi her heller ikke efter et plot eller en grafik, der nødvendigvis kan læses og forstås uden forklaring. Det kan man alligevel ikke med boksplottet.
Et beeswarm plot bliver ind imellem anbefalet som alternativ til dotplottet vist i figur 3. I et beeswarm plot rykkes sammenfaldende punkter en lille smule langs \(y\)-aksen for at undgå overlap og overplotting med de øvrige punkter. Plottet kritiseres imidlertid for at den algoritme, der ændrer positionen i højden introducerer nogle U-formede visuelle artefakter, der får data til at fremstå med mere struktur end de egentlig har.3 Se for eksempel Leland Wilkinson (1999). Dot Plots fra The American Statistician.
Violinplottet viser den estimerede, udglattede tæthed spejlet sammen med boksplottet for at give en bedre fornemmelse af den underliggende fordeling. Udseendet af den “dobbelte tæthed” påvirkes en del af udglatningens båndbredde, men tætheden gør det lettere at se fordelingens form og hvor sandsynlighedsmassen er koncentreret. Stikprøvestørrelsen fremgår stadig ikke, hvilket kan være problematisk med det visuelle udtryk for små stikprøver, hvor den estimerede tæthed kan være ret ustabil.
Et beanplot forsøger at imødekomme problemet med ikke at kunne se enkeltobservationer ved at kombinere den dobbelte tæthed fra violinplottet med en variant af dotplottet. Enkeltmålinger vises som små lodrette streger, og gentagne værdier anvises ved at gøre stregerne højere. Den dobbelte tæthed i beanplottet har de samme fordele og potentielle problemer som for violinplottet.
Et raincloud plot kombinerer tætheden, boksplottet og dotplottet i en enkelt graf. Dermed vises både enkeltmålinger, den estimerede tæthed, og et boksplot, der opsummerer sandsynlighedsmassens placering. Dette giver mulighed for at trække på fordelene ved hver af de enkelte plot, og dermed få et bedre overblik over flest mulige facetter ved stikprøven og den underliggende fordeling.
Konklusion
Der sker meget i raincloud plot, så figuren kan næppe forventes at kunne forstås uden at modtageren introduceres til alle elementerne i det. Det ændrer imidlertid ikke ved, at der er mange flere nyttige nuancer gemt - og vist - i en raincloud plot end i det traditionelle boksplot.
Tilmed kan man sige, at kombinationen af at kunne se enkeltmålingerne og den tilhørende tæthed også hjælper til med at forstå og fortolke selve boksplottet. Hvorfor nøjes med boksplottets grove fremstilling af datasættet, når computeren uden problemer kan producere en figur, der giver mulighed for dybere forståelse, og som direkte gør det lettere at sammenligne forskellige stikprøvers fordeling?
“Man skal tegne, før man må regne - og når man skal tegne, bør det gøres ved at regne.”