Det er tid til at kassere boksplottet

“Man skal tegne, før man må regne”. Utallige forskere og studerende har hørt det mundrette råd om at få overblik over data, før de går i gang med analyserne. Boksplottet bliver ofte anbefalet til dette formål, men måske er det tid til at pensionere boksplottet til fordel for nyere visualiseringsmetoder, der bedre viser fordelingens facetter.

Boksplottet er allestedsnærværende til at illustrere og sammenligne fordelinger. Det introduceres allerede i folkeskolens ældste klasser sammen med histogrammet/pindediagrammet, hvor eleverne - typisk i hånden - skal illustrere et lille datasæt. Hvorvidt de forstår hvorfor de laver disse grafiske præsentationer, eller om det mere bare er noget, læreren siger, at “man gør” er mindre vigtigt i denne sammenhæng.1 Selvfølgelig er det ikke uvigtigt i den store sammenhæng. Eleverne skal helst forstå nytten af disse visualiseringsmuligheder, og hvad de skal være opmærksom på. Samme lidt overfladiske tilgang til disse grafiske værktøjers brugbarhed ses til dels også i gymnasieskolen og på universiteterne.

Hele pointen med boksplottet er at få et overblik over en fordeling på baggrund af observationerne i en stikprøve. Både for at kunne formidle, hvilken population stikprøven repræsenterer, finde deciderede fejl, overraskende værdier og mønstre. Boksplottet kommer i lidt forskellige definitioner, og den mest almindelige er vist i figur 1. En hyppig variant af boksplottet strækker enderne - whiskers - helt ud til mindste og største værdi.


Figur 1: Et boksplot består af en midterboks (den lysegrå kasse), der viser medianen (markeringen i midten), nedre (Q1) og øvre kvartil (Q3). Boksen repræsenterer intervallet, hvor de midterste 50% af observationerne ligger. Boksens bredde kaldes inter-quartile range (IQR). Mulige outliers vises med deres værdier, mens stregerne strækker sig til henholdsvis mindste og største observation, der formentlig ikke er en mulig outlier. De to ‘whiskers’ strækker sig ned til mindste værdi indenfor \(Q1 - 1.5 imes\) IQR og op til største værdi indenfor \(Q3 + 1.5 imes\) IQR.

Boksplottet har den fordel, at det er let at lave, for det består af at finde grænserne for at inddele datasættet i fire lige store grupper: de mindste 25%, de næstmindste 25%, de næststørste 25% og de største 25%. I præsentationen opsummeres hele datasæt derfor - uanset stikprøvestørrelsen - ved hjælp af 5 tal: minimum, nedre kvartil (Q1), medianen, øvre kvartil (Q3) og maksimum.2 I de fleste boksplots lavet af en computer strækker de to whiskers sig ned til mindste værdi indenfor \(Q1 - 1.5\times\) IQR og op til største værdi indenfor \(Q3 + 1.5\times\) IQR. Det samme er gældende for figur 1. Boksplottet bærer præg af være fra en tid, hvor man ikke havde computere til rådighed. Det kræver ingen tunge udregninger - bare at rangordne observationerne.

Men der er en række problemer med boksplottet: den grove opsummering i 5 tal kan langt fra altid nuancere den underliggende fordeling; det giver ikke information om stikprøvestørrelsen; stikprøvegennemsnittet kan være svært at identificere; det er umuligt at se antallet af toppe (modaliteten) i fordelingen og så er boksplottet ikke så intuitivt at forstå, som mange tror. Spørgsmålet er, om ikke det er værd se på en række alternativer eller hybrider, der bedre viser flere facetter ved den underliggende fordeling.

Hvad er problemet med boksplottet?

Lad os betragte fire forskellige stikprøver og deres tilhørende boksplots. Hver stikprøve består af 60 observationer og boksplottene ses nedenfor i figur 2.

Figur 2: Boksplots for fire stikprøver. Ved første øjekast ser det ud til at fordelingen i de fire grupper lader til at være sammenlignelig.

Medianerne, kvartilerne, minimum og maksimum er temmelig ens i de fire grupper. Umiddelbart foranlediges man til at tro, at de fire underliggende fordelinger er ens. Hvis vi tegner histogrammerne op kan vi imidlertid se, at de underliggende fordelinger er ret forskellige (figur 3).

Figur 3: Histogrammer for de fire fordelinger. Gruppe 1 er en blanding af to normalfordelinger, gruppe 2 antager kun 10 forskellige værdier, gruppe 3 er en blanding af to beta-fordelinger og en ligefordeling, mens gruppe 4 er en ligefordeling.

Vi kan også tegne de enkelte observationer op i et dotplot (med lidt støj). Det giver læseren en umiddelbar fornemmelse af stikprøvestørrelserne, men det kan være svært at skelne mellem nogle fordelinger - især hvis stikprøvestørrelsen er lille, eller hvis punkterne ligger så tæt, at de overplottes.

Figur 4: Simpelt dotplot af de fire underliggende fordelinger med lidt støj langs \(y\)-aksen. Specielt for gruppe 2 er det svært at vurdere, om der faktisk er samme antal observationer for hver af de observerede værdier.

Hvad er der af alternativer?

Formålet med den grafiske fremstilling er at få et overblik over data. Enten for ens egen skyld, fordi data skal præsenteres for andre eller begge dele. Vi bekymrer os derfor ikke om, om det er “let at lave i hånden” - udelukkende om at få et godt overblik over data. Det er derfor, vi har computere. Ligeledes sigter vi her heller ikke efter et plot eller en grafik, der nødvendigvis kan læses og forstås uden forklaring. Det kan man alligevel ikke med boksplottet.

Et beeswarm plot bliver ind imellem anbefalet som alternativ til dotplottet vist i figur 3. I et beeswarm plot rykkes sammenfaldende punkter en lille smule langs \(y\)-aksen for at undgå overlap og overplotting med de øvrige punkter. Plottet kritiseres imidlertid for at den algoritme, der ændrer positionen i højden introducerer nogle U-formede visuelle artefakter, der får data til at fremstå med mere struktur end de egentlig har.3 Se for eksempel Leland Wilkinson (1999). Dot Plots fra The American Statistician.

Violinplottet viser den estimerede, udglattede tæthed spejlet sammen med boksplottet for at give en bedre fornemmelse af den underliggende fordeling. Udseendet af den “dobbelte tæthed” påvirkes en del af udglatningens båndbredde, men tætheden gør det lettere at se fordelingens form og hvor sandsynlighedsmassen er koncentreret. Stikprøvestørrelsen fremgår stadig ikke, hvilket kan være problematisk med det visuelle udtryk for små stikprøver, hvor den estimerede tæthed kan være ret ustabil.

Figur 5: Violinplottet kombinerer boksplottet med en den estimerede tæthed (spejlet). Den viste tæthed giver yderligere informationer omkring den underliggende fordeling, selvom stikprøvestørrelsen stadig er skjult. Violinplottet findes også i andre varianter, hvor boksplottet erstattes af et dotplot for at vise enkeltmålingerne.

Et beanplot forsøger at imødekomme problemet med ikke at kunne se enkeltobservationer ved at kombinere den dobbelte tæthed fra violinplottet med en variant af dotplottet. Enkeltmålinger vises som små lodrette streger, og gentagne værdier anvises ved at gøre stregerne højere. Den dobbelte tæthed i beanplottet har de samme fordele og potentielle problemer som for violinplottet.

Figur 6: Beanplot af de fire stikprøver. Beanplottet viser en dobbelt tæthed ligesom for violinplottet, mens individuelle observationer er vist som små streger. Flere observationer med samme værdi vises ved at øge højden af stregerne. Medianen er vist med den lodrette stiplede linje, mens middelværdien er angivet ved den farvede lodrette streg.

Et raincloud plot kombinerer tætheden, boksplottet og dotplottet i en enkelt graf. Dermed vises både enkeltmålinger, den estimerede tæthed, og et boksplot, der opsummerer sandsynlighedsmassens placering. Dette giver mulighed for at trække på fordelene ved hver af de enkelte plot, og dermed få et bedre overblik over flest mulige facetter ved stikprøven og den underliggende fordeling.

Figur 7: Et raincloud plot forsøger at imødekomme problemerne med dotplot, violinplot og boksplot ved at kombinere alle tre i en figur. Den estimerede tæthed ligner en skyformation, hvor boksplottet kan fornemmes nedenunder. Med lidt god vilje ligner enkeltmålingerne fra dotplottet regndråber, der falder fra skyen. Figuren kan tilmed udvides ved at overlejre skyen med et histogram og/eller vise middelværdi +/- 2 spredninger i det omfang disse giver ekstra mening.

Konklusion

Der sker meget i raincloud plot, så figuren kan næppe forventes at kunne forstås uden at modtageren introduceres til alle elementerne i det. Det ændrer imidlertid ikke ved, at der er mange flere nyttige nuancer gemt - og vist - i en raincloud plot end i det traditionelle boksplot.

Tilmed kan man sige, at kombinationen af at kunne se enkeltmålingerne og den tilhørende tæthed også hjælper til med at forstå og fortolke selve boksplottet. Hvorfor nøjes med boksplottets grove fremstilling af datasættet, når computeren uden problemer kan producere en figur, der giver mulighed for dybere forståelse, og som direkte gør det lettere at sammenligne forskellige stikprøvers fordeling?

“Man skal tegne, før man må regne - og når man skal tegne, bør det gøres ved at regne.”