Hænger antallet af Nicolas Cage film sammen med drukning?
At antallet af personer, som drukner i en pool, hænger sammen med antallet af film, som Nicolas Cage medvirker i – og andre absurde sammenhænge – finder man på siden Spurious correlations. Men er der overhovedet tale om en sammenhæng, eller er der tale om et sammenfald, som gør sig ud for at være en sammenhæng? Og er det overhovedet vigtigt?
I Danmark har der de sidste år været en massiv debat om HPV-vaccinen. Specielt om hvorvidt vaccinen forårsager visse lidelser såsom POTS. Formodentlig som konsekvens af debatten er tilslutningen til vaccineprogrammet styrtdykket. I artiklen Sundhedsdirektøren: »Det postfaktuelle sniger sig ind på sundhedsområdet« i Politiken, søndag den 19. februar, 2017, fortæller Sundhedsstyrelsens direktør Søren Brostrøm blandt andet om problemet med tilslutningen til HPV-vaccineprogrammet. Artiklen følges op af et interview med Søren Brostrøm i Deadline på DR2 den 21. februar. Begge steder fremhæves det, at der fra et videnskabeligt synspunkt ikke kan påvises en årsagssammenhæng mellem vaccine og lidelserne. Konklusionen er klar — der er ikke belæg for at påstå, at vaccinen forårsager lidelserne.
For at forstå den videnskabelige konklusion er det blandt andet nødvendigt med en forståelse for brugen af ord som årsagssammenhæng, sammenhæng, sammentræf og sammenfald. Det er for eksempel vigtigt at forstå, at der godt kan være et sammenfald mellem vaccination og symptomer for en gruppe af individer, uden af det strider mod den videnskabelige konklusion, og uden at det er udtryk for en sammenhæng. Der kan ligeledes være en sammenhæng, uden at det nødvendigvis er en årsagssammenhæng.
Præcis sprogbrug gør det altid lettere for modtageren at forstå, hvad der menes. Det gælder bestemt også, når videnskabelig problemstillinger skal kommunikeres til ikke-eksperter. Fagfolk benytter tekniske termer med veldefinerede betydninger, for at kommunikationen kan blive så klar og præcis som muligt. I statistik benytter vi termer som kausalitet, korrelation, konkordans og koincidens, som på forskellig vis er knyttet til forståelsen af “sammenhænge”. Når disse begreber skal kommunikeres til personer uden statistisk baggrund, er det nødvendigt at forklare, hvad de betyder. Det er ikke en let opgave, når definitionerne rummer såvel tekniske som epistemologiske komponenter, der ikke kan absorberes på to minutter. Derfor benyttes som regel en sproglig forklaring med brug af mindre tekniske termer. Den sproglige forklaring skal ikke definere termerne formelt men give modtageren det rette mentale billede. Samme teknik benyttes i enhver pædagogisk lærebog.
I såvel Politiken som i Deadline forklares begrebet kausalitet som årsagssammenhæng, og det er fint. De fleste af os forstår den grundlæggende ide i årsag-virknings-mekanismer. Vi tænker måske på sådan en mekanisme som en lyskontakt. Hvis vi tænder og slukker på kontakten, så tænder og slukker lyset. Vi kan også godt forstå, at der findes sammenhænge, der ikke er (direkte) årsagssammenhænge. Hvis der er to lamper, kan der sagtens være en sammenhæng mellem hvorvidt lamperne er tændt, uden at det at den ene lampe tændes forårsager at den anden tændes. De kunne f.eks. begge blive tændt, når det er mørkt udenfor. Det er et eksempel på en korrelation (altså en “ko-relation” eller “sam-relation”), som lamperne imellem er en sammenhæng men ikke en årsagssammenhæng.1 I lampeeksemplet er der en underliggende årsagssammenhæng, som med en god anglicisme kaldes en confounder. Man kan også finde sammenhænge, som ikke er årsagssammenhænge, ved selektion af observationerne. Det kaldes selektionsbias.
Begrebet korrelation defineres desværre sprogligt i Politiken og i Deadline som sammenfald, og det er ikke en god definition. Sammenfald og sammentræf er sproglige forklaringer af begrebet koincidens og ikke af korrelation, så den forklaring giver det forkerte mentale billede af korrelation. Sammenfald er hændelser, der sker, selvom der ikke er en sammenhæng.
Det er vigtigt at være præcis selv i den utekniske sproglige forklaring af tekniske termer. Antallet af film, som Nicolas Cage medvirker i, og antallet af drukneulykker hænger kun tilsyneladende sammen. Det er en tilsyneladende sammenhæng, der er opstået som et udvalgt sammenfald blandt mindre spektakulære sammenfald. Det er et sammenfald, som er blevet ophøjet til en sammenhæng ved en fejlagtig statistisk behandling af data. Eksemplet er, som de andre eksempler på siden Spurious correlations, bevidst udvalgt for at demonstrere en pointe. Nemlig at du kan manipulere dig frem til en tilsyneladende sammenhæng ved udvælgelse af variable. Eller med andre ord, hvis du kun præsenterer det mest ekstreme sammenfald, ja så ligner det en sammenhæng til forveksling. Og når vi tror, vi ser en sammenhæng, så er det snublende ligefor at finde på en årsagssammenhæng, der forklarer sammenhængen. Eksemplet med Nicolas Cage er så absurd, at det er let at gennemskue, men andre eksempler snyder mange. Eksempelvis snød en journalist en række medier med et “studie”, der angiveligt viste at chokolade slanker. Studiet og specielt dataanalysen var på flere måder manipuleret uden at data dog var fabrikeret.
For HPV-vaccinen er det meget sørgeligt, hvis debatten i medierne faktisk har kostet så meget for tilslutningen til vaccineprogrammet, som tallene tyder på. Når en stor andel af unge piger vaccineres, så vil der med stor sandsynlighed opstå sammenfald mellem det at vaccinen gives og så diagnosticering af en lidelse. Hvis der derudover foretages en udvælgelse blandt et antal lidelser, ja så finder man ikke bare sammenfald men også eksempler på tilsyneladende sammenhænge. Er der i den konkrete sag så tale om sammenfald, en tilsyneladende sammenhæng, en sammenhæng eller en årsagssammenhæng? Svaret på sådan et spørgsmål kræver veldesignede studier og omhyggelige dataanalyser. Jeg har ingen grund til at tro, at de vaccineeksperter og statistikere, der har arbejdet med analysen af data vedrørende HPV-vaccinen, ikke har gjort deres arbejde ordentligt. Og deres konklusion er, at der ikke er en årsagssammenhæng. Men det ærgrer mig, at kommunikationen i Politiken og i Deadline omkring sammenhæng og sammenfald ikke var klar.
Det er et kerneproblem i statistik at kunne sondre mellem sammenfald og sammenhæng, og derfor er det uheldigt, når netop de to begreber blandes sammen. Et karakteristika ved en sammenhæng (altså en korrelation) er, at den er reproducerbar. En tilsyneladende sammenhæng, som i virkeligheden er et udvalgt sammenfald, vil ikke være reproducerbar. At kunne foretage en korrekt sondring mellem sammenhæng og sammenfald kræver både kontrol over den måde data indsamles på og den måde data analyseres på. En graf viser i sig selv tæt på ingenting. Heller ikke selv om den plastres til med tekniske statistiske termer som en signifikant korrelation (\(p < 0.05\)) eller korrelationskoefficienten er \(r = 0.666\).2 Se endvidere [Hvorfor \(R^2\) ikke er så nyttig]({{% relref "2016-04-09-R2.html" %}}). Den britiske statistiker David Hand har skrevet en hel bog, The Improbability Principle, om hvordan sammenfald misforstås, fejl- og overfortolkes, og den kan varmt anbefales.
I god kommunikation af det statistiske begreb korrelation bør man skelne mellem sammenhæng og sammenfald. Der er ingen sammenhæng mellem Nicolas Cages optrædender i film og antallet af drukneulykker. Det er et sammenfald.
Korrelation kan forklares som en sammenhæng, der ikke nødvendigvis er en årsagssammenhæng. Til tider kan man benytte synonymer som samvariation eller association (i denne forbindelse endnu en anglicisme). Sammenhæng er en reproducerbar størrelse, det er et sammenfald ikke.