En julehistorie ... eller to ... eller tre

Julen er vel overstået og for mit vedkommende betyder det, at der endelig har været tid til at gøre et lille indhug i stakken af ulæste bøger. Blandt skønlitteratur og fagbøger sniger der sig ofte en række bøger ind, som ikke er deciderede fagbøger i statistik, men som beskæftiger sig med statistik eller statistiske problemstillinger fra en populærvidenskabelig vinkel. I stakken var der fire bøger, der var interessante nok til at de er værd at anbefale til andre.

Big Data, Big Dupe

Det er nok ikke gået nogens opmærksomhed forbi, at “big data” er en af tidens måske mest overhypede buzzwords. Det er pudsigt, for selv om det er stort set umuligt at få en præcis definition af, hvad big data egentlig er, så er der mange påstande om de utallige umiddelbare gevinster, der er ved big data. Personligt er jeg efterhånden ved at være en lille smule træt af den evindelige brug af “big data”, som klistres på alting med en opfattelse af, at så bliver alt automatisk bedre. Problemet er, at begrebet “big data” fremstilles som en løsning, men i virkeligheden menes der bare, at man har store datamængder til rådighed - typisk indsamlet på en ustruktureret og ukontrolleret måde - hvilket i sig selv ikke løser noget.

Undertitlen på Stephen Fews bog, Big data, big dupe. A little book about a big bunch of nonsense, udtrykker egentlig min opfattlese ret præcist. Der er ikke noget nyt eller anderledes ved big data. Big data er bare data med alle de samme problemer, der almindeligvis forekommer i dataanalyse, og er derfor ikke noget specielt eller anderledes i forhold til det, vi altid har gjort. I mange tilfælde er de data, der bliver benævnt “big data” en simpel (men stor) observationel convenience sample med alle de analyse- og generaliseringsmæssige problemstillinger, der hører til den type data.

Few har skrevet en ret underholdende lille bog baseret på hans rolle som statistisk konsulent for flere klienter og virksomheder. Hans frustrationer over at virksomheder - især indenfor marketing og business intelligence - har formået at hælde gammel vin på nye flasker og skabe en kollektiv opfattelse om at big data kan noget helt andet og meget mere end tidligere skinner klart igennem, og han gør et ihærdigt forsøg på at forklare, hvorfor data (herunder big data) i sig selv ikke bidrager med nogen form for ny indsigt. Som med al anden analyse er det forsøgsdesignet, modelleringen og konteksten, der driver de konklusioner man kan drage, og en stor del af Fews frustration bunder i, at mange af de lovprisende ord om big data er påstande, der bare bliver slynget ud som noget, der står til troende, uden at det er dokumenteret, og at de personer, som bruger big data sjældent kommer til at stå til regnskab for deres prædiktioner på den lange bane.

Bogen er et kærkomment bud på en modvægt til den næsegruse begejstring for big data, som man hører i medierne, hos politikerne og ser i forskellige brancher og fagområder.

The Seven Pillars of Statistical Wisdom

Stephen Stigler er måske mest kendt for Stiglers lov om eponymer1 Kort fortalt siger Stiglers lov om eponymer, at der ikke er nogle videnskabelige fund, der er navngivet efter deres oprindelige opfinder. Det samme er naturligvis gældende for Stieglers lov selv., men i The Seven Pillars of Statistical Wisdom forsøger han at svare på, hvad statistik er. I stedet for at komme med en bred forklaring, forsøger Stigler i stedet at give et bud på, hvilke grundelementer, som statistik består af, hvorfor elementerne er vigtige og at give et overblik over elementernes historiske oprindelse. Det er der kommet en fin bog om statistikkens grundelementers historie ud af.

De syv grundelementer er beskrevet i hver deres kapitel og dækker 1) aggregation (ideen om at lave dimensionreduktion og at der kan være en gevinst ved at opsummere data ved hjælp af overordnede trends som eksempelvis middelværdien), 2) information (indsigten, at informationsindholdet af hver ny ekstra observationer aftager som funktioner af \(\sqrt{n}\)), 3) likelihood (inferens), 4) intercomparison (det vigtige resultat, at det er muligt at bruge de samme data til både at finde estimater og samtidig sige noget om estimaternes variation, og dermed opnå en målestok for sammenligninger), 5) regression (estimation af parametre fra data målt med støj og regression-toward-the-mean), 6) forsøgsdesign (forsøgsplanlægning og de umiddelbare analyse- og fortolkningsmæssige gevinster, der kan komme fra et velvalgt forsøgsdesign) og 7) residual (alt det, der ikke er med i de tidligere søjler og i særdeleshed modelsammenligninger, -kontrol og -valg).

The Seven Pillars of Statistical Wisdom forsøger at slå en tyk streg under de ideer, som moderne statistik står på skuldrene af, men bogen er mindst lige så meget en undskyldning for at introducere dele af statistikkens historie. Hvert kapitel er sat i en historisk ramme og Stigler har forsøgt at finde frem til de oprindelige hovedværker, der først introducerer eller forsøger at belyse en problemstillig og dens løsning. Eksempelvis dukker Galton og Darwin op i kapitlet om regression, Gosset er med i intercomparison, Florence Nightingale er med i kapitlet om modelvalg, og de “gamle grækere” dukker op over det hele. Den historiske kontekst er krydret med uddrag af figurer og tabeller fra de oprindelige artikler, og Stigler får vist, hvilken videnskabelig indsigt, som statistikkens forfædre besad, og han er i stand til at drage paralleller til metodernes nutidige relevans. Har man blot en lille interesse i statistikkens historie er Seven Pillars of Statistical Wisdom en fryd at læse, og det eneste ankepunkt er næsten, at den ikke er længere.

The Book of Why

Det er svært at overdrive Judea Pearls betydning for udviklingen af teorien omkring både neurale netværk og i særdeles om kausalitet. Hans bog Causality fra 2000 er et af hovedværkerne indenfor kausal modellering, og i hans nyeste bog, The Book of Why, forsøger han sammen med Dana Mackenzie at give en populærvidenskabelig introduktion til kausale modeller, og hvad der kræves for at kunne svare på kausale spørgsmål.

Det er ikke altid lige let at formidle en populærvidenskabelige vinkel på komplicerede begreber, men forfatterne er sluppet ualmindelig godt fra det i The Book of Why. Bogen er en letlæst, og selv om den er skrevet til et publikum, som ikke nødvendigvis har en baggrund i matematik eller statistik så giver den en ret grundig indføring i kausale tankegange, kausale modeller og kausal modellering. På trods af den populærvidenskabelige målgruppe har Pearl ikke slækket på ambitionsniveauet: Fremstilling dækker ikke bare de overordnede begreber, men forsøger at give en grundig formidling fra videnskabsfilofosi (hvad ved vi, og hvad kan vi lære af data), over DAGs, neurale netværk, konfounder, colliderbias, og algoritmer til identifikation af betingning i kausale grafer til do-operatoren.

Der er tre småting, jeg ikke bryder om ved Book of Why: for det første bruger den hele tiden plads på at fortælle, hvad der kommer senere i bogen. Det kan der være flere didaktiske årsager til - blandt andet at forfatterne vil gå tilpas langsomt frem, at alle kan følge med - men i Book of Why tager det så meget overhånd, at man ind imellem spekulerer på, hvornår selve bogens reelle indhold starter. For det andet er den plastret til med semi-religiøse betragtninger og analogier. Det er der som sådan ikke noget galt med, men man får fornemmelsen af, at Pearl egentlig gerne har villet fortælle to historier: den om kausalitet og om, hvordan det hele passer sammen med hans oprindelse. Det gør bogen længere end nødvendigt, og flere af de paralleller, der bliver draget er lidt kunstige. Udviklingen af teorien, sproget og notationen omkring kausalitet og kausale tankegange har været Pearls (andet) livsværk, og der er ingen tvivl om, at han må have været igennem en række ensomme år, hvor han har stået næsten alene med at med at kæmpe og argumentere for vigtigheden af dette. Dette skinner igennem i bogen, for mellem linjerne fornemmer man en snert af hvad-sagde-jeg. Undertonen klæder ikke bogen og er helt unødvendig, for bogen er ellers så velformuleret og velargumenterende, at det er åbenlyst for enhver, hvor vigtige Pearls bidrag er og har været.

The Book of Why er vigtig og værd at læse, fordi den som meget få andre bøger evner at give en generel indføring og forståelse af et kompliceret og super relevant emne, og fordi den egner sig til et meget bredt publikum. Man kunne håbe på, at kausalitet kunne være med til at give “big insights”, og at vigtigheden blev mindst lige så udbredt som big data er i dag.

Factfulness: Ten Reasons We’re Wrong About the World–and Why Things Are Better Than You Think

Hans Rosling havde en uovertuffen evne til at formidle sine resultater, og han havde en utrættelig evne til at hele tiden at forsøge at rette de forudopfattelser og misforståelser, som findes om tilstanden i verdens udviklingslande. I Factullness: Ten Reasons We’re Wrong About the World–and Why Things Are Better Than You Think, der udkom i 2018 efter Roslings død, forsøger Rosling for det første at åbne læserens øjne for den sande tilstand i verdens lande, og give et positivt spin på de udviklinger, der allerede foregår.

Rosling har over en årrække har indsamlet og belyst, hvor lidt vi faktisk ved om verden via sin 13-spørgsmåls quiz om verdens tilstand (tag endelig quizzen selv - man bliver overrasket over ens mangel på viden), og det er disse fejlopfattelser, som Rosling med sin bog forsøger at feje af banen. Forfatteren undgår elegant at blive belærende ved at bruge sig selv og sine egne oplevelser til at fortælle om situationer, hvor hans naivitet og forudintaget gjorde, at han tog gruelig fejl omkring et emne. Ud fra disse historier drager han analogier til de fejlopfattelser, som quizdeltagerne nu udviser om verdens tilstand, og forklarer, hvorfor de tager fejl. Men bogen vil faktisk mere end bare at rette op på læsernes manglende viden. Den forsøger samtidig at give læseren nogle værktøjer til at blive bedre i stand til at stille kritiske spørgsmål, når man bliver præsenteret for data, for at undgå at falde i de samme forudindtagede fælder. Man bør tage hatten af overfor alle forsøg på at øge niveauet af kritisk sans, men i Factfullness er det pakket så fornemt ind i feel-good historierne, at det først er, når man får det at vide, at man indser, at man også har lært noget om at stille de rigtige spørgsmål og at undgå at drage forhastede konklusioner ud fra data.

Factfullness kan læses af alle (og den er også udgivet på dansk) og hvis man vil læse en bog som giver en et positiv syn på 2019 så det svært at gøre det bedre.

God læselyst og godt nytår!