Hvordan finder vi ud af, hvorfor noget sker?
Det bliver en kerneopgave for statistikfaget i 2024 at fokusere mere på hvorfor noget sker frem for forudsigelser.
Statistikere kender talemåden ’det er svært at spå, især om fremtiden’ alt for godt. Og at bede to statistikere forudsige nye landvindinger og påvirkninger, som 2024 vil bringe deres fag, er et studie i gråd og tænders gnidsel.
Ved første øjekast lyder det let, for kender vi ikke allerede de analysemetoder, vi skal bruge? Hvad kan komme til at rykke faget? Her er vores bud på, hvad 2024 bringer for statistikfaget.
Denne artikel er bragt simultant i videnskab.dk.
Tre steder, hvor statistikfaget vil se større justeringer
Med AI-værktøjer som ChatGPT og GitHub copilot (programmørernes svar på ChatGPT, der foreslår kode, mens man programmerer) bliver det ’hvermandseje’ at lave automatiseret videnskab. Det er ikke længere nødvendigt at kunne programmere eller lave datahåndtering for at kunne analysere data og efterforske hypoteser. Det bliver muligt at skrive til computeren på almindeligt dansk, hvad man gerne vil (på sigt kan vi endda bare sige det til computeren), og så laver den de relevante analyser. Enhver med lidt videnskabelig træning vil dermed kunne bruge teknisk komplicerede metoder, som det før i tiden kun var specialister forundt. Eksempelvis kan en læge nu selv bruge avancerede machine learning-algoritmer til at regne på data fra sine patienter, uden at der skal en statistiker eller en data scientist med i maskinrummet.
Et større skift i fokus fra forudsigelsesmodeller til modeller, der beskriver årsagssammenhænge. Statistikfaget har traditionelt været fokuseret på at lave forudsigelser og beskrive, hvilke oplysninger der giver information om andre fænomener: Er forekomsten af psykiatriske diagnoser forskellig i landets regioner?
I de sidste 10 år har den galoperende udvikling i machine learning flyttet fokus til individuelle forudsigelser, som netop er den slags viden, der kommer ud af de nye, smarte computermetoder. Man har villet forudsige alt fra aktiemarkedet over klimaets udvikling, til hvor mange der bliver ramt af en pandemi.1 Læs desuden Hvorfor er det svært at forudsige epidemier, lige efter de er gået i udbrud? på videnskab.dk eller her på sandsynligvis.dk.
Men begejstringen over kun at kunne lave forudsigelser er ved at rinde ud. Vi vil ikke længere stille os tilfreds med at kunne vurdere, hvad der muligvis vil ske – vi vil vide, hvorfor det sker.
Vi vil nemlig have viden om årsagerne, så vi kan agere. Så vi ved, hvad der skal til for at bremse klimaforandringer og forebygge pandemierne – og her hjælper forudsigelser os ikke meget. Denne fokus på årsagssammenhænge kommer til flytte fokus fra de tekniske dataanalyser og tilbage mod den videnskabelige metode, planlægning af videnskabelige studier og en gevaldig skrublen over, hvordan de tal, vi udregner, egentlig kan oversættes til virkeligheden.
Datafusion og modelintegration. Grænserne for big data rykker sig dagligt og ’big data’ er ikke længere big. For 15 år siden var videnskaberne overvældede over eksempelvis genetiske data, som kan bestå af hundredetusindvis af målinger på hver person. Nu er den slags data ved at blive hverdagskost i mange fag. Men endnu mere komplekse data bliver nu skabt – fra journaler, smart devices, sociale medier – og allerhelst vil vi kunne inkludere de mange forskelligartede datakilder ind i samme analyse og få ét samlet svar ud, som tager højde for al den viden vi har. Det stiller nye krav til at kunne fusionere og analysere data, der er indsamlet under forskellige betingelser og med varierende kvalitet.
Og det allersværeste spørgsmål bliver at afgøre, hvad analyser på sådanne sammenklisterede data egentlig kan sige noget om: Hvis vi har smartwatch-data fra Fru Jensen, som måler hendes puls, og journalopslag fra da Hr. Nielsen var indlagt på sygehuset med en blodprop, og de begge for øvrigt har deltaget i en spørgeskemaundersøgelse om deres motionsvaner, hvor meget kan vi så lære om, hvordan ens hvilepuls hænger sammen med risikoen for blodpropper?
Større fokus på de store, filosofiske spørgsmål
Den røde tråd i ovennævnte punkter er, at vi efter 10 år i machine learningens og teknologiudviklingens tegn nu er ved at være nået et mætningspunkt af hele tiden at blive præsenteret for nye, smarte computermetoder, der jagter det samme.
I 2024 bliver der derfor både brug for og tid til et pusterum, hvor vi kan fordøje alt det nye og finde ud af, hvad det egentlig kan bruges til. Statistikfaget vil derfor kigge tilbage mod sine rødder og skulle til at genforstå sig selv i kontekst af alle de nye metoder med en snert af genopdagelse af tidligere tiders dyder. Bayesiansk statistik, hvor subjektive gæt spiller en væsentlig rolle, vil få en stor plads i denne proces.
Der vil være større fokus på fortolkelighed, og tal-nørderne vil blive bremset op af filosofiske spørgsmål:
Hvad betyder statistisk usikkerhed egentlig? Hvad er god videnskab? Og hvordan får vi besvaret de spørgsmål, der oprigtigt interesserer mennesker fremfor en masse svar på spørgsmål vi måske ikke er så interesseret i?
Det kræver større diskussion af, oplæring i og udvikling af statistisk tankegang, og mindre fokus på matematik og teknologi.
2024 vil altså se et skift mod nødvendigheden af dybere og mere reflekteret vinkel på data, statistik og tal og en overgang mod slow science. Og vi glæder os!2 Læs også Vi er født som statistikere