Reproducerbare kæpheste

Af: Claus Thorn Ekstrøm, 25. februar 2016

I mange anvendte videnskabelige artikler lever statistikafsnittet en lidt kummerlig tilværelse, hvor man får fornemmer, at både forfattere - og til tider også editors - ser det som et “nødvendigt onde”. Det er fuldt forståeligt, at forfatternes primære interese er i at præsentere de nye fund indenfor deres pågældende fagområde, og at de statistiske metoder derfor må have en tilbagetrukket rolle i den historie. Men det er altså ikke ensbetydende med at statistikmetodeafsnittet helst skal fylde så lidt som muligt, så artiklen netop kan gå igennem reviewernes og editors nåleøje og blive accepteret til publikation.

Grunden til at statistik overhovedet bliver brugt i videnskabelige artikler er jo, at forfatterne gerne vil lave en objektiv vurdering og præsentation af de fund, der er kommet ud af forsøget. Det er ikke tilstrækkeligt at påstå, at en ny behandling virker. Læseren vil se nogle resultater, der overbevisende indikerer, at behandlingen rent faktisk virker, og hvor godt den virker. Det er her statistikken kommer i spil, for det er den, der hjælper os med at vurdere om resultaterne er overbevisende. Med andre ord er statistikken en essentiel del af argumentationsrækkefølgen for præsentationen af resultaternes vigtighed, og hvis ikke det er klart, hvilke statistiske analyser, der er lavet, så er der huller i argumentationsrækkefølgen, og læseren ved derfor ikke, om konklusionerne fra artiklen er valide.

Et typisk eksempelSe Wu et al. (2016), “Metformin treatment of antipsychotic-induced dyslipidemia: an analysis of two randomized, placebo-controlled trials”, Molecular Psychiatry på statistikafsnittet fra en videnskabelig artikel kan ses nedenfor

Statistical analysis Single variate descriptive analysis was performed to examine the difference in demographics and metabolic measures at baseline between two trials and two treatment groups in the combined data. Necessary statistical tests were performed, in which X2 test was for categorical variables; and t-test and general linear model while adjusting for related covariates were used to test for continuous variables at the baseline. Analysis of within-group time effect and modeling the treatment effect by time while controlling for age, sex and duration of illness was performed using general linear mixed model, which is an effective way to analyze quantitative outcomes before and after treatment in clinical trial; and post-hoc least square estimates of mean were obtained based on modeling results. The difference was considered statistically significant if a two-tailed P-value was <0.05. Analysis was performed using SAS 9.13 (SAS Inc., Carry, NC, USA).

Det statistiske metodeafsnit forklarer fint, hvordan man har sammenlignet forskellige størrelser ved baseline, men kommentaren “general linear model while adjusting for related covariates” er for upræcis til at kunne bruges i praksis. En “general linear model” er ikke een bestemt model, men er en klasse af modeller, og det er derfor umuligt at vide, fx. hvilke forklarende variable, der har været benyttet. Vi kan se, at forfatterne har kombineret to forsøg - hver med en behandlings- og en kontrolgruppe - men hvordan indgår disse grupper præcist i analysen? Har forfatterne undersøgt og fundet ud af, at det ikke er nødvendigt at transformere data, eller har de slet ikke undersøgt det? Læseren kan naturligvis forsøge at gætte sig til, hvad forfatterne har gjort, men det betyder jo, at man ikke er helt sikker på, hvad forfatterne har foretaget sig.

Et rigtig grelt eksempelSe Tayefe et al. (2011), “Isolation of Alicyclobacillus acidoterrestris from Commercial spoiled Apple Juice and Study on some Influence Parameters on its Growth in Apple Juice”, Adv. Biores. Vol 5. ses nedenfor, og det giver absolut ingen information om, hvilken statistisk analyse, der er foretaget. Det er en hån mod hele ideen, og det ville være bedre, hvis afsnittet havde været helt udeladt.

Statistical analysis All of the data were analyzed statistically with data processing software and figured with Microsoft excel 2007.

Der er to hovedmål ved at have et detaljeret statistikafsnit: for det første skal den statistiske metode være beskrevet, så læseren kan forstå, hvilke analyser og overvejelser, der ligger til grund for de konklusioner, som bliver præsenteret i artiklen. For det andet skal det statistiske metodeafsnit være så tilstrækkelig detaljeret, at det kan bruges af andre forskere til at reproducere de fundne resultater, hvis data var tilgængelige, eller til at lave et identisk forsøg under lignende forhold. Begge dele kræver, at der er tilstrækkelig med informationer omkring analysemetoden til at andre forskere præcist kan følge, hvad der er foregået. Andre steder i artiklerne fremgår det ofte detaljeret, hvordan forsøgspersonerne er indsamlet og behandlet, og den samme detaljegrad er altså også nødvendig, når man beskriver statistikken.

En ting, der irriterer mig, er, at det er blevet kutyme at forfatterne inkluderer en sætning i stil med nedenstående, hvor de i detaljer giver hvilken version af det program, de har benyttet til analyserne.

Analysis was performed using SAS 9.13 (SAS Inc., Carry, NC, USA).

Det er ikke fordi der som sådan er noget galt i informationen, men hvis de ikke også giver oplysninger om den statistiske metode, der er benyttet, så giver det slet ingen mening. Softwareversionen er kun relevant, hvis man er bekymret for om der kunne være en programmeringfejl i software, for den samme matematiske model anvendt på de samme data skal give samme resultater i alle statistiske programmer. Hvis forfatterne samtidig udelader alt det vigtige omkring hvilken model de har benyttet, så virker det fuldstændig malplaceret at give udførlige detaljer omkring den specifikke softwareversion.

Reproducerbare kæpheste - 25/02 2016 - claus og sandsynligvis.dk