Vurdering af reliabiliteten i de nationale tests
Debatten om de nationale tests blussede igen op i medierne efter at Georg Breddam bemærkede, at de nationale tests gav et skævt billede af nogle af hans elever. Da Jeppe Bundsgaard og Svend Kreiner i en grundig rapport fra marts i år tilmed kunne dokumentere, at de nationale tests ikke bare målte forkert, men også give et bud på årsagen, udsendte Undervisningsministeriet en pressemeddelelse, hvor de understregede, at der var tilfredsstillende høje korrelationer og positiv statistisk signifikans mellem gentagne målinger af en elevs niveau. Problemet med ministeriets argumentation er, at korrelationer ikke giver nogen reel information om, hvorvidt gentagne målinger på samme elev viser det samme.
De nationale tests har været under kritik i mange år, og i 2016 udsendte Ministeriet for Børn, Unge og Ligestilling et notat, hvor de undersøgte de nationale tests reliabilitet.1 En metodes reliabilitet siger noget om, hvorvidt metoden kan producere stabile og konsistente resultater. Hvis man måler den samme ting flere gange forventer man at få nogenlunde det samme resultat. Høj reliabilitet er et nødvendigt, men ikke tilstrækkkeligt krav for at en metode er valid - det vil sige, at den måler det, som den faktisk påstår, at den måler. Hvis ikke man ikke engang kan måle den samme ting to gange og få nogenlunde samme resultat, så kan man selvfølgelig heller ikke forvente, at man rent faktisk måler det, man tror man måler. Her konkluderede ministeriet, at
I alle profilområder er der en statistisk signifikant positiv sammenhæng mellem elevdygtigheden bestemt ved første og ved andet forsøg i de frivillige test. Specielt i afkodning og tekstforståelse i dansk læsning samt i engelsk er der en høj korrelation mellem to gentagne test. Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.
Det er samme notat, der ligger til grund for Undervisningsministeriets svar på Bundsgaards og Kreiners rapport, og i svaret fra ministeriet hedder det blandt andet, at
Et centralt kritikpunkt er en tabel i notatet, som viser sammenhængen mellem to resultater i to nationale test, som en elev har taget med relativt kort mellemrum.
Hovedresultaterne i tabellen er nævnt i rapportens sammenfatning, men ikke i alle detaljer. Notatet viser samlet set, at korrelationen totalt set er ”acceptabel” mellem elevens samlede vurdering i forsøg 1 og forsøg 2. Der er samtidig en række faglige forklaringer på, hvorfor resultatet er, som det er, og hvorfor den omtalte tabel ikke er uddybet i sammenfatningen.
Tabellen viser ganske rigtigt, at der på 19 ud af 30 profilområder er en relativt lav sammenhæng (korrelationskoefficient) mellem 1. og 2. testresultat. Alle sammenhængene er dog statistisk signifikante. Det betyder, at de elever, der får de bedste resultater i 1. test, også er blandt de bedste i 2. test.
Bundsgaards og Kreiners rapport indeholder en fin besrkivelse af de nationale tests og af Rasch-modellen, der bruges til at analysere data fra de nationale tests. Her vil vi koncentrere os om sammenligning af måleresultater, som ministeriet skriver om.
Hvordan fungerer de nationale tests og hvad er problemet?
For at finde en elevs niveau bruges adaptive spørgsmål i de nationale tests. Først får eleven nogle opgaver for at skyde sig ind på elevens niveau. Efterfølgende vælges en opgave med en sværhedsgrad, der er tæt på estimatet af elevens niveau, og hvis eleven svarer rigtig bliver estimatet justeret lidt op, hvorimod det nedjusteres lidt, hvis der svares forkert. Så får eleven et nyt spørgsmål tæt på det opdaterede niveau og så frem deles indtil tiden er gået eller estimatet af elevens niveau er tilstrækkelig præcist.
Den kritik, som er rejst af Bundsgaard og Kreiners rapport er, at de nationale tests ikke benytter spørgsmålenes faktiske sværhedsgrad, når elevernes niveau estimeres. Det adaptive element gør dette til et stort problem: hvis alle elever besvarer præcis de samme spørgsmål kan man optælle antal korrekte svar og bruge dette til at vurdere en elevs niveau. I en adaptiv test kan man ikke gøre dette, og det er nødvendigt at kende den enkelte spørgsmåls sværhedsgrad for at estimere elevens dygtighed korrekt. Nedenstående eksempel viser to elevers svar på matematikopgaver.
Tabel 1: Den dygtige elev svarer rigtigt på første opgave (9+(7-1)) og får derefter en sværere opgave (4+(21-3)) som også besvares korrekt, herefter stilles en endnu sværere opgave (11+(7-3)/2), som ikke besvares korrekt. Den mindre dygtige elev svarer forkert på første opgave (9+(7-1)) og får derefter en lettere opgave (4+5) som besvares korrekt, herefter stilles den lidt sværere opgave (2+(8+2)), som besvares korrekt.
2+(8+2) | 4+5 | 9+(7-1) | 4+(21-3) | 11+(7-3)/2 | |||||
---|---|---|---|---|---|---|---|---|---|
Dygtig elev | Korrekt | ↗ | Korrekt | ↗ | Forkert | ||||
Mindre dygtig elev | Korrekt | ↖ | Korrekt | ↙ | Forkert |
Det adaptive test-design tildeler de to elever forskelligt niveau selv om de begge har to rigtige ud af tre. Dette kan kun lade sig gøre ved at bruge spørgsmålenes sværhedsgrad, og hvis den sværhedsgrad som benyttes ikke er korrekt vil det have to konsekvenser: 1) en elev som tager testen to gange kan få vidt forskellige resultater, og 2) når elever tager testen kan de blive udsat for “mærkelige” forløb. Det første af disse resultater blev dokumenteret i notatet fra 2016, mens det var det sidste af disse punkter som Georg Breddam observerede.
Hvad siger ministeriets notat?
Figur 1: Et eksempel om sprogforståelse i 8. klasse fra ministeriets notat. På figuren er indtegnet hver elevs estimerede dygtighed ved første forsøg på x-aksen og ved 2. forsøg på y-aksen. Den sorte linje viser den bedste rette linje gennem punkterne, og punkterne har en korrelation på 0.66.

Et af hovedresultaterne i Ministeriets notat findes i notatets tabel 6, der er gengivet nedenfor. Her undersøges data fra elever som har taget den nationale test to gange indenfor kortere tid. Man har, ved hvert forsøg, udregnet hver elevs dygtighed på logit-skala. De to målinger for hver elev tegnes op mod hinanden som vist på figur 1. Tilsvarende figurer har man lavet for hvert fag og for hvert profilområde. Profilområder dækker over forskellige aspekter af de enkelte fag, som de adaptive tests forsøger at belyse. For dansk er profilområderne eksempelvis sprogforståelse, afkodning og tekstforståelse.
For hvert fag/profilområde har man udregnet Pearson-korrelationen, der måler, hvor tæt elevernes punkter ligger omkring en ret linje. En værdi tæt på 1 antyder, at punkterne ligger perfekt på en linje med positiv hældning, en værdi tæt på -1 betyder, at punkterne ligger tæt omkring en linje med negativ hældning, og en værdi tæt på 0 antyder, at der ikke er nogen sammenhæng mellem de to målinger. Korrelationen mellem en elevs to forsøg for forskellige fag og profilområder er vist i notatets tabel 6, der er gengivet nedenfor.
Figur 2: Tabel 6 fra ministeriets notat om de nationale tests reliabilitet. Værdierne i tabellen viser korrelationer mellem elevernes dygtighed i de to forsøg, som eleverne har taget.

I tabellen er 11 af de 30 korrelationerne angivet med fed, fordi de er større end 0.7, der er den grænse, som ministeriet har sat som værende tilfredsstillende. Desuden har man for hver kombination af fag/profilområde testet hypotesen om at korrelationen var 0. Den hypotese er blevet forkastet i alle tilfælde, hvilket stjernerne i tabellen indikerer.
Sammenligning af målemetoder
Når man skal vurdere reliabiliteten, dvs. om en målemetode giver ca. samme resultat hver gang, kan man ikke bruge korrelationen.2 Situationen kan sammenlignes med følgende: man vil gerne bruge en badevægt til finde ud af, hvad er person vejer. Sætter man en person op på den samme vægt to gange og får to helt forskellige resultater, så er vægten ikke særlig god til at fortælle os, hvad personen i virkeligheden vejer. Korrelationerne fortæller kun, at hvis en person vejer mere end en anden person ved første vejning, så er personen også tilbøjelig til at veje mere end den anden person ved anden vejning. Det fortæller noget om de indbyrdes vægte, men siger intet om de to personers faktiske vægte. Hvis de to dygtighedsmålinger for en person \(i\) er \(y_{i1}\) og \(y_{i2}\) så er reliabiliteten god, hvis forskellen \(|y_{i1} - y_{i2}|\) er lille, det vil sige, at de to værdier er tæt på hinanden. Korrelationskoefficienten måler noget andet, nemlig om punkterne ligger på en ret linje, men ikke om man får den samme værdi hver gang. En positiv korrelationen udtrykker kun, en person, der er målt til at score højt i forhold til de andre i første forsøg er mere tilbøjelig til at score højere end de andre i andet forsøg - ikke at scoren er den samme i de to forsøg.
Figur 3: Eksempler på hvorfor høje korrelationer ikke giver information om reliabiliteten. I alle fire tilfælde er der 100 punkter, der har en korrelation på 0.8. Identitetslinjen er vist med røde stiplede linjer. I eksempel 1 ligger punkterne pænt og rimelig tæt omkring identitetslinjen, og man kan derfor tale om, at de to forsøg giver nogenlunde samme resultat. I eksempel 2 er de samme punkter forskudt opad ved 2. forsøg, så her måler man aldrig det samme, da alle elever konsekvent scorer højere i 2. forsøg. I eksempel 3 er spredningen meget mindre ved 2. forsøg, og elevernes dygtighed ved de to forsøg er på forskellige scalaer: dygtighederne i 1. forsøge varierer mellem -3 og 3, mens de kun varierer mellem -2 og 2 i 2. forsøg. I eksempel 4 er der kæmpe forskel på niveauet af eleverne mellem de to forsøg. I andet forsøg kan man stort ikke skelne eleverne fra hinanden, og de opnår alle næsten samme værdier. I alle 4 tilfælde er korrelationen 0.8, men kun i et af de fire tilfælde er der tale om, at metoden giver samme resultat i første og andet forsøg. En høj korrelation udtrykker derfor ikke, at der er god overensstemmelse mellem de to estimater.
Hvis den rette linje har hældning 1 så betyder det, at de to forsøg i gennemsnit giver samme værdi, og kun hvis punkterne samtidig ligger tæt omkring denne linje (høj korrelation) betyder det, at de to målinger er tæt på hinanden. Når man skal bestemme en elevs dygtighed i de nationale tests er det derfor uinteressant om korrelationen i sig selv er høj.
Tager vi eksemplet om sprogforståelse i 8. klasse kan vi se på figuren nedenfor, at der ikke er specielt god overensstemmelse mellem de vurderede dygtigheder ved de to forsøg. Tilsvarende figurer kan ses i ministeriets notat for de andre fag og profilområder, og her ses der nogenlunde samme grad af sammenhæng.
Figur 4: I figuren for sprogforståelse i 8. klasse er indtegnet identitetslinjen (den røde linje), som er den linje punkterne burde ligge tæt omkring, hvis metoden skulle måle ca. samme dygtighed for hver elev ved de to forsøg. Helt grelt ser det ud for de to cirklede elever, der scorer meget lavt i første forsøg, men betragtelig over gennemsnittet i andet forsøg. Der kan selvfølgelig være sket noget helt specielt for disse to elever, men med så store forskelle i al almindelighed er det tydeligt, at de nationale tests har problemer med at give et konsistent bud på enkeltindividers faglige niveau. Hældningen på regressionslinjen er 0.71 og korrelationen er 0.66.

Foruden korrelationerne, argumenterer Ministeriets rapport med, at alle de undersøgte korrelationer er statistisk signifikante. De har testet hypotesen
\[H_0 : \rho = 0,\]
hvor \(\rho\) er korrelationskoefficienten for en given kombination af fag og profilområde. Denne nulhypotese udtrykker, at dygtigheden for elevernes to målinger er uafhængige af hinanden, det vil sige, at det er helt tilfældigt, hvem der klarer sig godt i første forsøg, og hvem, der klarer sig godt i 2. forsøg. Denne nulhypotese er åbenlyst irrelevant for at sige noget om reliabilitet.
Ofte kan et statistisk test med fordel erstattes af et sikkerhedsinterval. Hvis man beregner et 95% sikkerhedsinterval for den observede korrelation \(\rho=0.66\) ved hjælp af Fishers \(z\)-transformation får man \([0.64, 0.68]\)3 Udregningen for sikkerhedsintervallet er \(\tanh(0.5\cdot \log(\frac{1.66}{0.34}) \pm \frac{1.96}{\sqrt{2555}})\). Dette interval indeholder mere information end det ministeriet rapporterer: Man kan afvise at \(\rho\) kan være nul, men man kan også klart afvise at \(\rho\) kan være 0.7 eller 0.8 (som ellers ville være typiske krav til tests af denne type).
Hvad skulle man gøre i stedet?
Når man skal sammenligne to målemetoder af kvantitative målinger kan man bruge en mixed model for gentagne målinger (for de nationale tests svarer gentagelserne til de forskellige forsøg for hver elev). Alternativt tegnes et Bland-Altman plot, og der udregnes et prædiktionsinterval for forskellene mellem de to målinger for en tilfældig udvalgt elev. Hvis prædiktionsintervallet er smalt ligger en elevs to målinger tæt på hinanden.
I et Bland-Altman plot tegnes forskellen, \(y_{i1} - y_{i2}\), ud af \(y\)-aksen og gennemsnittet \(\frac{y_{i1} + y_{i2}}{2}\) ud af \(x\)-aksen. Plottet skal bruges til at vurdere, om forskellen mellem de to scores på \(y\)-aksen ligger tæt omkring 0, og om forskellene er af samme størrelsesorden uanset, hvor på skalaen man er. Ud fra Bland-Altman plottet vurderes det, om variationen i forskellene er acceptable, eller om man for ofte ser for store forskelle.
Figur 5: Bland-Altman plots af de fire eksempler ovenfor. I eksempel 1 er der er jævn fordeling omkring 0, og man ser, at de observerede forskelle i niveau for de to forsøg for en enkelt elev ligger mellem -2.5 og 2.5. I eksempel 2 er det tydeligt, at de to forsøg måler noget forskellige, da alle punkterne er forskudt væk fra 0. I eksempel 3 og 4 er der noget systematik i niveauet fra de to forsøg - der bliver skudt mere forkert i den ene retning i den lave ende af skalen, mens der skyldes forkert i den anden retning i den anden ende af skalaen.