Falsk negative svar ved antigentest
Falsk negativrate på 47% ved lyntest! Dette tal blev lanceret i en artikel i Politiken den 2. april og er blevet kritikløst kopieret i den øvrige presse efterfølgende.
Oplysningen stammer fra Statens Serum Institut (SSI), som har lavet en tabel over personer der har fået både en antigentest (“lyntest”) og en PCR test højst 24 timer senere. Denne tabel er imidlertid åbenlyst ikke repræsentativ for alle de personer, der tager en lyntest, og den resulterende falsk negativ rate er derfor stærkt tvivlsom. Med andre ord: tallene fra SSI kan ikke bruges til at udlede den falske negativrate på 47%.
Tabel 1 viser den offentliggjorte tabel fra Politiken og er baseret på antigentest foretaget mellem 1. februar og 23. marts, som indenfor 24 timer er blevet suppleret med en PCR-test.
En sådan tabel kaldes en forvirringsmatrix eller på engelsk confusion matrix. De fire kombinationer er (læst vandret) de sandt positive, falsk positive, falsk negative og sandt negative. Resultatet af PCR-testen opfattes som sandheden, så de 47% rapporteret i medierne fremkommer ved at beregne 1910/4069 = 0.4694. Procentsatsen er andelen af personer, der er smittede, men hvor antigentesten er negativ og dermed viser det forkerte resultat.
Repræsentativitet
Men: Der er noget i tabellen, der ikke stemmer med det vi ellers ser i den danske befolkning. Ca. 3.3% af antigen-testene i Tabel 1 er positive (3907/117670), men antigentests har i det undersøgte tidsrum normalt haft en positivprocent på godt 0.2%, enkelte dage 0.5%. Der er altså mange flere positive blandt antigentestene hos de personer, der indgår i tabellen end det vi ser for hele befolkningen.
Et check mod de publicerede filer fra SSI1 Mere specifikt fra filen Antigentests_pr_dag.csv
i ZIP-fil fra 3. april viser følgende resultater for perioden 1. februar til 23. marts:
AG_testede | AG_pos | AGpos_minusPCRkonf |
---|---|---|
2109749 | 5332 | 1111 |
AGpos_PCRpos | AGposPCRneg | AGnegPCRpos | AGnegPCRneg |
---|---|---|---|
2303 | 1862 | 2165 | 125444 |
Bemærk at de sidste 4 tal er sammenlignelige med Tabel 1, men tallene i Tabel 2 er noget højere. Muligvis fordi der i Tabel 1 er krævet en kortere tidsmæssig afstand mellem antigen og PCR test. På den anden side er det totale antal test lavere. Disse diskrepanser har dog næppe væsentlig betydning for pointen i dette indlæg.
Det, der kan aflæses er, at 2303+1862 = 4165 ud af 5332 antigen-positive også har en PCR-test, mens det samme gælder 127609 ud af 2104417 antigen-negative test.
Tabel 1 må forventes at være tilsvarende. Den indeholder altså i runde tal 80% af de antigen-positive men kun 6% af de antigen-negative. Den er således langt fra repræsentativ for alle fremtidige antigen-test. Årsagen til skævheden ligger formentlig i, at alle, der får en positiv antigen-test, opfordres til at få testen konfirmeret ved PCR, mens ingen tilsvarende opfordring gives til testede, der er antigen-negative.
Tabel 1 er næppe heller repræsentativ for de antigen-negative. Blandt denne gruppe er der fundet 1.7% (=1910/113763) PCR-positive test, hvilket er over 3 gange højere end den generelle positivprocent for PCR-test.2 Dette kan for eksempel ses i Test_pos_over_time.csv
i SSIs ZIP fil Her ville man, om noget, forvente at antigen testede måske havde en lavere prævalens, fordi mange testes rutinemæssigt uden mistanke om sygdom, eksempelvis på grund af krav fra arbejdsgivere. Årsagen til den højere positivprocent blandt de, der får foretaget PCR-testen, er formentlig at en højere del af disse testpersoner mistænker, at antigen-testen ikke har været retvisende.
Teorien bag diagnostiske test
Tabeller som Tabel 1 er velkendte i teorien for diagnostiske test, og der knytter sig en særlig terminologi til dem. Her kommer et kort resume. De 4 celler i tabellen betegnes
Tabel 3: Betegnelserne for de 4 celler i tabellen for en diagnostisk test.
Sand positiv (SP) | Falsk positiv (FP) |
Falsk negativ (FN) | Sand negativ (SN) |
Vi forudsætter i første omgang, at antallene i de fire celler findes ved tilfældig stikprøvetagning fra den population, der skal testes. Vi opfatter endvidere vurderingen i søjlerne (PCR) som “gold standard”, selv om det er lidt af en tilsnigelse.
Hvis tabellen læses lodret, sådan at antallene vurderes relativt til søjlesummer, fås
- Sensitivitet = SP/(SP+FN) = sandsynligheden for positiv test, når man er syg
- Specificitet = SN/(SN+FP) = sandsynligheden for negativ test, når man er rask
Læses tabellen vandret, relativt til rækkesummer, fås
- Positiv prædiktiv værdi (PPV) = SP/(SP+FP) = sandsynligheden for at være syg, når testen er positiv.
- Negativ prædiktiv værdi (NPV) = SN/(SN+FN) = tilsvarende.
Endvidere benyttes
- Prævalens = (SP+FN)/(SP+FN+SN+FP) = sandsynligheden for at være syg.
- Test-prævalens = (SP+FP)/(SP+FN+SN+FP) = sandsynligheden for at teste positiv.
Typiske vanskeligheder ved fortolkning af disse begreber ligger i om tabellen læses lodret eller vandret. I sandsynlighedsteoretisk sprogbrug taler man om betinget fordeling givet rækkesummer eller søjlesummer. Bemærk især at sensitivitet og PPV kan være ret forskellige, selv om begge er “noget med” sandsynlighed for positivt test og sygdom.3 Forskellen er måske lettest at indse med spillekort: Sandsynligheden for at et es er en klør = 1/4, men sandsynligheden for at en klør er et es = 1/13. Man kan også se den video om emnet, som vi tidligere har udgivet.
Ved udvikling af diagnostiske test har man ofte samplet fra de betingede fordelinger givet søjlesummerne. Dvs man ser på en gruppe af patienter og en gruppe af raske kontroller. Ofte udvælges disse grupper til at være ca. lige store. Det er vigtigt, at med sådanne data kan man kun umiddelbart bestemme sensitivitet og specificitet. Hvis man vil vide noget om PPV og NPV, er man nødt til at kende prævalensen. Det er en generelt vigtig pointe, at en forvirringsmatrix ikke kan vurderes, uden at man ved, hvordan data er indsamlet!
Trade-off mellem sensitivitet og specificitet (ROC kurver)
Diagnostiske test er ofte i virkeligheden baseret på en eller flere underliggende kvantitative størrelser, hvor vurderingen positiv/negativ fås ved at undersøge, om en tærskelværdi er overskredet.
Et (oversimplificeret) eksempel er, at man har en variabel som er standardnormalfordelt hos raske og har en forhøjet middelværdi hos syge. Venstre plot i figur 1 viser situationen, og her har man også indsat en tærskelværdi på 1.5, når man skal foretage en vurdering af, om patienten tester positiv (er syg) eller negativ (er rask). Sensitiviteten er arealet under den højre kurve og til højre for den lodrette streg, mens specificiteten er arealet under den venstre kurve og til venstre for stregen.
Hvis man justerer på tærskelværdien, så kan man øge specificitet på bekostning af sensitivitet eller omvendt. Tegnes de to mod hinanden fås den såkaldte ROC kurve som ses i den højre delfigur.
Hvad viser andre studier?
Kronberg Jakobsen et al.4 Se Kronberg Jakobsen et al. (2021) Detection of SARS-CoV-2 infection by rapid antigen test in comparison with RT-PCR in a public setting fra medRxiv. udførte i december 2020 et studie, hvor de gennemførte samtidige antigen og PCR test for alle personer i et testcenter i København. Deres hovedresultat var følgende tabel.
Tabel 4: Resultaterne fra Kronberg Kakobsens studie.
PCR + | PCR - | |
---|---|---|
Antigen + | 154 | 24 |
Antigen - | 67 | 4567 |
Som det kan ses, er det relativt små tal, men i modsætning til Tabel 1, så er der ingen tvivl om, hvordan data er indsamlet. Overfladisk ligner resultatet Tabel 1, dog med en lidt bedre sensitivitet og PPV.
Imidlertid skal man bemærke, at prævalensen i denne tabel er 4.6% og antigen-prævalensen er 3.7%. Dette skyldes, at undersøgelsen blev foretaget i juleferien, mens anden bølge var på sit højeste. Når man får noget lignende i en situation hvor prævalensen er meget lavere, skal det snarere opfattes som alarmsignal end som en bekræftelse.
Man kan endvidere bemærke at specificiteten hos Kronberg Jakobsen et al. er 99.5%, hvilket lyder højt, men overført til de 2 millioner test på primært raske personer, skulle man forvente 10000 (= 0.5% af 2 mio) falske positive. I SSIs opgørelser findes kun 5000 positive i alt, hvilket peger på at sidstnævnte har en anderledes balance mellem sensitivitet og specificitet.
Smith et al.5 Se Smith et al. (2021) Longitudinal assessment of diagnostic test performance over the course of acute SARS-CoV-2 infection fra medRxiv har et spændende studie, hvor der er foretaget hyppige bestemmelser for de samme personer med tre forskellige test (antigen, spyt-PCR, næse-PCR). Desværre er studiet fokuseret udelukkende på sensitivitet; i og med at der rekrutteres personer med positive test eller nære kontakter her til, bliver det svært eller umuligt at sige noget om specificiteten. Studiet viser imidlertid klart den effekt, at den relative sensitivitet af antigen test i forhold til PCR testene er langt dårligst i den sidste del af sygdomsforløbet, svarende til det lavere niveau af virus i luftvejene på dette tidspunkt (“viralt load”). En positiv take-away fra dette studie er, at hyppig testning giver en væsentlig bedre sensitivitet ved alle 3 metoder, fordi det øger chancen for at ramme det punkt i infektionens forløb, hvor den er nemmest at detektere.
Kan beregningen reddes?
Hvis de 47% baseret på Tabel 1 ikke er rigtigt, hvad er værdien mon så? Er det muligt at konstruere et bedre gæt? Jeg er bange for at svaret er nej.
Det eneste man kan være nogenlunde sikker på er, at de 1910 falske negative må være undervurderet. Der er et meget stort antal antigen-negative test der ikke er PCR-verificeret, og det er svært at tro at de alle ville være PCR-negative. Der er også et antal antigen-positive test, der ikke er PCR-vurderet, men det er en langt mindre gruppe, så det er overvejende sandsynligt, at de “47% falsk negative” er undervurderet og tilsvarende, at sensitiviteten er betydelig lavere end 53%. Det er imidlertid svært at vide, hvad der skulle have stået i stedet. De negative antigen test er markant underrepræsenteret, men til gengæld er der inden for gruppen en overrepræsentation af PCR-positive, så man kan ikke bare gange tallene op til det korrekte antal antigen-negative. Det ville give over 30000 falsk negative altså næsten 15 gange antallet af sandt positive, hvilket det virker helt urealistisk.
Man kunne overveje at inddrage estimater af sensitivitet og specificitet fra Kronberg Jakobsen et al., men den ide strander på, at antal falske positive ikke er sammenligneligt, hvilket formentlig betyder, at der ikke er samme tradeoff mellem sensitivitet og specificitet. Uden at kende den relevante ROC kurve er det umuligt at udrede konsekvensen heraf.
En sidste ide er at prøve at matche prævalensen af PCR test blandt alle, der har fået en sådan (men ikke nødvendigvis antigen). Dette forekommer risikabelt fordi de to typer test formentlig ikke anvendes på testpopulationer der er sammenlignelige.
Hvad kan der gøres i stedet?
Det realistiske alternativ er at indarbejde randomiserede stikprøver, hvor en del af antigen prøverne sendes til PCR analyse. Dette burde ikke være svært at implementere i praksis ved en mekanik der minder om stikprøvekontroller i lufthavne. Måske kan man endda bruge de mindre invasive spyt-PCR teknikker.
Under alle omstændigheder må det være klart at tallet 47% simpelthen ikke er rigtigt. Det er baseret på en helt skæv dataindsamling, hvor der hverken er repræsentativitet af antal antigen-negative prøver eller af PCR-positive prøver inden for de antigen-negative prøver.