Giv dit barn en god start: bliv gravid i maj

Af: Claus Thorn Ekstrøm, 8. maj 2017

Alle kan komme på landsholdet, hvis de bare har de rette evner. Det skulle man i det mindste tro var rigtigt, men flere undersøgelser har indikeret, at det måske ikke gælder. I mange sportsgrene - blandt andet fodbold, amerikansk fodbold og ishockey - er der blandt de professionelle spillere en overrepræsentation af sportsudøvere, der er født i årets første måneder, og færre, der er født i årets sidste måneder. Dette fænomen - på engelsk kaldet “Birthday bulge” - er undersøgt i mange andre lande, og her ser vi på, om fænomenet også optræder i Danmark.

Nu har jeg i flere omgange stødt på diskussionen omkring “Birthday Bulge” i forbindelse med mange forskellige sportsgrene blandt andet i Malcolm Gladwells Outliers: The Story of Success, og tidligere i Superfreakonomics. Argumentet for, at personer, der er født i årets første måneder, har lettere ved at komme på landsholdet er som følger: Sports- og fritidsaktiviteter er ofte organiseret, så børn og unge inddeles på hold på baggrund af deres fødselsår. Et hold vil derfor bestå af børn med en aldersforskel op til tæt på 1 år, og specielt i børnenes yngste år vil en 10-11 måneders forskel udgøre en kæmpe forskel i vækst og fysiologi. Børn, der er født tidligt på året vil overvejende være større, stærkere og hurtigere, de er mere tilbøjelige til at blive udvalgt til at spille kampe, og de har lettere ved at klare sig bedre end deres modstandere. De vil opleve flere succeser og er derfor mere tilbøjelige til at blive ved med at dyrke deres sport, og har dermed have større sandsynlighed for efterfølgende at blive udtaget til landsholdet.

Det danske herrefodboldlandshold

DBUs landsholdsdatabase indeholder oplysninger om samtlige danske landsholdsspillere siden ca. 1908. Pr. 7. maj 2017 er der 799 personer, der har været udvalgt til det danske herre A-landshold i fodbold, og fordelingen af samtlige spilleres fødselsmåned fremgår af figuren nedenfor.

Fødselsmåned for samtlige 799 spillere på A-landsholdet siden landsholdsdatabasen startede. Ældste person i databasen er Johannes Gandil fra 1873 og yngste er Kasper Dolberg fra 1997. plot of chunk soccer-1

Figuren antyder, at der måske ikke er noget om snakken. Der lader til at være en ret jævn fordeling af fødselsmåneder henover året, når vi tager samtlige spillere på landsholdet over alle årene i betragtning. Vi kan undersøge det mere formelt ved at teste, om fordelingen af fødselsmåneder blandt landsholdsspillerne svarer til fordelingen i baggrundspopulationen. Dette kan gøres ved at lave et $\chi^2$ goodness-of-fit test, hvor sandsynlighederne er givet ud fra en nulhypotese.

Nulhypotesen kan vælges på lidt forskellig vis alt afhængig af, hvor præcis man ønsker den. Et bud er at sige, at fødselshyppighederne er ligefordelt henover de 12 måneder svarende til en sandsynlighed på 1/12 for hver måned. Alternativt kan hyppighederne afhænge af, hvor mange dage, der er i hver måned. Vi har dog tidligere set, at der er sket en ændring i fordelingen af fødselssandsynlighederne henover årene, og derfor virker det også mest oplagt at bruge den reelle fordeling af danskernes fødselsmønstre. Tabellen nedenfor viser forskellen i sandsynligheder for de tre forskellige måder at definere nulhypotesen på.

Tabel 1: Nulhypotesen kan enten baseres på at hver måned er lige hyppig (sandsynligheden for at være født i en måned er 1/12 = 8.33%), at fødselsmønstrene afspejler længden af månederne, eller at fødselsfordelingen ligner den danske baggrundsbefolkning (her vist på baggrund af alle fødsler fra 1970 og frem til og med 1997. De danske fødselsdata kan hentes fra Danmarks statistik eller fra R-pakken MESS.

  Ligefordeling Månedslængde Befolkningen
Jan 8.33 8.49 7.96
Feb 8.33 7.67 7.74
Mar 8.33 8.49 8.91
Apr 8.33 8.22 8.86
Maj 8.33 8.49 8.89
Jun 8.33 8.22 8.62
Jul 8.33 8.49 8.82
Aug 8.33 8.49 8.62
Sep 8.33 8.22 8.43
Okt 8.33 8.49 8.04
Nov 8.33 8.22 7.55
Dec 8.33 8.49 7.58

Den sidste søjle viser, at der i den danske population i al almindelighed er en høj sandsynlighed for at være født i perioden fra marts til maj. Ved at sammenligne med den empiriske fordeling sikrer vi, at vi ikke fejlagtigt konkluderer, at der er en overrepræsentation hos landsholdsspillerne, der skyldes, at danskerne bare i al almindelighed er mere tilbøjelige til at få børn i årets første måneder.

Valg af test

Som nævnt kan vi bruge et goodness-of-fit $\chi^2$-test til at sammenligne fordelingen af landsholdsspillernes fødselsmåneder med danskernes generelle fødselsmønster. $\chi^2$-testet har dog den ulempe, at det ikke tager højde for ordningen på kategorierne. Med andre ord sammenligner vi det observerede antal fødsler for hver måned med det forventede antal fødsler uden at tage højde for, at birthday-bulge hypotesen jo specificerede, at der burde være en ophobning af fødsler i årets første måneder.

I stedet kan vi bruge et Kolmogorov-Smirnov test baseret på de kumulerede gruppefrekvenser, hvor kategoriernes ordning tages i betragtningSe desuden D. J. Best and J. C. W. Rayner (1997), “Goodness-of-fit for the ordered categories discrete uniform distribution”, Comm. Statist. Theory Meth., 26., hvor Cramér-von Mises type tests diskuteres. Alle giver samme overordnede resultat. , og hvor trends i fordelingen vil være lettere at identificere. Figuren nedenfor viser p-værdier for goodness-of-fit for både det Kolmogorov-Smirnov-baserede test, og det klassiske $\chi^2$-test. For hvert kalenderår vises resultatet baseret på alle landsholdsspillere født i det pågældende kalenderår eller senere.

P-værdier for goodness-of-fit, hvis man udelukkende betragter spillere, der er født i et givent år eller senere. De blå værdier er fra et $\chi^2$-test, mens de røde værdier er fra Kolmogorov-Smirnov-testet, der tager ordningen med i betragtning. Små værdier indikerer, at landsholdsspillerne har et andet fødselsmønster end baggrundsbefolkningen. plot of chunk soccer-2

De Kolmogorov-Smirnov-baserede p-værdier viser tydeligt, at for spillere født efter anden verdenskrig vil man forkaste nulhypotesen om at fødselsfordelingen blandt landsholdsspillerne følger fordelingen i den danske population. Tilsyneladende er det danske fodboldlandshold også præget af birthday-bulge effekten - der er i hvertfald en tilsyneladende sammenhæng. P-værdierne stiger hen mod slutningen af perioden, hvilket primært skyldes, at antallet af unge personer på landsholdet er lille, og derfor bliver styrken for goodness-of-fit-testet meget lav. Fra et statistisk synspunkt er det desuden interessant, hvor meget styrke, der går tabt, når man bruger det generelle $\chi^2$-test, som ikke benytter ordningen på kategorierne, for med $\chi^2$-testet er effekten for lille til at det slår igennem. Vil man give sit barn et forspring i livet er det mest oplagte (og letteste?) man kan gøre, at blive gravid i starten af maj, så man kan kan få sig et barn i starten af det nye år.

Giv dit barn en god start: bliv gravid i maj - 08/05 2017 - claus og sandsynligvis.dk