Tidlige indsatser virker ikke

Man læser ofte om, at for at reducere forskellene mellem børn af forældre med høj eller lav indkomst, lang eller kort uddannelse, så skal man starte tidligt. På engelsk omtales det generelt som pre-k, early interventions, early childhood education, compensatory education osv. Baggrunden for at forsøge med den metode er at man kan se forskelle på børnene allerede når de starter i skole og forskellene forbliver eller vokser blot med tiden.

Er der noget evidens bag ideen? Bestemt. Hvis man beder folk begrunde den, så vil de citere kendte succeshistorier som Perry Preschool Program, Milwaukee Project, The Abecedarian Project og et par andre. Nok det mest citerede er Perry Preschool Project, så lad se på hvordan det typisk bliver opsummeret. En informel opsummering kunne fx være:

Det er sin sag at vurdere effekten af indsatser, som sker tidligt i børns liv, fordi den afgørende effekt først viser sig mange år efter, dvs. når deltagerne bliver voksne. Derfor henviser Heckman gang på gang til det såkaldte Perry Preschool Project, der fandt sted i midten af 1960’erne.

Projektet tiltrækker sig Heckmans interesse, fordi forskere har fulgt projektdeltagerne, helt frem til de fyldte 40 år, og i al den tid har de målt effekten på deltagerne i forhold til en kontrolgruppe, som ikke deltog i projektet.

Resultaterne er markante. De, der som børn deltog i projektet, tjener som voksne mere, ejer oftere deres egen bolig og har ikke i samme grad modtaget overførsler fra det offentlige i løbet af deres liv.

I det endelige regnestykke er det særligt afgørende, at deltagerne også i langt mindre grad begår kriminalitet end personerne i kontrolgruppen. Investeringen i en tidlig indsats over for de 3- og 4-årige udsatte børn på Perry Pre-school betaler sig næsten 13 gange tilbage. [kilde]

“Men det er jo blot en avisartikel” ville læseren måske indvende. Det er rigtigt. Lad os se på nogle mere seriøse kilder. Her et et studie omtalt af BUPL og lavet af SFI, Det Nationale Forskningscenter for Velfærd (som er underlagt Socialministeriet og dermed offentligt):

De fortæller også om forbedring af børnenes IQ efter flere andre forsøg:

Man kan finde flere lignende omtaler af forsøgene af SFI, og af KORA, Det Nationale Institut for Kommuners og Regioners Analyse og Forskning (offentligt), og af Undervisningsministeriet.

Men der er grund til at være skeptisk. Læser man nærmere, ser man at det næsten altid er de samme få studier som er omtalt, og disse studier er både relativt små og meget gamle: Perry Preschool Project er fra 1962 og involverede ca. 120 børn, Milwaukee Project er fra 1960erne og involverede 35 børn, The Abecedarian Project er fra 1972 og involverede 97 børn. Hvad værre er, ser man efter på grafen overfor, så kan man se at de mindre studier fandt en større effekt. Korrelationen blandt de 5 studier i grafen ovenfor er -.72. (Tallene ses i Tabel 3.1 i samme kilde.) Med andre ord, de mere upræcise studier fandt en større effekt. Vi vender tilbage til det problem senere.

Nyere og større studier

“Kan det virkelig passe at fortalere for tidlige indsatser baserer deres ide på små studier fra 60erne og 70erne? Er der ikke nogle nyere, større studier?” Det kan godt passe og jo, der er nyere større studier. “Hvorfor citerer fortalerne dem så ikke?” Det er der en meget simpel forklaring på: de viser det modsatte resultat.

The Head Start Impact Study blev igangsat af USAs kongres og startede i 2000. Det er et stort, officielt, forudregistreret studie som involverede næsten 5000 børn som startede i alderen 3 eller 4 år. Børnene blev tilfældigt placeret enten i en kontrolgruppe eller i en forsøgsgruppe. Dermed bliver det meget usandsynligt at de to grupper skulle være forskellige til at starte med på en relevant måde. Børnene på 3 år modtog 2 års træning mens dem på 4 kun modtog 1. Derefter målte man på børnenes færdigheder på en række områder lige efter træningen var afsluttet, da de var i 1. klasse og da de var i 3. klasse. Hvad viste resultaterne? Den sidste rapport om studiet er fra 2012 og der skriver forskerne:

In summary, there were initial positive impacts from having access to Head Start, but by the end of 3rd grade there were very few impacts found for either cohort in any of the four domains of cognitive, social-emotional, health and parenting practices. The few impacts that were found did not show a clear pattern of favorable or unfavorable impacts for children.

Der er to grafiske oversigter over resultaterne:

Tallene er standardiserede gennemsnitsforskelle (standardized mean differences, aka. Cohen’s d). Det er et mål for hvor stor en effekt er som kan sammenlignes på tværs af studier. Typisk siger man at d<0.2 er små eller ikke-eksisterende, d≈0.5 er mellemstærke, og d>0.8 er stærke. Felterne med NA er ting som ikke blevet målt på det tidspunkt, mens de tomme felter er værdier som er tæt på 0 (mindre end 0.08, men de skriver ikke præcist hvor store). Generelt ser vi nogle effekter i det år træningen var i gang eller lige afsluttet, færre året efter og ca. ingen i 1. og 3. klasser. Alle tallene i tabellen omhandler kognitive og skolemæssige udfald, men resultaterne for sociale og emotionelle udfald er ca. det samme: sporadiske effekter i hver sin retning i 1. og 3. klasse.

“Men det jo er bare et enkelt studie. Måske de har gjort noget forkert, eller kvaliteten ikke var høj nok.” tænker læseren måske. Men nej. Forskerne undersøgte derefter om forskelle i kvaliteten af hjælpen kunne forklare de manglende resultater, men igen var resultaterne negative.

Men okay, måske det var en smutter, lad os prøve et andet studie. Et australsk studie fra 2016 (PDF) med 452 børn fra 44 skoler som alle scorede dårligt på en IQ test modtog arbejdshukommelsestræning 20 til 25 gange á 45 minutter på deres skole. Derefter fulgte man børnene i 2 år og så på deres skolefærdigheder. Hvad fandt man? Ca. ingenting. Eller, faktisk klarede forsøgsgruppen sig lidt dårligere end kontrolgruppen i matematik. Forskerne fortæller også hvad interventionen kostede: 1035$ per barn, altså ca. 6900 kroner.

Eller hvad med the TNVPK Effectiveness Study, et stort amerikansk studie fra 2015 (opsummering). I staten Tennessee bruger man hvert år 85 millioner dollars på tidlig indsats for statens godt 18000 børn i den rette målgruppe. Det svarer til ca. 4700 dollars per elev per år, eller ca. 31500 kroner. I 2009 besluttede man sig for at undersøge om det nu også virkede. Studiet inkluderede 3000 børn som modtog hjælp i børnehaven mens de var 4 år og blev fulgt op til 3. klasse. Resultaterne er efterhånden velkendte:

Altså, da børnene startede (alder 4.5) var der ingen forskel i deres skolefærdigheder (fx læsning), efter 1 års træning (alder ca. 5) klarede forsøgsgruppen (den røde linje) sig bedre end kontrolgruppen (forskellen er på 0.32 d, så der er tale om en svag til middelstærk effekt). Men allerede året efter var der ca. ingen forskel (alder 6). I 3. klasse klarede forsøgsgruppen sig faktisk lidt dårligere end kontrolgruppen. Resultaterne var lignende for adfærdsrelaterede udfald.

Mindre studier, større effekter

Vi har set hvordan en række mindre studier fandt store positive effekter, mens en række store studier fandt ca. ingen effekter efter et par år. Dette er et velkendt mønster i forskningen og har en relativ simpel forklaring: publication bias (dansk: udgivelsesbias). Kort fortalt, så har forskere en tendens til at udgive positive resultater. Når de fandt det de forventede eller syntes godt om, så udgiver de det; når de ikke fandt det de forventede eller syntes godt om, så udgiver de det nogle gange ikke. Resultatet er at den videnskabelige litteratur er biaset: det ser ud som om at noget virker eller en effekt er reel, selv når det ikke virker eller effekten ikke findes. Selv når en effekt er reel, så vil dens vigtighed bliver overestimeret. For eksempel, Nieuwenstein et al. (2015) levede en graf over studier som forsøgte at finde en påstået effekt: at det er nemmere at lave svære beslutninger (fx køb af en ny bil) hvis man bliver distraheret først. På y-aksen har man præcisionen; hvor præcist studiet kunne estimere en effekt. Og på x-aksen har man hvilken effekt studiet fandt. Det ser således ud:

Grafen kaldes et funnel plot eller på dansk en tragtfigur. Det hvide område omhandler studier som i følge en udbredt statistisk metode ikke med sikkerhed kan siges at have fundet nogen effekt, mens studierne i de grå områder kan siges at have fundet en effekt (p værdien er under 0.05, dvs. mindre end 5% chance for at det er et tilfælde). De fyldte cirkler viser de studier som er blevet udgivet. Som det kan ses, så er der en tendens til at de små studier finder en større effekt. Det kan også ses at fordelingen af studier ikke er symmetrisk; der mangler små studier som fandt en stor negativ effekt. På grafen til højre er der indsat tomme cirkler. De er estimater på de manglende studier som ikke blev udgivet og er lavet med en metode som hedder trim and fill. Den lodrette linjer viser det overordnede estimat for effekten hvis man tager alle studierne i betragtning. Det ses at der lader til at være en lille effekt hvis man kun ser på de udgivne studier (d = 0.15), mens at der ikke lader til at være nogen effekt når man har indsat de manglende studier (d=0.018).

Så det vi mangler er at nogen skal lave en tragtfigur med studier af tidlige interventioner. Det har jeg lavet baseret på en stor liste af studier fundet via Duncan og Magnuson (2013) (PDF). Grafen er ikke så pæn, men det ser sådan ud:

Linjen viser at der er en generel tendens til at de større studier finder en mindre effekt. Jeg har sat navne på et par af studierne som ligger helt ude til højre. Dette er små studier som fandt store effekter. Det er de samme studier som vi så tidligere, bortset fra Karnes (Karnes Ameliorative Curriculum Pre-K) som jeg ikke havde hørt om før, men som er fra 1965. Det er tydeligt at der findes en række store studier (dem i toppen af figuren) som har fundet temmelig små effekter. Vi må således forvente at den reelle effekt er rimelig lille, og det er vel og mærket lige efter afslutningen på interventionen. Den gennemsnitlige effekt for studierne med over 75 præcision (de store studier) er kun d=0.17. Den gennemsnitlige effekt i de studier som SFI citerede ovenfor er d=0.75. SFI overestimerer effekten fordi de citerer nogle små, gamle og urepræsentative studier.

Hvornår kan man forvente udgivelsesbias?

I et epokegørende studie fra 2005 vurderede John Ioannidis (se dette interview) at der er 6 kendetegn på områder hvor der er meget udgivelsesbias og dermed stor sandsynlighed for at blive vildledt hvis man ikke er påpasselig:

At studierne er relativt små. Fx med 20 til 100 personer.
At studierne undersøger en effekt som hvis den findes er relativ lille, fx d=0.20.
At studierne undersøger mange ting på én gang.
At studiernes metoder har en stor fleksibilitet; altså at der er mange statistiske måder at undersøge dataene på og mange valg der skal træffes (se researcher degrees of freedom).
At studierne er på mode blandt forskere.
At der er klare finansielle, religiøse eller politiske grunde til at foretrække et resultat frem for et andet.

Alle kendetegnene er til stede for studier af tidlig intervention.

Effekten forsvinder med tiden og er nok slet ikke en rigtig stigning

“Kan det blive værre?” Desværre ja. I en stor meta-analyse (analyse af andre studier) fra 2015 (PDF), fandt John Prozko at det er et generelt fænomen at IQ stigninger fra denne type forsøg forsvinder med tiden. Grafen viser det hele:

Den tykke linjer viser det bedste estimat (vægtet gennemsnit) de første 4 år. Som det kan ses, så ender den på 0 efter 4 år. Bemærk at dette er selvom at estimatet er biaset opad på grund af udgivelsesbias.

I et af mine egne studier fra 2014 (te Nijenhuis et al) undersøgte vi om de IQ-score ændringer man ser i disse forsøg (dem med Head Start specifikt) lader til at være rigtige stigninger i børnenes generelle intelligens eller om det snarere lader til at børnene bare lærer at tage testene. Det har stor relevans fordi det er kun en rigtig stigning som kan forventes at give alle de positive effekter som højere generel intelligens indebærer. Den måde vi undersøgte det på er via Jensens metode (method of correlated vectors). Den virker ved at se på stigningerne på flere forskellige kognitive tests. Forskellige kognitive tests måler generel intelligens i forskellig grad. Fx er en ordforrådstest en rimelig god måler af generel intelligens, mens en korttidshukommelsestest er mindre god. Hvis en IQ stigning virkelig er en stigning i generel intelligens, så vil man forvente at de tests som måler det bedst viser de største ændringer; omvendt set, så hvis børnene blot lærer at tage testene, så vil man forvente at se en negativ sammenhæng. Vi undersøgte emnet ved at samle data fra 8 studier med i alt 602 børn. Det viste en klar negativ sammenhæng på -0.51. Efter korrektion for nogle fejlkilder blev det bedste estimat til -0.80. Altså, evidensen tyder på at den IQ-stigning man ser ikke er en reel stigning i generel intelligens, men blot eleverne som lærer at tage testene.

Konklusion

Man skal være skeptisk overfor påståede gode udfald ved tidlig intervention. Studierne viser tegn på biaset rapportering, effekterne forsvinder hurtigt med tiden og var måske slet ikke ægte stigninger i det vi var interesserede i til at starte med (jf. Goodhart’s lov). Det er stadig værd at prøve nogle ting, men kun hvis det sker på ordentlig videnskabelig basis: alle resultater bliver rapporteret og dataene ikke gemmes væk, så kritikere ikke kan undersøge dem selv. På grund af de relativt klare negative resultater indtil videre og den høje arvelighed af de ting man forsøger at ændre, så bør man ikke have store forventninger til tidlige interventioner, og man bør ikke bruge det offentliges penge på den slags ordninger før de kan demonstreres at virke. Der er ikke brug for at SFI eller andre skriver flere opsummeringer af et urepræsentativt udvalg af små studier fra 1960erne og 1970erne.

Den generelle negative konklusion er heller ingen nyhed for Arthur Jensen beskrev i sin kendte opsummeringsartikel fra 1969 at denne type interventioner nok ikke virkede særlig godt hvis overhovedet (se også denne artikel). Tiderne er endnu ikke skiftet.

Forskningen og politikken på området kan opsummeres således:

Læs mange flere gode striber fra SMBC.