Significantie

Ik zou er een serie van kunnen maken. Het plot gaat ongeveer zo. Onderzoeker (m/v) wil grip krijgen op een probleem. De onderzoeker ontwikkelt een meetinstrument. Met succes: de ontwikkelde maat blijkt een prima middel om een beetje meer grip te krijgen op het probleem.

Maar dan gaat het mis omdat het tè goed gaat. Veel andere onderzoekers willen ook graag meer grip krijgen op het probleem. Iederen slaat aan het meten. Het instrument en de nieuwe maat worden populair en krijgen veel status. Sluipenderwijs verandert het instrument van gedaante. Ooit was het maar een middel, maar nu wordt het een doel op zich – nee hèt doel.

Het is een verhaal over hoogmoed en val. Of eigenlijk het verhaal van doctor Frankenstein, die macht over leven en dood wou en zodoende iets schiep dat hij niet meer in de hand had. Want een meetinstrument dat een doel op zich is geworden doet gewoonlijk meer kwaad dan goed. Als een uitkomst van een meetinstrument een doel wordt, gaan we de boel zo inrichten dat we hoog scoren op die uitkomst; vaak ten koste van dingen die nuchter beschouwd belangrijker zijn. We bedenken een lat om de wereld de maat te nemen maar de lat neemt ons de maat.

Eerder schreef ik zo’n verhaal over IQ, maar vandaag is er aanleiding statistische significantie: ofwel de p-waarde onder de loep te nemen. Die p-waarde wordt veel gebruikt, zo veel dat zo’n 800 wetenschappers een opiniestuk in het wetenschappelijke tijdschrift Nature ondertekenden dat pleitte voor het afschaffen ervan – of tenminste pleitten ze voor een andere omgang met de p-waarde.

Wat gaat hier mis? Die p-waarde is echt heel erg belangrijk. Het gaat feitelijk om een groep wetenschappers die er voor pleiten om het meest gebruikte wetenschappelijke gereedschap af te schaffen. Je kan ook lezen: “tuindersvereniging protesteert tegen het gebruik van heggescharen” of “ANWB pleit voor het afschaffen van wielen”. Niet echt het nieuws dat je verwacht.

De p-waarde meet de kans dat een wetenschappelijke bevinding toeval kan zijn. De kans op kans. Als je de lengte van de jongens in de klas meet en de lengte van de meisjes en je vindt dat de jongens gemiddeld 1,3 cm langer zijn, dan wil je vaak ook weten of dit in alle klassen zo is óf alleen in jouw klas. Er is best een kans dat er in jouw klas toevallig een paar extra lange jongens zaten terwijl dat in andere klassen helemaal niet zo is en jongens dus ook niet gemiddeld langer zijn. Als je die mogelijkheid niet kan uitsluiten ga je niet zomaar roepen dat jongens gemiddeld langer zijn dan meisjes.

Daarvoor is dus statistiek uitgevonden. Of een uitkomst van een experiment toeval is weet je natuurlijk nooit helemaal zeker, maar op basis van het soort meting, hoeveel metingen je gedaan hebt en de spreiding kan je een aardige schatting maken over of de kans groot of klein is dat je elders hetzelfde zal vinden: de p-waarde.

Die p-waarde is populair. Of eigenlijk: zij is zò populair dat ze een norm is geworden. Het is knap lastig om nog resultaten te publiceren als de kans dat het toeval is wat je gevonden hebt niet kleiner is dan 5%, of liever nog 1%.  Zeker als je een sociaal wetenschapper bent.

Is dat slecht? Nou misschien. Het bespaart ons zeker van een hoop onzinbevindingen die zonder de p-waarde misschien enorm serieus genomen zouden worden.

Maar, de ellende met de p-waarde als norm is natuurlijk dat wetenschappers – mensen – proberen die waarde op te krikken. Ze nemen meer proefpersonen, ze sluiten erg afwijkende proefpersonen uit, een enkeling verzint misschien wat data. Ik zou hier een hele lijst misstanden kunnen noemen, maar het punt is steeds: de p-waarde is het doel geworden in plaats van de waarheidsvinding. Einde wetenschap.

En dat is wat die onderzoekers van dat manifest dwars zit. Misbruik, verkeerd gebruik en onbegrip waardoor waardevolle bevindingen verloren gaan en waardeloze bevindingen enorm belangrijk gevonden worden. Daarom stellen ze voor om de p-waarde-norm los te laten en de p-waarde weer een bescheidener plek te geven naast datgene waar het écht om draait: het effect en de grootte daarvan.

Mijn steun hebben ze: dat moge duidelijk zijn, maar of het kansrijk is durf ik te betwijfelen. Ik begin te ontdekken dat normen makkelijker ontstaan dan dat ze verdwijnen. Natuurlijk is je er tegen uitspreken het begin: maar dan begint de lange, lange weg om de praktijk te veranderen. Of deze wetenschappers daar zo goed in zijn als in zich uitspreken? We gaan het zien.

Meer lezen?

Ik schreef al eens hoe enorm overschat de IQ test is en wat daar de gevolgen van zijn. Meer in het algemeen stelde ik vragen bij een doorgedreven vorm van empirisme in waarheidsinjecties. Het vergelijken van groepen (mannen en vrouwen bijvoorbeeld) stelde ik aan de kaak in groepsidentificaties en in eerlijk vergelijken.

Sanne Blauw besprak op de Correspondent op heldere manier wat de p-waarde is en waarom wetenschappers hem willen afschaffen. Het oorspronkelijke Nature artikel vind je hier.

IQ

Ik houd een lijstje bij met slechtst begrepen wetenschappelijke begrippen en bijna bovenaan, ver boven relativiteit, staat IQ. Mensen schijnen over IQ onder andere te geloven dat het echt bestaat, dat we weten wat het is – èn dat we er nuttige dingen mee kunnen doen. Allemaal hardnekkige misverstanden. IQ vormt een perfect voorbeeld van wat er allemaal mis kan gaan als je iets gaat meten.

Even een prikkelend feitje over IQ: het IQ van de wereldbevolking gaat al jaren omhoog. Dit stijgende IQ wordt het Flynn effect genoemd, naar de psycholoog James Flynn die liet zien dat de gemiddelde Amerikaan tussen 1932 en 1978 zo’n 10% slimmer was geworden. Of Amerikanen nog steeds elk jaar slimmer worden durf ik niet te zeggen, maar de rest van de wereld wordt dat blijkbaar wel.

Dat is natuurlijk heel erg fijn voor ons allemaal. Maar het roept ook heel erg veel vragen op. Want was het IQ niet een meting van een aangeboren eigenschap? Is intelligentie niet het best te begrijpen als een soort van talent om moeilijke dingen te snappen, te leren en misschien om in het algemeen handige dingen te doen? Hoe kan het dat de genen van onze soort zo snel veranderen dat we in razend tempo slimmer worden? Is er soms een sterke selectiedruk op intelligentie in onze maatschappij?

Het antwoord laat zich raden: intelligentietests meten helemaal geen intelligentie. Tenminste niet als je dat ziet als een aangeboren leertalent. IQ tests stellen vast hoeveel lastige puzzels je in een bepaalde tijd kan oplossen. Ze meten dus breinprestaties op een bepaald moment en niet het leertalent wat daarvoor gezorgd heeft. Breinprestaties zijn van natuurlijk van veel meer dingen afhankelijk dan je aangeboren talenten. Heb je meer scholing gehad, of specifieke IQ test training? Dan doe je het beter op IQ tests.

Nu zou je kunnen zeggen dat breinprestaties op een bepaald moment een aardige voorspeller kunnen zijn van leervermogen gedurende een bepaalde tijd, maar dan ga je er wel vanuit dat leervermogen een constante is. Dat hoeft natuurlijk niet zo te zijn.Steeds als je iets leert veranderd je brein een beetje. Zou een dergelijke verandering niet ook kunnen zorgen dat je daarna gemakkelijker nieuwe dingen leert? Met andere woorden: zou het kunnen dat je leertalent afhankelijk is van wat je leert?

Veel wetenschappers denken tegenwoordig van wel. Dit wordt fluïde intelligentie genoemd. Onderwijs verhoogt niet alleen je vermogen om puzzels op te lossen, maar ook je vermogen om te leren om puzzels op te lossen. Intelligentie is helemaal niet alleen aangeboren: je kan ook leren om intelligent te zijn.

Daarmee blijft er weinig over de aannames achter de inteligentietest: intelligentie is een aangeboren eigenschap, die je kunt meten. Dat zou allemaal niet uitmaken als IQ tests een aardige voorspelling zouden geven van dingen waar je wat aan hebt in het leven: bijvoorbeeld studiesucces of succes in een toekomstige baan. Maar ook dat blijkt tegen te vallen: IQ tests kunnen bar-weinig voorspellen. Niet alleen omdat de IQ tests zelf niet deugen, maar ook omdat er meerdere soorten intelligentie zijn en omdat heel andere menselijke eigenschappen zoals doorzettingsvermogen of een houding ten aanzien van leren veel belangrijkere voorspellers blijken te zijn van later succes.

Ik heb zelf veel te danken aan een IQ test. Mijn basisschooldocent dacht dat ik beter naar de Mavo kon, maar de IQ test die ik deed wees Havo uit en daar ging ik dus heen. Op de Havo – en later op de universiteit – ontwikkelde ik vervolgens veel van mijn huidige talent om te leren. Ik dank mijn IQ aan een IQ test. Want stel je eens voor dat die test Vmbo had uitgewezen, dan was ik vast lang zo slim niet geworden. IQ test worden dus eigenlijk verkeerd gebruikt. We doen alsof IQ tests iets belangrijks kunnen voorspellen, maar, ze veroozaken dingen.

Dat is niet erg als ze positieve dingen zouden veroorzaken, zoals in mijn geval, maar vaker gebeurd het tegenovergestelde. We gebruiken de IQ test tegen de laatbloeiers in onze samenleving. Heb ben je niet snel genoeg slim geworden, dan krijg je dankzij het gebruik van de IQ test geen kans meer om van een dubbeltje naar een kwartje te groeien. Naar vind ik dat.

Als we de balans op maken voor IQ tests komen we op het volgende ontluisterende lijstje. IQ tests maken op basis van breinprestaties op een bepaald moment een schatting van het gemiddelde leervermogen tot dan toe, waarbij de omgeving weggedacht is en het feit dat leertalent kan veranderen weggedacht wordt. Vervolgens doen we net alsof dat IQ allerlei successen kan voorspellen, terwijl we allang beter weten. IQ meten is koffiedik kijken in psychologie-vermomming.

Dat roept de vraag op hoe het zo ver heeft kunnen komen… Hoe verklaren we de populariteit van de IQ test als het ding zo overduidelijk niet deugt?  Een deel van het antwoord is dat we pas sinds kort weten wat er allemaal mis is met IQ tests. Je hebt behoorlijk wat tijd nodig om te meten hoe goed een test studiesucces kan voorspellen en wat eventueel betere voorspellers zijn. Ook het idee van fluïde intelligentie is vrij nieuw en hoe fluïde onze intelligentie precies is, is niet bekend. Dat maakt het moeilijk inschatten wat je wel en niet uit een IQ kan voorspellen.

Toch denk ik dat er een belangrijkere reden is voor de aanhoudende populariteit van IQ en de IQ test en dat is deze: het meten van dingen maakt ze tastbaar. Dingen die je in een getal kan uitdrukken zijn echt. Kilometertellers maken afstanden tastbaar, klokken maken de tijd tastbaar en IQ tests maken intelligentie tastbaar.

Veel van ons hebben wel eens een IQ test gedaan. Als ik zelf een IQ van 120 heb, dan moet intelligentie wel bestaan. Hoe kan je het anders meten? Dat is misschien een cirkelredenering, maar tegen de achtergrond van mijn eigen IQ van 120, lijken die verhaaltjes over fluïde intelligentie en slechte voorspellende waarde echt een beetje geneuzel. Mijn indrukwekkende IQ staat immers zo vast als een huis.

Mijn voorspelling is dus dat IQ tests, ondanks de aanzwellende kritiek, nog tot in jaar en dag tot de vaste uitrusting van de psychologen blijft behoren. Werkgevers willen weten wat het IQ is van het personeel dat ze gaan aannemen. De mensen willen weten wat hun IQ is. Dus blijven we het meten en als we het kunnen meten dan zal het wel bestaan.

En laat dat dan een les zijn voor als je zelf eens iets onzichtbaars aan de man wil brengen: of het nou om astrologie, aardstraling, één of ander -isme of om boze geesten gaat… Zorg voor een betrouwbare meting en je zit gebeiteld!.

Meer lezen?

In waarheidsinjecties betoog ik dat we teveel proberen te meten in deze samenleving. In doeloorzaken bespreek ik een andere tactiek om moeilijke dingen te begrijpen. In evolutiesnelheid stel ik misverstanden rondom de evolutietheorie aan de kaak.