Ik zou er een serie van kunnen maken. Het plot gaat ongeveer zo. Onderzoeker (m/v) wil grip krijgen op een probleem. De onderzoeker ontwikkelt een meetinstrument. Met succes: de ontwikkelde maat blijkt een prima middel om een beetje meer grip te krijgen op het probleem.
Maar dan gaat het mis omdat het te goed gaat. Veel andere onderzoekers willen ook graag meer grip krijgen op het probleem. Iedereen slaat aan het meten. Het instrument en de nieuwe maat worden populair en krijgen veel status. Sluipenderwijs verandert het instrument van gedaante. Ooit was het maar een middel, maar nu wordt het een doel op zich – nee het doel.
Het is een verhaal over hoogmoed en val. Of eigenlijk het verhaal van doctor Frankenstein: die macht over leven en dood wilde – en zodoende iets schiep dat hij niet meer in de hand had. Want een meetinstrument dat een doel op zich is geworden doet gewoonlijk meer kwaad dan goed. Als een uitkomst van een meetinstrument een doel wordt, gaan we de boel zo inrichten dat we hoog scoren op die uitkomst; vaak ten koste van dingen die eigenlijk gewoon belangrijker zijn. We bedenken een lat om de wereld de maat te nemen maar de lat neemt ons de maat.
Eerder schreef ik zo’n verhaal over IQ, maar vandaag is er aanleiding om statistische significantie: ofwel de p-waarde onder de loep te nemen. Die p-waarde wordt veel gebruikt, zo veel dat zo’n 800 wetenschappers een opiniestuk in het wetenschappelijke tijdschrift Nature ondertekenden dat argumenten gaf voor het afschaffen ervan – of tenminste pleitten deze wetenschappers voor een andere omgang met de p-waarde.
Wat gaat hier mis? Die p-waarde is echt heel erg belangrijk. Het gaat feitelijk om een groep wetenschappers die vinden dat het gebruikte wetenschappelijke gereedschap verboden moet worden. Je kan ook lezen: “tuindersvereniging protesteert tegen het gebruik van heggenscharen” of “ANWB pleit voor het afschaffen van wielen”. Niet echt het nieuws dat je verwacht.
Het zit zo. De p-waarde meet de kans dat een wetenschappelijke bevinding toeval kan zijn. Dus de kans dat je per ongeluk bewijs hebt gevonden voor een stelling. Als je de lengte van de jongens en meisjes in de klas meet en je vindt dat de jongens gemiddeld 1,3 cm langer zijn, dan wil je vaak ook weten of dit in alle klassen zo is óf alleen in jouw klas. Er is best een kans dat er in jouw klas toevallig een paar extra lange jongens zaten terwijl dat in andere klassen helemaal niet zo is en jongens dus ook niet gemiddeld langer zijn. Als je die mogelijkheid niet kan uitsluiten, ga je als wetenschapper niet zomaar roepen dat jongens gemiddeld langer zijn dan meisjes.
Daarvoor is dus statistiek uitgevonden. Of een uitkomst van een experiment toeval is, weet je natuurlijk nooit helemaal zeker. Wat je kunt doen, is op basis van het soort meting, het aantal metingen en de spreiding een schatting maken van hoe groot de kans is dat je elders hetzelfde zult vinden: de p-waarde.
Die p-waarde is populair. Of eigenlijk: zij is zò populair dat ze een norm is geworden. Het is knap lastig om nog resultaten te publiceren als de kans dat het toeval is wat je gevonden hebt niet kleiner is dan 5%, of liever nog 1%. Dit geldt zeker in de sociale wetenschappen?
Is dat slecht? Nou ja, misschien. Het bespaart ons zeker een hoop onzinbevindingen die zonder de p-waarde misschien enorm serieus genomen zouden worden.
Maar de ellende met de p-waarde als norm is natuurlijk dat wetenschappers – mensen – proberen die waarde op te krikken. Ze nemen bijvoorbeeld meer proefpersonen, of ze sluiten erg afwijkende proefpersonen uit of een enkeling verzint misschien wat data. Ik zou hier een hele lijst misstanden kunnen noemen, maar het punt is steeds: de p-waarde is het doel geworden in plaats van de waarheidsvinding. Einde wetenschap.
En dat is wat die onderzoekers van dat manifest dwars zit. Het gaat ze om misbruik, verkeerd gebruik en onbegrip; waardoor waardevolle bevindingen verloren gaan en waardeloze bevindingen enorm belangrijk gevonden worden. Daarom stellen ze voor om de p-waarde-norm los te laten en de p-waarde weer een bescheidener plek te geven naast datgene waar het écht om draait: het effect en de grootte daarvan.
Mijn steun hebben ze: dat moge duidelijk zijn, maar of het kansrijk is durf ik te betwijfelen. Ik begin te ontdekken dat normen makkelijker ontstaan dan verdwijnen. Natuurlijk is de eerste stap om je ertegen uit te spreken. Maar dan begint de lange, lange weg om de praktijk te veranderen. Of deze wetenschappers daar zo goed in zijn als in zich uitspreken? We gaan het zien.
Meer lezen?
Ik schreef al eens hoe enorm overschat de IQ test is en wat daar de gevolgen van zijn. Meer in het algemeen stelde ik vragen bij een doorgedreven vorm van empirisme in waarheidsinjecties. Het vergelijken van groepen (mannen en vrouwen bijvoorbeeld) stelde ik aan de kaak in groepsidentificaties en in eerlijk vergelijken.
Sanne Blauw besprak op de Correspondent op heldere manier wat de p-waarde is en waarom wetenschappers hem willen afschaffen. Het oorspronkelijke Nature artikel vind je hier.
Pingback: Indicatorisme | Kennis in Actie