Significantie

Ik zou er een serie van kunnen maken. Het plot gaat ongeveer zo. Onderzoeker (m/v) wil grip krijgen op een probleem. De onderzoeker ontwikkelt een meetinstrument. Met succes: de ontwikkelde maat blijkt een prima middel om een beetje meer grip te krijgen op het probleem.

Maar dan gaat het mis omdat het tè goed gaat. Veel andere onderzoekers willen ook graag meer grip krijgen op het probleem. Iederen slaat aan het meten. Het instrument en de nieuwe maat worden populair en krijgen veel status. Sluipenderwijs verandert het instrument van gedaante. Ooit was het maar een middel, maar nu wordt het een doel op zich – nee hèt doel.

Het is een verhaal over hoogmoed en val. Of eigenlijk het verhaal van doctor Frankenstein, die macht over leven en dood wou en zodoende iets schiep dat hij niet meer in de hand had. Want een meetinstrument dat een doel op zich is geworden doet gewoonlijk meer kwaad dan goed. Als een uitkomst van een meetinstrument een doel wordt, gaan we de boel zo inrichten dat we hoog scoren op die uitkomst; vaak ten koste van dingen die nuchter beschouwd belangrijker zijn. We bedenken een lat om de wereld de maat te nemen maar de lat neemt ons de maat.

Eerder schreef ik zo’n verhaal over IQ, maar vandaag is er aanleiding statistische significantie: ofwel de p-waarde onder de loep te nemen. Die p-waarde wordt veel gebruikt, zo veel dat zo’n 800 wetenschappers een opiniestuk in het wetenschappelijke tijdschrift Nature ondertekenden dat pleitte voor het afschaffen ervan – of tenminste pleitten ze voor een andere omgang met de p-waarde.

Wat gaat hier mis? Die p-waarde is echt heel erg belangrijk. Het gaat feitelijk om een groep wetenschappers die er voor pleiten om het meest gebruikte wetenschappelijke gereedschap af te schaffen. Je kan ook lezen: “tuindersvereniging protesteert tegen het gebruik van heggescharen” of “ANWB pleit voor het afschaffen van wielen”. Niet echt het nieuws dat je verwacht.

De p-waarde meet de kans dat een wetenschappelijke bevinding toeval kan zijn. De kans op kans. Als je de lengte van de jongens in de klas meet en de lengte van de meisjes en je vindt dat de jongens gemiddeld 1,3 cm langer zijn, dan wil je vaak ook weten of dit in alle klassen zo is óf alleen in jouw klas. Er is best een kans dat er in jouw klas toevallig een paar extra lange jongens zaten terwijl dat in andere klassen helemaal niet zo is en jongens dus ook niet gemiddeld langer zijn. Als je die mogelijkheid niet kan uitsluiten ga je niet zomaar roepen dat jongens gemiddeld langer zijn dan meisjes.

Daarvoor is dus statistiek uitgevonden. Of een uitkomst van een experiment toeval is weet je natuurlijk nooit helemaal zeker, maar op basis van het soort meting, hoeveel metingen je gedaan hebt en de spreiding kan je een aardige schatting maken over of de kans groot of klein is dat je elders hetzelfde zal vinden: de p-waarde.

Die p-waarde is populair. Of eigenlijk: zij is zò populair dat ze een norm is geworden. Het is knap lastig om nog resultaten te publiceren als de kans dat het toeval is wat je gevonden hebt niet kleiner is dan 5%, of liever nog 1%.  Zeker als je een sociaal wetenschapper bent.

Is dat slecht? Nou misschien. Het bespaart ons zeker van een hoop onzinbevindingen die zonder de p-waarde misschien enorm serieus genomen zouden worden.

Maar, de ellende met de p-waarde als norm is natuurlijk dat wetenschappers – mensen – proberen die waarde op te krikken. Ze nemen meer proefpersonen, ze sluiten erg afwijkende proefpersonen uit, een enkeling verzint misschien wat data. Ik zou hier een hele lijst misstanden kunnen noemen, maar het punt is steeds: de p-waarde is het doel geworden in plaats van de waarheidsvinding. Einde wetenschap.

En dat is wat die onderzoekers van dat manifest dwars zit. Misbruik, verkeerd gebruik en onbegrip waardoor waardevolle bevindingen verloren gaan en waardeloze bevindingen enorm belangrijk gevonden worden. Daarom stellen ze voor om de p-waarde-norm los te laten en de p-waarde weer een bescheidener plek te geven naast datgene waar het écht om draait: het effect en de grootte daarvan.

Mijn steun hebben ze: dat moge duidelijk zijn, maar of het kansrijk is durf ik te betwijfelen. Ik begin te ontdekken dat normen makkelijker ontstaan dan dat ze verdwijnen. Natuurlijk is je er tegen uitspreken het begin: maar dan begint de lange, lange weg om de praktijk te veranderen. Of deze wetenschappers daar zo goed in zijn als in zich uitspreken? We gaan het zien.

Meer lezen?

Ik schreef al eens hoe enorm overschat de IQ test is en wat daar de gevolgen van zijn. Meer in het algemeen stelde ik vragen bij een doorgedreven vorm van empirisme in waarheidsinjecties. Het vergelijken van groepen (mannen en vrouwen bijvoorbeeld) stelde ik aan de kaak in groepsidentificaties en in eerlijk vergelijken.

Sanne Blauw besprak op de Correspondent op heldere manier wat de p-waarde is en waarom wetenschappers hem willen afschaffen. Het oorspronkelijke Nature artikel vind je hier.

Plaats een reactie