Indicatorisme

Mijn moeder maakte er nogal een punt van dat je appels niet met peren kunt vergelijken. Nu is het lastig om een gezegde te bedenken dat ze niet regelmatig aanhaalt, maar serieus: appels en peren? Appels komen eerder in het alfabet dan peren, ze hebben een rondere vorm en ze zijn vaak zuurder. Hoppa, drie vergelijkingen in één zin.

Tja.., zul je zeggen. Het was misschien niet direct haar bedoeling om duidelijk te maken dat het niet kán,maar meer dat het niet altijd zinvol is. Als dat zo is, heeft ze wel een punt. Misschien kunnen we daar in de samenleving iets van leren. Toon me één manager die bij de presentatie van een nieuw dashboard met managementinformatie roept dat hij het overzicht niet wil – omdat hij, nog zo’n gezegde, niet iedereen over één kam wil scheren.

Waarom zouden we eigenlijk gezegden hebben die ons waarschuwen tegen het al te makkelijk vergelijken van -nou ja- onvergelijkbare grootheden? Was er ergens in het verleden een eerdere golf van neoliberalisme waarin alles wat meetbaar was waarde had – en al het andere niet? Zijn deze gezegden misschien een antwoord op een soort middeleeuwse toeslagenaffaire?

Jammer genoeg geeft Berend van der Kolk daar geen antwoord op in: De meetmaatschappij, waarom we alles meten en wat dat met ons doet. Hij lijkt al dat meten en vergelijken als iets moderns te zien dat misschien met Margaret Thatcher is begonnen, maar niet meteen iets wat – min of meer – intrinsiek is aan onze menselijke natuur, of als geworteld in oude menselijke culturen.

Goed, het is de laatste tijd ook wel een beetje doorgeslagen, al dat gemeet. Van der Kolk vond er het woord ‘indicatorisme’ voor uit. Hij stelt dat we tegenwoordig alles – van de stand van de economie tot de kleur van het truitje van de buurvrouw – proberen te vangen in meetbare indicatoren. Het probleem is dat we daardoor alleen maar naar de scores van die indicatoren kijken, en niet meer naar hoe de dingen werkelijk zijn

Van der Kolk, wiens boekje goed te vergelijken is met: Het best verkochte boek ooit, met deze titel van Sanne Blauw, bekritiseert deze neiging om alles meetbaar te willen maken. Niet alleen omdat cijfers niet ‘objectief’ zijn, maar vooral omdat ze ons gedrag negatief beïnvloeden.

Volgens Van der Kolk zijn er vijf dingen die we met cijfers doen die niet deugen. Allemaal komen ze er op neer dat voor mensen die cijfers als basis van hun beoordeling – van zichzelf of van anderen – gebruiken, de cijfers al snel een doel op zich worden.

Volgens Van der Kolk begaan werknemers die onder een sterk indicatorregime werken vijf vergissingen:

  1. Focus op eenvoudig te verbeteren indicatoren: Ze richten zich op taken die snel en gemakkelijk de cijfers verbeteren, zoals het uitvoeren van routinematige taken die weinig tijd kosten.
  2. Vermijden van moeilijke taken: Ze mijden taken die slecht scoren op de indicatoren, zoals het helpen van klanten met complexe of tijdrovende problemen.
  3. Korte-termijngerichtheid: Ze richten zich op directe resultaten die snel een indicator verbeteren, ten koste van langetermijndoelen.
  4. Negeren van niet-gemeten aspecten: Ze negeren taken die niet in een indicator zijn opgenomen, zoals het helpen van klanten met problemen die niet gemeten worden door het management.
  5. Manipulatie of fraude: Ze passen hun rapportages aan om de indicatoren te verbeteren, zelfs als dit niet overeenkomt met de werkelijke situatie.

Nou… Als we er echt zulke slechte mensen van worden, is het toch urgent om de vraag waarom we in de moderne samenleving eigenlijk zoveel met indicatoren werken, te beantwoorden. In de basis is dat niet moeilijk. Indicatoren worden gebruikt om op kwaliteit te sturen. Daar maken we vaak dankbaar gebruik van. Misschien worden we slechten mensen van al dat werken met indicatoren, maar ik ben ook wel blij dat elke stekker in elk stopcontact past, dat rot fruit niet in de winkel ligt en dat de NS een boete krijgt als er te weinig treinen op tijd rijden.

Het probleem is misschien niet zozeer het gebruik van indicatoren, maar het doorgeslagen gebruik ervan. Je zou hopen dat Van der Kolk daar iets over zegt. Wanneer is het te weinig, wanneer is het goed genoeg, vanaf wanneer slaat het door? Jammer genoeg gaat het daar in De Meetmaatschappij nauwelijks over. Hoewel Van der Kolk nuttige tips geeft voor verstandig omgaan met indicatoren—zoals het ‘met mate’ meten, het gezamenlijk opstellen van indicatoren en het rekening houden met de context – mis ik scherpte op de vraag hoe we kunnen herkennen dat indicatoren hun doel voorbij schieten.

Zou het niet geweldig zijn als we kunnen herkennen wanneer gebruik van indicatoren nog tot verbetering leidt en wanneer het teveel schade geeft? Als mensen zelf een sterk gevoel van kwaliteit hebben en geen blinde vlekken vertonen, zijn indicatoren misschien niet nodig; als er een hoge mate van standaardisering vereist is, kunnen ze juist wel waardevol zijn. Wat mij betreft komt Van der Kolk binnenkort met een vervolg waarin hij deze tienduizend euro vraag ook beantwoord!


Meer lezen?
Over de grootste twee excessen van de meetmaatschappij schreef ik al eens blogjes. In IQ bespreek ik hoe we onze hele samenleving inrichten rondom een meting van iets dat niet te meten is: intelligentie. In Peilingen ga ik in op onze worsteling om peilingen te zien voor wat ze zijn: matige voorspellingen van de verkiezingsuitslag. In Significantie bespreek ik de kritiek op de wetenschappelijke norm van statistische significantie.

De meetmaatschappij wordt ook steeds meer geautomatiseerd. Waarom ik daar geen voorstander van ben beschrijf ik in Computerbesluit.

Significantie

Ik zou er een serie van kunnen maken. Het plot gaat ongeveer zo. Onderzoeker (m/v) wil grip krijgen op een probleem. De onderzoeker ontwikkelt een meetinstrument. Met succes: de ontwikkelde maat blijkt een prima middel om een beetje meer grip te krijgen op het probleem.

Maar dan gaat het mis omdat het te goed gaat. Veel andere onderzoekers willen ook graag meer grip krijgen op het probleem. Iedereen slaat aan het meten. Het instrument en de nieuwe maat worden populair en krijgen veel status. Sluipenderwijs verandert het instrument van gedaante. Ooit was het maar een middel, maar nu wordt het een doel op zich – nee het doel.

Het is een verhaal over hoogmoed en val. Of eigenlijk het verhaal van doctor Frankenstein: die macht over leven en dood wilde – en zodoende iets schiep dat hij niet meer in de hand had. Want een meetinstrument dat een doel op zich is geworden doet gewoonlijk meer kwaad dan goed. Als een uitkomst van een meetinstrument een doel wordt, gaan we de boel zo inrichten dat we hoog scoren op die uitkomst; vaak ten koste van dingen die eigenlijk gewoon belangrijker zijn. We bedenken een lat om de wereld de maat te nemen maar de lat neemt ons de maat.

Eerder schreef ik zo’n verhaal over IQ, maar vandaag is er aanleiding om statistische significantie: ofwel de p-waarde onder de loep te nemen. Die p-waarde wordt veel gebruikt, zo veel dat zo’n 800 wetenschappers een opiniestuk in het wetenschappelijke tijdschrift Nature ondertekenden dat argumenten gaf voor het afschaffen ervan – of tenminste pleitten deze wetenschappers voor een andere omgang met de p-waarde.

Wat gaat hier mis? Die p-waarde is echt heel erg belangrijk. Het gaat feitelijk om een groep wetenschappers die vinden dat het gebruikte wetenschappelijke gereedschap verboden moet worden. Je kan ook lezen: “tuindersvereniging protesteert tegen het gebruik van heggenscharen” of “ANWB pleit voor het afschaffen van wielen”. Niet echt het nieuws dat je verwacht.

Het zit zo. De p-waarde meet de kans dat een wetenschappelijke bevinding toeval kan zijn. Dus de kans dat je per ongeluk bewijs hebt gevonden voor een stelling. Als je de lengte van de jongens en meisjes in de klas meet en je vindt dat de jongens gemiddeld 1,3 cm langer zijn, dan wil je vaak ook weten of dit in alle klassen zo is óf alleen in jouw klas. Er is best een kans dat er in jouw klas toevallig een paar extra lange jongens zaten terwijl dat in andere klassen helemaal niet zo is en jongens dus ook niet gemiddeld langer zijn. Als je die mogelijkheid niet kan uitsluiten, ga je als wetenschapper niet zomaar roepen dat jongens gemiddeld langer zijn dan meisjes.

Daarvoor is dus statistiek uitgevonden. Of een uitkomst van een experiment toeval is, weet je natuurlijk nooit helemaal zeker. Wat je kunt doen, is op basis van het soort meting, het aantal metingen en de spreiding een schatting maken van hoe groot de kans is dat je elders hetzelfde zult vinden: de p-waarde.

Die p-waarde is populair. Of eigenlijk: zij is zò populair dat ze een norm is geworden. Het is knap lastig om nog resultaten te publiceren als de kans dat het toeval is wat je gevonden hebt niet kleiner is dan 5%, of liever nog 1%. Dit geldt zeker in de sociale wetenschappen?

Is dat slecht? Nou ja, misschien. Het bespaart ons zeker een hoop onzinbevindingen die zonder de p-waarde misschien enorm serieus genomen zouden worden.

Maar de ellende met de p-waarde als norm is natuurlijk dat wetenschappers – mensen – proberen die waarde op te krikken. Ze nemen bijvoorbeeld meer proefpersonen, of ze sluiten erg afwijkende proefpersonen uit of een enkeling verzint misschien wat data. Ik zou hier een hele lijst misstanden kunnen noemen, maar het punt is steeds: de p-waarde is het doel geworden in plaats van de waarheidsvinding. Einde wetenschap.

En dat is wat die onderzoekers van dat manifest dwars zit. Het gaat ze om misbruik, verkeerd gebruik en onbegrip; waardoor waardevolle bevindingen verloren gaan en waardeloze bevindingen enorm belangrijk gevonden worden. Daarom stellen ze voor om de p-waarde-norm los te laten en de p-waarde weer een bescheidener plek te geven naast datgene waar het écht om draait: het effect en de grootte daarvan.

Mijn steun hebben ze: dat moge duidelijk zijn, maar of het kansrijk is durf ik te betwijfelen. Ik begin te ontdekken dat normen makkelijker ontstaan dan verdwijnen. Natuurlijk is de eerste stap om je ertegen uit te spreken. Maar dan begint de lange, lange weg om de praktijk te veranderen. Of deze wetenschappers daar zo goed in zijn als in zich uitspreken? We gaan het zien.

Meer lezen?

Ik schreef al eens hoe enorm overschat de IQ test is en wat daar de gevolgen van zijn. Meer in het algemeen stelde ik vragen bij een doorgedreven vorm van empirisme in waarheidsinjecties. Het vergelijken van groepen (mannen en vrouwen bijvoorbeeld) stelde ik aan de kaak in groepsidentificaties en in eerlijk vergelijken.

Sanne Blauw besprak op de Correspondent op heldere manier wat de p-waarde is en waarom wetenschappers hem willen afschaffen. Het oorspronkelijke Nature artikel vind je hier.