A Priori

Ik was laatst in een supermarkt en moest kiezen tussen grapefruits en sinaasappels. Zonder veel nadenken nam ik de grapefruits. Natuurlijk had ik even online kunnen gaan om uit te zoeken welke van de twee gezonder zijn. Of ik had na kunnen gaan hoeveel van beide opties ik het meest gegeten heb in de afgelopen tijd. Of ik had mijn vrouw kunnen appen met de vraag welke zij het lekkerst vind. In al die gevallen had ik meer complete informatie gehad en vermoedelijk een beter besluit genomen. Maar ik deed het niet. Genoeg is genoeg, ook als het om informatie gaat.

Zo gaat het natuurlijk steeds. We nemen verreweg de meeste beslissingen in ons leven met incomplete informatie en daar maken we ons meestal niet druk over. Toch zullen de meesten zeggen dat je beslissingen, als het enigszins kan, moet nemen op basis van de beste informatie die je kunt krijgen. Je moet er niet aan denken dat een dokter zich onvoldoende informeert voor hij een besluit om je te laten opereren of dat een rechter op basis van een half gelezen dossier een straf uitdeelt.

Toch was het juist een berichtje over de rechtspraak – ze willen er algoritmes inzetten om de strafmaat te helpen bepalen – dat voor mij de vraag de vraag opriep of je altijd wel alles moet willen meewegen. Het korte antwoord was nee. Vaak moet je dat niet willen, zeker in de rechtspraak niet.

Vergeef me dat ik om dat toe te lichten er even wat wiskunde bijhaal. Het gaat hier om de wet van Bayes. Thomas Bayes was een Engelse predikant uit de 18e eeuw die de basis legde voor een speciaal soort kansrekening. Hij vroeg zich af hoe je bewijs uit een reeks experimenten mee kon nemen in de kansrekening. Zijn ideeën zijn ook zonder wiskundige basis goed te begrijpen.

Hoe groot is de kans dat er bij jou thuis ingebroken wordt? Er zijn zo’n 45.000 inbraken per jaar in Nederland en zo’n 7,5 miljoen huizen. Dat maakt de kans dat er in een willekeurig huis in Nederland ingebroken wordt zo’n 0,6 procent. Niet erg veel.

Nu zijn er natuurlijk veel redenen te bedenken waarom inbrekers jouw huis sneller zullen uitkiezen. Misschien heb je een hoekhuis, slechte sloten of woon je in een slechte buurt. Als die eigenschappen kun je meewegen in de statistiek. Je kijkt hoeveel vaker er in hoekhuizen ingebroken word, hoeveel vaker in slechte buurten en hoeveel vaker in huizen met slechte sloten en je vermenigvuldigd dit met de algemene kans dat er ergens ingebroken wordt. Misschien kom je dan zelfs wel op 2 of 3 procent uit.

Bayes zou zeggen dat de kans van 0,6 procent dat er in je huis ingebroken wordt de kans vooraf is of de a priori kans. De kans nadat je alle relevante omstandigheden hebt meegewogen is de kans achteraf ofwel de a posteriori kans. Of om de inleiding er nog maar eens bij te halen: a priori zijn sinaasappels even goed als grapefruits, maar als ik meeweeg dat grapefruits iets gezonder zijn, ik ze weinig gegeten heb de laatste tijd en mijn vrouw een voorkeur heeft voor grapefruits winnen ze, a posteriori, de strijd om mijn voorkeur.

De wet van Bayes geeft ons krachtig wiskundig gereedschap om van ruwe inschattingen vooraf, meer verfijnde en precieze inschattingen ‘achteraf’ te maken, door kennis van omstandigheden in te brengen. En dat is precies wat die algoritmen waar de rechtspraak gebruik van wil maken doen.

Stel dat je voor de rechter komt vanwege een licht vergrijp zoals winkeldiefstal. Om je strafmaat te bepalen weegt de rechter allerlei omstandigheden. Misschien werd je er toe verleid doordat je foute vrienden hebt of misschien omdat in de schulden zit. Misschien denkt de rechter dat er een grote kans op recidive (herhaling) is omdat je het al eens gedaan hebt of misschien verwacht de rechter dat je nu je een keer gepakt bent het niet meer zal doen. De rechter past geen vaste straf toe op een vast vergrijp, maar wikt en weegt omstandigheden.

Dat laatste kan enorm verbeterd worden met de Bayesiaanse wiskunde die die algoritmen gebruiken. Er bestaat al een databank met alle gegevens van verdachten: zijn ze bijvoorbeeld man of vrouw, allochtoon of autochtoon, arm of rijk?; van heel veel rechtszaken uit het verleden is dit bekend. Vervolgens kun je met de wet van Bayes in de hand uitrekenen wat de invloed is van al die eigenschappen op recidive – en zo wiskundig bewijs gebruiken bij het bepalen van de strafmaat voor een allochtone, arme vrouw die iemand beroofd heeft.

Je kan dit natuurlijk zien als een verbetering. De rechter woog omstandigheden al mee bij het bepalen van de strafmaat maar nu is ze in staat dit op een preciezere manier te doen. Je zou het ook als een zorgelijke ontwikkeling kunnen opvatten. Het gebruik van algoritmes het proces mechaniseert dat proces. En de rechter gaat zwaarder tillen aan die aspecten die je kan meten (zoals recidive) en minder aan onmeetbare aspecten (zoals sociale invloed).

Maar, ik hoop dat het voorbeeld ook meer fundamentele vragen oproept. Verdien je als vrouw een lichtere straf omdat andere vrouwen minder vaak opnieuw de fout ingegaan zijn? Of verdien je als allochtoon een zwaardere straf omdat andere allochtonen notoire recidivisten bleken? Als het goed is voelt dat idee niet helemaal goed. Ineens blijkt de weging van individuele omstandigheden af te hangen van allemaal groepslidmaatschappen. Dat gaat tegen het gelijkheidsbeginsel in. Het is klassenjustitie.

Als je als individu voor de rechter staat dan wil je je als individu beoordeeld worden. Maar, vreemd genoeg moet de rechter dan heel terughoudend moet zijn met het wegen van persoonlijke omstandigheden. Want hoewel de rechter niet letterlijk Bayesiaanse wiskunde gebruikt, is het onderliggende denkproces natuurlijk vergelijkbaar. Elke inschatting over een ‘omstandigheid’ is gebaseerd op groepslidmaatschap: andere gevallen waar die ‘omstandigheden’ ook speelden. De paradoxale conclusie is dus dat als je wil dat de rechter je als individu beoordeeld, dat deze je persoonlijke omstandigheden niet mee zou moeten wegen en de rechter juist op basis van onvolledige informatie een besluit kan nemen. Het gelijkheidsbeginsel vraagt eigenlijk om de a priori benadering: vaste straffen voor elk vergrijp.

Meer lezen?
In glazen bol besprak ik het gebruik van algoritmen bij de politie al kritisch. In groepsidentificaties en in eerlijk vergelijken lichte ik de relatie tussen groepslidmaatschappen en individuen al eens door. In IQ en waarheidsinjecties besprak ik al eens wat de impact kan zijn van een overdreven focus op metingen.

Groepsindentificaties

Ik ben een man, docent en skeeleraar. Dit zijn drie brokjes informatie die je kunnen helpen om je een beeld van mij te vormen. Want, stel je voor dat ik dit blogje gestart was met “ik ben vrouw, tandartsassistente en paintballer“? Dan had je je toch een heel ander persoon voorgesteld. Het kan een handige manier zijn om iemand te leren kennen: ontdekken bij welke groepen hij of zij hoort. Zodra je weet dat ik een man ben, kun je datgene wat je van mannen weet op mij toepassen. Niet alles daarvan zal kloppen, maar het meeste wel en dan ben je al weer een stuk verder. Toch is het de moeite waard eens wat beter te kijken naar de werking van dit soort ‘groepsidentificatie’, want we draven er natuurlijk vaak veel te ver mee door.

Mijn favoriete voorbeeld is het verschil tussen mannen en vrouwen, gewoon omdat je dat zo met de paplepel ingegoten krijgt. In tegenstelling tot veel andere jeugdtrauma’s, lukt het ons ook maar niet om er overheen te komen als we ouder worden. Zo kan het zomaar gebeuren dat je een getrouwde man iets hoort zeggen als:

Als mijn vrouw en ik naar Frankrijk gaan, pakt zij de kaart. Daarin zijn we heel atypisch.

De gedachte is hier: vrouwen zijn slecht in kaartlezen dus hoe bijzonder (atypisch) is het wel niet dat mijn vrouw dat wel goed kan? Maar, het antwoord is natuurlijk dat het niet bijzonder is: heel veel vrouwen kunnen goed kaartlezen.

Een plaatje: de bell curve. Stel je voor dat je een manier zou weten om de vaardigheid kaartlezen te meten op een schaal van 0 tot 100. Niet alle vrouwen zouden het natuurlijk even goed doen. Een klein deel van de vrouwen bakt er echt helemaal niets van en scoort tussen de 0 en de 15. Er zijn al heel wat meer vrouwen die tussen de 15 en de 30 scoren en een groot deel van de vrouwen kan heel gemiddeld navigeren, laten we dat op 45 zetten. Er zijn natuurlijk ook vrouwen die bovengemiddeld navigeren, iets minder die heel goed navigeren en maar een paar die het uitzonderlijk goed kunnen. In grafiekvorm ziet dat er zo uit (de curve heeft een beetje de vorm van een bel, vandaar de naam).

bel v

Mooi toch? Voor mannen is het natuurlijk niet anders. Sommige mannen kunnen niet navigeren en zullen het nooit leren ook, een grote groep mannen navigeert heel gemiddeld en een paar kerels zijn er uitzonderlijk goed in. We gaan even mee in het vooroordeel dat mannen beter navigeren en zetten het gemiddelde op 55. Dat ziet er zo uit.

bel v plus m

Ik heb ze meteen maar in één plaatje gezet want dan kunnen we de mannen en vrouwen beter vergelijken. Twee dingen vallen op. Ten eerste zie je dat er inderdaad een verschil is tussen mannen en vrouwen als groep. Anders gezegd gemiddeld gesproken navigeren mannen beter dan vrouwen. De stippellijntjes die het groepsgemiddelde aangeven staan 10 navigatiepunten uit elkaar. Maar als we naar individuen gaan kijken zien we iets heel anders in het plaatje. Er is namelijk bijna overal erg veel overlap. Overal in het plaatje vind je zowel mannen en vrouwen. Kun je bijvoorbeeld aan de navigatiescore aflezen of iemand een man of een vrouw is? Eigenlijk niet. Als je 50 scoort op navigeren is de kans dat je een man of een vrouw bent precies even groot. Zelfs bij een score tegen de 70, waar het verschil het grootst is, doen mannen en vrouwen het nog ongeveer even goed. Het meten van een navigatiescore is uiteindelijk een waardeloze manier om te ontdekken of iemand een man of een vrouw is. Het is dus ook helemaal niet “atypisch” als een vrouw goed kan navigeren.

Het lijkt misschien paradoxaal dat groepen kunnen verschillen zonder dat dat iets zegt over de mensen in de groep, maar het is ook wel te begrijpen. Mensen verschillen gewoon veel. Er zijn er die goed kunnen navigeren en er zijn er die dat slecht kunnen. Als je groepen gaat vergelijken probeer je die individuele verschillen juist weg te denken. Dat doe je door gemiddeldes te meten en dat werkt: als je verschillen tussen alle mensen onderling wegdenkt, dan navigeren mannen iets beter. Maar als je vervolgens met die kennis in handen weer iets wil zeggen over alle mannen en vrouwen, dan moet je eigenlijk die verschillen tussen individuen er weer bijdenken en dat vergeet iedereen. Daardoor doen we vaak alsof iedereen van de groep het gemiddelde heeft. ‘Vrouwen navigeren gemiddeld iets slechter’ wordt zo vanzelf ‘alle vrouwen navigeren slecht’. Onzin natuurlijk. Niemand is het gemiddelde. Ik ben geen gemiddelde man, docent of skeeleraar en er is echt weinig gemiddeld aan mijn tandartsassistente.

Verschillen meten tussen groepen is een populaire bezigheid. Mannen en vrouwen zijn op duizenden aspecten met elkaar vergeleken. Het ironische is dat dat vaak veel moeite kost. Juist omdat mensen onderling zo verschillen is het lastig om verschillen tussen groepen vast te stellen. Op het moment dat het lukt om een verschil te vinden is het meteen groot nieuws: “Met een vernuftige meetwijze hebben we eindelijk aangetoond dat vrouwen gemiddeld net iets vaker dromen van een reis naar de maan”. Kan zo in de krant. Maar juist dit soort vindingen lijken als twee druppels water op de verzonnen versie hierboven. Het verschil tussen de groepen is veel kleiner dan verschillen tussen de leden uit de groep. Dat je in zo’n geval weinig kan met het gevonden verschil wordt voor het gemak maar even vergeten. Het nieuws is het verschil tussen de groepen, niet hoe klein het wel niet is.

Eigenlijk zou het beter zijn als we het pas interessant gingen vinden als het verschil tussen de groepsgemiddelden groter was dan het gemiddelde verschil tussen de individuele groepsleden. Want in die situatie zegt een verschil tussen groepen ook echt iets over het merendeel van de mensen. Maar ja. Dat is best een zware eis. Er blijven dan heel weinig verschillen over. Vrouwen hebben gemiddeld gesproken iets meer curves, mannen kijken iets meer porno. Daar houdt het wel ongeveer op. En met andere groepen is het net zo. Er zijn nauwelijks cultuurverschillen tussen Duitsers en Nederlanders die deze toets overleven. Docenten en tandartsassistenten verschillen vooral op het aantal uur dat ze specifiek in monden kijken of voor groepen studenten staan. En zelf paintballers en skeeleraars zijn grosso modo één pot nat. Alle groepsverschillen die je werkelijk op individuen kan toepassen kennen we al, die hoeven niet meer gemeten. Realistisch, maar saai.

Dus? Dan maar niet meer over groepen praten? Eigenlijk denk ik dat er niet zoveel mis is met groepsidentificatie als je er maar niet in doordraaft. Als je trots bent dat jouw groep iets vaker van maanreizen droomt dan pronk je daar toch mee, ook al herkennen anderen van de groep zich er minder in? En als je je aan een dame voorstelt als skeeleraar, kan de paintballende luisterares misschien niet raden hoe je bent, maar ze kan het je wel vragen. De ingang heb je haar al gegeven. Beschouw groepslidmaatschappen gewoon als licht vermaak. Ga niet eindeloos zitten neuzelen over de volksaard van de Serven, de zogenaamde agressiviteit van moslims of de onhebbelijkheden van mannen of vrouwen. Probeer gewoon zo snel mogelijk om de specifieke persoon die je voor je hebt te leren kennen. Dat is degene die er toe doet, niet de groepen waar hij of zij toe behoord. En als je de moeite neemt iemand echt te leren kennen heb je vaak veel meer gemeen dan je eerst dacht.

Meer lezen?

Dit blogje is de eerste van een tweeluik over het vergelijken van groepen. In mijn volgende blogje eerlijk vergelijken ga ik verder in op de ingewikkeldheden die komen kijken bij het vergelijken van groepen.

Ik schreef natuurlijk ook al eerder over onze meet- en vergelijkcultuur. Ik ben er nog niet uit of dat iets goeds is. Soms blijk ik warm voorstander zoals in waardendragers en eksters. Maar soms ook niet, zoals in dit blogje en in waarheidsinjecties.

Asha ten Broeke geeft in het idee m/v een uitgebreide analyse van veel onderzoek over de verschillen tussen mannen en vrouwen. Zij stelt dat er bij kritische beschouwing van dat onderzoek heel weinig betekenisvolle verschillen over blijven. Dat argument heb ik dus uiteindelijk van haar. Overigens komen de voorbeelden die ik hier gebruik niet uit het boekje, die zijn allemaal verzonnen.