Sommige algoritmes zijn een gevaar voor iedereen
Recentelijk stond in de NRC een artikel over het probleem van algoritmisch etnisch profileren. Dit kwam ter sprake in context van fraude bestrijding bij de overheid. Ik heb altijd dubbele gevoelens als het aankomt op dit soort zaken. Niet omdat ik etnisch profileren toejuich, maar eerder omdat het vaak geschreven wordt door niet-techneuten en dat veroorzaakt problemen. Laat ik een opmerking maken die men misschien niet graag wilt horen: de strijd tegen discriminatie gaat niet verholpen worden door het weglaten van bepaalde data of het rechttrekken van de uitkomsten. De reden is eigenlijk heel simpel: iemand is altijd de dupe van automatische besluitvorming.
Vanuit het perspectief van de techneut beseffen we al gauw dat dataverwerking aan de hand van labeltjes (zoals gender, leeftijd, huidskleur) af te leiden zijn aan nevenverwanten. Denk bijvoorbeeld aan aankoop gedrag, geografische locatie, of werkervaring. Het is goed mogelijk dat een man een jurk koopt, maar als iemand’s aankoop geschiedenis vol staat met jurken kun je wel statistische waarschijnlijkheden eruit afleiden: bijvoorbeeld dat het waarschijnlijk om een vrouw gaat. Iets dichter bij huis kun je denken aan werkervaring, een meisje van twintig heeft geen twintig jaar werkervaring, dus als je iemand zoekt met veel werkervaring zoek je indirect ook op leeftijd. Het niet aan je dataset toevoegen van bepaalde omstreden factoren (zoals gender, leeftijd en huidskleur) betekent dus niet dat deze factoren niet meer meetellen omdat ze via correlatie alsnog uit de dataset naar voren kunnen komen.
Een alternatief op bepaalde data weglaten is het rechttrekken van de uitkomst. In plaats van weglaten, corrigeren we het algoritme als het een oneerlijke keuze maakt aan de hand van gevoelige kenmerken. Dit is op zichzelf een politieke keuze en een logische – behandel mensen hetzelfde in dezelfde context. Maar hoe die context bepaald en gedefinieerd wordt en is op zichzelf ook weer politiek. In eerste opzicht klinkt het moreel nastrevenswaardig, maar het rechttrekken van uitkomsten zorgt ook voor problemen. Dan zijn andere groepen namelijk de dupe.
Veel AI-algoritmes doen aan besluitvorming, bijvoorbeeld een voorsortering van CV’s of het classificeren van kanker. Doordat er dermate veel ongestructureerde data is die gestructureerd wordt door een algoritme krijgen we te maken met besluitvorming. Als je van te voren een algoritme een selectie laat maken door een algoritme, dan besluit die in zekere mate dus al iets. Veelal besluit men dat dit tot ongewenste resultaten leidt. Denk bijvoorbeeld aan de toeslagenaffaire. Die was naast het falen van de ambtelijke top ook veroorzaakt door een algoritme dat aan etnisch profileren deed (afkomst). Het idee van het rechttrekken is bedoeld om ervoor te zorgen dat dit niet meer kan gebeuren. Maar, waar selecteert de machine dan op?
Stel nou, we passen alles aan en trekken alles recht op basis van gender, huidskleur, leeftijd, en andere gevoelige data. Wat leert de machine dan? Misschien wel dat als je geen sport op je CV zet dat je dan niet door de screening moet komen, of dat als je een bepaalde lengte hebt je niet geschikt bent. We hebben nu helder gedefinieerde groepen die de dupe zijn en dat is terecht een probleem. Indien we de uitkomsten aanpassen doen we eigenlijk het volgende: de groep die nu de dupe is wordt ingewisseld voor een andere. Nu is het aan de hand van gender en huidskleur, maar als het algoritme aan de hand van data moet achterhalen wie wel en niet geschikt is, doet die dat met de spullen die hij voor handen heeft. De machine moet ergens een grens trekken. Zonder de gevoelige factoren komen er dus totaal andere vaak net zo vreemde dingen aan bod zoals sport. De werkelijk onderliggende vraag bij besluitvorming moet dus zijn: Hoe trek je het recht zodanig dat de juiste mensen op de juiste plekken komen? Neem bijvoorbeeld sport, waarom heb je geen recht op een baan als je niet van sporten houd? Misschien is het te rechtvaardigen bij een functie als sportdocent, maar is het dat bij een hypotheekadviseur ook? Indien we de uitkomsten proberen recht te trekken stuiten we eigenlijk op het feit dat automatisch besluitvorming een te harde selectie maakt van wie wel en niet geschikt is met te weinig nuance. Misschien moeten we ons ook afvragen of we werkelijk aan de hand data kunnen bepalen wie een baan mag krijgen en wie de juiste persoon is.
De mensen die strijden tegen algoritmische discriminatie hebben gelijk: het is hartstikke verkeerd als je mede door een algoritme de toegang tot de samenleving wordt ontzegd, maar de oplossing is niet partijdig. Het ‘rechttrekken’ komt neer op een andere groep duperen. En daarom kun je en moet je ook opstaan voor het werkelijk probleem: we kunnen niet op ieder probleem AI loslaten, simpelweg omdat sommige keuzes niet acceptabel zijn omdat ze arbitrair zijn; zoals sortering op je liefde voor sport of een andere vreemd kenmerk. Dat is net zo onacceptabel als het is om dat te doen aan de hand van huidskleur of gender.
In een wereld waar we zaken (zoals banen) beginnen te verdelen via algoritmes moeten we beseffen dat jagen op discriminerende algoritmes het probleem niet zal verhelpen. Pas bij een totale digitale beeldenstorm zal men zichzelf weer op de kaart kunnen zetten en zich kunnen ontfermen over de keuzevrijheid die ze eeuwen lang heeft gehad. Ik ben me bewust dat daarmee het probleem van discriminatie niet wordt verholpen, maar laten we in ieder geval duiden dat algoritmes de wereld geen eerlijkere plek zullen maken.