Uit de kast door een algoritme
In nieuw onderzoek blijkt een machine learning algoritme aan de hand van foto’s met 91% zekerheid te kunnen voorspellen of iemand homoseksueel is. Het onderzoek is te klein om definitief te concluderen dat dit een alom betrouwbare methode is, maar de mogelijkheid geeft reden tot nadenken. We gaan een nieuw tijdperk in, waar mogelijk dingen over ons bekend worden die we liever niet met de wereld delen. En deze nieuw verworven informatie kan gevaren met zich meebrengen. Neem bijvoorbeeld één van de landen waar homoseksualiteit helaas nog strafbaar is: een algoritme dat iemands seksuele oriëntatie kan vaststellen zou in dit soort landen letterlijk levensgevaarlijk kunnen zijn. De dingen die data over je kunnen vertellen kunnen persoonlijk, privé, gevaarlijk, en niet onbelangrijk: onjuist zijn.
Dit zorgt voor twee problemen. Allereerst: zijn de methodes die we gebruiken om dit soort zaken te voorspellen überhaupt wel objectief en effectief? De methode is gestoeld op data, zeker waar, maar welke data wordt meegenomen en met welke maatstaf effectiviteit wordt gemeten hebben een wezenlijke invloed op de uitkomst van het algoritme. Zo kunnen we onbewust onze bias meegeven aan modellen waar we van uitgaan dat ze objectieve waarheden verkondigen. Buiten dat kan je je natuurlijk afvragen of het terecht is om, als blijkt dat ik 99% kans heb om een zanger-Rinus fan te zijn, mij maar te pas en te onpas zanger-Rinus reclames voor te schotelen. Ik kan namelijk prima bij die 1% horen, en dan word ik wellicht ongewild in een oeke-oeke-oeke-hokje geplaatst waar ik niet thuishoor. Maar zelfs al zijn de algoritmes daadwerkelijk objectief en effectief, willen we wel handelen naar wat de data ons vertelt?
Zo komen we aan bij het tweede probleem: bij geaardheid hoeft het natuurlijk niet te stoppen. Stel dat de data ons vertelt dat jonge mannen doorgaans meer schade maken in het verkeer, mag je hen dan meer laten betalen voor een verzekering? En als dat prima is, wat als de data je vertelt dat zwarte gezinnen gemiddeld minder vaak hun hypotheek kunnen betalen? Wat doen we dan, geen huizen meer verschaffen? Als er één methode is die profiled is het machine learning wel: het leert uit de data wat de kenmerken zijn van een overtreder en geeft de kans aan dat het individu dat ter sprake staat dat ook is. En als alle andere mensen die op mij lijken nou net allemaal notoire naaktlopers zijn, heb ik straks een preventief straatverbod aan m’n ontbrekende broek hangen.
Leren uit data is te gek, maar misschien is het wel tijd om eens een goede discussie te hebben over welke data precies gebruikt mag worden, en in welke mate dat op persoonlijk vlak voor- of tegen je mag worden gebruikt. Vóórdat de hele wereld ziet dat ik de aanvoerder van de Rinus-fanclub ben, graag.