Ethisch leren rijden
Elon Musk voorspelt zelfrijdende taxi’s in 2020. Auto’s die zelfstandig rondrijden zijn al een tijd geen fantasie meer: we hebben allemaal wel eens beelden gezien van Tesla’s die zonder sturing door het verkeer navigeren. Maar hoe maak je zoiets? Hoe leer je een auto zelfstandig rijden?
We beginnen simpel: wat kan de auto allemaal? Gas en remmen, aan en uit, links en rechts sturen, verlichting, ruitenwissers en claxoneren. Al deze opties programmeren we in zijn systeem. Vervolgens moeten we de auto natuurlijk nog vertellen wat hij met al die opties moet bereiken; wat zijn doel is. Zo’n doel verzinnen is an sich niet zo ingewikkeld: ik ben nu hier en ik wil graag daar heen. Maar met alleen een doel komt de auto er waarschijnlijk niet. Want op elke locatie die níet het doel is zal de auto de vraag stellen ‘heb ik m’n doel bereikt?’. Waarop een strenge stem dan ‘nee’ antwoord, en zo krijgen we voor je het weet een depressieve auto. Wat we dus nodig hebben is een functie die de auto laat weten wanneer hij op de goede weg zit, en wanneer het niet zo goed gaat. Een simpele functie zoals: hoe dichter bij je doel je komt hoe meer punten je krijgt. Op deze manier belonen heet reïnforcement learning.
Goed, we hebben een simpele beloningsfunctie. Maar de auto heeft verder geen instructies gekregen over welke handelingen hij moet ondernemen om het doel te bereiken. Hij zal dus beginnen met de ingeprogrammeerde handelingen in het wilde weg in willekeurige volgorde toe te passen. Aan het begin leidt dat er waarschijnlijk toe dat de auto als een debiel staat te toeteren en met de ruitenwissers gaat spelen, maar op een gegeven moment kan het zomaar zo zijn dat de auto een stukje de goede kant op rijdt. En zie hier: de score gaat omhoog! Te gek! Tot je auto een bloedig spoor door de nabijgelegen kinderboerderij trekt, omdat die nou eenmaal op de ‘kortste route’ lag. Dit is één van de redenen waarom het initiële trainen van dit soort auto’s ook in simulaties gebeurt: het is sociaal niet gewenst je algoritme spelenderwijs te leren dat slachtoffers minpunten opleveren. Bovendien heeft de virtuele wereld als voordeel dat je in korte tijd miljoenen testritten kan houden zonder dat je een meter weg hebt gezien.
Een wat complexere beloningsfunctie dan ‘dichter bij het doel is beter’ lijkt dus op zijn plaats. En dus wordt ons opeens heel concreet gevraagd wat succesvol rijden nu eigenlijk is. Het blijkt dat we naast ‘op locatie aankomen’ nog veel meer doelen hebben: we komen zelf graag heelhuids aan, overtreden liever geen verkeersregels, zijn er natuurlijk graag snel maar, we maken als het even kan geen slachtoffers onderweg, maar misschien maken we wel een uitzondering voor kleine diertjes als het ontwijken daarvan gevaar voor ons zelf oplevert, enzovoorts, enzovoorts. Al deze doelen moeten we gedetailleerd in het systeem van de auto stoppen. En gedetailleerd is ook echt gedetailleerd. Als de keuze tussen twee mensen gaat, wie rijd je dan aan? Hoe ver gaat zelfpreservatie? Mag je ruitenwisservloeistof blijven spuiten als iemand bumperkleeft?
Dit zijn overigens vragen die niet volledig aan de makers van dit soort auto’s voorbij gaan: er wordt serieus nagedacht over de ethische implicaties van AI in ons leven. Maar alle ethics commisions, EU guidelines en advisory boards (die er een week na hun start weer mee ophouden) ten spijt: wat wel en niet ethisch verantwoord is, is geen vast gegeven. Zouden we de auto dat misschien ook kunnen laten leren? Als we genoeg variabelen verzinnen die de ethische performance van de auto’s meten kan de auto leren welk gedrag het meest ethisch verantwoord is, en omdat hij blijft leren past hij zich keurig aan aan veranderende tijden! Natuurlijk blijft het zo dat mensen het dan eens moeten worden hoe we ‘ethisch presteren’ meten, en krijgen we de wat dubieuze situatie dat we zelfrijdende auto’s eens lekker op de weg laten testen wat die score doet dalen en stijgen, maar dat is dan maar zo. Ik zou de eerste paar weken misschien wel even binnen blijven.