Begin met de juiste vragen
Als je wilt weten of iemand Frans Bauer in zijn of haar Spotify playlist heeft zitten, kan je beginnen met kijken naar de de aan- of afwezigheid van een ‘Live Laugh Love’ bordje in de woonkamer. Je kan verder gaan door te kijken of ze guitige tegelwijsheden in Delfts blauw op de wc hebben hebben hangen, of er een deurmat ligt met ‘Home is where the Heart is’ en of er een Chihuahua met een roze onesie en diamanten hoedje op een bankstel zit te beven.
Wat je in zo’n geval aan het doen bent, is een voorspelmodel bouwen. Dan kan je aan de hand van de aan- of afwezigheid van bepaalde factoren een bepaalde vraag beantwoorden. Als je goed wil beginnen, zijn de eerste vragen die je jezelf stelt: wat wil ik weten, en hoe kom ik dat te weten? In het bovenstaande voorbeeld stellen we de vraag: heeft iemand Frans Bauer in zijn of haar Spotify playlist? En dat denken we te weten te komen door te kijken of iemand andere symptomen van een algeheel gebrek aan goede smaak heeft. Maar zijn dat ook echt de kenmerken die een Frans Bauer-luisteraar kenmerken, of generaliseren we ons zo een veel grotere groep mensen in? Met bovenstaande kenmerken zullen we namelijk veel meer mensen vinden: mensen die Chicken Tonight kopen, mensen die lachen om Toren C, mensen die ananas op hun pizza willen en mensen die aan surpriseparty’s doen. Is ‘heeft deze persoon wansmaak’ de vraag die we willen beantwoorden, of is het slechts een overlappend feit (causatie versus correlatie)?
Nu is het je wellicht te vergeven als je denkt ‘ik zie het belang niet zo in van iemands al dan niet ontbrekende voorliefde voor kutmuziek’, maar dit principe steekt ook bij belangrijkere zaken z’n lelijke kale hoofdje op. Stel dat je als belastingdienst wilt gaan voorspellen welke mensen een grote kans hebben om fraude te plegen, en afkomst blijkt een heel fijne voorspeller te zijn. Een slechte of luie onderzoeker zou dan kunnen denken: ‘Mooi, klus geklaard, hop naar huis!’ Maar eigenlijk moet ‘ie zich natuurlijk afvragen: is mijn voorspeller (afkomst) de verklarende factor op mijn vraag (gaat iemand fraude plegen) of is het slechts een overlappend feit? Het is op zichzelf niet verkeerd om afkomst mee te nemen, maar als het een factor blijkt te zijn is dat pas het begin: tenzij je daadwerkelijk gelooft dat mensen met een andere afkomst inherent frauduleus zijn is je zoektocht pas begonnen, en kan je gaan kijken wat de onderliggende échte factoren zijn. (zoals armoede, plaats in de maatschappij, wantrouwen etc.)
Er is niets kwaadaardigs aan algoritmes, maar ze hebben wel het nadeel dat ze door ons mensen worden ontworpen. En als we onze aannames, onze vooroordelen of zelfs onze luiheid of onzorgvuldigheid vervolgens inbakken in een redeneermachine die altijd netjes die regeltjes volgt, is het best belangrijk om even goed na te denken welke vragen we nu eigenlijk willen stellen.
Aan het begin van dit jaar een themamaand over nieuwe beginnen. De verschillende experts van Kaf hun licht schijnen over iets starten, beginnen, en soms weer opnieuw beginnen. Hoe werkt beginnen, waarom benoemen we het en wat is het effect van iets beginnen?