In het ruim honderd jaar oude verhaal Het apenpootje van W.W. Jacobs mag de eigenaar van een gemummificeerd apenpootje drie wensen doen. Een man vraagt tweehonderd dollar om zijn hypotheek af te lossen. Dat bedrag krijgt hij, maar wel als smartengeld voor zijn geliefde zoon die op gruwelijke wijze verongelukt. De andere twee wensen gaan niet veel beter, want het apenpootje blijkt vervloekt – mensen moeten zich namelijk niet bemoeien met hun lot.
Ik ontdekte Het apenpootje via een blogpost over kunstmatige intelligentiesystemen die niet doen wat de bedoeling is. Vorige week schreef Laurens Verhagen in Sir Edmund een lang stuk over hoe computersystemen onbedoeld allerlei vooroordelen overnemen uit de trainingsgegevens die mensen erin stoppen. Kunstmatige intelligentie-onderzoeker Victoria Krakovna verzamelt op haar blog voorbeelden van een andere categorie ongewild gedrag: systemen die een oplossing vinden die letterlijk genomen keurig aan de opdracht voldoet, maar totaal niet is wat de menselijke ontwerper bedoelde.
Neem bijvoorbeeld de robotarm die moest leren om een pannenkoek vanuit een pan op een bord te werpen. Als eerste stap programmeerde de maker de arm zo, dat een sessie eindigde als de pannenkoek op de grond viel en de robot punten verdiende voor de tijd dat de sessie duurde. Het doel was om zoveel mogelijk punten te halen. Het idee was dat de robot de pannenkoek daardoor lang in de pan zou houden. Helaas: het resultaat was dat de robotarm de pannenkoek zo ver mogelijk weggooide, om de tijd in de lucht te maximaliseren.
De lijst van Krakovna staat vol met dit soort heerlijke voorbeelden. Een robotarm die een blokje op een gemarkeerde plek op een tafel moest zetten, bereikte dit door de complete tafel te verplaatsen. Een programma dat zijn eigen antwoord moest vergelijken met het juiste antwoord in een tekstbestand, verwijderde vrolijk dat antwoordbestand. Daarna hoefde het verder niets te doen, want het juiste antwoord was nu immers ‘niets’. Kunstmatige intelligentie die moest leren hoe ze een strategisch computerspel kon winnen, ontdekte dat het soms meer punten opleverde om het spel te laten crashen. Dus verzon ze allerlei trucs om het spel te laten vastlopen.
Ik herken mezelf heel erg in deze computersystemen. Bij spelletjes zoek ik ook graag naar manieren om te winnen die technisch gezien mogen volgens de regels, maar duidelijk niet de bedoeling zijn. Ik ben ook wel eens gebeld door de producent van een televisiequiz die overwoog een spelregel te veranderen. Voor de zekerheid wilde hij even vragen wat ik dan zou doen als kandidaat. Na even denken kwam ik met een bloedirritante strategie, waarop de producent in kwestie besloot om de regel dan maar te houden zoals hij was.
Onhandig gemaakte regels zijn het probleem bij al die voorbeelden van ‘verkeerd’ gedrag van computersystemen. De echte fout zit natuurlijk bij de mensen die de doelen en beloningen onhandig formuleren. Een computersysteem gaat niet, zoals een Ionica zou doen, bewust de regels verkeerd interpreteren om te winnen. Dus hoe moet je dit gedrag dan noemen? In de reacties onder de blog kwam ene Alex Foster met de schitterende suggestie: apenpootjes. Naar dat verhaal van meer dan honderd jaar geleden. Als je wensen totaal verkeerd geïnterpreteerd kunnen worden, dan is het de vraag of het verstandig is om een wens te doen.
Deze column verscheen eerder in de Volkskrant.