Wat is het wezen van ons brein, en kunnen we dit nabouwen? Het antwoord komt van de combinatie van massale rekenkracht en deeplearningnetwerken. Die vertonen nu staaltjes ‘menselijk begrip’ die lang onhaalbaar leken.

Decennialang wilde het maar niet vlotten met kunstmatige intelligentie. Tekst vertaald door een computer? Een lachertje. Een kaal hoofd onderscheiden van een voetbal? Te hoog gegrepen. Maar met de opkomst van deeplearningnetwerken is het vakgebied in een stroomversnelling geraakt.

De Canadees Yoshua Bengio is een van de pioniers van deep learning, en laat in De illusionist, de vijfde aflevering van The Mind of the Universe, zien hoe zo’n systeem bijschriften bij foto’s maakt. Dat is bijzonder, omdat het echt kijkt wat er op het plaatje staat, en dan iets zegt als: ‘A woman is throwing a frisbee in a park.’ Daar zit ook een zekere creativiteit in: de volgende keer zou het van die foto kunnen zeggen: ‘A person standing on the grass catches a frisbee.’ Soms is immers niet heel duidelijk wat er op een foto gebeurt. En fouten maakt de computer ook nog steeds: dan ziet hij de print op iemands trui aan voor een voorwerp dat die persoon in haar hand heeft.

Ook spectaculair was de demonstratie die Microsoft in 2012 gaf van de eerste livevertaling van gesproken Engels naar gesproken Mandarijn (Chinees) via Skype. En vorig jaar werd Lee Sedol, wereldkampioen in het bordspel Go, kansloos verslagen door AlphaGo van Google Deepmind. Dat overkwam wereldkampioen schaken Gary Kasparov twintig jaar geleden al, maar dat was toen vooral een kwestie van brute rekenkracht.  

Het gewicht van een gezicht

Max Welling, hoogleraar machine learning aan de UvA, noemt drie redenen voor de doorbraak van deep learning. Ten eerste: toch ook brute computerkracht. Een deeplearningnetwerk bouwt een model van een stukje werkelijkheid – bijvoorbeeld: menselijke gezichten – en in dat model zitten ‘gewichten’, knoppen waar het netwerk in de trainingsfase zelf aan draait om de herkenning te optimaliseren. Maar wil het netwerk niet alleen maar Brad Pitt en Angelina Jolie als exemplaren van Homo sapiens herkennen, dan zijn er heel veel knoppen nodig. Google Deepmind heeft nu een netwerk met 139 miljard knoppen. Tot een paar jaar geleden konden computers dat niet aan.

Tweede reden: de vloedgolf aan data. Deeplearningnetwerken hebben dit nodig als trainingsmateriaal. Miljoenen foto’s of tekstpagina’s, of duizenden uren gesproken woord in alle talen. Die waren tien jaar geleden niet beschikbaar, nu pluk je het zomaar van internet.

En ten slotte zijn ook de algoritmes – de ‘spelregels’ van het netwerk – effectiever geworden. ‘Maar dat kun je niet los van elkaar zien,’ stelt Welling. ‘Als je experimenten op een computer doet en je moet telkens een maand wachten, is het heel lastig om te innoveren. Als je maar een uurtje hoeft te wachten, kun je van alles uitproberen.’  

Deeplearningnetwerken zijn een variant op de al langer bestaande neurale netwerken. Ze zijn geïnspireerd door de bouw van de hersenen. Een deeplearningnetwerk bestaat uit tien tot twintig lagen die elk uit een groot aantal cellen bestaan. Onderin komen de ruwe data binnen, bijvoorbeeld één pixel van een foto per cel. De onderste lagen doen iets basaals – bijvoorbeeld randen in het beeld opsporen – en geven die informatie door naar boven. De lagen daarboven sporen dan, zeg, combinaties van randen op die kenmerkend zijn voor bepaalde objecten, zoals een auto of een gezicht.

Zo gaat het steeds verder omhoog, totdat de bovenste laag de gewenste output produceert, bijvoorbeeld een lijst van de objecten die het netwerk van voor naar achter in de foto ‘ziet’.

'Blijkbaar kan een menselijk gezicht op het gezicht van een gorilla lijken. Maar slechts in een context van rassendiscriminatie is dat een belediging.'

Max Welling

Categoriseren

Het leervermogen van het netwerk zit in de verbindingen tussen de cellen. De output van meerdere cellen in een laag wordt samengevoegd en naar een cel één laag hoger doorgegeven, maar elke verbinding heeft een zeker ‘gewicht’, dat aangeeft hoe zwaar de inbreng van een cel is. In de trainingfase krijgt het netwerk talloze voorbeeldfoto’s te zien, met de gewenste output erbij. In het begin staan alle gewichten nog verkeerd, en is het verschil met de gewenste output heel groot. Maar uit dat verschil kan de computer terugrekenen hoe die alle gewichten een beetje de goede kant op kan veranderen. Door deze stap talloze malen te herhalen, komen de gewichten in een stand te staan waarin ze alleen de output ‘hond’ geven als er een hond in beeld is, ook als de afbeelding niet in de trainingsset zit.  

Het is soms bijna wonderbaarlijk hoe goed dit werkt. Hondenrassen als de samojeed lijken sterk op een  wolf, terwijl een samojeed sterk verschilt van een poedel. Toch moeten de samojeed en de poedel samen in de categorie ‘hond’ en de wolf niet.

Dat fouten op dit gebied hoogst gênant kunnen zijn, bleek wel toen GooglePhotos de portretfoto’s van een Afro-Amerikaanse telkens in het bakje ‘gorilla’s’ stopte. Haar vriend twitterde daarover, wat tot een rel leidde en nederige excuses van het Google-team. Maar het is nog niet zo simpel om een deeplearningnetwerk te vertellen dat het sommige foto’s van Afro-Amerikanen niet voor foto’s van gorilla’s aan moet zien. In dit geval was de oplossing om de categorie ‘gorilla’s’ af te schaffen.

Je kunt je trouwens afvragen: doet het systeem hier wel iets fout? Is het niet eerder zo dat deze meer objectieve intelligentie ons confronteert met onze vooroordelen? Blijkbaar kan een menselijk gezicht heel sterk lijken op het gezicht van een gorilla. Maar slechts in een context van rassendiscriminatie is dat een belediging. Misschien is het logischer om foto’s van gezichten met z’n allen in het bakje ‘mensapen’ te stoppen. Apendeskundige Frans de Waal zou er vast geen moeite mee hebben als GooglePhotos zijn gezicht in dezelfde categorie plaatst als de chimpansees die hij al zijn hele leven bestudeert, en die goede bekenden van hem geworden zijn.

'Toch moeten de samojeed en de poedel samen in de categorie ‘hond’ en de wolf niet.'

De machine als inspirator

Op minder beladen terreinen is de autoriteit van de computer al onomstreden. Topspelers bestuderen nu zelfs partijen die AlphaGo tegen zichzelf heeft gespeeld. Dat doen ze niet om beter inzicht te krijgen in AlphaGo of om hem te kunnen verslaan. Ze doen dit om beter inzicht te krijgen in het spel. De machine is hier al de leraar en inspirator van de mens.

Behalve een verdere verbetering van spraakherkenning, vertaling en beeldherkenning verwacht Welling de komende jaren een doorbraak voor deep learning in de medische diagnostiek. Op termijn zal een computer beter zijn in het interpreteren van scans en symptomen dan een arts, en dus met betere diagnoses komen.

Maar is het denkbaar dat een patiënt – en trouwens ook de arts – het accepteert als een computer zegt: ‘Uitgezaaide alvleesklierkanker. Helaas kunnen wij niets meer voor u doen’? Nu al wekken beslissingen door neurale netwerken, bijvoorbeeld over kredietwaardigheid, weerstand, omdat zelfs de programmeurs niet weten hoe zo’n beslissing tot stand komt.

Maar volgens Welling is het onjuist dat een neuraal netwerk een black box is. ‘Ik ben ook een neuraal netwerk, en ik kan ook uitleggen wat ik denk. Dit is geen principieel probleem. Je kunt een neuraal netwerk bijvoorbeeld vragen: waar kijk je naar? We moeten voortaan veel aandacht besteden aan zulke uitleg, want anders zal het niet makkelijk zijn voor mensen om zulke beslissingen te accepteren. Je wilt eigenlijk een systeem waarmee je een conversatie kunt houden, en dat het zegt: ‘ik denk dat dit het is’. Dat kan, maar je moet er als programmeur wel moeite voor doen.’

Empathie

In de uitzending zit ook Pascale Fung uit Hong Kong, die robots empathisch vermogen wil geven. Pas als ze begrip tonen voor een mens kan een robot een echte kameraad of dienaar zijn. Fung speculeert zelfs over robots die jou zo goed kennen dat ze je bestaan na je dood voor anderen kunnen voortzetten. Je kinderen of kleinkinderen weten wel dat de robot jou niet is, maar hij zou jou op een geloofwaardige manier kunnen simuleren.  

Daar zitten we nog vrij ver vanaf, denkt Welling. ‘Om te beginnen zijn robots nog behoorlijk slecht in natuurlijk bewegen, dat gaat best houterig en moeizaam. En zo’n robot moet in wel duizend verschillende taken goed zijn, niet op één domein, zoals de huidige neurale netwerken. Anderzijds: je ziet dat mensen toch verrassend weinig nodig hebben om zich aan een robot te hechten.’

Voorlopig zal er nog geen eind komen aan de opmars van deep learning. Waar ligt de grens?

Welling ziet twee barrières in het verschiet. Ten eerste de enorme computercapaciteit die deep learning vereist. Dat vertaalt zich in een hoog energieverbruik en dito kosten. Als zulke netwerken nog groter worden, komt er een punt waarop de kosten voor de meeste toepassingen niet meer opwegen tegen de baten.

En dan is er nog een fundamentelere beperking. Waar deeplearningnetwerken nu goed in zijn, komt toch neer op geavanceerde signaalverwerking. Maar voor echte intelligentie is ook iets wezenlijk anders nodig. Welling: ‘Kunnen we iets maken dat goed kan redeneren en ook nog heel flexibel is? Daar zie ik een barrière, waar je met alleen maar opschalen misschien niet overheen komt. Maar ik kan me vergissen.’

Meer van the mind of the universe