Max Welling, hoogleraar machine learning aan de UvA, noemt drie redenen voor de doorbraak van deep learning. Ten eerste: toch ook brute computerkracht. Een deeplearningnetwerk bouwt een model van een stukje werkelijkheid – bijvoorbeeld: menselijke gezichten – en in dat model zitten ‘gewichten’, knoppen waar het netwerk in de trainingsfase zelf aan draait om de herkenning te optimaliseren. Maar wil het netwerk niet alleen maar Brad Pitt en Angelina Jolie als exemplaren van Homo sapiens herkennen, dan zijn er heel veel knoppen nodig. Google Deepmind heeft nu een netwerk met 139 miljard knoppen. Tot een paar jaar geleden konden computers dat niet aan.
Tweede reden: de vloedgolf aan data. Deeplearningnetwerken hebben dit nodig als trainingsmateriaal. Miljoenen foto’s of tekstpagina’s, of duizenden uren gesproken woord in alle talen. Die waren tien jaar geleden niet beschikbaar, nu pluk je het zomaar van internet.
En ten slotte zijn ook de algoritmes – de ‘spelregels’ van het netwerk – effectiever geworden. ‘Maar dat kun je niet los van elkaar zien,’ stelt Welling. ‘Als je experimenten op een computer doet en je moet telkens een maand wachten, is het heel lastig om te innoveren. Als je maar een uurtje hoeft te wachten, kun je van alles uitproberen.’
Deeplearningnetwerken zijn een variant op de al langer bestaande neurale netwerken. Ze zijn geïnspireerd door de bouw van de hersenen. Een deeplearningnetwerk bestaat uit tien tot twintig lagen die elk uit een groot aantal cellen bestaan. Onderin komen de ruwe data binnen, bijvoorbeeld één pixel van een foto per cel. De onderste lagen doen iets basaals – bijvoorbeeld randen in het beeld opsporen – en geven die informatie door naar boven. De lagen daarboven sporen dan, zeg, combinaties van randen op die kenmerkend zijn voor bepaalde objecten, zoals een auto of een gezicht.
Zo gaat het steeds verder omhoog, totdat de bovenste laag de gewenste output produceert, bijvoorbeeld een lijst van de objecten die het netwerk van voor naar achter in de foto ‘ziet’.