12 oktober 2016

Go-computer nu veel slimmer dan mensen

AlphaGO, het programma van Google-bedrijf Deepmind dat eerder dit jaar een kampioen versloeg bij het bordspel Go, is inmiddels 'veel beter dan alle mensen'. Dat vertelde Leo Dorst van het Intelligent Systems Laboratory Amsterdam gisteren tijdens een bijeenkomst van de KNAW.

Deepmind liet AlphaGO doortrainen na de overwinning met 4-1 tegen Lee Sedol, één van de beste spelers ter wereld. Hoewel de officiële 'rankings' van het spel niet hoger gaan dan rang 9d, is het aannemelijk dat AlphaGO met de extra training van duizenden potjes per uur nu veel beter is in Go dan alle menselijke spelers.

Op de bijeenkomst vatte wetenschappers en spelers (Dorst is zelf ook een ervaren amateur) nog eens samen hoe AlphaGO Sedol wist te verslaan. Eigenlijk had niemand hoge verwachtingen toen de wedstrijd in maart plaatsvond. Begin 2016 had het computerprogramma immers dik verloren van een veel minder goede speler. AlphaGO maakte beginnersfouten, deed bizarre en desastreuze zetten en leek over het algemeen het spel niet goed door te hebben.

In maart was dat echter totaal anders. AlphaGO deed allerlei zetten die volgens de ervaren spelers niet tactisch zijn, maar later in het spel geniaal bleken. Go gold vanwege de complexiteit (een goede zet maken draait onder andere om het 'lezen' van de spelsituatie en vooruit denken) en de grootte van het bord (19x19) lang als het laatste bastion van menselijk spelvernuft: het was té ingewikkeld voor een computer om zetten te berekenen. Het lukte AlphaGO toch en inmiddels is het dus elke menselijke kennis voorbij.

Regels voor het spel

Het programma kwam zover dankzij de zogenoemde deep learning-techniek. Daarbij daalt een computerbrein steeds verder af in zijn eigen denkwereld, ontwaart het trends vanuit de input (in dit geval vele duizenden door mensen gespeelde potjes Go uit het verleden) en komt zo tot een aantal regels waarmee het het spel kan spelen.

Dat is wat er ongeveer gebeurt bij deep learning. Voor Go is het echter iets ingewikkelder, zoals Max Welling van het Amsterdam Machine Learning Lab (UvA) uitlegde. AlphaGO gebruikt in totaal vier 'diepe' netwerken, die allemaal regels leveren waar het programma zich aan moet houden. Die regels worden vervolgens in een zoekalgoritme gestopt dat bepaalde spelverlopen uitspeelt tot het einde van het spelletje. Door de combinatie van regels en het uitproberen vindt het zo iedere keer de ideale move.

In ieder geval in theorie. Want zoals GO-expert en leraar Juan Gao aan het eind zei: het programma maakt opvallend veel fouten. Zo trapte het in de vijfde partij in een standaardval in Go, een serie zetten van de tegenstander waar iedereen met een beetje ervaring makkelijk omheenloopt. AlphaGO trapte er met open ogen in. Ook andere, kleinere vergissingen zijn opvallend voor een computer die wereldkampioenen kan verslaan.

Oude wijsheid

Blijkbaar is het programma zó goed in andere dingen, zoals het vooruitkijken naar het spelverloop, dat de fouten niet uitmaken. Na de blunder in de vijfde partij wist het algoritme zich inderdaad te herstellen en alsnog te winnen, iets dat voor mensen heel moeilijk is. Toch herkent Gao het spel van AlphaGO. 'De manier waarop hij sommige zetten kiest doet me denken aan partijen die ik bestudeerde toen ik het spel leerde, spellen van honderden jaren terug.' Mogelijk komt die gelijkenis door het feit dat de partijen vroeger geen tijdslimiet hadden en iedereen dagen kon nadenken. Met zulke denktijd kan het menselijk brein hetzelfde als AlphaGO: ver vooruit kijken, elke zet evalueren en een goede beslissing maken. Tegenwoordig is er echter wel een tijdslimiet en is dat voor mensen praktisch onmogelijk. Het is echter opvallend dat AlphaGO blijkbaar wel iets van het menselijk denken weet te simuleren, zij het veel sneller en veelomvattender. En de foutjes laten zien dat andere, voor mensen overduidelijke zaken de computer dan weer ontgaan.

Of AlphaGO ook de toekomst van kunstmatige intelligentie is en het begin van een tijdperk van superieure machines? Dat lijkt Welling sterk. 'Dit algoritme is zó specifiek voor Go ontworpen, daar heb je daarbuiten weinig aan. Voor elke toepassing moet je weer een nieuw programma schrijven, en ik denk dat dat ingewikkelder en specifieker wordt als het probleem lastiger is. En lang niet elk moeilijk probleem leent zich voor een deep learning-aanpak. Dus ik betwijfel dat er binnenkort een kunstmatige intelligentie is die écht zoals een mens kan denken.'