12 juli 2019

AI verslaat pokerkampioenen

Facebook en Carnegie Mellon University hebben een kunstmatig intelligente bot gebouwd die in staat is de beste pokerspelers ter wereld te verslaan in een spelletje Hold'em, de bekendste pokervariant, met zes spelers. Niet eerder versloeg een AI menselijke topspelers in zo'n complex spel.

Poker gold lange tijd voor AI-ontwikkelaars als een nauwelijks te kraken spel. Bij schaken en Go zijn computers inmiddels al een stuk beter dan de sterkste menselijke spelers, maar anders dan bij die twee bordspelen bevat poker verborgen informatie. Waar de schaker alle stukken van de tegenstander ziet, daar weet de pokerspeler niet welke kaarten een tegenstander in zijn hand heeft.

Daardoor speelt bluf een grote rol, wat voor AI een grote horde is. Een computer kan immers geen pokerface opzetten.

Professionele pokeraars

Sinds enkele jaren lukte het de computer al wel om een potje poker te winnen tegen één enkele tegenstander, maar bij potjes met meer tegenstanders groeit de complexiteit van het spel exponentieel. De doorbraak van Facebook en Carnegie University: een AI die een tafel vol professionele pokeraars verslaat, inclusief winnaars van het grootste pokertoernooi ter wereld. Het bedrijf en de universiteit maakten de doorbraak afgelopen donderdag bekend op een blog en in het wetenschappelijke tijdschrift Science,

De AI-bot, die de naam Pluribus heeft gekregen, versloeg de profs zowel in de variant waarin vijf bots en één menselijke speler het tegen elkaar opnemen, als in zijn eentje tegen vijf topspelers. Als elke chip een euro waard was geweest, dan zou Pluribus gemiddeld vijf euro per hand hebben gewonnen en in een uur duizend euro hebben verdiend tegen de vijf pokerprofs. In het professionele poker geldt dat als een enorme winstmarge.

Deze graphic toont het aantal chips van Pluribus wanneer de bot speelt tegen profpokeraars. De ononderbroken lijn toont de feitelijke resultaten, de stippellijnen tonen de standaarddeviatie.

AI-poker via de cloud

De makers borduurden voort op Libratus, de bot die in 2017 voor het eerst een menselijke speler versloeg in Hold'em. Daarnaast maakten ze gebruik van algoritmes die zijn ontwikkeld in het onderzoekslab van Carnegie Mellon University. Zo is Pluribus in staat om enkele stappen vooruit te denken, waar de voorganger alleen helemaal tot het einde van het potje kon doorrekenen, wat tot aanzienlijke vertragingen leidde.

Gecombineerd met andere nieuwe algoritmes stelt dit Pluribus in staat om zijn strategie te bepalen zonder veel rekenkracht en geheugen nodig te hebben. Had het vorige systeem nog voor miljoenen euro's aan supercomputerkracht nodig, daar volstaat voor Pluribus voor 130 euro aan rekenkracht in de cloud.

Verkeer

Volgens Facebook heeft deze mijlpaal ook buiten het poker grote implicaties. In spelletjes komt het immers vaak voor dat de ene speler wint en de ander verliest, maar het echte leven zit complexer in elkaar. Daar zijn vaak meerdere actoren betrokken bij beslissingen, en daar beschikt - net als bij poker - ook niet iedereen over dezelfde informatie.

Toepassingen van de gebruikte algoritmen zien de makers onder meer bij het het verbeteren van de veiligheid op internet, het beheren van onlineveilingen en in verkeersnavigatiesystemen. Concrete plannen om de techniek in te zetten zijn er echter nog niet.

Wel of geen bluf

Bij poker draait het om de kaarten die de spelers in hun hand hebben. Elke speler kent alleen zijn eigen kaarten, waarmee het een perfect voorbeeld is van een spel met verbogen informatie. Pluribus blijkt in staat om te beredeneren welke kaarten elk van de tegenstander vermoedelijk heeft. Zelf slaagt hij erin onvoorspelbaar te blijven, terwijl hij toch steeds een goede kaart uitspeelt.

Zo snapt hij dat het soms goed is om te bluffen, maar dat elke beurt bluffen uitermate dom is: dan doorzien de tegenstanders het direct. De kans dat een speler bluft met waardeloze kaarten in de hand moet in evenwicht zijn met de kans dat hij gewoon goede kaarten heeft.

Lastig te bespelen

De kern van de strategie heeft Pluribus zelf uitgedokterd, door acht dagen lang tegen zichzelf te spelen, zonder enige menselijke input. De tegenstanders waren onder de indruk. 'De bot bluft beter dan mensen', zei profpokeraar Jason Les. 'En daarom is die ontzettend lastig te bespelen.'

'Wij zijn geneigd om bluffen te beschouwen als een zeer menselijke eigenschap', zei hoofdonderzoeker Noam Brown tegen BBC News. 'Maar wat we hier zien is dat bluffen eigenlijk mathematisch gedrag is. Wanneer de bot bluft, dan ziet hij dat niet als oneerlijk of bedrieglijk, maar gewoon als de manier om het meeste geld te verdienen.'

Casino

De makers zijn niet van plan om met hun bot echt het casino op te zoeken. Sterker nog: het grootste deel van hun code hebben ze niet gepubliceerd, uit angst dat kwaadwillenden ermee aan de haal gaan.

Foto: Depositphoto