Articles

Go, AI, Go!

Posted on

Foto: Jonathan Reichel-
Federico Bo
Federico Bo

Follow

16 sep, 2019 – 6 min gelezen

Misschien zullen de kunstmatige intelligenties van de toekomst in hun mythologieën verhalen over de heldendaden van AlphaGo, de strijder van de zwarte en witte stenen die hordes mensen versloeg (zelfs geavanceerde digitale intelligentie zal graag overdrijven …).

Het Go is een strategiespel van Chinese oorsprong, het oudste dat nog wordt gespeeld. In het keizerlijke China werd het meer als kunst dan als tijdverdrijf beschouwd en werd het opgenomen in de vier essentiële kunsten, samen met schilderkunst, kalligrafie en muziek.

Het speelveld is een schaakbord (“goban”) bestaande uit 19 horizontale lijnen en 19 verticale lijnen voor 361 kruispunten. De spelers hebben een bepaald aantal schaakstukken (“stenen”), wit of zwart, die om beurten op lege kruispunten moeten worden geplaatst. Het doel van het spel is om meer ruimte (lege kruispunten) van de tegenstander te omringen met hun eigen stenen.

Schaken is een “destructief” spel, waarbij de complexiteit met elke zet afneemt. Het tegenovergestelde geldt voor Go, waarin de complexiteit toeneemt: dit betekent dat het aantal mogelijke posities in de orde van 10¹⁷⁰ ligt, veel, veel hoger dan het aantal atomen in het hele universum, 10⁸⁰. Go is intuïtiever dan schaken: deze kan worden voorgesteld als een enorme boom vol bifurcaties, Go als een abstract landschap waarin het mogelijk is patronen en structuren te herkennen.

Het navigeren in deze oceaan van mogelijkheden maakt het spel tot een eindeloze ervaring, een doek in voortdurende weving waarin intuïtie en logica, poëzie en wiskunde met elkaar verweven zijn. Zoals in dit laatste, geven eenvoudige regels aanleiding tot “prachtige complexiteiten”. Niet voor niets is Go geliefd bij veel wiskundigen die de eindstelling van een spel beschouwen als een wiskundig vermoeden en het spel als de logische stappen die nodig zijn om dat vermoeden te bewijzen.

Tot een paar jaar geleden waren diezelfde wiskundigen, ervaren spelers en programmeurs het erover eens dat het uiterst moeilijk was om software te schrijven die Go naar tevredenheid zou kunnen spelen: Hun voorspelling was dat het tientallen jaren zou duren om de “vaardigheid” te evenaren van de beste schaakprogramma’s die nu in staat zijn om zelfs wereldkampioenen te verslaan (zonder DeepBlue te zijn…).

Ze hadden het mis.

Demis Hassabis was een enfant prodige van de informatica, op 16-jarige leeftijd gerekruteerd van de Universiteit van Cambridge. In de AI-cursussen die volgden, bleven de professoren hameren op de onmogelijkheid om een computer Go fatsoenlijk te laten spelen. Hij nam het op als een uitdaging.

Het idee was simpel: in plaats van een programma te schrijven dat Go kon spelen, schrijf je een meta-programma. Een programma dat uit zichzelf leerde wat nodig was, als een baby.

Om dit te doen realiseerde hij zich dat hij zijn kennis van het menselijk brein moest verdiepen en hij volgde een doctoraat in Neurowetenschappen aan het University College London.

Op dit punt – we zijn in 2010 – richtte hij met twee partners het bedrijf DeepMind op.

Ze begonnen met iets simpels. Ze namen een oud Atari-spel, Breakout (ja, dat van de bakstenen muur omver te werpen) en schreven een programma dat als invoer kreeg de status van de pixels op het scherm, de huidige score en het doel om die te maximaliseren. Een typisch voorbeeld van reinforcement learning, een techniek voor machinaal leren waarbij een algoritme leert door interactie met zijn omgeving. Het proces vindt plaats zonder menselijke tussenkomst: Het programma ontvangt beloningen door taken correct uit te voeren en straffen als dat niet het geval is. Versterkt leren is een klassieke techniek die voortkomt uit de gedragspsychologie: Een positieve beloning vergroot de neiging om een bepaald iets opnieuw te doen en vice versa.

Het programma begon te spelen met willekeurige zetten, daarna werden deze steeds efficiënter. Al snel ontdekte hij de hack die alle kinderen van de jaren ’80, na honderden spelletjes, hadden ontdekt: Een gat in de muur openen, de bal erin laten gaan en de muur van binnenuit slopen.

In 2014 slaagden de door DeepMind “geïncubeerde” programma’s erin om in 49 Atari-spellen de menselijke capaciteiten te overwinnen. Het onderzoek werd ook gepubliceerd in het prestigieuze wetenschappelijke tijdschrift Nature.

Op dat moment telde het bedrijf – een hybride van startups en academies – 400 ingenieurs en neurowetenschappers. Google kocht het voor 500 miljoen dollar.

Onvergetelijk tevreden richtte Hassabis zich op zijn uitdaging voor Go.

Het project om een digitale meester te creëren kreeg de naam AlphaGo.

Het programma is gebaseerd op neurale netwerken. Het begon met een database van 30 miljoen posities die het resultaat waren van door mensen gespeelde partijen.

Een diep neuraal netwerk is getraind met supervised learning om uit elke positie te berekenen wat de meest veelbelovende zetten waren. Deze eerste fase duurde drie weken. Op dit punt had het programma de vaardigheid van een amateurspeler.

In de tweede fase (reinforcement learning) – die één dag duurde – begon het programma tegen zichzelf te spelen, waardoor het zichzelf verbeterde. Een tweede neuraal netwerk werd aan het eerste toegevoegd. Zijn taak was om de huidige situatie op het bord te waarderen: hoe hoger de waarde, hoe groter de kans op winst. Om deze waarde te berekenen, moeten de volgende zetten worden gesimuleerd. Er werd gebruik gemaakt van een “oude” AI-techniek: een verkenning van de boom van mogelijkheden met een Monte Carlo boomzoekalgoritme. Het onderzoek werd haalbaar en goedkoper dankzij de resultaten van de twee neurale netwerken.

Een week langer trainen en AlphaGo was klaar om getest te worden met een menselijke meester.

In 2015 versloeg AlphaGo in een geheime test de Europese kampioen van Chinese afkomst Fan Hui met 5-0. Het programma bleef leren.

In maart 2016 is het de beurt aan de Koreaanse wereldkampioen Lee Sedol, een van de grootste levende meesters. Deze keer werd de uitdaging geadverteerd en live uitgezonden vanuit Seoul. De winnaar zou een miljoen dollar hebben verdiend.

Tussen was Fan Hui een soort “coach” van AlphaGo geworden, die zwakke plekken in zijn spel vond en hielp om zijn prestaties te verbeteren. Ja, we lijken het epische verhaal van Rocky en Apollo Creed te herbeleven …

In het eerste spel van de uitdaging won AlphaGo. Lee Sedol zei dat hij niet had verwacht een game te missen. Maar het ergste moest nog komen voor hem. In het tweede spel deed AlphaGo een totaal onverwachte, onorthodoxe, “buitenaardse” zet, zoals een westerse meester, Michael Redmond, onthulde. De schok in de wereld van Go-spelers is groot. Millennia van menselijke uitdagingen hadden niet zo’n strategie voortgebracht. Fan Hui verliest het tweede spel en uiteindelijk verliest hij de uitdaging voor 4-1.

AlphaGo bleef onverstoorbaar. Niet eens een “piep” van tevredenheid. Maar hij liet zien dat hij over intuïtie en creativiteit beschikte.

Het verhaal eindigt hier niet.

AlphaGo heeft nog steeds een menselijke erfenis, omdat hij zijn leerproces is begonnen met spelletjes die door mensen werden gespeeld.

Bij DeepMind willen ze verder gaan.

Er wordt een nieuwe versie van het programma gemaakt, AlphaGo Zero. Paradoxaal genoeg is het eenvoudiger dan de vorige, met een enkel neuraal netwerk dat de twee bestaande omvat. Deze keer geen menselijke “besmetting”: AlphaGo Zero wordt geïnstrueerd met de regels van Go en gemaakt om alleen met zichzelf te spelen. Na 40 dagen en 29 miljoen gespeelde spellen is het klaar om zijn voorganger uit te dagen.

100 keer sneller en 10 keer efficiënter, AlphaGo Zero verslaat AlphaGo voor 100 tegen 0.

Zonder biologische vooroordelen en met het vermogen om “verder te kijken,” is AlphaGo Zero vrij om zijn potentieel tot uitdrukking te brengen.

Hoe werd dit verhaal ervaren door de Go-wereld? Als een ondraaglijke tegenslag? Als een onoverkomelijke frustratie? Integendeel. De spelers – onder wie Fan Hui, het eerste “slachtoffer” – hebben op hun beurt geleerd van de digitale tegenstander, hun spel verbeterd en nieuwe strategieën uitgebuit die eerder “geblokkeerd” werden door de kracht van de traditie.

De erfenis van het AlphaGo-project gaat verder dan spelprogramma’s; verschillende kenmerken maken het een belangrijke stap in de richting van AGI (Artificial General Intelligence), digitale intelligentie die in staat is om op meerdere gebieden te concurreren met mensen en niet alleen in beperkte domeinen. Meer specifiek heeft het project echter aangetoond dat in sectoren waar strategieën belangrijk zijn, zoals investeringen, politieke en militaire AI bijna klaar zijn om de beste menselijke strategen uit te dagen (of te helpen).

Over strategieën gesproken – geopolitiek in dit geval – moet worden opgemerkt dat het succes van AlphaGo een enorme weerklank heeft gevonden in China, de thuisbasis van de Go, zozeer zelfs dat de Chinese regering een groot investeringsplan heeft gelanceerd om tegen 2030 het belangrijkste AI-innovatiecentrum ter wereld te worden.

Bronnen

John Brockman (bewerkt door), Possible Minds: Twenty-Five Ways of Looking at AI, Penguin Press, 2019

Marcus Du Sautoy, De Creativiteitscode: How AI is learning to write, paint and think, Fourth Estate, 2019

Terrence J. Sejnowski, The Deep Learning Revolution, The MIT Press, 2018

Max Tegmark, Leven 3.0: Being Human in the Age of Artificial Intelligence, Penguin, 2017

Dawn Chan, The AI That Has Nothing to Learn From Humans

Jonathan Hui, AlphaGo: Hoe het technisch werkt? (Een korte maar duidelijke technische gids over de werking van AlphaGo…)

Jonathan Hui, AlphaGo Zero – een game changer. (Hoe het werkt?) (…en AlphaGo Zero)

David Silver, Demis Hassabis, AlphaGo Zero: Starting from scratch

David Silver e.a., Mastering the game of Go without human knowledge, Nature, 2017/10/18/online, Macmillan Publishers Limited, onderdeel van Springer. (Het in Nature gepubliceerde artikel met betrekking tot AlphaGo Zero)

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *