Articles

Go, AI, Go!

Posted on

Foto: Jonathan Reichel-
Federico Bo
Federico Bo

Follow

16 settembre, 2019 – 6 min read

Forse nelle loro mitologie, le intelligenze artificiali del futuro narreranno le gesta di AlphaGo, il guerriero delle pietre bianche e nere che ha sconfitto orde di umani (anche alle intelligenze digitali avanzate piacerà esagerare…).

Il Go è un gioco di strategia di origine cinese, il più antico tra quelli ancora giocati. Nella Cina imperiale era considerato più un’arte che un passatempo ed era incluso nelle quattro arti essenziali insieme a pittura, calligrafia e musica.

Il campo di gioco è una scacchiera (“goban”) composta da 19 linee orizzontali e 19 linee verticali per 361 intersezioni. I giocatori hanno un certo numero di pedine (“pietre”), bianche o nere, da posizionare a turno sulle intersezioni vuote. Lo scopo del gioco è quello di circondare più spazio (intersezioni vuote) dell’avversario con le proprie pietre.

Gli scacchi sono un gioco “distruttivo”, in cui la complessità diminuisce ad ogni mossa. Il contrario vale per il Go in cui la complessità aumenta: ciò significa che il numero di posizioni possibili è dell’ordine di 10¹⁷⁰, molto, molto più alto del numero di atomi dell’intero universo, 10⁸⁰. Il Go è più intuitivo degli scacchi: questi possono essere rappresentati come un enorme albero pieno di biforcazioni, il Go come un paesaggio astratto in cui è possibile riconoscere modelli e strutture.

Navigare in questo oceano di possibilità rende il gioco un’esperienza senza fine, una tela in perpetua tessitura in cui si intrecciano intuizione e logica, poesia e matematica. Come in quest’ultimo, regole semplici danno origine a “belle complessità”. Non per niente il Go è amato da molti matematici che considerano la posizione finale di una partita come una congettura matematica e il gioco come i passi logici necessari per provare quella congettura.

Fino a qualche anno fa gli stessi matematici, giocatori esperti e programmatori concordavano sul fatto che fosse estremamente difficile scrivere un software che giocasse in modo soddisfacente a Go: La loro previsione era che ci sarebbero voluti decenni per emulare la “bravura” dei migliori programmi di scacchi ora in grado di battere anche i campioni del mondo (senza essere DeepBlue…).

Si sbagliavano.

Demis Hassabis era un enfant prodige dell’informatica, reclutato a 16 anni all’Università di Cambridge. Nei corsi di IA che seguirono, i professori insistevano nel sottolineare l’impossibilità di avere un computer che giocasse decentemente a Go. Lui la prese come una sfida.

La sua idea era semplice: invece di scrivere un programma che potesse giocare a Go, scrivere un meta-programma. Un programma che imparasse da solo ciò che serviva, come un bambino.

Per fare questo si rese conto che doveva approfondire la sua conoscenza del cervello umano e prese un dottorato in Neuroscienze all’University College di Londra.

A questo punto – siamo nel 2010 – con due soci fondò la società DeepMind.

Iniziarono con qualcosa di semplice. Presero un vecchio gioco Atari, Breakout (sì, quello del muro di mattoni da abbattere) e scrissero un programma che riceveva come input lo stato dei pixel sullo schermo, il punteggio attuale e l’obiettivo di massimizzarlo. Un tipico esempio di reinforcement learning, una tecnica di apprendimento automatico in cui un algoritmo impara interagendo con il suo ambiente. Il processo avviene senza l’intervento umano: Il programma riceve premi eseguendo correttamente i compiti e penalità in caso contrario. L’apprendimento rinforzato è una tecnica classica che deriva dalla psicologia comportamentale: Una ricompensa positiva aumenta la tendenza a fare di nuovo una certa cosa e viceversa.

Il programma ha iniziato a giocare con mosse casuali, poi queste sono diventate sempre più efficienti. Rapidamente ha identificato l’hack che tutti i bambini degli anni ’80, dopo centinaia di partite, hanno scoperto: Aprire un buco nel muro, far entrare la palla e demolire il muro dall’interno.

Nel 2014 i programmi “incubati” da DeepMind sono riusciti a superare le abilità umane in 49 giochi Atari. La ricerca è stata pubblicata anche sulla prestigiosa rivista scientifica Nature.

All’epoca, l’azienda – un ibrido tra startup e accademie – contava 400 ingegneri e neuroscienziati. Google l’ha comprata per 500 milioni di dollari.

Sempre soddisfatto, Hassabis si è concentrato sulla sua sfida a Go.

Il progetto di creare un maestro digitale ha preso il nome di AlphaGo.

Il programma si basa su reti neurali. È partito da un database di 30 milioni di posizioni risultanti da partite giocate tra umani.

Una rete neurale profonda è stata addestrata con apprendimento supervisionato per calcolare, da ogni posizione, quali fossero le mosse più promettenti. Questa prima fase è durata tre settimane. A questo punto il programma aveva l’abilità di un giocatore dilettante.

Nella seconda fase (reinforcement learning) – durata un giorno – il programma ha iniziato a giocare contro se stesso, migliorandosi. Una seconda rete neurale è stata aggiunta alla prima. Il suo compito era quello di valutare la situazione attuale sulla tavola: più alto è il valore, maggiori sono le possibilità di vincere. Per calcolare questo valore, le mosse seguenti devono essere simulate. È stata utilizzata una “vecchia” tecnica di IA: un’esplorazione dell’albero delle possibilità con un algoritmo di ricerca ad albero Monte Carlo. La ricerca è stata resa fattibile e meno costosa grazie ai risultati delle due reti neurali.

Un’altra settimana di allenamento e AlphaGo era pronto per essere testato con un maestro umano.

Nel 2015, in un test segreto, AlphaGo ha sconfitto il campione europeo di origine cinese Fan Hui per 5-0. Il programma ha continuato a imparare.

Nel marzo 2016 è il turno del campione mondiale coreano Lee Sedol, uno dei più grandi maestri viventi. Questa volta la sfida è stata pubblicizzata e trasmessa in diretta da Seul. Il vincitore avrebbe guadagnato un milione di dollari.

Nel frattempo, Fan Hui era diventato una sorta di “allenatore” di AlphaGo, trovando i punti deboli del suo gioco e aiutandolo a migliorare le sue prestazioni. Sì, sembra di rivivere l’epica storia di Rocky e Apollo Creed…

Nella prima partita della sfida, AlphaGo ha vinto. Lee Sedol ha detto che non si aspettava di perdere una partita. Ma il peggio doveva ancora venire per lui. Nella seconda partita, AlphaGo ha fatto una mossa completamente inaspettata, non ortodossa, “aliena”, come ha rivelato un maestro occidentale, Michael Redmond. Lo shock del mondo dei giocatori di Go è grande. Millenni di sfide umane non avevano prodotto una simile strategia. Fan Hui perde la seconda partita e, alla fine, perderà la sfida per 4-1.

AlphaGo è rimasto imperturbabile. Nemmeno un “bip” di soddisfazione. Ma ha dimostrato di avere intuito e creatività.

La storia non finisce qui.

AlphaGo ha ancora un patrimonio umano, avendo iniziato il suo processo di apprendimento da giochi giocati da esseri umani.

A DeepMind vogliono andare oltre.

Viene creata una nuova versione del programma, AlphaGo Zero. Paradossalmente è più semplice della precedente, con una sola rete neurale che ingloba le due esistenti. Questa volta nessuna “contaminazione” umana: AlphaGo Zero viene istruito con le regole del Go e fatto giocare solo con se stesso. Dopo 40 giorni e 29 milioni di partite giocate è pronto a sfidare il suo predecessore.

100 volte più veloce e 10 volte più efficiente, AlphaGo Zero batte AlphaGo per 100 a 0.

Senza pregiudizi biologici e con la capacità di “guardare oltre”, AlphaGo Zero è libero di esprimere il suo potenziale.

Come è stata vissuta questa storia dal mondo del Go? Come una battuta d’arresto insopportabile? Come una frustrazione insuperabile? Al contrario. I giocatori – compreso Fan Hui, la prima “vittima” – hanno a loro volta imparato dall’avversario digitale, migliorando il loro gioco e sfruttando nuove strategie che prima erano “bloccate” dalla forza della tradizione.

L’eredità del progetto AlphaGo va oltre i programmi di gioco; diverse caratteristiche ne fanno un passo importante verso l’AGI (Artificial General Intelligence), l’intelligenza digitale in grado di competere con gli umani in molteplici campi e non solo in domini ristretti. Nello specifico, però, il progetto ha dimostrato che nei settori in cui le strategie sono importanti, come gli investimenti, le AI politiche e militari sono quasi pronte a sfidare (o aiutare) i migliori strateghi umani.

Parlando di strategie – geopolitiche in questo caso – va notato che il successo di AlphaGo ha avuto un’enorme eco in Cina, la patria del Go, tanto che il governo cinese ha lanciato un grande piano di investimenti per diventare entro il 2030 il principale hub di innovazione AI del mondo.

Fonti

John Brockman (a cura di), Possible Minds: Twenty-Five Ways of Looking at AI, Penguin Press, 2019

Marcus Du Sautoy, The Creativity Code: How AI is learning to write, paint and think, Fourth Estate, 2019

Terrence J. Sejnowski, The Deep Learning Revolution, The MIT Press, 2018

Max Tegmark, Life 3.0: Being Human in the Age of Artificial Intelligence, Penguin, 2017

Dawn Chan, The AI That Has Nothing to Learn From Humans

Jonathan Hui, AlphaGo: come funziona tecnicamente? (Una breve ma chiara guida tecnica al funzionamento di AlphaGo…)

Jonathan Hui, AlphaGo Zero – a game changer. (Come funziona?) (…e AphaGo Zero)

David Silver, Demis Hassabis, AlphaGo Zero: Starting from scratch

David Silver et al., Mastering the game of Go without human knowledge, Nature, 2017/10/18/online, Macmillan Publishers Limited, part of Springer. (L’articolo pubblicato su Nature relativo ad AlphaGo Zero)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *