Articles

Go, AI, Go!

Posted on

Photo: Jonathan Reichel-.
Federico Bo
Federico Bo
.

Federico Bo

Follow
Wrzesień 16, 2019 – 6 min read

Pewnie w swoich mitologiach sztuczne inteligencje przyszłości będą opowiadać o wyczynach AlphaGo, wojownika czarnych i białych kamieni, który pokonał hordy ludzi (nawet zaawansowana inteligencja cyfrowa będzie lubiła przesadzać …).

Go to gra strategiczna pochodzenia chińskiego, najstarsza z tych, w które wciąż się gra. W cesarskich Chinach była uważana bardziej za sztukę niż rozrywkę i została zaliczona do czterech podstawowych sztuk wraz z malarstwem, kaligrafią i muzyką.

Polem gry jest szachownica („goban”) składająca się z 19 linii poziomych i 19 linii pionowych dla 361 skrzyżowań. Gracze mają określoną liczbę szachownic („kamieni”), białych lub czarnych, które należy umieścić kolejno na pustych skrzyżowaniach. Celem gry jest otoczenie swoimi kamieniami większej ilości miejsc (pustych skrzyżowań) przeciwnika.

Szachy są grą „destrukcyjną”, w której złożoność zmniejsza się z każdym ruchem. Odwrotnie jest w Go, w którym złożoność wzrasta: oznacza to, że liczba możliwych pozycji jest rzędu 10¹⁷⁰, dużo, dużo większa od liczby atomów w całym wszechświecie, 10⁸⁰. Go jest bardziej intuicyjne niż szachy: te można przedstawić jako ogromne drzewo pełne rozwidleń, Go jako abstrakcyjny krajobraz, w którym możliwe jest rozpoznawanie wzorów i struktur.

Poruszanie się po tym oceanie możliwości sprawia, że gra staje się niekończącym się doświadczeniem, płótnem w wiecznym tkaniu, w którym splatają się intuicja i logika, poezja i matematyka. Tak jak w tej ostatniej, proste zasady dają początek „pięknym złożonościom”. Nie bez powodu Go jest uwielbiane przez wielu matematyków, którzy uważają końcową pozycję gry za matematyczne przypuszczenie, a grę za logiczne kroki niezbędne do udowodnienia tego przypuszczenia.

Jeszcze kilka lat temu ci sami matematycy, doświadczeni gracze i programiści zgadzali się, że napisanie oprogramowania, które w zadowalający sposób grałoby w Go, jest niezwykle trudne: Przewidywali oni, że potrzeba będzie dziesięcioleci, aby naśladować „umiejętności” najlepszych programów szachowych, które obecnie są w stanie pokonać nawet mistrzów świata (nie będąc przy tym DeepBlue…).

Byli w błędzie.

Demis Hassabis był enfant prodige informatyki, zatrudnionym w wieku 16 lat na Uniwersytecie Cambridge. Na kolejnych kursach AI profesorowie uparcie podkreślali, że niemożliwe jest, aby komputer mógł przyzwoicie grać w Go. On potraktował to jako wyzwanie.

Jego pomysł był prosty: zamiast pisać program, który mógłby grać w Go, napisz metaprogram. Program, który sam uczyłby się tego, co jest potrzebne, jak dziecko.

Aby tego dokonać, zdał sobie sprawę, że musi pogłębić swoją wiedzę o ludzkim mózgu i zrobił doktorat z neurobiologii na University College London.

W tym momencie – mamy rok 2010 – wraz z dwoma partnerami założył firmę DeepMind.

Zaczęli od czegoś prostego. Wzięli starą grę na Atari, Breakout (tak, tę z ceglaną ścianą do zburzenia) i napisali program, który jako dane wejściowe otrzymywał stan pikseli na ekranie, aktualny wynik i cel jego maksymalizacji. Typowy przykład reinforcement learning, czyli techniki uczenia maszynowego, w której algorytm uczy się poprzez interakcję z otoczeniem. Proces ten odbywa się bez ingerencji człowieka: Program otrzymuje nagrody wykonując zadania poprawnie i kary, jeśli nie. Wzmocnione uczenie jest klasyczną techniką wywodzącą się z psychologii behawioralnej: Pozytywna nagroda zwiększa skłonność do ponownego wykonania pewnej rzeczy i odwrotnie.

Program zaczął zabawę z przypadkowymi ruchami, potem stawały się one coraz bardziej efektywne. Szybko zidentyfikował hack, który wszystkie dzieciaki z lat 80-tych, po setkach gier, odkryły: Otwarcie dziury w ścianie, wpuszczenie do niej piłki i zburzenie ściany od środka.

W 2014 roku programom „inkubowanym” przez DeepMind udało się pokonać ludzkie możliwości w 49 grach Atari. Badania zostały też opublikowane w prestiżowym czasopiśmie naukowym Nature.

W tym czasie firma – hybryda startupów i akademii – liczyła 400 inżynierów i neuronaukowców. Google kupił ją za 500 mln dolarów.

Zrozumiałe zadowolenie, Hassabis skupił się na swoim wyzwaniu dla Go.

Projekt stworzenia cyfrowego mistrza przybrał nazwę AlphaGo.

Program opiera się na sieciach neuronowych. Zaczęło się od bazy danych 30 milionów pozycji wynikających z gier rozegranych między ludźmi.

Głęboka sieć neuronowa została wytrenowana za pomocą uczenia nadzorowanego, aby obliczyć, z każdej pozycji, które ruchy były najbardziej obiecujące. Ta pierwsza faza trwała trzy tygodnie. W tym momencie program posiadał umiejętności gracza amatora.

W drugiej fazie (reinforcement learning) – trwającej jeden dzień – program zaczął grać przeciwko samemu sobie, doskonaląc się. Do pierwszej sieci neuronowej została dodana druga. Jego zadaniem było wartościowanie aktualnej sytuacji na planszy: im wyższa wartość, tym większe szanse na wygraną. Aby obliczyć tę wartość, należy zasymulować kolejne ruchy. Wykorzystano „starą” technikę AI: eksplorację drzewa możliwości za pomocą algorytmu przeszukiwania drzewa Monte Carlo. Badania stały się wykonalne i tańsze dzięki wynikom dwóch sieci neuronowych.

Jeszcze tydzień treningu i AlphaGo było gotowe do testów z ludzkim mistrzem.

W 2015 roku w tajnym teście AlphaGo pokonało mistrza Europy chińskiego pochodzenia Fan Hui 5-0. Program nadal się uczył.

W marcu 2016 roku przyszła kolej na koreańskiego mistrza świata Lee Sedola, jednego z największych żyjących mistrzów. Tym razem wyzwanie było reklamowane i emitowane na żywo z Seulu. Zwycięzca zarobiłby milion dolarów.

W międzyczasie Fan Hui stał się swego rodzaju „trenerem” AlphaGo, znajdując słabe punkty w jego grze i pomagając poprawiać jego występy. Tak, wydaje się, że przeżywamy epicką historię Rocky’ego i Apollo Creeda …

W pierwszej grze wyzwania, AlphaGo wygrało. Lee Sedol powiedział, że nie spodziewał się, że przegapi grę. Ale najgorsze miało dopiero nadejść. W drugiej grze AlphaGo wykonało zupełnie niespodziewany, nieortodoksyjny, „obcy” ruch, co ujawnił zachodni mistrz, Michael Redmond. Szok w świecie graczy Go jest wielki. Milenia ludzkich wyzwań nie przyniosły takiej strategii. Fan Hui przegrywa drugą partię i ostatecznie przegrywa wyzwanie 4-1.

AlphaGo pozostała niewzruszona. Nie wydał nawet „beep” z zadowolenia. Ale pokazał, że ma intuicję i kreatywność.

Historia nie kończy się tutaj.

AlphaGo wciąż ma ludzkie dziedzictwo, rozpoczął swój proces uczenia się od gier rozgrywanych przez ludzi.

W DeepMind chcą pójść dalej.

Powstaje nowa wersja programu, AlphaGo Zero. Paradoksalnie jest ona prostsza od poprzedniej, z pojedynczą siecią neuronową, która obejmuje dwie istniejące. Tym razem bez ludzkiego „skażenia”: AlphaGo Zero zostaje poinstruowany o zasadach gry Go i nakłoniony do gry tylko z samym sobą. Po 40 dniach i 29 milionach rozegranych gier jest gotowy, by rzucić wyzwanie swojemu poprzednikowi.

100 razy szybszy i 10 razy bardziej wydajny, AlphaGo Zero pokonuje AlphaGo w stosunku 100 do 0.

Bez biologicznych uprzedzeń i z umiejętnością „patrzenia poza”, AlphaGo Zero jest wolny, by wyrazić swój potencjał.

Jak ta historia została przyjęta przez świat Go? Jak niepowodzenie nie do zniesienia? Jak frustracja nie do przezwyciężenia? Wręcz przeciwnie. Gracze – w tym Fan Hui, pierwsza „ofiara” – uczyli się od cyfrowego przeciwnika, ulepszając swoją grę i wykorzystując nowe strategie, które wcześniej były „zablokowane” przez siłę tradycji.

Spuścizna projektu AlphaGo wykracza poza programy do gry; kilka cech czyni go ważnym krokiem w kierunku AGI (Artificial General Intelligence), cyfrowej inteligencji zdolnej do konkurowania z ludźmi na wielu polach, a nie tylko w ograniczonych dziedzinach. Dokładniej jednak, projekt pokazał, że w sektorach, w których strategie są ważne, takich jak inwestycje, polityka i wojsko, AI są niemal gotowe rzucić wyzwanie (lub pomóc) najlepszym ludzkim strategom.

Mówiąc o strategiach – w tym przypadku geopolitycznych – należy zauważyć, że sukces AlphaGo odbił się ogromnym echem w Chinach, ojczyźnie Go, do tego stopnia, że rząd chiński uruchomił wielki plan inwestycyjny, aby do 2030 roku stać się głównym centrum innowacji AI na świecie.

Źródła

John Brockman (red.), Possible Minds: Twenty-Five Ways of Looking at AI, Penguin Press, 2019

Marcus Du Sautoy, The Creativity Code: How AI is learning to write, paint and think, Fourth Estate, 2019

Terrence J. Sejnowski, The Deep Learning Revolution, The MIT Press, 2018

Max Tegmark, Life 3.0: Being Human in the Age of Artificial Intelligence, Penguin, 2017

Dawn Chan, The AI That Has Nothing to Learn From Humans

Jonathan Hui, AlphaGo: How it works technically? (Krótki, ale przejrzysty przewodnik techniczny po działaniu AlphaGo…)

Jonathan Hui, AlphaGo Zero – a game changer. (Jak to działa?) (…i AphaGo Zero)

David Silver, Demis Hassabis, AlphaGo Zero: Starting from scratch

David Silver et al., Mastering the game of Go without human knowledge, Nature, 2017/10/18/online, Macmillan Publishers Limited, część Springer. (Artykuł opublikowany w Nature odnoszący się do AlphaGo Zero)

.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *