Articles

Go, AI, Go!

Posted on

Foto: Jonathan Reichel-
Federico Bo
Federico Bo

Follow

Sep 16, 2019 – 6 min read

Vielleicht wird die Künstliche Intelligenz der Zukunft in ihren Mythologien von den Heldentaten von AlphaGo erzählen, dem Krieger der schwarzen und weißen Steine, der Horden von Menschen besiegt hat (auch fortgeschrittene digitale Intelligenz übertreibt gerne …).

Das Go ist ein Strategiespiel chinesischen Ursprungs, das älteste, das noch gespielt wird. Im kaiserlichen China galt es mehr als Kunst denn als Zeitvertreib und wurde zusammen mit Malerei, Kalligrafie und Musik zu den vier wesentlichen Künsten gezählt.

Das Spielfeld ist ein Schachbrett („Goban“), das aus 19 horizontalen und 19 vertikalen Linien besteht und 361 Schnittpunkte hat. Die Spieler haben eine bestimmte Anzahl von Steinen („Steine“), weiß oder schwarz, die sie reihum auf leere Kreuzungen setzen müssen. Ziel des Spiels ist es, mit den eigenen Steinen mehr Felder (leere Kreuzungen) des Gegners zu umschließen.

Schach ist ein „destruktives“ Spiel, bei dem die Komplexität mit jedem Zug abnimmt. Das Gegenteil gilt für Go, bei dem die Komplexität zunimmt: das bedeutet, dass die Anzahl der möglichen Positionen in der Größenordnung von 10¹⁷⁰ liegt, viel, viel höher als die Anzahl der Atome im gesamten Universum, 10⁸⁰. Das Go ist intuitiver als das Schachspiel: Dieses lässt sich als riesiger Baum voller Verzweigungen darstellen, das Go als abstrakte Landschaft, in der man Muster und Strukturen erkennen kann.

Das Navigieren in diesem Ozean der Möglichkeiten macht das Spiel zu einer unendlichen Erfahrung, zu einer Leinwand im ewigen Weben, in der Intuition und Logik, Poesie und Mathematik miteinander verwoben sind. Wie in letzterem entstehen aus einfachen Regeln „schöne Komplexitäten“. Nicht umsonst wird Go von vielen Mathematikern geliebt, die die Endstellung einer Partie als eine mathematische Vermutung und das Spiel als die logischen Schritte betrachten, die notwendig sind, um diese Vermutung zu beweisen.

Bis vor einigen Jahren waren sich dieselben Mathematiker, erfahrenen Spieler und Programmierer einig, dass es extrem schwierig sei, eine Software zu schreiben, die Go zufriedenstellend spielen kann: Ihre Vorhersage war, dass es Jahrzehnte dauern würde, um das „Können“ der besten Schachprogramme zu emulieren, die jetzt in der Lage sind, sogar Weltmeister zu schlagen (ohne DeepBlue zu sein…).

Sie lagen falsch.

Demis Hassabis war ein Enfant prodige der Informatik, rekrutiert im Alter von 16 Jahren von der University of Cambridge. In den folgenden KI-Kursen bestanden die Professoren darauf, die Unmöglichkeit zu betonen, einen Computer anständig Go spielen zu lassen. Er nahm es als Herausforderung an.

Seine Idee war einfach: Anstatt ein Programm zu schreiben, das Go spielen konnte, sollte er ein Meta-Programm schreiben. Ein Programm, das von selbst lernte, was benötigt wurde, wie ein Baby.

Um das zu erreichen, erkannte er, dass er sein Wissen über das menschliche Gehirn vertiefen musste und promovierte in Neurowissenschaften am University College London.

An diesem Punkt – wir sind im Jahr 2010 – gründete er mit zwei Partnern die Firma DeepMind.

Sie begannen mit etwas Einfachem. Sie nahmen ein altes Atari-Spiel, Breakout (ja, das mit der einzureißenden Mauer) und schrieben ein Programm, das als Eingabe den Status der Pixel auf dem Bildschirm, den aktuellen Punktestand und das Ziel, diesen zu maximieren, erhielt. Ein typisches Beispiel für Reinforcement Learning, eine maschinelle Lerntechnik, bei der ein Algorithmus durch Interaktion mit seiner Umgebung lernt. Der Prozess findet ohne das Eingreifen des Menschen statt: Das Programm erhält Belohnungen, wenn es Aufgaben korrekt ausführt, und Bestrafungen, wenn es dies nicht tut. Verstärktes Lernen ist eine klassische Technik, die sich aus der Verhaltenspsychologie ableitet: Eine positive Belohnung erhöht die Neigung, eine bestimmte Sache wieder zu tun und umgekehrt.

Das Programm begann mit zufälligen Spielzügen, dann wurden diese immer effizienter. Schnell erkannte er den Hack, den alle Kids der 80er Jahre nach hunderten von Spielen entdeckten: Ein Loch in der Wand zu öffnen, den Ball hineinzulassen und die Wand von innen zu zerstören.

Im Jahr 2014 gelang es den von DeepMind „ausgebrüteten“ Programmen, menschliche Fähigkeiten in 49 Atari-Spielen zu überwinden. Die Forschungsergebnisse wurden in der renommierten Fachzeitschrift Nature veröffentlicht.

Zu diesem Zeitpunkt hatte das Unternehmen – ein Hybrid aus Start-up und Akademie – 400 Ingenieure und Neurowissenschaftler. Google kaufte es für 500 Millionen Dollar.

Sichtlich zufrieden konzentrierte sich Hassabis auf seine Herausforderung Go.

Das Projekt, einen digitalen Meister zu schaffen, bekam den Namen AlphaGo.

Das Programm basiert auf neuronalen Netzen. Es ging von einer Datenbank mit 30 Millionen Positionen aus, die aus Spielen zwischen Menschen resultierten.

Ein tiefes neuronales Netzwerk wurde mit überwachtem Lernen trainiert, um aus jeder Position zu berechnen, welches die vielversprechendsten Züge waren. Diese erste Phase dauerte drei Wochen. Zu diesem Zeitpunkt hatte das Programm die Fähigkeiten eines Amateurspielers.

In der zweiten Phase (Reinforcement Learning) – die einen Tag dauerte – begann das Programm gegen sich selbst zu spielen und sich zu verbessern. Ein zweites neuronales Netz wurde dem ersten hinzugefügt. Seine Aufgabe war es, die aktuelle Situation auf dem Brett zu bewerten: Je höher der Wert, desto größer die Gewinnchancen. Um diesen Wert zu berechnen, müssen die folgenden Züge simuliert werden. Dabei wurde eine „alte“ KI-Technik verwendet: eine Erkundung des Baums der Möglichkeiten mit einem Monte-Carlo-Baumsuchalgorithmus. Dank der Ergebnisse der beiden neuronalen Netze war die Forschung machbar und weniger teuer.

Noch eine Woche Training und AlphaGo war bereit, mit einem menschlichen Meister getestet zu werden.

Im Jahr 2015 besiegte AlphaGo in einem geheimen Test den Europameister chinesischer Herkunft Fan Hui mit 5:0. Das Programm lernte weiter.

Im März 2016 ist der koreanische Weltmeister Lee Sedol an der Reihe, einer der größten lebenden Meister. Diesmal war die Herausforderung ausgeschrieben und wurde live aus Seoul übertragen. Der Gewinner hätte eine Million Dollar verdient.

In der Zwischenzeit war Fan Hui zu einer Art „Coach“ von AlphaGo geworden, der Schwächen in seinem Spiel fand und ihm half, seine Leistungen zu verbessern. Ja, wir scheinen die epische Geschichte von Rocky und Apollo Creed neu zu erleben …

Im ersten Spiel der Herausforderung gewann AlphaGo. Lee Sedol sagte, er hätte nicht erwartet, ein Spiel zu verpassen. Aber das Schlimmste sollte noch für ihn kommen. Im zweiten Spiel machte AlphaGo einen völlig unerwarteten, unorthodoxen, „fremden“ Zug, wie ein westlicher Meister, Michael Redmond, verriet. Der Schock in der Welt der Go-Spieler ist groß. Jahrtausende menschlicher Herausforderungen hatten eine solche Strategie nicht hervorgebracht. Fan Hui verliert die zweite Partie, und am Ende verliert er die Herausforderung mit 4:1.

AlphaGo blieb unbeeindruckt. Nicht einmal ein „Piep“ der Zufriedenheit. Aber er zeigte, dass er Intuition und Kreativität hat.

Die Geschichte ist hier noch nicht zu Ende.

AlphaGo hat immer noch ein menschliches Erbe, da es seinen Lernprozess mit Spielen von Menschen begonnen hat.

Bei DeepMind will man noch weiter gehen.

Eine neue Version des Programms, AlphaGo Zero, wird erstellt. Paradoxerweise ist sie einfacher als die vorherige, mit einem einzigen neuronalen Netzwerk, das die beiden bestehenden umfasst. Diesmal ohne menschliche „Verunreinigung“: AlphaGo Zero wird mit den Regeln von Go instruiert und dazu gebracht, nur mit sich selbst zu spielen. Nach 40 Tagen und 29 Millionen gespielten Partien ist es bereit, seinen Vorgänger herauszufordern.

100-mal schneller und 10-mal effizienter schlägt AlphaGo Zero AlphaGo mit 100 zu 0.

Ohne biologische Vorurteile und mit der Fähigkeit, „über den Tellerrand hinauszuschauen“, kann AlphaGo Zero sein Potenzial entfalten.

Wie wurde diese Geschichte von der Go-Welt erlebt? Wie einen unerträglichen Rückschlag? Wie eine unüberwindbare Frustration? Ganz im Gegenteil. Die Spieler – darunter auch Fan Hui, das erste „Opfer“ – haben ihrerseits vom digitalen Gegner gelernt, ihr Spiel verbessert und neue Strategien genutzt, die zuvor durch die Kraft der Tradition „blockiert“ waren.

Das Vermächtnis des AlphaGo-Projekts geht über Spielprogramme hinaus; mehrere Merkmale machen es zu einem wichtigen Schritt in Richtung AGI (Artificial General Intelligence), einer digitalen Intelligenz, die in der Lage ist, mit Menschen in vielen Bereichen und nicht nur in begrenzten Domänen zu konkurrieren. Genauer gesagt hat das Projekt jedoch gezeigt, dass in Bereichen, in denen Strategien wichtig sind, wie z. B. Investitionen, politische und militärische KI fast bereit sind, die besten menschlichen Strategen herauszufordern (oder ihnen zu helfen).

Als wir von Strategien – in diesem Fall geopolitischen – sprachen, sollte angemerkt werden, dass der Erfolg von AlphaGo ein enormes Echo in China, der Heimat des Go, hervorgerufen hat, so sehr, dass die chinesische Regierung einen großen Investitionsplan ins Leben gerufen hat, um bis 2030 zum wichtigsten KI-Innovationszentrum der Welt zu werden.

Quellen

John Brockman (Hrsg.), Possible Minds: Twenty-Five Ways of Looking at AI, Penguin Press, 2019

Marcus Du Sautoy, The Creativity Code: How AI is learning to write, paint and think, Fourth Estate, 2019

Terrence J. Sejnowski, The Deep Learning Revolution, The MIT Press, 2018

Max Tegmark, Life 3.0: Being Human in the Age of Artificial Intelligence, Penguin, 2017

Dawn Chan, The AI That Has Nothing to Learn From Humans

Jonathan Hui, AlphaGo: Wie funktioniert es technisch? (Eine kurze, aber klare technische Anleitung zur Funktionsweise von AlphaGo…)

Jonathan Hui, AlphaGo Zero – ein Game Changer. (Wie es funktioniert?) (…und AphaGo Zero)

David Silver, Demis Hassabis, AlphaGo Zero: Starting from scratch

David Silver u.a., Mastering the game of Go without human knowledge, Nature, 2017/10/18/online, Macmillan Publishers Limited, part of Springer. (Der in Nature veröffentlichte Artikel zu AlphaGo Zero)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.