Foto: Jonathan Reichel-
16 de septiembre, 2019 – 6 min read
Quizás en sus mitologías, las Inteligencias Artificiales del futuro narren las hazañas de AlphaGo, el guerrero de las piedras blancas y negras que derrotó a hordas de humanos (hasta la inteligencia digital avanzada le gustará exagerar…).
El Go es un juego de estrategia de origen chino, el más antiguo de los que aún se juegan. En la China imperial se consideraba más un arte que un pasatiempo y se incluía en las cuatro artes esenciales junto con la pintura, la caligrafía y la música.
El campo de juego es un tablero de ajedrez («goban») que consta de 19 líneas horizontales y 19 verticales para 361 intersecciones. Los jugadores disponen de un determinado número de fichas («piedras»), blancas o negras, que deben colocar por turnos en las intersecciones vacías. El objetivo del juego es rodear más espacio (intersecciones vacías) del adversario con sus propias piedras.
El ajedrez es un juego «destructivo», en el que la complejidad disminuye con cada movimiento. Lo contrario ocurre con el Go en el que la complejidad aumenta: esto significa que el número de posiciones posibles es del orden de 10¹⁷⁰, mucho, mucho más alto del número de átomos de todo el universo, 10⁸⁰. El Go es más intuitivo que el ajedrez: estos pueden representarse como un enorme árbol lleno de bifurcaciones, el Go como un paisaje abstracto en el que es posible reconocer patrones y estructuras.
Navegar en este océano de posibilidades hace del juego una experiencia interminable, un lienzo en perpetuo tejido en el que se entrelazan la intuición y la lógica, la poesía y las matemáticas. Como en este último, las reglas simples dan lugar a «bellas complejidades». No en vano el Go es amado por muchos matemáticos que consideran la posición final de una partida como una conjetura matemática y la jugada como los pasos lógicos necesarios para demostrar esa conjetura.
Hasta hace unos años los mismos matemáticos, jugadores experimentados y programadores coincidían en que era extremadamente difícil escribir un software que jugara satisfactoriamente al Go: Su predicción era que se tardarían décadas en emular la «habilidad» de los mejores programas de ajedrez que ahora son capaces de vencer incluso a los campeones del mundo (sin ser DeepBlue…).
Se equivocaron.
Demis Hassabis era un enfant prodige de la informática, reclutado a los 16 años en la Universidad de Cambridge. En los cursos de IA que siguió, los profesores insistieron en subrayar la imposibilidad de que un ordenador jugara decentemente al Go. Él lo tomó como un reto.
Su idea era sencilla: en lugar de escribir un programa que pudiera jugar al Go, escribir un metaprograma. Un programa que aprendiera por sí mismo lo que se necesitaba, como un bebé.
Para ello se dio cuenta de que tenía que profundizar en el conocimiento del cerebro humano y se doctoró en Neurociencia en el University College de Londres.
En este punto -estamos en 2010- con dos socios fundó la empresa DeepMind.
Empezaron con algo sencillo. Tomaron un viejo juego de Atari, Breakout (sí, el de la pared de ladrillos a derribar) y escribieron un programa que recibía como entrada el estado de los píxeles en la pantalla, la puntuación actual y el objetivo de maximizarla. Un ejemplo típico de aprendizaje por refuerzo, una técnica de aprendizaje automático en la que un algoritmo aprende interactuando con su entorno. El proceso tiene lugar sin la intervención humana: El programa recibe premios al realizar las tareas correctamente y penalizaciones en caso contrario. El aprendizaje reforzado es una técnica clásica que deriva de la psicología del comportamiento: Una recompensa positiva aumenta la tendencia a volver a hacer una determinada cosa y viceversa.
El programa empezó jugando con jugadas aleatorias, luego éstas se fueron haciendo más y más eficientes. Rápidamente identificó el hack que todos los niños de los 80, tras cientos de partidas, descubrieron: Abrir un agujero en la pared, dejar que la bola entre en él y demoler la pared desde dentro.
En 2014 los programas «incubados» por DeepMind lograron superar las habilidades humanas en 49 juegos de Atari. La investigación se publicó también en la prestigiosa revista científica Nature.
En ese momento, la empresa -un híbrido de startups y academias- contaba con 400 ingenieros y neurocientíficos. Google la compró por 500 millones de dólares.
Entendiblemente satisfecho, Hassabis se centró en su desafío al Go.
El proyecto para crear un maestro digital tomó el nombre de AlphaGo.
El programa se basa en redes neuronales. Partió de una base de datos de 30 millones de posiciones resultantes de partidas jugadas entre humanos.
Se ha entrenado una red neuronal profunda con aprendizaje supervisado para calcular, a partir de cada posición, cuáles eran las jugadas más prometedoras. Esta primera fase duró tres semanas. En este punto el programa tenía la habilidad de un jugador amateur.
En la segunda fase (aprendizaje por refuerzo) -que duró un día- el programa comenzó a jugar contra sí mismo, mejorándose. A la primera red neuronal se le añadió una segunda. Su tarea consistía en valorar la situación actual en el tablero: cuanto mayor sea el valor, mayores serán las posibilidades de ganar. Para calcular este valor, hay que simular las siguientes jugadas. Se utilizó una técnica de IA «antigua»: una exploración del árbol de posibilidades con un algoritmo de búsqueda de árboles de Montecarlo. La investigación se hizo factible y menos costosa gracias a los resultados de las dos redes neuronales.
Una semana más de entrenamiento y AlphaGo estaba listo para ser probado con un maestro humano.
En 2015, en una prueba secreta, AlphaGo derrotó al campeón europeo de origen chino Fan Hui por 5-0. El programa siguió aprendiendo.
En marzo de 2016 le tocó el turno al campeón mundial coreano Lee Sedol, uno de los mayores maestros vivos. Esta vez el reto se anunció y se emitió en directo desde Seúl. El ganador habría ganado un millón de dólares.
Mientras tanto, Fan Hui se había convertido en una especie de «entrenador» de AlphaGo, encontrando puntos débiles en su juego y ayudando a mejorar sus actuaciones. Sí, parece que revivimos la épica historia de Rocky y Apollo Creed…
En la primera partida del desafío, AlphaGo ganó. Lee Sedol dijo que no esperaba perder una partida. Pero lo peor estaba por llegar para él. En la segunda partida, AlphaGo realizó un movimiento completamente inesperado, poco ortodoxo y «ajeno», como reveló un maestro occidental, Michael Redmond. La conmoción del mundo de los jugadores de Go es grande. Milenios de desafíos humanos no habían producido una estrategia semejante. Fan Hui pierde la segunda partida y, al final, perderá el desafío por 4-1.
AlphaGo permaneció imperturbable. Ni siquiera un «pitido» de satisfacción. Pero demostró que tenía intuición y creatividad.
La historia no acaba aquí.
AlphaGo sigue teniendo una herencia humana, al haber iniciado su proceso de aprendizaje a partir de partidas jugadas por seres humanos.
En DeepMind quieren ir más allá.
Se crea una nueva versión del programa, AlphaGo Zero. Paradójicamente es más sencilla que la anterior, con una sola red neuronal que engloba a las dos existentes. Esta vez no hay «contaminación» humana: AlphaGo Zero es instruido con las reglas del Go y se le hace jugar sólo consigo mismo. Después de 40 días y 29 millones de partidas jugadas está listo para desafiar a su predecesor.
100 veces más rápido y 10 veces más eficiente, AlphaGo Zero vence a AlphaGo por 100 a 0.
Sin prejuicios biológicos y con la capacidad de «mirar más allá», AlphaGo Zero es libre de expresar su potencial.
¿Cómo ha vivido esta historia el mundo del Go? Como un revés insoportable? Como una frustración insuperable? Todo lo contrario. Los jugadores -incluido Fan Hui, la primera «víctima»- han aprendido a su vez del oponente digital, mejorando su juego y explotando nuevas estrategias que antes estaban «bloqueadas» por la fuerza de la tradición.
El legado del proyecto AlphaGo va más allá de los programas de juego; varias características lo convierten en un paso importante hacia la AGI (Inteligencia General Artificial), la inteligencia digital capaz de competir con los humanos en múltiples campos y no solo en dominios restringidos. Sin embargo, más concretamente, el proyecto ha demostrado que en sectores en los que las estrategias son importantes, como las inversiones, la IA política y la militar, están casi preparados para desafiar (o ayudar) a los mejores estrategas humanos.
Hablando de estrategias -geopolíticas en este caso- cabe destacar que el éxito de AlphaGo ha tenido un enorme eco en China, la cuna del Go, hasta el punto de que el gobierno chino ha puesto en marcha un importante plan de inversiones para convertirse en 2030 en el principal centro de innovación en IA del mundo.
Fuentes
John Brockman (editado por), Possible Minds: Twenty-Five Ways of Looking at AI, Penguin Press, 2019
Marcus Du Sautoy, The Creativity Code: Cómo la IA está aprendiendo a escribir, pintar y pensar, Fourth Estate, 2019
Terrence J. Sejnowski, The Deep Learning Revolution, The MIT Press, 2018
Max Tegmark, Life 3.0: Ser humano en la era de la inteligencia artificial, Penguin, 2017
Dawn Chan, La IA que no tiene nada que aprender de los humanos
Jonathan Hui, AlphaGo: ¿Cómo funciona técnicamente? (Una breve pero clara guía técnica sobre el funcionamiento de AlphaGo…)
Jonathan Hui, AlphaGo Zero – a game changer. (¿Cómo funciona?) (…y AphaGo Zero)
David Silver, Demis Hassabis, AlphaGo Zero: partiendo de cero
David Silver et al., Mastering the game of Go without human knowledge, Nature, 2017/10/18/online, Macmillan Publishers Limited, parte de Springer. (El artículo publicado en Nature relativo a AlphaGo Zero)