Articles

Go, IA, Go!

Posted on

Photo : Jonathan Reichel-
Federico Bo

.

Federico Bo

Follow

Sep 16, 2019 – 6 min de lecture

Peut-être que dans leurs mythologies, les intelligences artificielles du futur raconteront les exploits d’AlphaGo, le guerrier des pierres noires et blanches qui a vaincu des hordes d’humains (même les intelligences numériques avancées se plairont à exagérer…).

Le Go est un jeu de stratégie d’origine chinoise, le plus ancien de ceux qui sont encore pratiqués. Dans la Chine impériale, il était considéré comme un art plus qu’un passe-temps et faisait partie des quatre arts essentiels avec la peinture, la calligraphie et la musique.

Le terrain de jeu est un échiquier (« goban ») composé de 19 lignes horizontales et 19 lignes verticales pour 361 intersections. Les joueurs disposent d’un certain nombre de pions (« pierres »), blancs ou noirs, à placer tour à tour sur les intersections vides. Le but du jeu est d’entourer plus d’espace (intersections vides) de l’adversaire avec ses propres pierres.

Les échecs sont un jeu « destructif », dans lequel la complexité diminue à chaque coup. Le contraire est vrai pour le Go dans lequel la complexité augmente : cela signifie que le nombre de positions possibles est de l’ordre de 10¹⁷⁰, beaucoup, beaucoup plus élevé du nombre d’atomes dans l’univers entier, 10⁸⁰. Le Go est plus intuitif que les échecs : ces derniers peuvent être représentés comme un immense arbre plein de bifurcations, le Go comme un paysage abstrait dans lequel il est possible de reconnaître des motifs et des structures.

Naviguer dans cet océan de possibilités fait du jeu une expérience sans fin, une toile en perpétuel tissage dans laquelle s’entremêlent intuition et logique, poésie et mathématiques. Comme dans ce dernier, des règles simples donnent naissance à de « belles complexités ». Ce n’est pas pour rien que le Go est aimé par de nombreux mathématiciens qui considèrent la position finale d’une partie comme une conjecture mathématique et le jeu comme les étapes logiques nécessaires pour prouver cette conjecture.

Jusqu’à il y a quelques années, les mêmes mathématiciens, joueurs expérimentés et programmeurs s’accordaient à dire qu’il était extrêmement difficile d’écrire un logiciel permettant de jouer au Go de manière satisfaisante : Leur prédiction était qu’il faudrait des décennies pour émuler la « compétence » des meilleurs programmes d’échecs aujourd’hui capables de battre même des champions du monde (sans être DeepBlue…).

Ils avaient tort.

Demis Hassabis était un enfant prodige de l’informatique, recruté à 16 ans à l’université de Cambridge. Dans les cours d’IA qui ont suivi, les professeurs ont insisté sur l’impossibilité de faire jouer décemment un ordinateur au Go. Il a pris cela comme un défi.

Son idée était simple : au lieu d’écrire un programme capable de jouer au Go, écrire un méta-programme. Un programme qui apprenait par lui-même ce dont il avait besoin, comme un bébé.

Pour y parvenir, il s’est rendu compte qu’il devait approfondir sa connaissance du cerveau humain et a passé un doctorat en neurosciences à l’University College de Londres.

À ce stade – nous sommes en 2010 – il a fondé avec deux partenaires la société DeepMind.

Ils ont commencé par quelque chose de simple. Ils ont pris un vieux jeu Atari, Breakout (oui, celui du mur de briques à abattre) et ont écrit un programme qui recevait en entrée l’état des pixels sur l’écran, le score actuel et l’objectif de le maximiser. Un exemple typique d’apprentissage par renforcement, une technique d’apprentissage automatique dans laquelle un algorithme apprend en interagissant avec son environnement. Le processus se déroule sans intervention humaine : Le programme reçoit des récompenses en exécutant correctement les tâches et des pénalités dans le cas contraire. L’apprentissage par renforcement est une technique classique qui découle de la psychologie comportementale : Une récompense positive augmente la tendance à refaire une certaine chose et vice versa.

Le programme a commencé à jouer avec des coups aléatoires, puis ceux-ci sont devenus de plus en plus efficaces. Rapidement, il a identifié le hack que tous les enfants des années 80, après des centaines de jeux, ont découvert : Ouvrir un trou dans le mur, laisser la balle y entrer et démolir le mur de l’intérieur.

En 2014, les programmes « incubés » par DeepMind ont réussi à dépasser les capacités humaines dans 49 jeux Atari. Les recherches ont également été publiées dans la prestigieuse revue scientifique Nature.

À l’époque, l’entreprise – hybride de startups et d’académies – comptait 400 ingénieurs et neuroscientifiques. Google l’a rachetée pour 500 millions de dollars.

Incroyablement satisfait, Hassabis s’est concentré sur son défi au Go.

Le projet de créer un maître numérique a pris le nom d’AlphaGo.

Le programme est basé sur des réseaux neuronaux. Il est parti d’une base de données de 30 millions de positions résultant de parties jouées entre humains.

Un réseau neuronal profond a été entraîné avec un apprentissage supervisé pour calculer, à partir de chaque position, quels étaient les coups les plus prometteurs. Cette première phase a duré trois semaines. À ce stade, le programme avait la compétence d’un joueur amateur.

Dans la deuxième phase (apprentissage par renforcement) – qui a duré un jour – le programme a commencé à jouer contre lui-même, en s’améliorant. Un deuxième réseau neuronal a été ajouté au premier. Sa tâche consistait à évaluer la situation actuelle sur le plateau : plus la valeur est élevée, plus les chances de gagner sont grandes. Pour calculer cette valeur, les coups suivants doivent être simulés. Une « vieille » technique d’IA a été utilisée : une exploration de l’arbre des possibilités avec un algorithme de recherche d’arbre de Monte Carlo. La recherche a été rendue réalisable et moins coûteuse grâce aux résultats des deux réseaux neuronaux.

Une semaine d’entraînement supplémentaire et AlphaGo était prêt à être testé avec un maître humain.

En 2015, lors d’un test secret, AlphaGo a battu le champion européen d’origine chinoise Fan Hui 5-0. Le programme a continué à apprendre.

En mars 2016, c’est au tour du champion du monde coréen Lee Sedol, l’un des plus grands maîtres vivants. Cette fois, le défi a été annoncé et diffusé en direct de Séoul. Le vainqueur aurait gagné un million de dollars.

En attendant, Fan Hui était devenu une sorte de « coach » d’AlphaGo, trouvant les faiblesses de son jeu et l’aidant à améliorer ses performances. Oui, il nous semble revivre l’épopée de Rocky et Apollo Creed…

Dans la première partie du défi, AlphaGo a gagné. Lee Sedol a déclaré qu’il ne s’attendait pas à manquer un match. Mais le pire était encore à venir pour lui. Dans la deuxième partie, AlphaGo a effectué un coup complètement inattendu, peu orthodoxe, « extraterrestre », comme l’a révélé un maître occidental, Michael Redmond. Le choc est grand dans le monde des joueurs de Go. Des millénaires de défis humains n’avaient pas produit une telle stratégie. Fan Hui perd la deuxième partie et, au final, il perdra le défi pour 4-1.

AlphaGo est resté imperturbable. Pas même un « bip » de satisfaction. Mais il a montré qu’il avait de l’intuition et de la créativité.

L’histoire ne s’arrête pas là.

AlphaGo a encore un héritage humain, puisqu’il a commencé son apprentissage à partir de jeux joués par des êtres humains.

A DeepMind, on veut aller plus loin.

Une nouvelle version du programme, AlphaGo Zero, est créée. Paradoxalement, elle est plus simple que la précédente, avec un seul réseau neuronal qui englobe les deux existants. Cette fois, pas de « contamination » humaine : AlphaGo Zero reçoit des instructions sur les règles du go et ne joue qu’avec lui-même. Après 40 jours et 29 millions de parties jouées, il est prêt à défier son prédécesseur.

100 fois plus rapide et 10 fois plus efficace, AlphaGo Zero bat AlphaGo pour 100 à 0.

Sans préjugés biologiques et avec la capacité de « regarder au-delà », AlphaGo Zero est libre d’exprimer son potentiel.

Comment cette histoire a-t-elle été vécue par le monde du Go ? Comme un revers insupportable ? Comme une frustration insurmontable ? Bien au contraire. Les joueurs – y compris Fan Hui, la première « victime » – ont à leur tour appris de leur adversaire numérique, améliorant leur jeu et exploitant de nouvelles stratégies qui étaient auparavant « bloquées » par la force de la tradition.

L’héritage du projet AlphaGo va au-delà des programmes de jeu ; plusieurs caractéristiques en font un pas important vers l’AGI (Artificial General Intelligence), l’intelligence numérique capable de rivaliser avec l’homme dans de multiples domaines et pas seulement dans des domaines restreints. Plus spécifiquement, cependant, le projet a montré que dans les secteurs où les stratégies sont importantes, comme les investissements, les IA politiques et militaires sont presque prêtes à défier (ou à aider) les meilleurs stratèges humains.

En parlant de stratégies – géopolitiques en l’occurrence – il faut noter que le succès d’AlphaGo a eu un énorme écho en Chine, le pays du Go, à tel point que le gouvernement chinois a lancé un grand plan d’investissement pour devenir d’ici 2030 le principal centre d’innovation en IA au monde.

Sources

John Brockman (sous la direction de), Possible Minds : Twenty-Five Ways of Looking at AI, Penguin Press, 2019

Marcus Du Sautoy, The Creativity Code : Comment l’IA apprend à écrire, peindre et penser, Fourth Estate, 2019

Terrence J. Sejnowski, The Deep Learning Revolution, The MIT Press, 2018

Max Tegmark, Life 3.0 : Being Human in the Age of Artificial Intelligence, Penguin, 2017

Dawn Chan, L’IA qui n’a rien à apprendre des humains

Jonathan Hui, AlphaGo : comment ça marche techniquement ? (Un guide technique bref mais clair sur le fonctionnement d’AlphaGo…)

Jonathan Hui, AlphaGo Zero – a game changer. (Comment ça marche ?) (…et AphaGo Zero)

David Silver, Demis Hassabis, AlphaGo Zero : partir de zéro

David Silver et al., Mastering the game of Go without human knowledge, Nature, 2017/10/18/en ligne, Macmillan Publishers Limited, part of Springer. (L’article publié dans Nature relatif à AlphaGo Zero)

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *