/div>
Talvez nas suas mitologias, a Inteligência Artificial do futuro narrará as façanhas de AlphaGo, o guerreiro das pedras pretas e brancas que derrotaram hordas de humanos (mesmo a inteligência digital avançada gostará de exagerar …).
The Go é um jogo de estratégia de origem chinesa, o mais antigo dos que ainda são jogados. Na China imperial, foi considerado mais uma arte do que um passatempo e foi incluído nas quatro artes essenciais juntamente com pintura, caligrafia e música.
O campo de jogo é um tabuleiro de xadrez (“goban”) constituído por 19 linhas horizontais e 19 linhas verticais para 361 intersecções. Os jogadores têm um certo número de damas (“pedras”), brancas ou pretas, para serem colocadas à vez em intersecções vazias. O objectivo do jogo é rodear mais espaço (intersecções vazias) do adversário com as suas próprias pedras.
Chess é um jogo “destrutivo”, em que a complexidade diminui a cada jogada. O contrário é válido para Go em que a complexidade aumenta: isto significa que o número de posições possíveis está na ordem de 10¹⁷⁰, muito, muito mais elevado do número de átomos em todo o universo, 10⁸⁰. O Go é mais intuitivo do que o xadrez: estes podem ser representados como uma enorme árvore cheia de bifurcações, o Go como uma paisagem abstracta na qual é possível reconhecer padrões e estruturas.
Navegar neste oceano de possibilidades faz do jogo uma experiência sem fim, uma tela em tecelagem perpétua na qual se entrelaçam intuição e lógica, poesia e matemática. Como neste último, regras simples dão origem a “belas complexidades”. Não é por nada que Go é amado por muitos matemáticos que consideram a posição final de um jogo como uma conjectura matemática e o jogo como os passos lógicos necessários para provar essa conjectura.
Até há alguns anos atrás, os mesmos matemáticos, jogadores experientes e programadores concordaram que era extremamente difícil escrever um software que jogasse satisfatoriamente Go: A sua previsão era que seriam necessárias décadas para imitar a “habilidade” dos melhores programas de xadrez agora capazes de vencer até campeões mundiais (sem ser DeepBlue…).
Eles estavam errados.
Demis Hassabis era um prodígio enfant da informática, recrutado aos 16 anos de idade da Universidade de Cambridge. Nos cursos de IA que se seguiram, os professores insistiram em sublinhar a impossibilidade de ter um jogo de computador Go decentemente. Ele tomou-a como um desafio.
A sua ideia era simples: em vez de escrever um programa que pudesse jogar Go, escrever um meta-programa. Um programa que aprendia por si mesmo o que era necessário, como um bebé.
Para o fazer, percebeu que tinha de aprofundar o seu conhecimento do cérebro humano e doutorou-se em Neurociência no University College London.
Neste momento – estamos em 2010 – com dois parceiros fundou a empresa DeepMind.
Começaram com algo simples. Pegaram num velho jogo Atari, Breakout (sim, o da parede de tijolos para derrubar) e escreveram um programa que recebia como entrada o estado dos pixels no ecrã, a pontuação actual e o objectivo de maximizá-la. Um exemplo típico de aprendizagem de reforço, uma técnica de aprendizagem mecânica em que um algoritmo aprende interagindo com o seu ambiente. O processo tem lugar sem a intervenção humana: O programa recebe prémios pela execução correcta de tarefas e penalizações em caso contrário. A aprendizagem reforçada é uma técnica clássica que deriva da psicologia comportamental: Uma recompensa positiva aumenta a tendência para fazer uma determinada coisa de novo e vice-versa.
O programa começou a jogar com movimentos aleatórios, depois estes tornaram-se cada vez mais eficientes. Rapidamente identificou o hack que todos os miúdos dos anos 80, depois de centenas de jogos, descobriram: Abrindo um buraco na parede, deixando a bola entrar nela e demolindo a parede por dentro.
Em 2014 os programas “incubados” pelo DeepMind conseguiram ultrapassar as capacidades humanas em 49 jogos Atari. A investigação foi também publicada na prestigiada revista científica Nature.
Naquela altura, a empresa – um híbrido de startups e academias – contava com 400 engenheiros e neurocientistas. O Google comprou-a por 500 milhões de dólares.
P>Bem compreensivelmente satisfeito, Hassabis concentrou-se no seu desafio de Go.
O projecto de criar um mestre digital assumiu o nome de AlphaGo.
O programa é baseado em redes neurais. Começou a partir de uma base de dados de 30 milhões de posições resultantes de jogos jogados entre humanos.
Uma rede neural profunda foi treinada com aprendizagem supervisionada para calcular, a partir de cada posição, quais foram os movimentos mais promissores. Esta primeira fase durou três semanas. Nesta altura, o programa tinha a habilidade de um jogador amador.
Na segunda fase (aprendizagem de reforço) – que durou um dia – o programa começou a jogar contra si próprio, melhorando a si próprio. Uma segunda rede neural foi adicionada à primeira. A sua tarefa era valorizar a situação actual no quadro: quanto maior for o valor, maiores serão as hipóteses de ganhar. Para calcular este valor, devem ser simulados os seguintes movimentos. Foi utilizada uma técnica “antiga” de IA: uma exploração da árvore de possibilidades com um algoritmo de pesquisa de árvores Monte Carlo. A pesquisa foi tornada viável e menos dispendiosa graças aos resultados das duas redes neurais.
Mais uma semana de treino e AlphaGo estava pronto para ser testado com um mestre humano.
Em 2015, num teste secreto, AlphaGo derrotou o campeão europeu de origem chinesa Fan Hui 5-0. O programa continuou a aprender.
Em Março de 2016 é a vez do campeão mundial coreano Lee Sedol, um dos maiores mestres vivos. Desta vez, o desafio foi anunciado e transmitido em directo de Seul. O vencedor teria ganho um milhão de dólares.
Meanwhile, Fan Hui tinha-se tornado uma espécie de “treinador” de AlphaGo, encontrando fraquezas no seu jogo e ajudando a melhorar as suas performances. Sim, parece que revivemos a história épica de Rocky e Apollo Creed …
No primeiro jogo do desafio, AlphaGo ganhou. Lee Sedol disse que não esperava perder um jogo. Mas o pior ainda estava por vir para ele. No segundo jogo, AlphaGo fez uma jogada completamente inesperada, pouco ortodoxa, “alienígena”, como revelou um mestre ocidental, Michael Redmond. O choque do mundo dos jogadores de Go é grande. Milénios de desafios humanos não tinham produzido uma tal estratégia. Fan Hui perde o segundo jogo e, no final, perderá o desafio por 4-1.
AlphaGo permaneceu imperturbável. Nem sequer um “bip” de satisfação. Mas mostrou ter intuição e criatividade.
A história não acaba aqui.
AlphaGo ainda tem uma herança humana, tendo iniciado o seu processo de aprendizagem com jogos jogados por seres humanos.
No DeepMind querem ir mais longe.
Uma nova versão do programa, AlphaGo Zero, é criada. Paradoxalmente, é mais simples do que a anterior, com uma única rede neural que engloba as duas existentes. Desta vez, nenhuma “contaminação” humana: AlphaGo Zero é instruído com as regras de Go e feito para jogar apenas consigo mesmo. Após 40 dias e 29 milhões de jogos jogados, está pronto a desafiar o seu antecessor.
100 vezes mais rápido e 10 vezes mais eficiente, AlphaGo Zero vence AlphaGo por 100 a 0.
Sem preconceitos biológicos e com a capacidade de “olhar para além”, AlphaGo Zero é livre de expressar o seu potencial.
Como foi esta história vivida pelo mundo de Go? Como um revés insuportável? Como uma frustração insuperável? Muito pelo contrário. Os jogadores – incluindo Fan Hui, a primeira “vítima” – por sua vez aprenderam com o adversário digital, melhorando o seu jogo e explorando novas estratégias que anteriormente estavam “bloqueadas” pela força da tradição.
O legado do projecto AlphaGo vai além dos programas de jogo; várias características fazem dele um passo importante em direcção ao AGI (Inteligência Geral Artificial), inteligência digital capaz de competir com os humanos em múltiplos campos e não apenas em domínios restritos. Mais especificamente, contudo, o projecto demonstrou que em sectores onde as estratégias são importantes, tais como investimentos, a IA política e militar estão quase prontas para desafiar (ou ajudar) os melhores estrategas humanos.
Fala de estratégias – geopolíticas neste caso – é de notar que o sucesso de AlphaGo teve um enorme eco na China, a casa do Go, tanto que o governo chinês lançou um grande plano de investimento para se tornar até 2030 o principal centro de inovação da IA no mundo.
Fontes
John Brockman (editado por), Possible Minds: Twenty-Five Ways of Looking at AI, Penguin Press, 2019
Marcus Du Sautoy, The Creativity Code: How AI is learning to write, paint and think, Fourth Estate, 2019
Terrence J. Sejnowski, The Deep Learning Revolution, The MIT Press, 2018
Max Tegmark, Life 3.0: Being Human in the Age of Artificial Intelligence, Penguin, 2017
Dawn Chan, The AI That Has Nothing to Learn From Humans
Jonathan Hui, AlphaGo: Como funciona tecnicamente? (Um breve mas claro guia técnico do funcionamento de AlphaGo…)
Jonathan Hui, AlphaGo Zero – um jogo de mudança. (Como funciona?) (…e AphaGo Zero)
David Silver, Demis Hassabis, AlphaGo Zero: Começando do zero
David Silver et al., Dominando o jogo de Go sem conhecimento humano, Nature, 2017/10/18/online, Macmillan Publishers Limited, parte de Springer. (O artigo publicado na Nature relacionado com AlphaGo Zero)