Articles

Go, AI, Go!

Posted on

写真。 ジョナサン・ライチェル-
Federico Bo
フェデリコ・ボー

フォロー

9月16日。 2019 – 6 min read

おそらく未来の人工知能は、その神話の中で、人間の大群を倒した黒と白の石の戦士であるAlphaGoの活躍を語り継ぐことになるでしょう(高度なデジタル知能でさえ、誇張した表現を好むでしょう…)。

囲碁は中国起源の戦略ゲームで、現在も行われているものの中では最も古いものです。

囲碁は中国で生まれた戦略ゲームで、今でも遊ばれているものの中では最も古いものです。帝政期の中国では、囲碁は娯楽というより芸術と考えられており、絵画、書道、音楽とともに四大芸術に含まれていました。 プレイヤーは、白または黒のチェッカー(「石」)を決められた数だけ持ち、空いている交点に順番に置いていきます。

チェスは「破壊的」なゲームで、一手ごとに複雑さが減少していきます。

チェスは「破壊的」なゲームで、一手ごとに複雑さが増していきますが、囲碁は逆に複雑さが増していきます。これは、可能なポジションの数が10⁷⁰のオーダーであることを意味します。 チェスは分岐の多い巨大な木として、囲碁はパターンや構造を認識できる抽象的な風景として表現することができます。

この可能性の海をナビゲートすることで、ゲームは無限の経験となり、直感と論理、詩と数学が絡み合った永遠に織り続けられるキャンバスとなります。 このように、シンプルなルールが「美しい複雑さ」を生み出すのです。

数年前までは、同じ数学者、経験豊富なプレーヤー、プログラマーが、満足に碁を打てるソフトウェアを作るのは非常に難しいという意見で一致していました。

Demis Hassabis は、16 歳でケンブリッジ大学に入学したコンピュータ サイエンス界の若き天才でした。 その後のAIコースでは、教授たちは、コンピュータにまともに囲碁を打たせることは不可能だと強調していました。

彼のアイデアはシンプルで、「囲碁を打つプログラムを書く代わりに、メタプログラムを書け」というものだった。

そのためには、人間の脳についての知識を深めなければならないと考え、ユニバーシティ・カレッジ・ロンドンで神経科学の博士号を取得しました。

この時点(2010年)で、彼は2人のパートナーとともに、DeepMind社を設立しました。

彼らは、古いアタリのゲーム「ブレイクアウト」(レンガの壁を倒すゲーム)を取り上げ、画面上のピクセルの状態、現在のスコア、それを最大化するという目標を入力として受け取るプログラムを書きました。 強化学習の典型的な例です。強化学習とは、機械学習の手法のひとつで、アルゴリズムが環境と相互作用することで学習します。 このプロセスは、人間が介入することなく行われます。 プログラムは、タスクを正しく実行すれば賞を受け、そうでなければペナルティを受ける。 強化学習は、行動心理学に由来する古典的な手法です。

プログラムは、最初はランダムな動きで遊んでいましたが、だんだんと効率的になっていきました。

プログラムは、ランダムな動きで遊び始め、だんだんと効率的になっていきました。

2014年、DeepMindが「インキュベート」したプログラムは、アタリのゲーム49本で人間の能力を超えることに成功しました。

当時、スタートアップとアカデミーのハイブリッドであるDeepMind社は、400人のエンジニアと神経科学者を抱えていました。

満足したハサビは、囲碁への挑戦に専念しました。

デジタル名人を生み出すプロジェクトは、「AlphaGo」と名付けられました。

このプログラムは、ニューラルネットワークに基づいています。

このプログラムはニューラルネットワークに基づいており、人間同士の対局から得られた3,000万のポジションのデータベースからスタートしました。

ディープニューラルネットワークが教師付き学習によって訓練され、各ポジションから最も有望な手を算出します。 この最初の段階は3週間続きました。

第2段階(強化学習)は1日で終了し、プログラムは自分自身と対戦し、自分自身を改善していきました。 1つ目のニューラルネットワークに2つ目のニューラルネットワークが追加されました。 このニューラルネットワークの役割は、盤上の現在の状況を評価することで、その値が高いほど勝利の可能性が高くなります。 この値を計算するには、次の手をシミュレートする必要があります。 モンテカルロ木探索アルゴリズムを用いて可能性の木を探索するという、「古い」AI技術が使われました。

あと1週間のトレーニングで、AlphaGoは人間のマスターとテストする準備が整いました。

2015年、秘密のテストで、AlphaGoは中国出身のヨーロッパチャンピオンFan Huiを5-0で破りました。 プログラムは学習を続けました。

2016年3月、現存する偉大なマスターの一人である韓国の世界チャンピオン、イ・セドルの番です。 今回の挑戦は宣伝され、ソウルから生放送されました。 優勝者は100万ドルを手にすることができました。

一方、ファン・ホイはAlphaGoの「コーチ」のような存在になり、彼のゲームの弱点を見つけ、パフォーマンスを向上させる手助けをしていました。 そう、私たちはロッキーとアポロ・クリードの壮大な物語を追体験しているかのようです・・・

チャレンジの最初のゲームでは、AlphaGoが勝ちました。 Lee Sedol氏は、ゲームを欠場するとは思っていなかったと言います。 しかし、彼にとって最悪の事態はまだ訪れていませんでした。 第2局でAlphaGoは、欧米の名人であるマイケル・レドモンド氏が明らかにしたように、まったく予想外の、異例の、「エイリアン」のような動きをしたのです。 棋士の世界の衝撃は大きい。 何千年にもわたる人類の挑戦では、このような戦略は生まれなかった。 Fan Huiは2局目を失い、結局、4勝1敗で挑戦権を失うことになります。

AlphaGoは平然としていました。 満足感の「ピッ」という音もしない。

物語はこれで終わりではありません。

AlphaGoはまだ人間の遺産を持っており、人間がプレイしたゲームから学習プロセスを開始しました。

DeepMindでは、さらに先へ進もうとしています。

新しいバージョンのプログラム「AlphaGo Zero」は、逆説的に前バージョンよりもシンプルで、既存の2つのニューラルネットワークを包含する1つのニューラルネットワークで構成されています。 今回は人間の「汚染」はありません。 AlphaGo Zeroは、囲碁のルールを教えられ、自分とだけ対局するように仕向けられます。

100倍速く、10倍効率的なAlphaGo Zeroは、AlphaGoを100対0で打ち負かしました。

生物学的な偏見がなく、「先を見る」能力を持つAlphaGo Zeroは、その可能性を自由に表現することができます。 耐えられない挫折のようなもの? 乗り越えられない挫折のようなものでしょうか? その逆です。

AlphaGoプロジェクトの遺産は、ゲームプログラムに留まらず、限定された領域だけでなく、様々な分野で人間と競争できるデジタル知能であるAGI(Artificial General Intelligence)への重要な一歩となる特徴を持っています。 具体的には、投資、政治、軍事など、戦略が重要な分野では、人間の最高の戦略家にAIが挑戦する(あるいは手助けする)準備がほぼ整っていることが示されています。

戦略といえば、ここでは地政学的な話になりますが、AlphaGoの成功は囲碁の本場である中国でも大きな反響を呼び、中国政府は2030年までに世界のAIイノベーションの主要拠点になるための大規模な投資計画を立ち上げたほどです。

出典

ジョン・ブロックマン(編)『Possible Minds: Twenty-Five Ways of Looking at AI, Penguin Press, 2019

Marcus Du Sautoy, The Creativity Code: How AI is learning to write, paint and think, Fourth Estate, 2019

Terrence J. Sejnowski, The Deep Learning Revolution, The MIT Press, 2018

Max Tegmark, Life 3.0: Being Human in the Age of Artificial Intelligence, Penguin, 2017

Dawn Chan, The AI That Has Nothing to Learn From Humans

Jonathan Hui, AlphaGo: How it works technically? (AlphaGoの動作を簡潔に、しかしわかりやすく技術的に説明しています…)

Jonathan Hui, AlphaGo Zero – a game changer. (How it works?) (…とAphaGo Zero)

David Silver, Demis Hassabis, AlphaGo Zero: Starting from scratch

David Silver et al., Mastering the game of Go without human knowledge, Nature, 2017/10/18/online, Macmillan Publishers Limited, part of Springer. (AlphaGo Zeroに関連するNatureに掲載された記事)

David Silver et al.

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です