この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏
著者の岡野原大輔氏

 米グーグルのDeepMindの創業者であるDemis Hassabis氏が2015年末、「囲碁でもすごい結果を近々公表する」と話していた通り、AlphaGoと呼ばれるコンピュータ囲碁プログラムがヨーロッパチャンピオンを破ったと話題になった(図1、図2)。今年3月には、世界的なトップのプロ棋士との対戦を控えている。この記事が出る頃には勝負がついているだろう。

 今後、コンピュータ囲碁が強くなっていくことを考えると、今回の対戦が人間のトップとの最後の対決になる可能性もある。コンピュータ囲碁研究者が集うメーリングリストでAlphaGoの成果を紹介したスレッドのタイトルが「Game Over」であったことが印象的であった。

プロ棋士との差が大きかったコンピュータ囲碁

 囲碁は、探索空間が広く(候補手の平均数は250、深さは150)、盤面評価をするための特徴設計、評価関数設計が難しいこともあり、チェスや将棋と比べてコンピュータ囲碁は弱かった。

 その中でもモンテカルロ探索を使った手法が近年注目されていた。これはある盤面からシミュレーションで大量に対戦させ(この対戦をロールアウトと呼ぶ)、その勝敗で盤面評価する手法である。しかし、プロ棋士との差は大きく、追い付くにはまだ数年かかると思われていた中、AlphaGoが一気に追い付いた。

図1 ヨーロッパチャンピオンであるFan Hui氏(写真左)とAlphaGoとの対局の様子
(写真:グーグル)
[画像のクリックで拡大表示]

 AlphaGoはニューラルネットワークを使い、強化学習を使って学習することで盤面評価を正確に行う1)。入力を19×19(盤面全体)の画像とみなし、前号で紹介したCNN(畳み込みニューラルネット)を利用し、盤面を表現した上で、次の手予測や盤面評価を行う。

 AlphaGoは次の4種類のネットワークを学習し、利用する。

  • 強い人による次の手を予測する、正確だが遅いネットワーク pσ
  • 強い人による次の手を予測する、不正確だが高速なネットワーク pπ
  • 盤面が与えられた時、最も勝つ可能性の高い手を予測するネットワーク pρ
  • 盤面が与えられた時、どちらが勝つかを予測するネットワーク vθ
図2 対局中の盤面
(写真:グーグル)
[画像のクリックで拡大表示]

教師あり学習や強化学習を活用

 これらのネットワークをどのように学習するかを順に説明する。

 はじめに、強い棋士の指し手をまねるように次の手を予測するニューラルネットワークpσを作る。この学習には、オンライン囲碁サイトKGSの囲碁の対戦記録のうち、6段から9段にランクされている強い人の対戦記録16万局から3000万手を利用した。教師あり学習を利用し、精度は55.4%であり、これまでの予測の最高精度の44.4%を10%近く改善している。この予測精度の差は最終的な強さに大きく影響する。

 また、ロールアウト用に、線形識別器を使った精度は悪いものの高速な予測器pπをTygemサーバの800万局面を利用して作る。pπの予測精度は24.2%だが、pσが3msかかるのに対し、pπは2μsで予測できる。

 次に、どの手を打てば最終的に勝つかを予測するpρを強化学習で学習する。初期値にはpσを利用し、少なくとも強い人の手を予測できる程度に強い状態から始める。どの手を打つのかの行動選択を確率分布とした時に、その確率分布を勝率を上げる方向にパラメータを更新する。

 先ほどの教師あり学習は、強い人なら次にどの手を打つのかを予測していたのに対し、この強化学習では最終的に勝つためにはどの手を打つべきかを予測しており、より直接的に勝てる手を学習しているのに注意されたい。

 pρの時点で、オープンソースの囲碁ソフトで最強であるPachiに85%で勝利する。教師あり学習の結果を使った場合の勝率は11%であることから、単なる次の手予測ではなく、最終的に勝てる手を指せるように強化学習をすることが重要であることが分かる。

 最後に、pρを使い、与えられた盤面でどちらが勝つのかを盤面評価する予測器vθを作る。この盤面評価の学習のために、強化学習で得られた強いpρを利用し3000万局の対戦をさせ、この結果を利用して盤面評価を学習する。

50個のGPUで1カ月近く分散学習

 これで4種類のネットワークができた。対戦時にはこれらのネットワークを次のように利用する。

 現在の盤面から従来手法と同様に探索木を展開し、候補手を探す。この各手の展開は最も強い強化学習で得られたpρではなく、人の手をまねたpσを利用する。これは、人間の手の方が多様性があり、結果として探索する範囲が広がり、強くなるためである。

 次に、探索木の末端(葉)において盤面評価関数vθと、そこから高速な予測器pπによるロールアウトの対戦結果を組み合わせて、盤面評価を行う。これを時間が許す限り行い、最も有力な手を選択する。

 盤面評価関数vθ単体でもモンテカルロ探索を使った既存の囲碁プログラムより強いが、この2つを組み合わせることでより強い碁ができる。学習はいずれも50個のGPUを用いた分散学習を用いており、次の手予測が3週間、強化学習による次の手予測が1日、盤面評価に1週間かかっている。

 AlphaGoの貢献は次の通りである。

(1)複数のネットワークを組み合わせた新たな探索アルゴリズムを設計した。
(2)ある程度強くなったコンピュータ同士を対戦させ、強化学習をし、正確な盤面評価を実現した。
(3)50個のGPUで1カ月近くの分散学習を行えば、これらの学習が可能であることを示した。

 また、細部ではDeepMindが培っている深層学習や強化学習の成果が随所に使われており、彼らの研究の集大成といえる。次の問題を探しつつ、トップ棋士との対戦を楽しみにしたい。

1)D. Silver, et al.,“Mastering the game of Go with deep neural networks and tree search,”Nature, vol.529, 28 January 2016.
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。
出典:2016年4月号 pp.36-37 日経Robotics
記事は執筆時の情報に基づいており、現在では異なる場合があります。