本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏
著者の岡野原大輔氏

 DeepMind社がAlphaGoの改良版であるAlphaGo Zeroの論文を『Nature』誌で発表した1)。AlphaGoは登場以来急速に強くなり続けている。2015年に登場したAlphaGo Fan(同社はAlphaGoの各バージョンに名前を付けている)はヨーロッパの囲碁チャンピオンであるFan Hui氏を破り、それから半年後に改良されたAlphaGo Leeは世界トップ棋士の1人であるLee Sedol氏を4-1で破った。その後もAlphaGoは強くなり続け、2017年初めころにネット囲碁対局で登場したAlphaGo Masterは世界中のトップ棋士達に60連勝した。今回のAlphaGo ZeroはそのAlphaGo Masterに100回中89回勝てるほど強い。

 AlphaGo Zeroは強いだけでなくこれまでのAlphaGoと大きく違う点がある。それは人の棋譜を真似てから学習するのではなく0から学習した点である。しかも学習を開始してから数日で多くの囲碁の定石を発見した。未知の定石も多く発見し、従来のAlphaGoよりはるかに強くなることができた。

 この実現の中心となったのが、自分より少し強い指し方を目標に学習する新しい強化学習手法である。AlphaGo Zeroは1つのネットワークfθ(s)を使う。従来のAlphaGoが次の手予測、盤面評価用、探索用と別々のネットワークを使っていたのに対し、AlphaGo Zeroではこれらのモデルを1つに共有することでこれらのタスクに共通して有用な特徴を抽出し学習を効率化できる。このモデルfθは盤面sが与えられた時、各手を打つ事前確率ベクトルpと、その盤面の評価値vのペア(p,v)=fθ(s,a)を出力する。

ここからは日経Robotics購読者限定です。