この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 強化学習は、環境中のエージェントが環境と相互作用していく中で将来の報酬を最大化するために最適な行動を次々と選択する問題である。今まだ解けていない人工知能の問題の多くが強化学習の枠組みの中で解けるだろうと考えられている。強化学習は深層学習と組み合わさったことで近年大きく発展し、AlphaGoによってトップ棋士が敗れたことはまだ記憶に新しい。

 しかし、(深層)強化学習には大きな問題が2つある。1つ目は学習に非常に多くの学習事例を必要とすること、2つ目は環境やタスクが変わった場合うまく対応できない、つまり汎化しないことである。

著者の岡野原大輔氏

 1つ目の学習データを多く必要とする問題は現在の強化学習がモデルフリー、すなわち環境についてのモデルを仮定せず、試行錯誤した経験を使って最適化していることに起因する。

  モデルフリーの場合、強化学習は状態や行動と報酬との関係を求めるだけでなく、観測から状態をどのように決定するのか、行動が環境にどのような変化をもたらすのかについても推定しなければならない。

  一方、世の中の多くの問題は環境をモデル化することが困難である。例えば実環境でのロボットの制御問題では、ロボット自体のモデル化に加えて、ロボットと周辺環境との接触部分(摩擦現象)、応力、歪み、熱変位といった部分はモデル化が困難である。

 2つ目の汎化しない問題は入力(観測)データをそのまま扱っていることに起因する。現在の強化学習は、環境が変わったり(例:昼が夜になる)、行動の意味が変わった場合(例えば、同じアクセルを選択しても加速度が異なる)に汎化することは難しい。環境や行動が変わったとしても同じモデルが使えるよう汎化するためには、観測や行動をそのまま扱わずに、タスクと関係のない、その問題特有の情報を捨て、抽象化された情報の上で最適化を学習しなければならない。

 これらの問題を解決するためには、環境の抽象的なモデルを構築し、そのモデル上で強化学習を行うということが必要になる。最近、3つのグループがこれを実現する手法を発表した。

 米Google BrainのDavid Ha氏とスイスIDSIAのJürgen Schmidhuber氏らが提案したWorld Model1)は、観測xをVAE(変分自己符号化器)を使って低次元の潜在ベクトルzに変換する。この変換は教師なし学習である尤度の変分最適化によって実現される。次に、潜在空間上での前向きモデルzt+1=fzt,at)をRNNを使って学習する。この前向きモデルは元々の入力xt+1を予測するのではなく、潜在ベクトルzt+1を予測し、観測中の不要な詳細を予測しなくても良いようにしている。最後に、潜在空間ztとRNNの内部状態htをつなぎ合わせたベクトルを入力として方策(状態から行動を選択する関数)を線形モデルで作る。RNNは未来を予測できるように学習されるため、その内部状態は未来の情報を含むようになっており、方策には単純なモデルで学習できる。この方策は進化戦略で学習する。

 このような環境モデルを学習することは過去にも試みられていたが成功していなかった。このWorld Modelが成功した大きな理由はRNNに混合ガウシアンによってモデル化した確率的遷移を採用したことである。例えば、シューティングゲームにおいて、敵が一定確率で弾を撃ってくる場合を考えてみる。この場合、ある時刻の状態から次の時刻に敵が弾を撃つかどうかは予測できない。このような確率的に起こる現象を1つの未来しかない決定的なモデルで学習してしまうと、ありうる未来の中間を予測するのが最適となってしまう。複数の未来がありうるようにモデル化することで各予測を精緻にすることができる。

 環境の確率的なモデル化は、学習された方策が特定の環境に特化しないことにも役立つ。もし学習された環境が実際の環境と合っていない場合、その上で学習される方策は実際の環境では起きないような環境モデルの“バグ”をついて、最適化されてしまうといったことが起きる。環境モデルが確率的であり、方策にとって環境の予測が難しくなっていれば方策が環境の不具合を悪用することを防ぐことができる。

 2つ目は、英DeepMind社が提案した、外部記憶を利用した強化学習「MERLIN」2)である。この研究はDifferentiable Neural Computerの後続となっている。MERLINのエージェントは現在の状態を外部記憶に書き出すと共に、外部記憶から必要な情報を読み出して(思い出して)処理することができる。このとき問題になるのは、情報をどのような形で外部記憶に書き込むかである。外部記憶の学習では記憶する時と思い出す時に時間差があるので、行動を改善するには情報をどのように記憶すればよかったか、何を記憶すればよかったかを求めることが難しい。MERLINは観測を符号化した上で未来の観測と報酬を予測する問題を最初に解くことで観測をどのような低次元の情報に落とすかを学習する。この学習では、入力だけでなく報酬も予測することで、報酬に関係のある特徴も捉えている。MERLINは予測学習で獲得した符号化器を使って観測を符号化してそれを格納すると共に、その後に生成された状態の割引付き合計(1−γ)∑t'>tγt'−tzt'も一緒に格納する。この割引付き合計によって、ある場面を思い出した時に、その後に何が起きたのかも一緒に思い出すことができる。

 この記憶がどのように利用されるのかについて、迷路を解く場合を例に考えてみよう。迷路を解いている間、エージェントは現在の観測に似た過去の記憶を思い出す。さらに、ゴールまでの途中のポイントを思い出し、そこを目指して進むといったことができる。実際、エージェントが迷路を解いている途中にどこを思い出しているのかを可視化してみると、ゴール周辺の記憶や、ゴールまでの途中のポイントを思い出しておりエージェントの意図を見ることができて興味深い。予測学習は最適な記憶方法を学習できる有力なタスクである。

 3つ目が、University of California BerkeleyよるUniversal Planning Networks(UPN)3)である。これは前の2つの手法とは違って、模倣学習により最適な表現方法と環境の前向きモデルの学習を実現する。

 UPNは観測otを潜在状態xtに変換する符号化器xt=Eot)、潜在状態xtと行動atを受け取り次の潜在状態xt+1を返す環境の前向きモデルxt+1=fxt,at)の2つを学習する。

 UPNは最適な行動列を決定するプランナーとそのプランナーを使って表現とダイナミクスを学習させる外側の学習システムから構成される。プランナーは初期入力o1と目標入力ogを受け取ると、行動列a1,a2,…,aNを返すような関数である。

 プランナーは符号器を使って、初期入力と目標入力を初期状態x1と目標状態xgに変換する。次に行動列a1,a2,…,aNを適当な初期値で初期化し、この場合の最終状態を計算する。

図1 

 そして、最終状態と目標状態の差を計算し、これを目的関数Lxg,xN+1)=||xgxN+1||とする。この目的関数Lを小さくするように勾配降下法を使って各行動aiについての勾配を計算し、各行動をのように更新する。この更新を数回繰り返し、最終的な行動列a'1,a'2,…,a'Nを得る。

 次に、プランナーが出力した行動列を、エキスパートによる最適な行動列a*1,a*2,…,a*Nと比較し、この差を最小化するように符号化器と前向きモデルのパラメータを勾配降下法で最適化する。

U=||{a'1,a'2,…,a'N}−{a*1,a*2,…,a*N}||

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 プランナーの計算は微分可能な計算グラフで構成されるため、プランナー内部のEfも誤差逆伝播法で最適化可能である。

 この学習では、最適な表現やモデルはプランナーが勾配降下法によって最適な計画を立てやすいようにという観点で選ばれ、必ずしも元の入力情報を全て保存しない。

 強化学習を実用化するためには学習に必要なデータ量を劇的に減らし、汎化させることが必要である。今後もこれらを実現するための表現学習が続けられると考えられる。

1)D. Ha et al.,“World Model,”https://worldmodels.github.io/, https://arxiv.org/abs/1803.10122
2)G. Wayneand et al., ”Unsupervised Predictive Memory in a Goal-Directed Agent,” https://arxiv.org/abs/1803.10760
3)A. Srinivas et al.,”Universal Planning Networks,” https://arxiv.org/abs/1804.00645
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。
出典:日経Robotics、2018年6月号 pp.32-33
記事は執筆時の情報に基づいており、現在では異なる場合があります。