この記事は日経Robotics 有料購読者向けの過去記事(再掲載)ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 強化学習はシミュレーションやゲームなどで人の能力を超える性能を達成しており有望視されているが、現実の問題に適用した場合、その安全性をどのように担保するのかが問題となる。

 強化学習は環境との相互作用の中で試行錯誤しながら自分の行動がどのような結末をもたらすのかを理解し、自分の行動を改善していく。この中で危険な状況も理解させるのはあたかも子供に包丁をもたせて、その安全な使い方を自ら学んでもらうようなものであり危険である。

 そのため、あらかじめ危険な状態や行動を定義しておき、それらを回避した範囲内で行動することが考えられる。しかし、ある時点での行動や状態が最終的に危険な状況につながるのかは一般に未知もしくは計算困難であり、それも推定しなければならない。

著者の岡野原大輔氏

 本稿では、強化学習の安全性を保証する手法として2018年に米グーグルのDeepMind社が発表した論文を紹介する。

 DeepMind社は2016年からグーグルのデータセンターの冷却システムの最適化を進めている。最初はシステムが推薦した結果を基に人が運転をしていたのが、2018年現在はシステムが全自動で運転しており、平均して30%の最適化を達成できたと報告している。

 今回紹介する論文1)の研究成果が直接利用されているかは不明だが、他の安全な探索2)の利用例としてデータセンターの冷却システムが言及されている。データセンターの制御は、失敗すると熱暴走によりコンピュータシステムや施設に甚大な被害をもたらしうるため、安全性の保証が重要な問題である(図1)。

 はじめに強化学習の問題設定についておさらいしよう。強化学習ではエージェントが環境と相互作用していく中で、自分が将来にわたってもらえる報酬の期待値が最大となるような行動を選んでいくことが目標となる。状態から行動を選択するルールを方策(policy)とよび、方策はニューラルネットワークなどを使い関数近似する場合が多い。なお、報酬最大化の代わりに最適制御のようにコスト最小化問題を考える場合もあるが、この場合はコストの符号を反転させた関数の最大化を考えれば同じ問題に帰着する。

図1 グーグルのデータセンターの様子
(写真:グーグル)
[画像のクリックで拡大表示]

 これを式で表すと、エージェントは時刻$t$に環境から状態$s_t$を受け取り、それを基に行動$a_t$を方策$a_t =\pi(s_t)$に従い選択する。環境はこの行動を基に報酬$r_t = r(s_t,a_t)$を返す。状態が確率的に遷移する場合は現在の状態と、行動に基づき、$P(s_{t+1}|s_t,a_t)$に従って次の状態が決まる。強化学習の目標は初期状態$s_0$の時に受け取る報酬の期待値$R_{\pi}(s_0) =\mathbb E \big [ \sum r_t | s_0, \pi \big]$が最大となるような方策$\pi$を求めることである。

リアプノフ関数の値が少なくなるよう方策を更新

 この一般的な強化学習の問題に安全性の保証を与えるため、各状態に依存した制約コスト$d_t =d(s_t)$を考え、方策の累積制約コストの期待値が一定値$d_0$以下であることを要請する。

\[D_\pi(s_0) := \mathbb E \big [ \sum d(s_t) | s_0, \pi \big ] \leq d_0\]

 この累積制約コストはさまざまな問題を扱うことができる。例えば、終了状態に至るまでに危険な状態を1度でも通過する確率を抑えたい場合や、危険な状態に到達する回数を抑えたい場合などをモデル化できる。

 この最適化に対し論文1)ではこの制約に基づいてリアプノフ関数を定義し、それを用いてグローバルな制約問題を、ローカルな制約問題に変換する。方策を更新する際はリアプノフ関数の値が少なくなる場合のみに制約することで、全体の制約を達成することを保証する。このリアプノフ関数について説明する。

 原点を含む領域$\Omega$上で定義された関数$V(s)$が$V(0)=0$で、かつ$s \neq0$なる任意の$s \in \Omega$に対して$V(s) > 0$(または$V(s) \geq0$)を満たす時$V(s)$は$\Omega$で正定(または準正定)であるという。また$-V(s)$が正定(または準正定)である時、$V(s)$は負定(または準負定)であるという。関数$V(s)$が原点を含むある領域$\Omega$で正定であり、かつ状態$s(t)$が時刻とともに変化していく時に、$V(s(t))$の時間微分が準負定であるとき、この関数をリアプノフ関数と呼ぶ。

 リアプノフ関数は原点が最も低いようなお椀形をしており、時間の経過とともにリアプノフ関数の値は減少し続け、原点で安定する。このようなリアプノフ関数$V(s)$が存在することが、そのシステムの原点が安定であることの十分条件である。なお、この場合、原点が平衡点であったが、原点以外の点が平衡点である場合も平衡点が原点になるよう変数変換をすることで原点が平衡点である場合に帰着できる。

 今回考える強化学習の問題設定では時刻は離散時間であり、状態$s$の時、行動$a$を選択し、次の状態$s'$に決定的に遷移する場合、$V(s)> 0$かつ$V(s') \leq V(s)$であることが$V$がリアプノフ関数である条件である。

 ここでは、確率的遷移の場合を考えるため、強化学習問題における一般ベルマンオペレータを定義する。

\[T_{\pi, h}[V](s) = \sum_a \pi(a|s) \Big [h(s, a) + P(s'| s, a) V(s') \Big ]\]

ここで、$\pi$は方策、$h$は即時報酬や制約コスト、$V$は価値観数や後述のリアプノフ関数である。状態が確率的に遷移する場合、$T_{\pi_B, d} [L](s) \leq L(s)$であることが$L$がリアプノフ関数の条件である。

 はじめに、制約を満たした適当なベースライン方策$\pi_B$が存在すると仮定しよう。このとき、この方策に基づいた次の条件を満たす、リアプノフ関数の集合$\mathcal L_{\pi_0}(x_0,d_0)$を考えることができる。

全ての非終端状態$s$について、$T_{\pi_B, d} [L](s) \leq L(s)$
初期状態$s_0$について$L(s_0) \leq d_0$
終了状態$s_e$について$L(s_e) = 0$

なお、$L(s) = D_{\pi_B}(s)$は上の条件を満たすため、$\mathcal L_{\pi_0} (x_0,d_0)$は必ず空ではない。

 このリアプノフ関数$L \in \mathcal L_{\pi_0}(x_0,d_0)$に対し、$T_{\pi, d}[L](s) $ $\leq L(s)$を満たすような方策$\pi$を$L$導出方策とよび、その集合を$F_L$と表記する。この集合に含まれる方策は全て制約を達成するような方策である。しかし$F_L(s)$の中に最適方策が含まれている保証は一般にない。これに対し、次のようにリアプノフ関数として、制約コストに加えて補助制約コスト$\epsilon$を加えたものを考える。

\[L_{\epsilon} = \mathbb E [ \sum_{t=0}^{T^*-1} d(x_t) + \epsilon(s_t)| \pi_B, s ]\]

 もし、最適方策が分かっているならば、それを基に補助制約コストを設定することで、最適方策を導出可能なリアプノフ関数を定義できることが示せる1)。しかし、現実には前もって最適方策を知ることはできない。そのため、現在の制約を満たした方策にリアプノフ条件を達成できるような中で補助制約コストの合計が最大のものを選択するようにし、最適方策が含まれていることを期待する。最大の補助制約コストは次の線形計画法を解くことで得られる。

\[\widetilde \epsilon\in\!\arg\!\max_{\epsilon:\mathcal S'\rightarrow\mathbb R_{\geq 0}}\!\!\Bigg\{\!\sum_{s\in\mathcal S'}\epsilon(s)\!:d_0 - \mathcal D_{\pi_B}(x_0) \geq\mathbf1(s_0)^\top(I- \{P(s'|s,\pi_B)\}_{s,s'\in\mathcal S'})^{-1}\epsilon\!\Bigg\}.\]

ここで、$\mathbf 1(x_0)$は$x =x_0$の場所だけ$1$であり、その他は$0$であるようなベクトルであり、$\epsilon$は$\epsilon(s)$を並べたベクトルである。

 この制約式の右辺の意味は、ノイマン級数$(I - A)^{-1} = \sum_{i=0}^{\infty} A^i$より、

\[ (I-\{P(s'|s,\pi_B)\}_{s,s'\in\mathcal S'})^{-1}=\sum_{i=0}^{\infty}P(s'|s, \pi_B)^i\]

であり、$\mathbf 1(s_0)^T (I-\{P(s'|s,\pi_B)\}_{s,s'\in\mathcal S'})^{-1}$は$s_0$から開始して各状態に到達する確率の総和を表す。よって、右辺は各状態に到達する確率の総和それぞれに補助制約コストを掛けたものの総和となる。この総和が補助制約コストに設定可能な残りより小さくなることを要請する。

 この線形計画法の解として、もし$\epsilon(s)$が$s$によらず定数の場合は$\epsilon = d_0 -\mathcal D_{\pi_B}(s_0) / \mathbb E [ T^* | \pi_B, s_0]$が得られる。ただし、$T^*$はエピソードが終了する時刻である。このように求められた補助制約コストは、現在の方策が制約としてまだ余裕がある分を各状態に均等にバッファとして与えたものとみなすことができる。

 この手法に基づき、はじめに制約を達成した方策から開始し、$L_{\epsilon}$を更新しながら、$F_{L_\epsilon}$に含まれる方策の中で最適な方策を選択するようにして学習していく。これを交互に繰り返していく。

 実験ではいくつかのシミュレーション上において提案手法が学習開始から最後まで制約をほぼ達成しつつ、期待累積報酬が大きいような学習を実現できたことが示されている。制約コストが状態の変化に対して少しずつしか変わらないという保証ができるのであれば、さらに探索中に効率よく安全性の保証をすることができる2)

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 強化学習の実用化が進むにつれて、安全性の保証はますます重要になってくる。今回の話に加えて、メタ学習、モデルベースとモデルフリーの強化学習の融合、シミュレーションと実世界のギャップの解消が重要になるだろう。

1)Y.Chow, et al.,“A Lyapunov-based Approach to Safe Reinforcement Learning,” https://arxiv.org/abs/1805.07708,NIPS 2018.
2)G. Dalal, et al.,“Safe Exploration in Continuous Action Spaces,” https://arxiv.org/abs/1801.08757
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。
出典:日経Robotics、2018年11月号 pp.36-38
記事は執筆時の情報に基づいており、現在では異なる場合があります。