本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 強化学習はシミュレーションやゲームなどで人の能力を超える性能を達成しており有望視されているが、現実の問題に適用した場合、その安全性をどのように担保するのかが問題となる。

 強化学習は環境との相互作用の中で試行錯誤しながら自分の行動がどのような結末をもたらすのかを理解し、自分の行動を改善していく。この中で危険な状況も理解させるのはあたかも子供に包丁をもたせて、その安全な使い方を自ら学んでもらうようなものであり危険である。

 そのため、あらかじめ危険な状態や行動を定義しておき、それらを回避した範囲内で行動することが考えられる。しかし、ある時点での行動や状態が最終的に危険な状況につながるのかは一般に未知もしくは計算困難であり、それも推定しなければならない。

著者の岡野原大輔氏

 本稿では、強化学習の安全性を保証する手法として2018年に米グーグルのDeepMind社が発表した論文を紹介する。

 DeepMind社は2016年からグーグルのデータセンターの冷却システムの最適化を進めている。最初はシステムが推薦した結果を基に人が運転をしていたのが、2018年現在はシステムが全自動で運転しており、平均して30%の最適化を達成できたと報告している。

 今回紹介する論文1)の研究成果が直接利用されているかは不明だが、他の安全な探索2)の利用例としてデータセンターの冷却システムが言及されている。データセンターの制御は、失敗すると熱暴走によりコンピュータシステムや施設に甚大な被害をもたらしうるため、安全性の保証が重要な問題である(図1)。

この先は日経Robotics購読者限定です。