本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 深層強化学習をロボットの制御などに適用する際の課題の1つは、環境や制御対象自体に起因するいくつもの制約条件を、ニューラルネットで表現する制御器(policy:方策)にどのように反映するかである。

 強化学習で数々の動作を試す中から、これらの制約も考慮した方策を学習できる可能性はあるが、非常に多くの試行回数が必要な上、実機に適用した場合に制約を越えた動作をしてしまい、破損や故障をもたらすことがある。

 日本IBM東京基礎研究所は、この課題を解決する手法を開発している。深層強化学習で開発した行動生成用ニューラルネット(方策)が出力する制御の指示を、制約条件を満たすように修正する方式である。

 制約条件をあらかじめ人手で記述する方法に加え、人が実行した多くの模範例を基に、行動生成用とは別のニューラルネットに制約条件を学習させる方式も用意した(図11-2)。同社はこれらの方式を使った実験で、制約条件を満たしつつ適切な行動を生成する制御方策を作成可能なことを確認済みである注1)

この先は日経Robotics購読者限定です。