本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 機械学習に必要なデータを現実世界で収集することはコストや時間がかかるだけでなく、ロボットのような物理的な動きを伴う機械の場合、危険であったり、まれな事象でそもそも集められない場合も多い。そのため、現実世界をシミュレーションした環境上でデータ収集することが期待されてきた。

 しかし、シミュレーション上で収集されたデータを学習データや検証データとして使う場合、シミュレーションと現実世界とのギャップ、いわゆるリアリティギャップが問題となる。

 シミュレーション上で学習したモデルはシミュレーション環境に過学習してしまい、現実世界の問題では大きく性能が劣化してしまう。特にニューラルネットワークのような強力なモデルを使った場合、モデルはシミュレータ上でしか起きない現象を不正に利用して問題を解こうとしてしまう。

 この問題を避けるためはシミュレーションを実世界の環境に近づけることが必要だが、シミュレータ開発は多くの場合困難であり、ロボットなどのハードウェアのシミュレーションだけでなく物理現象としての摩擦や衝突、カメラのシミュレーションなどは現実とのギャップが特に大きい。

著者の岡野原大輔氏

 この問題を克服するために環境乱択化(Domain Randomization)と呼ばれる手法が提案された。これは環境の様々なパラメータをランダムに変えたバージョンをたくさん用意し、それら様々な環境の全てでうまくいくようなモデルを学習する。

 パラメータとしては例えば摩擦係数や衝突係数、物体のテクスチャ、光源モデルなどがある。様々な環境上で学習されたモデルは環境に多少の変化があっても対応できる、つまり環境に対して汎化しているため、環境の変種の1つである現実世界の環境に対しても、うまく動作することが期待できる。

この先は日経Robotics購読者限定です。