本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 屋内外を動き回る移動ロボットやアームによる物体ピッキング、さらには自動運転車まで。複雑な環境中で活動するロボットにとって、周囲の3次元形状を的確に把握し、自身の居場所(現在地)を推定するSLAM技術は、欠かせない基盤技術である。

 このSLAM関連の技術で、米グーグルが革新的な成果を出した。

 SLAMにはLIDARで計測した点群を基にするものと、カメラで得た画像情報のみを基にするvisual SLAM(SfM:structure from motion)の2種類があるが、今回は後者のvisual SLAM型での成果である。

 豊富な人材を抱え、グーグルが世界随一のレベルにあるディープラーニング(深層学習)の技術をこのSLAMの技術領域に縦横無尽に適用することで、既存のvisual SLAMを置き換え得る新技術を開発した。

 単眼カメラで撮影したRGB動画をこのグーグルのシステムに入力すると、そこに映っている光景の3次元的な形状(距離画像)、カメラ(ロボット)の自己位置(オドメトリ)、移動軌跡を精度良く推定できる(図1注1)

図1 単眼RGB動画から高精細な距離画像と自己位置を推定
単眼画像からの推定結果。(写真:グーグルの論文から許可を受けて転載)
[画像のクリックで拡大表示]

 距離画像センサやステレオカメラなど特殊なハードウエアを用いることもなく、事前のカメラキャリブレーションも一切不要。単純に1本の動画さえあれば、画素単位の密な距離画像とカメラの移動軌跡が得られるのである。

 焦点距離など撮影に用いたカメラの情報も不要であるため、YouTube上の動画のようにどのような条件で撮影されたのか不明な場合でも、動画データさえあれば、そのシーン内の3次元構造とカメラの移動軌跡を導き出せる。広範な応用が見込める技術だ(本技術は今号のPFN岡野原氏の寄稿記事でも解説)。

この先は日経Robotics購読者限定です。