本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 3次元空間を自在に解釈し、想像するディープラーニング技術が登場した。

 何らかの物体が置いてある部屋などの空間について、任意の地点の座標を指定すると、そこから見える光景をディープニューラルネット(DNN)が正確に“想像”。まるでカメラで撮影したかのように画像として生成する技術「neural rendering」である(図1)。

 文字通り、CG(computer graphics)のレンダリング(rendering)に相当するような処理を、3次元モデルの作成などをすることなく、機械学習によって実現する技術といえる。2次元画像の情報のみから、その空間の3次元的な構造を類推する技術である。

図1 2次元画像の例示から任意地点の光景を生成
neural rendering技術を使うと、ある空間を描画した2次元RGB画像を数枚例示するだけで、その空間の3次元構造をDNN(ディープニューラルネット)が類推し、空間内の全く別の任意の地点の光景を生成できる。3次元モデルなどを与えることはしていない。(写真:University of California Berkeley)
[画像のクリックで拡大表示]

 米グーグル傘下の英DeepMind社がもともと開発した技術をベースに、今回、米University of California Berkeley(UCB)がロボット向けの利用を想定して改良を加え、大幅な性能向上を実現した。

 このneural rendering技術は現時点では学習に使うのも、生成するのもシミュレータ画像を対象にしているが、今後、実画像でも同様のことを実現する道が開けたといえる。2019年12月に開催予定の機械学習分野のトップカンファレンス「NeurIPS 2019」で、UCBが本技術について発表予定である。

 neural rendering技術では、あらかじめDNNにさまざまなシーンの画像を学習させておく。学習の際は、個々の画像を撮影したカメラの自己位置についても同時に入れる。

 すると、「この地点からはこう見える」「物体の影はこのように映る」といった3次元空間の見え方を、照明条件なども含めてDNNが学習するようになる。

この先は日経Robotics購読者限定です。