この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 人は2次元の画像のみから物体の3次元情報を推定でき、その形状や位置関係、構成関係を認識することができる。さらに、物体をさまざまな視点から見れば、ほぼ完璧な3次元情報を得ることができる。例えば、部屋の中に入ってその中を歩き回って見ているうちに部屋の中のどの位置にどんな物体が置かれているのかという3次元地図ができてくる。このような3次元地図さえできれば、違う視点からどのように見えるのかを推定することもできる。

著者の岡野原大輔氏

 このような3次元構造の認識は多くのタスクの実現に重要でありこれまで多くの研究が存在する。複数視点の画像から3次元構造を推定するタスクはStructure From Motionと呼ばれる。この中で特に自己位置推定も同時にしながらオンラインで位置推定と3次元構造の推定を行うタスクはSLAMと呼ばれる。

 また、3次元構造が得られている時、それがどのように見えるのかを解く問題はコンピュータグラフィックス(CG)のレンダリングの問題と同じである。レンダリングの場合は光源から放たれた光が各物体でどのように反射し、強度を変えて視点に入ってくるのかをシミュレーションすることで画像を生成する。

 これらStructure From Motionとレンダリングは、どちらも非常に複雑なプロセスで構成され、綿密なモデリングと幾何計算によって作られてきた。さらに、認識と生成方法が問題になるだけでなく、3次元構造をコンピュータ上でどのように表現するのかが問題となる。

 例えば、点群で物体を表現することを考えてみる。この場合、どんなに複雑な物体であっても表現することは可能だが、物体をひとかたまりとして操作するといったことが困難となる。また、点数が多くなるにつれて計算量も増加する。この他にもメッシュやディスク(法線方向と直径の集合で表す)、球面調和関数による物体の表現はそれぞれに利点と欠点が存在する。また、不確実な情報の表現も難しい。例えば、車の正面だけが見えていて、裏側が見えていない場合、その裏側をどのように表現すればよいだろうか(セダンなのか、ワゴンなのか、はたまたリムジンなのかもしれない)。

3次元環境を連続値のベクトルで表現

 DeepMind社により発表されたGenerative Query Network(GQN)1)は、これらStructure From Motionとレンダリングをニューラルネットワークで学習によって獲得する。複数枚の画像を見せるだけでその3次元構造を推定し、新しい視点からの画像を推定することができる。内部では3次元構造は特徴ベクトルで表現されており、特徴ベクトル上で物体の追加や変更といった演算をすることができる。また、不確実な3次元構造を扱えるように、復元は確率的な生成モデルを利用している。

 GQNは学習時に入力画像xikと視点情報vikのペアからなる

 D={(xik,vik)}i=1…N,k=1…K

を学習データとして利用する。ただし、Nはシーンの数、Kはそれぞれのシーンの中での記録された画像の数であり、視点情報viはカメラの3次元の絶対位置座標wとヨー角y,ピッチ角pからなる5次元ベクトル(w,y,p)から構成される。テスト時には新しいシーンにおけるM個の画像とその視点情報{(xm,vm)}m=1…Mが与えられ、クエリ視点vqからの画像xqを予測する。ここでMM≥0を満たす任意の正数である。

 GQNのネットワーク詳細については後半に述べるとし、まずはその実験結果を述べていく。実験はシミュレーション上の3D環境で行われた。まず、GQNは複数物体がある場合でも正しくシーンを予測することができた。また、物体の存在や位置に不確実性がある場合はその可能性をサンプリングすることができた(図1)。

図1 Generative Query Networkの構造
(図:DeepMind社)
[画像のクリックで拡大表示]

 さらにword2vecなどで得られる単語ベクトルの連続表現と同じように、3次元環境のベクトル上で加算減算を行い、物体の属性を変えることができることがわかった。このベクトル上では3次元環境の情報が分解されて表現されており、操作できるようになっている。例えば、青色の球体があるシーンに対応するベクトルから、赤色の球面があるシーンに対応するベクトルを引き、赤色の三角形があるシーンに対応するベクトルを足すと、青色の三角形があるシーンに対応するベクトルが作れる。これは属性のうち赤色、球体は打ち消し合い、青色、三角形が残るためだ。

 このように3次元構造はベクトルでは分解された形で表現されている。入力画像の代わりに、シーンに対応するベクトルを入力とした強化学習はタスクを非常に効率よく学習できることが示されている。

自己回帰型の生成モデルを利用

 それではGQNの手法についてみていこう。GQNは潜在変数モデルを利用した画像の生成モデルを考える。このとき、条件付きとして他の視点からの画像とクエリ視点、y=((xi,vi),vq)を使う。

 gxy)=∫gxz,y)π(zydz

この生成モデルはzについての積分を含むが、ELBO(evidence lower bound)と呼ばれる変分下限は次のように求められ、この最大化はVAEなどでも使われる変数変換トリックを使って効率よく実現できる。

ここで、gxz,y)は生成器であり、qzx,y)は真の事後確率pzx,y)を近似する推論器である。ここまでは条件pを除いて変分自己符号化器(VAE)と同じである。

 次に条件をどのようにモデル化するかについて述べる。入力のM個の画像と視点(xi,vi)は次のようにして1つのベクトルに変換される。

r=fxi,vi

このfは表現ネットワークと呼ばれ、

のように、各観察を独立にベクトルに変換し、それらの和を計算することで得られる。

 この表現ネットワークは異なる視点間の関係を無視しており単純にみえるが、観察の順序に結果が依存しないという特徴があり、集合やグラフなどを入力とするネットワークでよく使われている。また関数ψは入力画像、視点を3次元構造を表すベクトルへ変換するニューラルネットワークである。

 このようにして得られた推定された3次元構造を表すrとクエリ視点vqで条件付けし、生成器gxz,vq,r)、事前分布π(zvq,r)、推論器qzxq,vq,r)をモデル化する。

 これらはそれぞれ、出力の各次元を順に生成し、生成した値に条件付けして次の次元の値を決めるという自己回帰モデルを使ってモデル化される。こうした自己回帰モデルは複雑なモデルを扱えることがわかっており、PixelCNNやWaveNetなどで使われている。本手法では、RNNを使ってモデル化しており、convolutional LSTMを使って内部状態の更新と各ステップの出力を決定していく。

 学習時にはELBOを最大化するように学習し、クエリ視点からの画像を生成する時には、他の視点からの画像で条件付けられた事前分布から画像を生成する。

 本手法は、3次元構造の認識と生成がニューラルネットワークにより学習で獲得でき、3次元構造が演算可能なベクトルで表現できることを示した点で画期的である。

GQNをベースに多くの発展が見込める

 今後はこの手法をベースにさまざまな発展が考えられる。今回の手法では、自己位置と姿勢は入力として与えられているが、自己位置と姿勢も学習から推定できるようになれば動画のみから3次元構造を復元できるようになる。それまでの速度、角速度の履歴から自己位置と姿勢を予測するように学習したRNNは脳内のグリット状細胞と同様の空間状のパターンに基づいて認識することがわかっている2)。さらに、より高度な生成として、異なる時刻や異なる条件(例えば、このドアを押したらどうなるか)の場合もできるようになるだろう。

 今回はシミュレーション上の単純な画像や3次元構造の場合に適用されたが、実世界の場合に同様にできるかは今後の課題だろう。一方で、タスクを達成するためには必ずしも画像の詳細な生成は必要なく、例えばインスタンス・セグメンテーションレベルで3次元構造や画像の推定ができれば多くの問題が解けるだろう。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 非常に大きな3次元構造をどのように表現するのかも課題になるだろう。例えば都市レベルの3次元構造を扱うためには巨大なメモリの一部分にアテンションをあてて書き込んだり、読み込んだりするようになるだろう。

1)S. Eslami et al. “Neural scene representation and rendering,” Science, vo.360, pp.1204-1210, 2018.
2)A. Banino et al. “Vector-based navigation using grid-like representations in artificial agents,” Nature, vo.557, no.7705, pp.429-433, 2018.
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。
出典:日経Robotics、2018年8月号 pp.41-43
記事は執筆時の情報に基づいており、現在では異なる場合があります。