この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏

 視覚情報から物体を認識する場合、2次元のRGB情報から、その対象物体が何であるかを推定し、3次元の抽象的なモデルを抽出する。この認識プロセスは、視点や物体との相対位置、オクルージョン(障害物などで一部分が見えない現象)、形状の変化などさまざまな撹乱要素によって、単なるテンプレートマッチングでは解けない非常に複雑なプロセスとなる。

 特に3次元の抽象的なモデルをどのように認識し、表現するのかが問題となる。対象物体の抽象的なモデルを抽出することさえできれば、物体のダイナミクスは元の見た目に比べたら単純な関係式で表すことができ、状態の推定や動きの予測などができるようになる。また、どの部分がどのように見えているのかが分かるので、対象物体の姿勢(表側が見えているのか裏側が見えているのか)や状態を推定することができる。

 例えば人を認識する場合を考えてみよう。人はその姿勢によって大きく形を変え多様性がある。例えば右手を挙げて大きく振っている場合、しゃがんでいる場合、走っている場合、それぞれで形が大きく変わる。人の場合、主要部位(肩、腰、膝など)をランドマーク(キーポイント)として設定しそれらのランドマークの3次元位置を推定することで姿勢をある程度表現できる。

 それでは、人の顔を認識する場合はどうだろうか。この場合も顔の目や鼻など主要部位の位置とそれらの形状や特徴を抽出することで表現できそうである。このように既知の物体で、その物体を代表するランドマークやパーツがあらかじめ設計できる場合は、それらの位置と特徴を使って3次元形状を表現できそうである。

未知の3次元物体の認識をどうするか

 それでは、未知の形状を認識する場合はどうだろうか(3本の首を持つキングギドラなど)。この場合、あらかじめ、どこがランドマークか、どのようなパーツに分けられるかといったことは物体全体を認識するのと同時に実現しなければならない。

 未知物体も含めたさまざまな物体に対応できるような3次元の抽象的なモデルが必要とされてきた。この3次元の抽象的なモデルとして、密同値ラベリング(Dense Equivariant Labelling)が提案されている1)

 密同値ラベリングは、対象物体の3次元形状を3次元の球面上に写像し、その球面上の座標で物体の各部位を表現する。ランドマークのように疎なポイントだけを同定するのではなく、表面上の密な対応関係を同定することからその名がつけられている。

 全ての物体が3次元の球面にきれいに写像できるわけではないが(例えばドーナツのように穴が空いた物体は写像できない)、多くの物体は球面と同相であり球面に写像することができる。このマッピングは関数pSq)で表すことができ、物体がSの時、球面上の座標qを3次元物体上のpにマッピングする。また、このマッピングは1対1の関係があり、この写像の逆関数πS−1p)は物体の各部位を球面上に写像する。球面上の各位置に特定の意味はなく、マッピングした時に物体の同じ部位が同じ場所に写像されるようにする。

 この密同値ラベリングを使って、物体のどの部分が見えているのかという問題も自然に解くことができる。地球で太陽が当たっている部分がどこかが分かるのと同じように、物体のどの部分が視点から見えているのかというのを物体全体を球面に写像した先の領域という形で、陽にモデル化することができる。

各部位に低次元の特徴ベクトルを割り当て

 この写像にニューラルネットワークを使って汎化性能を持たせた場合、異なる物体でも同じように写像することができる。例えば、密同値ラベリングが顔をモデル化している場合、Aさんの顔の右目pをラベルに変換しπS'、それをまた、他のBさんの顔の右目の位置に変換するπS−1πS'p)といったことができる。また、同じ物体で視点が変わったり、姿勢が変わったりした場合でも対応関係をとることができる。

 このように密同値ラベリングはランドマーク検出の一般化ともみなせるし、連続するフレームに適用し、対応関係をとればオプティカルフローを実現することができる。

 また、この密同値ラベリングは物体をその姿勢や状態に関わらずに、各部位に2次元(球面上なので)のベクトルを割り当てるような特徴抽出器とみなすことができる。画像の位置や回転に不変な特徴抽出手法として、SIFTやHOGなどが知られている。SIFTやHOGは各部位に高次元のベクトルを割り当て、位置や姿勢が異なっても同じ部位だと同定できるように設計されている。

 密同値ラベリングはこれらの手法に比べればずっと低次元のベクトルを割り当て、物体上の近い部位が近いベクトルになるように制約がある中で特徴を割り当てているとみなすことができる。

具体的な学習方法とは

 それでは、密同値ラベリングをどのように学習できるのかを説明しよう。密同値ラベリングを実現するニューラルネットワークをφとし、入力画像xを変換し、同じサイズのラベリング結果z=φ(x)を出力するとする。また、このラベリング結果の位置uの値をφu(x)とする。このφu(x)は球面上の位置なので2次元ベクトルで表すことができるが、確信度も表せるように3次元ベクトルとし、そのノルムの大きさを確信度とする。

 学習データとして、画像xと変形g、そして変形後の画像x'=gxの3組(x、x'、g)を用意する。ここでは各物体上の部位が変換後にどのように変換されているかが分かっているとする。論文1)では、シミュレーターを使ってこのような写像を学習していたが、任意の画像変換やオプティカルフローなどを使っても学習データを作ることができる。

 画像x中のuの位置がx'中のvの位置に対応する確率をSoftmaxを使って次のように定義する。

 

もしφu(x)が大きい、つまり確信度が大きければこの確率分布はシャープになる。

 このように定義された確率を使って尤度の最大化、つまり次の負の対数尤度の最小化問題を解くことでφを学習する。

このように学習されたモデルは、大きく形状を変えるような物体の各部位を正確に同定できたほか、人の顔のような多様性のある物体データも対応関係をとることができたと報告されている1)

密同値ラベリングは教師なしで学習可能

 オプティカルフローは教師なし学習でも学習できるため、それと組み合わせれば、密同値ラベリングも教師なし学習だけで学習できることになる。また自分自身が動く場合(2017年11月号で紹介したマイクロサッカード運動2)など)も教師データを得ることができる。

 本手法では球面へのマッピングだったが他の形状へのマッピングも同様に行うことができる。例えば、基本的な形状のパターンを複数持ち、それらを組み合わせることで世の中にあるほとんどの物体の形状を汎用的に認識するといったことも可能だと考えられる。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏
1)J.Thewlis et al., "Unsupervised learning of object frames by dense equivariant image labelling," NIPS 2017. https://arxiv.org/abs/1706.02932
2)岡野原、「予測学習:Predictive Learning」、『日経Robotics』、2017年11月号、pp.36-37.
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。
出典:2018年3月号 pp.36-37 日経Robotics
記事は執筆時の情報に基づいており、現在では異なる場合があります。