本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
著者の岡野原大輔氏
著者の岡野原大輔氏

 視覚情報から物体を認識する場合、2次元のRGB情報から、その対象物体が何であるかを推定し、3次元の抽象的なモデルを抽出する。この認識プロセスは、視点や物体との相対位置、オクルージョン(障害物などで一部分が見えない現象)、形状の変化などさまざまな撹乱要素によって、単なるテンプレートマッチングでは解けない非常に複雑なプロセスとなる。

 特に3次元の抽象的なモデルをどのように認識し、表現するのかが問題となる。対象物体の抽象的なモデルを抽出することさえできれば、物体のダイナミクスは元の見た目に比べたら単純な関係式で表すことができ、状態の推定や動きの予測などができるようになる。また、どの部分がどのように見えているのかが分かるので、対象物体の姿勢(表側が見えているのか裏側が見えているのか)や状態を推定することができる。

 例えば人を認識する場合を考えてみよう。人はその姿勢によって大きく形を変え多様性がある。例えば右手を挙げて大きく振っている場合、しゃがんでいる場合、走っている場合、それぞれで形が大きく変わる。人の場合、主要部位(肩、腰、膝など)をランドマーク(キーポイント)として設定しそれらのランドマークの3次元位置を推定することで姿勢をある程度表現できる。

ここからは日経Robotics購読者限定です。