人工知能の進化は急で、静止画だけでなく動画に何が写っているかを理解できるようになった。ライブで配信されるビデオをリアルタイムで解析し、内容に応じて区分けする。この技術は、既に大手企業の広告事業で使われている。ビデオ解析の究極の目的は、ロボットの“眼”となること。応用範囲は広大だ。今回は、ヒトの目に近づきつつある最新のコンピュータービジョンをレポートする。

写真からビデオ解析へ

出典: VentureClef
[画像のクリックで拡大表示]

 コンピュータービジョンでトップを走っているのは、ニューヨークに拠点を置く「Clarifai」というベンチャー企業だ。人工知能の技術を使って、イメージ解析技術を開発している。同社は2013年、イメージコンテスト「Large Scale Visual Recognition Challenge」でトップ5に入賞し、注目を集めた。イメージコンテストでは、写真に写っているオブジェクトを識別するが、今ではこの技術をベースにビデオ解析技術を開発している。ビデオに写っているオブジェクトを、1万のカテゴリーに分類できるという。

 上の写真がその事例で、自動車から撮影したビデオを解析し、そこに何が写っているかをグラフで表示している。上段は入力したビデオで、ゴールデンゲートブリッジを自動車で走行している様子である。下段が解析結果で、時間ごとに登場するオブジェクトをグラフで表示している。Clarifaiはビデオに登場するオブジェクトを把握し、それを区分けして出現頻度を時間ごとにプロットする。

この先は会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら