画像とそのナレーションを学習することで「ブランコ」と発話するとその箇所が画像中に示される
[画像のクリックで拡大表示]

 「クロスモーダル情報処理を広げると、人工知能(AI)が、環境にある音や画像を見聞きするだけで世界を理解できるようになる」ー。

 NTTコミュニケーション科学基礎研究所 メディア情報研究部 部長、上席特別研究員の柏野邦夫氏は、同社が2019年5月に開催した研究公開のイベント「オープンハウス2019」でこう述べた。クロスモーダルは、音声や画像など複数種類のメディアを変換する技術群を指すNTTの造語(図1)。複数の入力データを利用するAI技術全般を指す「マルチモーダル」の一種ともいえるが、柏野氏は「これまでのマルチモーダルは、複数の入力データを鍋に入れたごった煮にとどまっている例が多い」という。

図1 クロスモーダルで新しい世界が見える
NTTが提唱する「クロスモーダル」をマルチモーダルと比べて、その関係や違いを示した。広義ではマルチモーダルの一部だが、既存のマルチモーダルとは異なる。音声や画像といったメディア間変換から、それまでなかったネットワークが生まれ、新しい世界が見えてくるという。
[画像のクリックで拡大表示]

 一方、クロスモーダルは、メディア変換を通じて、世界を知る手段が新たに生まれたり、AIが音や映像を見聞きするだけでまるで幼児のように世界についての言語の一種を獲得し、賢くなっていくことにつながるという。

 こうしたことが実現可能になったのは、データを自在に変換したり、大量に生成したりできるエンコーダーデコーダーや敵対的生成ネットワーク(GAN)の研究開発が急激に進んでいることが背景にある

この先は有料会員の登録が必要です。「日経エレクトロニクス」定期購読者もログインしてお読みいただけます。今なら有料会員(月額プラン)が2020年1月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら