写真と見まがう画像や本人そっくりの音声などを作り出す「生成AI」は、これまでの分類や識別に用いていた人工知能(AI)に対して、次世代AIとも呼ばれる。識別用AI向け教師データを量産できるほか、アニメの描画、商業デザイン、VR(Virtual Reality)用映像の制作コストを大幅に引き下げそうだ。既存のAIとは何が違うのか、どのような用途があるかを紹介する。

 深層ニューラルネットワーク(DNN)に基づく人工知能(AI)が大きく変わり始めた。より正確には、できることが急激に増え始めた。これまでのDNNといえば、画像中の物体認識、音声認識など分類や識別が主な機能。自動運転やロボットの目・耳の実現につながるなど社会へのインパクトは極めて大きいが、実はAIが持つ本来の潜在力のごく一部にすぎなかった。

現代版“打ち出の小槌”が登場

 最近、開発例が急激に増え始め一部で商業利用も始まったのが、「生成AI」だ。文字通り、新しい画像やデザイン、音声などを大量に生み出すAIである(図1)。学習が一度済めば、実写画像と見まがうほどの人や風景の画像を容易に量産できる。その際、入力するのは乱数や、生成のヒントとなる短い文章など。情報量は極めて少ないが、そこから高精細画像がいとも簡単に出力される。

[画像のクリックで拡大表示]
[画像のクリックで拡大表示]
図1 生成AIは現代の“打ち出の小槌”
GANやVAEなどの生成AIによる、入力データと出力データの例を示した。米NVIDIAが開発したGANに乱数を入力すると、1024×1024ピクセルの高精細な顔の画像を出力する(a)。明示してはいないが、(f)以外の多くの例は、入力データとして乱数も用いているもようだ。(写真や図:(a)の出力、(b)、(g)、(j)、(k)は各社、(h)は、元米University of Floridaで、現在は米Google AI ResearchのZizhao Zhang氏)

 これだけが生成AIではない。それとは逆に、画像からその内容を説明するテキストを出力したり、写真を画家のモネやゴッホ風に変換したり、といった既存のデータのメディアや表現スタイルを変換する機能もある。こうしたメディア変換やスタイル変換は、これまでは多くの人手を要する作業だったが、生成AIなら人手を介さず、一瞬でできる。

 主な生成AIの論文発表は2014年だが、ある程度の高精細画像が出力可能になったのは2017年末。現在は実用化が一部で始まった段階だ。企業の開発競争は激しさを増しており、2019年3月には、米Apple(アップル)がGAN(敵対的生成ネットワーク)と呼ばれる生成AIの開発者であるIan Goodfellow氏を米Google(グーグル)から引き抜いた。米Microsoft(マイクロソフト)や米NVIDIA(エヌビディア)、中国Baidu(百度)も開発競争に参戦済み。これをPreferred Networks(PFN)やデータグリッド、三菱電機やNTTなど日本の企業が追う格好になっている。

GAN(敵対的生成ネットワーク)=深層学習に基づく代表的な生成AIの1つ。一歩先に開発されていたVAE(変分オートエンコーダー)の課題に対処する形で登場した。特徴は、(1)「Generator:G」と呼ばれるデータの生成器を乱数で駆動する、(2)データを検査する識別器(Discriminator:D)の改善にも深層学習を利用する、といった点。GとDが競合するように学習し、精度を高めていくことから、敵対的学習とも呼ばれる。読み方は「ガン」あるいは「ギャン」だが、後者を使う研究者が多い。

Ian Goodfellow=2014年にGANを発表した深層学習の研究者。米Stanford Universityを卒業後、カナダUniversity of Montrealの院生時代に論文を発表した。2013年にGoogleにインターンとして参加。その後、同社で機械学習のライブラリー「TensorFlow」の開発に携わる。2016年3月には同社を出てAIの研究所であるOpenAIに参加後、再びGoogleを経て、2019年3月からApple のDirector of Machine Learning in the Special Projects Group。

この先は有料会員の登録が必要です。「日経エレクトロニクス」定期購読者もログインしてお読みいただけます。今なら有料会員(月額プラン)が12月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら