生成AIは通信や放送でも利用価値が高い。これまでのルールベースの符号化技術や画像欠損の修復に対して、深層学習を利用した技術は、はるかに高い圧縮率や修復能力を発揮するからだ。ただし、送信元のデータが受信側に正確に届いたかどうかの指標は大きな見直しを迫られる。

 生成AIの基となっているオートエンコーダーの仕組みを見ると、通信の仕組みとほぼ同じであることが分かる(図1)。つまり符号化器でデータを圧縮し、復号器でそれを展開して元に戻す点だ。オートエンコーダーは雑音除去、画像欠損修復などの機能も発揮できる。違いは、既存の通信の符号化技術が人間が決めたルールで動作する一方、オートエンコーダーはルール(特徴量)を学習で自ら見つける深層ニューラルネットワーク(DNN)であることだ。

図1 生成AIが次世代の情報通信技術に
生成AIが情報通信技術と親和性が高い点と、今後、情報通信技術に段階的に入り込んでいく見通しを示した。
[画像のクリックで拡大表示]

音声認識/合成/変換ではDNN全盛

 既に音声認識では、DNNの符号化器(特徴量抽出器)がそれまでのルールベースの技術を一掃しつつある。最近は復号器(生成器)を利用する音声合成や音声変換も、GAN(敵対的生成ネットワーク)やVAE(変分オートエンコーダー)などのDNNになり始めた。ルールベースの技術は音声合成の声がロボット風になってしまう課題を数十年かかっても完全には消しきれなかった。GANはそれをなんなく解決してしまった(Hot News「NTTの『クロスモーダル』、幼児のように世界を学習」参照)。

3ステップを経てDNNベースに

 およそ1年ほど前から、この流れが通信や情報処理技術全般に波及し始めた。DNNへの移行には3つのステップが考えられる。まず、第1段階は、符号化や復号技術などの一部をDNNベースにして、技術の枠組みは従来のままというもの。

 第2段階は、より幅広くDNNベースの技術を取り入れると同時に、従来の通信のルールの根幹を変えてしまう段階。具体的には、DNN、特にGANを使う通信では、送信データが受信側で正しく再現できたかどうかの基準の変更を迫られる。送信データと受信データが一致しているという基準を、GANの識別器(D)が自ら決めるからだ。

圧縮率が数千分の1に?

 第3段階は、全面的にDNNを導入し、符号化効率の大幅な向上と引き換えに、データの忠実な再現自体を必須とはしないフェーズだ。例えばGANを使う場合、送信側で画像をその内容を説明したテキストに符号化し、それを受信側で画像に復号すると、そのデータ圧縮率は約1/4000にできる可能性がある注1)。ただし、復号した画像は符号化前の画像と見た目上で多少違う可能性が高い。

注1)テキストから画像に変換する技術では、約90バイトのテキストを、512×512ピクセル、データ容量が約400Kバイトの鳥の画像に変換した例がある(HDGAN)。

 これはもはや狭義の通信とは呼べないかもしれないが、実はそれは、人間同士の会話や文章での情報伝達と同じだ。例えば、2人の人が「青い鳥」と聞いて頭に思い浮かべる鳥は、同じ鳥とは限らない。放送や配信サービスであれば、生成の度に違う映像が出てくるのはむしろ面白みになる可能性がある。

「従来の基準自体に課題」

 長年、通信の技術開発を牽引してきたNTTもこの流れに乗り始めた。ただし、第1段階は飛ばして、いきなり第2段階の研究に踏み込んだ(図2)。「既存の符号化技術と波形再現の基準に限界を感じたから」(NTTメディアインテリジェンス研究所 画像メディアプロジェクト 映像メディア符号化技術グループ 研究員の折橋翔太氏)だという。

図2 ルールベースの符号化技術のさらなる低レート化はもはや限界に
NTTメディアインテリジェンス研究所による、GANなどの深層学習技術を符号化技術に用いる理由と、その結果として符号化技術に従来と大きな違いが出てくるとする見通しを示した。(図:NTT)
[画像のクリックで拡大表示]

 既存の符号化技術のH.265/HEVC、そして次のVVCはいずれも画像の波形を再現する方式。その前提で、場合分けのルールを細かくしていく戦略はもはや、符号化のコストの無駄が大きく、人間の感覚ともミスマッチが広がる一方になるというのだ。

H.265/HEVC(High Efficiency Video Coding)=ITU-T(国際電気通信連合の電気通信標準化部門)が標準化して2013年1月に勧告した動画符号化規格。

VVC(Versatile Video Coding)=H.265の次の動画符号化規格「H.266」の有力候補となっている動画符号化方式。

 ところがこの基準では、画像を高効率で圧縮すると、風景の映像に多い、樹木の枝や葉、水の流れなど輝度の連続性や規則性の低い部分が真っ先にぼやけてくる。そうした部分の画像は高周波成分が多いからだ。波形再現という基準でデータが一致していても、その画像を見る人間にとっては一致しているとは思えなくなる。「特に質感(精細度の高さ)が犠牲になる」(NTT)。

 一方、圧縮率が低い場合、樹木の枝や葉、水の流れなどの部分に符号化処理の負荷が集中する。ところが、そうした部分が画素単位で忠実に再現されることは人間にとって必ずしも重要ではない注2)。枝や葉の配置が多少ずれていてもぼやけず質感が保たれていればよいという場合が多いのである。現在の符号化技術は、本来重要でない部分に不必要なコストをかけているわけだ。

注2)ただし、画素単位での忠実な再現が重要な映像もある。記録目的の映像、医療用途、芸術作品などだ。こうした分野では、心象符号化技術は不向きだという。

「心象符号化」でHEVC超え

 こうした点を改善する上でNTTは、波形再現という大前提を見直し、新しい基準を考える必要があるとする。そこで提唱し始めたのが「心象符号化」だ。波形や画素単位の再現ではなく、画像の意味レベルでの再現、言い換えると映像を見る人の「心に映る映像」を再現することを重視する。

 この方針と、DNNベースの技術、特にGANは親和性が高い。仮に樹木の画像であれば、GANは学習時に「樹木らしさ」を学び取り、生成時にそれを再現しようとするからだ。一方で、乱数を使うために生成した画像は毎回異なり、波形再現は望めない。

 NTTはGANを取り入れて実装した符号化技術が、圧縮率の点でも既存の符号化技術を上回る可能性を確認したとする。

 具体的には、NTTの折橋氏らが、画像中で忠実な再現が重要でない部分を意図的に欠損させ、GANの技術を使ってその部分を補間する符号化技術を開発した(図3)。この技術で補間された映像は、原画と直接比較すると画素単位では全く違う可能性がある。それでも、見た目は同じで、高周波成分は失われず質感は高いままだ。圧縮率はHEVCに対して16.5%高かったという。

図3 人間にとって忠実な再現が重要でない部分を意図的に欠損させて復号時にGANで補間
HEVCより16.5%符号量が少ない符号化技術の概要。NTTメディアインテリジェンス研究所が開発した。樹木や水の流れの画像の波形を忠実に再現することは、人にとってはあまり重要でないが、符号化処理の負荷は大きかった。圧縮率を高めると、そうした画像が真っ先にぼやける。今回は、そうした部分を中心に画像を欠損させ、代わりにGANで生成した画像をその部分に埋め込んだ。これによって、符号量をHEVCに比べて低くできたという。(図と写真:NTTメディアインテリジェンス研究所、赤枠は本誌が加筆)
[画像のクリックで拡大表示]

DNNが画像欠損部を予測して修復

 画像欠損部の修復にGANを用いた例は他にもある。米University of California,Berkeley校 ProfessorのAlexei Efros氏の研究室は、NTTよりも2年も前にエンコーダーデコーダーとGANを組み合わせた技術で画像修復を実現している(図4)。

図4 補間ではなく“予測”で欠損分を修復
静止画の欠損修復に、深層学習技術をよりシンプルに適用した例。University of California, Berkeley校(UCB)のEfros氏の研究室が開発した。Efros氏らは、このエンコーダーを、「コンテキストエンコーダー」と呼ぶ。(写真:UCBのWebサイト)
[画像のクリックで拡大表示]

 Efros氏らの研究は補間ではなく、周辺画像の特徴量を基に欠損部を予測することで画像を修復する。NTTよりもDNNの適用範囲が広く、冒頭で触れた生成AIの通信や情報処理技術への適用の第3段階に近い注3)

注3)NTTは、このEfros氏らの研究を「性能が教師データに依存し、学習コストが大きい。教師データの分布から大きく外れた画像に対する修復性能は保障されない」と評価し、今回はあえて既存の画像符号化方式とのハイブリッド型を選んだとする。

動画へのGANの適用も始まる

 2018年秋以降になると、いよいよ動画の符号化や超解像化にGANを利用する試みが出てきた。例えば、NTTは複数のアプローチで動画の符号化技術を開発している。1つは、上述の静止画像の符号化技術を動画に拡張したもの。ポイントは、フレーム間の画像の時間的連続性の確保だ。「画像の時間的連続性を識別器(D)に課すのは比較的容易だが、生成器(G)の学習が大変になる。DとGのバランスが重要になることが分かってきた」(NTTの折橋氏)という。

超解像(Super Resolution)化=元々は解像度が低い動画を高精細動画にリアルタイムに変換すること。

 もう1つは、DNNとGANをより直接的に動画符号化に用いる方式だ(図5)。画像符号化と復号にはまずオートエンコーダーを利用する。ただし、これだけではフレーム間の時間的連続性がないので、時間的に連続する3フレームを基に、連続性を確保するためのDNNとオートエンコーダーをまるごと、GANで学習する。「まだ基礎研究の段階だが、同じビットレートでHEVCと動画を比較すると、ぼやける部分が減り、よりきれいに見える」(NTTメディアインテリジェンス研究所 画像メディアプロジェクト 映像メディア符号化技術グループの工藤忍氏)。

図5 時間方向の連続性確保もGANで学習
動画の符号化により直接的に深層学習を適用した例。NTTメディアインテリジェンス研究所が開発した。まずは3フレームのデータを組み合わせて作成した2つのデータをその差がなくなるようにGANで学習させる。主観評価では、同じビットレートのHEVCよりも高い評価を得たとする。(NTTの資料を基に本誌が作成)
[画像のクリックで拡大表示]

ズームしても高精細を維持可能に

 海外では、GANを動画のオンデマンドの超解像化に利用する試みも出てきた。ドイツTechnical University of Munich(TUM)Associate ProfessorのNils Thuerey氏の研究室が開発した「Temporally coherent GAN(TecoGAN)」である(図6)。

図6 動画の超解像化が自由自在に
動画の解像度を高められる技術「TecoGAN」の概要。Technical University of Munich(TUM)のThuerey研究室が開発した。一般に動画の一部をズームすると解像度が大きく低下するが、TecoGANを用いるとその部分も高い解像度を保てるという。3フレーム分の整合性をGANで確保することで、動きの滑らかさなどを実現した。(写真:TUMのWebサイト、図:https://arxiv.org/pdf/1811.09393.pdfを基に本誌が作成)
[画像のクリックで拡大表示]

 既存の映画作品をズーム後に超解像化するデモを披露するなど、実用化間近かという印象だ。

 TecoGANでは、動画符号化で一般的な動き補償技術とGを組み合わせた。Dに、低解像度の映像3フレーム、および高解像度の映像3フレーム、動き補償技術を利用した高解像度の映像の予測値をそれぞれ入力、識別させてフレーム間の連続性を確保している注4)

注4)2018年に開発した前身となる技術では、画像の空間的連続性と空間的連続性の確保にそれぞれ別のDを用いていたが、今回のDは1つ。

出典:日経エレクトロニクス、2019年7月号 pp.55-59 の特集第3部「既にルールベースの符号超え、人の“心象”基準で超高効率に」を改題した記事です
記事は執筆時の情報に基づいており、現在では異なる場合があります。

この先は有料会員の登録が必要です。「日経エレクトロニクス」定期購読者もログインしてお読みいただけます。今なら有料会員(月額プラン)が2020年1月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら