本システムを開発した、東京大学大学院情報理工学系研究科システム情報学専攻猿渡研究室助教の高道慎之介氏のデモの様子
[画像のクリックで拡大表示]

 東京大学大学院情報理工学系研究科システム情報学専攻の猿渡研究室は、DMM.comと進める社会連携講座において、リアルタイムで別人の声に変換できる音声変換システムを開発した。日本音響学会が開催した「2019年春季研究発表会」(2019年3月5~7日、電気通信大学)で発表した。

 従来は変換処理に時間がかかるためリアルタイム変換は難しく、音声通話やライブ配信などリアルタイム性が求められる用途での活用は困難だった。本システムはDNN(Deep Neural Network)を用いた独自の変換処理により遅延を小さく抑え、リアルタイム変換を実現したという。

 本システムでは、話者Aの声を話者Bの声にリアルタイムで変換する。変換モデルを作るため、あらかじめ変換元の話者Aと変換先の話者Bが同じ文章を読み上げて、その音声データを学習させる。同性同士の方が変換精度は高くなるが、異性の声へ変換することも可能だ。変換元として複数の人の音声データを学習させることで、誰でも特定の人(話者B)の声に変換できるとし、今後開発を進める予定だ。

分析、変換、生成の3段構成

 この音声変換システムは、大きく3つの段階に分けて処理している(図1)。

図1 今回開発した音声変換システムの概要
(図:日本音響学会2019年春季研究発表会の論文1)を基に本誌が作成)
[画像のクリックで拡大表示]

 まず1段階目は、入力した話者Aの音声の分析である。人の声帯によって変わる声の高さや、首から頭にかけての骨格や筋肉の付き方によって変わる声色などの「音声の特徴量」を抽出する。音声の特徴量とは、1文字の音(音素)をさらに細かく分けて分析したものだ。この特徴量は、入力の音声波形を5msと短いフレームで切り出し、高速フーリエ変換するなどして抽出した。音声のサンプリングレートを16kHzにして周波数と帯域を絞り、変換するデータ量を抑えたという。

 2段階目はDNNを利用した変換処理である。1段階目で抽出した話者Aの音声の特徴量から、別の話者Bの音声の特徴量に変換する。DNN音声変換モデルの学習には、変換精度を高めるため、画像生成やロボットの動作生成において成果を上げている「GAN(Generative Adversarial Network、敵対的生成ネットワーク)」と呼ばれる生成モデルと同様の技術を応用した。生成した音声を音声識別用の別のDNNに通し、だませるまで音声を生成し直すという手法で自己学習を繰り返す。この変換処理では遅延を減らすため、話者Aと話者Bの音声の特徴量から共通する部分は変換せず、異なった部分のみ変換する。従来の音声処理技術の知見を生かす形だ。

 3段階目は、音声の合成部分である。2段階目で変換した音声の特徴量から、音声の波形を生成する。ここまでの3段階の処理で生じる遅延は合計50msである。一般に人が音声遅延を認識する目安は約70msで、それを超えなければ遅延を感じないリアルタイム音声変換が実現できるという。さらに、システムを軽量化したことで、一般的なノートパソコンで十分に動作できるようになった。

 ただし、実用化にはハードルもある。例えば、学習や変換に使用する音声にノイズが多く含まれるときれいに変換できないので、録音環境を整える必要がある。放送や配信などの商業利用向けの場合は、最低でも44.1kHzにサンプリングレートを上げる必要があり、処理するデータ量が増える。このため現状ではまだ難しいという。

この先は有料会員の登録が必要です。「日経エレクトロニクス」定期購読者もログインしてお読みいただけます。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら