近年になって“声を変える”需要が急速に拡大してきた。以前は、声にエフェクトをかけて別の声に変換するケースが多かったものの用途は限られていた。ところが、声質変換技術の進化によって、他人の声そっくりに変換可能という別の方向性が生まれた。そして、音声合成と組み合わせた新たな需要が生まれようとしている。

 声質変換技術は、声を加工する「ボイスチェンジャー」以外に、新たな需要を獲得し始めている。例えば、テーマパークや大規模イベントでの活用がある。これまでは、アニメや映画の登場人物の着ぐるみなどを使って会話をする場合に、登場人物の声で話すのは困難だった。声質変換技術を用いてナレーターの声を登場人物の声に変換できれば、テーマパークの世界観や来場者の体験の質をより向上させられる。このほか、シャープ「ロボホン」のように、音声合成や歌声合成で生成した声を、別人の声に変える用途も注目され始めた。

声を変えるか、声をまねるか

 声質変換と呼ばれる技術は、大きく2種類に分けられる。1つは、以前からボイスチェンジャーとして知られてきた技術だ。声を加工してロボット声やモザイクのかかったような声に変換する。利用者自身の声を、本人の声だと認識されないように変えることが主な目的だった。

 もう一方は、深層学習などを利用した声質変換技術である。話者の声色の特徴量などを変換し、ある特定の人の声そっくりに似せた声を出力するものだ。前出の着ぐるみの声をナレーターが担当するような場合は、こちらの技術を用いる。リアルタイムに変換するためには、低遅延であることが重要になる。深層学習などを用いることで変換精度が向上し、さらに遅延も抑えられるようになり、実用に耐え得るようになってきた。この声質変換システムを利用する手順は、大きく2つの部分に分けられる。

図1 声質変換は事前学習部分とオペレーション部分で分かれる
声質変換システムは2つの段階に分けられる。事前学習部分では、変換元の話者Aと変換後の話者Bが同じ文章を収録し、特徴量の差分などを学習して、変換用統計モデルを作成する。実際に使用する際のオペレーション部分では、システムを通して話者Aが音声を発すると、変換用統計モデルによって話者Bの声色に変換して出力される。
[画像のクリックで拡大表示]

 まず、変換に用いる統計モデルの作成を行う事前学習部分がある。変換元となる話者Aと、変換後の声を持つ話者Bの2人で、同じ文章を読み上げた音声を収録する。この2つの音声データを学習させて特徴量の抽出などを行い、話者Aの声の特徴量を話者Bの特徴量に変換できるようにする。実際に運用する際は、この統計モデルを使用した声質変換システムを使って、話者Aの音声データを入力すれば、声色を話者Bに変換した音声波形を生成して出力できる。

「GAN」で変換精度向上

 東京大学大学院情報理工学系研究科システム情報学専攻教授の猿渡洋氏らの研究室は、DMM.comと進める社会連携講座において、リアルタイムで別人の声に変換できる声質変換システムを開発した。

 声質変換の精度を高めるため、音声変換モデルの学習には、画像生成やロボットの動作生成において成果を上げている「GAN(Generative Adversarial Networks、敵対的生成ネットワーク)」を応用した。生成した音声を音声識別用の別のDNN(Deep Neural Network)に通し、だませるまで音声を生成し直すという手法で自己学習を繰り返す。

 変換処理では遅延を減らすため、話者Aと話者Bの特徴量から、共通する部分は変換せず異なった部分のみ変換する。従来の音声処理技術の知見を生かす形だ。このほか、音声のサンプリングレートを16kHzにして周波数と帯域を絞り、変換するデータ量を減らすなどして、声質変換システムのアルゴリズム遅延を約50ミリ秒に抑えたという。

この先は有料会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら