機械学習の恩恵を受けて、生成した声の質が向上したのは歌声合成技術も同様だ。ただし、より自然な歌声が出せるようになっても、単純に人の歌声に近づけることだけが歌声合成の目標ではない。人が表現できない声質や速度で歌唱したり、人が考えつかないような歌い方をしたりといった、歌声の多様性を生み出す方向で進化し始めている。

 音声合成技術を大いに発展させた機械学習は、話し言葉だけではなく“歌声”にも変化をもたらしている。音声合成技術が抑揚や感情を表現できるようになったように、歌声合成技術においても声質や表現手法が向上し、生成した歌声をより人間の歌声に近づけられるようになった。

 そもそも、歌声合成の仕組みは、音声合成と大きく変わらない。例えば、統計モデルを用いた歌声合成エンジンでは、歌声やメロディー(音階)、歌詞などの情報を用いて、歌声の波形との対応関係を事前に学習して統計モデルを作成する注1)。音声合成エンジンとの違いは、話し言葉を学習させるか、歌声を学習させるかだ。歌声を生成する際は、楽曲の歌詞に加えて、メロディー情報や仮歌の音声データを入力して波形を出力する。

注1)歌声合成の統計モデルでは、音の高さや音量、音節の長さやブレス(息継ぎ)の位置など、歌声独特のパラメーターが特徴量となる。

歌唱データから統計モデルを学習
統計モデルを用いた歌声合成エンジンの概要。音声合成エンジンの概要とほぼ同じで、統計モデルの作成に歌声とメロディー、歌詞を使用して、波形との対応関係を学習させる点が異なる。
[画像のクリックで拡大表示]

「機械の声」から「人の声」へ

 少し前にブームとなったHMM(Hidden Markov Model、隠れマルコフモデル)を用いた機械学習によって、いくらか自然な歌声に近づいたとはいえ、音声合成と同様に「機械が歌っているような声」になってしまう。逆に、そのような特徴的な歌声を個性として捉えるユーザーも多くいたが、歌声の品質を向上させ、より人の歌声に近づけたいという需要も大きかった。そこで取り入れられた技術が深層学習(ディープラーニング)である。

 例えば、HOYAが開発した歌声合成エンジンは、HMMで作成した統計モデルを使いつつも、その後DNN(Deep Neural Network)で元の音声から作成したポストフィルターをかけることで、より自然な歌声を実現した。「HMMだけでは機械的な歌声になってしまう」(HOYA MD部門 ReadSpeaker SBU 技術グループの小沼海氏)。

 名古屋工業大学発ベンチャーで音声合成・歌声合成技術を手掛けるテクノスピーチは、深層学習で声質や歌い方の癖などを学習させ、より自然に人の歌声を再現できる歌声合成エンジンを2018年12月に発表した。

 この歌声合成エンジンの中では、統計モデル部分と、波形を生成するボコーダー部分に深層学習を使用する。統計モデル部分では、これまで用いていたHMMから深層学習に変更することで、モデル化の精度が向上し、より自然な歌いまわしを実現できた。ボコーダー部分では、米Google傘下の英DeepMind開発の「WaveNet」を応用することで、生成した音声の質を大きく向上できた。

 一般に、統計モデルの作成にのみ深層学習を使用する場合が多い。なぜならWaveNetは必要とするリソースが大きく、合成エンジンごとに念入りなチューニングが必要なため、導入が比較的難しいことが理由の1つと考えられる。それでも、ボコーダーに深層学習を用いるメリットは大きい。「どちらか一方だけを変更した場合でも歌声に対する評価は向上したが、併用することで評価は大きく上がった」(テクノスピーチ代表取締役で名古屋工業大学大学院教授の徳田恵一氏)。

この先は有料会員の登録が必要です。今なら有料会員(月額プラン)が12月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら