音声合成技術は時代のニーズに応える形で進化し、その用途も拡大してきた。現在は、深層学習技術の活用への関心が高まっている。音声合成技術そのものの進化にとどまらず、制御やセンシングといった技術と組み合わせることによって、音声の力をさらに引き出そうとする動きも増えてきた。

 「無機質な機械音声」から「まるで人間が話しているような音声」へ─。テキスト情報から音声を人工的に生成する音声合成(テキスト音声合成、Text-to-Speech)技術の用途が拡大している背景には、“自然な発話”を実現するなど技術の着実な進化がある。

 NTTテクノクロスのメディアイノベーション事業部第二ビジネスユニットマネージャーの鳥居崇氏によれば、音声合成技術は時代のニーズに応えるために進化し続けてきた歴史があるという。その大まかな流れとしては、かつて主流だった「波形接続型」の弱点を解消するために、統計的手法である隠れマルコフモデルを適用した「HMM型」の普及が進み、そして現在は両者の特徴を併せ持つ深層学習技術を適用した「DNN型」が台頭しつつある。ただし、従来手法が新手法に直ちに駆逐されるわけではなく、当面は用途ごとに使い分けることになりそうだ。

ニーズに応えて技術も進化
音声合成技術は、ユーザーニーズに応える形で新しい手法が登場し、それに合わせて用途も拡大してきた。
[画像のクリックで拡大表示]

歴史的にニーズに応え続けてきた

 音声合成技術の実用化当初は、コールセンターなど電話関連の用途がほとんどだったこともあり、主に聞き取りやすさ(明瞭性)が求められた。ある程度普及すると、人間の音声に近づけたいというニーズが出てきた。それに応えたのが、波形接続型である。

収録音声の波形をつなぎ合わせる
波形接続型は、収録音声の波形データベースを使って音声を生成する。入力したテキストを解析し、最適な音素を波形データベースから選び出して、その波形同士をつないで合成音声を出力する。収録した生の声を使用するので、合成音声の肉声感は高くなるものの、波形データベースに音声データを大量に蓄えておく必要があり、音声合成エンジンのデータサイズや収録コストが高くなる。
[画像のクリックで拡大表示]

 波形接続型では、収録音声の断片(波形)をつなぎ合わせる。合成器(合成エンジン)は、波形のデータベース(DB)と、テキスト情報に最も合致した波形を選ぶアルゴリズムから成る。元の音声を切り貼りしているだけなので、いわゆる「肉声感」に優れるが、抑揚や感情表現などを演出するのは難しかった。波形接続型で品質を高めるには、大容量の波形DBが必要という課題もあった。

 音声合成技術のユーザーが増えるにつれて、「抑揚や感情表現などを付けたい」、さらには「(出来合いの音声ではなく)さまざまなキャラクターの音声を使いたい」といった多様性を求める声が出てきた。その解決策として開発されたのがHMM型である。

この先は有料会員の登録が必要です。今なら有料会員(月額プラン)が12月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら