今号の特集「売れる音声」は「音声合成」がメインテーマです。関連する技術として「歌声合成」と「声質変換」もカバーしました。それぞれの最新動向は特集に譲りますが、音声合成の歴史は相当に古く、最初の音声合成器は今から実に200年以上前に当たる1779年に作られたという記録があるそうです(参考文献:古井貞煕、『ディジタル音声処理』、 東海大学出版会)。

 それから脈々と研究開発が続いてきた音声合成の分野で、もう30年以上も語り継がれている金科玉条があります。それは「音声合成には正解がない」です。この一見不思議なフレーズは、音声処理の世界で音声合成と双璧をなす「音声認識」との対比から生まれています。音声認識には「認識率100%」という正解があるからです。

 音声処理の性能向上を目指して、革新的な技術を取り入れていくという観点では、「正解がある」音声認識が先んじました。例えばHMM(隠れマルコフモデル)の導入によって、大語彙・不特定・連続音声認識システムが実現しました。さらにDNN(ディープニューラルネット)を取り入れてからは、認識率が大幅にアップし、「認識率100%」へと力強く進んでいます。

 一方の音声合成も、時期こそ音声認識より遅れましたが、HMMからDNNへと方法論が移り、肉声に近い合成音声を実現できるようになりました。これまでの合成音声といえば「まるでロボット」という印象を抱く方も少なくないと思いますが、現在は手軽に聞けるWebサイトやアプリがありますので、一度試してみてはいかがでしょうか。

 もっとも「肉声に近づく」ことが、音声合成で誰もが目指す唯一のゴールではありません。人の声はそもそもが十人十色で、同じ人でもそのときの感情や環境によって声が変わります。「Aさんの声はこれ」という正解はなく、だからこそ「音声合成には正解がない」となるわけです。逆に言えば、どんな合成音声にも個性ならぬ“個声”があるわけで、その活用先は無限の可能性を秘めています。

出典:日経エレクトロニクス、2019年8月号 p.9
記事は執筆時の情報に基づいており、現在では異なる場合があります。