テキスト情報から音声を人工的に生成する音声合成(テキスト音声合成、Text-to-Speech)技術が、幅広い産業に変化をもたらそうとしている。技術の進化に伴い用途が拡大しているほか、音声そのものや合成器(合成エンジン)を流通させる新しいビジネスモデルが登場したり、音声に関する権利の確立に向けた取り組みが始まったりしているのだ。

音声合成技術が産業を変える
音声合成技術の進化によって、これまで一部に限られていた用途が幅広い産業に拡大している。さらに、音声そのものや音声合成を流通させるプラットフォームビジネスの登場、音声に関する権利の確立といった動きも出てきている。
[画像のクリックで拡大表示]

 用途の拡大については、抑揚や感情表現など、人間に近い“自然な発話”を実現したことが後押しになっている。従来の音声合成技術による合成音声は、「無機質」「機械が話しているような声」と形容されるように抑揚や感情表現などに乏しく、用途もコールセンターの自動応答などに限られていた。だが、「人間が話しているような声」に近づいたことで、最近はコミュニケーションロボットやデジタルサイネージ、テレビ/ラジオ放送、公共交通機関の各種案内など、多様な分野に普及しつつある。

 さらに、音声合成技術に関連した技術として、楽曲(歌詞や音階などの情報)に合わせた歌声を生成する歌声合成技術や、音声を別人のものに変える声質変換技術についても、研究開発や実用化の動きが加速している。エンターテインメント業界を中心に、ユーザー側でも採用する企業が増えてきた。

 一般に、人間が五感から得ている情報のうち80%以上は視覚によるものといわれている。とはいえ、視覚情報を表示する空間や視覚情報として表現できる内容には限りがある。視覚では伝えられない情報や価値を提供する手段として、音声合成技術やその関連技術が注目されているのだ。

ピンチか、それともチャンスか

 音声合成技術によって音声が人間の身体から“独立”すると、音声そのものや合成エンジンをシステムの“部品”として流通させることが可能になる。そのようなビジネスモデルの構想自体は以前もあったが、音声を収集・活用するための端末としても機能するスマートフォンの普及や、インフラとなるクラウドコンピューティングのコスト低減などによって、にわかに現実味を帯びてきた。

 音声や合成エンジンが市場で流通するようになると、これまでにないトラブルが新たに起こることも予想される。例えば、合意の範囲を超えて自身の音声そのものや音声から作成した合成エンジンを使われることが挙げられる。いわゆる「フェイクニュース(虚偽報道)」や詐欺などに悪用される恐れもある。

この先は有料会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら