T-Engine上で動作する音声合成ソフト「RubyTalk」の新版
T-Engine上で動作する音声合成ソフト「RubyTalk」の新版
[画像のクリックで拡大表示]

 TRONSHOWのブースの一角で,合成音声の進化を自分の耳で確かめることができる。今後の民生機器が発する合成音声は合成音声であることに気が付かないかも知れない。日立超LSIシステムズは2005年12月14日,T-Engineを使ってテキスト・データを合成音声で読み上げるソフト「RubyTalk」を実演,1989年の初期版から2005年の最新版まで4段階の合成音声を聞き比べられる展示を披露した。

 RubyTalkは,日立製作所の中央研究所が開発したアルゴリズムを用いた音声合成ソフトである。漢字かな混じりテキストのテキスト・データを入力すると,内部で発音表記コードに変換後,16ビットのPCM音声を発生する。TRONSHOW展示会場で聞いた最新版の合成音声は,自然なものだ。

 合成音声のデモでは,1989年,2001年,2002年,2005年の4つのバージョンを聞き分けられる。2001年から2002年への進化では,従来の2次臨界制動と折れ線近似を用いた方式から,音声コーパスのデータベースから韻律モデルを決定するようにした。2003年から2005年の進化では,より自然に聞こえるよう,日本語音声の素片を同じものに固定せず,文の前後を考慮して適切な素片を動的に割り振るようにした。

 RubyTalkの従来版は,カーナビの音声などで導入実績を持つ。最新版は2005年10月に出荷済であり,今後民生機器に搭載される。

 TRONSHOW会場で録音した4バージョンそれぞれの合成音声はMP3形式でこちらに公開した。1989年,2001年,2002年,2005年それぞれの音声の品質の違いが分かる。なお,最新版の音声サンプルは日立超LSIシステムズがWAV形式で公開している。

■TRONSHOW 2006の特設ページはこちら