日経エレクトロニクス2014年6月23日号のpp.68-74「音声認識・対話のアプリケーション、成功の鍵は必然性や自然性」を分割転載した後編です。前編はこちら

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識のアプリケーション(用途)のうち、音声をコンテンツとして扱うものを紹介する。

話し言葉の書き起こし

 以上は音声を機械とのインターフェースに使う用途である。ここからは、音声をコンテンツとして扱う場合を取り上げる。まず考えられるのは、会議録を作ったり、字幕を付けたりといった、人がしゃべった言葉を書き起こすシステムである。

 前述したように、人間同士の話し言葉をテキスト化する技術は、音声ワープロなどとは全然違う。例えば、ディクテーションソフトを会議録用に使おうとしても、適切には動作しないと考えた方がいい。ディクテーションソフトのように機械に向かって話すときは、人の発話は知らず知らずのうちに丁寧になっている。一方で講演や会議では考えながら話すので、発話の区切りや発声が必ずしも明瞭ではない。

 一番の違いは認識結果のフィードバックがないことである。ディクテーションソフトの場合は、話した内容がそのまま文字になるので、ユーザーは「こういう話し方をすると認識がうまくいかないんだ」と、すぐにわかり自然に修正する。会議や講演の場合にはありえない効果だ。

 現状で実現しつつあるシステムは、公共の場で多数の聴衆に向かってできるだけ丁寧に話すような、パブリックスピーキングと呼ばれる状況を想定している。実際、発話を書き起こす需要が大きいのはパブリックスピーキングで、普通の会話ではあまりない。例えば、放送のニュースに字幕を付けたり、議会の会議録を作ったりするシステムに需要がある。なお、この用途の詳細は連載の次回以降で解説する。

この先は有料会員の登録が必要です。有料会員(月額プラン)は申し込み初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら