日経エレクトロニクス2014年5月26日号のpp.88-95「実用化進む音声認識、システムの構成要素を概観」を分割転載した中編です。前編はこちら

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識の原理を説明する。

発話された単語列を確率的に推定する

 ここからは、音声認識の原理を説明していく。あらゆる教科書に書かれているように、音声認識は確率的な枠組みに基づいている(図3)。すなわち、入力音声を分析して得られる特徴量Xに対して、事後確率pWX)が最大となる単語列Wを見つける問題として定式化できる。直感的に言えば、聞き取った音(X)に対して一番もっともらしい単語列(W)を求める問題と言える。つまり事後確率pWX)とは、Xを観測したときにWと言える確率のことである。

図3 音声認識の原理
音声認識は、音声の特徴量Xから、pWX)を最大にする単語列Wを求める問題とい える。
[画像のクリックで拡大表示]

 pWX)は次式のように、Wが生じる確率(先験確率)pW)と、Wと発した時にXが生じる条件付き確率pXW)の積で表せる。

 このとき右辺の分母pX)は、すべてのWに対して、分子の数式の値を求めて合計したものである。

 pX)は分子のWが何であるかにかかわらず一定になる。このため、Wを推定する際には無視しても構わない。従って、pWX)を最大にするWを求める問題は、pW)とpXW)の2項を求める問題とみなせる。

 なお、pX)による除算は、すべてのWに対するpWX)の合計が1になるように正規化する操作といえる。このため、認識結果にどのぐらい信頼度・確信度があるのかを調べるときには、近似的に求める。

この先は有料会員の登録が必要です。今なら有料会員(月額プラン)は12月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら