日経エレクトロニクス2014年6月9日号のpp.82-87「音声認識に新潮流、ビッグデータやDNNを活用」を分割転載した前編です。

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識システムの新潮流としてビッグデータの活用を紹介する。

 今回は、音声認識研究のこれまでの進歩と最新動向を概観する。まず最初に、前回説明した音声認識の基礎を改めて定式化しておきたい。

言語モデルと音響モデルを最尤推定

 人が話す音声とは、その人が頭に浮かべた内容を音波として外に出したものと言える。音声認識は、話し手との間の通信路において音声信号Xを観測して、話された単語列Wを推定することである。

 これを数式で表現すると、次のようになる。

p(WX)≈p(W) p(XW)

 ここでp(W)は、その言語もしくは特定の用途で、ある単語列Wが生成される確率(先験確率)である。これを計算するモデルを「言語モデル」と呼ぶ。もう一方のp(XW)は、単語列W、正確にはWを構成する音素Sから音声Xが生成される確率である。これを計算するモデルを「音響モデル」と呼ぶ。

 音声認識では、言語モデルと音響モデルを用途に応じてあらかじめ推定しておく。言語モデルは、単語列Wの先験確率を、現実の会話におけるWの出現頻度に基づいて推定する。通常は、前後の単語のつながりを統計的に扱うN-単語連鎖モデル(N-gram)で考える。例えば「京都」という言葉が100回現れたうちの20回が「京都大学」という言葉だったとすると、「京都」の次に「大学」が来る確率は20/100とみなせる。w1(「京都」)が生じた時にw2(「大学」)が生じる確率p(w2w1)は、下記の数式で表現できる。

この先は有料会員の登録が必要です。今なら有料会員(月額プラン)登録で6月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら