本記事は、電子情報通信学会発行の機関誌『電子情報通信学会誌』Vol.101 No.9 pp.891-895に掲載された「音声発話からの意味理解」の抜粋です。全文を閲覧するには電子情報通信学会の会員登録が必要です。会員登録に関して詳しくはこちらから(電子情報通信学会の「入会のページ」へのリンク)。全文を閲覧するにはこちらから(電子情報通信学会のホームページ内、当該記事へのリンク)。『電子情報通信学会誌』の最新号はこちら(最新号目次へのリンク)。

1.音声対話システムにおける言語理解とは

 本稿で対象とする音声対話システムにおける言語理解とは、ある発話に対し、以下を備えた意味フレームSF(Semantic Frame)

  • DOMAIN(ドメイン)
  • INTENT(意図)
  • SLOTS(スロット)

を埋める処理であるとする。なお、音声対話の研究分野では伝統的に1発話の意味を理解する処理を言語理解(natural language understanding)と呼ぶことが多い。

 ここでもそれに従う。

 表1にドメイン・意図・スロットの例を示す。表2に天気ドメインの意味フレームの一例を示す。発話「今日の東京の気温を教えて」があったとすると、$DOMAIN= “weather” $INTENT= “temperature”$DATE=“今日” $LOCATION=“東京”と解析させることが本稿で述べる言語理解である。

表1 ドメイン・意図・スロットの例
表2 天気ドメインの意味フレームの例

 ドメインごとに取り得る意図が決まる場合も多いため、実際のシステムではドメインと意図が明確に分離されていないケースもある(注1)。以後、意図推定の処理について書く場合、ドメイン推定でも同様の処理が行えるものと考えてよい。意図もドメインもどちらも有限個の値を取るので分類問題と捉えることができるため、技術的な扱いはほぼ同じである。

(注1) 例えばNTT ドコモの自然対話・意図解釈API でのコマンドID(タスクID)など。https://dev.smt.docomo.ne.jp/?p=docs.api.index

 次章以降ではまず意図の推定とスロットの充足(slot filling)について基本的な手法を述べる。次に近年注目の手法を①ニューラルネットワークを利用する手法、②意図の推定とスロット充足を同時にモデル化する方法、の2点から述べる。

この先は会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら