音声データや楽曲データの特徴を分析する技術。指紋のように音声ごとに異なる特徴を抽出し、比較することで、大量の音声/楽曲ファイルから同じものを検出したり、似た雰囲気の楽曲を探し出したりできる。

 米アマゾン・ドット・コムは音響指紋技術を応用し、スマートスピーカーが、テレビやラジオから流れる音声コマンドに反応しないようにした。米国では2017年、大手ハンバーガーチェーンがコマンド音声を使い、商品の詳細を視聴者のスマートスピーカーに話させるコマーシャルが話題となった。一方でスマートスピーカーは自宅の鍵の開閉や冷暖房などのコントローラーとして利用したり、通販サービスで商品を注文したりする使い方もできる。そのためテレビの音声コマンドで勝手に動作することを懸念する声が出ていた。

 今回アマゾンが対応した仕組みはシンプルだ。(1)スマートスピーカーが放送で流れたコマンドを受け取ると、放送地域の複数端末からほぼ同じタイミングで同じ音声コマンドがクラウド上に集まる(2)このときクラウド上で複数の端末からの音声ファイルを音響指紋技術で比較する(3)一致するコマンドが多い場合に放送によるコマンドとして判定し、スマートスピーカーが反応しないよう処理する。音響指紋の比較が終わる前にコマンドに反応した一部の端末ではそのままコマンドが実行される欠点があるが、およそ80~90%の端末で放送経由のコマンドを無効にできるという。

米アマゾン・ドット・コムのスマートスピーカー「echo」シリーズに搭載された音響指紋システムのしくみ。(1)と(1)'の音声を比較し、同じタイミングで同じ音声が送られてきている場合、放送音声と判断して反応しないようにした
[画像のクリックで拡大表示]
出典:日経パソコン 2018年3月26日号 p.13
記事は執筆時の情報に基づいており、現在では異なる場合があります。