耳がいいAIスピーカーとそうでもないAIスピーカー――。「聞き取り能力」は音声操作を前提にしたAIスピーカー(スマートスピーカー)の“基本機能”だが、日経 xTECH分解班による“3大AIスピーカー”の調査では、機種によって差があることが確認された。

 例えば3機種の中で、「Google Home」(米グーグル(Google))は「きゃりーぱみゅぱみゅ」や「チバニアン」といった、特殊で聞き取りにくい単語まで聞き取った。「Amazon Echo」(米アマゾン・ドット・コム(Amazon.com))は聞き取った音の方向をLEDで表示できる。一方、「Clova WAVE」(LINE)は、分解班の調査(2017年末)によれば、機器の起動(ウェイクアップ)に必要な開始語の「Clova(クローバ)」の聞き逃しや聞き間違えの確率が他の機種より高かった(関連記事)。

 こうした差はどのようにして生まれるのか。今回はAIスピーカーの「聞き取り」の専門家であるフェアリーデバイセズ 代表取締役CEOの藤野真人氏に、マイクから処理まで、より詳しくAIスピーカーの音声認識について聞いた。同社は聞き取り能力などに注力した業務用AIスピーカーを開発している。


AIスピーカー用のマイクには、どんな特性が必要とされているのでしょうか。

 マイクに求められるのは、以下の4点です。

(1)マイク自体を原因とするノイズが低い
(2)複数を使用するため、感度(入力信号を何倍の出力信号にするかという増幅率、ゲイン)の個体差が小さい
(3)人間の声の周波数帯域では、周波数特性がフラットである
(4)環境中のホコリや粒子、水分などへの耐性が高い

マイクを7個搭載するAmazon Echo
(以下、写真:加藤 康)
[画像のクリックで拡大表示]

 (1)については、まだメーカーによって差があります。一部で低ノイズ製品も出てきています。(2)の感度の差、つまりマイクのゲイン(増幅率)の個体差については、少ない場合でも±1dB程度、メーカーによっては±3dB程度の場合もあります。ゲインの個体差はMEMS(微小電気機械システム)マイクの製造方法によります。発注量が多い場合は、個体差を抑える目的で特注の製造ラインを用意しているケースもあるのではないでしょうか。(3)の人間の声への対応は、最近、概ね要求が満たされている状況になっています。

 (4)について、ホコリなどの粒子に弱いというのはMEMSマイクの欠点の1つです。ホコリ耐性や防水性を向上させたり、特に高域での音響特性を改善するために、音を取り込む穴部分を「メッシュ」で覆う方法があり、マイクメーカーがそれを推奨している場合もあります。

この先は有料会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら