NTTは、複数の人の声が混ざった音声から、目的話者の声の特徴に基づいて選択的に音声を抽出する技術「SpeakerBeam」を発表した(ニュースリリース)。独自開発した深層学習技術により、声の特徴の抽出と、その特徴に基づいた音声の抽出を実現する。話者の位置に注目した音声抽出技術はこれまでも存在したが、声の特徴に注目して音声を抽出する技術は「世界初」だという。

人の聴覚による声の選択的聴取
(出所:NTT)
[画像のクリックで拡大表示]

 人の声には、声の高さや声質、抑揚、強勢、リズムなどさまざまな「個性」がある。人の聴覚は、これらの個性の違いを認識して、その他の音は無視しながら目的話者の声を聞き取る能力「選択的聴取」がある。しかし、声の特徴のどの部分に注目すれば選択的聴取を実現できるのか、明らかではないという。そこで、新たな深層学習技術を用いて、「声の特徴の抽出方法」と「声の特徴に基づく声の抽出方法」を同時に学習する仕組みを構築した。

 具体的には、主ネットワークと補助ネットワークの2つを組み合わせたニューラルネットワークを構築する。主ネットワークは、(複数の人の音声が混ざった)入力音声を受け取り、目的話者の音声を出力する。主ネットワークには、「適応層」と呼ばれる層を含み、ネットワークの制御情報として補助ネットワークで抽出された目的話者の声の特徴を受け取り、特徴に合わせて目的話者の声を抽出できるように処理を変更する仕組みを持つ。補助ネットワークは、入力音声とは別に収録した目的話者の声(10秒以上)を補助情報として受け取り、声の特徴を抽出して出力する。

「SpeakerBeam」による声の選択的聴取
(出所:NTT)
[画像のクリックで拡大表示]

この先は会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら