AI(人工知能)ベンチャーのCogent Labs(東京・渋谷)は2017年11月15日、大量の文書を内容や表現で分類したり意味検索したりできる文書解析システム「Kaidoku(カイドク)」を開発したと発表した。今後、医療や法務、苦情処理など大量の文書を保有する企業に活用を提案し、実業務での実証実験に取り組む方針。その成果を踏まえて企業が利用できる最終的な製品化を目指す。

 深層学習を応用した独自の自然言語処理技術を用いて今回のシステムを開発した。長文の文書に含まれる重要語句や文意を認識し、文書同士の類似性を解析するほか、文書の趣旨が否定的か肯定的かなどを識別する「センチメント分析」などで文章を分類できる。言葉の類似性を学習し、同義語や意味が近い言葉を同一と見なすあいまい検索も可能だという。

 現在の実装では、AIで分析した内容の類似性から大量の文書を平面上にマッピングして表示し、文書の傾向を見たり、文書を検索・絞り込んだりする使い方を想定している。マップ上では文書の類似性が高いほど近くに集まって表示され、多数の点が密集して表示される。

 説明会のデモでは、顧客から寄せられた苦情を分析したり、日本の法律を全て登録して全体的な傾向を可視化したうえで必要な法律を絞り込んだりする使い方などを披露した。

苦情処理への応用例。マッピングされた点が近いほど類似性が高く、苦情のタイプなど別の軸でも文書を色分け表示する。キーワードを含む文書を検索、ハイライト表示(緑色)させて傾向も確認できる
[画像のクリックで拡大表示]

 Cogent Labsは手書き文字を認識する企業向けのAIエンジン「Tegaki(テガキ)」を製品化しており、ITベンダーや保険会社などへの販売実績を持つ。Tegakiなど同社の他のAIエンジンと組み合わせたソリューション提供も計画している。

 Tegakiと今回のKaidokuを組み合わせれば、例えばアンケート回答など手書きされた文書をテキスト化してその傾向を分析するまでの作業をAIで一気に自動化できるようになる。

 説明会では飯沼純共同代表取締役が、自治体やNPO(非営利団体)が設けた児童虐待ホットラインに寄せられる相談が手書き文書のまま置かれている現状に触れ、行政関係者にも今回のシステムの活用を提案していることを紹介した。

 医療や法律などにも適用分野を広げたい考え。そのために「実際の文書データを使って分類方法を学習させることが重要」(同社AIアーキテクトのデイビッド・マルキン氏)と見ており、まずは企業などとの実証実験を急ぐ。