NTTデータは2017年2月15日、旅行観光業界などに向けて、Twitter上での観光スポットの話題量を測定するサービスを開始したと発表した。NTTデータが保有する全言語のTwitterデータを対象に、日本の観光スポットに関する話題量を計測する。販売目標は、同サービスを含めたTwitterデータ関連ビジネス全体で、今後5年間で累計10億円。

ディープラーニングを用いた観光スポット名の抽出イメージ
(出所:NTTデータ)
[画像のクリックで拡大表示]

 全国の観光スポットの話題量をスポット単位で網羅的に測定する。これにより、話題になっている観光スポットが、国籍、年代、性別、嗜好性など、どのような属性のユーザーに話題になっているのかなどを把握できる。

 サービスの活用によって、日本全国の隠れた観光資源の発掘など、地方創生への活用が期待できるとしている。さらに、日本人だけでなく、2017年1月時点で78カ国の外国人も分析の対象としているため、インバウンド観光向けのデータとしても活用できるという。

 特徴の一つは、Twitterデータの全量を解析対象とすること。時間当たりの実行回数に制限があるAPI経由のデータ取得とは異なり、データを取りこぼすことなく取り込めるため、発言数の少ない地方の観光スポットの分析も実現できる。

 これまで困難だったスポット名の抽出に深層学習を活用している。日本全国の30万件におよぶ観光スポット名を自動で抽出している。表記の揺らぎも抽出して正式名称にマッチングさせている。これにより、観光スポットの略称や言い回しを含めて分析できるようにした。

 観光スポットは、温泉、神社・寺、ショッピングモール・アウトレット、洞窟など、65のカテゴリに分類する。これにより、同じ種類のスポット間で話題量を簡単に比べられるようにしている。スポット情報には緯度経度の情報をひも付けているので、地図上で観光スポットの話題量を俯瞰して把握することも可能である。