「我々の目標は、デジタルワールド全体の振る舞いを推定することだ」。イスラエルのデータ分析企業シミラーウェブで、2007年の創業当初からCEO(最高経営責任者)を務めるオア・オファー氏はこう語る。

 同社は特定のWebサイトのアクセス数や、流入に寄与した検索キーワード、アプリのダウンロード数などの推定値を顧客企業に提供していることで知られる。推定の根拠となっているのは、ブラウザーのプラグインから収集したWeb閲覧履歴など大量のアクセスデータだ。

 ただし、ここ数年はブラウザーのプライバシー機能が強化されるなど、ブラウザーからのデータ収集は困難になりつつある。

 シミラーウェブは現在、どのような手法でアクセス数を推定しているのか。データ収集と推定の実態について、オファーCEOに聞いた。

(聞き手は浅川 直輝=日経 xTECH/日経コンピュータ)


シミラーウェブはどのようなデータを使ってWebサイトのアクセス数などを推定しているのか。今もデータ収集の主力はブラウザーのプラグインなのか。

シミラーウェブのオア・オファー創業者CEO(最高経営責任者)
[画像のクリックで拡大表示]

 ブラウザーのプラグイン経由で収集するWeb閲覧履歴、いわゆる「パネルデータ」は推定プロセス全体の一部にすぎない。

 我々は主に4つのデータソースを使っている。1つは先ほど挙げたデバイスのパネルデータだ。できるだけ多くのデバイスの振る舞いをキャプチャーする。ブラウザーのプラグインに加え、アプリなどからも情報を取得する。

 2つ目は「データ抽出」、いわゆるインターネットのクローリング(巡回)だ。例えばApp Storeが公開するアプリのダウンロードランキングや、各メディア企業が公開する記事ランキングに加え、Googleなど検索エンジンの検索順序も収集している。例えば「Donald Trump」などのキーワードで検索して上位に来るサイトは多く読まれていると推定できる。

 3つ目は「データパートナー」だ。ISPに加え広告業界におけるDSP(デマンドサイドプラットフォーム)事業者などからアクセスデータの提供を受ける。

 4つ目は「直接計測」だ。多くの企業はGoogle AnalyticsやAdobe Analyticsなどのツールで自社サイトなどへのアクセス数を計測している。我々はWebサイト管理者の許可を受け、API(アプリケーション・プログラミング・インターフェース)経由でこうしたデータを取得している。いわば「正解」のデータだ。

 シミナーウェブが提供するアクセス数などの推定値は広告代理店などが参照している。Webサイト管理者にとっては、我々に計測データを提供することで、推定値ではない正確なアクセス数を他の企業に見せることができる。

 これら4つのデータソースは、料理でいうところの「材料」だ。国ごと、業界ごとに最適な配合は異なる。例えば、直接計測やISPのデータを多く収集できている国については、パネルデータの比重を下げたほうが推定値の精度は高まる。こうした配合を機械学習などで自動調整している。

デバイスから収集するパネルデータについて、プラグインにひも付く匿名IDなど、ユーザーの識別につながる情報は収集しているのか。IDの有効期間はどれくらいか。

 技術的な詳細は承知していないが、ぜひ理解してほしいのは、我々がユーザーのデータを集めているわけではない点だ。我々の目的はCookieを通じてターゲット広告を打つことではない。デジタルワールドの振る舞いを推定することだ。収集したデータは、ユーザーごとではなくWebサイトやアプリごとに集約して管理している。

この先は有料会員の登録が必要です。今なら有料会員(月額プラン)が2020年1月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら