アフィリエイトの広告収入などを目的とした無意味なブログ「スパム・ブログ」が急速に増えつつある。ニフティが独自開発したスパム・ブログのフィルタリング・ツールを使って調査したところ,国内のブログの約4割がスパム・ブログだという衝撃的な調査結果が出た。(関連記事)。フィルタリング・ツールを開発し,ブログの調査に携わっている同社のコミュニケーションデザイン部 上符裕一マネージャーと名越潤也氏に話を聞いた。

(聞き手は高橋 健太郎=日経コミュニケーション



ニフティ コミュニケーションデザイン部の上符裕一マネージャー(左)と名越潤也氏(右)
[画像のクリックで拡大表示]

スパム・ブログとは何ですか。

 アフィリエイトでの広告収入や特定のサイトへの誘導を目的としたブログのことです。スパム・ブログのコンテンツの内容には,意味がありません。機械的に生成されることが多いのも特徴です。

スパム・ブログという用語は以前から使われていたのでしょうか。

 はい,以前から使われています。しかし,明確な定義があるわけではありません。人によっては,「スプログ」と言ったり,「フェイク・ブログ」と言ったりすることもあります。また「迷惑ブログ」と呼ぶこともあるようです。

そもそもスパム・ブログはどのくらいあるのですか。

 当社は,ブログを利用したマーケティング・サービス「BuzzPulse」を提供しています。このサービスでは,ブログから製品やサービスの評判などの情報を得るため,日本国内の約90%,約4.5億エントリのブログを収集しています。

 その中からサンプリングして,2007年10月~2008年2月の間に月ごとの平均値を調べました。その結果,日本国内で新たに生成されるブログの約40%がスパム・ブログということが分かりました。

 日本国内で,1カ月間に生成されるブログのエントリがだいたい1500万から1700万ぐらいです。その4割程度が,スパム・ブログということになります。

スパム・ブログの何が問題なのでしょうか。

 スパム・ブログの問題は,(1)ブログ・サービス事業者,(2)企業のマーケティング担当者やブログ分析サービスを提供する事業者,(3)ブログを読む一般の生活者---という被害を受ける対象者で三つに分けられます。

 まず(1)のブログ・サービス事業者にとっては,ブログ・サービスを提供するためのサーバーの資源がスパム・ブログによって消費され,余計なコストがかかるという問題があります。また,スパム・ブログによってサーバーのレスポンスが低下し,サービスを受けるユーザーに迷惑をかけてしまうことにもつながります。

 次に(2)の企業のマーケティング担当者やブログ分析サービスを提供する事業者にとっては,ブログの声による「くちこみマーケティング」で正確な分析ができなくなるという問題があります。その結果,本当の生活者の声が分からなくなり,企業のプロモーションの効果が測れなくなります。

 最後に,これが一番重要だと思いますが,(3)の生活者にとっての問題点です。大量に自動生成されたスパム・ブログによって,生活者にとって本当に重要なコンテンツが埋もれてしまうのです。検索結果を見るとスパム・ブログが上位に来てしまいます。このせいで,生活者は本当に欲しい情報にたどり着けなくなります。

ブログのスパマーの目的は何ですか。

 スパム・ブログには,大きく分けて三つの目的があると考えられます。

 一つは,大量に作るスパム・ブログにアフィリエイトをくっつけて,そのアフィリエイトで収入を得るという目的です。

 もう一つは,他サイトへの誘導があります。スパマー自身が商品販売のサイトや,情報商材などのWebサイトを運営しており,そこに誘導することを目的としています。それらのサイト自体がかなり怪しいものだったりします。

 三つめは,SEO(Search Engine Optimization)対策です。スパム・ブログを使って前述のような商品販売サイトに大量のリンクを張ることで,検索結果の上位にくるようにするのです。

なぜ,スパム・ブログが増えたのでしょうか。

 スパム・ブログを簡単に作れる自動生成ツールが出回っているという背景があります。こうしたツールを使えば,テンプレートを作って簡単にスパム・ブログを作れます。また,アフィリエイトで簡単にお金を稼げるといった風評が立っていることもあるでしょう。

スパム・ブログには,どのようなものがありますか。

 当社では,スパム・ブログの分類を次のように試みています。まず「自動生成系」と「アダルト系」の二つに大別しました。

 自動生成系については,(1)引用スパム,(2)アフィリエイト・スパム,(3)ワード・サラダ,(4)自動マルチポスト---の4種類に分けられます。

 (1)の引用スパムは,ツールを使って自動生成されるもので,最近では一番多いタイプです。そうしたツールは,他のブログとかニュース・サイトの記事や,検索されそうなキーワードでの検索結果のスニペット(要約部分)を自動的に収集し,ブログのエントリを構成します。検索されそうなキーワードを使うことで,検索結果の上位にくるようにしているのです。

 (2)のアフィリエイト・スパムは,アフィリエイトの商品写真やアフィリエイト・リンクなどを大量に掲載したタイプです。そのようなブログを実際に見てみると分かりますが,ブログの著者自身の文章が全くないのが特徴です。

 (3)のワード・サラダは,フレーズを機械的に組み合わせて文章を生成したスパム・ブログです。一見すると人間が書いているようですが,よく見ると意味が通じない文章になっています。ワード・サラダに使われるフレーズには,検索されやすそうなキーワード,例えば芸能人の名前などが使われます。

 (4)の自動マルチポストは,ツールを使って複数のブログに自動的に記事を投稿するタイプのスパムです。

 一方,アダルト系は(1)出会い系,(2)わいせつ系,(3)ワンクリック詐欺---の3タイプに分けられます。

 (1)の出会い系は,出会い系サイトを運営しているブログや,あるいはそこに誘導するためのブログを指します。(2)のわいせつ系は,わいせつな文章や画像,動画が掲載されているブログです。そして(3)のワンクリック詐欺は,ワンクリック詐欺を運営しているブログや,そこに誘導するためのブログです。

 これらは,1年ぐらい前には専用のホスティング・サーバーで運営されているケースが多かったのですが,最近はブログで運営されることが多いようです。

スパム・ブログのフィルタリング・ツールを開発しようと考えたきっかけは何ですか。

 当社が提供しているブログ分析サービス「BuzzPulse」がきっかけでした。

 先ほども説明しましたが,様々なマーケティングに役立てるため,日本国内のブログを収集して分析しています。ところが,最近スパム・ブログが増えてきて,正確なブログ分析が難しくなってきました。当社を含め,ブログ分析市場で問題となっていたのです。

 そういった経緯で,収集したブログの中からスパム・ブログだけをフィルタリングする必要があるということになりました。

スパム・ブログはいつごろから増えてきたのでしょうか。

 定量的な数字は出していませんが,1年前ぐらいから増えてきています。ブログ解析サービスのために,特定のキーワードでブログを収集するのですが,その中に含まれるスパム・ブログの比率が1年前はたまに見られる程度でした。ところが,最近では4割にも達しています。

 ブログ分析では,ツールを使って自動的に分析するだけではなく,実際にアナリストが目で見て確認します。これは「目検」(めけん)と呼んでいます。当社だけではなく,競合他社でも同じようなことをしています。

 その目検の作業の中で,スパム・ブログをはじいていきます。しかし,その作業がかなり増えてきたんです。「いちいち見てはじくのは大変だから,ある程度自動化できないか」とアナリストから意見が上がってきました。

 それがきっかけで,スパム・ブログをフィルタリングするツールの開発を始めました。

こうしたスパム・ブログはどのようにフィルタリングするのでしょうか。

 さまざまな種類のスパム・ブログがあるので,それぞれをフィルタリングするために複数のフィルタリング技術を同時に開発しました。それらを組み合わせることによって,最適なフィルタリング結果が得られます。

 あまり詳細に説明するとスパマーに手の内を明かすことになるので,簡単に説明します。

 1番目は,記事の類似判別によるスパム・フィルタリングです。引用スパムの場合,同一の情報ソースから文章を持ってきて大量の記事を生成するので,どうしても類似する記事が大量に発生することになります。そこで,特定のブログ記事集合内で類似度が高いブログ群を抽出します。複数のブログを横断的に調べて,類似があればそれらは引用スパムと判断できます。

 2番目は,記事の更新頻度です。スパム・ブログは,大量に記事を作るために,記事の更新頻度が異様に高くなります。例えば1日に30件あるいは100件といったように,通常のブログには見られない更新頻度になります。また,ツールを使って機械的に更新するので,更新間隔が常に一定という特徴もあります。こうした時間情報を複合的に組み合わせて指標を作り,その指標を使ってフィルタリングするわけです。

 3番目は,リンク構造解析によるフィルタリングです。既知のスパム・ブログがあり,そこにリンクしているブログ・サイトは,やはりスパム・ブログである可能性が高いと考えられます。なぜなら,リンクするということは,そのサイトがスパム・ブログであることを知っているからです。このようにスパム・ブログのリンク元を解析することで,芋づる式にスパム・ブログを発見します。

 最後の4番目は,ワード学習ベースによるフィルタリングです。アダルト系のわいせつ記事には特徴的な単語が出てきます。これを機械学習という方法で,自動的に判別します。

 これら4種類の手法を組み合わせることによって,タイプの異なるスパム・ブログをフィルタリングします。

スパム・フィルタリングは,今度どのように活用していくのですか。

 まず,BuzzPulseのサービスで利用していく予定です。ブログの分析をする際,スパムを取り除いて正しい分析できるようにしていきます。

一般のユーザー,コンシューマ向けに何か提供する予定はありませんか。例えば,検索結果の中からスパム・ブログだけを取り除くといったことに利用できないのでしょうか。

 直近ですぐ,ということにはならないと思いますが,ブログ検索の結果に,スパム・フィルタリングの技術を適用して,スパム・ブログを取り除いた新しい検索結果を得る,という展開はあり得ると思います。

 社内外からもそういった要望はいただいています。将来的にはAPI提供といったビジネス展開も考えていくつもりです。