筆者はWebが大好きだ。研究のために図書館まで車を飛ばしていたのがどのくらい前のことだったか,もう思い出すこともできない。本当にWebは素晴らしい。しかし,約1年前まではもっと素晴らしかった。技術的なトピックの検索が,最近あまり役に立たなくなってきたことに気づいている読者はいるだろうか。今回は,検索エンジンの動作について,もっとはっきり言うと,検索エンジンが有用に動作しないことについて,少し意見を述べてみたい。

 技術的観点から言えば,すべてのインターネットの検索エンジンは,次の三つのステップを実行する必要がある。まず,Web中を探し回って,索引付け可能なあらゆるページを見つけ出す。次に,見つけたページに索引を付ける。そして最後に,これが一番難しいことだが,見つけたページの関連性にランクを付ける。関連性にランクを付けることで,「チョコレート チップ」とキーワードを入力して検索したときに,検索結果の1ページ目に,Nestleと同じぐらい多くの「チップ」を生産している企業であるIntelやAMDへのリンクが表示されることはなくなる。

 最初の二つのステップは簡単だが,処理量が多く,リソースを大量に消費する。検索エンジンは,公開されているDNSのドメインリストを起点にして,それらのドメイン上に存在するWebサーバーを検索し,見つかったWebサイトのページを調べてさらに大量のWebページへのハイパーリンクを取得する。次に,それらのWebページをダウンロードして巨大なデータベースを構築する。データベースに格納したページには,索引を付ける。そして,Webページの有用性にランクを付ける処理を実行する。

 当然のことだが,Webページにあらかじめ「有用性」や「信頼性」のランクが書き込まれているわけではない。そのため検索エンジンは,ページに書き込まれている情報を使用して,いくつかの問いの答えを取得しながら,ページの有用性を推測する。“理想的な世界”では,この情報によって,誰がコンテンツを作成したのか,作者はどのくらい信頼できる人なのか,誰がページをレビューしたのか,作者とレビューワーはそれによって報酬を得たのかどうか,といったページの特性を知ることができる。しかし,実際にすべての検索エンジンで使われている「有用性」は,学問的かつ専門的な研究の世界で使われているものとは少し異なる。

 研究所は研究予算を求めて競い合っているので(話をだいぶ単純化しているが),支援者は様々な指標を使って,研究所の業績の価値を判断したり,研究費の提供先にふさわしい研究所を選択する。そこで使われる指標の一つが,研究所に所属する研究者が発表した学術論文の合計数である。一方,様々な研究の有用性には差があるので,ほかの研究者が書いた論文で参考文献として引用されている学術論文の合計数も,指標の一つとして使われる。

 例えば,Smith教授はほかに誰も興味を示さない研究対象について大量に論文を発表したが,それを読んだり引用したりする研究者は一人もいなかった。一方,Einstein教授が物質とエネルギーに関する論文を1本発表したところ,数千人の研究者によって引用された。この場合,その分野に対して大きく貢献したと評価されるのは,Einstein教授である。

 検索エンジンも同じような方法を使っている(ここでも話を単純化している)。すなわち,Webページのランクは,そのページを参照するハイパーリンクが含まれているWebページの数に基づいて決定される。例えば,サイト内の特定のWebページに「Queen of the Night」という品種のチューリップに関して記述したテキストがあり,無数のWebページからそのページがリンクされている場合,「Queen of the Night チューリップ」とキーワードを入力して検索すると,検索ランキングのかなり上位にそのページが表示されることになる。

 一昔前なら,少なくとも技術的トピックの分野では,この方法を使った検索エンジンで,有用性の高いリンクを集めることができた。しかし近頃は,利益と少しばかりの名誉を欲する動きのせいで,Webが多少使いにくくなってきた。次回は,なぜ検索エンジンが役に立たなくなってきたのか,どうすれば改善できるのかについて取り上げる予定だ。

Windows IT Pro, (C)2007. Penton Media, Inc.