リクルートや楽天が、オープンソースの分散バッチ処理ソフト「Hadoop」の利用を拡大している。リクルートはWebサーバーのログ解析用DWH(データウエアハウス)としてHadoopを採用。楽天はグループ内の全ログデータを対象とした統合ログ解析基盤の構築を、Hadoopベースで進めている。

 NTTデータやウルシステムズなどのシステムインテグレータも、Hadoopを使ったシステム構築に取り組み始めており、1000台規模のHadoopクラスターもすでに稼働している。これら事例は、2010年12月15日に東京・秋葉原で開催された「日経コンピュータセミナー・Hadoopが変える企業情報システムの実像」で発表された。

DWHの構築にHadoopとHiveを採用--リクルート

写真1●リクルート MIT システム基盤推進室 インフラソリューショングループ・新規開拓ユニット スペシャリストの石川信行 氏
写真1●リクルート MIT システム基盤推進室 インフラソリューショングループ・新規開拓ユニット スペシャリストの石川信行 氏
[画像のクリックで拡大表示]

 リクルートは、同社の「じゃらんnet」や「カーセンサー.net」「suumo」といった様々なWebサイトのログデータを一元的に解析するDWHを、Hadoopと「Hive」を使って構築した。HiveはSQLに似た構文を記述することで、Hadoopのプログラミングモデルである「MapReduce」に対応したプログラムを生成するツールである。

 講演を行った同社MITシステム基盤推進室の石川信行氏(写真1)は、「従来は、1カ月分のログデータをRDBを使って分析していた。1年分のログデータを分析するのは、RDBではデータ量的に難しい。そこでHadoopを導入した」と語る。HadoopベースのDWHを使って、Webサイトにおける広告宣伝効果を測定したり、全サイトをまたいだユーザーの行動解析を行ったりしている。

 リクルートはログ解析用DWHの構築に当たって、Hadoopの他に、リレーショナルデータベース(RDB)を使ったDWH製品など、合計4種類のDWH製品の性能を検証した。石川氏は、「Hadoopには、RDBと比べてアプリケーション開発が難しいという弱点がある。その一方でHadoopには、大容量データの処理で高い性能を発揮できること、拡張性や可用性に優れていること、インフラ運用の手間がかからないことといった利点がある。これらを総合的に判断して、Hadoopの採用を決定した」と語る。

 Hadoopは、大容量データを複数のPCサーバーに分散保存し、データに対する処理を各ノードで実行して、結果を集約するというミドルウエアだ。クラスター内のPCサーバー台数に比例して、処理能力が向上する。また、データは常に3つ複製を作って異なるノードに分散保存しているため、サーバーが故障した場合でも処理を継続できる。故障したサーバーは交換するだけでよい。リクルートは、Hadoopのこれら利点を評価した。

 石川氏によれば、「MapReduceのプログラムを開発するのは非常に難しい」ため、同社ではHiveの使用を推奨している。さらに現在は、GUIツールを使ってHadoop用のプログラムを開発できる「Karmasphere Studio」や、Hadoopを使ってOLAP(オンライン分析処理)などができるようになるBIツール「Pentaho」などの導入が可能か、検討を始めている。

 同社では今後、オンライン分析にHadoopを適用できないか検証を進める。データストアとしては、Hadoop標準のHDFS(Hadoop Distributed File System)を使うのではなく、キー・バリュー型データストアである「Tokyo Tyrant」や「Cassandra」、Hadoopベースの分散データベースである「Hbase」などを使うことを検討している。

この先は会員の登録が必要です。今なら有料会員(月額プラン)は12月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら