分散処理で大量データの高速アクセスを可能にする技術「MapReduce」。これを実装した「Hadoop」の利用が広まり、遂にバージョン2の正式版が登場した。バージョン2では、新たな仕組みである「YARN」の実装が要注目だ。Hadoopプロジェクトに貢献し、企業システムでの利用を進める筆者らが強化点を解説する。

 米GoogleのJeffrey Dean氏らが「MapReduce」を公開してからほぼ10年が経過した2013年10月、MapReduceをオープンソースソフトウエアとして実装した「Hadoop」のバージョン2(v2)が正式リリースとなった。このバージョンでは、極めて大きな変更がある。本稿では、MapReduceおよびHadoopの生まれた経緯と課題を振り返った上で、 バージョン2で強化された点を解説する。

MapReduceの仕組みと特徴

 MapReduceは、大量の生データを高速に処理するための分散処理フレームワークだ(図1)。データを抽出するMapフェーズ、抽出したデータを加工するReduceフェーズという段階を経て、必要なデータを得る。これにより、複数のマシンにまたがった並列処理が可能となる。

図1●MapReduceの概要
[画像のクリックで拡大表示]

この先は会員の登録が必要です。有料会員(月額プラン)は登録月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら