Hadoopによる分散クラスター上で、高速なビッグデータ分析を可能にするフレームワークとして注目されている「Spark」(関連記事:次世代Hadoop最有力候補の「Spark」、動き始めたエコシステム)。そのSparkをホスティングしたクラウドサービスが始まる。

 Sparkの開発元企業である米Databricksは、分散クラスターを自社で構築しなくとも、クラウド上でSparkを即利用できるサービス「Databricks Cloud」を開始した。2014年6月30日から米国で開催中のSparkのイベント「Spark Summit 2014」で明らかにした。

 現在はベータ版として限定的に公開している段階で、ベータユーザーを同社サイトで受け付けている。

 Databricks Cloudでは、Sparkを構成する各種フレームワークを利用できる。SQLによるインタラクティブ分析用の「Spark SQL」、ストリーム分析用の「Spark Streaming」、機械学習ライブラリの「MLlib」、グラフ分析用の「GraphX」である。

 Databricks Cloudは現状ではAWS(Amazon Web Services)上で稼働させているが、今後、「Google Compute Engine」や「Microsoft Azure」といった他のクラウドサービスにも広げるもようである。

ダッシュボードなどのビルトインアプリを用意

 Databricks Cloudでは素のSparkだけでなく、データの可視化などが可能なアプリケーションも標準で用意してある。主に三つある。データの探索などをインタラクティブに実施するためのインタフェースとなる「Notebooks」、Notebooksでの分析結果を表示する「Dashboards」、Sparkの分散クラスター上でのジョブを開始するための「Job Launcher」である。

 Databricksは2014年6月に、Spark上で走るサードパーティのアプリケーションを認定するプログラム「Certified on Spark」を発表しており、この認定を受けたアプリケーションであれば、Databricks Cloud上で利用できるようにする。

この先は会員の登録が必要です。有料会員(月額プラン)は申し込み初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら