データレイク型の設計パターンは、加工処理を行う箇所によって2つに分けられる。どちらのパターンもメリットとデメリットがあり、導入にはトップダウンでの推進体制が重要だ。2つの設計パターンの特徴と適する用途を解説する。

 前回に続き、データレイク型のデータ基盤の設計パターンを紹介します。データレイク型は、巨大なストレージにあらゆるフォーマットのデータを集めつつ、必要に応じて加工しながら利用できるデータ基盤です。

 データレイク型のデータ基盤における処理は、大きく4つのフェーズで構成されます。データを各システムから集める「収集」、データをデータストアに格納する「蓄積」、格納されたデータを活用する「利用」、そして利用するためにデータフォーマットを変換する「加工」です。今回は、「利用」と「加工」のフェーズに絞って設計パターンを紹介します(図1)。

図1●データレイク型のデータ基盤
[画像のクリックで拡大表示]

 加工・利用におけるデータレイクの設計パターンは、主に「データ倉庫型」と「データ工場型」の2つに分類できます。データレイク内で加工せず利用者側で加工するのが倉庫型。データレイク内で加工するのが工場型です。ただし、データ倉庫型でも全く加工処理を施さないというわけではありません。必要最低限の加工処理は行います。

 ちなみに、一般的なDWH(データウエアハウス)と、ここで言うデータ倉庫型の概念は異なるものです。データレイクの設計パターンを説明するために、著者らが作り出した言葉なので注意してください。

最低限の加工処理だけ行う
データ倉庫型

 それでは、データ倉庫型の設計パターンから説明します。この設計パターンは、集めた生データをデータレイク内のオブジェクトストレージにそのまま保存しておくというものです。最近のトレンドというべき設計パターンでしょう。収集可能なあらゆるデータをデータレイク内のオブジェクトストレージに取りあえず蓄積しておきます。データが既にあって、データの利用方法は後から考えます(図2)。データ倉庫型のデータレイクは、原則として収集・蓄積したデータをそのまま利用者や利用システムに提供し、加工処理は利用者側に委ねることになります。

図2●データ倉庫型の設計概要
[画像のクリックで拡大表示]

 ただし、何でもそのまま提供していると、利用者側の負荷が高まってしまいます。この問題を解決するため最低限の加工はデータレイク側で施しておくケースが多く見られるようになりました。

 主な使用例は、ビックデータのアドホック分析などが挙げられます。アドホック分析は、目的の結果を得る手順が決まっておらず、クエリー処理の結果を踏まえて、次にどんなクエリー処理を行うかを考える分析手法です。まだ活用されていない未知のデータに対するデータ分析は、最初にアドホック分析から始まることがほとんどです。

この先は有料会員の登録が必要です。「日経SYSTEMS」定期購読者もログインしてお読みいただけます。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら