日経クラウドファースト編集長 中山秀夫

 パブリッククラウドサービスの分野で2019年のトレンドの1つになりそうなのが、あらゆるデータをため込むストレージを指す「データレイク」だ。2018年には、ダイソーやマイナビをはじめとしてデータレイクを構築するユーザー企業が日本でも登場した。加えて、米アマゾン ウェブ サービス(Amazon Web Services)はクラウドサービスのAWSで、米マイクロソフト(Microsoft)はAzureでそれぞれデータレイクの専用サービスを提供し始めた。2019年はデータレイクの普及が一層進むだろう。

 データレイクは従来存在しなかったシステムだ。なぜここに来てクラウド事業者が力を入れているのか。

使う可能性があるデータなら何でも入れておく

 データレイクとは、調達や製造、在庫、販売、会計などの業務システムで管理している構造化データに加え、各種ログやIoT(インターネット・オブ・シングズ)機器からのセンサー情報、画像・映像、文書といった非構造化データも一元的に集約したストレージのことだ。

 データを集約するストレージとしては以前からデータウエアハウス(DWH)がある。データレイクは2つの意味でDWHとは異なる特性を持つ。

 1つは、DWHには分析で使う構造化データに絞って格納するのに対して、データレイクは使うかどうか分からないデータも含めて全て格納しておける点。データレイクには「使う可能性があるデータなら何でも入れておく」という考えが根底にあり、そのためデータ量はDWHより桁違いに多くなる。

ストレージに特化、データ活用基盤は分離

 DWHはストレージとデータベース管理システム(DBMS)というデータ活用基盤が一体化した仕組みだが、データレイクはストレージに特化している。これがもう1つの違いだ。

 データレイクでもデータ処理サービスを組み合わせて多少のデータ加工をするが、クエリーを実行したり機械学習モデルをトレーニングしたりするデータ活用基盤は分離させたうえで、基本的にはデータが必要になるたびにデータレイクから読み出して使うのが一般的だ。だからデータはデータレイクだけに置けばよい。さらにデータレイク本体には、比較的低速だが安価な特性を持つ「オブジェクトストレージ」というクラウドサービスを使う。

 AWSのオブジェクトストレージ「Amazon S3」標準ストレージの場合、100テラバイトで月額2450ドルだ(東京リージョンの税別価格、データ操作のリクエスト料金はわずかなので除く)。アーカイブ用のオブジェクトストレージ「Amazon Glacier」にデータを移すと、月額料金はこの5分の1程度になる。

 オブジェクトストレージから毎回データを読み出して分析するので処理は遅くなるが、運用コストは下がる。これにより「使う可能性があるデータなら何でも入れておく」という使い方が実現できる。

 データレイクとDWHはどちらか1つを使うものではなく併用するのが一般的だ。例えばデータレイクを構築しておき、そこからBI(ビジネスインテリジェンス)ツールなどで使うデータだけをDWHに複製する、という具合である。DWHにデータを格納すると、データ量に制限はあるが、データレイクから毎回読み出すより高速に処理できる。

この先は会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら