TOPマネジメント > データレイクとは?データウエアハウスとの違いやデメリットは(...

マネジメント

データレイクとは?データウエアハウスとの違いやデメリットは(上)

2018/10/15

Andy Patrizio InfoWorld

 ビッグデータに関する話題を追っている人は、「データレイク」という言葉を聞いたことがあるはずだ。レイク(湖)という響きから連想されるイメージのとおり、いわばデータをため込んでおく大きな貯水池のようなものである。

データレイクとは

Credit:Thinkstock

 データレイクは、膨大な量の非構造化データをそのままの形式で生データとして蓄積しておく場所だ。

 したがって、フラットファイルシステムをサポートするマシンさえあれば済む。何ならメインフレームでもよい。データの処理は別のサーバーに移動して行う。データの蓄積にHadoop Distributed File System(HDFS)を利用している企業は多い。ビッグデータ環境向けで、巨大なデータセットを高速に処理できるからだ。

 元の形式のままでデータを蓄積することには重要なメリットがある。「膨大な量のデータを保管しておいて、それを使って何をするかは後で考えるのなら、現在のデータレイクでうたわれている用途に合う」。そう話すのは、データ管理ソフトウエアを手がける米Semarchyの戦略担当責任者、Michael Hiskey氏だ。

 「データレイクのほとりで人々が採取しているのは、既知のものも未知のものもある。興味の対象になりうるものは残らずとっておいて、混沌から秩序を取り出す作業は後で行う。捨て去っているもののうち、今の段階では価値があるのか見当がつかなかったものが、後になって興味の対象と分かることもある」

 複数のクラウドデータソースを接続するETLサービスを手がける米StitchのJake Stein最高経営責任者(CEO)も、将来への備えという点は同様の見解だ。「いつ使うことになるかが定かではないデータで、ミリ秒単位のアクセスが重要ではなく、低コストな形で保存しておきたい場合には、データレイクは最適な形式だ。今取り込んでおかなければ、そのデータは二度と手に入らないというケースは多い。その点で将来への備えを万全にしておくことは重要だ」

↑ページ先頭へ