それには、多様で膨大なデータを一元的に格納し、必要に応じて取り出し素早く加工・集計するビッグデータ処理基盤が必要だ。従来のデータウエアハウスでは対応できない。

 ではAWSとAzureでそれぞれ、ビッグデータ処理基盤をどう作るか。今回はこのテーマで、関係するサービスを取り上げる。

 ビッグデータ処理基盤は大きく、データレイクと呼ばれるストレージと、対話的に使えるデータ分析サービスの二つで構成される。

 AWSのデータレイクは「Amazon S3」、Azureは2018年12月にパブリックプレビューになったばかりの「Azure Data Lake Storage(ADLS) Gen2」だ。

 データ分析サービスについては、AWSは「Amazon Athena」「Redshift Spectrum」、Azureは「Azure Databricks」「Azure Data Explorer」などがある。

 AWS、Azureそれぞれで、これらのサービスを組み合わせたビッグデータ処理基盤と個々のサービスの機能について解説。さらに、性能を測定する。

出典:2019年2月号
記事は執筆時の情報に基づいており、現在では異なる場合があります。