ETL(Extract/Transform/Load)専用のPaaS(Platform as a Service)として、「AWS Glue」が2017年8月に一般提供(GA)となった。ETLとは、様々なデータベースやストレージからデータを収集・抽出し、分析で扱いやすくする変換・加工処理を行い、データウエアハウス(DWH)などへロードする、という一連の処理を指す。

 Glueが発表された2016年11月以来、ユーザーコミュニティーなどで話題を呼び、待望されてきた。AWSに大規模データ分析基盤を構築するうえで、Glueがこれまで欠けていた重要なピースだからだ(図1)。

図1 大規模データ分析基盤におけるGlueのカバー範囲
[画像のクリックで拡大表示]

 AWSでは大規模データ分析基盤を構築するための様々なサービスを提供している。例えば大量データを蓄積するデータレイクとなるAmazon S3、分析サービスのRedshiftやAthena、可視化サービスのQuick Sightなどがある。

 ただしAWSには従来、データレイクへのデータ収集や、データのプリプロセス(前処理)のサービス、さらにはデータの統合管理に特化したサービスが無かった。そのためユーザーは、サードパーティー製のETLツールを利用したり、ETL機能を個別開発したりする必要があった。Glueは、それら従来欠けていた機能を補う。

この先は有料会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら