GCPではビッグデータのジャンルで、七つのサービスを提供している(図1)。

図1 GCPのビッグデータサービス
このほかに2018年8月10日時点でベータ版ではあるが、データ探索・クレンジングツールの「Cloud Dataprep」、BI(Business Intelligence)ツールの「Data Studio」がある。Dataprepはデータ処理・分析とデータ探索・可視化に、Data Studioはデータ探索・可視化に位置付けられる
[画像のクリックで拡大表示]

 非同期メッセージングの「Google Cloud Pub/Sub」、データウエアハウス(DWH)の「BigQuery」、Hadoop/Sparkの「Google Cloud Dataproc」、ETL(Extract/Transform/Load)の「Google Cloud Dataflow」、データの探索・クレンジングを行う「Google Cloud Dataprep」、Jupyter Notebookをベースとしたインタラクティブなデータ分析ツール「Google Cloud Datalab」、BI(Business Intelligence)ツールの「Google Data Studio」である。

 このうちCloud DataprepとData Studioは2018年8月10日時点でベータ版だ。

 ほかにも、ペタバイト級の遺伝子データを処理する「Google Genomics」というサービスも提供しているが、ここでは取り扱わない。

 上記のビッグデータサービス同士を連携するコネクターやライブラリも充実している。そのため、GCP上でデータ分析インフラを構築する手間を最小限に抑えることが可能である。

フェーズ別のサービス分類

 データ分析を「データ収集」「データ蓄積」「データ処理・分析」「データ探索・可視化」という四つのフェーズで考えたとき、七つのビッグデータサービスは次のように分類できる。

 データ収集はCloud Pub/Sub、データ蓄積はBigQuery、Cloud Dataproc、データ処理・分析はBigQuery、Cloud Dataproc、Cloud Dataflow、Cloud Dataprep、データ探索・可視化はCloud Dataprep、Cloud Datalab、Data Studioとそれぞれ位置付けられる。

 Cloud Dataproc、BigQuery、Cloud Dataprepが二つの領域にまたがるので説明しておく。

 Cloud DataprocはHadoop/Sparkのサービスなので、HDFS(Hadoop Distributed File System)としてのデータ蓄積機能と、データ処理機能を担うSpark、データ分析機能を担うHive、Pigなどをネイティブにサポートするデータ処理・分析の側面も併せ持つ。ただしCloud Dataprocでは、HDFSの代わりにGoogle Cloud Storageを利用することが推奨されている。

 BigQueryも同様に、ストレージリソースとしてのデータ蓄積機能と、クエリーエンジンとしてのデータ分析機能の両面を持つ。ただしBigQueryとCloud Dataprocとは、そもそもの性質やコンセプトが全く違うサービスである。

 Cloud Dataprepはデータ探索・クレンジングツールだ。構造化データと非構造化データの視覚的探索、クリーニング、分析の準備に利用する。

 各サービスの特徴や使いどころについては後述するが、GCPのビッグデータサービスは組み合わせて使うことが可能であり、互いに補完し合う関係にある。どれか一つが優れており、それだけを利用すればよいといった考えではなく、それぞれのサービスの特徴を理解し、適材適所で利用することが重要である。

 GCPのビッグデータサービスを組み合わせてデータ分析基盤を構築した場合、例えば図2のような構成が考えられる。これはあくまで一例であり、実際には既存システムとの連携部分が存在したり、必要な機能が限定的であったりするなど、利用シーンに応じて適切なサービスを取捨選択して利用してほしい。

図2 データ分析の代表的なアーキテクチャー例
[画像のクリックで拡大表示]

 今回はCloud Pub/Subを取り上げる。BigQueryなど他のサービスは次回以降に解説する。

 それではCloud Pub/Subについて解説しよう。

 Cloud Pub/Subは低レイテンシーで高い可用性とスケーラビリティーを有した非同期メッセージングサービスである。

 利用シーンは多岐にわたり用途も様々だ。例えば、アプリケーションを構成するコンポーネント同士を疎結合でつなぐ役割がある。ビッグデータサービス群の一つとして捉えた場合には、主にストリーミングデータの取り込み処理を行うコンポーネントとして利用される。

この先は有料会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら