ビッグデータの処理基盤をクラウドで提供する米Treasure Data社。日本人3人が米シリコンバレーで2011年に起業してから3年半、従業員数はグローバルで80人以上に増え、今年1月には韓国オフィスも立ち上げた。保存するデータ件数は18兆件に達し、この1年で3倍になったという。
 急成長を続けるTreasure Data社の創業者の一人であり、CTO(最高技術責任者)を務める太田 一樹氏に最近のサービス開発の状況について聞いた。最近では、組み込みLinux向けのデータ収集ツール「Fluent Bit」をリリースするなど、IoT(モノのインターネット)向けのサービスを強化している。

(聞き手は安東 一真=日経Linux


米Treasure Data社CTO 太田 一樹氏
[画像のクリックで拡大表示]

Hadoopに代表されるビッグデータ関連の技術開発は、オープンソースソフトウエア(OSS)を中心に今も活発に続けられている。トレジャーデータの最近のサービス強化点を教えてほしい。

 Hadoop自体もバージョン2系列のバージョンアップが続き、それに関連する分散処理システムも次々も新しいものが登場していて、キャッチアップはしている。しかし、トレジャーデータの強みになっているのはどちらか言うと、クラウド上でデータを分散処理する側ではなく、ユーザーが持つデータをクラウド上に収集する側。データ収集の面では最近、バッチ転送とIoT関連のツールをリリースした。

 バッチ転送用のツールとしてリリースしたのが「Embulk」だ。Embulkを使うと、ユーザーがすでに持っているデータをバッチ形式で一気に吸い上げられる。(広く普及している)OSSの「Fluentd」といったデータ収集ツールは、Webサーバーなどで生成される“今”のデータを集めるためのもの。一方のEmbulkは“過去”のデータを一括して集められ、データ分析に生かせる。

 これまでもバッチ処理型の収集ツールは提供していたが、ツールをサーバーにインストールする必要があり、ユーザーの負担が大きかった。Embulkなら、サーバーにソフトをインストールする必要がない。トレジャーデータのクラウド上のサーバーが、ユーザーのサーバーにアクセスし、必要なデータを抜き出す形だ。トレジャーデータの固定アドレスからのアクセスを許可するよう設定してもらうだけで、データを吸い上げられる。

 当社の顧客の多くが、いわゆる情報システム部門ではなく、実際のサービスや製品を開発する事業部門であり、こうした手間のかからない仕組みが喜ばれる。例えばWebサービス向けの「JS SDK」を使えば、Webページのアクセスログを簡単にトレジャーデータに集められる。簡単なJavaScriptのプログラムを、提供しているWebページに埋め込むだけでよい。ITの担当者の手を煩わせることがない。

 膨大なデータを簡単にためられて、思い付いたときにSQLで必要なデータを抜き出し、Excelなどでも分析できる。そんなビッグデータのハブになるのが目標だ。

この先は会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら