データ量の増加や活用が進むことでデータ基盤は成長する。成長する基盤では、データの在りかを把握できないといった問題が発生しがちだ。データ資産を整理し、アクセス効率を高めるのが「データカタログ」である。

 本連載ではこれまでAmazon Web Services(AWS)やMicrosoft Azureを使ったデータ基盤の設計ポイントを中心に解説しました。今回はデータ基盤に蓄積したデータを使いやすくする「データカタログ」を説明します。

IT部門以外がデータを活用する

 従来はIT部門の担当者がデータウエアハウス(DWH)やBI(Business Intelligence)といったシステムやツールを作ってマーケティング部門や流通部門、企画部門といった利用部門が使うデータを用意していました。しかしデジタル化の取り組みでは、利用部門の人たちが直接企業内のデータにアクセスするようになります。

 こうして活用する人や部門が増えると、新たな課題が発生します。データを活用しようとする利用者はITの専門家ではありません。ITに詳しくないので社内のどこに、どのようなデータがあるかを把握しづらいのです。データを表す用語がIT部門と利用部門で一致しないこともあります。これは混乱を生む要因になります。しかしIT部門の担当者が各部門の利用者に毎回手取り足取り教えるわけにはいきません。デジタル化で重要なスピードが落ちてしまうからです。

 このような課題に対応できるソリューションとして注目を集めつつあるのが「データカタログ」です。データカタログとは、データをカタログにして探しやすくする仕組みを指します。データカタログを適切に構築・運用できれば、ITに詳しくない利用者でも主体的にデータを探して活用できるようになります。

 データカタログは人だけではなくシステムも利用します。様々なシステムが社内に存在するデータを認識して、それを処理の対象にする仕組みでもあるのです。つまりデータカタログは人が見て分かりやすいものであるのと同時にマシンリーダブル(システムが参照して処理しやすいこと)でなければいけません(図1)。

図1●パブリッククラウドでのデータカタログ概念図
[画像のクリックで拡大表示]

 データカタログはまだ新しい分野です。新たなツールやサービスが次々に生まれています。多くの選択肢がありますが、ここではAWSが提供するサービスを利用します。マシンリーダブルなデータカタログを効率良く作成したり、管理したりするのに優れているからです。

 一方、AWSが提供するサービスを使っても、人が見て分かりやすい形にするにはひと工夫必要です。データを入手する前にその内容や利用価値を説明した情報を確認できるようにします。そして利用者が活用方法のアイデアを考えられるようにするのです。このようなデータカタログを構築すれば、データを活用して価値を生み出すサイクルが回り始めるでしょう。

 ただし実現は簡単ではありません。データを表す用語を社内で1つずつ統一し、データカタログ上の物理データとひも付けなければなりません。データの概要や収集方法、活用方法など、人が読むことを前提とした自然言語での説明も必要です。これらは骨の折れる作業ですが、利用者の自発的なデータ活用を促進し、社内のサポート担当者の負担軽減につながります。

この先は有料会員の登録が必要です。「日経SYSTEMS」定期購読者もログインしてお読みいただけます。今なら有料会員(月額プラン)が2020年1月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら