AI(人工知能)は今、3回目のブームだそうである。機械学習や深層学習(ディープラーニング)など、以前は存在しなかった技術がブレークスルーを起こしつつある。今回のブームにおける重要な変化は、AIが人間から教わらなくても、収集されたデータから自ら学習するようになったことである。

 「AIにデータを食わせる」という言い方がある。AIはデータを餌に成長する。将棋や囲碁ができるAI同士を対戦させることにより、対戦データが得られる。AIは人間が対戦可能なゲーム数を遥かに超えた経験ができ、桁違いの速度で学習できる。

 だが、ここで問題がある。データの品質である。矛盾のあるデータばかりAIに食べさせたらどうなるだろう。意図的に誤ったデータを混ぜて供給したらAIはそれを見破れるのだろうか。

 「AIを導入した」というニュースには事欠かないが、そうした企業はAIに食べさせるデータを整える「データクレンジング」に結構な人手をかけている。

 筆者はデータマネジメントプロフェッショナルの国際団体、DAMA(データマネジメントアソシエーション)の日本支部で会長を務めている。各国のメンバーとやり取りしていると「AI時代のデータガバナンス」が話題になることが多い。そこで改めてデータの品質とそれを担保する仕組みについて考えてみたい。

企業の構成要素は“5W1H”

 「データはエンタープライズ(企業や政府機関など目的をもった組織)にとって極めて重要な資産と見なされている」

 これはDAMAがまとめた“DAMA-DMBOK Guide(The DAMA Guide to The Data Management Body of Knowledge)”の巻頭に記載された一文である(邦訳は『データマネジメント知識体系ガイド第一版』)。DAMA-DMBOKは今年2017年7月、version 2が米国で発行された。

 ITproの読者の方であれば「データが資産」という言い方に違和感は持たないと思うが、ここでエンタープライズアーキテクチャ(EA)の提唱者であるジョン・ザックマン氏が示した「企業の構成要素」を紹介しておく。

 企業というものは一体何でできているのだろうか。ザックマン氏の回答はとてもシンプルで、次の5W1Hだとしている。

Why:企業のミッションや目的

Who:人

What:資産

Where:場所やネットワーク

When:時間・スケジュール・タイミング

How:業務プロセス

 上記のそれぞれはデータや情報として扱われ、取引が行われ、物事が決定されていく。Whatのところにある設備や資金にとどまらず、そうしたデータや情報もまた資産と言える。

 データと情報は本来、異なるものであるが、本稿では記述の便宜上、データと情報を合わせて「データ」と書くことにする。ちなみにDMBOK Guideはデータと情報について次のように定義している。

データ:事実がテキストや数値、グラフィック、イメージ、音、ビデオの形をとったもの

情報:コンテクストの中に置かれたデータ。コンテクストとは、ビジネス上の意味、フォーマット、時間枠、利用法との関連性など

この先は会員の登録が必要です。有料会員(月額プラン)は登録月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら