「データ活用の障壁をどれだけ無くせるか。それが企業の競争力に直結する」。三井住友銀行の高橋大輔データマネジメント部情報活用グループ長はデータ分析の環境を整備する重要さをこう訴える。

 三井住友銀は2019年3月、米ベンチャーのトライファクタ(Trifacta)が開発した分析データの準備ツール「Trifacta Wrangler Enterprise」の利用を始めた。「ずっとこういうツールを探していた」と上岡裕システム統括部上席部長代理は話す。「シリコンバレーで米国の技術動向を調べる組織経由でついに見つけた」。国内では初の本格導入事例となる。

三井住友銀行の本店(東京・千代田)
(出所:三井住友銀行)
[画像のクリックで拡大表示]

超大量データからデータを漏れなく抽出

 トライファクタのツールは機械学習モデルの構築といった「データ分析作業」の前に、大量のデータから一部のデータを不整合なく簡単に抽出する機能を持つ。「データプリパレーションソフトウエア」と呼ばれるソフトの1種だ。

 取り出し元のテーブルを指定し、抽出の条件や加工する方法を指定すると、1個のテーブルにまとめた分析用データを生成する。GUI(グラフィカル・ユーザー・インターフェース)で加工結果を確認しながら設定できるため扱いやすいのも特徴だ。

米トライファクタのデータ準備ツールの画面例
(出所:三井住友銀行)
[画像のクリックで拡大表示]

 三井住友銀は約3年前の2016年4月に「データマネジメント部」を設置し、銀行が大量に保有するデータの積極活用に乗り出した。2018年7月にはNECから独立した米ドットデータ(dotData)が開発した、機械学習モデルの作成プロセスをAI(人工知能)で自動化するツールを導入するなどして、データ分析業務の効率化を進めてきた。高橋グループ長は「データ分析で勝っていかなければ企業としての存続が難しいという危機感がある」と話す。

 三井住友銀は「顧客」や「店舗」など数千万件規模のマスターデータ群と、「普通預金」や「投資信託」など10億件超のトランザクション群を抱える。データを基に顧客のニーズをつかんでマーケティングに生かしたり、データを与信管理に生かしたりといった取り組みを進めるに当たり、10億件規模の元データをそのまま分析対象とするのは効率的ではない。統計的に有意な100万件程度を抽出・準備したうえで、分析する必要がある。

 ただ、データ分析の重要性が高まるなか、データを準備する作業の負荷が高い点が課題になってきた。「分析業務全体の3割を占めるほどになっていた」(上岡上席部長代理)。

 例えば毎月数億件に達する普通預金のトランザクションデータの中から100万件を取り出す場合、その100万件に関連するマスターデータも抽出する必要がある。そのうえでデータの型を統一したり、欠損した情報を補完したりする。「インターネットバンキングの利用回数」を追加する場合にはそのデータも100万件に関連するものだけ取り出さなければならない。

この先は有料会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら