日立ソリューションズの「活文 Intelligent Data Extractor」(活文IDE)は、取引先ごとに形式が異なる請求書などの紙文書から、同じ項目のデータを自動的に抽出するソフト。オプションで活字や手書き文字をOCR(光学文字読み取り)で読み取る機能もある。

活文 Intelligent Data Extractorの概要
(出所:日立ソリューションズ)
[画像のクリックで拡大表示]

 活文IDEを使うと、請求書に書かれている取引先名や支払い金額など、紙文書に書かれているテキスト情報を抽出できる。機械学習を活用したアルゴリズムによって、形式が異なる文書であっても、罫線や周辺の文字情報をもとに文字の候補を抽出する。抽出結果が誤っていた場合は、訂正内容を学習させて精度を高められる。

 オプションでOCR機能を利用できる。別途OCRソフトを導入することなく、スキャナで文書を読み込むだけで、文字の認識からテキストデータの抽出までを自動的に実行する。OCRオプションの種類に応じて、活字のテキストデータだけでなく手書き文字もテキストデータ化できる。

 背景には、領収書や申請書など、手書き文字を含んだ書類が膨大にあるという状況がある。これらの電子データ化は、これまでのOCR処理では実現が難しかった。書類ごとに読み取り位置の設定作業が必要など、さまざまな課題があった。活文IDEにより、読み取り位置を設定せずに書類の電子データ化ができるとしている。

活文 Intelligent Data Extractorの概要
用途と機能取引先ごとに形式が異なる請求書などの紙文書から、同じ項目のデータを自動的に抽出するソフト。請求書に書かれている取引先名や支払い金額など、紙文書に書かれているテキスト情報を期待通りに抽出できる
特徴機械学習を活用したアルゴリズムによって、形式が異なる文書であっても、罫線や周辺の文字情報をもとに文字の候補を抽出する
オプションオプションの適用によって、活字や手書き文字をOCR(光学文字読み取り)で読み取ることもできる
価格(税別)活文IDEが360万円から
活字OCRオプションが200万円から
活字OCRオプション+手書きOCRオプションが360万円から
発表日2017年10月5日
提供開始日2017年10月6日(活字をOCR処理するオプション)
2017年1月1日(手書き文字をOCR処理するオプション)