RPA(ロボティック・プロセス・オートメーション)とOCR(光学的文字認識)を組み合わせて紙文書とパソコンを扱う作業をどう効率化していくか。先進企業への取材から、確実に成果を得るワザは7つあると分かった。今回は「精度アップの方法を使い分ける」だ。

本特集で紹介するOCRとRPAを生かす7つのワザ。今回は「ワザ5 精度アップの方法を使い分ける」を取り上げる
[画像のクリックで拡大表示]

ワザ5 精度アップの方法を使い分ける

 第5のワザは「精度アップの方法を使い分ける」だ。OCRの本格導入時に役立つ。具体的な方法として「紙文書に応じて読み取り設定を適切に選ぶ」「OCRで読み取った結果の一部を基に残りの文字などを補完する」「読み取り対象を絞り込む」などが挙げられる。

 紙文書に応じて読み取り設定を適切に選んでいる1社が三菱重工業だ。OCRの導入期間中、読み取り精度は60%程度にとどまり、目標の80%になかなか達しなかった。だが、「OCR製品で読み取り設定を工夫することで、目標に到達できた」と三菱重工業の榎本卓グローバル財務部ファイナンスグループプロジェクトマネージャーは話す。

レイアウトが定まらない請求書はキーワード指定で読み取る

 読み取り設定のやり方としては、キーワードを指定するものと、座標を指定するものの大きく2種類がある。キーワード指定は読み取る紙文書に印刷された「ご請求金額」といった項目名をOCR製品にキーワードとして指定したうえで、「指定したキーワードの右側にある数字を読み取れ」といった設定をする。

 もう1つの座標指定は紙文書で読み取りたい位置を縦と横の座標で指定するやり方だ。あらかじめ帳票レイアウトが決まった申込書に書き込んだり、記入してもらったりした書類を読み取る場合に向く。

OCRの読み取りに関する主な設定方法
[画像のクリックで拡大表示]

 実際にOCRを業務の現場に適用する場合、読み取る紙文書に合わせてどちらかの設定方法を選ぶ。三菱重工はキーワードを指定する方法を主に採用している。読み取る紙文書は取引先から届く請求書で、帳票レイアウトは各社によってまちまち。座標指定をしてもうまく読み取れないからだ。

 そのうえでキーワード設定などのやり方に工夫を凝らしている。「数字を読み取る場合は、数字のゼロを英字のオーと読み間違えないように、『読み取るのは数字』と文字の種類に制約をかける設定をしている。また銀行名などすでに分かっている文字列があれば、あらかじめOCRに設定しておき、正しくテキストデータが生成できるようにしている」と三菱重工の板岡幹世グローバル財務部ファイナンスグループ主席部員は説明する。

 板岡主席部員が話す「すでに分かっている文字列を事前に登録しておき間違いなく変換できるようにする」といったワザは、OCRを先行導入する他の自治体や企業でも活用されている。

この先は有料会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら