日本経済新聞社が100年分の新聞記事をテキストデータにする取り組みを進めている。AI(人工知能)を組み込んだOCR(光学的文字認識)で紙の新聞を効率的に読み取る。読み取り対象には約140年前の1876年に創刊された「中外物価新報」などを含む。中外物価新報は日本経済新聞の前身となった新聞だ。2019年5月以降、テキストデータにする作業を始める予定だ。

 日本経済新聞社は1970年代から約40年、新聞に掲載した記事のテキストデータを管理してきた。しかしそれ以前の100年分の新聞についてはテキストデータは無く、原本をスキャンしたイメージデータだけを保存していた。

 「過去の新聞の内容をテキストデータにした上で記事ごとにタグ情報を加えれば、検索しやすくなる。かつての日本の経済状況を把握したり分析したりするのも容易になる」。同社の山田剛日経イノベーション・ラボ上席研究員は今回の取り組みの狙いをこう説明する。日経イノベーション・ラボはAIをはじめとするデジタル技術をWebや各種メディアに適用する日本経済新聞社の研究開発組織だ。

AI OCRの読み取り対象にする新聞のスキャンデータの例。日本経済新聞の前身である「中外物価新報」の第1号。1876年12月2日に発行された
(出所:日本経済新聞社)
[画像のクリックで拡大表示]

5万字のデータを学習させる

 100年分の新聞のスキャンデータからテキストデータを作る取り組みに先立ち、日経イノベーション・ラボは古い新聞の文字を自動で読み取れるAI OCR技術を確立した。

 技術開発は2018年春から始めた。ディープラーニングを中心に画像処理などの技術を複数組み合わせて、AI OCRが文字を正確に読み取れるように認識精度を高めた。実用までにかかった期間は3~4カ月ほどだった。

 ディープラーニングで文字を認識できるようにするための学習データを作った。近現代の書籍などを読んで研究している専門家の協力を得た。具体的にはスキャンデータ上のおよそ5万字について、文字の画像データとその文字をテキストにしたデータの組を作成した。

 学習データを用いて文字を認識させたところ、当初の読み取り精度は75%程度だった。読み取り精度とは正確に文字を読み取れる割合を指す。山田上席研究員は様々な工夫を凝らし読み取り精度を95%にまで高め、人手による修正の手間を大幅に省けるようにした。

 読み取り精度を高める際は、現在のきれいな印刷物を読み取るのとは異なる難しさがあった。140年前の新聞は紙が薄いといった理由から、スキャンデータがきれいではなく、裏面に印刷された文字が表面から透けて見えてしまう「裏写り」が多かった。同じ文字であるにもかかわらず表記の仕方や印刷の濃さが違ったり、文字が一部欠けていたりする場合もあった。

この先は有料会員の登録が必要です。今なら有料会員(月額プラン)が12月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら