カメラと携帯電話の合体は,コミュニケーション・ツールとしての電話に新たな可能性を切り開いた。その一つとして,画像を撮影してメモ代わりに使う用途が広まっている。そこから文字を認識すれば用途がさらに広がるのではないか。NECが2004年に漢字認識機能を持つ端末を発売したほか,オムロンソフトウェアは2005年3月に英字を認識して,英和辞書を引くシステムを技術発表した。

 日立製作所が2005年3月18日に発表した文字認識の応用技術は,その用途に目新しさがある。認識した文字を基に,撮影された出版物を特定する。

単語とその位置関係を利用

図●文字認識を利用した情報提示システム
単語とその位置関係の情報を用いて,ユーザーが携帯電話で撮影した画像がどの出版物のどの個所かを導き出す。ユーザーには,その個所に結びつけられたURLを送る。雑誌の記事に掲載された商品の情報をリンクさせるといった使い方が考えられる。

 この技術は,ユーザーが撮影した情報誌などの出版物の一部分を基に,関連するWebサイトなどにアクセスするものだ([拡大表示])。撮影された画像に含まれる単語とそれらの位置関係を携帯電話で解析し,サーバーに送信する。するとサーバーから,関連する情報が送られてくる。

 サーバーには,出版物に関する情報があらかじめ登録してある。出版物の文面に含まれる単語とそれらの位置関係を解析したものが,関連付けるWebサイトの情報とともにデータベース化されている。

 ユーザーが携帯電話を使って出版物を撮影すると,携帯電話に組み込まれた文字認識システムは画像の中心の3行分を抜き出す。次にそこに含まれる文字や単語を認識し,位置関係を解析する。そして,解析した結果をサーバーに送る。サーバーは登録済みのデータベースと照合してユーザーが撮影した出版物を特定し,関連付けられたWebサイトの情報を送り返す。「撮影した画像そのものをサーバーに送る方法もあるが,データ量が多く通信料金が高額になる。携帯電話側で認識処理をすれば,サーバーに送るデータ量は100バイト程度で済む」(日立製作所中央研究所 知能システム研究部 嶺竜治研究員)。

 これと同様のサービスは,2次元コード(QRコード)を使って既に実施されている。しかしQRコードは,印刷物のレイアウトを邪魔してしまう。また,QRコードが印刷されていない出版物には使えない。出版物の文面そのものを識別に使えば,こうした問題を解消できる。

文字処理の軽量化も実現

 同時に日立製作所は,文字認識処理の軽量化にも力を入れた。認識の際に用いる文字の特徴量データを減らし,メモリー使用量の削減と処理の高速化を図った。Discriminative Feature Extraction法という手法を応用し,認識精度を落とすことなく,認識に用いる文字の特徴量データを「一般的な文字認識ソフトの5分の1ほどに減らせた」(同研究所知能システム研究部の古賀昌史主任研究員)。

(八木 玲子)
出典:2005年5月号 11ページ
記事は執筆時の情報に基づいており、現在では異なる場合があります。