デジタル文書形式として一般的な「PDF」だが、閲覧・印刷用だけに困るのはデータの再利用。「PDFじゃなくて元のWord文書をくれ!」と頼めるのは職場の同僚くらいで、Webサイトや取引先から入手したPDFはいつも困る。こんな再利用ニーズが増えるに従って、PDFをWordやExcelなどのデータ形式に変換するソフトの売れ行きが伸びている。

 下図はその一つ「読取革命Ver.10」を使ってPDFをWord文書に変換した例だ。文字サイズやレイアウトに微妙な違いこそあれ、きちんとWord文書になっており、文章などを自由に編集できる。

拡大表示
図1 元のPDF(Adobe Reader)
拡大表示
図2 変換後のWord文書

 このようなPDFの“逆”変換ができるソフトは1980円から2万円以上の製品までさまざま。主な製品を下表にまとめた。

【PDFからOffice文書への逆変換ができる主なソフト】2007年1月31日時点
*1 2006年11月17日発売。本記事での製品評価は記事執筆時に入手可能だった「PDF2Office Personal Version 2.0」で行った
*2 2006年12月8日発売。本記事での製品評価は記事執筆時に入手可能だった「読取革命 Ver.10」で行った
*3、4 2007年2月下旬発売予定。本記事での製品評価は記事執筆時に入手可能だった「読んde!!ココ Ver.13」で行った。体験版は製品発売後提供予定
拡大表示
図3 データ変換型とOCR型の2種類があり、前者はPDFのデータそのもの(描画命令)を解析して変換する。後者はPDFの内容をいったん描画(ラスタライズ)してから文字認識を行う。Webサイトに体験版を用意しているメーカーもあるので、変換精度に興味のある方はご自分の目で確認を

 どの製品を選ぶかは目的で判断したい。大ざっぱに文章だけを変換したいなら、どの製品もそれほど差はない。だが、複雑なレイアウトをなるべく正確に変換したい、文字を一字一句正確に変換したいなど、要求レベルが上がると違いが出てくる。

覆水を盆に返すごとし

 だが製品選びの前に「PDF逆変換の常識」として「100%完全な復元は不可能」という点をキモに銘じたい。WordやExcelのデータを元に作ったPDFを逆変換ソフトにかけても、元のデータは完全に再現できない。改行位置やフォントなど微妙なズレがたくさん生じるのだ。例えばWordの段落書式には、行揃え方法やインデントなどたくさんの設定項目がある。だが、それを元に作ったPDFでは印刷に関するもの以外、大半の情報が失われてしまう。そもそもPDFの中身は単なる描画命令であり、「図や罫線は線などのシンプルな図形を組み合わせているだけ」(アンテナハウス)。それを「ここは表に見えるから表として変換しよう」などと推測し、可能な範囲で復元するのが逆変換ソフト。まさに「覆水を盆に返す」ような仕事なのだ。

出典:日経パソコン 2006年10月23日号
記事は執筆時の情報に基づいており、現在では異なる場合があります。