2013年12月13日金曜日

低品質のPDFをきれいにする(欧文の場合)

持っている洋書をほぼ自炊しPDF化したのだけれど(三年がかりくらい)、初めの頃は、「重いのは嫌だ」と考え、最終的に解像度を落としてOCRしたので、結構文字がギザギザのファイルで我慢していた。実際iPadやパソコンで読んでいると気になるし頭が痛い。この頃はFineReader Proを使っていて、この場合画像の下のレイヤーにテキストを埋め込むので、文字がベクトルデータになっておらず、ギザギザは直らない。おまけに、ノートやハイライトをたくさん入れていたりして、どうしようかと悩んでいた(印刷してからスキャンしなおすにもハイライトが邪魔だし、まあ面倒くさすぎる)。再OCRかけるにも本はもう裁断しているし…。
で、次の順序で解決。Adobe AcrobatとFineReader Proの両方を使う。
(1) Acrobatの「ツール」→「保護」→「すべての非表示情報を削除」を使って、ノートやハイライトをすべて削除して新規保存。
(2) (1)で出来たPDFファイルをFineReader Proで読み込み、テキスト認識させた上で、画像のみのPDFとして書き出す。
(3) (2)で出来たPDFファイルをAcrobatの「テキスト認識」を使ってクリアスキャンで認識する。
本当は(1)で出来たファイルは画像のみのPDFファイルになっていて、(2)のプロセスは不要なはずなのだけれど、なぜか(1)からすぐに(3)に移ろうとすると、「このPDFにはすでにテキストが含まれており、純粋な画像ファイルではありません」と言われ出来ないので、別のソフトで純粋な画像PDFにする必要がある。ノートやハイライトのないPDFなら、(1)の作業は省略して二手間だけ。テキスト認識したPDFでも普通にFineReaderで読み込める。FineReader Proには、スキャンした書類を保存するときに「ページ画像のみ」という謎のオプションがあるので便利だ。なぜか一旦テキスト認識をさせないとこのオプションで保存できないのだけれど。ファイルサイズは、処理前が4.5MB、処理後が3.5MBで、クリアスキャンのおかげでかえって小さくなった。時間はある程度かかるけれど、別についていなければならないわけではない。パソコンが仕事しているだけだし。

同じ問題でお悩みの人に…
(いるのかそんな奴)


処理前
処理後



0 件のコメント: