で、次の順序で解決。Adobe AcrobatとFineReader Proの両方を使う。
(1) Acrobatの「ツール」→「保護」→「すべての非表示情報を削除」を使って、ノートやハイライトをすべて削除して新規保存。
(2) (1)で出来たPDFファイルをFineReader Proで読み込み、テキスト認識させた上で、画像のみのPDFとして書き出す。
(3) (2)で出来たPDFファイルをAcrobatの「テキスト認識」を使ってクリアスキャンで認識する。
本当は(1)で出来たファイルは画像のみのPDFファイルになっていて、(2)のプロセスは不要なはずなのだけれど、なぜか(1)からすぐに(3)に移ろうとすると、「このPDFにはすでにテキストが含まれており、純粋な画像ファイルではありません」と言われ出来ないので、別のソフトで純粋な画像PDFにする必要がある。ノートやハイライトのないPDFなら、(1)の作業は省略して二手間だけ。テキスト認識したPDFでも普通にFineReaderで読み込める。FineReader Proには、スキャンした書類を保存するときに「ページ画像のみ」という謎のオプションがあるので便利だ。なぜか一旦テキスト認識をさせないとこのオプションで保存できないのだけれど。ファイルサイズは、処理前が4.5MB、処理後が3.5MBで、クリアスキャンのおかげでかえって小さくなった。時間はある程度かかるけれど、別についていなければならないわけではない。パソコンが仕事しているだけだし。
同じ問題でお悩みの人に…
(いるのかそんな奴)
処理前 |
処理後 |
0 件のコメント:
コメントを投稿