2013年4月7日日曜日

洋書の自炊とOCR

手持ちの洋書は二年ほどかけてほぼ自炊した(1500冊弱)。例外は、辞書、古典ギリシア語の文献についてのコメンタリー、事典くらいか。あと、もう一生読むことはないな、と思う本も何冊か。

必要なハードはパソコンと、裁断機とスキャナーで、裁断機は自炊用の定番YG-LNの大型裁断機、スキャナーはほぼ自炊専用ではないかと思うがSCAN SNAP S1500だ。

YG-LNの裁断機。画像はAmazon.co.jpより
どちらも改良機種が出ている。特にSCAN SNAPは、久しぶりの新機種でいろいろ良くなっているらしい。

押し切りタイプの裁断機は、どうしても裁断面が斜めになるが、スキャナで用紙サイズを指定して取り込めば、裁断面が斜めになっていても関係ない。ただ、スキャナの濃度設定で、裁断の線が写りこまないようにやや薄めにする方が読んでいて幸せだ。(スキャン時には気にせずにトリミングで処理する手もある)。

裁断した本はスキャナに入れていくが、スキャナの設定で、やや注意が必要。

(1) 白黒の本で写真がないものは、白黒の設定でスキャンさせる。

(2) 白黒の本で写真(白黒)ややや細かめの図版がある場合には、「カラー自動判別」でスキャンさせる。「カラー自動判別」の場合、文字だけのページは白黒(600dpi)で、写真付きのページはグレイスケール(300dpi)で読み取るはず。ただ、クリーム色の紙をクリーム色で認識することが時にあり(ほとんどないのだけれど)、そうなってしまうと後の処理が面倒になる。全体を「グレイスケール」にしてスキャンした場合はスキャン結果が文字だけのページも300dpiになってしまうのと、紙の色を薄いグレイで認識することがよくある。特に古い本だと、この紙の色問題はファイルサイズをむやみに大きくし、なおかつできあがった書類の見た目を悪くするので面倒だ。300dpiの方が認識結果が悪くなると言う印象はない。また、文字自体は、後で書くようにClearScan方式で行えば解像度が低いことによるギザギザは消える。白黒で読み取ってから写真ページだけグレイで再読込をする(あとでAcrobatでページ挿入する)のが一番結果としては良いように思う。面倒くささとのバーター。ただ、全体の真ん中に写真ページが挿入されている多くの本では、写真だけ別読み込みにすることは合理的でもある。(私は、写真ページをList of Illustrations的な説明のページの直後に挿入することにしている)。

(3) カラー写真がついている本の場合も同様に、「カラー自動判別」にしたとき、文字だけのページを白黒で読み取ってくれないことが時にある。紙が白くないときにそれが多い。たいていの場合は上手く行くので、やってみてから駄目なページ(文字だけなのになぜかカラー300dpiでスキャンされてしまっているページ)を白黒で再スキャンするのが良いと思う。カラーでスキャンされたページを白黒に変換することはAcrobat Proなら可能(ググればやり方は出てくる)だが、結構面倒くさい。あるいはこの場合も、「白黒」と「カラー」のページをそれぞれ別にスキャンする。



で、PDF化するのにOCRソフトが必要だ。欧文書籍のOCRソフトとしては、Adobe AcrobatのOCRを使うか、Abbyy FineReader Proを使うかが判断に迷うところだ。(多言語認識、複数ページ分割の機能を両方持っているのはFineReader Proが最初だったし、今も他にはないような気がする)



単一言語の本の場合、Acrobatが良い。この場合は、OCR時にScanSnapの設定で自動的にAcrobatで認識しておくようにしても良い。ScanSnapにはAcrobatのStandard版が同梱されている(少し古いバージョンのものだけれど)。StandardとProの違いは、OCRと読書に関しては墨消し機能の有る無し位しか関係ないように見える。

ただし、AcrobatのOCRは必ずClearScan (300dpiの設定。いずれ画像は300dpiでスキャンされている)を使うことにする。その理由は二つ。

(1) ほとんどの場合、ファイルサイズが劇的に小さくなる。自分でやった本で言うと、Umberto Ecoの「完全言語の探求」の白黒600dpiでスキャンしたファイルは32メガバイト、それを「読み取り可能な画像」でOCRにしたときのサイズは12.6メガバイト、これを「サイズが縮小されたPDF」に変換すると12.1メガバイトにまで小さくなるが、すこしぎざぎざも増える。ClearScanだと3.5メガバイトだ。しかも基本的に幾ら拡大してもなめらかなままだ。

ClearScanは、英語の方が他のヨーロッパ言語よりも、読み取る書類の状態が良い方が悪い場合よりもファイルサイズは小さくなる傾向がある。後者は、文字情報の画像を一致する文字フォントに置き換えて表示しているためなのだと思う。上手く一致しない場合、画像情報が残るのではないかしら。

ただし、とても状態が悪い書類の場合、そんなにファイルサイズが減らなかったり、あるいは極めてまれに上がったりする場合もある。その場合でも、次の第二の理由からClearScanにした方が良い。

(2) 書類の見かけが向上する。ClearScanだと文字画像は同じ形のフォント情報で置き換えられているので、拡大してもぎざぎざにならない。先ほどのエーコの「完全言語の探求」を もともとのスキャン画像、「サイズが縮小されたPDF」で別名保存したとき、ClearScanしたときの同じ箇所の画像を並べるとこんな感じだ(クリックで300%の大きさに)。元のスキャン画像よりもClearScanを行ったあとの方がきれいなのに気づくだろう。
Ecoスキャン画像
Eco縮小PDF

Eco ClearScan

もう少し状態の悪い本の例も挙げる。ソ連共産党中央委員会編の「ソ連共産党の歴史」(1939年版、英訳)は、OCR処理する前のファイルサイズが35メガバイト、ClearScan後が19メガバイトでサイズはあまり変わらない。適当に同一箇所の画像を見ると、こんな感じだ。
OCR前のPDF画像(300%)
ClearScanでOCRをかけた後 (300%)

文字の間のよごれはそのまま(だからファイルサイズが落ちないのかしら)だけれど、例えば最初の三語を見ると、文字のぎざぎざが、画像がフォントに置き換えられていることでずいぶんなめらかになっているのが分かる。これは600dpiでスキャンしているが、スキャン精度が下がるとClearScanのありがたさはさらに増す。

二言語以上が用いられている本の場合、Abbyy FineReader Proは複数言語の認識に対応しているので、認識結果は圧倒的に優れている。Acrobatだと主要言語(認識言語として設定したもの)以外はかなり酷い結果になる。ただし、見かけはきちんとしているので、認識結果はあまり気にしない、という考え方も成り立つだろう。英独や英仏二言語の本の場合、フランス語やドイツ語で認識させてやると、英語部分も結構まともに読む傾向がある。でも、多言語の論文集などの場合、時間があればAcrobatでページごとに認識言語を変えてやるのが良いと思う。

FineReaderのもう一つの良い特徴は、見開きページを自動で分割してくれることだ。コピー機タイプのスキャナを使う場合(本を断裁せずにスキャンする場合)、この機能はとてもありがたい。(そのような場合でも、私はFineReaderで認識した後、イメージだけを保存して、AcrobatでClearScanをかけている。私の持つiPad2では、一冊30メガバイトのPDF書類は動作が緩慢すぎてストレスが大きいからだ)。

認識精度についての一般的な比較は、「モノマニア:文系研究者による家電と電化製品の比較のブログ」のこのページこのページが詳しい。

追記1:日本語縦書きの場合は、ClearScanはまだまだ屑っぽいので注意が必要だ。(Acrobat 10。11は未検証)例えば右の例(岩波書店 『ギリシア悲劇全集』3より「オイディプース王」より)では、ClearScanした結果文字が重なってしまっている。認識結果を見てみると「そのことだ、いまなにより先にわたしの言い分を聞いていただきたいのは。」および「おまえが悪人ではないなどとな。」ときちんと認識されているのではあるが。 追記2:本記事のラベルはMacだが、考えてみるとFineReader ProはWindows版しかなかった。私はParallels上のWindows7で使っている。MacのFineReader Expressはいろいろと制約がある。見開きの自動分割が出来ないのかも知れない。FineReader Proはダウンロード販売がある。

2 件のコメント:

Masahiro Kitano さんのコメント...

一点追加。ScanSnapの設定の「読み取りモード」で、「継続読み取りを有効にします」にチェックすること。セットした紙のスキャンが終わったときに「続けてスキャンする」かどうかを聞いてくれる。

Masahiro Kitano さんのコメント...

ScanSnapをiX500に、裁断機をYG-LNの改良型に、AcrobatをXIに、ついでにスキャン専用にしていたWindowsパソコンをCeleron 2.4GHz メモリ760MBのものから、こないだサクサク動くようになったLet's Noteに変更。
ScanSnapにはAcrobat Standard XとFinereaderと名刺管理ソフトがついているけれどどれも今のところ使わない(持っている)。
とても速く快適になった。紙詰まりが減ったのは実感したけれど、もともと使い倒して限界まで来てたものとの比較だから、性能の向上はよく分からない。デフォルトだと文字中心の本には濃すぎるかな。少し薄めにした方が良いかも。
DropboxやSugarsyncへの同期がサポートされたのは便利。いままではUSBメモリで移動していたから。
Acrobatは同じMacで使って認識が速くなった気はする。縦書き日本語をClearScanかけると屑なのは全く変わらず。ここに密かに期待していたのだけれど、まあどこにもOCR性能の向上は謳われていなかった。