北野研究室: Mac

ラベル Mac の投稿を表示しています。すべての投稿を表示

2017年12月19日火曜日

TLG Abridged でギリシア語を読む

TLG Abridged 再訪（パソコンでギリシア語を読む）

Thesaurus Linguae Graecaeは古代ギリシア語の全文献を収めたテキストデータベースで、かつてはCD版で配付されていたが現在はWeb版のみになっている。五年で500ドルくらいのサブスクリプション費用がかかる。CD版の頃はいろいろなソフトウェアが開発されていたが、ライセンス切れと同時にCD版を返却するシステムなので、もう全員がWEB版に移行したためソフトウェアはなくなってしまった。（Diogenesだけなぜかまだ残っている）。
私自身、すべてのギリシャ語データにアクセスして統計的調査をする、ということを殆どしなくなったのでTLGのサブスクリプションを止めてから随分立った。その代わりに無料のTLG Abridgedが、そこに収録されているテキストを読むために不可欠のサイトになっている。久しぶりのブログはそちらの紹介。
TLG Abridgedのサイトに入ったらまずアカウントを作る。Visitorアカウントは無料。若干の検索もできるみたいだが、取り敢えずは「ギリシャ語テキストを読むため」に利用するので、General （Greek表示とGreek Input）とBrowse（一ページ行数）の設定だけしておく。
それでBrowseタグをクリックして出てきたボックスに読みたい作者名を入力、作品を選択してページを選ぶと読み始めることが出来る。

意味を調べたい単語があれば、クリックで右に項目が出て、LSJをクリックするとその項目が（単語の分析はPerseusのよりも確実）別タブに表示され、これが（ブラウザの機能なのだが）便利なところなのだけれど、そのタブを外に出せば、単語を調べる時にはその同じ窓で更新される。
私が『詩学』読んでいる時ってこんな感じ（左上がテキスト、右上が自分のノート、左下がLSJ、右下がいろんなコメンタリー（自炊PDF。PDF用のタブブラウザを使い、タブで切り替えるようになっている）。このために4K対応のモニターを購入したけれど、解像度も大事ながら、画面の物理的な大きさも大事だと実感しているところ。英和とか独和が裏に回るか別画面になって少し面倒くさい（ノートパソコンの付属のモニターを○和辞書専用にしているけれど）。

2015年3月5日木曜日

リーダーズ英和第三版、Mac iOSで。

リーダーズ英和第三版（ロゴヴィスタ辞書形式）を買った。インストール三回までの機能制限つきなのだけれど、インストールしたファイルを移動・コピーすること（私的利用の範囲内で）を制約しているわけではないので、コピーすればiPhoneでも使える。iPhoneではEPWING用の辞書ソフトEBPocketがロゴヴィスタ辞書に対応しているので、そのままコピー。外字の文字化けが酷いので、Project Zephyrからリーダーズ英和第三版用の外字plistをコピーして適切な場所に移すと少しましになる。EBMacでも同じplistを使うと文字化けは減る。plistの置き場所は http://www.page.sannet.ne.jp/kitanom/greekpc.html#ebpocket に書いたのと同じく辞書フォルダの直下。EB Macの場合はEBMac→パッケージを開く→Contents→Resourcesの中。
勿論、マックだとインストールしたロゴヴィスタ辞書をそのまま使っても良いのだけれど、複数辞書の串刺し検索を実現するにはEBMacかLogophileの二択になる。この辞書の場合、Logophileのほうが文字化けもなくキレイに表示されるのだけれど。

2014年9月12日金曜日

MacでEPWING for Classics（ギリシア語辞書データ）を使う

EPWing用のギリシア語辞典データEPWING for Classicsの使い方は自分のサイトで前に書いたことがある。まずWindowsでの使い方、およびiOSでの使い方だ。
ただ、そこではMac OSでの使い方については触れていなかった。辞書として使うには何の苦労も要らず適当なフォルダにコピーしてEBMacから認識させてやれば良いだけなんだけれど、それだけだと、検索文字がローマアルファベットになってしまい、また、ギリシア文字が汚い（ユニコード・フォントにならない）。
で、それを回避するために、EPWING for Classicsの「ダウンロード」ページから、EBシリーズ専用ファイルをダウンロードする。ここで必要な書類は、alternate-v3.iniとCLSEPW.plistの二つ。作業手順は以下の通り。
(1) alternate-v3.iniをalternate.iniに名称変更。
(2)「アプリケーション」フォルダからEBMacを右クリック（二本指タップ）、「パッケージの内容を表示」を選択。
(3)パッケージの中の Contentsフォルダ→Resourcesフォルダを開いて、そこにCLSEPW.plistをコピー
(4) 次にFinderで、オプションキーを押しながらメニューの「移動」をプレスして「ライブラリ」フォルダを表示。ライブラリ→Application Support→EBMacを開いて、そこにalternate.iniをコピー。この「ライブラリ」はユーザフォルダの直下にあるものの方。「システム」の直下にある「ライブラリ」にはApplication Supportフォルダがないはず。

これまでCLSEPW.plistをどこにコピーすれば良いのかが分からず、ギリシア文字が汚いまま放置していたのだけれど、上手くいったので報告。

CLSEPW.plistコピー前

CLSEPW.plistコピー後

2013年12月28日土曜日

Mac版Word2011で傍点をつける（備忘）

Mac版のMicrosoft Word 2011で傍点をつけるショートカットの作成。
上のメニューのツールから「ショートカットキーのユーザー設定」を選ぶ。
・の傍点だと「分類」→「すべてのコマンド」から「コマンド」DotAccentを選ぶ。
、の傍点だと、同様にCommaAccentを選ぶ。
適当にショートカットキーを設定。（私は、シフト＋リンゴ＋D、もともと二重下線のショートカットキーだったみたい。二重下線使わないし…）

リンゴ+Dから

ショートカットキーの設定

いちいち、選択して「書式」から「フォント」を選んで（あるいはリンゴ＋Dで）傍点を設定ってのより数等楽。ショートカットキーを押してから文字入力をすると、その文字に傍点がつく。同じショートカットキーで解除。

2013年12月13日金曜日

低品質のPDFをきれいにする（欧文の場合）

持っている洋書をほぼ自炊しPDF化したのだけれど（三年がかりくらい）、初めの頃は、「重いのは嫌だ」と考え、最終的に解像度を落としてOCRしたので、結構文字がギザギザのファイルで我慢していた。実際iPadやパソコンで読んでいると気になるし頭が痛い。この頃はFineReader Proを使っていて、この場合画像の下のレイヤーにテキストを埋め込むので、文字がベクトルデータになっておらず、ギザギザは直らない。おまけに、ノートやハイライトをたくさん入れていたりして、どうしようかと悩んでいた（印刷してからスキャンしなおすにもハイライトが邪魔だし、まあ面倒くさすぎる）。再OCRかけるにも本はもう裁断しているし…。
で、次の順序で解決。Adobe AcrobatとFineReader Proの両方を使う。
(1) Acrobatの「ツール」→「保護」→「すべての非表示情報を削除」を使って、ノートやハイライトをすべて削除して新規保存。
(2) (1)で出来たPDFファイルをFineReader Proで読み込み、テキスト認識させた上で、画像のみのPDFとして書き出す。
(3) (2)で出来たPDFファイルをAcrobatの「テキスト認識」を使ってクリアスキャンで認識する。
本当は(1)で出来たファイルは画像のみのPDFファイルになっていて、(2)のプロセスは不要なはずなのだけれど、なぜか(1)からすぐに(3)に移ろうとすると、「このPDFにはすでにテキストが含まれており、純粋な画像ファイルではありません」と言われ出来ないので、別のソフトで純粋な画像PDFにする必要がある。ノートやハイライトのないPDFなら、(1)の作業は省略して二手間だけ。テキスト認識したPDFでも普通にFineReaderで読み込める。FineReader Proには、スキャンした書類を保存するときに「ページ画像のみ」という謎のオプションがあるので便利だ。なぜか一旦テキスト認識をさせないとこのオプションで保存できないのだけれど。ファイルサイズは、処理前が4.5MB、処理後が3.5MBで、クリアスキャンのおかげでかえって小さくなった。時間はある程度かかるけれど、別についていなければならないわけではない。パソコンが仕事しているだけだし。

同じ問題でお悩みの人に…
（いるのかそんな奴）

処理前

処理後

2013年5月22日水曜日

Ecto3とBlogger

愚痴

Bloggerは、素人がほとんど何の努力もせずにブログを作れるし、写真も最初に設定していればLightbox風エフェクトが自動でかかるので、とても便利で、自分の本来のサイトの更新を全くしなくなった。更新も、ダッシュボードからさくっと書けば良いし、写真の挿入だけがIPhotoから一手間かけて写真ファイルを一旦どこかに保存しなければならないことを除いては何の不満もない。

ただ、何となく、オフラインで予め書いたものを後でアップロードしたいと思うことがあり、また、写真が直接iPhotoからブログに取り込めたら良いなあと思ったりもして、ブログ編集用のソフトを探し、marseditとecto3のどちらか、というところまできた。Marseditはなぜかbloggerへのログインができず（BloggerのIDとパスを入れても、GoogleのIDとパスを入れても通らない）、ecto3をレジストした。

で、ecto3は複数の写真を一括でiPhotoから取り込めて、投稿出来るんだけれど、なぜかLightboxエフェクトが効かなくなる。ぐぐって調べても、古い情報しか出てこず、Bloggerに元から備わっているLightboxエフェクトを有効にする方法が分からない。結局、ecto3で投稿した後で、写真のためにもう一度ダッシュボードで編集し直している。

なにか良い方法はないのかしら。とても間違ったやり方をしているような気がしなくもない。

2013年4月20日土曜日

iPadのePub Reader (2)

前回、Kindleで購入した本はKindleを使ってハイライトやノートの同期が出来るが、そうでないものは出来ないこと、Windows対応のNeosoarBookがそれが出来そうなことを書いたが、NeosoarBookをParallelsのWindows環境で起動したらAdobe IDを要求し、自分のAdobe IDを入れたらログインを拒否されてしまった。そのときの理由が中国語なので、なぜ拒否されたのか分からない。「輸入なんとか」って出たから、国の問題とかあるのかもしれない。結局これも使えないことが分かった。
PCとのannotationの連携に一番力を入れているiPad専用のeBook ReaderはMarvinかもしれない。そのMarvinはMac/Win/Linux用のePub管理ソフトであるCalibreにannotationを書き出すこと、自分のannotationやハイライトをHTMLやCSVに書き出すことが出来るが、Calibreにannotationをインポートしても、Calibreのリーダーではそれは表示されない。そのやり方も基本的に、書き出したannotationをパソコンにメールし、それをCalibreが読み込むって方法だ。また、Calibreにはハイライトやノートを作る機能がないので、PC上で作ったannotationをMarvinに移すことも出来ない。つまり同期機能ではない。これは使えない。
今のところ、単純なこと、つまりiOSとMac上のePub Readerでハイライトやノートを同期することは出来ないと分かった。まあいいや、そのつもりなら（誰が？）。「もういいでしょう」とか「パトラッシュ、ぼく…」という感じだ。著作権尊重は大事なことだし、いずれ専用リーダーアプリ以外ではDRM FreeのePub書類しか使えないので、買いたい本がすべて一つの書店（アマゾンとか、Koboとか）にない限り単純に統合された環境でePubを読むことは出来ないのだから、当分の間洋書は紙で買って自炊だ。後数年すれば状況が変わるだろう（良く？悪く？）。（私が著作権法を誤解していたので一部削除線を入れた。）

一つだけ、eBookについてこんなことを言っているアプリのサイトがあった。mobipocket Readerだ。

Annotate & Highlight : It's Your Book

You can annotate, bookmark, highlight, any part of any eBook and share your annotation on every device with Mobipocket ebook reader installed: connect your device and all your annotations will be synchronized. You can add and delete annotations on your reading device and on your PC at the same time. (http://www.mobipocket.com/en/DownloadSoft/ProductDetailsReader.asp)

でもそう思っている人はごく少数なんだろう。ちなみにmobipocket ReaderはiOSとAndroidには対応していない(-_-)。

2013年4月15日月曜日

iPadのePub Reader

iPadのePub Readerについて、次のようなものが欲しいと書いた。

(1) しおり、ハイライト、ノートがマックの汎用ePubソフトでも読んだり編集したり出来る（Mac上ではAdobe Digital Editionを使う）。
(2) DropBox経由でMacと同期できる。
(3) 内蔵辞書、単語のコピーに対応（Kindleはコピーが出来ない）。内蔵辞書にない単語はEP WINGの辞書で調べるから、単語のコピーを許さないアプリは不可。

このうち、(1)と(2)は基本的に無理で、ただしパソコンとiPadで同じアプリを使うとノートやハイライトの同期が可能なものがある、ということが分かった。ネットを経由して、そのサイトに登録して、自分のIDとハイライトやノートを紐づけるので、ある意味簡単ではある。

私がしたいことは、iPadで本を読んだりハイライトして、パソコンでそのハイライトにノートをつけたりハイライトを編集したりして、さらにその結果がiPadに反映される、というわりと単純なことだ。それをするのがこんなに難しいとは思わなかった。いろいろ見て行くと、Dropboxとの同期に対応していることを売りにしているアプリは二つあるけれど、どちらもノートがとれない。多分ハイライトやノートはオリジナルのファイルに書きこまれるのではなく、何らかのメタデータファイルとして別に存在するのだろう。

そうだとすると、とにかくどんな形でも良いからパソコンとiPadでノートやハイライトを共有できることが重要だ、ということになる。~~その場合、最も簡単なのはKindleだ。MacでもiPadでもkindleで読むことにすれば良い。~~ただし、KindleはePubファイルは読めないので、一旦Kindle固有のmobiファイルに変換して、それからそのファイルをKindleに転送してやる必要がある。ePubからmobiへの変換はCalibreなどいくつかのソフトウェアで可能で、~~Kindleへの転送はAmazon のアカウントサービスでMy Kindleアカウントを調べてそこへメール送信を行うことで可能だ。~~但し文章や単語のコピーは出来なくなる。

(Kindle Personal Document Serviceを利用することをこの文章では考えていたのだけれど、Kindle Personal Document Serviceはパソコン用のKindle アプリには対応していないことが分かった。と言うことは上記の「同期」は出来ない。なんか、「Sigh!」って感じ。パソコンのKindleフォルダに入れれば読むことは出来るのだけれど…………）

Windowsなら、NeosoarBookがノートとハイライトの同期を売りにしているが、残念ながらiPad, Android, Windowsのみだ。Windowsの人はNeosoarBookに登録すると、ePubファイルのままで何とかなるようだ（実際に試してはいない）。ノートの同期とテキストのコピーの両方が可能なePubリーダーは他にないような気がする。頑張ってNeosoarBook! Mac版も出して！（やってみると、日本のAdobe IDではできなかった）。

Macの人は、Kindleを利用し、文章の引用の必要があるときはもとのePubファイルを使うか手打ちするかになる#1。KoboもKindle同等のことが出来るはずだが、iPad上のKoboはePub形式の洋書を読むと不安定で、ノート、ハイライトが出来るはずなのに実際はノートをつけようとすると落ちたのでよく分からなかった。
#1シェア機能を利用し、facebookやtwitterに引用（とコメント）を転送することは出来るようだ。鍵付きのtwitterアカウントにしてtwilogを利用するなら、簡単な引用データベースにはなるのか。参照元

以下、代表的なePub Readerに関して上に書いた機能を比較してみた。日本語のことは想定していないので、各ソフトが日本語のePubファイルをどれ位きちんと表示できるのかは知らない。PC同期で△にしているのは、DropBoxアプリから「…で開く」に対応しているが、iPadでつけたメモやハイライトをMac(PC)に再び戻すことが出来ないものである。
どのソフトを使うにしても、DRMの問題は残る。Koboで買った本をKindleで読むには、KoboのDRMを外さねばならないだろう。Kindleの本をePubにするためにもそうだろう。自分で購入した本のDRMを自分で読むためだけに外すことの合法性については（そんなもん違法であるはずがないと思っていたら）、~~議論があるらしい（2012年の著作権法改正の結果）。電子書籍のDRMが改正著作権法で禁じられている「暗号方式による技術的保護手段」にあたるとは思えなかったのだけれど。駄目な感じ。もしそうだとしても罰則は今のところないようだが（損害賠償請求の可能性はある）、公務員としては出来ないなぁ~~。

（これは現在のところ音と映像の著作物の話で、電子書籍にはまだ拡張されていないみたい。よかった。）

合法性はともあれ、こんなDRMがかかっている限り、電子書籍は伸びないだろうなぁ。今のままだと、すべてのDRMに対応したリーディングアプリが現れないかぎり（結構多くのに対応したのはあるみたいだけれど）、買う本屋さんが作っているだけのハードか、少なくともそれらがアプリ化されているiPadを持たないと、自由に電子本を読むことは出来ないのだから。iTunes Musicみたいに、購入者(基本的に名前は分かっている。クレカ購入の場合には追跡も出来る。iTunes Cardの場合でもIDに一定の持続性があってApple IDで他の何かを買っていれば住所などもわかり民事化は容易そう）のApple IDと名前をどこかに埋め込むことで抑止効果にはならないのだろうか。（次の項目に続く）

	PC同期	ノート等	内蔵辞書	コピー	その他特徴
iBooks	×	〇	△*1	〇	iOS上では購入したもの同士のノートは同期。
Kobo	〇*2	〇	〇	×	Adobe Digital Editionでも読めるが同期はしない。
Bluefire Reader	△	〇	×	〇
NeosoarBook	×	〇	〇	〇	内蔵辞書がポップアップでなく画面上書き
JapanReader	△	×	〇*3	〇	独自辞書は単語帳レベル。但し仏和・独和等もある
Kindle*4	〇	〇	〇*5	×
Stanza	△	〇	〇	×	単語選択までに一手間余計にかかる。
Apabi Reader	△	×	×	〇
Booc	〇(Drop box)	×	×	〇	有料の独自辞書の宣伝がでる。英韓のみ。
BookReader	〇(Pro) (Dropbox)	×	×	×	単語選択不可。そもそもまともに表示しない。
Gitden Reader	△	〇	×	〇
e-reader	△	〇	×	〇
ReadMill	△	〇	〇	〇

*1 英々と英和の切り替わりの規則が不明。

*2 Koboで買ったものはPC上のKoboとiOSのKoboと同期。それ以外のePubは駄目。

*3 内蔵辞書は独自のもの。

*4 mobiファイル。ePubから変換し、Kindleに転送する必要がある。

*5 独自辞書（プログレッシブ英和だから、内蔵と同じ辞書）

2013年4月7日日曜日

洋書の自炊とOCR

手持ちの洋書は二年ほどかけてほぼ自炊した(1500冊弱）。例外は、辞書、古典ギリシア語の文献についてのコメンタリー、事典くらいか。あと、もう一生読むことはないな、と思う本も何冊か。

必要なハードはパソコンと、裁断機とスキャナーで、裁断機は自炊用の定番YG-LNの大型裁断機、スキャナーはほぼ自炊専用ではないかと思うがSCAN SNAP S1500だ。

YG-LNの裁断機。画像はAmazon.co.jpより

どちらも改良機種が出ている。特にSCAN SNAPは、久しぶりの新機種でいろいろ良くなっているらしい。

押し切りタイプの裁断機は、どうしても裁断面が斜めになるが、スキャナで用紙サイズを指定して取り込めば、裁断面が斜めになっていても関係ない。ただ、スキャナの濃度設定で、裁断の線が写りこまないようにやや薄めにする方が読んでいて幸せだ。（スキャン時には気にせずにトリミングで処理する手もある）。

裁断した本はスキャナに入れていくが、スキャナの設定で、やや注意が必要。

(1) 白黒の本で写真がないものは、白黒の設定でスキャンさせる。

(2) 白黒の本で写真（白黒）ややや細かめの図版がある場合には、「カラー自動判別」でスキャンさせる。「カラー自動判別」の場合、文字だけのページは白黒(600dpi)で、写真付きのページはグレイスケール(300dpi)で読み取るはず。ただ、クリーム色の紙をクリーム色で認識することが時にあり（ほとんどないのだけれど）、そうなってしまうと後の処理が面倒になる。全体を「グレイスケール」にしてスキャンした場合はスキャン結果が文字だけのページも300dpiになってしまうのと、紙の色を薄いグレイで認識することがよくある。特に古い本だと、この紙の色問題はファイルサイズをむやみに大きくし、なおかつできあがった書類の見た目を悪くするので面倒だ。300dpiの方が認識結果が悪くなると言う印象はない。また、文字自体は、後で書くようにClearScan方式で行えば解像度が低いことによるギザギザは消える。白黒で読み取ってから写真ページだけグレイで再読込をする（あとでAcrobatでページ挿入する）のが一番結果としては良いように思う。面倒くささとのバーター。ただ、全体の真ん中に写真ページが挿入されている多くの本では、写真だけ別読み込みにすることは合理的でもある。（私は、写真ページをList of Illustrations的な説明のページの直後に挿入することにしている）。

(3) カラー写真がついている本の場合も同様に、「カラー自動判別」にしたとき、文字だけのページを白黒で読み取ってくれないことが時にある。紙が白くないときにそれが多い。たいていの場合は上手く行くので、やってみてから駄目なページ（文字だけなのになぜかカラー300dpiでスキャンされてしまっているページ）を白黒で再スキャンするのが良いと思う。カラーでスキャンされたページを白黒に変換することはAcrobat Proなら可能（ググればやり方は出てくる）だが、結構面倒くさい。あるいはこの場合も、「白黒」と「カラー」のページをそれぞれ別にスキャンする。

で、PDF化するのにOCRソフトが必要だ。欧文書籍のOCRソフトとしては、Adobe AcrobatのOCRを使うか、Abbyy FineReader Proを使うかが判断に迷うところだ。（多言語認識、複数ページ分割の機能を両方持っているのはFineReader Proが最初だったし、今も他にはないような気がする）

単一言語の本の場合、Acrobatが良い。この場合は、OCR時にScanSnapの設定で自動的にAcrobatで認識しておくようにしても良い。ScanSnapにはAcrobatのStandard版が同梱されている（少し古いバージョンのものだけれど）。StandardとProの違いは、OCRと読書に関しては墨消し機能の有る無し位しか関係ないように見える。

ただし、AcrobatのOCRは必ずClearScan （300dpiの設定。いずれ画像は300dpiでスキャンされている）を使うことにする。その理由は二つ。

(1) ほとんどの場合、ファイルサイズが劇的に小さくなる。自分でやった本で言うと、Umberto Ecoの「完全言語の探求」の白黒600dpiでスキャンしたファイルは32メガバイト、それを「読み取り可能な画像」でOCRにしたときのサイズは12.6メガバイト、これを「サイズが縮小されたPDF」に変換すると12.1メガバイトにまで小さくなるが、すこしぎざぎざも増える。ClearScanだと3.5メガバイトだ。しかも基本的に幾ら拡大してもなめらかなままだ。

ClearScanは、英語の方が他のヨーロッパ言語よりも、読み取る書類の状態が良い方が悪い場合よりもファイルサイズは小さくなる傾向がある。後者は、文字情報の画像を一致する文字フォントに置き換えて表示しているためなのだと思う。上手く一致しない場合、画像情報が残るのではないかしら。

ただし、とても状態が悪い書類の場合、そんなにファイルサイズが減らなかったり、あるいは極めてまれに上がったりする場合もある。その場合でも、次の第二の理由からClearScanにした方が良い。

(2) 書類の見かけが向上する。ClearScanだと文字画像は同じ形のフォント情報で置き換えられているので、拡大してもぎざぎざにならない。先ほどのエーコの「完全言語の探求」をもともとのスキャン画像、「サイズが縮小されたPDF」で別名保存したとき、ClearScanしたときの同じ箇所の画像を並べるとこんな感じだ(クリックで300％の大きさに）。元のスキャン画像よりもClearScanを行ったあとの方がきれいなのに気づくだろう。

Ecoスキャン画像

Eco縮小PDF

Eco ClearScan

もう少し状態の悪い本の例も挙げる。ソ連共産党中央委員会編の「ソ連共産党の歴史」(1939年版、英訳）は、OCR処理する前のファイルサイズが35メガバイト、ClearScan後が19メガバイトでサイズはあまり変わらない。適当に同一箇所の画像を見ると、こんな感じだ。

OCR前のPDF画像（300％）

ClearScanでOCRをかけた後 (300％）

文字の間のよごれはそのまま（だからファイルサイズが落ちないのかしら）だけれど、例えば最初の三語を見ると、文字のぎざぎざが、画像がフォントに置き換えられていることでずいぶんなめらかになっているのが分かる。これは600dpiでスキャンしているが、スキャン精度が下がるとClearScanのありがたさはさらに増す。

二言語以上が用いられている本の場合、Abbyy FineReader Proは複数言語の認識に対応しているので、認識結果は圧倒的に優れている。Acrobatだと主要言語（認識言語として設定したもの）以外はかなり酷い結果になる。ただし、見かけはきちんとしているので、認識結果はあまり気にしない、という考え方も成り立つだろう。英独や英仏二言語の本の場合、フランス語やドイツ語で認識させてやると、英語部分も結構まともに読む傾向がある。でも、多言語の論文集などの場合、時間があればAcrobatでページごとに認識言語を変えてやるのが良いと思う。

FineReaderのもう一つの良い特徴は、見開きページを自動で分割してくれることだ。コピー機タイプのスキャナを使う場合（本を断裁せずにスキャンする場合）、この機能はとてもありがたい。（そのような場合でも、私はFineReaderで認識した後、イメージだけを保存して、AcrobatでClearScanをかけている。私の持つiPad2では、一冊30メガバイトのPDF書類は動作が緩慢すぎてストレスが大きいからだ）。

認識精度についての一般的な比較は、「モノマニア：文系研究者による家電と電化製品の比較のブログ」のこのページやこのページが詳しい。

追記1：日本語縦書きの場合は、ClearScanはまだまだ屑っぽいので注意が必要だ。(Acrobat 10。11は未検証）例えば右の例（岩波書店『ギリシア悲劇全集』３より「オイディプース王」より）では、ClearScanした結果文字が重なってしまっている。認識結果を見てみると「そのことだ、いまなにより先にわたしの言い分を聞いていただきたいのは。」および「おまえが悪人ではないなどとな。」ときちんと認識されているのではあるが。追記2：本記事のラベルはMacだが、考えてみるとFineReader ProはWindows版しかなかった。私はParallels上のWindows7で使っている。MacのFineReader Expressはいろいろと制約がある。見開きの自動分割が出来ないのかも知れない。FineReader Proはダウンロード販売がある。

2013年4月3日水曜日

MacのATOKのユーザ辞書をiPhoneに

Macでは私はATOKを使っている。このユーザ辞書をことえりにコピーできたらiPhoneでも使えて便利だ（iCloud経由で、ことえりとiOSデバイスはユーザ辞書が自然に共有されるので）。Wordだけを使って、ATOKの辞書をことえりに読み込ませることが出来た。
方法は以下の通り
(1) ATOKのユーザ辞書をテキスト形式でエクスポートする。
(2) それをWordで開く。
(3) 最初数行が説明なので削除。
(4) Wordの全置換機能を使って、タブをコンマに変換（高度な検索、置換で日本語曖昧検索のチェックを外し特殊文字をクリックするとできる）。
(5) 各種IME辞書のコンバート方法というページを見て、ATOKの品詞名をことえりの品詞名に置換。最初に名詞を普通名詞に置換してから、普通名詞サ変をサ変名詞に置換する。後はテキストを見て必要なものを変えて行く。実際のところ、自動登録単語のほとんどが名詞サ変だし、登録単語の大抵は名詞だから、これら二つが置換されていれば使い勝手はかなり向上すると思う。あとは固有人名、固有地名、固有人姓くらいしか私は自分では登録していなかった。
(6) 行末に＄やアステリスク*が置かれているので、＄と*をそれぞれ全置換で消去（置換項目に何も入れなければ消去される）。読みにこれらの記号を使っている人は＄と改行マークを改行マークで置換というふうにすれば良い。
(7) テキスト形式で保存してことえりで読み込む。あとはiCloud経由でiPhoneに勝手に辞書がコピーされている。

これで何が便利になったかというと、私の場合、自動登録されていた人名等のカタカナをiPhoneが推測変換してくれるようになったことだ。iPhoneでの文章の入力がそんなに苦にならなくなった。
他方、誤変換も自動登録されているのがあるから、それが推測変換で出てくるのがやや厄介。
自分で登録した単語のコンバートだけなら、この問題はないだろう。