先日のブログに、菅江真澄テキストの入力のために、文字認識アプリサイトを利用していることを書いた。
現在校正しているテキストは、数年前にアプリサイトを利用して文字認識したものだった。
そのテキストの校正が終わってしまったので、次の分の文字認識をやってみた。
前回使ったサイトを覚えてなかったので、検索してみて最初に出たサイトを使ってみた。
「LightPDF」というサイトを、試してみた。
使ってみて、驚いた。
文字認識の成功率が、画期的にすばらしい。
9割を越えていて、修正が不要な行がけっこうある。
感激してしまった。
このサイトがすごいのか、この数年で文字認識のアプリの精度がとてつもなく上昇したのだろうか。
文字認識の精度は、どんな形の字を何という字とするかの設定で決まるのだろうから、そのあたりが何か変わったのだろうか。
今までの、苦労はなんだったのだろうか。
手順は、次のとおりである。
書籍をスキャナーにかけて、画像ファイルを作成する。
サイトに、画像ファイルをアップロードする。
「認識」のボタンをクリックする。
認識が終わると、「ダウンロード」の表示が出るので、クリックする。
ダウンロードできたファイルを、開いて確認する。
アップロードに数秒、認識に10秒、ダウンロードに数秒というところである。
難点は、一度に一枚の画像処理しかできないことだが、無料のアプリなので仕方がない。
一枚の画像ファイルといっても、書籍の2ページ見開き分である。
菅江真澄全集の場合、1ページは、章題やページ表示を入れて、50字✖️18行であり、900字相当になる。
2ページだと、1800字となり、原稿用紙4枚半である。
これを、手仕事で入力しようとしたら、何十分かかるだろう。
この認識精度なら、校正作業は今までの何分の一かで済む。
スキャナーを初めて購入したのは、いつ頃になるだろうか。
たぶん、Windows Me の頃だったと思う。
キャノン製のスキャナーだったが、バンドル版のOCRソフトが付属していた。
OCRは、“Optical Character Recognition"の頭文字で、日本語では「光学文字認識」である。
その頃のソフトは、文字認識の性能が良くなく、あまり実用的ではなかった。
PDAのクリエというミニパソコンを使い始めたので、そのためのテキストが欲しくなった。
それで、菅江真澄の著作を、テキスト化しようとしたが、あまりにも時間と手間がかかるので、そのうちに諦めてしまった。
そのうちに、プリンタとスキャナーが合体した複合機というものが発売されて、手頃な値段で買えるようになった。
プリンタを買い換える機会に、この複合機を買うことにした。
性能や価格などいろいろ検討して、キャノンやエプソンではなく、ブラザーの製品に決めた。
この製品は、なんとプリンタとスキャナーだけではなく、受話器も付属して、FAXとしても使うことができた。
実際には、FAXとして使用する機会はほとんどなかった。
プリンタとして、印刷することもそれほどはなかった。
むしろ、コピー機として使えるのは、便利だった。
コンビニに行かなくても、とりあえずコピーできるのは助かる。
そして、なんといっても、スキャンしたデータを画像ファイルとして、SDカードやUSBメモリに保存できるのは、すばらしい。
おかげで、何十冊とあった家族の写真のアルバムをデジタル化できた。
定年退職後に、妻が2ヶ月ほど入院した。
時間はいっぱいあったので、その時に、ほとんどの写真をスキャンした。
写真を、一枚一枚スキャンしなくても、5、6枚まとめて並べてスキャンしても、それぞれ別々の画像ファイルにしてくれる。
ほんとは、ネガフィルムも保存してあったので、それを使った方がきれいなものができそうだったが、面倒そうだったので、それはやめた。
そして、インターネットの時代となって、書籍をスキャンした画像ファイルをがあれば、文字認識サイトを使って、テキスト化できるというようになった。
我ながら、この複合機を良く活用しているものだと思う。
充分に、元をとってるだろう。
ところで、話は変わるのだが、「ブラザー」とい会社は、おもしろいというか、縁がある。
もともとは、「リッカー」などと同じミシンを作ってる会社だったと思う。
私が、小学生の頃、母親がブラザーの編み機を買った。
毛糸で、子どもたちにセーターやマフラーを編んでくれた。
私が、勤め始めた頃、まだ和文タイプライターの時代だった。
それが、ワープロに移行する頃に、ブラザーもワープロを発売していた。
初期のものなので、画面表示が2行くらいだった、と思う。
それが、今はプリンタの複合機を作っている。
そうやって、生き残っていくのはすごいと思う。