菅江真澄テキストとして、このブログに月2回のペースで投稿している。
菅江真澄の著作は、「日記」と「地誌」が、全13巻から成る全集のうちのそれぞれ4冊づつを占めている。
そのうちの日記は、旅の順番に収録されている。
第一巻の日記を、10年以上前からPCでテキスト化していた。
でも、途中で中断を繰り返していたので、第一巻の13編のうち10編しか終了していない。
性格的に、やり始めるとむきになって継続するけれど、いったん止まってしまうとなかなか再開しないところがある。
印刷物である全集の著作を、PCで扱える電子テキストファイルにすることは、かなり大変な作業である。
だから、ネット上に古典作品のテキストが掲載されていると、「ほんとうにお疲れさまでした。」と言いたくなる。
おかげさまで、好きなときに読むことができます。
紙の書籍を読みながら、PCに入力することはとても時間がかかる。
なので、私はスキャナーで画像ファイルに変換して、それを文字認識ソフトを使ってテキストに変換している。
それで、だいぶ時間の短縮になる。
文字認識をしてくれるサイトもあって、それだとソフトは不要だ。
文字認識の成功率は、7割から8割といったところだ。
もちろん、改行処理や誤認識を確認して、訂正が必要だ。
最近、この作業を再開した。
いってみれば、記事の校正作業だが、結局文章をすべて読むことになる。
書籍の原文と、文字認識の結果が一致しているか、確かめながら進むので、通常の読書より時間がかかる。
まったく誤りのない行は、ほとんどなく、なんらかの訂正や加筆が必要です。
だからといって、気が重いことはなく、むしろけっこう楽しいものだ。
認識ソフトのクセがあって、いろんな具合の悪さもあります。
だいたい、「ばびぶべぼ」が「ぱぴぷぺぽ」になります。
文章の途中の括弧書きの中に、小さい文字で2行とかになっていると、わけがわからない結果になります。
ほとんど、意味不明の文章と言えないものになるし、縦書きと横書きが、同時に存在しても同様です。
漢字の間違いは、よくあります。
「読み」で変換できるものならいいのですが、できないものがあります。
そういう漢字は、「IMEパッド」というWindows付属のツールを使います。
ところが、これがなかなか使いにくいのです。
まず、部首や画数から探してみると、候補が多すぎて目的の漢字が見つからない。
複数の部首を指定できれば、もっと候補を絞り込めるのだろう。
それでもなかったら、手書きパッドで、自分で書いてみて、候補の中から見つけます。
私の手書きの精度が問題なのか、ツール自体の精度の問題なのか、目的の漢字にたどり着けないことが多い。
そういうのは、画数がとんでもなく多く、現在はほとんど使うことのない漢字だったり、画数は少ないのにこんな漢字あるのか、というのもある。
使うことがないどころか、見たことのない漢字もなんとあることか。
菅江真澄のような江戸時代の教養人にとっては、漢文がその教養の基礎になってるのかもしれません。
とんでもなく難しい漢字が、いろいろ出てきます。
どうしても、見つからない時は、◾️にしてしまいます。
青空文庫だと、括弧書きで、へんとつくりで、「◯+△」みたいに表示していたような気がするけど、そこまではやっていない。
そういうことをしながら、菅江真澄の旅日記を読んでいると、自分もいっしょに旅をしている気持ちになる。
真澄が眺めていた風景や、出会ったさまざまな人たちの顔や声が、浮かび上がってくる。
どうしてこんな言葉を使ったのか、こういう表現をしたのか。
江戸時代の後期、真澄が旅した、信濃、越後、出羽、陸奥、蝦夷。
今、やっと秋田から青森のあたりです。
それらの国々の様子が、ドキュメンタリーのように見えるのは、なんとすごいことだろう。
それが、10巻を越える全集となって残っている。
テキスト入力していて、思うことがある。
私がやっているのは、すでに活字になっている書籍から、PCに入力している。
しかし、菅江真澄のような江戸時代以前の人たちの著作は、ほとんどが毛筆で書かれている。
最初に、活字の印刷物にしようとした人たちは、毛筆の文書を解析して文章にしている。
ほとんど毛筆で書くこともない現代の人間にとって、毛筆の文章を理解して、テキスト化することがどれだけ困難な作業であるか、想像するだけで大変なことである。
その結果として、誰でも読めるような活字の印刷物になっている。
その作業は、とてつもなく膨大な時間と労力を要したものだと思う。
並大抵なものではない。
現在、国立国会図書館をはじめとする公共の図書館が、古文書などをデジタル化してライブラリを整備している。
しかし、ほとんどは古文書を画像化しただけで、テキストにはなっていない。
画像データでは、研究者は利用できるだろうが、一般人には敷居が高すぎる。
それは国の財産なのだから、国の事業としてテキスト化して欲しいものだと思う。
今は、それが民間の研究者に任せられている。
でも、一人二人の研究者の手に負えるものではないだろう。
同じことを、以前にもこのブログに書いたことがある。
青空文庫を読むように、そういうものも読みたいものだ。