晴耕雨読    趣味と生活の覚書

  1953年秋田県生まれ。趣味は、山、本、音楽、PC、その他。硬化しつつある頭を柔軟にすべく、思いつくことをなんでも書いています。あわせて、江戸時代後期の紀行家菅江真澄の原文テキストを載せていきます。

菅江真澄テキストを入力している

菅江真澄テキストとして、このブログに月2回のペースで投稿している。

菅江真澄の著作は、「日記」と「地誌」が、全13巻から成る全集のうちのそれぞれ4冊づつを占めている。

そのうちの日記は、旅の順番に収録されている。

第一巻の日記を、10年以上前からPCでテキスト化していた。

でも、途中で中断を繰り返していたので、第一巻の13編のうち10編しか終了していない。

性格的に、やり始めるとむきになって継続するけれど、いったん止まってしまうとなかなか再開しないところがある。

 

印刷物である全集の著作を、PCで扱える電子テキストファイルにすることは、かなり大変な作業である。

だから、ネット上に古典作品のテキストが掲載されていると、「ほんとうにお疲れさまでした。」と言いたくなる。

おかげさまで、好きなときに読むことができます。

紙の書籍を読みながら、PCに入力することはとても時間がかかる。

なので、私はスキャナーで画像ファイルに変換して、それを文字認識ソフトを使ってテキストに変換している。

それで、だいぶ時間の短縮になる。

文字認識をしてくれるサイトもあって、それだとソフトは不要だ。

文字認識の成功率は、7割から8割といったところだ。

もちろん、改行処理や誤認識を確認して、訂正が必要だ。

 

最近、この作業を再開した。

いってみれば、記事の校正作業だが、結局文章をすべて読むことになる。

書籍の原文と、文字認識の結果が一致しているか、確かめながら進むので、通常の読書より時間がかかる。

まったく誤りのない行は、ほとんどなく、なんらかの訂正や加筆が必要です。

だからといって、気が重いことはなく、むしろけっこう楽しいものだ。

認識ソフトのクセがあって、いろんな具合の悪さもあります。

だいたい、「ばびぶべぼ」が「ぱぴぷぺぽ」になります。

文章の途中の括弧書きの中に、小さい文字で2行とかになっていると、わけがわからない結果になります。

ほとんど、意味不明の文章と言えないものになるし、縦書きと横書きが、同時に存在しても同様です。

 

漢字の間違いは、よくあります。

「読み」で変換できるものならいいのですが、できないものがあります。

そういう漢字は、「IMEパッド」というWindows付属のツールを使います。

ところが、これがなかなか使いにくいのです。

まず、部首や画数から探してみると、候補が多すぎて目的の漢字が見つからない。

複数の部首を指定できれば、もっと候補を絞り込めるのだろう。

それでもなかったら、手書きパッドで、自分で書いてみて、候補の中から見つけます。

私の手書きの精度が問題なのか、ツール自体の精度の問題なのか、目的の漢字にたどり着けないことが多い。

そういうのは、画数がとんでもなく多く、現在はほとんど使うことのない漢字だったり、画数は少ないのにこんな漢字あるのか、というのもある。

使うことがないどころか、見たことのない漢字もなんとあることか。

菅江真澄のような江戸時代の教養人にとっては、漢文がその教養の基礎になってるのかもしれません。

とんでもなく難しい漢字が、いろいろ出てきます。

どうしても、見つからない時は、◾️にしてしまいます。

青空文庫だと、括弧書きで、へんとつくりで、「◯+△」みたいに表示していたような気がするけど、そこまではやっていない。

 

そういうことをしながら、菅江真澄の旅日記を読んでいると、自分もいっしょに旅をしている気持ちになる。

真澄が眺めていた風景や、出会ったさまざまな人たちの顔や声が、浮かび上がってくる。

どうしてこんな言葉を使ったのか、こういう表現をしたのか。

江戸時代の後期、真澄が旅した、信濃、越後、出羽、陸奥蝦夷

今、やっと秋田から青森のあたりです。

それらの国々の様子が、ドキュメンタリーのように見えるのは、なんとすごいことだろう。

それが、10巻を越える全集となって残っている。

 

テキスト入力していて、思うことがある。

私がやっているのは、すでに活字になっている書籍から、PCに入力している。

しかし、菅江真澄のような江戸時代以前の人たちの著作は、ほとんどが毛筆で書かれている。

最初に、活字の印刷物にしようとした人たちは、毛筆の文書を解析して文章にしている。

ほとんど毛筆で書くこともない現代の人間にとって、毛筆の文章を理解して、テキスト化することがどれだけ困難な作業であるか、想像するだけで大変なことである。

その結果として、誰でも読めるような活字の印刷物になっている。

その作業は、とてつもなく膨大な時間と労力を要したものだと思う。

並大抵なものではない。

 

現在、国立国会図書館をはじめとする公共の図書館が、古文書などをデジタル化してライブラリを整備している。

しかし、ほとんどは古文書を画像化しただけで、テキストにはなっていない。

画像データでは、研究者は利用できるだろうが、一般人には敷居が高すぎる。

それは国の財産なのだから、国の事業としてテキスト化して欲しいものだと思う。

今は、それが民間の研究者に任せられている。

でも、一人二人の研究者の手に負えるものではないだろう。

同じことを、以前にもこのブログに書いたことがある。

青空文庫を読むように、そういうものも読みたいものだ。

 

 

seiko-udoku.hatenadiary.jp

seiko-udoku.hatenadiary.jp

seiko-udoku.hatenadiary.jp

seiko-udoku.hatenadiary.jp

seiko-udoku.hatenadiary.jp

seiko-udoku.hatenadiary.jp

seiko-udoku.hatenadiary.jp

seiko-udoku.hatenadiary.jp

seiko-udoku.hatenadiary.jp

seiko-udoku.hatenadiary.jp

seiko-udoku.hatenadiary.jp