倉頡計畫

昔者蒼頡作書、而天雨粟、鬼夜哭。

淮南子、本經訓

これは, 古典を電子化する計画です。新規の追加を行う計画はありません。

現在の成果

漢文をJISで入力している理由について

漢文は中国語であるからGB/BIG5/CCCII/CNSなどで入力すべきであるという主 張を雑誌「しにか(4月号?)」で拝見しました。その主張では「中国人が読めな い文字コードで入力した漢文には意味がない」ようなことが書かれていました。 中国語のままでいいのであれば多くの中国古典が電子化されており, 私自身が 電子化を行なう理由はありません。

中国語の文字コードのままである場合, 一般に日本語の一部として漢文を使用 することが困難です。自動変換を行なうこともできますが, 日本語と中国語で 規定している文字種類と数が違うため完全な変換はできません。私は, 日本語 としての漢文を電子的に利用するための試みとしてこの漢文電子化計画を始め ました。これにより, 日本語の文章の中に漢文を容易に引用できるようになる と考えます。

公的機関による電子化のすすめ

個人的に可能な範囲での電子化には些か限界を感じています。底本、入力の労力、公開の速度など、限界を感じている事にはいくつかありますが、最も大きいのが、底本です。著作権フリーで公開するためには底本の著作権関係がクリアになっている必要が有ります。そのため、江戸時代以前の本を底本としていますが、その出自、系統として善本を選ぶ事が難しいのです。難しい理由は、手許に置いて入力しなければ成らないため、購入可能な本になってしまうという金銭的な理由、古書籍店にて売られている本に限定されるという理由です。善本の多くは、公的な図書館、大学、研究機関に所蔵されています。これら公的機関での電子化であれば、底本の問題は解決されます。

電子化のメリット

電子化を行うメリットは、いくつかあります。

  1. 引用が容易になる
    まず、電子的な文書に引用が容易である事です。古典を電子的な文書に引用する場合、引用しようとした文章に使用されている文字が全てJISなりでコード化されている保証が有りません。実際にはコード化されているにもかかわらず当該のコードが見つからなかったり、似ているコード化されている字と間違えたり、コード化されていないにもかかわらず手間を掛けて本当はない字を探したりする問題があります。
  2. 比較が容易になる
    複数の系統の本を比較する場合、電子化が行われていると簡単なスクリプトを作成するだけで容易に比較を行う事ができます。昔の人が何年もかけて行ったいろいろな文献からの引用の比較も容易に行えます。使用されている字の頻度、使用方法などを広範囲にわたって統計的な比較を行う事ができます。
御意見があればmoroo までお寄せ 下さい。
souketsu@moroo.com