日本史史料情報の電子化における課題
永村
はじめに
近年の日本史研究分野におけるコンピュータ利用の実態を1瞥するならば'すでに日常業務のなかに確固たる地歩
を固めている観がある。わずか十余年ほどの間に、コンピュータは日常的な調査・研究・教育活動のなかに浸透する
とともに、諸機関や個人の手によって史料や文献に関わる多種多様なデータベース(以下DB)が構築されている。
もはや史料・史料群の保存・管理や研究は、コンピュータ無しに進めることは困経とさえ思える.
日本史研究における主なコンピュータの利用方法を大別するならば、第一に書く道具(日本語処理とエディタ機能
を備えたワープロ)、第二に探す道具(特定情報の検索を実現するDB)、第三に思考支援の道具(簡便に蒐鵜史料の
文字列」画像を処理し構想をまとめる支援ツールやアイディアプロセッサ)、第四に情報交換の道具(広範な情報検
索や情報交流の手段としてのインターネット・パソコン通信)ということになろう。研究者個人にとっては節一・第
四の利用方法が最も一般的と思われるが、学界全体が期待するのは第二の根絶に基づく日本史史料DBであろう。こ
日本史史料惰報の花子化における課税(永村)
史料館研究紀要第三〇号(一九九九年)二
のような期待に応えるように、諸伐開における汎用コンピュータ上に構築されオンライン検索の対象となる史料DB(例えば、京都大学大型計算槻センターのr令集解LDB、東京大学史料編某所の古記録・「影写本目録」・影写本
画像DB)や'オフラインによるCD‑ROM版r平安遺文J(東京堂出版)等が相次いで公開・販売されている。(‑)では日本史史料の情報処理において懸案とされてきた様々な問題点は'コンピュータ利用技術の急速な進歩のなか
で全て解決されたのかといえば、その答えは残念ながら否であろう。コンピュータが研究室・書斎に入り込むように
なった過去十余年ほどの間に、抜本的な解決がなされぬままに放置された問題点は少なくない。そこで日本史研究の
基礎となる史料情報の電子化つまり史料DBの構築において障壁となる問題点を明らかにLt今後の技術的な発展の
もとでの解決策を探ることにしたい。
一漢字文字列
日本史史料の多くは漢字文字列(漠字・仮名交文字列を含む)で表記されており'史料DBを構築するためには'
漢字文字列を如何にデータ記述するかが問題となる。またその前提として史料DBのデータ記述形式(フィールド構
成'フィールド長)が決定されている必要がある。そしてデータ記述形式は'史料に記載される漢字文字列を忠実に
ファイル化する史料集形式のフルテキストDBと、史料から特定の項目毎に文字列を切り出して個々のフィールドに
格納する日録・索引形式のイツデックスDBに大別される.いずれも日本史研究にとって重要な役割を果たすDBで
あるが,インデックスDBよれもフルテキストDBの構築により相対的に大きな労力を要することは言うまでもない。
そのため大量情報の僻隙にはインデックスDB、,特定史料に含まれる文字列処理にはフルテキストDBというように、
目的に応じたデータ記述形式が選択されることになる。しかし当然のことながら史料全文を電子化したDBは'極め
て有用な研究支援手段であるわけで'本稿においては主にフルテキストDB構築を通して検討を進めることにしたい.
さてフルテキストDBの構築作業とは、原本(写本)の洪字文字列、または原本(写本)から活字化された洪字文
字列を、漢字コードに変換して電子的に蓄積することである。二次元の平面に記された手番き文字もしくは活字を'
人間の読解能力を介して特定の漢字コードに置き換え、電子的媒体(ハードディスク等)に苛税するというDB化の
作業は、親から電子への媒体変換に他ならない。この媒体変換に類似するのが原本(写本)から活字本への変換とい
う活字史料集の出版行為であり、DB化と史料鵜の出版とは同質の作業とも言えよう。
ところで原本から活字本を作成するにあたり、原本のもつ多彩な情報の多くが切り捨てられるという現実がある。
活字化にあたり紙質・墨色・筆跡などの原本の様態は、文字情報として注記されることはあっても、そのままの形で
活字に置き換えて表現することはできない。これと同様に、原本・活字本からのDB構築においても情報の切り捨て
は避けられない。すなわち原本のもつ質感等は再現不可能な情報であり、筆跡・筆法や花押・印章など漢字コードで
表現できぬ情報は、文字列処理を優先する限りtDB化の過程で注記をのこして全て捨象される。媒体変換にあたり
情報の切り捨ては不可避である以上、如何なる情報を必須のものとして残すか、如何なる情報の捨象を黙認するかと
いう、一種の「割り切り」がDB化には求められるのである。
実は活字史料集の編集にも大胆な「割り切り」が行われている。活字の字母数と活字サイズ(号・ポイント・級)
には制限があり、活字本の制作にあたってはその範囲内で活字を組み上げねばならないo例えば東京大学史料編茶所
刊r大日本史料Jの編碁においては、原本に如何なる異体字が用いられていでも'機械的に正字(r康照字典Jの字
日本史史料情報の電子化における課退(永柑)三
史料館研究紀要第三〇号二九九九年)四
形)に直す正字主義をとる。このr大日本史科」における正字への統一という処理は'原本の正確な解読・記述に基
づく本文の的確な割裂類宋'これこそが編年史料集の理想的なあ‑方とする基本的姿勢に依るものであろう。そして
限られた字種(漢字コード)と表示空間のもとで構築される史料DBにおいても、検索を優先的な機能とする電子テ
キストという「割り切り」が必要ではなかろうか。つまり史料DBとは'新たに作成された底本ではなく'原本に記
載される特定の文字列の検索を第一の械能とLt特定文字列を含むテキストの参照を第二の機能とする電子テキスト
であり、あくまで原本・複本もしくは活字本と併せて利用すべきものと考えるべきであろう。もちろんフルテキスト
DBには原本の文字列が蓄積されており、検索機能のもとでの本文表示が可能である以上、そのままでも十分な利用
価値をもつものであるが、やはりその本質は高度な検索・参照機能を備えた語句索引であるという性格付けが必要な
のである。
このようなフルテキストDBの性格付けを前提として'漢字文字列の電子化にあたり配慮すべきい‑つかの問題点
を掲げることにする。
まず第一に'史料に記述される漢字文字列の一次元化処理があげられる。一般的に史料は紙面という二次元平面に
表記されており、これを1次元の文字列として表現することがDB化において最初に行うべき作業と言える。しかし
ここで問題となるのは、二次元平面に記された史料の文字列は、必ずしも行・列という二次元的広がりのなかで記述
し尽くされていないという現実である。
史料原本の本文には'行を逐って記述される文章(遂行配列文字列と呼ぶ)と、その文章の流れを遮って記述され
る語句・文章・文字(逸行配列文字列と呼ぶ)が混在している。史料本文の躯体は言うまでもなく遂行配列文字列で
あるが、その文章・語句を補完・説明するための頭書・剖書(割注'双行)・傍書が逸行配列文字列ということにな
る。例えば、「琳松房法印欝町探題時、自東北院苫溜御房'賀札云'」との一文のなかで.r実専」・「発志院」と
の割書は直前の「琳松房法印」を説明する役割を果たしてお‑、「党円僧正御房」も同様である。しかしこれらの割
書は、「琳松房法印探題時、自東北院賀札云、」との遂行配列文字列を遮るもので'この一次元の文字列のなかでは表
現しきれず'二次元的に展張することになる。もちろん便宜的に「琳松房法印(尖専/発志院)探題時'自東北院(党円僧正御房)賀札云、」と記述するものの'「()」内や「/」の意味はそれを読み解‑人間が適宜判別を加えざる
を得ない。
また遂行・逸行を問わず文章内には、文字・語句単位で文章の流れを遮る要素が併存する。すなわち抹消(畠抹'
見七消チ)・挿入・転置などを含む漢字文字列は'過行配列文字列と同様に一次元では衣現しきれない。例えば'功紙榊「戒定恵之徳水菜」との1文では'「徳水茄」の「功縮横」への差し替えを示しているが、「戒定恵之」の後で「徳水NNN
菜」と「功績積」という二様の流れに分岐しており、便宜的に「成定恵之︻徳水茄︼(功統積)」とは表記できるもの
の、文字列全体を一次元で表現しきれたわけではない。
さらに活字本の場合、編碁者の手で本文中の遂行・逸行配列文字列に校訂注・説明注が傍注として付加される.逮
行配列文字列に付加された傍注は逸行配列文字列と同様に二次元に展張し、逸行配列文字列に付加された傍注は二次
元から三次元に展張することになる。このように原本(複本)には遂行・逸行配列文字列と挿入・抹消等、さらに活
字本では傍注が加わ‑、史料文字列の構造は複雑な相を里している。
複雑な構造をもつ原本の文字列において'その意味を変えることなくデータ表現することは果たして可能であろう
か。コンピュータは複雑な構造をもつ文字列データを一次元的(直線的)な文字連続という形でしか記述できぬわけ
でー二次元・三次元にわたる文字列表現をそのままの形でデータ化することは本来ならば不可能である。その解決策
日本史史料情報の電子化における課題(永村)
五