1.はじめに─歴史を知ることと史料─
1・1 史 料 と は 歴史を知る,歴史を明らかにするための材料となる資 料を「史料」という.「歴史資料」と同じことだが,こ れを「史料」というのは歴史研究者に特有の言葉遣いな のかもしれない.今回,依頼をいただいた課題は「古文 書のディジタルアーカイブ」ということであった.歴史 を残す,歴史を伝える資料を「古文書」という言葉で代 表させた表現と考え,ここでは「古文書」を含めた「史料」 のディジタルアーカイブとして捉えた.歴史研究者とい う限定された立場から,史料のディジタルアーカイブに ついて述べてみたい. 史料には,文字で書かれた文字史料(文献史料という 言い方もある),絵で描かれた絵画史料,考古学の発掘 調査で出土した考古史料など,さまざまな種類がある. いずれも歴史研究にとって欠くことのできない価値を もっている.その中でも,得られる情報の豊富さ,多様さ, 情報への接近の容易さといった点で,文字史料がもつ意 味は大きい.文字史料にも,石や金属に刻み込まれたも のなど多様な形態があるが,多くは紙に書き付けられた 形態をとる.本稿で主に視野に入れているのも,紙に書 かれた文字史料である(図 1). 私の専門は奈良・平安時代史であるが,この時代の研 究に利用する史料には,『日本書紀』・『続日本紀』など の編年体の史書,『律令』や『延喜式』といった法律・ 法制史料,「正倉院文書」やユネスコ「世界の記憶」(旧称・ 世界記憶遺産)の「東寺百合文書」などのいわゆる古文 書,同じく「世界の記憶」である藤原道長の『御堂関白記』 など朝廷の貴族達の日々の日記(古記録),こういった ものがまずあげられる.それ以外にもさまざまな史料は あるのだが,文字史料というもののイメージをまずもっ ていただければと思う. 1・2 史料の公開・普及と歴史認識 文字史料を利用する方法はいろいろあるが,史料の原 本を実際に見るということは,多くの人にとって一般的 とはいえない.刊行された史料集を見る,史料原本を撮 影した写真やマイクロフィルムを閲覧する,といった形 が普通である.しかし,史料のディジタル化の進展によっ て,状況は大きく変わりつつある.ディジタル化された 史料の利用は,急速にそして広範に普及しつつあり,こ の趨勢がますます進んでいくことは疑いない. 史料を利用して歴史を知るという営為において,どこ にその発展のポイントがあるのか,次のように考えると わかりやすいかもしれない.文字史料から歴史を明らか にするとき,ある史料に目を通しているかいないかで, 歴史認識は異なってくる.歴史を正確に知るうえで,ど れだけの史料に目を通すことができるかは重要な要素な のである.例えば,藤原道長の日記を見ていれば,ある 日に道長が誰と面会したかを知ることができるが,見て いなければその知識は得られない.道長の日記に目を通 していれば,その分だけ歴史理解は深まるのである.で は,どうしたらその史料を見ることができるだろう. 時代を数百年さかのぼってみよう.まず,史料の原本 そのものを見るという方法がある.しかしこれは,よほ ど高貴な身分とか,道長の子孫の家柄ということでもな ければまず無理である.原本が見られないなら,どこか史料のディジタルアーカイブと歴史情報処理
Degital Archive of Historical Materials and Historical Information Processing
山口 英男
東京大学史料編纂所HideoYamaguchi Historiographical Institute, The University of Tokyo.
[email protected], http://www.hi.u-tokyo.ac.jp/
Keywords:
Japanese history, historiography, historical materials, digital archive, historical information database. 「人工知能と歴史」─歴史を残す─図 1 史料の例.尾張国郡司百姓等解 (東京大学史料編纂所所蔵 原本)
に「写し」(複製・写本)はないだろうか.コピーはも とより,写真撮影や印刷の技術もない時代であるから, 複製といっても手で書き写すしか方法はない.とすると, 複製があったとしても数は知れている.誰もが容易に見 られるものでないことは原本とさして変わらない.要す るに,歴史を明らかにするための史料に接すること自体 が,過去においては極めて難しかった. 印刷が普及するようになって,この状況に大きな変化 が生じた.日本では江戸時代にそうした変化が始まり, 明治時代に入ってからは西洋流の印刷技術も導入され た.重要な史料が史料集の形で刊行されることで,一挙 に多くの部数が世の中に出回り,多くの人が目を通すこ とができるようになった.史料の利用が,従来と比べら れない規模で社会に普及した.史料集を自分の手元に備 えることも夢ではないし,そうでなくとも,図書館・大 学といったところに行けば,史料に接することができる ようになった.時とともに史料集として刊行される史料 は着実に増加し,それだけ多くの歴史知識を得ることが 可能となり,歴史理解・歴史認識の進展がもたらされる こととなった. ただ,従来よりも手軽に利用できる史料の分量は格段 に増加するが,刊行がすべての史料に及ぶことはあり得 ない.テーマや分野によって,接しにくい史料はなお存 在する.また,活字となった史料集だけではなく,史料 の原本を見なくてはならない場合もある. そこで有効となってくるのが写真撮影である.西洋近 代に普及が始まり,時を追って技術は進歩した.今では マイクロフィルムや写真帳(焼付写真)として史料の複 製が図書館・資料館などに収蔵され,閲覧利用に供され ている.少部数の複製も可能であり,需要が見込めれば 写真図版集(影印本)として出版することも行われている. 1・3 歴史研究とディジタルアーカイブ 以上が,史料のディジタルデータでの提供が行われる 以前の状況である.現時点でもそれが大きく変わってし まったわけではない.歴史研究の立場から見てここで指 摘したいのは,史料のディジタルアーカイブは,史料の 公開と利用が拡大し普及するという,長い時をかけた大 きな流れの中に位置付けられるということである.今ま で知られていなかった史料,見ることのできなかった史 料,接することの難しかった史料が,公開され利用でき るようになることは,歴史認識の進展にそのまま直結す る意味をもつ.これが史料公開と歴史認識の関係である. だからこそ,現在もたらされつつある史料のディジタル アーカイブの普及は,歴史研究にとってかつてない重要 な意義を生み出すことが期待される. 本稿では,史料のディジタルアーカイブのこれまで の進展の状況を取り上げるとともに,史料を材料として 歴史認識・歴史研究を深めるうえで,どういった形のコ ンピュータ利用があり得るのか,人工知能との親近性と いった点にも触れてみたい.
2.史料のディジタルアーカイブ
2・1 史料編纂所とディジタルアーカイブ アーカイブとは「記録保存」であり,ディジタルアー カイブとは,ディジタルデータ(電子データ)の形での 「記録保存」ということになる.また,ディジタルデー タだからこそ可能なインターネットを介した公開・利用 とセットでイメージされるのが普通であろう. ただ,上述したような史料の公開と利用の拡大という 側面から見ると,史料のディジタルアーカイブとは,こ れまでアクセスできなかった,アクセスが難しかった史 料が,ディジタルデータとして複製され,利用に供され ることにほかならない.そうした観点から見たとき,そ れがどのように進んできたか,私にとっての身近な体験 から素描してみよう. 私が所属する東京大学史料編纂所は,自然科学系でい えば生産技術研究所・大気海洋研究所などと同じ大学附 置研究所として位置付けられている.明治維新期以前の 日本史,それを明らかにしていくための史料を中心に据 えて研究している研究機関である.機関の発足は明治時 代にさかのぼる.大学附置研究所に至るまでの由緒・変 遷はホームページなどを参照いただきたい.史料集の編 纂・刊行という形で 1901 年(明治 34)以来,研究成果 の公開を継続しており,刊行した史料集は優に 1 000 冊 を超えている.ここ 30 年ほどはデータベース(以下, DBと略記)の形でも成果を公開している [横山 10].史 料編纂所の歴史情報処理システム SHIPS(シップス)は, 国内外最大規模の日本史情報 DB 群となっている. 史料編纂所がコンピュータシステムの構築を開始した のは 1980 年代であり,当初は所内ネットワークでの運 用であった.インターネットによる外部公開を開始した のは 1997 年のことである.ディジタルアーカイブとい えば,画像データの公開が頭に浮かぶが,SHIPS の初 期の段階では,データ容量の制約から画像のディジタル 化によるアーカイブはまだ現実的ではなかった.そうし た事情から,SHIPS では,活字化されている史料集の フルテキスト DB の構築を早い段階から始めていたが, それらが史料ディジタルアーカイブに該当するといえな くもない.『平安遺文』と『大日本古記録』のフルテキ スト DB(1997 年公開開始)を皮切りに,現在では,『鎌 倉遺文』,『大日本古文書』,「奈良時代古文書」などのフ ルテキスト DB が公開されている.ただ,史料公開の拡 大という本稿が重視する視点からいうなら,これらは既 刊の史料集をテキストデータ化したものである.史料に 接する機会を容易化する面もあるが,むしろテキスト検 索などによる史料の効率的な研究利用を狙ったものとい える.この意味では,アーカイブ(記録保存)のためのディ ジタル化とは言いにくいかもしれない.においての利点がそろったことから,早期にディジタル アーカイブの実現がかなったともいえよう.また,所蔵 史料目録 DB が存在し,それを介してディジタル画像を 呼び出す方式をとることによって,データ管理や検索の ためのメタデータを生成・付与する作業を省くことがで きた. 2・3 史料編纂所所蔵史料のディジタルアーカイブ 史料編纂所では,影写本以外にも全国を採訪して収集 した史料の複製本(写本)を多数所蔵しており,またさ まざまな機会に購入したり寄贈を受けたりした原本史料 もかなりの点数にのぼる.その中には島津家文書をはじ めとした国宝・重要文化財も含んでいる.こうした編纂 所所蔵の原史料についても,影写本に引き続きディジタ ルアーカイブ化を進めている.データの生成には,既撮 影の写真フィルムのスキャニングと,ディジタルカメラ による撮影の双方の方法がある.多くは影写本と同じく 所蔵史料目録DBを介する閲覧(公開)方式となっている. 2・4 採訪史料のディジタルアーカイブ アーカイブ(記録保存)は,その記録そのもの(原本) の保存を図ることが原則である.そして,災害・経年な どによる原本の滅失に備え,また原本保護と閲覧利用の 両立を図るために,複製(複本)の作製が必要となる. 文字で書かれた記録について言うと,特殊な対象に限っ て高度な方法で複製を作製するということもあるが,膨 大な点数を対象とするのであれば,ディジタル撮影によ るディジタル化以外に,現時点で複製作製の方法は存在 しないといってよい.つい 5 ∼ 10 年前までは,大量撮 影を目的としたマイクロフィルムによる複製が一般的で あった.ところが,ディジタルカメラの普及によって状 況が一変した.史料編纂所も含め,紙媒体の資料の収集・ 閲覧・公開の役割を果たしていた組織は,この状況への 対応を余儀なくされた. 史料編纂所は,組織が発足した明治時代以来,全国 各地に出向いて史料を採訪するという事業を継続してき た.古くは,筆と墨で紙に書き写して複製を作製し(影 写本などの写本),ついで写真技術の進歩に応じて写真 撮影による複製を導入した.つい数年前まで,採訪史料 はマイクロフィルムに撮影してきて,マイクロフィルム リーダで閲覧するか,印画紙に焼き付けて冊子に製本し, 写真帳として利用した.マイクロフィルムであれば数百 コマをフィルム交換なしで撮影できた.ところが,ディ ジタル化の進展によって,マイクロフィルム専用のカメ ラは生産停止となり,マイクロフィルムの生産もほとん どなくなり,製本に適した印画紙も供給されなくなった. マイクロフィルムリーダも製品がほとんどなくなってい く.従来のやり方を維持することは不可能となり,史料 採訪の際の複製作製はディジタル撮影に切り換える以外 に方法はなくなった. 2・2 影写本のディジタルアーカイブ 史料編纂所が実施した史料の画像データ化では,史料 編纂所が所蔵する影写本のディジタルアーカイブが早い 段階から行われた大規模な作業であったといえる.影写 本とは,古文書などの史料原本を,筆跡もそっくりその まま,筆の勢いや墨の濃淡・かすれまでを再現して書き 写した複製本(写本)である.史料編纂所は,全国各地 の史料を明治時代以来収集(「蒐集」とも表記)してき たが,史料の中で特に貴重と思われるものについて,影 写本の形で複製を作製し,所蔵している.影写本は,原 本史料に準ずる価値をもつ対象として扱われるため,閲 覧される機会も多い.しかし,影写本は非常に薄い和紙 を用いて作製されるもので,傷みやすく,保存には留意 が必要である.作製されてから 50 年,100 年といった ものも多く,影写本自体が史料原本と同様の取扱いが必 要な文化財でもある(図 2). こうしたことから,史料編纂所では,影写本を撮影し たマイクロフィルムをもとに,和紙に印刷した複本を通 常の閲覧に供するようになっていた.このマイクロフィ ルムを利用して,影写本のディジタルアーカイブを作製 することとなったのである.冊数で約 7 000 冊,画像の 点数で約 54 万点に及んでいる.閲覧(公開)の方式は, 図書館などでの本の出納・閲覧と原理的には変わらない. 目録や図書カードなどをもとに書籍を探し出し,職員に 出納してもらって閲覧するという方法のディジタル版と いえばよいだろうか.所蔵史料目録 DB が目録・図書カー ドの電子版に相当する.史料編纂所が架蔵(所蔵)して いる史料・図書の DB で,SHIPS の当初から構築を始 めていた.これで閲覧したい影写本を探し出し,その書 誌情報ページからディジタル画像を呼び出せる.この方 式により SHIPS での影写本画像の公開を開始したのは, 1997年のことであった. 影写本は,規格がある程度そろっているので撮影がし やすく,またモノクロ画像でもそれなりに役に立ち,二 値化することでデータ容量も抑えられるといった,当時 図 2 影写本の例. 『春日社旧記紙背文書』 (東京大学史料編纂所所蔵)
これは同時に,ディジタルデータとして採訪した画像 データの公開(閲覧)方法を新規に構築しなくてはなら ないことを意味する.従来であれば,製本した写真帳, あるいはマイクロフィルムのリールを 1 点の図書として 扱って書架に配置するというように,現実の存在として の書庫が管理の対象であった.しかし,ディジタルアー カイブでは,現実の書庫(リアル書庫)に代わるバーチャ ルな書庫を立ち上げ,管理することになる.バーチャル 書庫の収蔵体系を確立させ,その目録・図書カードに 相当する DB システムが必要となるのである.この転換 は,史料編纂所では 10 年ほど前から開始し,現在も進 行中である.リアル書庫の収蔵体系に基づく所蔵史料目 録(HiCat ハイキャット)に対して,バーチャル書庫の ために HiCat Plus システムを開発し,運用・管理(収蔵・ 登録・公開・閲覧など)を行っている.ただ,現時点では, HiCat Plusの外部公開は実現に至っていない. このようにして,ディジタルデータによる史料採訪 への転換を実施したが,そこで合わせて浮かび上がって くるのは,これまでの史料採訪で蓄積した写真フィルム の扱いである.上述したように,採訪史料のうち筆と墨 で紙に書き写した複製(影写本などの写本)は,原史料 として扱ってディジタルアーカイブの対象に含まれてい る.ところが,マイクロフィルムやその焼付写真は,そ の対象になっていない.フィルムベースの採訪データを, 今後蓄積される新規の採訪データと同様の使い勝手に転 換させておけば,大きな利点となる.もう一つ,マイ クロフィルムの世界では,長期保存しているフィルムの 経年による劣化が従来から対応の難しい問題となってい た.こうしたポイントを総合的に判断して,史料編纂所 ではこれまでに蓄積した採訪マイクロフィルムのスキャ ニングによるディジタル化に踏み切ることとした.作業 は進行中で,運用システムには HiCat Plus を用いている. 2・5 史料集のディジタルアーカイブ 史料編纂所が行っているもう一つのディジタルアーカ イブにも触れておきたい.それは,これまで刊行してき た史料集の版面画像(ページごとのスキャニング画像) のディジタルアーカイブである. 編年体の史料集である『大日本史料』(図 3),古文書 史料集である『大日本古文書』,公家の日記などの史料 集である『大日本古記録』,現在刊行中の江戸時代・幕 末維新期の史料集は,大日本史料総合 DB,古文書フル テキスト DB・奈良時代古文書フルテキスト DB,古記 録フルテキスト DB,近世史編纂支援 DB から,該当す る史料集のページの版面を呼び出すことができる.史料 集はすでに大量に世の中に出回っているのであるから, アーカイブ(記録保存)という表現には当たらないかも しれないが,ディジタル化した利用環境の提供という意 味がある.刊行物の販売面への影響などへの配慮も必要 である. 2・6 ディジタルアーカイブをめぐる成果と課題 以上,史料編纂所のディジタルアーカイブの状況につ いて,現在に至る経緯を追う形で述べてみた.史料の主 体となる古文書・古典籍類のディジタルアーカイブは, ほかにも多数の機関で行われており,国立国会図書館, 人間文化研究機構国文学研究資料館などでは極めて大規 模に実施されている.史料の所蔵機関・組織が,自己の 保有する史料を対象として,あるいはそれ以外の史料も 含めて,種々の規模でディジタルアーカイブの構築を進 めている. 例をあげると,国立公文書館が運営するアジア歴史資 料センターは,明治時代以降の国の機関の公文書その他 の記録で,日本と近隣アジア諸国との関係に関する内容 のものを対象としたディジタルアーカイブを提供してい る.国立公文書館・外務省外交史料館・防衛省防衛研究 所が所蔵する公文書を中心に,2001 年の開設から年々 データを追加して,直近の数字では公文書 190 万件,画 像数 2 810 万点に及ぶといい(2014 年 4 月時点,同セ ンター HP),日本の近現代史研究に貢献する存在となっ ている. 京都府が運営する東寺百合文書 Web は,ユネスコの 「世界の記憶」に登録された「東寺百合文書」約 25 000 通全点のディジタルアーカイブである.「東寺百合文書」 は,平安時代の初めに創建された京都の東寺に伝来した 古文書で,現在は京都府(府立総合資料館)が所有して いる.東寺のように,時代を通じて権威を保ち,政治権 力と関係をもっていた権門寺院に伝来した古文書は,日 本史研究の基礎史料群である.その原本全点のディジタ ルアーカイブが完成し,高精度な画像と,制約のない利 用環境が提供されたことは,学界にとって大きなインパ クトとなった. 史料のディジタルアーカイブでは,リアル書庫に対し て,バーチャル書庫の収蔵体系の構築が必要となる.リ アル書庫に収蔵されているものを,ディジタルデータ として複製し,バーチャル書庫に収めるのであれば,リ アル書庫の収蔵体系をそのまま用いることができる.国 図 3 版面画像の例. 『大日本史料』第一編之一
会図書館,アジア歴史資料センター,東寺百合文書など は,かなりの部分がこれに該当するであろう.既収蔵史 料であれば,1 点 1 点の書名・史料名,管理(登録)番 号,書誌事項などのデータもすでに確定しており,それ をディジタルアーカイブのメタデータ(管理用データ) として利用できる. 一方,リアル書庫に収蔵されていない史料,すなわち, ディジタルデータ化されることで初めてアーカイブされ る史料の場合は,バーチャル書庫の収蔵体系を新たに構 築しなくてはならない.史料編纂所のディジタル採訪史 料などはこれに該当する.他機関所蔵の古典籍類のデー タを取り扱う国文学研究資料館などでも,同様の状況が あると思われる. いずれにしても,ディジタルアーカイブを構築し,コ ンテンツを順次拡大していくためには,リアル書庫の場 合の図書登録と同様の業務が発生する.メタデータが付 与されて初めて閲覧利用が可能となるのであるが,その 進行には,人的資源の充足を始め,課題が山積している. メタデータの充実が,データの利用価値と利便性を高 めることは疑いない.可能であれば,詳細なメタデータ を数多くもたせ,広領域な分野における利用に備えるこ とが望ましい.しかし,メタデータの付与に多くの労力 をかければ,コンテンツ拡張のハードルになるというジ レンマもある.この点では,それぞれのアーカイブがど ういった方向性の利用を想定しているのか,優先度を明 確にしておくことが一定の意味をもつであろう.歴史系, 文学系,思想系など,テーマによってメタデータの性格 に偏差が生じることは当然であり,そこに個々のアーカ イブの特性の反映があろう. ディジタルアーカイブといえば,インターネットを介 した公開・利用が当たり前の形としてイメージされる. しかし,史料の場合,そうした公開が所蔵者の権利との 調整を要することへの配慮が必要な場合がある.そのた め史料編纂所では,所内閲覧室でのディジタル閲覧とい う方法も選択肢としている.評判はあまり良くないが, 幾度も述べるように,これまで知られていなかった史料, 見ることが難しかった史料に,ともかくも接することが 可能となれば,それは歴史理解・歴史認識の進展に結び 付く.限定的な公開であっても大きな流れの中での意味 があり,将来的に望ましい方向で問題は解消されるもの と確信する.
3.歴 史 情 報 処 理
3・1 歴史研究のための情報処理 歴史研究の立場に引き付けつつディジタルアーカイ ブについて述べてきたが,歴史研究へのコンピュータ利 用として見ると,もう一つ重要な領域がある.歴史情報 処理といえばよいだろうか.広い言い方をすれば,コン ピュータを利用して歴史研究の進展を図ろうとする種々 の営みである.具体的には,歴史研究のための基礎作業 の効率化といったところが対象となってくる.公開機関 ではなく研究機関としての課題である.「人工知能と歴 史」という点では,ディジタルアーカイブ以上に親近性 があるかもしれない. ディジタルアーカイブによって史料へのアクセスが改 善され,歴史認識の深化につながる.史料公開の意義は こう位置付けられる.しかし,そこに至る手順は実はそ れほど容易ではないのである.ある史料から,今まで知 られていなかった新しい歴史的事実が判明するとしよう. しかし,その史料を見た途端にそうとわかるわけではな い.最初の段階では,何がわかるかわからないというこ とが多いと思う.史料を目にした時点から始まる地道な 基礎作業の積み重ねが,新発見への道を開くのである. 史料から歴史情報を引き出すためには,内容を理解す る必要がある.そのためにはまず文字を読み取らなくて はならない.ご承知のとおり,筆で書かれたくずし字は 読み取りにくい.そもそも手で書かれたままの字は,癖 が強く読みにくい場合が多い.そこで,まず文字起こし (翻刻)をする必要がある.文字起こしをするときには, 意味がとりやすいように句読点を施したり,漢文の場合 は読み下しのための返り点を付したりする.くずし字や 手書きの文字を読んでいくと,似たような形でこの字に も,あの字にも読めるという場合がある.どの文字で読 み取るのがよいかは,内容理解の進行とフィードバック させなくてはならない.後からの見直しで理解が変わる ことも多い. 書かれている内容を理解するうえでは,前提となる基 礎知識も必要である.理想をいえば,文章の書き手や読 み手と同じ知識をもっていればよいのだが,そうもいか ないのはやむを得ない.それでも,できるだけ関連情報 は押さえておきたい.例えば,文章に記述されている人 物が誰なのかわからない.何人か関係者が登場するのに, その間柄がわからない.それでは文意を理解することは 困難である.そもそも人名が本名で書かれることはあま りなく,官職名であったり,通称・別称が使われたりと いうことが多い.誰を指すのか調べる必要がある.地名 なども同様で,それがどこなのか,通称・別称なども含 めて調べていく.関係する種々の知識が,史料の内容を 正確に理解する助けとなる. こうした作業を積み重ねて,史料に書かれている内容 が段々と明らかになる.例えば,ある事件に関する内容 だとわかってくる.この史料から,その事件について何 か新しい事実がつかめるだろうか.それを確かめるため には,その事件についてこれまでにわかっていることの 洗い出しが必要になる.他の史料にはどう書かれていて, 何がわかっているのか点検する.調べが進んで,その事 件のことがほかの史料には全く書かれていないとわかっ てきたとしてみよう.新事実の発見だろうか.いや,ほ かに関係史料が全くないとなると,その史料がどこまで信用できるのか,信頼度を厳密に検証しておかなくては ならない.その事件が既知の事実と矛盾しないかといっ た点も確認すべきであろう.そうした手順を踏んで,新 たな歴史的事実の発見と確定するのである. つまり,史料を読み解いて,歴史理解・歴史認識を深 める役に立つようにするまでには,それなりの手間と時 間が必要なのである.こうした作業にこそ,コンピュー タを導入していくことが期待される.どういったやり方 が可能なのか,柔軟な頭で工夫していく余地がまだまだ あると思われる.史料編纂所の試みや私の経験から述べ てみよう. 3・2 SHIPS データベースの歴史情報処理 SHIPSでは,電子くずし字字典 DB が,史料の文字 起こしの役に立つ.文字ごとにくずし字の事例を検索す ることができる.また,同 DB は,国立文化財機構奈良 文化財研究所の木簡字典 DB との連携検索が可能となっ ている.奈良文化財研究所のシステムには,利用者がく ずし字の画像を Web ページに貼り付けると,それに似 た形の文字を検索する機能が付いており,くずし字の読 取りを実際に助けてくれる(図 4). 翻刻支援システムの開発ということも実験的に進めら れている.これは,史料のディジタル画像に,文字起こ しの結果をテキストで入力して表示できるようにしたも ので,画像を見ながら史料を読み取っていく作業を効率 化する狙いである. 歴史的事実に関する史料の記述を拾い出すためには, 史料編纂所が編纂・刊行している『大日本史料』が役に 立つ.『大日本史料』は,1901(明治 34)年以来刊行し ている編年史料集で,未刊の部分はあるが,887(仁和 3)年から 1651(慶安 4)年までを対象とし,これまで に約 400 冊を公刊している.歴史的事実を年月日順に配 列し,それについての記述をさまざまな史料の中から拾 い出し,その記事を事件ごとに振り分けて掲載している 史料集である.日本史を彩る種々の歴史事象を知るうえ で,その基盤となる情報を提供する史料集といえる.『大 日本史料』をより効率的に利用するために開発したのが SHIPSの大日本史料総合 DB で,さまざまな形の検索機 能をもっている.人名・官職名索引を用いると,ある官 職名で呼ばれる人物が誰なのか,膨大な数の事例から探 し出すことができる.自分の調べている史料に記述され ている時期と照合して,人物を同定するのに有効である. 3・3 正倉院文書マルチ支援データベース SHOMUS 史料読解のための基礎作業を行うとき,ある情報にア クセスするための手間と時間を何とか圧縮できないか, 研究者の切実な願いだと思う.ネットや DB システムを 呼び出す手間や時間ということではない.索引や辞書や 史料集など,さまざまな情報源を本棚まで足を運んで見 つけ出し,手に取り,ページを開き,必要な情報を見つ け出し,その内容をメモする.こうした作業を無数に繰 り返す文字どおりの労力である.作業時間のかなりの割 合が費やされる.この手のことは分野を超えて存在する だろう. こうした作業の効率化のために,つい昨年 SHIPS 上 に開発・公開したのが正倉院文書マルチ支援(多元的解 析支援)システム SHOMUS(ショームズ)である.正 倉院文書は,東大寺の写経所という一つの官司組織で利 用・保管されたのちに廃棄された奈良時代の大規模書類 群で,奈良の正倉院宝庫に残されていたのが,江戸時代 に発見された.奈良時代研究の基礎史料である.現代で もそうだが,お役所の廃棄書類がそのままの形で外部に 流出したら,どんな情報が漏洩してしまうか,影響は計 り知れない.正倉院文書はまさにそれで,歴史研究にとっ てはもちろん,学術・文化全般に関する宝の山といって よい史料群である [山口 14]. ただ,正倉院文書の解析には手ごわいハードルがある. それは,もともとは 1 点 1 点まとまっていたはずの書類 が,その多くが現状ではバラバラの状態になってしまっ ていることである.バラバラになった 1 点 1 点を断簡と いうが,研究に利用するためには,断簡化した状態をも との形に復元しないと手が出せないことが多い.断簡復 元のためには,書かれている内容はもちろん,断簡の姿 かたち,わずかな墨痕やシミなど,手に入るありとあら ゆる情報を総動員して検討する. 史料編纂所は,正倉院文書の原本調査を 120 年近く継 続して実施しており,現在は断簡一つ一つの復元解析の ための作業を積み重ねている.SHOMUS の狙いの一つ は,そうした復元作業を効率化する点にある.そのため SHOMUSでは,断簡解析の作業で参照が必要となる情 報を,断簡単位に繋留し,必要に応じてそれらを直ちに 呼び出す機能をもたせることとした.この結果,断簡解 析に要する労力は飛躍的に軽減された. 従来であれば,ある断簡を検討する場合,次のような 作業が必要であった.正倉院文書のほぼ全点を翻刻して 図 4 SHIPS データベース選択画面
いる史料集『大日本古文書』(全 25 冊)のなかの収録箇 所を見つけだす.正倉院文書の原本(全 667 巻 5 冊)で はどこに所在するかを調べ,その断簡を撮影した画像を 写真帳(全 227 冊)から見つけだす.原本の調査所見を 掲載している『正倉院文書目録』の収録箇所を見つけだ す.その断簡を扱っている先行研究がないかを探しだし, その論文を見つけだす.そしてそれぞれの本について, 本棚まで行き,本を取り出し,ページを広げ,目を通し, 必要な場合はコピーをする.その他の情報も必要に応じ てそろえ,全体を検討する.一つの断簡でこの作業を行 うと,大方の場合,関連しそうな別の断簡がいくつかあ ることがわかってくる.そうすると,今度はそれらの断 簡について上記の作業を繰り返すのである. SHOMUSによって,ある断簡の基本ページを呼び出 せば,上記の情報を 1 ∼数回のクリックで表示できるよ うになった.断簡 1 点の情報をそろえるのに要する時間 を考えただけでも,効果は明らかであろう. ただ,情報処理というには余りに初歩的なレベルとい えなくもない.断簡を確定し ID を割り振る作業に人の 判断が介在せざるを得ないなど,省力化の効かない要素 が存在し,そこに歴史情報処理の難しさがあるのかもし れない.しかし,誰かが一度かけた手間と時間を,次の 者は省けるようにしていけば,今後の研究の省力化・効 率化に結び付く.歴史情報処理における一つの有効な方 法論だと考えている.そして,史料編纂所の研究事業の 蓄積そのものが,ある意味で,もともとそうした性格か ら成り立っていることにも気付かされるのである.