計 算 機 で 写 本 版 本 を 読 む
− 写 本 版 本 を 計 算 機 で 扱 う た め の マ ル チ メ デ ィ ア デ ー タ モ デ ル ー
北 村 啓 子
要 旨 計 算 機 上 で 写 本 版 本 を 読 む こ と に 主 眼 を 置 き , 国 文 学 の 研 究 活 動 を 計 算 機 に よ っ て 支 援 す る 研 究 を 行 な っ て い る 。 写 本 版 本 の イ メ ー ジ デ ー タ と そ れ を 翻 刻 し た テ キ ス トデータとの間で,文書中の同じ所を示す対応関係を計算機で利用することを考えてい る。この対応関係を利用することにより,両者を連動しながら調査/分析したり,双方 向に参照することや,テキストデータを計算機処理する時のインタフェースとしてイメ ージデータを使うことが可能になる。後者の例として,あたかもイメージデータ上で文 字列を検索しているような手書き文字検索を試作したので紹介する。また,イメージデ ータを扱うために開発した文字の認定に充分な品質で写本版本を表示するビューアとテ キストデータを縦書きするために開発したティータームの紹介を行なう。
1 . は じ め に
タイトルの「計算機で写本版本を読む」というのは,「計算機が写本版本の 手書き文字を認識する」のではなく,翻刻,考証,解釈を行うために「計算機 上で研究者が写本版本を読む」ことを意味する。もちろん,読むことを単独で 支援しても紙めくりの使い勝手など紙焼きにはかなわない。しかし,検索など 計算機の得意な機能をより効果的に使った研究活動全体を統合した環境が実現 すると,基本的な機能として計算機上でも「読める」ことが大変重要となる。
ま た , テ キ ス ト を 計 算 機 処 理 す る 時 の イ ン タ フ ェ ー ス と し て 写 本 版 本 を 見 る
(読む)ことも意味しており,国文学者にとって格段に親近感のある計算機と なるであろう。このように計算機で支援する様々な研究活動を代表して「読む」
を使ったのであって,研究活動全体を意味している。
最近イメージデータの入出力が容易に行なえるようになり,写本版本の写真 を保存するために計算機に入力することが実際に行なわれている。一方,文字 情報を使った計算機処理をするためには,イメージデータとは別に,文字コー ドになったテキストデータが必要であり,研究者が翻刻した活字を電子化して これを作成している。このテキストデータを処理するのに,横書きを強要され,
使 え る 日 本 語 コ ー ド や 文 字 フ ォ ン ト な ど の 制 約 を 受 け な が ら 計 算 機 を 利 用 し て いる。これまでこれらの制約を緩めて,より国文学に近い計算機の構築を││指 し,縦書き環境の整備などの研究を行ってきた[1][2]。これまでの研究を通し て生じて来た,「写本版本を扱うのに写本版本を直接見ながら計算機処理をす るのが当然である」という発想から本研究を始めた。
II標は,計算機で次のことを可能にし,翻刻,考証,解釈を行うのに利用に 耐える計算機環境を構築することである。
(1)文字認定に充分な品質でイメージデータをモニターに表示する
(2)縦書き文化を持ち込み,縦に入出力を行う編集や古文を解する日本語入 力を行う
(3)イメージデータとテキストデータを連動しながら調査/分析したり,双 方 向 に 参 照 す る
(4)イメージデータ上で,テキストデータの持つ文字情報,構文情報を利用 す る
2 . 国 文 学 研 究 へ の 計 算 機 の か か わ り
写本版本を対象とした研究活動の現状を,計算機とのかかわりという見地か ら分析したのが図lである。研究活動と扱う対象の表現形態によって,次の三 つの世界に分類できるであろう。
(1)イメージデータの世界
写本版本の原本またはその写真である。計算機で扱うためには,字形情報を そのまま表現できるイメージデータで表現することになる。最近,画像ライブ ラリとして入力されており,主な目的は保存である。デジタルデータ化するこ とによりデータの劣化を防ぐ・ことができる。また,イメージデータをプリント することにより比較的容易に紙焼き写真を入手できるというメリットがあり,
配布目的にも利用できる。
− 4 −
(l)イメージデータの世界(2)活字の世界(3)テキストデータの世界
り 先
分 析
計算パワー利用
蕊カ ー ド 整 理筆者翻刻より
索 引 作 成 統 計 的 処 理 偶 発 的 発 見
制・モニター
・横書き/表示
約・文字フォント
・JISコード内
図 1 国 文 学 研 究 へ の 計 算 機 の か か わ り
(2)活字の世界
研究成果を第三者に伝達することを目的に,翻刻したものや作成した索引,
論文を活字化する(出版による研究成果の公開)。現在,計算機は殆ど介在し ていないようである。(厳密には,翻刻者の直接関与しない所でCTS出版な ど計算機と関わりはある。)最近では,出版社へワープロ原稿や計算機処理し た索引データを入稿する例が増えつつあるようである。
(3)テキストデータの世界
従来研究者自身がマンペワーで行ってきたカード整理,索引作成,統計的処 理などの分析作業を計算機パワーを利用して行うために新しくできた世界であ る。モニターを見なければならない,横書きを強要される,使える文字コード が制約される,使える文字フォント(字形)が制約される等々の困難にもかか わらず利用する研究者が増加している。機械的な作業については,強力な威力 を発揮する計算機/ミワーが評価されているからであろう。
3.国文学研究に計算機を利用するために
現在の計算機技術は,主に理工系,ビジネス分野などでの利用を目的に構築 されてきた計算機科学の上に成り立っている。徐々に日本語を扱える環境,文 字列処理を始めとするテキスト処理の技術も研究されてきているが,写本版本 は未だその範晴には入っていないと言ってよかろう。現存する技術を応用して みて,可能不可能を明らかにするのも意義あることではあるが,写本版本を扱 うための新しい計算機科学の基礎作りこそが急務であると考える。この考え方 は,国文学側から新井教授の提唱された「文芸工学」の必要性[3]に通ずるも のがあるかもしれない。
− 6 −
写本版本を計算機で扱うための計算機科学の一つの基礎となるであろうマル チメディアのデータモデルが本研究の重要テーマである。字形情報を表現して いるイメージデータと文字情報を表現しているテキストデータには,表現形態 は違っても同じ文書が書かれている。それにもかかわらず,それぞれが無関係 なデータとして入力されているので,文書中の同じ所(対応関係)を同定する ことすらできない。この対応関係を表現できるモデルを構築し,両者の情報を 計算機上で補完しあって扱えるようにすることが同的である。
ここで提案するマルチメディアデータモデルの概略は,図2に示すようにマ ルチレイヤーのデータ構造をしている。ここで重要な点は,それぞれのレイヤ ー間で文書中の同じ所を同定することができることである。つまり,図に矢印 で示した通りすべてのレイヤーの同じ箇所を串刺しして見ることができるとい うことである。これによって,イメージデータとテキストデータを連動しなが ら読み/分析したり,双方向に参照することが可能となる。また,イメージデ ータ上で,テキストデータの持つ文字情報,構文情報を利用することもできる。
これは言い換えると,両者の同じ所を見ながら,お互いに参照しあって有機的 に利用することもできるし,あくまでもイメージデータを見ながら,必要な文 字情報はイメージデータを通してテキストデータから得るという使い方もある
ということである。
ここで,テキストデータが複数のレイヤーになっている点に触れておく。新 井教授が日頃提唱されている「国文学を扱うには,目的によって数種類のテキ ストを用意する必要がある」という考え方[4]を支持し,ここで提案している マルチメディアデータモデルでもテキストデータをマルチレイヤー化している。
翻刻された活字の多くは漢字仮名混じり文であり,その他仮名だけの仮名文,
l m l
駁
異本 鐘〃 駁 、 者 図2マルチレイヤー構造のコンセプト
LIppp 古文黄レール
漢字だけの漢文/万葉仮名文などである。この文字情報をそのまま電子化(テ キストデータ化)しても認識できるのは日本語文字コードだけである。現在の 計算機は,表記のヨミ,新字旧字の対応,異体字,同義語も知らない。古文の 語彙,古文文法,語彙の意味などももちろん知らない。語彙分析をするために は,これらの情報を教えなければならない。これらの情報には,辞書データと して計算機に実装した方がよいものと,作品ごとに翻刻されたテキストデータ と同様にテキストデータとして準備した方がよいものとがあると考えている。
例えば,漢文であれば翻刻した漢文以外に,それを書き下したテキスト,ヨミ のテキスト,分かち書きしたテキスト,.・・等々を目的の処理によって準備す る方がよいであろう。もちろん,古語辞書を始めヨミ付け辞書などが整備され れば,月的に応じたテキストデータを計算機で作成するのに有効である。
この複数のテキストデータは,高度な語彙分析を実現するII的でマルチレイ ヤーのデータ構造の中で提案したものだが,2章で言う(3)テキストデータ の世界に閉じた話しである[5]・本稿では,イメージデータとテキストデータ とを連動して扱うことが第一の目的であるので,イメージデータとテキストデ ータ間の対応((l)+(2),(1)+(3)の組合せで利用する情報)に限 定して述べる。
4.何ができるのか?
では一体計算機で何ができるのであろうか?2章で分析した研究活動に基づ いて議論する。使用するデータの表現形態によって分類すると,図3に示すよ うに読むためのイメージデータの世界と文書作成や分析のためのテキストデー タの世界になる。(1)イメージデータの世界では,モニター画面で写本版本
イメージデータの世界I0 テキストデータの世界
文 言作成シGノ
む :
二一F÷:: 分 析
(1)言冗 000 (フ)
仏心倒鱈ゞい陛疋﹂圭
U生のぶしめユ
リ菌へお
−1ノ⑰のためI
ろてめ︑﹁鄙ばゆ主
の寿争︶nフあめの
り 外
5 館 所 蔵 初 古 書 よ り − 筆 者 翻 刻 よ り
翻 刻
Iハイパテキト古語辞書
読む
考 証 I 的 文 書 作 成 文 法 ル ー ル
解 釈 i縦文化の実現シソーラス
発 見 eiC.の様築
| |
(1)+(2)原本を見ながら翻刻本作り
(1)+(3)原本を見ながら語い分析
図 3 何 が で き る の か ?
− 1 0 −
を読むこと,(2)テキストデータの世界ではワープロ感覚で翻刻本を作るこ と,(1)+(2)の世界では原本を見ながら翻刻本を作ること,(1)+(3) の 世 界 で は 原 本 を 見 な が ら 語 彙 分 析 を 行 な う こ と に つ い て 述 べ る 。
(1)モニター画面で写本版本を読む
/ミソコンやワークステーションで手軽に利用できるスキャナで入力したイメ ージデータでも,筆文字のかすれ,朱書きも読める程度の精度でモニター画面 に表示する。
(2)ワープロ感覚で翻刻本を作る
図lを見れば明らかなように,縦書きの原本に対して,テキストになった途 端横書きになるのは不合理である。翻刻本も縦に書くのは当然であり,縦書き 文化を計算機に持ち込むべきである。また,翻刻本で重要な注釈は,ハイパテ キストの考え方に基づいて,関連情報として書き込みや参照を支援することも 計算機の得意とするところである(図4)。
一脚かしたいが#もととら町い︑肌し
咽い︑ひとり別の脳︑勉邸にfかせて・
二帆日︑硯を鯛にLて︒
三つぼつなと・七に″かんで雌胴凡てゆ
げも肱い&とを●園廟岬も雌く・庇ふしF晒岨ど︒いろいろ岻唾いがわ
て︑た澱ごとで雌いふう勉邨間を宛える
応 用 イ メ ー ジ 図 4 ハ イ パ ー テ キ ス ト の
→︐hは方︑のけ今〜円Y・fvI子
のhAノハtゑ識i従人z久代?丘1
92つ〃︒60.0●﹃#4
ツ峨叩伽ノユナト氏
4︐︐み〃﹂ハヂィ
ぞトー匂イノ$﹄ つれ寸触る直︑に︑間魯らし︑■にむかりて4にうつりゆくよし虹し事を︑そこばかと雌くちつくれば︒あやしうこそらのぐる腿しけれ●
図 一晩禰究●日⁝■田︵厚戸ワ0門凡踊︒T的八午︑nlb︒1分℃︒●1L9恥の岫向のどり■E■い§一■■﹄一頃応﹄百口蜀了百自切1らあ.中t入り両︒■鹿一同ⅦⅢ元10?上申甚巴暮定4RHこ尽一匙雀・几■g︸■間目らH1脇の小鹿聡白瓜百四腿又■ず健即06﹄弓別人・文︽■父のmLf1q−U旧約罠■図面&村?■のり心脚bq刑哩鳳髄4己方陥凸噌冊r■明ゆIaE今Ra函Ⅳ叩鼎中心EU勺又則■しぬ又?何肌の0父咀︒胴■・呵■・■
また,日本語入力で古文を対象にすることも重要な点である。一般の日本語 変換用の辞書では,殆んどの古語は入っていない(例えば,「おもふ」→「主 婦」「尾も負」などに変換される)。現在古語辞書の電子化にも取り組んでおり,
古語変換用の辞書にして特定の日本語変換機能に組み込むことを計画している。
現状では,日本語入力機能が提供しているユーザ辞書に個人で登録しているよ うであるが,数量的な制限や古文/現代文での活用形など文法の差などの問題 がある。
(1)+(2)原本を見ながら翻刻本作り
国文学研究では,何種類もの異本の紙焼きを並べて注釈の書き込みをしなが ら翻刻本を作成をすると聞いている。紙焼きの代用に足るだけの精度で計算機 上でイメージを読めれば,何種類もの異本に注釈を書き込み,翻刻原稿作成時 にそれを参照(流用)するのは,まさにハイパテキストの本来的な使い方であ る「文書作成」の支援である。
ここでは(1)で述べたモニター上でも充分読める表示手段と(2)で述べ た縦文化を持ち込んだテキストデータ編集機能を利用して,翻刻本作りを支援 する。/、イ/ミテキスト的に文書の構造に沿った(語彙→注釈)ビュー(見方)
や書式に従って本としてのビューなど,目的に合わせた見方ができる。
(1)十(3)原本を見ながら語彙分析
イメージデータを直接見ながら語彙分析を行う。利用者はあくまでもイメー ジデータを見,文字情報を使った語彙分析は(イメージデータと対応のとれた)
テキストデータを裏で使うという方法である。つまり,イメージデータ上でテ キストデータの持つ文字情報,構文情報を利用する訳である。語彙分析の技術 が高くなれば(それをそのまま使えるので),それだけ高度な処理を行える。現
‑ 1 2 ‑
在のテキスト処理技術で可能なものとして,手書き文字列検索(完全一致/部 分一致,あいまい検索),手書きKWIC(特定のキーワード(文字列)の前 後を抜き出して出現する全ての箇所のそれを並べてリストにしたもの),手書 き文字の用例集,手書き文字の索引(実用的な電子古語辞書を作成するかまた はデータを分かち書く必要がある)などが挙げられる。どれもテキストを使っ て処理した結果をイメージ上で見たり,それを保存/印刷して研究ノートを作 ったりできる。
このように,研究者は計算機のインタフェースとして,テキストデータを強 要されることなく,イメージデータ化した写本版本を直接見,処理の指示をし,
その結果をイメージデータ上で見ることができる。
5.手書き文字列検索の試作
ここではまず,(1)(2)それぞれを支援するために開発したツールを紹介 する。次に,これらを利用して,(1)+(3)の例として開発した手書き文 字列検索を紹介する。
ユ ニ ッ ク ス
これらのツール,システムはUNIXワークステーション上で,UNIX上のウ
エックスウィント,『ツ
ィンドウシステムの標準であるXWindowの環境で開発を行った。XWidow があれば利用可能である。計算機としては,UNⅨワークステーション,X=
用端末,最近ではパソコンでも利用できる。(XWindowをご存知でない方は,
マ ッ キ ン ト ッ シ ュ ェ ム ェ ス ウ ィ ン ト ′ ウ ズ
MacintoshのマルチファインダーやMS‑WINDOWSを,または画面卜に沢山 のウィンドウがあって,同時に沢山の仕事ができる様子をイメージして欲しい。)
(1)ビュ‑7(viewer)
手軽に利用できるスキャナで入力した写本版本(またはその紙焼き写真)を 原本の字形情報を正確に再現できるよう表示するツール。白黒2色だが4階調 を付けているので,筆文字のかすれや朱書きもグレー色で識別できる。拡大/
縮小をして,さらに詳細に/全体的に画面上で見ることができる(図5左のウ ィンドウ)。
イ メ ー ジ デ ー タ を 扱 う 場 合 は デ ー タ サ イ ズ の 制 約 が 現 実 的 な 問 題 と し て 上 がってくる。データサイズは,A4版1枚を400dpi(lインチあたり400ドッ
ト)で入力して約lMバイトである。これをUNIXの標準データ圧縮である
コ ン プ レ ス
compressをすると,十分の一の約100kバイトになる。これは,光磁気デイス
ジ ェ イ ペ グ
クやCD‑ROMに約5千〜6千枚分入る計算になる。他にJPEG(厳密には近 似であって100%情報量を保存していない)などさらに高い圧縮率が得られる 画像データ圧縮方式もある。
(2)ティーターム(tterm:TateTERMinalemulator)
マルチウィンドウ環境で,入出力の全てを縦に書き/表示できるウィンドウ で あ る 。 テ ィ ー タ ー ム の ウ ィ ン ド ウ 内 で は コ マ ン ド か ら ア プ リ ケ ー シ ョ ン ま で 何を動かしても縦書きで利用できる。図5右下2つのウィンドウでは,UNK
モ ア
のmoreコマンドで古今和歌集を表示している。図5右上のウィンドウでは,
エヌイーーぞ、ソクス ウ ン ヌ
エディタ(nemacs)で源氏物語を編集している。日本語入力はWnnを利用 している。)
特定のワープロやエディタを縦書きに改造すれば目的は達成したのだが,日 本語入力のフロントエンドプロセッサにも改造が及ぶのを避けるのと,他のア プリケーションでも使える汎用性を考盧して,文字の入出力(とカーソル・マ ウスの制御)だけを行っているウィンドウを改造することにした。概略を説明
‑ 1 4 ‑
計算機で写本版本を読む(北村)
ヨ織載蹴鱗瀞瀞;劇趣騨齢麟隙隣犀騒瞬騨歸騨属 礁灘¥ 朧弘蕊黙迩繊争熱霧""
棉
里叶且伸倒ぅ〔唾,や画′吊這,や 禅 圏 R 侭
胃叶e匡且耀抽叫念仁、つ・¥公炉如+{側十A」分9通ぬくr叶人」.,"旦迺へと 琳何うべYな'唖′ L6S,や
禦極fY
鯏澤つ稗1−′ぬうヮ、や』筈e卜)狸黒,やう#J蝉伺い幸婚e画・牙忽Uへハエ、急 閉‑>ヘエト、
臘
:
勝.';'2.,・、§』ト│『,,,v1
%,,艶
や吊〃Pe品柚J J 冷
鴦抽今︾帯︾︾︾錨 坤尋e帝/ふゆ侭判く籾e轄凝銀澤つ母毎
︾雪輝式J燕辮輝劃墾峠さ§恥纐謎啄鐸診︾侭心小品姉発〃f
罪卦迺
︽
︾︾一録諦︽︾︾罷辨︾妙態錨椚鴎怠り茅遥鵯
︾鐸や鐸峰咋畔媚幽祁〃但侭唾鰐塞里 謹翻耀
︾且廼蹄 姉 糯︾岬
嫡総欄驚騨詳繍総蝋一撫潔︾︾#舞線︾︾繼謎斡坤聖篭︾評詫粥鴦蝿縦︐や ︾廷鼎蝿心糸″緬
一︾挙兵く
︾ 棒酔
uP誕劃︾雛﹄灘総織繊迩⁝〃鱸錨郵︾倫塞蝿鍔蕊琵酔︾峰准粂和se旦剃も晶兵﹀
曄岬蜘鰹瞬騨羅騨鯉識耐滋鱗瞬雛懸職臓洲牌醗鱸謝嘩鱈鰯
判的‑く‑xエ*、
③伸蝿程卜',や今SWパ佃古e品」eeヨュ航芯'や厚、,参
り雛鼬鵬溺皇難eU鯉黒 皇伽分』、 掘
鬮‑)ヘエリ。、 絹く戸)ヘ叫守、
#辮識戸燕………卿…′犀︷︾蝉が印 ー且や起 |鞆﹄ミ.e 一抽製
や恥印や睡 狸rI
j︒洸程〃分や部I柚ユ急唾通分埋昌姉泡e甑姉刑ドヨ丘埼塁丘s︾盤妙惟己鍵︾︾鵡軸︾︾︾︽︾念小黒eeりが︽副︾絲恥劃睦や霊錘繩
︾︾︲︾一︾︽轆密︾
蝉︾鍛桝︾︾鐸舞踏賑e蕃粁毒零幅搾哲池卸園除腱臘織騨瀧陛潅謹麓
冷r JF
e品弛今一.
一︾︾︾帝畢︾︾︾︾錨叫 く籾e
恥蝿fJee迩 戸︽
︽︾癖
″鍵翻耀 且
e型程全里Ⅲ
u鱒鼻璽
岬か邸稲津韮銅圭伽帳恥神煙唾つ郡遥錘迩
繍︾蝋や聯燃織に謹評︽鱸鑪排
一︾緬斗
く卜| 軍e司lいIヤト@国
剰剰圃闘卿闘關冊い陛抽
農
gl''"'叶1‑'州'''『'"r'''Ⅷ'' ;'ル:同↓愉釧{儲
邑琶・・社剃割く‑,÷'千七、、,,,ぐ,
ゑく、ミミLS置景畷‑
蕊忘tベ恵ハニ、→−−一砦、‑半へrラレ
︲・・・や・・﹄・・恥・﹃︸唯・.︲唖四叩呼︲叩・呼可▽王.・言鍔一・.唯一・唾由︲︲・I︾J・畔一︲﹄四一.︲・叫一︾﹃・心胴睡師.︾1..啼蠅・牛﹃畔︲・凪塾宮口︲や・千一固凹圓凹同側目冊凹側目圓固目
お̲.
︒F仔盈月伊も小加1511もr岬IC品哨密r08歩r︲Bp1Bf41■99匹︲仰ロサー望リリIIB
'、一、‑‑J、・S「ミーー厚、‑sw、(ハ量〜参弐全射r.糖く−,、』w‑''、e・S
′へ−−重6三‑−.『や、ミミ.=‑編 s建一 震一 ぺ当へ‑一念『、ヘユー唾‑‑零、・ぺーー毒
垂 " ′
廷琳ミー、‑、<皇識一一、−−冬t凄‑へご;S、詞ノ誌
F
ツー'‑‑〃‐1−、 今{
︾︲︑︲﹄︲q喝4.J︽︾JIII
G'…卒号F(、皇亡、、r一逵〆、、(G,トヘ絹Q汗へ属,へ−−、 一一ミヨ話『−−…竿ミーーーゴ琴填馨を洲トー
FC、
会‑尾、言‑割、"‑s埋逗9垂〜廷…‑‑、一へ‑I、fr、くい、>ノ.D、ミ、〆
リ
鴬' ー
、くいへ−
‑‑SR‑6イミ、<童‑‑‑‑,‑皇
ハー,,園,3−配密告。、?̲暑争もげみ咄手‑pE令辛f,b・E#こPq1錨.上.…』一世−1.蓋.fr‑毛nイロf客引q,̲.凸,弓1,̲琴!̲.
諭言ヘミ、
零画 許︲
IY6G lU &. ・画:緊江 戴誰葛 :載 E噸諄.、.:鳥迩鈩̲rツア;踊了、デ 1卜,X氏瞳' :j鰯中4.,"蝿 γ'1‑1,ロ,量,』L ,G抑鼻一名̲z訟一1−1,
ケ ー タ ー ム
すると,XWindow上の一つのウィンドウであるktermを右に90度寝かせて 文字の入出力が左→右,上→下であるのを上→下,右→左の順で行うように改
エ ッ ク ア 、 タ ー ム
造した。ここで,ktermはXWindow上で日本語を表示するためにxtermを 東京工業大学籠谷氏が改造したもので,XWindowの開発元であるマサチュ ーセッツエ科大学(MIT)からフリーソフトウェアとして配布される中に含 まれている(日本語フォントも)。従って,海外の日本語対応でない計算機で も,XWindowを使えば日本語の表示ができる。
縦書きを実現する時問題になるのが,縦書き用の文字フォントと,全角/半 角の混在,アルファベットをどう書くかである。ttermでは,全角文字のフォ ントの殆どはそのまま横書きのものを使用している。例えば「」()、。|
のように横と縦で変換の必要なものだけ縦書き用を作成した。半角/全角が混 在する場合,文字数と見た目の長さを合わせる必要があるので,半角文字は,
横に寝かせるか,縦方向に半角サイズの横長フォントを作成するかになる。ア ルファベットの場合,どちらも読み易くはない。古文を扱う中でアルファベッ トの出現は非常に低いと考えて,あまり労力はかけないことにし,横書き用の フォントを90度回転させて横に寝たまま使っている。
また汎用性の高さの例として,このウィンドウから大型計算機に接続すると,
検索システムも縦書きで利用できる。図6に国文学論文データベースを検索し ている例を載せる。
(1)+(3)手書き文字列検索システム
語彙分析の中でも一番単純な文字列検索を写本版本を見ながら行うシステム を試作した(図7)。viewerとttermを利用し,tterm上のエディタ(nemacs) で文字列検索を行い,その結果(文字列マッチした行)をnemacsからviewer
‑ 1 6 ‑
、、''l,j'/
加川︒且執
擬外心r巾︵抑Y§
l
一一ユ
や︑
魂
""""、"きい岸j〃}1ふり蕊穏蔚職鮮」《鵜樗,
ジー ーーーーー‑.‑‑( 16)
e 癖
岸 叶 ・ H O 1 1
紳叩..|│順/|
Y 嫡懸・・轍
蕊︾蕊
‑‑‑‑‑‑‑‑〈17)
霊やく刷噴顕・・報零細epm曙|軍│国|畷甦藍。、難郵‑L│御刈争へエ、
拝馴Nい・・柳鴎墹lK 鮠蝿・・伽ロ県‑K画侭 画+・・H01.12 却 咋 ・ ・ ' ○ V〜蹴騒・・戸ロ
軍僻蝉eKlY毎l卜嚥皿慨纒卦侭田程︒埋知41毎lマトや函
悌州聯印宗卜辨冊剛雰骨¥曾存田総驚
胴魅岬癌
郷釧綱識純一⁝
(│I│)
j団く慌隙細潔農
︽耐
ロ回口祀
罷心︽鯛毎鮎岬嫡
郷釧細到獅↑⁝
『 照 罵 歯
副溺漁職謝謝潮蕊淵翻熟翻溺鯛麹謝蝋副薗
‑‑‑‑‑‑‑‑(20)
4撫瀧鎚需繩.K蟻・{『噸‑<蝿而《画>'、繩¥制く
E川剣
︾
土口擶
討
︾
圏畔釧
や韓展
垂丑癒︑
諦獅剰獅 3110H1
戸‑号>1鍾・・卜r−
‑‑‑‑‑‑‑(21)
謡b<延願・・邸消爵、蹄e陥酎 詞11岬・・組織照M1
楯岬・・叶浄、Ⅱ一陣+無掴+話緊眺(珊吾記)01HⅡ﹃九尺守
凝諭
識緬↑ 2
‑‑‑‑‑‑‑‑(22)
+0¥鵬且尋むゅ叫餌雨厩「伊jjJ」e匪劇|「一身‑斗」A」
侭曜廻
嘩峠唖味の
#拭舶l︻
無仰嗣郵癖融郷↑
J
﹃︾j嗣 劫︾具うぐ32紬翻割撫
照臼
砕顛Kel鵬噸慨畷哩①一癖田圃3|う銀輪陥翌編凹
.﹀↑...・銅小・・・報醗報懸雀︑岬冷馳冷氾粋詫郵紳副紳半識岬剰吟4
皿澄e露‑田T,士e総(
揮牒「IIY 1
/ i/ 1/
可逆−4秒く票リーノト狐ノ且。いや稗慨「IIYハユ|解廊撫
ixU ロ地へasaI
F︾壁竜
露字密議蕊:瀞f蕊霞孫覺蕊薫蕊癖勤
一
言一咄︾曇
率燕獅蓉鎮蕊藷識撫識懸⁝
零膳いと︑やむごとなききばにはあらぬ︑ 銅
幽議溌鍵擁鰯燕辮蔚
溌蕊鍵蕊輝
蕊毎;︾
︾
環一睡るにて︑ぉやうちぐしさしあたりて︑世の覚え花
遥患やかなる御かたがたにもおとらず︑何事のぎしき 密
駕撫繍黙溌蕊劫ゞゞ︾率
F勗噂篭濡牟綴態讓砺蕊鍜噌
蕊簿︾
些幅網埋廻漕澗鋼目圓目目
厄I司匡1届1q』1t11s・vell吟'│lPTevP…││唯xtP季ilPrintllZ…InllZ…q』tll…│』5二・宮:牟杢;‑.‑.‑,.霧宇一F一零II:ざ:.§・・・‐
員■即一■﹃呵り凡守口引卓U︐4・■&別可TqqFBグ■︑口■■こき一切日ペ損勾呵Jq剤肝魍&卜
殆の万あ/111︲i災いα︑禺珍!附典へ︑︲ノヵinノゆく3.V〃︲︲
例1斗︲う″j式一フー︲︑〃伽八峡f癌瀧I風⁝︾酸ゾ伝
⁝ざれ洞Iりり侵紅4やj1ゞ形吻な今91Jも
恥″/︵へ叩鵬風〃1︑糸ヅーキ︲︑Lがニノ4弓︐1uか河Iりみイい︽獅咽絡鍔
ヲ?ふりI§わり 1
今︑﹃和区ケゲ・﹃典噌
7トうい勺︐4丁4は︐jT;r︲りい4冴心鳴荊く卒︑準
﹄乱予j︑
小?1万7りイ畔叩〜小のj︑﹀方#ん.県々J1ノ祢芝がく︲71ゐ
bも :
;171写や1ノ47汁令ノ/I︑−71一Vゾリてぜ江議てゐ︑︑0勺
や︽ノリヴm7Jソ︑1→もわIで14恥い〃jか剛卦ノー舵
YJUl8々︑ゾ3jIj9ノ〃入作だしううi蛍ゲう17ルノ︑
t #:5‑9.‐,:画恐ざ?画鱒燕溌溌蕊蕊篭醗蕊蕊蕊溌篭画F,冒曝壹昌兼乃,,司丞,妄..・・ヨー壹費号̲,歪
l屍l︲
匝珂'百扉1F ー│QuiCll'ell…111PrevPo9ellNextP…llPrintllZcoRInllZoon唖jtll忘麹
寺n吋111︲︲︲
1.トー︲IPr伯IrITBBト可fPd.nlIIlII1qJ︲︲Pマー!・IIlr0E巳T7
.‐‐一‑Ⅱ
一毒
一一
一一
一一一一
I 蝿;零弓K…/一望I、: シダ/一
|︾
|一耐
〆 懲忽/〃Zどく■■■■■■■ 図7手書き文字列検索システムの検索例(「やうやう」)
に渡して,viewerは文字列マッチした行を先頭行として表示する。図7では,
「やうやう」を検索し(右上のウィンドウ),viewerはマッチした行を先頭に して表示している(左のウィンドウ)。
内部的な話に少し触れておくと,イメージデータとテキストデータ間の同じ 箇所を示す単位を,簡単のために行単位とした。行単位の対応は,例えば翻刻 する時にテキストの行をイメージデータに合わせて改行することで,容易に採 取できる。既にテキストデータが存在する場合にも,イメージデータの行に合 わせて切っていく作業は比較的負担が軽い。実際問題として,この例の文字列 検索のように行単位の対応だけ,またはもっと粗くページ単位の対応だけでも 有効な使い方もあると思われる。対応の単位については,テキストデータの構 文情報などの利用を考えるとある程度文法的に明確な単位が好ましく,ほぼ文 節程度が妥当と考えている。作品ごとに文節単位の対応を人手で付けるのは現 実的ではないので,平仮名と典型的な漢字だけを拾って手書き文字認識を行い,
認識できた文字だけを頼りにテキストとの関係を自動的に対応付ける研究を計 画している。
6 . お わ り に
イメージデータとテキストデータの両者の持つ情報を補完しながら利用する,
また計算機のインタフェースとしてイメージデータを使うという考え方を述べ た。この考え方で具体的に何ができるのかを紹介した。さらに,インタフェー スとしてイメージデータを使う例として,単純な文字列検索を試作した報告を 行った。これは,考え方の有効性を確認するための単純な試作である。研究に 供することのできるものとして,次に手書きKWICの開発に取り組んでいる。
イメージデータとテキストデータの両方を使うといっても,完壁なテキスト が不可決な前提とは考えていない(完壁なテキストがあるということは研究は 終わっているという説もあるようだ)。例えば次のような状況での利用を考え ている。
・未決定の文字はテキストの方にワイルドカードを埋め込んでおくなど,あい まい検索の技術により(研究途中の)不完全なテキストでも役立つ
・一文字誤り/二文字誤りなど検索時のあいまい検索の技術により他の人が翻
刻 し た テ キ ス ト デ ー タ で も 役 立 つ
一方,自分用のテキストデータの作成を動機付ける次のような意味も持ち得 るであろう。
。テキスト作成の支援に魅力があれば翻刻というプロセスで個人の研究活動の 一部としてテキストデータは自然に作られる
・分析で得られる恩恵が大きければ,分析だけを目的にしてもテキストデータ は 作 ら れ る
計算機のインタフェースとして,テキストデータを強制されることなく,直 接イメージデータを使う話をした。これは見方を変えると,テキストデータは あくまでも計算機処理のためのデータ形式(計算機の内部表現)に過ぎないと いう考え方も可能であり,計算機の分野でも新しい発想である。この考え方は,
国文学だけに限らず写本版本を研究する分野で共通に使えるものであり,新し い計算機科学の基礎作りに役立つことを期待している。
本稿の中でも触れたが,平仮名と典型的な漢字の手書き文字認識(これが,
まさに「計算機が写本版本を読む」である),古語辞書を使った自動分かち書 きの研究,実験を計画している。
‑ 2 0 ‑
最後に,本稿で紹介したttermはフリーソフトウェアとしての配布を計画し
ている。
謝 辞
本研究を行うに当たり,当館所蔵和古書源氏物語を電子複写コピーサービス により利用させて頂いた。常日頃,国文学の立場からアドバイス頂いている研 究情報部長新井教授,データベース室長中村助教授に感謝する。また,本研究 は稲盛財団の研究助成を受けている。
参 考 文 献
[1]北村啓子,"CD‑ROMによる国文学研究材料データベースの配布",国文学研究資 料館紀要,第17号,(1991)
[2]北村啓子, 古典テキストCD‑ROMの開発 他4編,科学研究費補助金(試験研究 (1))研究成果報告書課題番号:63810007,pp.17‑60,(1991)
[3]新井栄蔵,/ミネル討論より,『国文学とコンピュータ』シンポジウム(第1回)講 演集,pp.59‑73,(1990)
[4]新井栄蔵, 古典本文データベースとその検索をめぐって",「国文学とコンピュー タ」シンポジウム(第2回)講演集,pP、22‑35,(1990)
[5]北村啓子, 古典テキストCD‑ROMシステム",『国文学とコンピュータ』シンポ ジウム(第2回)講演集,pp.123‑146,(1990)