147 中国笑話集における文字情報のデータベース化
中国笑話集における文字情報のデータベース化
梅 田 貴 士 山 口 満 島 田 大 助Bulletin of Toyohashi Sozo University 2010, No. 14, 147–150 中国笑話集研究において,原本および和刻本における文字情報のデータベース化,および, 文字検索・比較システムが求められている.本稿では,中国笑話集『笑林広記』について, 文字情報のデータベース登録処理,および,同登録情報に基づくWebシステム(文字検索・ 比較,訓読文形式出力,対応画像表示)の構築を行った結果について報告する. キーワード:中国笑話集,文字データベース,検索・比較システム
Ⅰ はじめに
中国笑話集研究において,中国語で記述された文献(以下原本と記す)と和刻本(日本で 刊行された作品)に対する文字情報のデータベース化,および,文字を検索・比較可能なシ ステムが求められている.本稿では,中国笑話集『笑林広記』について上記を実現するシス テムを検討した結果について報告する.Ⅱ 文字情報データベースの作成
原本および和刻本について,本文の文字情報を一文字ずつ抽出し,データベースへ登録す る作業を行った.なお,原本テキストとしては,Web上で公開されているものを使用した1). 和刻本としては文献2) を使用した. 処理の流れを図1に示す.はじめに,原本テキストを利用してTSV (Tab Separated Values) 化プログラムにより一文字ずつ分解・抽出する.ついで,原本・和刻本のそれぞ れについて,文献を参照しながらExcel上で追加情報 (文字が出現するページ番号等) を 入力する.和刻本については,さらに,訓読のための返り点や送り仮名,ルビ (傍訓) 情 報等を付加する.図2は,和刻本画像と対応するデータベース登録情報の例である.最後 に,整理済みのTSVデータをデータベースにインポートし,文字情報データベースを作成 した. 1) 『笑林廣記』,http://www.chineselovestory.com/xlgz 2) 『訳解笑林廣記』,和泉屋金右衛門他板,文政三年刊(1820年),豊橋創造大学附属図書館蔵148 豊橋創造大学紀要 第14号 図1 文字情報データベース化の流れ (a) 和刻本 (b) データベースへの登録情報(一部) 図2 文字情報のデータベースへの登録
Ⅲ 文字検索・比較システムの構築
図1の流れで作成したデータベース (DB) を基に,文字検索・比較のためのWebシステム を構築した.なお,構築に際しては,Apache,MySQL,PHPおよびJavaScriptを使用した. 1.文字検索・比較 文献中の文字およびルビについて,指定文字列とDB登録文字との単純マッチングによる 検索処理を実装した.この際,原本および和刻本の両者を同時に表示し,比較できるように149 中国笑話集における文字情報のデータベース化 した.さらに,検索語句の前後文字を表示し,ヒット位置周辺 (文脈) を把握できるように した.この様子を図3に示す. 2.訓読文形式表示(整形出力) 和刻本の検索結果については,訓読文形式で表示させる処理を記述した (図3拡大部).た だし,適切に表示するために,現状ではFirefoxおよびXHTMLルビサポートアドオンを必 要とする. 図3 原本・和刻本の検索結果 3.画像表示 検索結果の文字について,元の文書 (画像) における出現位置を表示できるよう処理を記 述した.これにより,元の字形を容易に確認することを可能とした.この様子を図4に示す. 図4 検索結果文字に対応する画像の表示
150 豊橋創造大学紀要 第14号