第 3 章 提案する史料研究支援手法
3.4 セマンティックウェブ技術による情報の構造化
3.4.1 史料メタデータの記述手法
本研究では史料が公開される各ウェブページをRDFモデルによって記述し、メタデータ として史料の書誌情報の追加や調査結果の保存を行う手法を提案する。ここではそのRDF モデルの記述手法について説明する。
3.4.1.1 メタデータフィールドの定義
まずメタデータを記述するためのメタデータフィールド(属性)を定義する。本研究で は二種類のメタデータフィールドを定義する。
一つは、既存の平賀譲デジタルアーカイブで与えられている史料の書誌的情報を記述す るためのフィールドである。具体的には「表題」「カード目録」「備考」「作成年月日」「文 書種類」「文書ID」「カテゴリ」「史料枚数」「出典」である。
もう一つは、ユーザによる史料研究の調査結果を保存するためのフィールドである。こ こでは「ノート」「タグ」「編集年月日」「編者名」「内容」を用いる。「ノート」フィールド は史料調査から知見等をメモする役割を持つ。「タグ」フィールドは史料を特徴付けるキー ワードを付加し、ユーザによる史料の分類を行うためにフィールドである。「内容」フィー ルドは史料に記述された内容を保存するためのフィールドである。
これらのメタデータフィールドを定義するに当たり、接頭名前空間辞として「Dublin Core」と、独自に定義した「Historical Metadata」と名付けた語彙を使用した。「Dublin Core」
は書誌的情報を記述するためのメタデータ語彙として広く一般に使用されており、表題や 作成年月日、作成者といった情報を記述するための語彙を提供している。一方、「Historical Metadata」では「Dublin Core」では提供されていない語彙を定義するために用いた。
本研究で用いるメタデータフィールドおよびその使用目的を一覧表示したものを表 3-1 に示す。上半分が平賀譲デジタルアーカイブで使用されている属性を反映した既存のメタ データフィールドであり、下半分がユーザによる調査結果を保存するためのメタデータフ ィールドである。
26
表 3-1 定義したメタデータフィールド
3.4.1.2 メタデータの記述
前述のメタデータフィールドを用いて、RDFモデルにメタデータの付加を行う。RDFは 主語・述語・目的語のトリプル(ステートメント)として表現される。よって史料が公開 されている各ウェブページのURLを主語とし、先に定義したフィールドを述語、書誌情報 や調査結果を目的語としたステートメントを作成し、RDFモデルに記述する。RDFモデル を作成するに当たり、HP Labs[27]によって開発された Java によるセマンティックウェブ アプリケーション開発のためのフレームワークであるJenaを使用した。史料の書誌情報は 平賀譲デジタルアーカイブで提供されているものが表 3-2で示す Excel形式で保存されて いるため、URLおよびフィールドに対応する情報をプログラムによって自動で抽出し、抽 出した単語を目的語としてRDFモデルに記述した。調査結果を保存するためのフィールド に関するメタデータについては、史料研究を通じてユーザによって追加、編集されること を想定している。作成されたRDFモデルの例を図 3-5に示す。さらにRDFモデルと平賀 譲デジタルアーカイブ史料の関係を図 3-6に示す。
27
表 3-2 平賀譲デジタルアーカイブで用いられる書誌情報
図 3-5 RDFモデル(RDF/XML形式)
標題 文書種類 文書記述形式 枚数 年月日(新) 備考 ID カテゴリ
製艦費ノ減少ニ就テ 意見書 海軍罫紙タイプ印刷 29 1929/2/28 10010101 E0100
なし 人名一覧 万国工業会議用箋タイプ 1 10020101 H0101
昭和四年十月廿三日 万国工業会 議会議委員長 稲田三之助 平賀譲
殿 平賀宛書簡 万国工業会議用箋ペン書き 2 1929/10/23 10020201 H0101
EXTRA EDITION OF OFFICIAL BULLETIN THE WORLD
ENGINEERING CONGRESS TOKYO 1929
万国工業会告
示 英文印刷物 1 1929/10/31 10020301 H0101
昭和四年十月廿七日 万国工業会 議会議委員長 稲田三之助 平賀譲
殿 平賀宛書簡 万国工業会議用箋タイプ 2 10020401 H0101
部会理事(日本人) 理事一覧表 タイプ(ペン書き記入有り) 1 10020501 H0101
昭和三年八月 日 俵万国工業会議 論文委員長殿 論文委員 近藤基 樹・末廣恭二・山内不二雄・平賀譲
平賀(等)発書
簡 タイプ 1 1928/8/1 1928/8 10020601 H0101
28
図 3-6 RDFモデルとウェブページの関係