• 検索結果がありません。

nihuINTにおける人文科学研究資源の探索支援

N/A
N/A
Protected

Academic year: 2021

シェア "nihuINTにおける人文科学研究資源の探索支援"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2012-CH-96 No.9 2012/10/12. 情報処理学会研究報告 IPSJ SIG Technical Report. nihuINT における人文科学研究資源の探索支援 山田 太造1. 古瀬 蔵2. 安達 文夫3. 概要:人間文化研究機構は,人文科学研究資源を一元的かつ網羅的に活用できる環境を目的として nihuINT を構築した.本稿では,人文科学研究資源から利用者が求める検索結果を得るための探索支援の方法につ いて述べる. キーワード:統合検索,人文科学研究資源,メタデータ,ファセット型ナビゲーション. An Exploring Support for Research Resources of Humanities in nihuINT Yamada Taizo1. Furuse Osamu2. Adachi Fumio3. Abstract: In order to construct an environment where research resources of humanities can be leveraged centrally and comprehensived, National Institutes for the Humanities (NIHU) have developed an integrated retrieval system called nihuINT. In this paper we describe a method of an exploring support which enables a user to obtain from the resources. Keywords: integrated search, research resources of humanities, faceted navigation. 1. はじめに 人間文化研究機構(以下,本機構)では,人間文化に関. の内訳は,機構を構成する各機関(国立歴史民俗博物館, 国文学研究資料館,国立国語研究所,国際日本文化研究 センター,総合地球環境学研究所,国立民族学博物館)か. わる種々のデータベースの有効利用による研究教育の促進. ら 121,機構が運用する地域研究拠点のデータベース nDP. を目指して,研究資源共有化推進事業を実施している [7].. (nihu Data Provider)から 4,2010 年 7 月 14 日より連携. この事業の目的は,人文科学の研究情報資源の共有化であ. を開始した国立国会図書館から 15 である.. り,人文科学研究に関わる機関が独自に収集・整理・保存. nihuINT は,各 DB の所在や操作方法を意識することな. し,組織化し,電子化してきた資料,情報資源を相互に有. く,共通の操作で横断した検索・検索結果表示が可能であ. 機的に利活用することである [7].目標達成のために,教育. り,DB を横断した検索結果一覧表示以外にも,時空間情. や研究において共有化を推進しうるシステム基盤とその整. 報を用いた検索の機能などを有する.これまで以上に研究. 備,および,その実用化が求めら,本機構は 2008 年 4 月か. 資源を探しやすい環境を目指すための新機能を追加するな. ら nihuINT (nihu INTegrated retrieval system;研究資源. どシステム更新を行ない,2012 年 5 月 7 日公開した.. 共有化統合検索システム)を公開している.nihuINT が検. 本稿では,nihuINT のシステム概要,検索機能について. 索対象とする DB は,2012 年 5 月時点で 140 である.そ. 述べる.最後に今後の展望について述べる.. 1. 2. nihuINT の概要. 2. 3. 人間文化研究機構 National Institutes for the Humanities 国文学研究資料館 National Institute of Japanese Literature 国立歴史民俗博物館 National Museum of Japanese History. c 2012 Information Processing Society of Japan ⃝. 2.1 システム構成 nihuINT のシステム構成図を図 2 に示す.検索クライ アントとして機能する GWS(Gateway System),共有化. 1.

(2) Vol.2012-CH-96 No.9 2012/10/12. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 1. 記述対象の多様性. 利用者. Internet. GWS. MGR. FES. FES. FES. FES. FES. FES. FES. DB. DB. DB. DB. DB. DB. nDP. 民博. 地球研. 日文研. 国語研. 国文研. 歴博. 機構本部. 図 2 システム構成 図 3 共有化対象データベース. 検索サーバとして機能する FES(Front End System)およ び nihuINT 全体の運用管理を行う MGR(Manager)より 構成される.. GWS は,利用者と対話するためのユーザインターフェー スを有し,利用者からの検索リクエストを FES へ伝える.. 対象に検索処理を実行する.. MGR は,nihuINT 全体の運用管理を行う.メタデータ の更新状態・データベースの公開状態などを把握するなど 運用管理を行う.. nDP は本機構の地域研究推進センター(地域研究拠点). FES はそれ自身に格納してあるデータベースを対象に,. の「現代中国地域研究」の研究成果など,人文科学にかか. GWS からの検索リクエストについての検索処理を実行し,. わるさまざまな研究成果を簡易に公開するためのシステム. 検索結果をレスポンスとして GWS に渡す.GWS は,FES. である.nihuINT と独立に nDP から直接検索することも. から得られた検索結果を利用者に提示する.. できるが,利用できるのは,データ登録の確認を行う程度. nihuINT に参加している各機関所有のデータベース(共 有化対象データベース)と nDP のデータベースのメタデー. の簡易な検索機能のみである.nDP のデータベースの利 用は nihuINT を介した検索を想定している.. タは FES に登録される.FES は機関ごとに用意しており, 基本的には各機関のデータベースはその機関の FES に登 録される.FES はそれ自身に格納してあるデータベースを. c 2012 Information Processing Society of Japan ⃝. 2.2 共有化対象データベースとメタデータ 共有化対象データベースの数は 140 にも及ぶ.機関別の. 2.

(3) Vol.2012-CH-96 No.9 2012/10/12. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 6 図 4. データベースグループ(種類別). 基本共通メタデータ. 図 5. 検索フロー. 内訳を図 3 に示す.この内,地域研究拠点のデータベー ス nDP は,機構のもとに設置された「地域研究推進セン ター」における研究成果として作成されている. ある資料をデータベース化するにあたり,研究内容や目 的によって異なる種類のデータベースが作成されることが. 図 7. データベースグループ(研究分野別). ある.図 1 は nihuINT 内における『吾妻鏡』データの多様 性を示す.国文学研究資料館『日本古典籍総合目録』デー. 要素で構成するメタデータ(Simple DC),および Simple. タベースでは『吾妻鏡』の目録情報,同館『吾妻鏡』デー. DC を拡張した汎用メタデータ(NIHU メタデータ [14])を. タベースには『吾妻鏡』のテキスト,同館『地下家伝・芳. 用意した.Simple DC は Web 上で流通するデータに対す. 賀人名辞典』データベースには人名(事項)に関する情報. るメタデータ記述として標準であるため用意しており,主. が収載されている.すなわち,同じ資料から目的により,. にシステム外部からの検索リクエストに対応するときに利. 目録化,テキスト化,事項抽出され,異なるデータベース. 用する.NIHU メタデータは,Simple DC(ただし,空間. が作成された.. 的・地理的な記述項目である Coverage.spatial および時間. また,各機関が所有するデータベースには,歴史学,日. 的な記述項目である Coverage.temporal の 2 つの拡張項目. 本文学,日本語学,環境学,民族学などのような人文科学. を含む) ,Who,When,Where 等の 5W1H メタデータ,お. での様々な研究分野,それらに付与されているメタデータ. よび,時空間情報メタデータを有する構成であり,Simple. における情報の粒度のばらつきなど,さまざまな点で不均. DC における定義の曖昧さを排除し,特に時空間情報につ. 質性がある.. いて詳細な記述を施すために拡充したものである.. 統合検索においては,このような多様性や不均質性のあ. 共有化対象データベースには博物館資料に関するデータ. るデータを一元的に検索し提示しうる環境が必要である.. ベースがあるが,Simple DC や NIHU メタデータでは情報. そこで,必要最低限の共通要素を定義したメタデータであ. の記述が不十分だと考えた.そこで,博物館資料に特化し. る基本共通メタデータを用意した.基本共通メタデータの. た博物館コアメタデータ [12] も用意した.. 要素は,図 4 に示すとおり,識別子,名称・題名,種別・ 主題,人物・組織,時期・日付,地域・場所の 6 項目のみ. 2.3 外部システムとの連携. であり,多くの人文科学研究資源に共通し,一覧する場合. 国立国会図書館は PORTA[13] やそれ以外の国立国会図. において重要であると思われる要素を端的に表現したもの. 書館における目録システムを統合し,新たに NDL Search. である. 基本共通メタデータ以外にも,共通して保持するメタ データ(共通メタデータ)として,DCMES[2] の基本記述. c 2012 Information Processing Society of Japan ⃝. (国立国会図書館サーチ)[10] を 2012 年 1 月 6 日に一般公 開した.. 2010 年 7 月 14 日より nihuINT と PORTA が,相互に. 3.

(4) Vol.2012-CH-96 No.9 2012/10/12. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 8. 検索トップ. 図 9 一覧表示(表形式.検索結果分類). データベースを検索できるよう,システム連携を開始した. システム連携に関する詳細は [11] に記載されている.NDL. Search 公開に伴い,新たに nihuINT と NDL Search との 連携を開始した.2011 年 10 月 26 日に NDL Search から. nihuINT への検索を,2012 年 1 月 27 日より nihuINT か ら NDL Search への検索を開始した.. 3. 検索機能 3.1 検索フロー nihuINT の検索フローを図 5 に示す.検索語入力(検 索トップ画面)し,データベースごとのヒット件数を表示 (ヒット件数表示画面)し,検索結果の一覧を表示(一覧表 示画面)し,選択した検索結果の詳細を表示(詳細表示画 面)するフローである.. c 2012 Information Processing Society of Japan ⃝. 4.

(5) Vol.2012-CH-96 No.9 2012/10/12. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 10. 3.1.1 検索トップ画面 検索トップ画面では検索条件を行う.検索条件の設定で. 詳細表示. る.利用者は検索結果を確認したいデータベースを 1 以上 選択することができる.検索結果の確認は一覧表示画面で. は,キーワードなどの検索語入力以外にも,時空間範囲の. 行う.. 指定,および検索対象となるデータベースの選択が可能で. 3.1.3 一覧表示画面. ある(図 8). 検索語入力では簡易検索と詳細検索の 2 つを用意した.. 一覧表示画面では検索結果を表形式(図 9) ,もしくはス ニペット形式(図 11)で一覧表示する.表形式による一. 簡易検索は全項目メタデータに応じた,詳細検索は基本共. 覧では,基本共通メタデータの各項目名の値,データベー. 通メタデータに応じた検索である.. ス名,機関名が表示される.スニペット形式による一覧で. 検索に際し,その目的において,全てのデータベースを. は,ヒットした共通メタデータ(Simple DC,NIHU,博物. 対象とせず,予め限定して検索したいことがある.そこ. 館コア)の項目名・ヒットした箇所とその前後のテキスト,. で,検索の目的に応じてデータベースを選択できる機能. 機関名,データベース名が表示される.両者とも原データ. を提供する.種類別,機関別,研究分野別の 3 つのデータ. ベースの検索結果表示画面へのリンクが表示される.さら. ベースグループセットを用意した.各データベースグルー. に,画像を持つ検索結果はそのサムネイル画像を表示する. プセットにおいて,それぞれの基準で,データベースを多. ことが可能である.. 種のデータベースグループに分類している.データベース. 一覧表示画面では,検索結果を編年順もしくは詳細表示. グループセットおよびデータベースグループを図 6 と図 7. 回数順に並び替えることができる.編年順では時間情報を. に示す.利用者は任意のデータベースグループセットにお. もつ場合のみに有効である.. いて,データベースグループもしくはデータベースを検索. 3.1.4 詳細表示画面. 対象として選択することができる.. 詳細表示画面では,一覧表示画面で選択した検索結果に. 検索対象のデータベースを選択するなどの場合に,それ. 対して,設定した共通メタデータの各項目名とその値を表. ぞれのデータベースにどのようなデータがあるかわからな. 示する(図 10) .サムネイル画像を有する場合はそれを表. いため,選択の判断ができないことがある.そこで,デー. 示する.また空間情報を有する場合は,マップシステム用. タベースごとにどのようなデータがあるかを一覧すること. いてその位置を提示する.データベース名および機関名を. ができるブラウジング機能を提供する.. 表示し,原データベースの検索結果表示画面へ遷移するこ. 3.1.2 ヒット件数表示画面. ともできる.. ヒット件数表示画面では,検索トップ画面で選択した データベースごとに,ヒットした検索結果の件数を表示す. c 2012 Information Processing Society of Japan ⃝. 5.

(6) Vol.2012-CH-96 No.9 2012/10/12. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 13. 図 11. 一覧表示(スニペット表示). サジェッション. 困難である.検索結果のファセット分類により,利用者は 必要な検索結果を発見する切り口を得ることができる.. 3.3 グループ化表示 情報検索において,何かしらの検索条件で検索結果を得 たとき,検索結果に関連する人物や場所などの情報から発 展して,次の検索行動に移る場合がある.nihuINT は,検 索結果を基本共通メタデータの人物・組織もしくは地域・ 場所をもとにグループ化するグループ化表示機能を提供 する.. 3.4 ブラウジング 詳細検索や検索結果分類からの関連情報の検索では,何 かしらの検索条件を設定して検索を進める.しかしながら, どのようなデータが存在しているか分からないため,検 索条件を設定することが困難な場合がある.nihuINT は, 図 12. ブラウジング. データベース単位にどのようなデータが存在しているかを 一覧することができるブラウジング機能を提供する.検索. 3.2 検索結果分類. トップ画面から各データベースをブラウズすることができ. nihuINT に限らず,多くの検索システムにおいて,利用. る.図 12 は国文学研究資料館『日本古典総合目録』デー. 者は検索する際に “ぼんやりとした” 検索条件から試行錯. タベースをブラウズした結果を示す.ブラウジング機能で. 誤して検索することが少なくないと考えられる.特に多様. は基本共通メタデータの項目ごとにどのような項目値があ. 性・不均質性の高い nihuINT のデータベースを検索する. るか,その項目値であるデータは何件あるかを表示してい. 場合は,明確な検索条件を設定することが困難な場合もあ. る.これにより,どのようなデータがあるかを把握するこ. る.そこで nihuINT では,検索条件の設定を “ゆるやか”. とができ,その後の検索において,利用者による検索条件. にする代わりに,利用者が必要な検索結果を探すための機. 設定のヒントとなり得ると考えている.. 能を提供する.この 1 つが検索結果分類機能である.こ の検索結果分類はいわゆるファセット型ナビゲーション. 3.5 サジェッション. (Faceted Navigation)[6] として機能する.nihuINT の全. 検索語の入力の支援を行うため,入力途中でも後続する. データベースは基本共通メタデータを有する.そこで,基. 文字列を補完して,利用者が入力したいキーワードの候補. 本共通メタデータの各項目をファセット,ファセット値を. を提示するサジェッション機能を提供する.サジェッショ. 項目の値とした.図 9 のようにキーワードを “東海道” と. ンによって入力誤りを防ぐ効果も期待できる.サジェッ. した検索を行うと検索結果件数は 17,879 件と非常に多く. ションで提示するキーワードは過去の検索でヒットした. の検索結果を得ることになり,1 つ 1 つ確認していくのは. キーワードであり,キーワードごとにスコアリングし,その. c 2012 Information Processing Society of Japan ⃝. 6.

(7) Vol.2012-CH-96 No.9 2012/10/12. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 14. 時間表示. 図 15. 空間表示. 値に応じてランキングした結果の上位 10 件を提示する.こ. 定している.. のスコアは,影響力の逓減モデルにおける忘却係数 [3], [15] を用いて算出しており,重みを 6 ヶ月で半減するように設. c 2012 Information Processing Society of Japan ⃝. 7.

(8) Vol.2012-CH-96 No.9 2012/10/12. 情報処理学会研究報告 IPSJ SIG Technical Report. 3.6 異体字同定検索 異体字を吸収した検索結果を提示する検索の方が望まし. 5. おわりに. いことが多々ある.そこで,国立国語研究所が開発した異. 本稿では,140 にも及ぶ人文科学データベースを横断検. 体字漢字対応テーブルを用いて異体字を同定した検索を実. 索できる nihuINT について紹介した.本システムは,デー. 現している.このテーブルは,単漢字のみであるが,“国”. タベースの多様さ・不均質さをカバーし,一元的に検索し,. と “國” のような新字体・旧字体だけではなく,繁体字・簡. 検索結果を統一的に提示するための手段を持ち合わせてい. 体字にも対応している.. る.それは名称・題名や主題・種別だけではなく,人物・ 組織,時期・日付,地域・場所という人文科学研究におい. 3.7 時空間検索・時空間表示. て非常に重要な要素に基づき,それを実現するに至った.. 検索条件の設定において,時空間範囲を指定すること. 日本における人文科学研究の推進において,nihuINT もし. ができる(図 8).直接入力して指定することもできるが,. くは本事業がその中心的な役割を担えるよう今後も積極的. 時間範囲指定はタイムラインシステム(TimeLine[5] を利. に発展させていく予定である.. 用)を,空間範囲指定ではマップシステム(Google Maps. API[1] を利用)を用いて範囲を指定するができる. 時空間情報をもつ検索結果に対して,マップシステム. 参考文献 [1]. (図 14)およびタイムラインシステム(図 15)による時 空間表示機能を用いて検索結果を一覧することができる.. [2]. データベース中に記述されている時間情報の表記は多様 である.その時間情報に対し,その開始と終了を太陽暦に. [3]. よる表現で正規化している [8].特に和暦に対しては,国 文学研究資料館相田満氏作成による『日本暦基本対照表』 を用いることで正規化している.また,データベース中の. [4]. 空間情報も空間検索・空間表示を行えるよう,正規化を行 なっている.表記された空間情報は矩形領域と捉え,その. [5]. 北西端と南東端を緯度・経度で正規化した [8].日本の旧地 名ついては,大阪国際大学桶谷猪久夫氏により電子化され. [6]. た吉田東伍『大日本地名辞書』を用いて正規化した.. nihuINT 内の時空間情報は時空間情報メタデータ定義 [14]. [7]. に従って表現されている.これとは別に,一覧表示画面に おいて,時空間情報をもつ検索結果をもつ検索結果のみを. [8]. KML 形式 [4] でダウンロードすることができる(図 9).. 4. 今後の課題. [9]. 今後の課題について述べる.1 つは,データの洗練であ る.検索結果分類,グループ化表示およびブラウジングの. [10]. 各機能では基本共通メタデータの各要素が表面化した.本. [11]. システムでは単に文字列一致するかどうかで各データを区 別している.そのため,ごみデータが存在する,同姓同名 の人物が区別できない,表記が異なるため別の場所として. [12]. 判断してしまう,などの問題がある.データクレンジング 等を行い,名寄せやシソーラス利用などを通して,各デー. [13]. タを識別する,などの知識処理を行う必要があると考えて いる.. [14]. もう 1 つは,対象データベースの拡大である.本機構の 各機関のデータベースは 200 を越えるがその半数程度しか. nihuINT の検索対象となっていない.本機構のデータベー スだけはなく,外部機関との連携を進めて行く必要がある と考えている.. c 2012 Information Processing Society of Japan ⃝. [15]. Google Inc.: Google Maps API - Google Developers. 入 手先 ⟨https://developers.google.com/maps/⟩. Dublin Core Metadata Initiative: Dublin Core Metadata Element Set, Version 1.1 (2010). 入 手 先 ⟨http://dublincore.org/documents/dces/⟩. Khy, S., Ishikawa, Y. and Kitagawa, H.: Novelty-based Incremental Document Clustering for On-line Documents, Proceedings of 22nd International Conference on Data Engineering Workshops (ICDEW06), p. 40 (2006). OGC KML: KML — OGC(R). 入手先 ⟨http://www.opengeospatial.org/standards/kml/⟩. Massachusetts Institute of Technology: SIMILE Widgets — Timeline. 入 手 先 ⟨http://www.similewidgets.org/timeline/⟩. Morville P. and Callender J.: 検索と発見のためのデザ イン―エクスペリエンスの未来へ,オライリージャパン (2010). 安永尚志:研究資源共有化事業の歩み(2000 2008 年度) , 人間文化研究情報資源共有化研究会報告集 1,pp. 5–23 (2010). 安達文夫:統合検索システムの概要と今後の展開,人間文 化研究情報資源共有化研究会報告集 1,pp. 33–43 (2010). 及川昭文:研究資源共有化システム−探すから知的再生 産ツールへ−,人間文化研究機構研究資源共有化シンポ ジウム「研究資源共有化―その展開と可能性―」講演予 稿集,pp. 1–8 (2008). 国立国会図書館:国立国会図書館サーチ (2012). 入手先 ⟨http://iss.ndl.go.jp/⟩. 山本泰則:国立国会図書館 PORTA と人間文化研究機構 統合検索システムとの連携について,人間文化研究情報 資源共有化研究会報告集 2,pp. 53–68 (2011). 山本泰則,安達文夫:博物館資料情報統合検索のため のコアメタデータ,情報処理学会シンポジウム論文集, Vol. 2009, No. 16, pp. 287–294 (2009). 柴田昌樹:PORTA によるデジタルアーカイブの連携に ついて,人間文化研究情報資源共有化研究会報告集 1,pp. 123–131 (2010). 人間文化研究機構:NIHU メタデータマッピング規則 ver.2.00 (2007). 入手先 ⟨http://www.nihu.jp/sougou/kyoyuka/pdf/refere nce/03.pdf⟩. 石川佳治,北川博之:忘却の概念に基づくインクリメンタ ルな文書クラスタリング手法,電子情報通信学会技術研究 報告. DE, データ工学, Vol. 101, No. 192, pp. 145–152 (2001).. 8.

(9)

図 1 記述対象の多様性 Internet利用者 民博 地球研 国語研 DBDBDBDB日文研国文研DBDB MGRFESFESFESFESFESFES歴博GWSnDPFES 機構本部 図 2 システム構成
図 4 基本共通メタデータ 図 5 検索フロー 内訳を図 3 に示す.この内,地域研究拠点のデータベー ス nDP は,機構のもとに設置された「地域研究推進セン ター」における研究成果として作成されている. ある資料をデータベース化するにあたり,研究内容や目 的によって異なる種類のデータベースが作成されることが ある.図 1 は nihuINT 内における『吾妻鏡』データの多様 性を示す.国文学研究資料館『日本古典籍総合目録』デー タベースでは『吾妻鏡』の目録情報,同館『吾妻鏡』デー タベースには『吾妻鏡』
図 8 検索トップ
図 10 詳細表示 3.1.1 検索トップ画面 検索トップ画面では検索条件を行う.検索条件の設定で は,キーワードなどの検索語入力以外にも,時空間範囲の 指定,および検索対象となるデータベースの選択が可能で ある(図 8 ) . 検索語入力では簡易検索と詳細検索の 2 つを用意した. 簡易検索は全項目メタデータに応じた,詳細検索は基本共 通メタデータに応じた検索である. 検索に際し,その目的において,全てのデータベースを 対象とせず,予め限定して検索したいことがある.そこ で,検索の目的に応じてデータベース
+3

参照

関連したドキュメント

She has curated a number of major special exhibitions for the Gotoh Museum, including Meibutsu gire (From Loom to Heirloom: The World of Meibutsu-gire Textiles) in 2001,

The purpose of the Graduate School of Humanities program in Japanese Humanities is to help students acquire expertise in the field of humanities, including sufficient

Daoxuan 道 璿 was the eighth-century monk (who should not be confused with the Daoxuan 道宣 (596–667), founder of the vinaya school of Nanshan) who is mentioned earlier in

N 9 July 2017, the United Nations Educational, Scientific and Cultural Organization (UNE- SCO) inscribed “Sacred Island of Okinoshima and Associated Sites in the Munakata

University of Hawai‘i Press, 2005); Sarah Thal, Rearranging the Landscape of the Gods: The Politics of a Pilgrimage Site in Japan 1573–1912 (Chicago: University of Chicago

As a central symbol of modernization and a monumen- tal cultural event, the 1915 exhibition provides a more comprehensive platform for better understanding an understudied era

That said, I have differed many times with descrip- tions that give the impression of a one-to-one influence between Unified Silla tiles and Dazaifu Style onigawara tiles

There are clear historical indications that new modes of accessibility began to pervade liturgical practice within the Shingon school during the Kamak- ura period (1185–1333) and,