• 検索結果がありません。

JOHO KANRI 2012 vol.55 no.9 Journal of Information Processing and Management December JST シソーラス map JST 辞書の可視化による効果的な検索語の発見 The J

N/A
N/A
Protected

Academic year: 2021

シェア "JOHO KANRI 2012 vol.55 no.9 Journal of Information Processing and Management December JST シソーラス map JST 辞書の可視化による効果的な検索語の発見 The J"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

JSTシソーラスmap

JST辞書の可視化による効果的な検索語の発見

The JST thesaurus map

Finding an effective search word from visualized JST dictionaries

國岡 崇生

1

| 田村 友紀

2

| 山崎 文枝

1

| 堀内 美穂

1

| 坂内 悟

1

KUNIOKA Takao1; TAMURA Yuki2; YAMAZAKI Fumie1; HORIUCHI Miho1; BANNAI Satoru1

1 独立行政法人科学技術振興機構(〒102-8666 東京都千代田区四番町5-3)Tel : 03-5214-8411  E-mail : [email protected] 2 富士通株式会社(〒101-0031 東京都千代田区東神田2-3-10 PMO秋葉原Ⅱ)

1 Japan Science and Technology Agency (JST) (5-3 Yonbancho Chiyoda-ku, Tokyo 102-8666) 2 Fujitsu Corporation (PMO AKIHABARA2 2-3-10 Higashikanda Chiyoda-ku, Tokyo 101-0031)

原稿受理 (2012-10-11)

情報管理 55(9), 662-669, doi: 10.1241/johokanri.55.662 (http://dx.doi.org/10.1241/johokanri.55.662)

著者抄録

科学技術振興機構(JST)は,科学技術文献データベースにおける統制語索引に用いる「JST科学技術用語シソーラス」, 同義語,異表記語を収録した「大規模辞書」など複数の用語辞書を所有している。これらの辞書が持つ,各用語の上 位下位関係や同義関係など用語間のさまざまな関係性をもとに統合的に可視化を行うJSTシソーラスmapを開発した。 JSTシソーラスmapの持つ機能,開発の目的などを紹介する。

キーワード

情報検索,可視化,JSTシソーラスmap,シソーラス,大規模辞書,JDreamⅡ,J-GLOBAL

1.

はじめに

 現在の検索エンジンをはじめとしたWeb検索サー ビスは,多くの場合,利用者が検索キーワードを入 力することから始まる。すなわち利用者自身が自己 の知識の範囲から能動的にスタート(キーワードを 入力)する必要がある。これは一般的な事項を調べ る際や,十分な知見を持つ分野の調査であれば大き な問題とはならないが,知識を十分に持たない分野 の調査が必要な場合などでは,大きな障壁になるこ とがある。それは適切なキーワードで検索できない ことによる情報発見の機会損失であったり,適切な 検索キーワードを知るまでに多大な時間を要する非 効率性であったりする。これは,本稿で対象とする ような,科学技術に関連する専門情報の検索におい てはより顕著になる。  多くの検索サービスにおいて,こうした問題を軽 減するために,利用者が入力した検索語から他の検 索キーワードを推奨するサジェスト機能や,他の利 用者の履歴の統計から,よく検索されているキーワー ドを提示するなど,できるだけ利用者が受動的に検 索を行える機能が提供されているが,体系的な知識 をもとにした検索が必要になる場合,これらのサジェ ストなどでは必ずしも十分でない。

(2)

などでは著者により同じ意味の用語でも表記が異な るため,情報発見の機会損失を避けるためには同義 語の網羅性が重要となるが,これを検索のたびに利 用者自身が行うのは容易ではない。  科学技術振興機構(JST)では,このような問題に 対して,科学技術用語を意味の階層関係から体系化 した「JST科学技術用語シソーラス」,同義語などを 収録した「大規模辞書」などの辞書を継続的に整備し, JDreamⅡにおける文献検索の機能であるシソーラス ブラウザなどで利便性の向上に取り組んできた1)。ま た無料サービスであるJ-GLOBALにおいても同義語展 開の機能が実装されている2)  今回,このようなサービスをさらに拡張し,体系 的に整備された科学技術用語を可視化し,その全体 像を見ながら,利用者が適切な検索キーワードを選 択できるようにしたものがJSTシソーラスmapであ る。JSTシソーラスmapでは,同義語・異表記語を網 羅した検索式の作成も容易にできるようになる。  本稿では,JSTが持つ辞書と合わせてJSTシソーラ スmapの持つ機能などを紹介する。

2.

JST辞書とデータ構造

 最初に,JSTシソーラスmapで可視化の表示対象と なっているJSTの辞書類について説明する。本稿では, これらの辞書を総称してJST辞書と呼ぶ。 2.1 JST科学技術用語シソーラス  JSTの辞書の骨格となる最も重要な辞書である。用 語の意味の広さをもとに,その上位下位関係を定義 し階層関係がまとめられている辞書であり,収録語 数は約4万語である。2008年に改訂を行っている3)  図1は,シソーラスにおける「燃料電池」の階層関 係を表したものである。NT(Narrower Term)とは, 「燃料電池」から見て下位概念の用語を示している。 また,・(中点)は階層の深さを表す。BT(Broader を示している。CA23とは,この用語が属するカテゴ リーコードで,JSTシソーラスmapのカテゴリー検索 で用いられている。  JSTがJDreamⅡにおいて提供する科学技術文献 データベースJSTPlus(国内外の科学技術文献), JMEDPlus(国内の医学系文献)の統制語索引は,こ のJST科学技術用語シソーラス(以下,JSTシソーラス) に基づいて行われている。 2.2 大規模辞書  科学技術用語の同義語を収録した辞書であり,収 録語数は,約100万用語,22万概念である。  同義語の例を図2に示す。これらは,同じ意味を 表す用語のグループとして同一のグループID(同義 語ID)が振られている。大規模辞書の22万概念とは, このグループ数に相当する。 2.3 異表記辞書  科学技術用語の異表記(表記ゆれ)を収集した辞 書であり,収録語数は約30万用語である。  異表記語の例を図3に示す。このように,その音は 図1 シソーラスの例 図2 同義語の例 㻮㻿㻱䠈≬∵⑓䠈∵ᾏ⥥≧⬻⑕䠈㼎㼛㼢㼕㼚㼑 㼟㼜㼛㼚㼓㼕㼒㼛㼞㼙 㼑㼚㼏㼑㼜㼔㼍㼘㼛㼜㼍㼠㼔㼥 図3 異表記語の例 ౛㻝㻕 㼄㻙䃐ἲ䠈㼄㻙䜰䝹䝣䜯ἲ ౛㻞㻕 ⺮ⓑ㉁䠈䛯䜣䜁䛟㉁䠈䝍䞁䝟䜽㉁䠈䛯䜣ⓑ㉁

(3)

同じでも表記が異なるものを異表記語として扱って いる。広い意味では同義語の一部であるが,辞書整 備の効率化のため,独立した辞書として整備を行っ ている。 2.4 共出現  共出現とは,文献に付与された索引語の中で,あ る用語が他のどの用語とともに出現したのかを集計 したデータである。共起関係とも言われる。前述し たJSTシソーラスと大規模辞書は,科学技術文献デー タベースJSTPlus,JMEDPlusの索引に用いられている ため,これらの辞書内の用語が,他のどの辞書内の 用語と同一の文献に出現したかをカウントし頻度が 高いものを抽出している。JSTシソーラスmapでは, 用語と用語の共出現の関係について400万の関係を 持っている。  共出現においては,例えば,「廃油」と「リサイクル」 のように直接的には用語同士の意味のつながりがな いものが多く抽出される。用途,手段,目的など実 際の研究・実務において関連の深い用語が出現する ため,通常では得られづらい気付きや追加すべき検 索キーワードを得ることができる。 2.5 各辞書の関係性  これまで説明したJSTシソーラス,大規模辞書,異 表記辞書については,それらに含まれる用語同士の 結びつけが辞書横断的に行われている。  大規模辞書に含まれる同義語グループはそのほと んどが,JSTシソーラス用語と関係付けられている。 図5の例では,「マイクロ燃料電池」「小型燃料電池」「超 小型燃料電池」を含む同義語グループは,JSTシソー ラス用語の「燃料電池」の下位に位置する同義語グ ループと定義されている(燃料電池との関係子をBT と定義)。  また異表記辞書の用語「小形燃料電池」は,大規 模辞書と共通する用語「小型燃料電池」を介して結 図4 文献索引の例 ⣴ᘬḍ ⣴ᘬㄒ䛂⛉Ꮫᢏ⾡᝟ሗ䛃䛻ᑐ䛧䠈䛭䜜௨እ䛾 ⣴ᘬㄒ䛜ඹฟ⌧ᅇᩘ䠍䛸䜹䜴䞁䝖䛥䜜䜛 図5 各辞書のつながり

(4)

して「形」と「型」の部分が異なる異表記語のパター ンを補完している。  このように,JSTシソーラスが持つ上位下位の関係 を大きな軸とした各辞書間の関係性に基づき,可視 化表示を行ったのがJSTシソーラスmapである。  これらの辞書は,すべて人手の作業で,用語の意 味の調査による同義語グループの整備,用語間の関 係性の定義などが行われている。そのため機械的な 用語切り出し処理などで発生しやすいノイズなどは 含まれず,非常に信頼性の高いデータのみで構成さ れている。

3.

JSTシソーラスmapの目的

 冒頭にも述べたが,科学技術に関連した専門情報 の検索,特にまだ知見が深くない分野の検索におい て,適切なキーワードを選択したり,キーワードの 候補を幅広く収集したり,選択したキーワードの同 義語・異表記語を網羅することは容易でない場合が 多い。  ここまで説明したJSTシソーラス,大規模辞書,異 表記辞書,共出現を一元的に可視化表示し全体を「俯 瞰」することにより,利用者がこれまで見つけられ なかったキーワードを容易に発見していけるように することがJSTシソーラスmapの目的である。また, 用語の上位下位関係が整備されているため,自分の 既知の用語が全体でどの位置にあるのかも判断する ことができる。より概念を広げたければ上位語に, より具体的に絞りたければ下位語に着目していくこ とになる。さらに共出現や関連語から用途,技術の 適用先,用いられる材料など幅広いキーワードが得 られ,検索のヒントになる可能性も高い。  また,発見したキーワードの同義語・異表記語も 整備されているため網羅性を高めた検索も可能とな る。どのような検索サービスを利用していても,検 索キーワードを広げる必要がある場合には,JSTシ 考えている。

4.

JSTシソーラスmapの機能

4.1 JSTシソーラスmapの見方  図6に「燃料電池」を中心語としたJSTシソーラス mapの表示例を示す。  燃料電池の上位概念語として,「化学電池」さらに 「電池」がある。また下位概念語としては,「アルカ リ燃料電池」「気体燃料電池」などさまざまな種類の 燃料電池が俯瞰できる。この表示では意味概念の上 位下位を縦軸にして表示している。  左側には共出現のエリアがあり,「触媒活性」「カ ソード」など,「燃料電池」と直接意味のつながりは ないが,技術要素として関係が深い用語が同一論文 の中で多く使われていることがわかる。共出現エリ アの表示順は,右上から頻度の多い順に表示されて いる。共出現語の上にマウスのカーソルを合わせる と,ポップアップ表示で共出現の頻度が確認できる (図7)。  また,右側にある関連語とは,辞書整備の中で専 門的に関係性が定義された用語である。共出現と用 語が重複する場合は,関連語を優先し重複表示を排 除している。  メニューの【操作】から【縦横レイアウト切替】 図6 「燃料電池」を中心語とした表示例 ୖ఩ᴫᛕㄒ ୗ఩ᴫᛕㄒ 㛵㐃ㄒ ඹฟ⌧

(5)

を選択すると,意味概念の上位下位を横軸にして表 示する(図8)。下位語が多数ある場合など,このレ イアウトが見やすいケースもある。  また,中心語の切り替えはとてもシンプルで, map表示上で気になる用語があれば,それをダブ ルクリックすることで,その用語が中心語となった mapが表示される(図9)。JSTシソーラスmapを俯瞰 的に見ていく中で,気になる用語が出てきたらすぐ に中心語を切り替えて,次々とmapを参照する使い 方を想定している。 4.2 同義語・異表記語の参照  簡易的に同義語・異表記語を次々に参照する場合 には,JSTシソーラスmap上で,各用語ボックスの上 にマウスのカーソルを合わせると,ポップアップで 表示される(図10)。  また,より詳しく確認したい場合には,メニュー の【表示】から【同義語・異表記語パネル】をオン にすると,中心語として表示している用語の同義語・ 異表記語の詳細を見ることができる(図11)。 図7 共出現の頻度表示の例 図8 縦横レイアウト切替の表示例 図9 中心語切り替えの例 䝎䝤䝹䜽䝸䝑䜽 䝎䝤䝹䜽䝸䝑䜽䛧䛯⏝ㄒ䛜 ୰ᚰㄒ䛸䛧䛶⾲♧䛥䜜䜛 図10 ポップアップによる同義語・異表記語の表示 図11 同義語・異表記語パネルの表示例

(6)

 JSTシソーラスmapを使って詳細な検索式を組み立 てることができる。具体的には,メニューの【入出力】 から【検索式作成】を選択し表示される検索式作成 ウィンドウを用いる。  map上から検索に使用したい用語を複数(最大5個 まで)選択し,検索式作成ウィンドウ上にマウスで ドラッグする。その用語の同義語の展開有無や検索 演算子を指定し,出力を行うと検索式が自動的に組 み立てられる。  図12の例では,mapから「鉛蓄電池」「ナトリウム‐ 硫黄蓄電池」の2つの用語を選択し,演算子ORを指 定しているが,同義語展開を有にしているので,紐 付く同義語が展開されて検索式が作成されている。 4.4 その他の機能  上記以外にも以下で挙げる利用支援機能を用意し ている。 •map描画した用語の履歴呼び出し •着目した用語を目立たせるハイライト機能 •map保存および保存mapの呼び出し •印刷,画像ファイル出力機能 •利用者ごとの表示配色,階層のレベル表示設定

5.

JSTシソーラスmapの利用方法

 JSTシソーラスmapを利用するには,現在,以下の 3つの方法がある。 (1)URL直接参照  以下のURL(http://thesaurus-map.jst.go.jp/jisho/ fullIF/index.html)を参照すると,JSTシソーラスmap のトップ画面である検索画面が表示される。文字列 で検索のほかに,カテゴリーもしくは50音検索でJST シソーラスに収録されている用語のリストが表示さ れるので,検索キーワードが思いつかない場合,そ こから選択していくことでmapを表示することも可 能となっている。  JSTシソーラスmapは,2012年9月にリリースされ たJ-GLOBAL正式版に組み込まれている。 図12 検索式の作成 䝗䝷䝑䜾 ྠ⩏ㄒᒎ㛤䛾᭷↓ ₇⟬Ꮚ➼䛾ᣦᐃ ฟຊ䛥䜜䛯᳨⣴ᘧ 図13 JSTシソーラスmapの検索画面 図14 J-GLOBALとの連携

(7)

 J-GLOBALの検索ボックス横にシソーラスmapボタ ンがあり,これをクリックすると検索ボックスに入 力された文字列に対応するmapを表示する。map上 で選択した別の用語を検索ボックスに戻すことも可 能である。  また,J-GLOBALは科学技術用語としてJSTシソー ラス,大規模辞書用語をコンテンツとして持つため その詳細画面にJSTシソーラスmapのガジェットが埋 め込まれている。 (3)JDreamⅡから  JDreamⅡからは従来のシソーラスブラウザからの 呼び出し,および回答表示画面のアクティブなリン クとなっている索引のクリックにより利用が可能に なっている。

6.

今後の方向性

 現在,用語などの言語資源を整理しWebで公開し ているサービスは多数あるが,その多くは切り出し などの機械処理を行ったものであり,どうしてもノ イズを含むケースがある。  JSTシソーラスmapが可視化のソースとしている JSTの辞書類は,長年,専門家による精査を継続して きたものであるため,上位下位の階層は深いレベル で体系化されており,同義語情報も日々更新が続い ている。  このようなコンテンツは,利用される機会が増え ていかなければその価値を維持することは難しいと 考えられる。ぜひ,JSTシソーラスmapをご利用の上 ご意見をお聞かせいただきたい。  また,JSTシソーラスmapの組み込み先として, J-GLOBALとJDreamⅡを紹介したが,JSTシソーラス mapはWebAPIによる機能提供を基本としているた め,他の検索サービスにも比較的容易に組み込みが 可能である。現在,WebAPI提供へ向けた環境整備を 進めているところである。今後のJSTシソーラスmap の発展にご期待いただきたい。

参考文献

1) 植松利晃. 情報検索における漏れのない検索に着目したJST文献検索システム「JDreamII」の検索支援機 能の紹介. 情報管理. 2007, vol. 50, no. 6, p. 354-362. 2) 松邑勝治, 黒沢努, 関根基樹, 矢口学, 植松利晃, 加藤治. 「J-GLOBAL」試行版(β版)の構築と今後の展望. 情報管理. 2009, vol. 52, no. 3, p. 150-157. 3) 岩沢一男, 倉田重子, 山崎文枝, 中村徹. JST科学技術用語シソーラスの改訂―2008年版シソーラスと大規模 辞書との連携―. 情報管理. 2008, vol. 51, no. 2, p. 129-137.

Author Abstract

The Japan Science and Technology Agency (JST) owns several term dictionaries. Among them are the “JST technological term thesaurus” for use in indexing controlled vocabularies and the “Large-scale scientific and technological dictionary”, which contains synonyms and spelling variants. This article reviews the “JST thesaurus map” we developed to visualize dictionary data based on terms’ relationship for finding the most effective search word.

(8)

information retrieval, visualization, JST thesaurus map, thesaurus, Large-scale Scientific and Technological Dictionary, JDreamⅡ, J-GLOBAL

参照

関連したドキュメント

なお︑この論文では︑市民権︵Ω欝窪昌眞Ω8器暮o叡︶との用語が国籍を意味する場合には︑便宜的に﹁国籍﹂

て存在するかのように見せられているが、実際はHD上の位置が頻繁に書き換

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ

うのも、それは現物を直接に示すことによってしか説明できないタイプの概念である上に、その現物というのが、

点から見たときに、 債務者に、 複数債権者の有する債権額を考慮することなく弁済することを可能にしているものとしては、

いてもらう権利﹂に関するものである︒また︑多数意見は本件の争点を歪曲した︒というのは︑第一に︑多数意見は

LUNA 上に図、表、数式などを含んだ問題と回答を LUNA の画面上に同一で表示する機能の必要性 などについての意見があった。そのため、 LUNA

 自然科学の場合、実験や観測などによって「防御帯」の