I
はじめに
滋賀県から受託事業契約している1)滋賀県研 究者情報システム(愛称をちえナビという。以下、 「ちえナビ」と記す)のWeb
サーバが滋賀大学情報 処理センターにある。ちえナビは筆者2)が2003
年 に滋賀県より研究委託され設計・開発したシステ ムで、その理論と設計に関しては彦根論叢第348
号にて報告している[Tani 2004
]。ちえナビは5
年 間の研究委託期間を経て、2008
年より滋賀大学 の受託事業となり今日に至っている。 本稿は、彦根論叢第348
号では言及できなかっ たちえナビの検索性能に関する評価と、テキストマ イニングによるシソーラス辞書拡張による性能改 善について論じる。一般的に検索性能は、適合す る情報を漏れなく出力する再現率(recall
)と、ユー ザが必要としている情報を的確に出力する精度 (precision
)で評価されるが、再現率と精度とはト レードオフの関係になることがわかっている。当該 システムは産学官連携を推進する大学と公設機 関のコーディネータの利用を主たる目的としていた ため、研究者の網羅性を優先することが要件で あった。そこで、ちえナビでは汎用シソーラス辞書 を搭載して検索質問の拡張を行い再現率の向上 を図った。しかし、汎用シソーラス辞書の利用に は精度をより一層低下させるという問題がある。ま た、近年、一般ユーザの利用が増加してきているこ とから、ちえナビの再現率と精度の定量的な性能 評価に基づいて、一般ユーザの満足度を向上させ るために精度の改善を図る必要がある。一方、情 報検索理論では汎用シソーラス辞書の改善法が 一つの課題としてある。これらの精度とシソーラス 辞書の課題に対して、テキストマイニングからのア プローチによる解決法を提案する。滋賀県研究者情報
システムの
テキストマイニングによる
性能改善
について
谷口伸一 Shinichi Taniguchi 滋賀大学経済学部 / 教授 論文 1)担当部署は滋賀県商工観光労働部 中小企業支援課である。 2)プログラムのコーディングと実装は、以下、Ⅱでは、ちえナビの開発経緯と利用状況 を示す。Ⅲでは情報検索技術と性能評価尺度を 説明して、ちえナビの再現率と精度の定量的な性 能評価を行う。そして、Ⅳでテキストマイニングに よるシソーラス辞書の拡張法を提案し、検索性能 が改善されることを示す。
II
ちえナビの開発経緯と利用状況
滋賀県は2002
年に滋賀大学との共同研究「滋 賀県内中小企業知的財産権の創造・保護・活用 策 」を行 い、TLO
3)の設立に関して検討した [Ohmura 200
]。その結果、TLO
の維持および 管理運用にリスクがあることを考慮し、ハードとな るTLO
を設立することよりも産学官連携を担当す る県内公設機関のコーディネータや大学関係者ら が、大学のシーズと企業のニーズをマッチングする うえで重要 な情報源となる滋賀県研究者情報 データベースと産学官連携の環境整備というソフ トの充実を図ることにした。ちえナビは、この結論 を受けて研究委託され開発されたものである。 今日、大学等の技術移転については、当時のよ うな勢いはないが、日本の科学技術を牽引するた めの大学の使命であることに変わりはない。また、 文部科学省は、大学が自治体と連携し、全学的に 地域を志向した教育・研究・社会貢献を進めて、 課題解決に資する様々な人材や情報・技術が集 まる地域コミュニティの中核的存在としての大学 の機能強化を図る「地(知)の拠点整備事業(大学COC
事業)」の推進を決めている4)。社会科学分 野も含めて大学を取り巻く環境変化のなか、ちえ ナビの存在価値が再び高まると筆者は考えている。Fig.1
は、ちえナビのアクセス数推移である。こ のアクセス数は、Web
ページビューとは異なり、研 究者情報検索のためにキーワードを入力して検索 処理を実行した回数を集計したものである。ちえ ナビはその集計機能を有している。Fig.1
より2011
年度から急増して、2013
年度は25,000
アクセスに 達し、近年の利用が増していることがわかる。一方、 月別のアクセス数では、1
月から3
月にかけての年 度末が多く、他の月の20%
増となる特徴がみられ る。これらは企業等の経済活動と連動しているも のと考えられる。III
情報検索システムの性能評価
3.1. ちえナビの検索技術 性能評価について論じるにあたり、ちえナビの 検索技術を参考文献[Tani 2004
]に基づき、以 下のとおり要約する。 (1
)クローラ(crawler
)が滋賀県内9
大学と2
工業 技術センターの研究者紹介Web
ページを巡 回して研究者情報を収集する。これを文書集 合(document set
):D
とする。D=
[d
1, d
2,
…d
n]と表す。 5,000 10,000 15,000 20,000 25,000 30,000 2005 2006 2007 2008 2009 2010 2011 2012 2013 検索回数 年度 年度別アクセス数推移 Fig.1 ちえナビの年度別アクセス数推移書
d
jと検索質問ベクトルq
との類似度を計算 する。 (3
) (7
)文書d
(研究者名と研究内容)を類似度順にj 表示する。 3.2. 情報検索システムの有効性の評価尺度 情報検索システムの有効性は検索結果に対し 与えられる評価であり、これに関する評価尺度とし て、以下の3
つが考えられる[Toku
]。 (1
)適合性(relevance
) (2
)適切性(pertinence
) (3
)有用性(usefulness
) 適合性は客観的な判断を前提として検索質問 に適合する文書を文書集合から検索できる度合 で計られる。適切性はユーザの情報要求を満足さ せる文書を文書集合から検索できる度合で計ら れる。すなわち適合性はあるパラダイムやある分 野に存在する合意によって判断されるものであり、 適切性はユーザ個々の知識構造によって判断さ れる個人的なものである[Foskett 2
][Kemp
4
]。 たとえば、ちえナビを利用するユーザA
に対して 研究者X
とY
を検索結果として与えたとする。事前 にユーザA
が研究者X
の研究内容を知っていた場 合、研究者X
の情報提供は適切ではないと判断さ れる。適合性と適切性には次式(4
)の関係が成り 立つといえる。 適合性∋適切性 (4
)∑
= = qi ij m qi ij j j jw
w
w
w
q
d
d
q
q
d
, ) 2 2cos(
・ ・ i=1∑
m i=1∑
m i=1 (2
)文書集合D
を形態素解析して、文書集合D
か ら抽出された 索引語集合(indexing term
set
):T
を作成する。T=
[t
1, t
2,
…, t
m]と表す。 (3
)文書集合D
と索引語集合T
から索引語t
iのidf
(
inverse document frequency
)を計算する。 たとえば、t
iのidf
はn/n
iとなる。ここで、n
は文 書総数、n
iはt
iを含む文書数を表す。 (4
)ベクトル空間モデルに基づき文書集合D
をw
ijを要素とする索引語・文書行列(term-document matrix
)を次式(1
)で算出する。 ここで、w
ijは文書d
jに出現する索引語t
iの重 み で あ る。t
iの重 み はt
iの頻 度tf
(term
frequency
)と、(3
)で求めたt
iのidf
の積で求 まる。このような重み付けをtf-idf
法という [Kita 2002
]。ちえナビは(1
)から(4
)で求め た種々の値を研究者情報データベースとして 管理している。 (1
) (5
)検索キーワードが入力されると、(1
)式の列と 同様に検索質問ベクトルq
を次式(2
)で求 める。 (2
) ここで、w
qiは検索質問に含まれるキーワードq
iに 対応する索引語t
iの重みである。 (6
)つぎに、索引語・文書行列D
と検索質問ベク トルq
のコサイン尺度を次式(3
)で求めて、文 [ ]= = nm n2 n1 nw
w
w
w
w
w
w
w
w
d
d
d
D
2m 1m 22 12 21 11 2 1 … … … … … … … … =w
w
w
q
qm q2 q1 …collection
)と呼ばれる適合性情報の付与された 評価データを用いる。 3.4. テスト・コレクションの設定と作成 テスト・コレクションは、ちえナビが対象にする 全研究者に基づき作成すべきであるが、多様な分 野の多数の研究者について検索質問を設定し、 それぞれの研究者についてその適合性を判定する ことは極めて困難な作業である。一般には、文書 集合のサンプリングを行い、そのサンプルと設定 する検索質問により適合性をあらかじめ判定して おいて、再現率と精度を推定する手法が用いられ ている[Kishi
]。 そこで本研究では、長浜バイオ大学をサンプリ ング対象とした。その理由は以下のとおりである。 (1
)研究内容の記載が充実していること。 (2
)単科大学であるため、研究分野が限定され 適合性の判定が正確になること。このことは、 Ⅳのシソーラスの拡張による性能改善を試み るうえでも合理的である。 (3
)シソーラス辞書活用の有効性を判断する目 的において研究者数が適度であること。 テスト・コレクションはバイオサイエンス学科 (遺伝子生命科学コース、分子生命科学コース、 細胞生命科学コース、環境生命科学コース)24
名、 アニマルバイオサイエンス学科9
名、コンピュータ バイオサイエンス学科8
名、一般教育・ビジネス 教育4
名に客員教授7
名を加えた52
名の教員を対 象にした。 また、検索キーワードとしてDNA
・遺伝子・細 胞から病気治療や創薬に至る研究範囲を勘案し て、その中核的物質となる「タンパク質」を設定し た。そして、適合性の判断には、バイオテクノロジー による動植物(特に人)の基礎研究および病気の 原因解明や創薬に関わる研究内容を基準とした。 一方、有用性はユーザA
が情報要求の段階では 考えていなかった価値をこの文書によって新たに 得た場合に生じる。以上のことから、適切性と有 用性はユーザの知識構造あるいは主観的判断に 依存するため客観的、定量的に評価することが難 しい。そこで、一般的に適合性が情報検索システ ムの有効性を評価する尺度として用いられる。 3.3. 再現率と精度 適合性に基づく情報検索システムの評価は、次 の2
つの観点から評価される。 (1
)完全性(completeness
) (2
)正確性(accuracy
) 完全性は検索質問に適合する文書を漏れなく 検索できる度合を表し、評価尺度として再現率R
(recall
)で定義される。また、正確性は検索質問 に適合する文書だけを検索できる度合を表し、精 度P
(precision
)で定義される。それらをTable.1
の交差行列で説明する。A
)再現率R
:次式(5
)で求められる。 (5
)B
)精度P
:次式(6
)で求められる。 (6
) この定義に基づき再現率と精度を計算するた めには、検索対象となる文書集合D
の文書d
jに対 して、検索質問q
iの適合性が与えられている必要 がある。一般には、テスト・コレクション(test
x
w
w
R
= +y
w
w
P
= + 検索された文書 検索されなかった文書 適合文書 w x 非適合文書 y z Table.1 文書集合と検索文書の交差行列20
となる。再現率と精度は4
、5
列目のように計算 される。たとえば、順位5
の再現率は(5
)式からw=5
であるため0.25
(5/20
)となる。一方、精度は 順位5
までの文書すべてが適合しているため(6
) 式のw=5, y=0
より1.0
(5/5
)となる。なお、再現率 がR
iの と き の精 度 を 再 現 率 レ ベ ル(recall
level
):R
iでの精度レベル(precision level
):P
iという。上位から何番目までを検索結果として採用す るかにより再現率−精度特性は変化するが、本稿 ではシステムが出力した全ての検索結果を採用し て、これを総合性能と呼ぶことにする。シソーラス 辞書を使用しない場合の総合性能は順位
19
の再 現率0.60
、精度0.63
となる。この値を以降の性能 評価の目安とする。 このTable.2
の再現率を横軸にとり、精度を縦 軸にとって再現率−精度グラフを描くとFig.2
とな る。再現率と精度は[0, 1.0
]の範囲をとるが、両者 が1.0
に近いほど検索システムの性能は高いといえ る。しかし、実際には両者はトレード・オフ(trade-
off
)の関係にあり、再現率を上げようとすると精度 が下がり、逆に精度を上げようとすると再現率が下 がる。よって、実際の検索システムでは利用目的に 応じてどちらかを高めるようなシステム設計がなさ れる。 ちえナビの場合、一般ユーザの立場からは精度 の高いシステムが要求されるであろう。一方、大学 関係者の立場からは,
研究者の産学官連携機会 の公平性から検索漏れの少ない再現率の高いシ ステムが求められる。産学官連携コーディネータは、 ケースに応じて再現率と精度の優先要求が変わる であろう。ちえナビはⅡの開発経緯で述べたよう に大学の産学官連携機会の公平性を考慮して再 現率を優先することになった。ただし、tf-idf
法によ る検索語の重み付けと(3
)式のベクトル空間モデ ルによるコサイン尺度によって検索結果をランキ その結果20
名を適合と判断したが、結果的に妥当 なテスト・コレクションとなった。 3.5. ちえナビの再現率と精度による 性能評価と考察 3.5.1. シソーラス辞書を使用しない場合の 検索性能Table.2
は、シソーラス辞書を使用しないで検 索質問「タンパク質」により長浜バイオ大学の研 究者を検索した結果である。順位は、ベクトル空 間モデルによる(3
)式で算出されるコサイン尺度 (>0
)の順である。3
列目の適合性は3.4.
のテスト・ コレクションに基づき適合するものを○で示して いる。本研究では研究者と適合性のデータベース を作成し、検索結果との自然結合により得ている。 性能評価にあたり、まず再現率と精度の計算方 法について説明する。検索質問「タンパク質」に適 合する文書は20
件である。つまり(5
)式のw + x
は Table.2 シソーラスを利用しない場合の 「タンパク質」による検索結果 順位 研究者ID 適合性 再現率R 精度P 1 R07 ○ 0.05 1.00 2 R14 ○ 0.10 1.00 3 R17 ○ 0.15 1.00 4 R43 ○ 0.20 1.00 5 R23 ○ 0.25 1.00 6 R28 ○ 0.30 1.00 7 R03 ○ 0.35 1.00 8 R15 0.35 0.88 9 R16 ○ 0.40 0.89 10 R25 0.40 0.80 11 R48 0.40 0.73 12 R35 ○ 0.45 0.75 13 R13 0.45 0.69 14 R30 ○ 0.50 0.71 15 R22 ○ 0.55 0.73 16 R39 0.55 0.69 17 R46 ○ 0.60 0.71 18 R19 0.60 0.67 19 R24 0.60 0.63ング表示することで再現率優先の弊害を補正して いる。
Fig.2
は、その特長をよく表している。 3.5.2. シソーラス辞書を使用した場合の検索性能 つぎにシソーラス辞書を利用した場合の検索 結果をTable.3
に示す。検索件数が27
となり、シ ソーラス辞書を利用しない場合の1.4
倍となる。こ れはタンパク質の類義語が付加されたことにより、 (2
)式の検索質問ベクトルが拡張され、(1
)式の 索引語・文書行列から求められるコサイン尺度が 大きくなり、より多くの研究者が出力されたためで ある。その結果、本評価ではテスト・コレクション に適合しない研究者が順位1
になってしまっている。 また、検索件数は増えたが適合する研究者は1
件 増えたにとどまり、総合性能は再現率0.65
、精度0.48
となりシソーラス辞書を利用しない場合と比 べて良いとはいえない。特に順位19
の再現率レベ ルで比べると、再現率と精度がそれぞれ0.50
、0.53
となり著しく性能低下している。Table.3
の再現率−精度グラフはFig.3
となり、 参考文献では掲載されることのないグラフを示す が、類似度に基づくランキング表示を行うとこのよ うなことが起こる。 Table.3 シソーラスを利用した 「タンパク質」による検索結果 順位 研究者ID 適合性 再現率R 精度P 1 R48 0.00 0.00 2 R07 ○ 0.05 0.50 3 R17 ○ 0.10 0.67 4 R03 0.10 0.50 5 R43 ○ 0.15 0.60 6 R14 ○ 0.20 0.67 7 R11 0.20 0.57 8 R41 ○ 0.25 0.63 9 R23 ○ 0.30 0.67 10 R35 ○ 0.35 0.70 11 R10 0.35 0.64 12 R13 0.35 0.58 13 R28 ○ 0.40 0.62 14 R15 0.40 0.57 15 R19 0.40 0.53 16 R16 ○ 0.45 0.56 17 R25 0.45 0.53 18 R20 0.45 0.50 19 R30 ○ 0.50 0.53 20 R42 0.50 0.50 21 R39 0.50 0.48 22 R32 0.50 0.45 23 R22 ○ 0.55 0.48 24 R51 ○ 0.60 0.50 25 R38 0.60 0.48 26 R46 ○ 0.65 0.50 27 R24 0.65 0.48 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率-精度グラフ(タンパク質で検索) Fig.2 Table.2の再現率−精度グラフ Fig.3 Table.3の再現率−精度グラフ 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率-精度グラフ (シソーラスを利用してタンパク質で検索)5)当社は2013年7月1日をもって(株)エクシングに すべての事業を譲渡している。
IV
テキストマイニングによる
シソーラス辞書の改善と性能評価
ちえナビでは、(株)言語工学研究所5)の汎用シ ソーラス辞書を利用している。3.5.
の検索質問「タ ンパク質」はシソーラス辞書によって以下のように 拡張されている。 イ)同義語:蛋白質、たんぱく質、たん白質 ロ)狭義語:アルブミン、カゼイン、ガンマ・グロ ブリン、ガンマグロブリン、グリシニン、グロ ブリン、ケラチン、コラーゲン、ゼラチン、フィ ブリン、プロテイン、ヘパリン、ミオシン、ラク トフェリン、レクチン ハ)広義語:栄養|種類、栄養素 ニ)関連語:でんぷん、ビタミン、ミネラル、脂肪、 炭水化物、糖、糖質、糖類、必す微量元素、ペ プトン、ポリペプチド、脂質、無機質、水Table.3
の順位1
の研究者R48
は「タンパク質、 プロテイン、デンプン、脂質」が検索質問ベクトルq
の要素となり、結果的にコサイン尺度が大きく なったが、研究内容は植物の環境適応を支えるメ カニズムであるため適合しないと判定していた。 ところで、ちえナビは、すべての類義語を使用す るのではなく、一般ユーザに対してはイ)同義語に よる検索質問の拡張を行い、コーディネータに対 してはイ)からハ)に示された類義語を選択できる ようにしている。したがって、Table.3
(Fig.3
)の結 果になるわけではない。そこで、以下、4.1.
ではイ) 同義語のみの拡張によるちえナビの性能評価を示 し、4.2.
では先行研究から汎用シソーラス辞書の 問題を考察し、4.3.
にてテキストマイニングによる シソーラス辞書の拡張法を提案して、その性能評 価に基づき提案手法の有効性を示す。 ところで、一般には検索質問ごとに再現率−精 度特性が異なる。総合的な性能評価を行うために は、複数の検索質問からなる検索質問集合に対す る再現率と精度の平均値で評価すべきであろう。 その評価式には以下の2
つがあるので参考までに 付記する。 (1
)マクロ平均(macro average
):検索質問ごと の再現率と精度を平均する。それらのマクロ 平均R
とP
はそれぞれ(7
)式と(8
)式で計算で きる。ただし、Q
は検索質問の総数、w
i, x
i, y
i はTable.1
と同じ意味で添字は検索質問を表 している。 (7
) (8
) (2
)マイクロ平均(micro average
):検索質問を 区別せずにTable.1
のような交差行列を作成 し平均を求める。再現率と精度のマイクロ平 均R
とP
はそれぞれ(9
)式と(10
)式で計算で きる。 (9
) (10
) マクロ平均は個別の検索質問を区別し、それら を等しく重要だと考えて平均化しているのに対し、 マイクロ平均では検索質問を区別しない評価方 式である。∑
= + = Qi i i ix
w
w
Q
R
1
1 + i i iy
w
w
=P
∑
= Q iQ
1
1∑
= + = Q i i i ix
w
w
R
1∑
= Q i 1( ) ( )P
∑
= + = Q i i i iy
w
w
1∑
= Q i 1(
1
)汎用シソーラスには固有名詞や分野に依存 する語が収録されていない。 (2
)汎用シソーラスには連想関係や推論を必要 とするような語の関係は必ずしも記述されて いない。 (3
)汎用シソーラスは分野に独立に語の関係を 考えているので、検索対象となっている分野と は関係ない方向に索引語が拡張されてしまう。 これらの改善策として、「同じ文脈に出現する語 は意味的にも似ているはずである」という分布仮説 (distribution hypothesis
)に基づくシソーラス構 築の研究が以下のように行われてきている。 (1
)ある動詞の主語あるいは目的語の関係から 名詞を分類する[Hind 0
]。 (2
)目的語の関係のみを用いる[Pere
]。 (3
)分類語彙表を用いて分類語彙表にない語に 分類語彙表の意味コードを付加する[Naka
]。 (4
)分布仮説に基づく語の距離を用いて新しい 語を既存のシソーラス辞書の適切なクラスに 分類する[Toku
]。 (5
)汎用のシソーラス辞書と分布仮説に基づくシ ソーラスを組み合わせる[Manda
]。 4.3. テキストマイニングによる シソーラス辞書の拡張と性能改善 筆者は、4.2.
の汎用シソーラス辞書の問題であ る下線部と分布仮説に基づく研究に着目した。す なわち、同じ専門分野の研究者が使用する専門 用語には共通性があり、かつ依存関係があると仮 定し、その専門分野の文書集合の共起語情報に 基づく汎用シソーラス辞書の拡張が有効であると 考えた。そこで、テスト・コレクションの文書集合 を テキストマイニングツ ールTTM
(Tiny Text
Miner
)[Matsu 200
]と統計解析プログラム言 4.1. 一般ユーザ向けシソーラス拡張による 性能評価3.5.
のように、イ)からニ)までのすべての類義 語を使用した場合の検索性能はシソーラス辞書 を使用しない場合より劣ることが明らかとなった。 しかし、ちえナビの一般ユーザに対する仕様では、 イ)同義語のみを検索質問の拡張に用いており、Fig.4
に示す再現率−精度グラフとなる。検索件数 は21
件となり、総合性能は再現率0.65
、精度0.62
となる。また、順位19
の再現率レベルにおける精 度レベルは、それぞれ0.65
、0.68
となり、いずれの 場合もシソーラス辞書を利用することで性能が改 善される。 4.2. 汎用シソーラス辞書の問題と改善法R.Mandana, T.Tokunaga
らはテスト・コレク ション”Cranfield
”や”INSPEC
”など7
種に対して 汎用シソーラス辞書”WordNet
”を用いて検索質 問の拡張を行い、検索性能を検証した。その結果、 汎用シソーラス辞書では性能が十分に改善され ないことを明らかにしている[Manda
]。 その原因として、以下の理由を挙げている[Toku
]。 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率-精度グラフ (タンパク質とシソーラスで検索) Fig.4 一般ユーザ向けシソーラス拡張による 再現率−精度グラフ7)このアルゴリズムは、グラフの辺ができるだけ 交差しないようにする。 6)http://mecab.googlecode.com/svn/trunk/mecab/ doc/index.html 語
R
[Ishi 200
][Ishi 202
]を利用して、専門用 語の共起語情報を発見しシソーラス辞書の拡張 を行った。そのステップを以下に示す。Step1.
長浜バイオ大学の研究者をタグにし、そ の研究内容をテキストとするCSV
ファイルを 作成する。仮に”N_Bio.csv
”とする。Step2.
”N_Bio.csv
”をTTM
の入力ファイルにし て、出力フォーマットttm3
(語×タグのクロス 集計)とttm5
(語×語のクロス集計)のファイ ル を作成 す る。そ の 際、形態素 解 析 にMeCab
6)を使用する。また、品詞は名詞のみ とする。Step3. ttm3
から語とタグの出現頻度を観察する。 また、ttm5
から語と語の共起語情報を観察 する。その結果、”N_Bio.csv
”から抽出され る語数(形態素)は名詞(合成名詞を含む)だ けでも2,832
語となるため解析が困難である。 そこで、抽出された語から「研究」や「開発」な どの不要語をファイル化する。Step4. Step2
にもどり、Step3
で作成した不要語 ファイルを指定して、再度ttm3,ttm5
を求め 有意な語の共起語情報を得る。Step5.
“N_bio_ttm5.csv
”の2
行目と2
列目を削 除し、R
のigraph
ライブラリーを利用してplot
図 を 作 成 す る。Fruchterman-Reingold
layout
7)で作成して加工したものがFig.5
で ある。Fig.5
から「タンパク質」と「がん」に共起語関係 を認めることができる。そこで、「がん」をタンパク 質のイ)同義語としてシソーラス辞書に追加して効 果を計測する。ちえナビにはシソーラス辞書の拡 張機能を組み込んでいる。その拡張方法は補足と してFig.7
に示す。 Fig.5 共起語情報のネットワーク図 Table.4 共起情報に基づく 拡張シソーラスによる検索結果 順位 研究者ID 適合 再現率R 精度P 1 R03 ○ 0.05 1.00 2 R30 ○ 0.10 1.00 3 R07 ○ 0.15 1.00 4 R41 ○ 0.20 1.00 5 R17 ○ 0.25 1.00 6 R22 ○ 0.30 1.00 7 R14 ○ 0.35 1.00 8 R43 ○ 0.40 1.00 9 R21 ○ 0.45 1.00 10 R28 ○ 0.50 1.00 11 R01 ○ 0.55 1.00 12 R23 ○ 0.60 1.00 13 R13 0.60 0.92 14 R15 0.60 0.86 15 R42 0.60 0.80 16 R04 0.60 0.75 17 R32 0.60 0.71 18 R25 0.60 0.67 19 R46 ○ 0.65 0.68 20 R35 ○ 0.70 0.70 21 R48 0.70 0.67 22 R16 ○ 0.75 0.68 23 R11 0.75 0.65 24 R06 0.75 0.63 25 R47 0.75 0.60 26 R29 ○ 0.80 0.62 27 R39 0.80 0.59 28 R19 0.80 0.57 29 R24 0.80 0.55する語は、文書
d
j(D
∋d
j)においても共起する確 率が高いためである。 したがって、それぞれの分野で有益な共起語情 報を見つけ出すことが要諦となる。この課題の解 決コストは、類義語を網羅的に増やすコストよりも はるかに小さいと考える。V
おわりに
本論文では滋賀県より業務委託されている滋 賀県研究者情報システム「ちえナビ」の検索性能 について、適合性の尺度である再現率と精度に基 づきテスト・コレクションを作成して定量的に評価 した。特に、再現率を向上させるために搭載してい る汎用シソーラス辞書の特性を明らかにした。そ して、汎用シソーラス辞書では分野に依存する語 が収録されないという問題に着目してテキストマイ ニングによるシソーラス辞書の改善法を考案した。 すなわち、専門分野の文書集合をテキストマイニ ングし、その共起語情報から専門用語の依存関 係を発見し、その関係に基づいて汎用シソーラス 辞書の拡張を試みた。その結果、再現率と精度の 両者の改善に有効であることが示された。よって、 本手法は、ちえナビのような専門分野の情報を扱 う情報検索システムにおいて特に効果的であり応 用性がある手法といえる。また、近年増加している 一般ユーザのシステム利用満足度を高めるために 精度の改善が求められる。本提案手法はこの課 題解決にも有効である。 ところで、「タンパク質」を検索質問とするテス ト・コレクションの作成において、テキストマイニ ングで見出した共起語「がん」の意識が適合性の 判定に影響を与えていたのではないかという主観 性混入の問題が懸念される。しかし、Table.4
にお いて精度が1.0
を維持する順位12
までに「タンパク 拡張したシソーラス辞書による検索結果をTable.4
に示し、その再現率−精度グラフをFig.6
に示す。 検索件数 は29
件となり、総合性能は再現率0.80
、精度0.55
となった。特筆すべきは順位12
ま での精度が1.0
を示し、シソーラス辞書を利用しな い場合のTable.2
(Fig.2
)と比べて約2
倍の性能 改善となった。このことは出力結果の上位から閲 覧するユーザに高い満足度を与える。このように 専門分野に依存する共起語情報からシソーラス 辞書を拡張する手法には有効性が認められる。 ところで、共起語情報では共起関係が強い、つ まり共起頻度の高いことが必ずしもシソーラス辞 書の拡張に寄与しないことに注意する必要がある。 本研究の文書集合では「タンパク質」と「遺伝子」 の共起頻度が最も高い。試しにタンパク質の同義 語に遺伝子を加えてシソーラス辞書を拡張すると40
件が検索され再現率レベルは0.98
となるが、そ の精度レベルは0.48
にとどまる。また、順位19
の 再現率と精度は0.60
と0.63
となりシソーラス辞書 を利用しない場合と変わらない。つまり、tf-idf
の 概念と同様に、文書集合D
において高頻度で共起 Fig.6 拡張シソーラスによる検索結果の 再現率−精度グラフ 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率-精度グラフ (タンパク質と拡張シソーラスで検索)今後の課題として、他の専門分野を対象に分野 に依存するシソーラス辞書の拡張が残される。 【付記】 まず、
2003
年時、多くの自治体が競って作成し た研究者情報データベースであるが、その後諸般 の事情によりほとんどが廃止になるなかで、委託 業務を継続して下さっている滋賀県の取り組みに 敬意の念と感謝を申し上げる。 そして、本論文は森將豪教授退職記念特集に 掲載されるものであるが、先生には公私にわたり 多大な世話を受けてきた。なかでも体力向上のた めに体育館でのトレーニングに誘って下されたこ とや、京都大学の博士号を取得するにあたって先 生の博士論文を手本として提供下されたことは、 孤軍奮闘していた筆者にとって大きな励ましとなっ た。衷心より感謝の意を表す。 質」を一語も含まず「がん」のみで検索されたもの は順位9
の1
件のみであった。このことは、共起語 情報によるシソーラス辞書の拡張が、ベクトル空 間モデルによる類似度計算に作用し、4.1.
のシソー ラス辞書の拡張前では下位にあった適合者を上 位に浮上させたことを表す。よって、テストコレク ション作成における主観性のバイアスは極めて小 さく、シソーラス辞書の拡張効果といえる。また、 「タンパク質or
がん」を検索質問にすればシソー ラス辞書の拡張は不要ではないかという考えもあ る。しかし、そのような検索質問の組み合わせは 考えにくいといえる。仮にそのような組み合わせが 行われた場合、ユーザの検索要求における比重は 「がん」の方が高いと考えるのが妥当であり、本研 究のテスト・コレクションによる検索性能評価と は別の課題である検索質問に関する問題と考える。 この点に関しては、検索キーワードごとにユーザの 意図で比重を付けられる仕組みをちえナビは備え ている。 補足 Fig.7 ちえナビのシソーラス拡張機能[Salton ] Salton,G., Wong,A. and Yang,CS.() /
“A Vector Space Model for automatic indexing”
Communication of the ACM, Vol., No., pp.-20.
[Tani 2004]谷口伸一(2004)/
「滋賀県研究者情報データベースシステムの研究と設計」
彦根論叢第348号/滋賀大学経済学部、pp.99-127。
[Toku ] Tokunaga,T., Fujii,A., Iwayama,M., Sakurai,N. and Tanaka,H.() /
“Extending a thesaurus by classifying words”
In Proceedings of the ACL/EACL Workshop on Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications, pp.-2.
[Toku ]徳永健伸(1999)/
「情報検索と言語処理」/東京大学出版、pp.69-95、1999
参考文献
[Foskett 2] Foskett, D. J.(2) /
“A note on the concept of relevance”,
Information Storage and Retrieval (2), pp.-, 2
[Hind 0] Hindle,D. (0) /
“Noun Classification from predicate-argument structures” In Proceedings of the 2th Annual Meeting of the Association for Computational Linguistics, pp.2-2. [Ishi 200]石田基広(2008)/ 「Rによるテキストマイニング入門」/ 森北出版、pp.54-130。 [Ishi 202]石田基広、金明哲(2012)/ 「コーパスとテキストマイニング」/ 森北出版、pp.198-203。 [Kemp 4]Kemp,D.A.(1974)“ /
Relevance, pertinence and information system
development”Information Storage and Retrieval 10(2)、
pp.37-47.
[Kishi ]岸田和明(1998)/「情報検索の理論と技術」/
勁草書房、pp.234-253。
[Kita 2002]北研二、津田和彦、獅子堀正幹(2002)/
「情報検索アルゴリズム」/共立出版、pp.52-89。
[Manda ]Mandara,R., Tokunaga, T. & Tanaka,H.() /
“The use of WordNet in information retrieval”
Proceedings of Coling-ACL ’ workshop
“Usage of WordNet in Natural Language Processing Systems”, pp.-. [Matsu 200]松村真宏、三浦麻子(2009)/ 「人文・社会科学のためのテキストマイニング」/ 誠信書房、pp.21-76。 [Naka ]中野洋(1981)/ 「分類番号つけ支援システム」 情報処理学会計算機言語研究会, CL-25, 1981 [Ohmura 200]大村和夫、吉田慶志(2002)/ 「滋賀県内中小企業知的財産権の創造・保護・活用策」/ 滋賀県。
[Pere ] Pereira,F., Tishby,N. & Lee,L.() /
“Distributional clustering of English words”
Proceeding of the st Annual meeting of the Association for Computational Linguistics, pp.-0.