滋賀県研究者情報システムのテキストマイニングによる性能改善について

(1)

I

はじめに

滋賀県から受託事業契約している1）_滋賀県研 究者情報システム（愛称をちえナビという。以下、 「ちえナビ」と記す）の

_Web

サーバが滋賀大学情報処理センターにある。ちえナビは筆者2）_が

₂₀₀₃

_年に滋賀県より研究委託され設計・開発したシステムで、その理論と設計に関しては彦根論叢第

348

号にて報告している［

Tani 2004

］。ちえナビは

5

年間の研究委託期間を経て、

2008

年より滋賀大学の受託事業となり今日に至っている。本稿は、彦根論叢第

348

号では言及できなかったちえナビの検索性能に関する評価と、テキストマイニングによるシソーラス辞書拡張による性能改善について論じる。一般的に検索性能は、適合する情報を漏れなく出力する再現率（

recall

）と、ユーザが必要としている情報を的確に出力する精度（

precision

）で評価されるが、再現率と精度とはトレードオフの関係になることがわかっている。当該システムは産学官連携を推進する大学と公設機関のコーディネータの利用を主たる目的としていたため、研究者の網羅性を優先することが要件であった。そこで、ちえナビでは汎用シソーラス辞書を搭載して検索質問の拡張を行い再現率の向上を図った。しかし、汎用シソーラス辞書の利用には精度をより一層低下させるという問題がある。また、近年、一般ユーザの利用が増加してきていることから、ちえナビの再現率と精度の定量的な性能評価に基づいて、一般ユーザの満足度を向上させるために精度の改善を図る必要がある。一方、情報検索理論では汎用シソーラス辞書の改善法が一つの課題としてある。これらの精度とシソーラス辞書の課題に対して、テキストマイニングからのアプローチによる解決法を提案する。

滋賀県研究者情報

システムの

テキストマイニングによる

性能改善

について

谷口伸一 Shinichi Taniguchi 滋賀大学経済学部 / 教授論文 1）担当部署は滋賀県商工観光労働部中小企業支援課である。 2）プログラムのコーディングと実装は、

(2)

以下、Ⅱでは、ちえナビの開発経緯と利用状況を示す。Ⅲでは情報検索技術と性能評価尺度を説明して、ちえナビの再現率と精度の定量的な性能評価を行う。そして、Ⅳでテキストマイニングによるシソーラス辞書の拡張法を提案し、検索性能が改善されることを示す。

II

ちえナビの開発経緯と利用状況

滋賀県は

2002

年に滋賀大学との共同研究「滋賀県内中小企業知的財産権の創造・保護・活用策」を行い、

TLO

3）_の_{設立に関して検討した} ［

Ohmura 200

］。その結果、

TLO

の維持および管理運用にリスクがあることを考慮し、ハードとなる

_TLO

を設立することよりも産学官連携を担当する県内公設機関のコーディネータや大学関係者らが、大学のシーズと企業のニーズをマッチングするうえで重要な情報源となる滋賀県研究者情報データベースと産学官連携の環境整備というソフトの充実を図ることにした。ちえナビは、この結論を受けて研究委託され開発されたものである。今日、大学等の技術移転については、当時のような勢いはないが、日本の科学技術を牽引するための大学の使命であることに変わりはない。また、文部科学省は、大学が自治体と連携し、全学的に地域を志向した教育・研究・社会貢献を進めて、課題解決に資する様々な人材や情報・技術が集まる地域コミュニティの中核的存在としての大学の機能強化を図る「地（知）の拠点整備事業（大学

COC

事業）」の推進を決めている4）_{。社会科学分} 野も含めて大学を取り巻く環境変化のなか、ちえナビの存在価値が再び高まると筆者は考えている。

Fig.1

は、ちえナビのアクセス数推移である。このアクセス数は、

_Web

ページビューとは異なり、研究者情報検索のためにキーワードを入力して検索処理を実行した回数を集計したものである。ちえナビはその集計機能を有している。

Fig.1

より

₂₀₁₁

年度から急増して、

2013

年度は

25,000

アクセスに達し、近年の利用が増していることがわかる。一方、月別のアクセス数では、

1

月から

3

月にかけての年度末が多く、他の月の

20%

増となる特徴がみられる。これらは企業等の経済活動と連動しているものと考えられる。

III

情報検索システムの性能評価

3.1. ちえナビの検索技術 性能評価について論じるにあたり、ちえナビの検索技術を参考文献［

Tani 2004

］に基づき、以下のとおり要約する。（

1

）クローラ（

crawler

）が滋賀県内

9

大学と

2

工業技術センターの研究者紹介

Web

ページを巡回して研究者情報を収集する。これを文書集合（

document set

）：

D

とする。

D=

［

d

1

, d

2

,

…

d

n］と表す。 5,000 10,000 15,000 20,000 25,000 30,000 2005 2006 2007 2008 2009 2010 2011 2012 2013 検索回数年度年度別アクセス数推移 Fig.1 ちえナビの年度別アクセス数推移

(3)

書

d

jと検索質問ベクトル

q

との類似度を計算する。（

₃

）（

7

）文書

d

（研究者名と研究内容）を類似度順にj 表示する。 3.2. 情報検索システムの有効性の評価尺度 情報検索システムの有効性は検索結果に対し与えられる評価であり、これに関する評価尺度として、以下の

3

つが考えられる［

Toku 

］。（

1

）適合性（

relevance

）（

2

）適切性（

pertinence

）（

3

）有用性（

usefulness

）適合性は客観的な判断を前提として検索質問に適合する文書を文書集合から検索できる度合で計られる。適切性はユーザの情報要求を満足させる文書を文書集合から検索できる度合で計られる。すなわち適合性はあるパラダイムやある分野に存在する合意によって判断されるものであり、適切性はユーザ個々の知識構造によって判断される個人的なものである［

Foskett 2

］［

Kemp

4

］。たとえば、ちえナビを利用するユーザ

A

に対して研究者

X

と

_Y

を検索結果として与えたとする。事前にユーザ

_A

が研究者

X

の研究内容を知っていた場合、研究者

X

の情報提供は適切ではないと判断される。適合性と適切性には次式（

4

）の関係が成り立つといえる。適合性∋適切性（

4

）

∑

= = qi ij m qi ij j j j

w

q

d

q

d

, ) ₂ ₂

cos(

・・ i=1

∑

m i=1

∑

m i=1 （

2

）文書集合

D

を形態素解析して、文書集合

D

から抽出された索引語集合（

indexing term

set

）

:T

を作成する。

T=

［

t

1

, t

2

,

…

, t

m］と表す。（

3

）文書集合

D

と索引語集合

T

から索引語

_t

iの

idf

（

_{inverse document frequency}

）を計算する。たとえば、

_t

iの

idf

は

n/n

iとなる。ここで、

n

は文書総数、

n

iは

t

iを含む文書数を表す。（

4

）ベクトル空間モデルに基づき文書集合

D

を

w

ijを要素とする索引語・文書行列（

term-document matrix

）を次式（

1

）で算出する。ここで、

_w

ijは文書

d

jに出現する索引語

t

iの重みである。

t

iの重みは

t

iの頻度

tf

（

term

frequency

）と、（

3

）で求めた

_t

iの

idf

の積で求まる。このような重み付けを

tf-idf

法という［

Kita 2002

］。ちえナビは（

1

）から（

4

）で求めた種々の値を研究者情報データベースとして管理している。（

1

）（

5

）検索キーワードが入力されると、（

1

）式の列と同様に検索質問ベクトル

_q

を次式（

2

）で求める。（

2

）ここで、

_w

qiは検索質問に含まれるキーワード

q

iに対応する索引語

t

iの重みである。（

6

）つぎに、索引語・文書行列

D

と検索質問ベクトル

_q

のコサイン尺度を次式（

₃

）で求めて、文 [ ]= = nm n2 n1 n

w

d

D

2m 1m 22 12 21 11 2 1 … … … … … … _… … =

w

q

qm q2 q1 …

(4)

collection

）と呼ばれる適合性情報の付与された評価データを用いる。 3.4. テスト・コレクションの設定と作成 テスト・コレクションは、ちえナビが対象にする全研究者に基づき作成すべきであるが、多様な分野の多数の研究者について検索質問を設定し、それぞれの研究者についてその適合性を判定することは極めて困難な作業である。一般には、文書集合のサンプリングを行い、そのサンプルと設定する検索質問により適合性をあらかじめ判定しておいて、再現率と精度を推定する手法が用いられている［

Kishi 

］。そこで本研究では、長浜バイオ大学をサンプリング対象とした。その理由は以下のとおりである。（

1

）研究内容の記載が充実していること。（

2

）単科大学であるため、研究分野が限定され適合性の判定が正確になること。このことは、 Ⅳのシソーラスの拡張による性能改善を試みるうえでも合理的である。（

3

）シソーラス辞書活用の有効性を判断する目的において研究者数が適度であること。テスト・コレクションはバイオサイエンス学科（遺伝子生命科学コース、分子生命科学コース、細胞生命科学コース、環境生命科学コース）

24

名、アニマルバイオサイエンス学科

9

名、コンピュータバイオサイエンス学科

8

名、一般教育・ビジネス教育

4

名に客員教授

7

名を加えた

52

名の教員を対象にした。また、検索キーワードとして

DNA

・遺伝子・細胞から病気治療や創薬に至る研究範囲を勘案して、その中核的物質となる「タンパク質」を設定した。そして、適合性の判断には、バイオテクノロジーによる動植物（特に人）の基礎研究および病気の原因解明や創薬に関わる研究内容を基準とした。一方、有用性はユーザ

A

が情報要求の段階では考えていなかった価値をこの文書によって新たに得た場合に生じる。以上のことから、適切性と有用性はユーザの知識構造あるいは主観的判断に依存するため客観的、定量的に評価することが難しい。そこで、一般的に適合性が情報検索システムの有効性を評価する尺度として用いられる。 3.3. 再現率と精度 適合性に基づく情報検索システムの評価は、次の

₂

つの観点から評価される。（

1

）完全性（

completeness

）（

2

）正確性（

accuracy

）完全性は検索質問に適合する文書を漏れなく検索できる度合を表し、評価尺度として再現率

R

（

recall

）で定義される。また、正確性は検索質問に適合する文書だけを検索できる度合を表し、精度

P

（

precision

）で定義される。それらを

Table.1

の交差行列で説明する。

A

）再現率

_R

：次式（

5

）で求められる。（

5

）

B

）精度

_P

：次式（

6

）で求められる。（

6

）この定義に基づき再現率と精度を計算するためには、検索対象となる文書集合

D

の文書

_d

jに対して、検索質問

_q

iの適合性が与えられている必要がある。一般には、テスト・コレクション（

test

x

w

R

= ₊

y

w

P

= ₊ 検索された文書検索されなかった文書適合文書 w x 非適合文書 y z Table.1 文書集合と検索文書の交差行列

(5)

20

となる。再現率と精度は

4

、

5

列目のように計算される。たとえば、順位

5

の再現率は（

5

）式から

w=5

であるため

_0.25

（

5/20

）となる。一方、精度は順位

5

までの文書すべてが適合しているため（

6

）式の

_{w=5, y=0}

より

_1.0

（

_5/5

）となる。なお、再現率が

_R

iのときの精度を再現率レベル（

recall

level

）

:R

iでの精度レベル（

precision level

）

:P

iとい

う。上位から何番目までを検索結果として採用するかにより再現率−精度特性は変化するが、本稿ではシステムが出力した全ての検索結果を採用して、これを総合性能と呼ぶことにする。シソーラス辞書を使用しない場合の総合性能は順位

19

の再現率

0.60

、精度

0.63

となる。この値を以降の性能評価の目安とする。この

Table.2

の再現率を横軸にとり、精度を縦軸にとって再現率−精度グラフを描くと

Fig.2

となる。再現率と精度は［

0, 1.0

］の範囲をとるが、両者が

_1.0

に近いほど検索システムの性能は高いといえる。しかし、実際には両者はトレード・オフ（

trade-

off

）の関係にあり、再現率を上げようとすると精度が下がり、逆に精度を上げようとすると再現率が下がる。よって、実際の検索システムでは利用目的に応じてどちらかを高めるようなシステム設計がなされる。ちえナビの場合、一般ユーザの立場からは精度の高いシステムが要求されるであろう。一方、大学関係者の立場からは

,

研究者の産学官連携機会の公平性から検索漏れの少ない再現率の高いシステムが求められる。産学官連携コーディネータは、ケースに応じて再現率と精度の優先要求が変わるであろう。ちえナビはⅡの開発経緯で述べたように大学の産学官連携機会の公平性を考慮して再現率を優先することになった。ただし、

_tf-idf

法による検索語の重み付けと（

₃

）式のベクトル空間モデルによるコサイン尺度によって検索結果をランキその結果

20

名を適合と判断したが、結果的に妥当なテスト・コレクションとなった。 3.5. ちえナビの再現率と精度による 性能評価と考察 3.5.1. シソーラス辞書を使用しない場合の 検索性能

Table.2

は、シソーラス辞書を使用しないで検索質問「タンパク質」により長浜バイオ大学の研究者を検索した結果である。順位は、ベクトル空間モデルによる（

3

）式で算出されるコサイン尺度（

>0

）の順である。

3

列目の適合性は

3.4.

のテスト・コレクションに基づき適合するものを○で示している。本研究では研究者と適合性のデータベースを作成し、検索結果との自然結合により得ている。性能評価にあたり、まず再現率と精度の計算方法について説明する。検索質問「タンパク質」に適合する文書は

20

件である。つまり（

5

）式の

_{w + x}

は Table.2 シソーラスを利用しない場合の 「タンパク質」による検索結果 順位研究者ID 適合性再現率R 精度P 1 R07 ○ 0.05 1.00 2 R14 ○ 0.10 1.00 3 R17 ○ 0.15 1.00 4 R43 ○ 0.20 1.00 5 R23 ○ 0.25 1.00 6 R28 ○ 0.30 1.00 7 R03 ○ 0.35 1.00 8 R15 0.35 0.88 9 R16 ○ 0.40 0.89 10 R25 0.40 0.80 11 R48 0.40 0.73 12 R35 ○ 0.45 0.75 13 R13 0.45 0.69 14 R30 ○ 0.50 0.71 15 R22 ○ 0.55 0.73 16 R39 0.55 0.69 17 R46 ○ 0.60 0.71 18 R19 0.60 0.67 19 R24 0.60 0.63

(6)

ング表示することで再現率優先の弊害を補正している。

Fig.2

は、その特長をよく表している。 3.5.2. シソーラス辞書を使用した場合の検索性能 つぎにシソーラス辞書を利用した場合の検索結果を

Table.3

に示す。検索件数が

27

となり、シソーラス辞書を利用しない場合の

1.4

倍となる。これはタンパク質の類義語が付加されたことにより、（

2

）式の検索質問ベクトルが拡張され、（

1

）式の索引語・文書行列から求められるコサイン尺度が大きくなり、より多くの研究者が出力されたためである。その結果、本評価ではテスト・コレクションに適合しない研究者が順位

1

になってしまっている。また、検索件数は増えたが適合する研究者は

1

件増えたにとどまり、総合性能は再現率

0.65

、精度

0.48

となりシソーラス辞書を利用しない場合と比べて良いとはいえない。特に順位

19

の再現率レベルで比べると、再現率と精度がそれぞれ

0.50

、

0.53

となり著しく性能低下している。

Table.3

の再現率−精度グラフは

Fig.3

となり、参考文献では掲載されることのないグラフを示すが、類似度に基づくランキング表示を行うとこのようなことが起こる。 Table.3 シソーラスを利用した 「タンパク質」による検索結果 順位研究者ID 適合性再現率R 精度P 1 R48 0.00 0.00 2 R07 ○ 0.05 0.50 3 R17 ○ 0.10 0.67 4 R03 0.10 0.50 5 R43 ○ 0.15 0.60 6 R14 ○ 0.20 0.67 7 R11 0.20 0.57 8 R41 ○ 0.25 0.63 9 R23 ○ 0.30 0.67 10 R35 ○ 0.35 0.70 11 R10 0.35 0.64 12 R13 0.35 0.58 13 R28 ○ 0.40 0.62 14 R15 0.40 0.57 15 R19 0.40 0.53 16 R16 ○ 0.45 0.56 17 R25 0.45 0.53 18 R20 0.45 0.50 19 R30 ○ 0.50 0.53 20 R42 0.50 0.50 21 R39 0.50 0.48 22 R32 0.50 0.45 23 R22 ○ 0.55 0.48 24 R51 ○ 0.60 0.50 25 R38 0.60 0.48 26 R46 ○ 0.65 0.50 27 R24 0.65 0.48 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率－精度グラフ（タンパク質で検索） Fig.2 Table.2の再現率−精度グラフ Fig.3 Table.3の再現率−精度グラフ 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率－精度グラフ（シソーラスを利用してタンパク質で検索）

(7)

5）当社は₂₀₁₃年7月1日をもって（株）エクシングにすべての事業を譲渡している。

IV

テキストマイニングによる

シソーラス辞書の改善と性能評価

ちえナビでは、（株）言語工学研究所5）_の_汎用シソーラス辞書を利用している。

_3.5.

の検索質問「タンパク質」はシソーラス辞書によって以下のように拡張されている。イ）同義語：蛋白質、たんぱく質、たん白質ロ）狭義語：アルブミン、カゼイン、ガンマ・グロブリン、ガンマグロブリン、グリシニン、グロブリン、ケラチン、コラーゲン、ゼラチン、フィブリン、プロテイン、ヘパリン、ミオシン、ラクトフェリン、レクチンハ）広義語：栄養｜種類、栄養素ニ）関連語：でんぷん、ビタミン、ミネラル、脂肪、炭水化物、糖、糖質、糖類、必す微量元素、ペプトン、ポリペプチド、脂質、無機質、水

Table.3

の順位

1

の研究者

R48

は「タンパク質、プロテイン、デンプン、脂質」が検索質問ベクトル

q

の要素となり、結果的にコサイン尺度が大きくなったが、研究内容は植物の環境適応を支えるメカニズムであるため適合しないと判定していた。ところで、ちえナビは、すべての類義語を使用するのではなく、一般ユーザに対してはイ）同義語による検索質問の拡張を行い、コーディネータに対してはイ）からハ）に示された類義語を選択できるようにしている。したがって、

Table.3

（

Fig.3

）の結果になるわけではない。そこで、以下、

4.1.

ではイ）同義語のみの拡張によるちえナビの性能評価を示し、

4.2.

では先行研究から汎用シソーラス辞書の問題を考察し、

4.3.

にてテキストマイニングによるシソーラス辞書の拡張法を提案して、その性能評価に基づき提案手法の有効性を示す。ところで、一般には検索質問ごとに再現率−精度特性が異なる。総合的な性能評価を行うためには、複数の検索質問からなる検索質問集合に対する再現率と精度の平均値で評価すべきであろう。その評価式には以下の

₂

つがあるので参考までに付記する。（

1

）マクロ平均（

macro average

）：検索質問ごとの再現率と精度を平均する。それらのマクロ平均

_R

と

_P

はそれぞれ（

7

）式と（

8

）式で計算できる。ただし、

Q

は検索質問の総数、

w

i

, x

i

, y

i は

_Table.1

と同じ意味で添字は検索質問を表している。（

7

）（

8

）（

2

）マイクロ平均（

micro average

）：検索質問を区別せずに

Table.1

のような交差行列を作成し平均を求める。再現率と精度のマイクロ平均

_R

と

_P

はそれぞれ（

9

）式と（

10

）式で計算できる。（

9

）（

10

）マクロ平均は個別の検索質問を区別し、それらを等しく重要だと考えて平均化しているのに対し、マイクロ平均では検索質問を区別しない評価方式である。

∑

= + = Q_i i i i

x

w

Q

R

1

1 + i i i

y

w

=

P

∑

= Q i

Q

1

∑

= + = Q i i i i

x

w

R

1

∑

= Q i 1(　　) (　　 )

P

∑

= + = Q i i i i

y

w

1

∑

= Q i 1

(8)

（

1

）汎用シソーラスには固有名詞や分野に依存する語が収録されていない。（

2

）汎用シソーラスには連想関係や推論を必要とするような語の関係は必ずしも記述されていない。（

3

）汎用シソーラスは分野に独立に語の関係を考えているので、検索対象となっている分野とは関係ない方向に索引語が拡張されてしまう。これらの改善策として、「同じ文脈に出現する語は意味的にも似ているはずである」という分布仮説（

distribution hypothesis

）に基づくシソーラス構築の研究が以下のように行われてきている。（

1

）ある動詞の主語あるいは目的語の関係から名詞を分類する［

Hind 0

］。（

2

）目的語の関係のみを用いる［

Pere 

］。（

3

）分類語彙表を用いて分類語彙表にない語に分類語彙表の意味コードを付加する［

Naka



］。（

4

）分布仮説に基づく語の距離を用いて新しい語を既存のシソーラス辞書の適切なクラスに分類する［

Toku 

］。（

5

）汎用のシソーラス辞書と分布仮説に基づくシソーラスを組み合わせる［

Manda 

］。 4.3. テキストマイニングによる シソーラス辞書の拡張と性能改善 筆者は、

4.2.

の汎用シソーラス辞書の問題である下線部と分布仮説に基づく研究に着目した。すなわち、同じ専門分野の研究者が使用する専門用語には共通性があり、かつ依存関係があると仮定し、その専門分野の文書集合の共起語情報に基づく汎用シソーラス辞書の拡張が有効であると考えた。そこで、テスト・コレクションの文書集合をテキストマイニングツール

_TTM

（

_{Tiny Text}

Miner

）［

Matsu 200

］と統計解析プログラム言 4.1. 一般ユーザ向けシソーラス拡張による 性能評価

_3.5.

のように、イ）からニ）までのすべての類義語を使用した場合の検索性能はシソーラス辞書を使用しない場合より劣ることが明らかとなった。しかし、ちえナビの一般ユーザに対する仕様では、イ）同義語のみを検索質問の拡張に用いており、

Fig.4

に示す再現率−精度グラフとなる。検索件数は

₂₁

件となり、総合性能は再現率

0.65

、精度

0.62

となる。また、順位

19

の再現率レベルにおける精度レベルは、それぞれ

0.65

、

0.68

となり、いずれの場合もシソーラス辞書を利用することで性能が改善される。 4.2. 汎用シソーラス辞書の問題と改善法

R.Mandana, T.Tokunaga

らはテスト・コレクション”

_Cranﬁeld

”や”

_INSPEC

”など

7

種に対して汎用シソーラス辞書”

_WordNet

”を用いて検索質問の拡張を行い、検索性能を検証した。その結果、汎用シソーラス辞書では性能が十分に改善されないことを明らかにしている［

Manda 

］。その原因として、以下の理由を挙げている［

Toku



］。 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率－精度グラフ（タンパク質とシソーラスで検索） Fig.4 一般ユーザ向けシソーラス拡張による再現率−精度グラフ

(9)

7）このアルゴリズムは、グラフの辺ができるだけ交差しないようにする。 6）http://mecab.googlecode.com/svn/trunk/mecab/ doc/index.html 語

R

［

Ishi 200

］［

Ishi 202

］を利用して、専門用語の共起語情報を発見しシソーラス辞書の拡張を行った。そのステップを以下に示す。

Step1.

長浜バイオ大学の研究者をタグにし、その研究内容をテキストとする

_CSV

ファイルを作成する。仮に”

N_Bio.csv

”とする。

Step2.

”

N_Bio.csv

”を

TTM

の入力ファイルにして、出力フォーマット

ttm3

（語×タグのクロス集計）と

ttm5

（語×語のクロス集計）のファイルを作成する。その際、形態素解析に

MeCab

6）_を_{使用する。また、品詞は名詞のみ} とする。

Step3. ttm3

から語とタグの出現頻度を観察する。また、

ttm5

から語と語の共起語情報を観察する。その結果、”

N_Bio.csv

”から抽出される語数（形態素）は名詞（合成名詞を含む）だけでも

_2,832

語となるため解析が困難である。そこで、抽出された語から「研究」や「開発」などの不要語をファイル化する。

Step4. Step2

にもどり、

Step3

で作成した不要語ファイルを指定して、再度

ttm3,ttm5

を求め有意な語の共起語情報を得る。

Step5.

“

N_bio_ttm5.csv

”の

2

行目と

2

列目を削除し、

R

の

_igraph

ライブラリーを利用して

plot

図を作成する。

Fruchterman-Reingold

layout

7）_で_{作成して加工したものが}

_Fig.5

_である。

Fig.5

から「タンパク質」と「がん」に共起語関係を認めることができる。そこで、「がん」をタンパク質のイ）同義語としてシソーラス辞書に追加して効果を計測する。ちえナビにはシソーラス辞書の拡張機能を組み込んでいる。その拡張方法は補足として

_Fig.7

に示す。 Fig.5 共起語情報のネットワーク図 Table.4 共起情報に基づく 拡張シソーラスによる検索結果 順位研究者ID 適合再現率R 精度P 1 R03 ○ 0.05 1.00 2 R30 ○ 0.10 1.00 3 R07 ○ 0.15 1.00 4 R41 ○ 0.20 1.00 5 R17 ○ 0.25 1.00 6 R22 ○ 0.30 1.00 7 R14 ○ 0.35 1.00 8 R43 ○ 0.40 1.00 9 R21 ○ 0.45 1.00 10 R28 ○ 0.50 1.00 11 R01 ○ 0.55 1.00 12 R23 ○ 0.60 1.00 13 R13 0.60 0.92 14 R15 0.60 0.86 15 R42 0.60 0.80 16 R04 0.60 0.75 17 R32 0.60 0.71 18 R25 0.60 0.67 19 R46 ○ 0.65 0.68 20 R35 ○ 0.70 0.70 21 R48 0.70 0.67 22 R16 ○ 0.75 0.68 23 R11 0.75 0.65 24 R06 0.75 0.63 25 R47 0.75 0.60 26 R29 ○ 0.80 0.62 27 R39 0.80 0.59 28 R19 0.80 0.57 29 R24 0.80 0.55

(10)

する語は、文書

d

j（

D

∋

d

j）においても共起する確率が高いためである。したがって、それぞれの分野で有益な共起語情報を見つけ出すことが要諦となる。この課題の解決コストは、類義語を網羅的に増やすコストよりもはるかに小さいと考える。

V

おわりに

本論文では滋賀県より業務委託されている滋賀県研究者情報システム「ちえナビ」の検索性能について、適合性の尺度である再現率と精度に基づきテスト・コレクションを作成して定量的に評価した。特に、再現率を向上させるために搭載している汎用シソーラス辞書の特性を明らかにした。そして、汎用シソーラス辞書では分野に依存する語が収録されないという問題に着目してテキストマイニングによるシソーラス辞書の改善法を考案した。すなわち、専門分野の文書集合をテキストマイニングし、その共起語情報から専門用語の依存関係を発見し、その関係に基づいて汎用シソーラス辞書の拡張を試みた。その結果、再現率と精度の両者の改善に有効であることが示された。よって、本手法は、ちえナビのような専門分野の情報を扱う情報検索システムにおいて特に効果的であり応用性がある手法といえる。また、近年増加している一般ユーザのシステム利用満足度を高めるために精度の改善が求められる。本提案手法はこの課題解決にも有効である。ところで、「タンパク質」を検索質問とするテスト・コレクションの作成において、テキストマイニングで見出した共起語「がん」の意識が適合性の判定に影響を与えていたのではないかという主観性混入の問題が懸念される。しかし、

_Table.4

において精度が

1.0

を維持する順位

12

までに「タンパク拡張したシソーラス辞書による検索結果を

Table.4

に示し、その再現率−精度グラフを

Fig.6

に示す。検索件数は

29

件となり、総合性能は再現率

0.80

、精度

0.55

となった。特筆すべきは順位

12

までの精度が

1.0

を示し、シソーラス辞書を利用しない場合の

Table.2

（

Fig.2

）と比べて約

2

倍の性能改善となった。このことは出力結果の上位から閲覧するユーザに高い満足度を与える。このように専門分野に依存する共起語情報からシソーラス辞書を拡張する手法には有効性が認められる。ところで、共起語情報では共起関係が強い、つまり共起頻度の高いことが必ずしもシソーラス辞書の拡張に寄与しないことに注意する必要がある。本研究の文書集合では「タンパク質」と「遺伝子」の共起頻度が最も高い。試しにタンパク質の同義語に遺伝子を加えてシソーラス辞書を拡張すると

40

件が検索され再現率レベルは

0.98

となるが、その精度レベルは

0.48

にとどまる。また、順位

19

の再現率と精度は

0.60

と

_0.63

となりシソーラス辞書を利用しない場合と変わらない。つまり、

_tf-idf

の概念と同様に、文書集合

D

において高頻度で共起 Fig.6 拡張シソーラスによる検索結果の再現率−精度グラフ 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率－精度グラフ（タンパク質と拡張シソーラスで検索）

(11)

今後の課題として、他の専門分野を対象に分野に依存するシソーラス辞書の拡張が残される。【付記】まず、

₂₀₀₃

年時、多くの自治体が競って作成した研究者情報データベースであるが、その後諸般の事情によりほとんどが廃止になるなかで、委託業務を継続して下さっている滋賀県の取り組みに敬意の念と感謝を申し上げる。そして、本論文は森將豪教授退職記念特集に掲載されるものであるが、先生には公私にわたり多大な世話を受けてきた。なかでも体力向上のために体育館でのトレーニングに誘って下されたことや、京都大学の博士号を取得するにあたって先生の博士論文を手本として提供下されたことは、孤軍奮闘していた筆者にとって大きな励ましとなった。衷心より感謝の意を表す。質」を一語も含まず「がん」のみで検索されたものは順位

9

の

₁

件のみであった。このことは、共起語情報によるシソーラス辞書の拡張が、ベクトル空間モデルによる類似度計算に作用し、

4.1.

のシソーラス辞書の拡張前では下位にあった適合者を上位に浮上させたことを表す。よって、テストコレクション作成における主観性のバイアスは極めて小さく、シソーラス辞書の拡張効果といえる。また、「タンパク質

or

がん｣を検索質問にすればシソーラス辞書の拡張は不要ではないかという考えもある。しかし、そのような検索質問の組み合わせは考えにくいといえる。仮にそのような組み合わせが行われた場合、ユーザの検索要求における比重は「がん」の方が高いと考えるのが妥当であり、本研究のテスト・コレクションによる検索性能評価とは別の課題である検索質問に関する問題と考える。この点に関しては、検索キーワードごとにユーザの意図で比重を付けられる仕組みをちえナビは備えている。補足 Fig.7 ちえナビのシソーラス拡張機能

(12)

［Salton ］ Salton,G., Wong,A. and Yang,CS.() /

“A Vector Space Model for automatic indexing”

Communication of the ACM, Vol., No., pp.-20.

［Tani 2004］谷口伸一（2004）／

「滋賀県研究者情報データベースシステムの研究と設計」

彦根論叢第348号／滋賀大学経済学部、pp.99-127。

［Toku ］ Tokunaga,T., Fujii,A., Iwayama,M., Sakurai,N. and Tanaka,H.() /

“Extending a thesaurus by classifying words”

In Proceedings of the ACL/EACL Workshop on Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications, pp.-2.

［Toku ］徳永健伸（1999）／

「情報検索と言語処理」／東京大学出版、pp.69-95、1999

参考文献

［Foskett 2］ Foskett, D. J.(2) /

“A note on the concept of relevance”,

Information Storage and Retrieval （2）, pp.-, 2

［Hind 0］ Hindle,D. (0) /

“Noun Classiﬁcation from predicate-argument structures” In Proceedings of the 2th_{Annual Meeting} of the Association for Computational Linguistics, pp.2-2. ［Ishi 200］石田基広（2008）／「Rによるテキストマイニング入門」／森北出版、pp.54-130。［Ishi 202］石田基広、金明哲（2012）／「コーパスとテキストマイニング」／森北出版、pp.198-203。［Kemp 4］Kemp,D.A.(1974)“ /

Relevance, pertinence and information system

development”Information Storage and Retrieval 10（2）、

pp.37-47.

［Kishi ］岸田和明（1998）／「情報検索の理論と技術」／

勁草書房、pp.234-253。

［Kita 2002］北研二、津田和彦、獅子堀正幹（2002）／

「情報検索アルゴリズム」／共立出版、pp.52-89。

［Manda ］Mandara,R., Tokunaga, T. & Tanaka,H.() /

“The use of WordNet in information retrieval”

Proceedings of Coling-ACL ’ workshop

“Usage of WordNet in Natural Language Processing Systems”, pp.-. ［Matsu 200］松村真宏、三浦麻子（2009）／「人文・社会科学のためのテキストマイニング」／誠信書房、pp.21-76。［Naka ］中野洋（1981）／「分類番号つけ支援システム」情報処理学会計算機言語研究会, CL-25, 1981 ［Ohmura 200］大村和夫、吉田慶志（2002）／「滋賀県内中小企業知的財産権の創造・保護・活用策」／滋賀県。

［Pere ］ Pereira,F., Tishby,N. & Lee,L.() /

“Distributional clustering of English words”

Proceeding of the st_{Annual meeting of} the Association for Computational Linguistics, pp.-0.

滋賀県研究者情報システムのテキストマイニングによる性能改善について

I

はじめに

Web

2003

348

Tani 2004

5

2008

348

recall

precision

滋賀県研究者情報

システムの

テキストマイニングによる

性能改善

について

II

ちえナビの開発経緯と利用状況

2002

TLO

Ohmura 200

TLO

TLO

COC

Fig.1

Web

Fig.1

2011

2013

25,000

1

3

20%

III

情報検索システムの性能評価

Tani 2004

1

crawler

9

2

Web

document set

D

D=

d

, d

,

d

d

q

3

7

d

3

Toku 

1

relevance

2

pertinence

3

usefulness

Foskett 2

Kemp

4

A

X

Y

A

X

X

4

4

∑

w

w

w

w

q

d

_Web

₂₀₀₃

_TLO

_Web

₂₀₁₁

₃

_Y

_A

_t

_{inverse document frequency}

_t

_w

_t

_q

_w

_q

₃