• 検索結果がありません。

滋賀県研究者情報システムのテキストマイニングによる性能改善について

N/A
N/A
Protected

Academic year: 2021

シェア "滋賀県研究者情報システムのテキストマイニングによる性能改善について"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

I

はじめに

 滋賀県から受託事業契約している1)滋賀県研 究者情報システム(愛称をちえナビという。以下、 「ちえナビ」と記す)の

Web

サーバが滋賀大学情報 処理センターにある。ちえナビは筆者2)

2003

に滋賀県より研究委託され設計・開発したシステ ムで、その理論と設計に関しては彦根論叢第

348

号にて報告している[

Tani 2004

]。ちえナビは

5

年 間の研究委託期間を経て、

2008

年より滋賀大学 の受託事業となり今日に至っている。  本稿は、彦根論叢第

348

号では言及できなかっ たちえナビの検索性能に関する評価と、テキストマ イニングによるシソーラス辞書拡張による性能改 善について論じる。一般的に検索性能は、適合す る情報を漏れなく出力する再現率(

recall

)と、ユー ザが必要としている情報を的確に出力する精度 (

precision

)で評価されるが、再現率と精度とはト レードオフの関係になることがわかっている。当該 システムは産学官連携を推進する大学と公設機 関のコーディネータの利用を主たる目的としていた ため、研究者の網羅性を優先することが要件で あった。そこで、ちえナビでは汎用シソーラス辞書 を搭載して検索質問の拡張を行い再現率の向上 を図った。しかし、汎用シソーラス辞書の利用に は精度をより一層低下させるという問題がある。ま た、近年、一般ユーザの利用が増加してきているこ とから、ちえナビの再現率と精度の定量的な性能 評価に基づいて、一般ユーザの満足度を向上させ るために精度の改善を図る必要がある。一方、情 報検索理論では汎用シソーラス辞書の改善法が 一つの課題としてある。これらの精度とシソーラス 辞書の課題に対して、テキストマイニングからのア プローチによる解決法を提案する。

滋賀県研究者情報

システムの

テキストマイニングによる

性能改善

について

谷口伸一 Shinichi Taniguchi 滋賀大学経済学部 / 教授 論文 1)担当部署は滋賀県商工観光労働部 中小企業支援課である。 2)プログラムのコーディングと実装は、

(2)

 以下、Ⅱでは、ちえナビの開発経緯と利用状況 を示す。Ⅲでは情報検索技術と性能評価尺度を 説明して、ちえナビの再現率と精度の定量的な性 能評価を行う。そして、Ⅳでテキストマイニングに よるシソーラス辞書の拡張法を提案し、検索性能 が改善されることを示す。

II

ちえナビの開発経緯と利用状況

 滋賀県は

2002

年に滋賀大学との共同研究「滋 賀県内中小企業知的財産権の創造・保護・活用 策 」を行 い、

TLO

3)設立に関して検討した

Ohmura 200

]。その結果、

TLO

の維持および 管理運用にリスクがあることを考慮し、ハードとな る

TLO

を設立することよりも産学官連携を担当す る県内公設機関のコーディネータや大学関係者ら が、大学のシーズと企業のニーズをマッチングする うえで重要 な情報源となる滋賀県研究者情報 データベースと産学官連携の環境整備というソフ トの充実を図ることにした。ちえナビは、この結論 を受けて研究委託され開発されたものである。  今日、大学等の技術移転については、当時のよ うな勢いはないが、日本の科学技術を牽引するた めの大学の使命であることに変わりはない。また、 文部科学省は、大学が自治体と連携し、全学的に 地域を志向した教育・研究・社会貢献を進めて、 課題解決に資する様々な人材や情報・技術が集 まる地域コミュニティの中核的存在としての大学 の機能強化を図る「地(知)の拠点整備事業(大学

COC

事業)」の推進を決めている4)。社会科学分 野も含めて大学を取り巻く環境変化のなか、ちえ ナビの存在価値が再び高まると筆者は考えている。  

Fig.1

は、ちえナビのアクセス数推移である。こ のアクセス数は、

Web

ページビューとは異なり、研 究者情報検索のためにキーワードを入力して検索 処理を実行した回数を集計したものである。ちえ ナビはその集計機能を有している。

Fig.1

より

2011

年度から急増して、

2013

年度は

25,000

アクセスに 達し、近年の利用が増していることがわかる。一方、 月別のアクセス数では、

1

月から

3

月にかけての年 度末が多く、他の月の

20%

増となる特徴がみられ る。これらは企業等の経済活動と連動しているも のと考えられる。  

III

情報検索システムの性能評価

3.1. ちえナビの検索技術  性能評価について論じるにあたり、ちえナビの 検索技術を参考文献[

Tani 2004

]に基づき、以 下のとおり要約する。 (

1

)クローラ(

crawler

)が滋賀県内

9

大学と

2

工業 技術センターの研究者紹介

Web

ページを巡 回して研究者情報を収集する。これを文書集 合(

document set

):

D

とする。

D=

d

1

, d

2

,

d

n]と表す。 5,000 10,000 15,000 20,000 25,000 30,000 2005 2006 2007 2008 2009 2010 2011 2012 2013 検索回数 年度 年度別アクセス数推移 Fig.1 ちえナビの年度別アクセス数推移

(3)

d

jと検索質問ベクトル

q

との類似度を計算 する。 (

3

) (

7

)文書

d

(研究者名と研究内容)を類似度順にj 表示する。 3.2. 情報検索システムの有効性の評価尺度  情報検索システムの有効性は検索結果に対し 与えられる評価であり、これに関する評価尺度とし て、以下の

3

つが考えられる[

Toku 

]。 (

1

)適合性(

relevance

) (

2

)適切性(

pertinence

) (

3

)有用性(

usefulness

)  適合性は客観的な判断を前提として検索質問 に適合する文書を文書集合から検索できる度合 で計られる。適切性はユーザの情報要求を満足さ せる文書を文書集合から検索できる度合で計ら れる。すなわち適合性はあるパラダイムやある分 野に存在する合意によって判断されるものであり、 適切性はユーザ個々の知識構造によって判断さ れる個人的なものである[

Foskett 2

][

Kemp

4

]。  たとえば、ちえナビを利用するユーザ

A

に対して 研究者

X

Y

を検索結果として与えたとする。事前 にユーザ

A

が研究者

X

の研究内容を知っていた場 合、研究者

X

の情報提供は適切ではないと判断さ れる。適合性と適切性には次式(

4

)の関係が成り 立つといえる。 適合性∋適切性 (

4

= = qi ij m qi ij j j j

w

w

w

w

q

d

d

q

q

d

, ) 2 2

cos(

・ ・ i=1

m i=1

m i=1

2

)文書集合

D

を形態素解析して、文書集合

D

か ら抽出された 索引語集合(

indexing term

set

:T

を作成する。

T=

t

1

, t

2

,

, t

m]と表す。 (

3

)文書集合

D

と索引語集合

T

から索引語

t

iの

idf

inverse document frequency

)を計算する。 たとえば、

t

iの

idf

n/n

iとなる。ここで、

n

は文 書総数、

n

iは

t

iを含む文書数を表す。 (

4

)ベクトル空間モデルに基づき文書集合

D

w

ijを要素とする索引語・文書行列(

term-document matrix

)を次式(

1

)で算出する。 ここで、

w

ijは文書

d

jに出現する索引語

t

iの重 み で あ る。

t

iの重 み は

t

iの頻 度

tf

term

frequency

)と、(

3

)で求めた

t

iの

idf

の積で求 まる。このような重み付けを

tf-idf

法という [

Kita 2002

]。ちえナビは(

1

)から(

4

)で求め た種々の値を研究者情報データベースとして 管理している。 (

1

) (

5

)検索キーワードが入力されると、(

1

)式の列と 同様に検索質問ベクトル

q

を次式(

2

)で求 める。 (

2

) ここで、

w

qiは検索質問に含まれるキーワード

q

iに 対応する索引語

t

iの重みである。 (

6

)つぎに、索引語・文書行列

D

と検索質問ベク トル

q

のコサイン尺度を次式(

3

)で求めて、文 [ ]= = nm n2 n1 n

w

w

w

w

w

w

w

w

w

d

d

d

D

2m 1m 22 12 21 11 2 1 … … … … … … =

w

w

w

q

qm q2 q1

(4)

collection

)と呼ばれる適合性情報の付与された 評価データを用いる。 3.4. テスト・コレクションの設定と作成  テスト・コレクションは、ちえナビが対象にする 全研究者に基づき作成すべきであるが、多様な分 野の多数の研究者について検索質問を設定し、 それぞれの研究者についてその適合性を判定する ことは極めて困難な作業である。一般には、文書 集合のサンプリングを行い、そのサンプルと設定 する検索質問により適合性をあらかじめ判定して おいて、再現率と精度を推定する手法が用いられ ている[

Kishi 

]。  そこで本研究では、長浜バイオ大学をサンプリ ング対象とした。その理由は以下のとおりである。 (

1

)研究内容の記載が充実していること。 (

2

)単科大学であるため、研究分野が限定され 適合性の判定が正確になること。このことは、 Ⅳのシソーラスの拡張による性能改善を試み るうえでも合理的である。 (

3

)シソーラス辞書活用の有効性を判断する目 的において研究者数が適度であること。  テスト・コレクションはバイオサイエンス学科 (遺伝子生命科学コース、分子生命科学コース、 細胞生命科学コース、環境生命科学コース)

24

名、 アニマルバイオサイエンス学科

9

名、コンピュータ バイオサイエンス学科

8

名、一般教育・ビジネス 教育

4

名に客員教授

7

名を加えた

52

名の教員を対 象にした。  また、検索キーワードとして

DNA

・遺伝子・細 胞から病気治療や創薬に至る研究範囲を勘案し て、その中核的物質となる「タンパク質」を設定し た。そして、適合性の判断には、バイオテクノロジー による動植物(特に人)の基礎研究および病気の 原因解明や創薬に関わる研究内容を基準とした。  一方、有用性はユーザ

A

が情報要求の段階では 考えていなかった価値をこの文書によって新たに 得た場合に生じる。以上のことから、適切性と有 用性はユーザの知識構造あるいは主観的判断に 依存するため客観的、定量的に評価することが難 しい。そこで、一般的に適合性が情報検索システ ムの有効性を評価する尺度として用いられる。 3.3. 再現率と精度  適合性に基づく情報検索システムの評価は、次 の

2

つの観点から評価される。 (

1

)完全性(

completeness

) (

2

)正確性(

accuracy

)  完全性は検索質問に適合する文書を漏れなく 検索できる度合を表し、評価尺度として再現率

R

recall

)で定義される。また、正確性は検索質問 に適合する文書だけを検索できる度合を表し、精 度

P

precision

)で定義される。それらを

Table.1

の交差行列で説明する。

A

)再現率

R

:次式(

5

)で求められる。 (

5

B

)精度

P

:次式(

6

)で求められる。 (

6

)  この定義に基づき再現率と精度を計算するた めには、検索対象となる文書集合

D

の文書

d

jに対 して、検索質問

q

iの適合性が与えられている必要 がある。一般には、テスト・コレクション(

test

x

w

w

R

= +

y

w

w

P

= + 検索された文書 検索されなかった文書 適合文書 w x 非適合文書 y z Table.1 文書集合と検索文書の交差行列

(5)

20

となる。再現率と精度は

4

5

列目のように計算 される。たとえば、順位

5

の再現率は(

5

)式から

w=5

であるため

0.25

5/20

)となる。一方、精度は 順位

5

までの文書すべてが適合しているため(

6

) 式の

w=5, y=0

より

1.0

5/5

)となる。なお、再現率 が

R

iの と き の精 度 を 再 現 率 レ ベ ル(

recall

level

:R

iでの精度レベル(

precision level

:P

iとい

う。上位から何番目までを検索結果として採用す るかにより再現率−精度特性は変化するが、本稿 ではシステムが出力した全ての検索結果を採用し て、これを総合性能と呼ぶことにする。シソーラス 辞書を使用しない場合の総合性能は順位

19

の再 現率

0.60

、精度

0.63

となる。この値を以降の性能 評価の目安とする。  この

Table.2

の再現率を横軸にとり、精度を縦 軸にとって再現率−精度グラフを描くと

Fig.2

とな る。再現率と精度は[

0, 1.0

]の範囲をとるが、両者 が

1.0

に近いほど検索システムの性能は高いといえ る。しかし、実際には両者はトレード・オフ(

trade-

off

)の関係にあり、再現率を上げようとすると精度 が下がり、逆に精度を上げようとすると再現率が下 がる。よって、実際の検索システムでは利用目的に 応じてどちらかを高めるようなシステム設計がなさ れる。  ちえナビの場合、一般ユーザの立場からは精度 の高いシステムが要求されるであろう。一方、大学 関係者の立場からは

,

研究者の産学官連携機会 の公平性から検索漏れの少ない再現率の高いシ ステムが求められる。産学官連携コーディネータは、 ケースに応じて再現率と精度の優先要求が変わる であろう。ちえナビはⅡの開発経緯で述べたよう に大学の産学官連携機会の公平性を考慮して再 現率を優先することになった。ただし、

tf-idf

法によ る検索語の重み付けと(

3

)式のベクトル空間モデ ルによるコサイン尺度によって検索結果をランキ その結果

20

名を適合と判断したが、結果的に妥当 なテスト・コレクションとなった。 3.5. ちえナビの再現率と精度による 性能評価と考察 3.5.1. シソーラス辞書を使用しない場合の 検索性能

Table.2

は、シソーラス辞書を使用しないで検 索質問「タンパク質」により長浜バイオ大学の研 究者を検索した結果である。順位は、ベクトル空 間モデルによる(

3

)式で算出されるコサイン尺度 (

>0

)の順である。

3

列目の適合性は

3.4.

のテスト・ コレクションに基づき適合するものを○で示して いる。本研究では研究者と適合性のデータベース を作成し、検索結果との自然結合により得ている。  性能評価にあたり、まず再現率と精度の計算方 法について説明する。検索質問「タンパク質」に適 合する文書は

20

件である。つまり(

5

)式の

w + x

は Table.2 シソーラスを利用しない場合の 「タンパク質」による検索結果 順位 研究者ID 適合性 再現率R 精度P 1 R07 ○ 0.05 1.00 2 R14 ○ 0.10 1.00 3 R17 ○ 0.15 1.00 4 R43 ○ 0.20 1.00 5 R23 ○ 0.25 1.00 6 R28 ○ 0.30 1.00 7 R03 ○ 0.35 1.00 8 R15 0.35 0.88 9 R16 ○ 0.40 0.89 10 R25   0.40 0.80 11 R48   0.40 0.73 12 R35 ○ 0.45 0.75 13 R13   0.45 0.69 14 R30 ○ 0.50 0.71 15 R22 ○ 0.55 0.73 16 R39   0.55 0.69 17 R46 ○ 0.60 0.71 18 R19   0.60 0.67 19 R24   0.60 0.63

(6)

ング表示することで再現率優先の弊害を補正して いる。

Fig.2

は、その特長をよく表している。 3.5.2. シソーラス辞書を使用した場合の検索性能  つぎにシソーラス辞書を利用した場合の検索 結果を

Table.3

に示す。検索件数が

27

となり、シ ソーラス辞書を利用しない場合の

1.4

倍となる。こ れはタンパク質の類義語が付加されたことにより、 (

2

)式の検索質問ベクトルが拡張され、(

1

)式の 索引語・文書行列から求められるコサイン尺度が 大きくなり、より多くの研究者が出力されたためで ある。その結果、本評価ではテスト・コレクション に適合しない研究者が順位

1

になってしまっている。 また、検索件数は増えたが適合する研究者は

1

件 増えたにとどまり、総合性能は再現率

0.65

、精度

0.48

となりシソーラス辞書を利用しない場合と比 べて良いとはいえない。特に順位

19

の再現率レベ ルで比べると、再現率と精度がそれぞれ

0.50

0.53

となり著しく性能低下している。  

Table.3

の再現率−精度グラフは

Fig.3

となり、 参考文献では掲載されることのないグラフを示す が、類似度に基づくランキング表示を行うとこのよ うなことが起こる。 Table.3 シソーラスを利用した 「タンパク質」による検索結果 順位 研究者ID 適合性 再現率R 精度P 1 R48   0.00 0.00 2 R07 ○ 0.05 0.50 3 R17 ○ 0.10 0.67 4 R03   0.10 0.50 5 R43 ○ 0.15 0.60 6 R14 ○ 0.20 0.67 7 R11   0.20 0.57 8 R41 ○ 0.25 0.63 9 R23 ○ 0.30 0.67 10 R35 ○ 0.35 0.70 11 R10   0.35 0.64 12 R13   0.35 0.58 13 R28 ○ 0.40 0.62 14 R15   0.40 0.57 15 R19   0.40 0.53 16 R16 ○ 0.45 0.56 17 R25   0.45 0.53 18 R20   0.45 0.50 19 R30 ○ 0.50 0.53 20 R42   0.50 0.50 21 R39   0.50 0.48 22 R32   0.50 0.45 23 R22 ○ 0.55 0.48 24 R51 ○ 0.60 0.50 25 R38   0.60 0.48 26 R46 ○ 0.65 0.50 27 R24   0.65 0.48 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率-精度グラフ(タンパク質で検索) Fig.2 Table.2の再現率−精度グラフ Fig.3 Table.3の再現率−精度グラフ 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率-精度グラフ (シソーラスを利用してタンパク質で検索)

(7)

5)当社は2013年7月1日をもって(株)エクシングに すべての事業を譲渡している。

IV

テキストマイニングによる

シソーラス辞書の改善と性能評価

 ちえナビでは、(株)言語工学研究所5)汎用シ ソーラス辞書を利用している。

3.5.

の検索質問「タ ンパク質」はシソーラス辞書によって以下のように 拡張されている。 イ)同義語:蛋白質、たんぱく質、たん白質 ロ)狭義語:アルブミン、カゼイン、ガンマ・グロ ブリン、ガンマグロブリン、グリシニン、グロ ブリン、ケラチン、コラーゲン、ゼラチン、フィ ブリン、プロテイン、ヘパリン、ミオシン、ラク トフェリン、レクチン ハ)広義語:栄養|種類、栄養素 ニ)関連語:でんぷん、ビタミン、ミネラル、脂肪、 炭水化物、糖、糖質、糖類、必す微量元素、ペ プトン、ポリペプチド、脂質、無機質、水  

Table.3

の順位

1

の研究者

R48

は「タンパク質、 プロテイン、デンプン、脂質」が検索質問ベクトル

q

の要素となり、結果的にコサイン尺度が大きく なったが、研究内容は植物の環境適応を支えるメ カニズムであるため適合しないと判定していた。  ところで、ちえナビは、すべての類義語を使用す るのではなく、一般ユーザに対してはイ)同義語に よる検索質問の拡張を行い、コーディネータに対 してはイ)からハ)に示された類義語を選択できる ようにしている。したがって、

Table.3

Fig.3

)の結 果になるわけではない。そこで、以下、

4.1.

ではイ) 同義語のみの拡張によるちえナビの性能評価を示 し、

4.2.

では先行研究から汎用シソーラス辞書の 問題を考察し、

4.3.

にてテキストマイニングによる シソーラス辞書の拡張法を提案して、その性能評 価に基づき提案手法の有効性を示す。  ところで、一般には検索質問ごとに再現率−精 度特性が異なる。総合的な性能評価を行うために は、複数の検索質問からなる検索質問集合に対す る再現率と精度の平均値で評価すべきであろう。 その評価式には以下の

2

つがあるので参考までに 付記する。 (

1

)マクロ平均(

macro average

):検索質問ごと の再現率と精度を平均する。それらのマクロ 平均

R

P

はそれぞれ(

7

)式と(

8

)式で計算で きる。ただし、

Q

は検索質問の総数、

w

i

, x

i

, y

i は

Table.1

と同じ意味で添字は検索質問を表 している。 (

7

) (

8

) (

2

)マイクロ平均(

micro average

):検索質問を 区別せずに

Table.1

のような交差行列を作成 し平均を求める。再現率と精度のマイクロ平 均

R

P

はそれぞれ(

9

)式と(

10

)式で計算で きる。 (

9

) (

10

)  マクロ平均は個別の検索質問を区別し、それら を等しく重要だと考えて平均化しているのに対し、 マイクロ平均では検索質問を区別しない評価方 式である。

= + = Qi i i i

x

w

w

Q

R

1

1 + i i i

y

w

w

=

P

= Q i

Q

1

1

= + = Q i i i i

x

w

w

R

1

= Q i 1(   ) (   )

P

= + = Q i i i i

y

w

w

1

= Q i 1

(8)

1

)汎用シソーラスには固有名詞や分野に依存 する語が収録されていない。 (

2

)汎用シソーラスには連想関係や推論を必要 とするような語の関係は必ずしも記述されて いない。 (

3

)汎用シソーラスは分野に独立に語の関係を 考えているので、検索対象となっている分野と は関係ない方向に索引語が拡張されてしまう。  これらの改善策として、「同じ文脈に出現する語 は意味的にも似ているはずである」という分布仮説 (

distribution hypothesis

)に基づくシソーラス構 築の研究が以下のように行われてきている。 (

1

)ある動詞の主語あるいは目的語の関係から 名詞を分類する[

Hind 0

]。 (

2

)目的語の関係のみを用いる[

Pere 

]。 (

3

)分類語彙表を用いて分類語彙表にない語に 分類語彙表の意味コードを付加する[

Naka



]。 (

4

)分布仮説に基づく語の距離を用いて新しい 語を既存のシソーラス辞書の適切なクラスに 分類する[

Toku 

]。 (

5

)汎用のシソーラス辞書と分布仮説に基づくシ ソーラスを組み合わせる[

Manda 

]。 4.3. テキストマイニングによる シソーラス辞書の拡張と性能改善  筆者は、

4.2.

の汎用シソーラス辞書の問題であ る下線部と分布仮説に基づく研究に着目した。す なわち、同じ専門分野の研究者が使用する専門 用語には共通性があり、かつ依存関係があると仮 定し、その専門分野の文書集合の共起語情報に 基づく汎用シソーラス辞書の拡張が有効であると 考えた。そこで、テスト・コレクションの文書集合 を テキストマイニングツ ール

TTM

Tiny Text

Miner

)[

Matsu 200

]と統計解析プログラム言 4.1. 一般ユーザ向けシソーラス拡張による 性能評価

3.5.

のように、イ)からニ)までのすべての類義 語を使用した場合の検索性能はシソーラス辞書 を使用しない場合より劣ることが明らかとなった。 しかし、ちえナビの一般ユーザに対する仕様では、 イ)同義語のみを検索質問の拡張に用いており、

Fig.4

に示す再現率−精度グラフとなる。検索件数 は

21

件となり、総合性能は再現率

0.65

、精度

0.62

となる。また、順位

19

の再現率レベルにおける精 度レベルは、それぞれ

0.65

0.68

となり、いずれの 場合もシソーラス辞書を利用することで性能が改 善される。 4.2. 汎用シソーラス辞書の問題と改善法

R.Mandana, T.Tokunaga

らはテスト・コレク ション”

Cranfield

”や”

INSPEC

”など

7

種に対して 汎用シソーラス辞書”

WordNet

”を用いて検索質 問の拡張を行い、検索性能を検証した。その結果、 汎用シソーラス辞書では性能が十分に改善され ないことを明らかにしている[

Manda 

]。  その原因として、以下の理由を挙げている[

Toku



]。 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率-精度グラフ (タンパク質とシソーラスで検索) Fig.4 一般ユーザ向けシソーラス拡張による 再現率−精度グラフ

(9)

7)このアルゴリズムは、グラフの辺ができるだけ 交差しないようにする。 6)http://mecab.googlecode.com/svn/trunk/mecab/ doc/index.html 語

R

Ishi 200

][

Ishi 202

]を利用して、専門用 語の共起語情報を発見しシソーラス辞書の拡張 を行った。そのステップを以下に示す。

Step1.

長浜バイオ大学の研究者をタグにし、そ の研究内容をテキストとする

CSV

ファイルを 作成する。仮に”

N_Bio.csv

”とする。

Step2.

N_Bio.csv

”を

TTM

の入力ファイルにし て、出力フォーマット

ttm3

(語×タグのクロス 集計)と

ttm5

(語×語のクロス集計)のファイ ル を作成 す る。そ の 際、形態素 解 析 に

MeCab

6)使用する。また、品詞は名詞のみ とする。

Step3. ttm3

から語とタグの出現頻度を観察する。 また、

ttm5

から語と語の共起語情報を観察 する。その結果、”

N_Bio.csv

”から抽出され る語数(形態素)は名詞(合成名詞を含む)だ けでも

2,832

語となるため解析が困難である。 そこで、抽出された語から「研究」や「開発」な どの不要語をファイル化する。

Step4. Step2

にもどり、

Step3

で作成した不要語 ファイルを指定して、再度

ttm3,ttm5

を求め 有意な語の共起語情報を得る。

Step5.

N_bio_ttm5.csv

”の

2

行目と

2

列目を削 除し、

R

igraph

ライブラリーを利用して

plot

図 を 作 成 す る。

Fruchterman-Reingold

layout

7)作成して加工したものが

Fig.5

ある。  

Fig.5

から「タンパク質」と「がん」に共起語関係 を認めることができる。そこで、「がん」をタンパク 質のイ)同義語としてシソーラス辞書に追加して効 果を計測する。ちえナビにはシソーラス辞書の拡 張機能を組み込んでいる。その拡張方法は補足と して

Fig.7

に示す。 Fig.5 共起語情報のネットワーク図 Table.4 共起情報に基づく 拡張シソーラスによる検索結果 順位 研究者ID 適合 再現率R 精度P 1 R03 ○ 0.05 1.00 2 R30 ○ 0.10 1.00 3 R07 ○ 0.15 1.00 4 R41 ○ 0.20 1.00 5 R17 ○ 0.25 1.00 6 R22 ○ 0.30 1.00 7 R14 ○ 0.35 1.00 8 R43 ○ 0.40 1.00 9 R21 ○ 0.45 1.00 10 R28 ○ 0.50 1.00 11 R01 ○ 0.55 1.00 12 R23 ○ 0.60 1.00 13 R13   0.60 0.92 14 R15   0.60 0.86 15 R42   0.60 0.80 16 R04   0.60 0.75 17 R32   0.60 0.71 18 R25   0.60 0.67 19 R46 ○ 0.65 0.68 20 R35 ○ 0.70 0.70 21 R48   0.70 0.67 22 R16 ○ 0.75 0.68 23 R11   0.75 0.65 24 R06   0.75 0.63 25 R47   0.75 0.60 26 R29 ○ 0.80 0.62 27 R39   0.80 0.59 28 R19   0.80 0.57 29 R24   0.80 0.55

(10)

する語は、文書

d

j(

D

d

j)においても共起する確 率が高いためである。  したがって、それぞれの分野で有益な共起語情 報を見つけ出すことが要諦となる。この課題の解 決コストは、類義語を網羅的に増やすコストよりも はるかに小さいと考える。

V

おわりに

 本論文では滋賀県より業務委託されている滋 賀県研究者情報システム「ちえナビ」の検索性能 について、適合性の尺度である再現率と精度に基 づきテスト・コレクションを作成して定量的に評価 した。特に、再現率を向上させるために搭載してい る汎用シソーラス辞書の特性を明らかにした。そ して、汎用シソーラス辞書では分野に依存する語 が収録されないという問題に着目してテキストマイ ニングによるシソーラス辞書の改善法を考案した。 すなわち、専門分野の文書集合をテキストマイニ ングし、その共起語情報から専門用語の依存関 係を発見し、その関係に基づいて汎用シソーラス 辞書の拡張を試みた。その結果、再現率と精度の 両者の改善に有効であることが示された。よって、 本手法は、ちえナビのような専門分野の情報を扱 う情報検索システムにおいて特に効果的であり応 用性がある手法といえる。また、近年増加している 一般ユーザのシステム利用満足度を高めるために 精度の改善が求められる。本提案手法はこの課 題解決にも有効である。  ところで、「タンパク質」を検索質問とするテス ト・コレクションの作成において、テキストマイニ ングで見出した共起語「がん」の意識が適合性の 判定に影響を与えていたのではないかという主観 性混入の問題が懸念される。しかし、

Table.4

にお いて精度が

1.0

を維持する順位

12

までに「タンパク   拡張したシソーラス辞書による検索結果を

Table.4

に示し、その再現率−精度グラフを

Fig.6

に示す。   検索件数 は

29

件となり、総合性能は再現率

0.80

、精度

0.55

となった。特筆すべきは順位

12

ま での精度が

1.0

を示し、シソーラス辞書を利用しな い場合の

Table.2

Fig.2

)と比べて約

2

倍の性能 改善となった。このことは出力結果の上位から閲 覧するユーザに高い満足度を与える。このように 専門分野に依存する共起語情報からシソーラス 辞書を拡張する手法には有効性が認められる。  ところで、共起語情報では共起関係が強い、つ まり共起頻度の高いことが必ずしもシソーラス辞 書の拡張に寄与しないことに注意する必要がある。 本研究の文書集合では「タンパク質」と「遺伝子」 の共起頻度が最も高い。試しにタンパク質の同義 語に遺伝子を加えてシソーラス辞書を拡張すると

40

件が検索され再現率レベルは

0.98

となるが、そ の精度レベルは

0.48

にとどまる。また、順位

19

の 再現率と精度は

0.60

0.63

となりシソーラス辞書 を利用しない場合と変わらない。つまり、

tf-idf

の 概念と同様に、文書集合

D

において高頻度で共起 Fig.6 拡張シソーラスによる検索結果の 再現率−精度グラフ 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 精度 (p rec is io n) 再現率(recall) 再現率-精度グラフ (タンパク質と拡張シソーラスで検索)

(11)

 今後の課題として、他の専門分野を対象に分野 に依存するシソーラス辞書の拡張が残される。 【付記】  まず、

2003

年時、多くの自治体が競って作成し た研究者情報データベースであるが、その後諸般 の事情によりほとんどが廃止になるなかで、委託 業務を継続して下さっている滋賀県の取り組みに 敬意の念と感謝を申し上げる。  そして、本論文は森將豪教授退職記念特集に 掲載されるものであるが、先生には公私にわたり 多大な世話を受けてきた。なかでも体力向上のた めに体育館でのトレーニングに誘って下されたこ とや、京都大学の博士号を取得するにあたって先 生の博士論文を手本として提供下されたことは、 孤軍奮闘していた筆者にとって大きな励ましとなっ た。衷心より感謝の意を表す。 質」を一語も含まず「がん」のみで検索されたもの は順位

9

1

件のみであった。このことは、共起語 情報によるシソーラス辞書の拡張が、ベクトル空 間モデルによる類似度計算に作用し、

4.1.

のシソー ラス辞書の拡張前では下位にあった適合者を上 位に浮上させたことを表す。よって、テストコレク ション作成における主観性のバイアスは極めて小 さく、シソーラス辞書の拡張効果といえる。また、 「タンパク質

or

がん」を検索質問にすればシソー ラス辞書の拡張は不要ではないかという考えもあ る。しかし、そのような検索質問の組み合わせは 考えにくいといえる。仮にそのような組み合わせが 行われた場合、ユーザの検索要求における比重は 「がん」の方が高いと考えるのが妥当であり、本研 究のテスト・コレクションによる検索性能評価と は別の課題である検索質問に関する問題と考える。 この点に関しては、検索キーワードごとにユーザの 意図で比重を付けられる仕組みをちえナビは備え ている。 補足 Fig.7 ちえナビのシソーラス拡張機能

(12)

[Salton ] Salton,G., Wong,A. and Yang,CS.() /

A Vector Space Model for automatic indexing

Communication of the ACM, Vol., No., pp.-20.

[Tani 2004]谷口伸一(2004)/

「滋賀県研究者情報データベースシステムの研究と設計」

彦根論叢第348号/滋賀大学経済学部、pp.99-127。

[Toku ] Tokunaga,T., Fujii,A., Iwayama,M., Sakurai,N. and Tanaka,H.() /

Extending a thesaurus by classifying words

In Proceedings of the ACL/EACL Workshop on Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications, pp.-2.

[Toku ]徳永健伸(1999)/

「情報検索と言語処理」/東京大学出版、pp.69-95、1999

参考文献

[Foskett 2] Foskett, D. J.(2) /

A note on the concept of relevance”,

Information Storage and Retrieval (2), pp.-, 2

[Hind 0] Hindle,D. (0) /

Noun Classification from predicate-argument structures” In Proceedings of the 2th Annual Meeting of the Association for Computational Linguistics, pp.2-2. [Ishi 200]石田基広(2008)/ 「Rによるテキストマイニング入門」/ 森北出版、pp.54-130。 [Ishi 202]石田基広、金明哲(2012)/ 「コーパスとテキストマイニング」/ 森北出版、pp.198-203。 [Kemp 4]Kemp,D.A.(1974)“ /

Relevance, pertinence and information system

development”Information Storage and Retrieval 10(2)、

pp.37-47.

[Kishi ]岸田和明(1998)/「情報検索の理論と技術」/

勁草書房、pp.234-253。

[Kita 2002]北研二、津田和彦、獅子堀正幹(2002)/

「情報検索アルゴリズム」/共立出版、pp.52-89。

[Manda ]Mandara,R., Tokunaga, T. & Tanaka,H.() /

“The use of WordNet in information retrieval”

Proceedings of Coling-ACL ’ workshop

“Usage of WordNet in Natural Language Processing Systems”, pp.-. [Matsu 200]松村真宏、三浦麻子(2009)/ 「人文・社会科学のためのテキストマイニング」/ 誠信書房、pp.21-76。 [Naka ]中野洋(1981)/ 「分類番号つけ支援システム」 情報処理学会計算機言語研究会, CL-25, 1981 [Ohmura 200]大村和夫、吉田慶志(2002)/ 「滋賀県内中小企業知的財産権の創造・保護・活用策」/ 滋賀県。

[Pere ] Pereira,F., Tishby,N. & Lee,L.() /

“Distributional clustering of English words”

Proceeding of the st Annual meeting of the Association for Computational Linguistics, pp.-0.

(13)

Improvements to a Shiga-Based

Academic Research Retrieval System

through the Application of Text Mining

Shinichi Taniguchi

For this paper, the performance of an

aca-demic research retrieval system called

“Chie-Navi” was quantitatively evaluated for its

performance based on

Recall and Precision.

Here, “Chie-Navi” commissioned by Shiga

Pre-fecture in 2004 aims to navigate academic

researchers in Shiga to coordinators who work

at industrial support organizations.

Recall is

the fraction of relevant documents that are

re-trieved to the query, while

Precision is the

fraction of the retrieved documents that are

relevant to the user's information need.

Gener-ally, Relationship between

Recall and Precision

are a trade-off. Therefore, "Chie-Navi" gives

priority to

Recall in order to provide

appropri-ate researchers to the coordinators without

omission. To improve the performance of

Re-call, a general-purpose thesaurus is applied to

"Chie-Navi".

On the other hand, a number of access by

general users has been increasing recently. So it

is necessary to improve the performance of

Pre-cision. To achieve this purpose, performance of

a general-purpose thesaurus has to be evaluated

quantitatively and applied a method for

im-proving

Precision. To do so, first, a test

collection was created to determine the

cor-rectness to the query. Second, the performance

based on

Recall and Precision was evaluated in

the case of utilizing the thesaurus or not. As a

result,

Recall was improved well, but Precision

was not improved so much.

Generally, dependence on the words in a

dif-ferent group is not contained in a thesaurus. In

other words, a thesaurus is a reference work

that lists words grouped together according to

similarity of meaning. However, it is said a

combination of that dependence is effective to

improve a general-purpose thesaurus. So, the

author applied text mining techniques in order

to discover dependence on the words, and

add-ed dependent words in a different group, such

as

Protein and Cancer, to the thesaurus.

Through the feasibility test, it turned out that

this method was able to effectively improve not

only

Recall but also Precision.

(14)

参照

関連したドキュメント

In Section 13, we discuss flagged Schur polynomials, vexillary and dominant permutations, and give a simple formula for the polynomials D w , for 312-avoiding permutations.. In

Then it follows immediately from a suitable version of “Hensel’s Lemma” [cf., e.g., the argument of [4], Lemma 2.1] that S may be obtained, as the notation suggests, as the m A

Definition An embeddable tiled surface is a tiled surface which is actually achieved as the graph of singular leaves of some embedded orientable surface with closed braid

As a result, the forcing term nu of the Schr¨ odinger equation introduces disturbances that are rougher than the Schr¨ odinger data, and the Schr¨ odinger solution u does not retain

In order to solve this problem we in- troduce generalized uniformly continuous solution operators and use them to obtain the unique solution on a certain Colombeau space1. In

[Mag3] , Painlev´ e-type differential equations for the recurrence coefficients of semi- classical orthogonal polynomials, J. Zaslavsky , Asymptotic expansions of ratios of

While conducting an experiment regarding fetal move- ments as a result of Pulsed Wave Doppler (PWD) ultrasound, [8] we encountered the severe artifacts in the acquired image2.

Wro ´nski’s construction replaced by phase semantic completion. ASubL3, Crakow 06/11/06