結論 - ベクトル空間モデルを用いた情報検索手法の検索精度向上に関する研究

以上，本論文ではベクトル空間モデルを用いた情報検索手法の検索精度向上に関する研

究として，ベクトル空間モデルを中心に，現在までに行われてきた情報検索手法の研究ついて議論を行った.特に，第 2章では，単語の意味や共起関係などの情報を用いて検索を行う手法や，ベクトル空間の構造を利用してベクトルの次元を圧縮する手法として有効な，

LS1 (Latent Sen1antic 1ndexing)を紹介した.

第 3章では， 1REXワークショップにおける 1Rの本試験の結果，および，参加したすべての情報検索システムについてのアンケートを基に，平均適合率，再現率・適合率曲線を直線回帰させた傾きと切片が，情報検索システムに用いられた手法とどのような相関関係をもっているのかを調査し，それぞれの手法がシステムの性能に与える影響の大きさを示した.また， NARRATIVEタグの使用有無により shortとlongに分け，平均適合宅との相関関係，また，再現率・適合率曲線を直線回帰させた傾きと切片にそれぞれどのような相関関係があるかを調査し，システムの性能に与える影響の大きさを示した.その結果，:f4 詞や名詞以外の品詞単語を用いる以上にフレーズが性能向

t

に関係あり，複数の単語を組み合わせることで意味が限定され精度に良い影響を与えることを確認することができた.

また，再現率・適合率曲線の切片と傾きにトレードオフの関係が多くの手法に見られ，検索システムに用いる手法の選択の難しさが現れる結果となった.

第 4章では，LS1の問題点を解決するために，ランダム・プロジェクションを用いた情報検索モデルを構築し情報検索における次元圧縮手法としてランダム・プロジェクションの有効性を確認した.また，ランダム・プロジェクションを行う際にあらかじめ指定するベクトルに，文書の内容を表す概念ベクトル

[ 1 0 ]

の利用し，これまで単語などが要素であったベクトルを文書の内容を要素とする低次元のベクトルに変換をするコンセプト・プロジェクションを提案した.

さらに，第 5章では，提案したコンセプト・プロジェクションの応用として，関連性フィードパックによる検索モデルの更新手法を提案した.本手法により，更新された概念ベクトルから検索要求や検索対象となる文書ベクトルの次元圧縮が行われるため，フィードバック学習の影響が検索要求だけでなく検索対象にも反映させることができた.

本研究テーマに関する今後の謀題は，より効率のよいフィードパック方法の提案が挙げ

7 7

7 第 6章結論

られる.最も一般的なフィードパックモデルと比較しでも，コンセプト・プロジェクショ

ンを用いたフィードパックの効果が少なかった.そこで，検索結果における適合していない文書集合を再度検索しないようにより効率よくフィードパックを行う必要がある.また，

概念ベクトルの直交性と独立性の差が検索精度にどれほど影響があるのかを研究する予定である.

謝辞

本研究の全課程を通じ，直接懇切，丁寧な御指導，待Il鞭捷を賜わった徳島大学工学部知能情報工学科基礎情報工学講座北研二教授に心より感謝を申し上げます.

本研究を行うにあたり，絶えず熱心に御指導，御教授を賜わった徳島大学工学部知能情報工学科知能工学講座青江順一教授，矢野米雄教授に心から感謝を申し上げます.

本研究を行う機会を与えてくださり有用なデータを提供して下さった IREXワークショップ実行委員の方々，及び， IREX‑IRの本試験に参加した方々と判定者の方々に心から感謝を申し上げます.

また，これまでの研究活動において，数多くの助言やサポートをして下さった徳島大学

総合科学部国際経済社会システムコース異弓浩三教授，徳島大学工学部知能情報工学科基礎情報工学講座獅々堀正幹講師，徳島大学工学部知能情報工学科基礎情報工学講座石田富士雄技官，兵庫大学経済情報学部田中康仁教授，ならびに，吹谷和雄社長をはじめ

とする意味解析技術応用研究所株式会社の皆様に心から感謝を申し上げます.

修了，卒業をしても，絶えず、熱心にご助言を頂いた，株式会社ワイ・デイ・シー芦辺和彦氏をはじめとする北研究室の諸先輩方，NTTソフトウェア小田裕樹氏，富士通株式会社山下高史氏，目立システムアンドサービス守屋知佐子氏をはじめとする北研究室の修

了生，その他，徳島大学知能情報工学科基礎情報工学講座 A‑2グループの諸氏，ならびに数多くのアイデアや助言を頂いた徳島大学大学院工学研究科桁他覚氏，岡田真氏に心か

ら感謝を申し上げます.

ここに記して，以上の方々に深く感謝の意を表します.

参考文献

hαV W'l、ReseαTchJi1ethods) 1nsh、wηcnts)

ι

Compu.tC7、5

，

\~l. 23

，

pp. 229 236ラ 1991. [12] S. T. DUlllais. Using lsi for inforn1ation五ltering:TREC‑:1 cxperin

y . . 献

ーι..... 、

考

参

(Ed.)) Ove川 ωofThe ThiTd Text REtricvα1 Confcrci

of Stαndα7、dsαndTechnology Special Pab!?'cαlion

，

pp. 219 ‑230

，

1995 語と文書の共起に基づく特徴度の数量的表現について情報処理学会論文

山相

^j^事彰子

Fastmap: A fast algorithn1 fo1' indexing

，

daia‑mining ancl visualization of traclitional and multimedia datasets. 1n Proceed?'ngδof the 1995 A C司グ [13] C. Falout

誌

，

¥101. 41(12)

，

pp. 33:32‑334:3^う2000.

[2]新谷研1角田達j多?大石巧?長尾真.形態素の共起頻度と出現位置による新聞関連記事

SIGlv10D 1nterηαtioηα1 Conference 0η¥llanαgement of Dαfa

，

pp. 163‑174ぅ 1995.

l

ド

叫

⁴

]

U. Feige. Approxima叫山tir時 the ban町吋dwi川dも山hv吋iaVOh1l11e 閃 spコecti山ngembコedclings. 1n Pro、刀0‑ の検索手法.信学技報?電子情報通信学会， 1995

ceedings of the 30th A C¥l1 Symposium 0η the Thcory of Computing、199ぃ

An algorithn1ic theory of learning: Robust concepts ancl random projection. 1n Proceedulgs of the 40th Foundations of ComputeT Science

，

[3] R. 1. Arriaga anel S. ¥lcmpala.

1aehara. The Johnson‑Linclenstrauss lemma ancl the spherici1Y of [15] P. Frar

SOllle graphs. Combz:nαtorial Theoryぅ¥101.B 44

，

pp. 355‑362

，

1988. pp. 616‑623

，

1999.

Data structures & algo‑ Ranking algori1hn1s

，

in information retrieval:

[16] D. Hanllan [4] M. W. Berry aud M. Browne. UndeTstaT~ding Seαrch EηgUl.es: Ji1athemαtical l¥10deling

ri thlllS. 1n TtV. B. Frαkesαnd R. Bae::a‑Y;αtes (Eds.)) InfonnαtioηRctrievα1) P何 ηtice α'IId TcxL Reh'ieval. SIAM Book Series: Software， Environments， and Tools， 1999.

1lall) NJ

，

pp. 363‑392う1992. Matrices

，

vector spaces

，

ancl inform.ation

[5] M. VV. Berry

，

Z. DIlllaC

，

and E.R. J essup

1n Pγ0‑

[17] D. Hull. U sing statistical testi時 inthe evaluaもionof retrieval pcrformance.

日 1rieva.11n S1A¥l1 Revic1U， ¥101. 42(2)

，

pp. 335‑362

，

1999.

ceedings of A Cl¥イSIG1RConfe1'ence

，

pp. 329‑338

，

199:3. [6] A. Bhln1

，

G. Konjevod、R.Ravi

，

^and S^.^V^C^l^l¹^p^a^l^a^.^SC¹^l¹ⁱ^‑^d^e五nite relaxations for 111ini‑

rnum ba.ndwidth and other vertex‑ordering proble111s. 111 PToceεdings of the 30th A CI11

[18] D. Hull. Stemn1ing algoothlll

Americαη Society f01、1nformαfionScience

，

Vo 1.47(1)

，

pp. 70‑84ぅ1996 SympOS?:U7n on the Theory of Compllt.ing

，

^pp^.^90‑99^う¹⁹⁹⁸^.

EX1ensions of Lipsbitz ma.pping i])10 hilbc1ι [19] W. B. Johnson ancl J. Lindenstrauss.

ew retrieval approaches using sn1art: 11itra、andG. Salton.

[7] C. B川ぇley

，

A. Singhal

，

1984. 9‑206 space. ContempOTa7、y111αthemαLicsヲVo.126

，

^pp^.^]

Thi rd Text REtriどα1υ Conference Ovel'吋W of The

D. IIarma孔 (Ed.))

n v

' ' A

TREC 4.

データ日本語情報検索システム評価用テストコレクション sM1R.J2.

[20]木谷強ほか.

(TREC4) Nalionα1 Instdu/c of Standa7、dsα'I1dTec7mology Special Pllbl?'cαLion

，

^pp.25^‑

ベースシステム研究会〉情報処理学会)1998

~18 ， 1996.

Scgn1en1ation problcms: A lllicro‑ [21] J. Kleinberg

，

C. Pa.pa.climitrioll; and P. Ragha日 n

ew 1f'l'lTl wf'ighting formula.s f01・thevector space Teclmica l.report， Oak Riclge National La.bora.tory， Chicholm札ncl

r r .

G. I¥:olda.

methocl in i11 fonna.L i011 1・cL1'ie¥'al.

[ 8 ] E

eC0110111ic view of clata mining. 1n PTOCCιdings o

f .

ihe 30th A C¥l1 Sym]J08i nm on. Th C01、U of Computing

，

pp. 473‑482ヲ1998.

Tf'nn何 sec

，

1998. Oak Riclge

[22]国立国語研究所新分類語葉表 .Technical report，国立国語研究所.1996. Harshman.

111all.tic analysis. J01lrnαI o

f .

thc .‑tmclゴCa)lSocicty Ior 1η[01、771αti077 G. ¥ヘ1Furnas

，

a.ncl R.

[9] S. Dccrwcstcr， ^S^.^T^.^Dumais^、^T^.T¥:. LanclaωI

emicliscrete ma1rix clecomposition fo1' 1，a1cn1

。

う

^Leary

[23] T. G. Kolcla. a.nd D. P. lndcxing by 1δtCll .l

ln Procccdingδ of ACli1 TmnsacL?"on 072 sema.ntic indexing in information re1ricval.

c/cncc、γ。1.‑11(6)、pp.391‑‑107， 1990.

1998. 17210 r171a f10ηS'ys! e'

，

^η^ヘ¥1⁰^.¹¹⁶

，

^p^p^.³²²^‑³^↓⁶

Concept clecon1positions fo1' la.rge spa.rse 1ext data [10] I. S. Dhillon ancl D. S. ¥Ilodha

:omparing u1teracLivc infonna 1]on rcuic¥'al systcms a.cross [24] E. La.gergren a.吋 P.Ovel

llS11lgぐl11S.tCl、ing.Tcchnical 1'('[1ort， lBj¥[ Alllladcn Rcs('arch Ccntel'， 1999.

111 Be‑

[mprm'Ing thc rct ric¥'al of infonnat ion from extf'rnal SOUl'ces. [11] S. T. Duma

、

。

2 参考文献

iLes: the TREC‑G interactive track 1natrix experin1ent. 1n Proceedings 0] the 21st A 11771lα1 Intcrnαtioηα1 A C1¥1 S'IGIR Con]erence on Re8earchαnd Development in In‑ JOT7TIαt?'oη Retrievαl

，

pp. 164‑172

，

1998^・

. 5 ]

D. D. Lewis. Representation qua.li ty in text cla.ssifica.tion: An i山 αludionand expeト

iment. 1n De]ense Advαnced ReseaアchProjects Agency

，

pp. 288‑295

，

1990.

[26] D. D. Lewis. Eva.lua.ting Lext categorization. 1n Pァocee恥IgS0] S'peechαnd Nat1川 l Lαnguαge VVorkshop

，

pp. 312‑318

，

1991.

[27]松本裕治?今一修3山下達雄?北内啓?今村友明日本語形態素解析システム「茶笑」使用説明書.Naist technical report，奈良先端科学技術大学院大学， 1997.

[28]松尾街う宮本昌幸う森辰則.情報検索タスクにおける人間による正解判定についての分析.1n Proceecl?:ngs of th e IREX 7.Uorkshopぅpp.15‑22

，

1999

[29]西野文人.日本語テキスト分類における特徴素抽出.自然言語処理研究会?情報処理学会， 1996.

[30] C. D. Paice. Another sもen1mer.SIG1R FOT'l̲l7η

，

Vol. 24

，

pp. 56‑61、1990. [31

リ ]

C. Papa紅仁limi比tr凶r吋巾~lOu叫1九， P. Rag唱gl

dex幻lllgι:A p刊3χr、obコab孔ilisticaむnal匂ysis. 1n Proceedings 0] the 17th A C1¥1 Symposiurηon the P

，

^、i72ciplcsof Datαbase S'ystems

，

pp. 159‑168

，

1998.

[32] M. F. Porter. Al孔1a叫19orithmfor suffix stripping. P^叩g^叩 m，Vol. 14(3)， pp. 130‑137， ] 980.

[

い3

幻判

3司]‑巴ωEc心ω^仁cli止eRaおsm^凶 S^ぞ^臼^叩n. ClんUω山85ttC^'l行^、^ヴ^ゴ1吋片Alυl匂goω^{凡ば}^、^ゴith川 (ρ¥71/へ町1.B.Frak^但esa^吋 R. Baeze Eng凶lc¥VooclClif[s

，

NJ: PrcnLice Hall、1991.

[34] J. J. Rocchio. Rele¥'a.nce fcedba.ck in information retrieval. 1n S'alion G. (Ed.)) The '1¥IART RetTicvα1 S!)stcm.. ElIglclL'ood CliJJs， N.J.: PrenliとeHαll，pp. 313‑323

，

1971. [

:35] G. SalLon and C. Bucklcy. Tcrm ¥¥"cigbt.1ng approaches in auto111atic Lext retricval. JOll 川 al げ0fhη尺げ7げfμ(0川 ]α仙Mtiο仰ηI7

P

^/'Oce何句尺q幻訂山"吋7gσmη川d1I[al1ngc門C11ηmεU印ηl川 ]

[:3苅問6何]U. Sal札Lona凶ぐ B町1‑::1匂げ ImproyingretrieyaJ performance by relevance feedback

J 0 1l r n a 1 o

f .

t h c A 'l7I C ，、icanSocic/y f01、ln

f .

ormαlionScience

，

Vol. Lll

，

pp. 288‑297

，

1990. [37] G. Salton and 1¥1. 1¥IcG ill. [ηt/'Oduction to J[odern Infol'mation Reh、ieva.l1¥/IcGraw‑Hill

J 983.

[38]関恨聡、井佐原均.lR E.'\. プロジ、エクト概~. In Procfcdings ofthe IREX 1/'07士shopぅpp.

』Eニーー一一一一一一 "，，"，，--'，~

参考文￨献

8

3 :

1‑，5，1999.

[39] A. Singhal， C. Buckley， ¥11. l¥IiLra， a.nd G. Salton. Pivoもeddocument length norm̲aliza‑ tion. Technical report

，

Department of Computer ScienccヲC01・nellUniversityぅIthac

， . a

ew York

，

1995.

[40] X. Tai ancl K. Kita.教師あり学習によるベクトル空間モデルの精度改善.自然言語処理研究会7情報処理学会う 2000.

[41] Xiao‑Ying Tai^ぅ MinoruSasaki

，

Ke州 Kita

，

and Yasuhito Tanaka. In1provcl1lc川 of vector space information retrieval moclel based on supervisecl lear^、ning.1n Proceed‑ ings 0] the FiJth Iηte7、nat7:oηα1lTV01士shopon 1nf07、mαtionRei7づωαlwit h AS1:αη Lall‑ guag

吋

lRAL2000)

，

pp. 69‑74

，

2000

[42] TJくohonen著⁷徳高平蔵?岸田悟?藤村喜久郎訳.自己組織化マップシュプリンガー・フェアラーク東京， 1996.

[43]徳永健伸情報検索と言語処理東京大学出版会， 1999. [

件44

叫 ]

Iway戸F司an1aMakoto Tok 叩 aga Tak同t但叩e臼elωb凡u.Text Ce山 go 山a叫Lionbased on w附附C引igbL同胤ωe任ω(1i 川 cr docuユlnentf仕requency.Technical report^ヲDept.of Compllter Science Tokyo InsLituLe 01"

Technology

，

1994.

[45] S. Vempala. RandOln projection: A new approach to vlsi layouL. 1n P7'OCCC(U吋So}" [!J c 39t九F01l'ndαtions0] COmZJ1de7、8cience，Pαlo A1Lo， pp. 389‑395

，

1998.

[46] C. C. Vogt

，

G. ¥71/. COLtI・ellぅR.1く.BeLew

，

ancl B. T. BarLel. lUscr ]cnscs ‑achicvillg 100% precision on fl^、eqllentlyasked questions. 1n Proceedi'ngs oJ Use1、J¥10rlc1ing'.9.9， Bαn

， J f

pp. 87‑96

，

1999.

[47] E. M. Voorhees. Variations in rclcvance juc1genlenLs ill the meaSUfcme川 0'1reLricval effectiveness. 1n Pl'oceedings of th e 21 sL A nn llCll 1nte/'national A CJV1 SJGIR C077.JC7'CUC 072 Researchαnd Dcveloznncnl in Info1、mαLionRel1、1‑ωα1

，

pp. :3 1.5-~323 ， J 99^ぃ

[48司]E. 1¥11. V勺O

∞

，Oαrhee白sa剖叩，ndD. Ha剖1"n冗11an. 0 γ C1れγ1吋1.巾CW of the sばixL山11いしP内X刈L1閃eLricval

∞

con凶fc川

(TREC‑6的).1n 1;;七00凶εesαndHωα町a川l'、lmα?η7.(Ed心s.))P，.occcdめ1吋So

f ̲

Tη^'¹¹¹^ぽeSi、clhTc:rl RE.fricval Conference (TREC‑6) Nαtlo11α1 Jnslihde of 5'tand(L/、dsαndTcchnology Spccial Puuli‑ c

α[:io77.， pp. 1‑24

，

1997.

[49] E. 1¥11. Voorhees a吋 D.Harman. Qyen.jew of the sc

，

'cnth LcxL rct rjeval conference (TREC‑7). 1n Vooルecsαnd[Jarmαn (Eds.)) Procccdings oJ The SCVfllth Texl RE‑

参考文献 t

かTl吋εαυalConザfe附

ω

^b^h^c

^ω ^α

tlωOη'，爪 pp. 1‑24， 1998. [

伊仰5印0]

円 1 .

H. Wiも比t民e民n1

，

A. Mof仇fat

，

ar凶 T. C. Bell. AIダα問 g炉t吋 Gψrbyμtε白s: Cωo叫m]JTeSS1.η旬gα仰?η1

]r，η~dεαXl仇?ηìg

D o c u

ωmηεηtsηα

d Im

αgε白S.Van Nostrand Reinholcl

，

New York

，

1994.

付録 A IR システムアンケート

o .

^システム ID

0.1. IREX固有の情報

0.1.1.使用した検索課題中の情報 (DESCRIPTIONのみ (D)、NARRATIVEのみ (N)、 DESCRIPTIONとNARRATIVE両方 (D&N))

0.1.2. NEGのタグは利用しましたか?

0.1.3.システム開発に関連して過去に 94、95年毎日新聞を使用したことがありますか?

0.1.4. 9 5年8月24、25日のデータのパグについて予め対処してありますか?

1.索引づけ

1.1.索引づけに用いた方法

1.1.1日本語の索引単位は何か?(uni‑graln，lコl‑granl，その他の n‑granlぅ単語ぅフレーズラその他)

1.1.2.どのような方法を用いて索引づけをしたか?(辞書、形態素解析、その他) 1.1.3.索引語の選択方法は何か?(例 :ストップワード、字種、品詞など)

1.1.4.語棄(文字)の正規化を行なったか?

1.1.5.ステミングアルゴリズムを用いたか?

1.1.6.語の重みづけを用いたか?

1.1.7.フレーズ単位で索引づけをしたか?

1.1.8.フレーズの手重ま買は?

1.1.9.フレーズの見つけ方は?(統計的、構文的、その他) 1.1.10.構文解析は行なったか?

1.1.11.シソーラスや用語集などを用いたか?

1.1.12.語義のl凌昧性解消は行なったか?

1.1.13.誤字脱字やスペルのチェックは行なったか?

1.1.14.誤字脱字やスペルの修正は行なったか?

1.1.15.固有名詞を識別したか?

1.1.16.どのような方法で索引単位に分割したか?

8.5

。

6 付金表 A JRシステムアンケート

1.1.17.日本語のヨミを用いたか?

1.1.18.ヨミを用いた場合、ヨミはどのように生成したか?

1.1.19.索引づけに用いたその他の方法(具体的に) 1.2.毎日新聞から構築された索引データの構造 1.2.1.索引の構造の種類

1.2.1.1.クラスタ

1.2.1.2.シグネチャファイル 1.2.1.3. Pat木

1.2.1.4.知識ベース

1.2.1.5.その他(具体的に)

1.2.2.索引の概要

1.2.2.1.索引の規模 l[¥lIB]

1.2.2.2.構築に要した時間[時間

l

1.2.2.3.実行過程は自動化されているか?

1.2.2.4.語の出現位置(オフセット)は使用したか ?

1.3.毎日新間以外の情報源から索引作成のために利用したデータ

1.3.1.独自に構築したデータ (種類=シソーラス、知識ベース、辞書など) 1.3.2.外部で構築されたデータ(種類とデータ名)

2.検索式の作成

2.1.検索式を作成するのに要した時間(1課題当たりの平均 CPU時間[秒]) 2.2.検索式作成に使用した方法

2.2.1.宗引単位への分割 (uni‑gralll，bi‑gram，その他の n‑gramぅ単語?フレーズ?その他) 2.2.2.フレーズの抽出

2.2.3.構文解析

2.2.4.語義の暖味性解消 2.2.5.同有名詞の識別 2.2.5.検索式の自動拡張

2.2.5.1.シソーラスなど既存のツール 2.2.5.2.内動レレパンスフィードバック 2.2.5.3.ローカルコンテクストアナリシス

2.2.5.4.その他 (具体的に)

2.2.6.ブール演算子や近接演算子などの自動的付与 2.2.7.その他(具体的に)

3.検索実行

3.1.検索時間 (1検索式に対する平均 CPU時間[秒]) 3.2.プロセスサイズ [MB]

3.3.計算機についての情報 3.3.1.実験に使用した計算機 3.3.2.その計算機は専用か共用か 3.3.3.ハードディスクの総容量

[ G B ]

3.3.4. RAJVlの総容量 [11B] 3.3.5. CPUのクロック数 [11Hz]

4.検索モデル

4.1.ベクトル空間型を用いたか?

4.2.確率型を用いたか ? 4.3.その他 (具体的に)

4.4.ランクづけの要素

4.4.1. TF (語の出現頻度)を使用したか ? 4.4.2. IDFをイ吏用したか?

4.4.3.その他の重みづけ(具体的に) 4.4.4.意味の近さを使用したか?

4.4.5.文書中の位置を使用したか? 4.4.6.構文的な手がかりを使用したか? 4.4.7.語の近接(距離)を使用したか ? 4.4.8.文書の長さを使用したか?

4.4.9.その他 (具体的に) 5.そのイ也

5.1.上の質問で回答していないシステムの特色 5.2.チームの構成員

5.2.1.日本語を母国語とする人がいますか?

ドキュメント内ベクトル空間モデルを用いた情報検索手法の検索精度向上に関する研究 (ページ 48-59)

結 論

t

[ 1 0 ]

7 7

謝 辞

ι

，

，

y . . 献

考

参

，

，

山相

，

，

，

，

l

ド

叫

]

，

，

，

，

，

，

，

，

，

，

，

，

，

，

，

，

，

，

，

，

，

，

，

，

r r .

[ 8 ] E

f .

，

，

f .

，

。

う

，

，

、

。

，

，

. 5 ]

，

，

，

，

，

，

，

リ ]

，

，

，

幻 判

，

，

P

f .

f .

，

結論

謝辞

幻判

^ω ^α