• 検索結果がありません。

以上,本論文ではベクトル空間モデルを用いた情報検索手法の検索精度向上に関する研

究として,ベクトル空間モデルを中心に,現在までに行われて きた情報検索手法の研究つ いて議論を行った.特に,第 2章では,単語の意味や共起関係などの情報を用いて検索を 行う手法や,ベクトル空間の構造を利用してベクトルの次元を圧縮する手法として有効な,

LS1 (Latent Sen1antic 1ndexing)を紹介した.

第 3章では, 1REXワークショップにおける 1Rの本試験の結果,および, 参加したすべ ての情報検索システムについてのアンケートを基に,平均適合率,再現率 ・適合率曲線を 直線回帰させた傾きと切片が,情報検索システムに用いられた手法とどのような相関関係 をもっているのかを調査し,それぞれの手法がシステムの性能に与える影響の大きさを示 した.また, NARRATIVEタグの使用有無により shortとlongに分け,平均適合宅との相 関関係,また,再現率 ・適合率曲線を直線回帰させた傾きと切片にそれぞれどのような相 関関係があるかを調査し,システムの性能に与える影響の大きさを示した.その結果,:f4 詞や名詞以外の品詞単語を用いる以上にフレーズが性能向

t

に関係あり,複数の単語を組 み合わせることで意味が限定され 精度に良い影響を与えることを確認することができた.

また,再 現 率 ・適合率曲線の切片と傾きにトレードオフの関係が多くの手法に見られ,検 索システムに用いる手法の選択の難しさが現れる結果となった.

第 4章では,LS1の問題点を解決するために,ランダム・プロジェクションを用いた情報 検索モデルを構築し 情報検索における次元圧縮手法として ランダム・プロジェクショ ンの有効性を確認した.また,ランダム・ プロジェクションを行う際にあらかじめ指定す るベクトルに,文書の内容を表す概念ベクトル

[ 1 0 ]

の利用し,これまで単語などが要素で あったベクトルを文書の内容を要素とする低次元のベクトルに変換をするコンセプト・プ ロジェクションを提案した.

さらに,第 5章では,提案したコンセプト ・プロジェクションの応用として,関連性フィー ドパックによる検索モデルの更新手法を提案した.本手法により,更新された概念ベクト ルから検索要求や検索対象となる文書ベクトルの次元圧縮が行われるため,フィードバッ ク学習の影響が検索要求だけでなく検索対象にも反映させることができた.

本研究テーマに関する今後の謀題は,より効率のよいフィードパック方法の提案が挙げ

7 7  

第 6章 結 論

られる.最も一般的なフィードパックモデルと比較しでも,コンセプト・プロジェクショ

ンを用いたフィードパックの効果が少なかった.そこで,検索結果における適合していな い文書集合を再度検索しないようにより効率よくフィードパックを行う必要がある.また,

概念ベクトルの直交性と独立性の差が検索精度にどれほど影響があるのかを研究する予定 である.

謝 辞

本研究の全課程を通じ,直接懇切,丁寧な御指導,待Il鞭捷を賜わった徳島大学工学部知 能 情 報 工 学 科 基 礎 情 報 工 学 講 座 北 研二教授に心より感謝を申し上げます.

本研究を行うにあたり ,絶えず熱心に御指導,御教授を賜わった徳島大学工学部知能情 報 工 学 科 知 能 工 学 講 座 青 江 順 一 教 授,矢野米雄教授に心から感謝を申し上げます.

本研究を行う機会を与えてくださり 有用なデータを提供して下さった IREXワーク ショップ実行委員の方々,及び, IREX‑IRの本試験に参加した方々と判定者の方々に心か ら感謝を申し上げます.

また,これまでの研究活動において,数多くの助言やサポートをして下さった徳島大学

総 合 科 学 部 国 際 経 済 社 会 シ ス テ ム コ ー ス 異 弓 浩 三 教 授,徳島大学工学部知能情報工学科 基 礎 情 報 工 学 講 座 獅 々 堀 正 幹 講 師,徳島大学工学部知能情報工学科基礎情報工学講座石 田 富 士 雄 技 官,兵庫大学経済情報学部田中康仁教授,ならびに,吹谷和雄社長をはじめ

とする意味解析技術応用研究所株式会社の皆様に心から感謝を申し上げます.

修了,卒業をしても,絶えず、熱心にご助言を頂いた,株式会社ワイ・デイ ・シ ー 芦 辺 和 彦氏をはじめとする北研究室の諸先輩方,NTTソフトウェア小田裕樹氏,富士通株式会 社山下高史氏,目立システムアンドサービス守屋知佐子氏をはじめとする北研究室の修

了生,その他,徳島大学知能情報工学科基礎情報工学講座 A‑2グループの諸氏,ならびに 数多くのアイデアや助言を頂いた徳島大学大学院工学研究科桁他覚氏,岡田真氏に心か

ら感謝を申し上げます.

ここに記して,以上の方々に深く感謝の意を表します.

79 

参 考 文 献

V W'lReseαTchJi1ethods) 1nshwηcnts)

ι

Compu.tC75

\~l. 23

, 

pp. 229 236 1991. [12]  S. T. DUlllais. Using lsi  for inforn1ation五ltering:TREC‑:1 cxperin 

y . .   献

ι..... 

(Ed.))  Ove ωofThe ThiTd Text REtricvα1 Confcrci 

of Stαndα7dsαndTechnology Special Pab!?'cαlion

, 

pp. 219 ‑230

, 

1995  語 と 文 書 の 共 起 に 基 づ く 特 徴 度 の 数 量 的 表 現 に つ い て 情 報 処 理 学 会 論 文

山相

j事彰子

Fastmap:  A fast algorithn1 fo1'  indexing

, 

daia‑mining ancl  visualization of traclitional and multimedia datasets. 1n Proceed?'ngδof the 1995 A C [13]  C. Falout 

¥101.  41(12)

, 

pp. 33:32‑334:32000.

[2]新 谷 研1角田達j多?大石巧?長尾真.形態素の共起頻度と出現位置による新聞関連記事

SIGlv10D 1nterηαtioηα1 Conference 0η¥llanαgement of Dαfa

, 

pp. 163‑174 1995.

l

1

4

]

U. Feige.  Approximatir the bandwidhviaVOh1l11e  spectingembedclings. 1n Pro0‑ の検索手法.信学技報?電子情報通信学会, 1995

ceedings of the 30th A C¥l1 Symposium 0η the  Thcory of Computing199

An algorithn1ic theory of learning: Robust concepts  ancl random projection. 1n Proceedulgs of the 40th Foundations of ComputeT Science

, 

[3]  R. 1.  Arriaga anel  S. ¥lcmpala. 

1aehara.  The Johnson‑Linclenstrauss lemma ancl the spherici1Y of  [15]  P.  Frar 

SOllle graphs. Combz:nαtorial Theory¥101.B 44

, 

pp. 355‑362

, 

1988.  pp. 616‑623

, 

1999. 

Data structures & algo‑ Ranking algori1hn1s

, 

in  information retrieval: 

[16]  D. Hanllan  [4]  M. W. Berry aud M. Browne. UndeTstaT~ding Seαrch EηgUl.es: Ji1athemαtical l¥10deling 

ri thlllS. 1n TtV. B. Frαkesαnd R. Bae::a‑Y;αtes (Eds.)) InfonnαtioηRctrievα1) P ηtice α'IId TcxL Reh'ieval. SIAM Book Series:  Software, Environments, and Tools, 1999. 

1lall) NJ

, 

pp. 363‑3921992. Matrices

, 

vector spaces

, 

ancl inform.ation 

[5]  M. VV. Berry

, 

Z. DIlllaC

, 

and E.R. J essup 

1n  Pγ0‑

[17] D. Hull.  U sing statistical testi inthe evaluaionof retrieval pcrformance. 

1rieva.11n S1A¥l1 Revic1U  ¥101.  42(2)

, 

pp. 335‑362

, 

1999. 

ceedings of A Cl¥SIG1RConfe1'ence

, 

pp. 329‑338

, 

199:3.  [6]  A. Bhln1

, 

G. Konjevod、R.Ravi

, 

and SVCll1pala.  SC1l1ide五nite relaxations for 111ini‑

rnum ba.ndwidth and other vertex‑ordering proble111s. 111 PToceεdings of the 30th A CI11 

[18]  D. Hull.  Stemn1ing algoothlll 

Americαη Society f011nformαfionScience

, 

Vo 1.47(1)

, 

pp. 70‑841996 SympOS?:U7n on the  Theory of Compllt.ing

, 

pp90‑991998.

EX1ensions of Lipsbitz ma.pping i])10  hilbc1ι  [19] W. B. Johnson ancl J.  Lindenstrauss. 

ew retrieval approaches using sn1art:  11itraandG. Salton. 

[7]  C. B川ぇley

A. Singhal

, 

:M 

1984.  9‑206  space. ContempOTa7y111αthemαLicsVo.126

, 

pp

Thi rd  Text REtriα1υ Conference  Ovel'W of The 

D. IIarma (Ed.))

v

' '

TREC 4. 

デ ー タ 日本語情報検索システム評価用テストコレクション sM1R.J2. 

[20]木谷強ほか.

(TREC4) Nalionα1 Instdu/c of Standa7dsα'I1dTec7mology Special Pllbl?'cαLion

pp.25

ベースシステム研究会〉情報処理学会)1998 

~18 , 1996. 

Scgn1en1ation problcms: A lllicro‑ [21]  J. Kleinberg

, 

C. Pa.pa.climitrioll; and P. Ragha n

ew 1f'l'lTl  wf'ighting formula.s f01thevector space  Teclmica l.report, Oak Riclge National La.bora.tory,  Chicholmncl

r r . 

G. I¥:olda. 

methocl in  i11 fonna.L i011  1cL1'ie¥'al.

[ 8 ]   E 

eC0110111ic view of clata mining. 1n PTOCCιdings o

  f .

ihe 30th A C¥l1 Sym]J08i nm on.  Th C01U of Computing

, 

pp. 473‑4821998.

Tf'nn sec

1998.  Oak Riclge 

[22]国 立 国 語 研 究 所 新 分 類 語 葉 表 .Technical report,国立国語研究所.1996.  Harshman. 

111all.tic analysis. J01lrnαI o

  f .

thc .‑tmclゴCa)lSocicty Ior 1η[01771αti077 G. ¥ヘ1Furnas

, 

a.ncl R. 

[9]  S.  Dccrwcstcr, S.  T. DumaisT.T¥:.  LanclaωI 

emicliscrete  ma1rix clecomposition  fo1'  1a1cn1 

Leary

[23]  T. G. Kolcla.  a.nd D.  P.  lndcxing by 1δtCll .l

ln Procccdingδ of ACli1 TmnsacL?"on 072  sema.ntic indexing in information re1ricval. 

c/cncc、γ。1.‑11(6)、pp.391‑‑107, 1990. 

1998.  17210 r171a f10ηS'ys! e'

ηヘ¥10.116

, 

pp. 3223

Concept clecon1positions fo1'  la.rge spa.rse 1ext  data  [10]  I.  S.  Dhillon  ancl D. S. ¥Ilodha 

:omparing u1teracLivc infonna 1]on rcuic¥'al systcms a.cross  [24]  E. La.gergren a.吋 P.Ovel

llS11lgl11S.tCling.Tcchnical 1'('[1ort, lBj¥[ Alllladcn Rcs('arch Ccntel'  1999. 

111 Be‑

[mprm'Ing thc rct ric¥'al of infonnat ion from extf'rnal SOUl'ces.  [11] S.  T. Duma 

2  参 考 文 献

iLes:  the TREC‑G interactive track 1natrix experin1ent. 1n Proceedings 0] the 21st  A 11771lα1 Intcrnαtioηα1 A C1¥1 S'IGIR Con]erence on Re8earchαnd Development in In‑ JOT7TIαt?'oη Retrievαl

, 

pp. 164‑172

, 

1998

[2

. 5 ]  

D. D. Lewis. Representation qua.li  ty in text cla.ssifica.tion:  An i αludionand expe

iment. 1n De]ense Advαnced ReseachProjects Agency

, 

pp. 288‑295

, 

1990. 

[26] D. D. Lewis. Eva.lua.ting Lext  categorization.  1n PoceeIgS0] S'peechαnd Nat1 l Lαnguαge VVorkshop

, 

pp. 312‑318

, 

1991. 

[27]松本裕治?今一修3山下達雄?北内啓?今村友明日本語形態素解析システム「茶笑」使 用説明書.Naist technical report,奈良先端科学技術大学院大学, 1997. 

[28]松尾街う宮本昌幸う森辰則.情報検索タスクにおける人間による正解判定についての分 析.1n Proceecl?:ngs of th e IREX 7.Uorkshoppp.15‑22

, 

1999 

[29]西野文人.日本語テキスト分類における特徴素抽出.自然言語処理研究会?情報処理学 会, 1996. 

[30]  C. D. Paice. Another sen1mer.SIG1R FOT'l̲l7η

, 

Vol.  24

, 

pp. 56‑611990. [31

リ ]

C. Papa紅仁limi比trr吋巾~lOu1九, P.  Raggl

dexlllgι:A p3χrobコabilisticanal匂ysis. 1n Proceedings 0] the 17th A C1¥1 Symposiurηon the  P

i72ciplcsof Datαbase S'ystems

, 

pp. 159‑168

, 

1998. 

[32]  M. F. Porter.  Al1a19orithmfor suffix stripping. Pg m,Vol.  14(3), pp. 130‑137,  ] 980. 

[

い3

幻 判

3司]ωEcωcli止eRasm Sn. ClんUω85ttC'l行1 Alυl匂goω凡 ばith (ρ¥71/1.B.Frakesa R.  Baeze  Eng凶lc¥VooclClif[s

, 

NJ: PrcnLice Hall1991.

[34]  J.  J.  Rocchio. Rele¥'a.nce fcedba.ck in  information retrieval.  1n S'alion  G. (Ed.))  The  '1¥IART RetTicvα1 S!)stcm.. ElIglclL'ood CliJJs, N.J.: PrenlieHαll,pp. 313‑323

, 

1971.  [

:35] G. SalLon and C. Bucklcy. Tcrm ¥¥"cigbt.1ng approaches in  auto111atic  Lext retricval.  JOll  al げ0fhη尺げ7fμ(0川 ]αMtiοηI7

P

/'Oceq"7gσmηd1I[al1ngcC11ηmεUηl川 ]

[:3苅問6何]U. SalLona B町1‑::1 ImproyingretrieyaJ  performance by relevance feedback 

J 0 1l r n a 1 o

  f .

t h c A 'l7I icanSocic/y f01ln

f .

ormαlionScience

, 

Vol.  Lll

, 

pp. 288‑297

, 

1990.  [37]  G. Salton and 1¥1.  1¥IcG ill.  [ηt/'Oduction to J[odern Infol'mation Rehieva.l1¥/IcGraw‑Hill 

J 983. 

[38]関恨聡、井佐原均.lR E.'\. プロジ、エクト概~. In Procfcdings ofthe IREX 1/'07士shoppp.

』Eニーー一一一一一一 ",,",,--',~

参考文│献

8

3 :

1‑51999. 

[39] A. Singhal, C. Buckley, ¥11. l¥IiLra, a.nd G. Salton. Pivoeddocument length norm̲aliza‑ tion. Technical report

, 

Department of Computer ScienccC01nellUniversityぅIthac

, . a

ew York

, 

1995. 

[40] X. Tai ancl K. Kita.教師あり学習によるベクトル空間モデルの精度改善.自然言語処 理研究会7情報処理学会う 2000.

[41] Xiao‑Ying Tai MinoruSasaki

, 

Ke州 Kita

and Yasuhito Tanaka.  In1provcl1lc of vector space information retrieval moclel based on supervisecl learning.1n Proceed‑ ings 0] the  FiJth Iηte7nat7:oηα1lTV01士shopon 1nf07mαtionRei7づωαlwit h AS1:αη Lall‑ guag

lRAL2000)

pp. 69‑74

, 

2000 

[42] TJohonen著7徳高平蔵?岸田悟?藤村喜久郎訳.自己組織化マッ プ シ ュ プ リ ン ガ ー ・ フェアラーク東京, 1996. 

[43]徳 永 健 伸 情 報 検 索 と 言 語 処 理 東 京 大 学 出 版 会 , 1999.  [

件44

叫 ]

IwayFan1aMakoto Tok  aga Tak同t但叩eelωbu.Text Ce go aLionbased on w附 附CigbL同胤ωeω(1i  cr  doculnentfrequency.Technical reportDept.of Compllter Science Tokyo InsLituLe 01" 

Technology

, 

1994. 

[45] S. Vempala. RandOln projection:  A new approach to vlsi layouL. 1n P7'OCCC(USo}" [!J c  39t九F01l'ndαtions0] COmZJ1de78cience,Pαlo A1Lo, pp. 389‑395

, 

1998. 

[46]  C. C. Vogt

, 

G. ¥71/. COLtIellR.1.BeLew

, 

ancl B. T. BarLel. lUscr ]cnscs ‑achicvillg  100% precision on fleqllentlyasked questions. 1n Proceedi'ngs oJ Use1J¥10rlc1ing'.9.9,  Bαn

  , J f

pp. 87‑96

, 

1999. 

[47] E. M. Voorhees.  Variations in rclcvance juc1genlenLs ill  the meaSUfcme 0'1reLricval  effectiveness. 1n Pl'oceedings of th e 21 sL A nn llCll 1nte/'national A CJV1 SJGIR C077.JC7'CUC  072  Researchαnd Dcveloznncnl in Info1mαLionRel11‑ωα1

pp. :3 1.5-~323 , J 99

[48司]E. 1¥11.  VO

Oαrheesa剖叩ndD. Ha剖1"n11an. 0 γ C1γ11.CW of  the sixL11PXL1eLricval

confc

(TREC‑6的).1n 1;;七00εesαndHωαal'lmα?η7.(Ed心s.))P.occcd1So

f   ̲

'111eSiclhTc:rl RE.fricval  Conference (TREC‑6) Nαtlo11α1 Jnslihde of 5'tand(L/dsαndTcchnology Spccial Puuli‑ c

α[:io77.  pp. 1‑24

, 

1997. 

[49]  E. 1¥11.  Voorhees a D.Harman. Qyen.jew of the sc

'cnth LcxL rct rjeval conference  (TREC‑7). 1n Vooルecsαnd[Jarmαn (Eds.)) Procccdings oJ The SCVfllth  Texl RE‑

参 考 文 献 t

TlεαυalConザfe

PU

ω

bhc

ω α

tlωOη' pp. 1‑24, 1998.  [

伊仰50]

円 1 .

H. Witen1

A.  Moffat

ar T. C. Bell.  AIα g炉t Gψrbyμtεs: Cωom]JTeSS1.η?η1

]r,η~dεαXl仇?ηìg

D o c u

ωmηεηtsηα

d  Im

αgεS.Van Nostrand Reinholcl

, 

New York

, 

1994. 

付録 A IR システムアンケート

o .

システム ID

0.1. IREX固有の情報

0.1.1.使用した検索課題中の情報 (DESCRIPTIONのみ (D)、NARRATIVEのみ (N)、 DESCRIPTIONとNARRATIVE両方 (D&N)) 

0.1.2. NEGのタグは利用しましたか?

0.1.3.システム開発に関連して過去に 94、95年毎日新聞を使用したことがありま すか?

0.1.4. 9 5年8月24、25日のデータのパグについて予め対処してありますか?

1.索引づけ

1.1.索引づけに用いた方法

1.1.1日本語の索引単位は何か?(uni‑graln,ll‑granl,その他の n‑granlぅ単語ぅフレーズラそ の他)

1.1.2.どのような方法を用いて索引づけをしたか?(辞書、形態素解析、その他) 1.1.3.索引語の選択方法は何か?(例 :ストップワード、字種、品詞など)

1.1.4.語棄(文字)の正規化を行なったか?

1.1.5.ステミングアルゴリズムを用いたか?

1.1.6.語の重みづけを用いたか?

1.1.7.フレーズ単位で索引づけをしたか?

1.1.8.フレーズの手重ま買は?

1.1.9.フレーズの見つけ方は?(統計的、構文的、その他) 1.1.10.構文解析は行なったか?

1.1.11.シソーラスや用語集などを用いたか?

1.1.12.語義のl凌昧性解消は行なったか?

1.1.13.誤字脱字やスペルのチェックは行なったか?

1.1.14.誤字脱字やスペルの修正は行なったか?

1.1.15.固有名詞を識別したか?

1.1.16.どのような方法で索引単位に分割したか?

8.5 

6 付金表 A JRシステムアンケート

1.1.17.日本語のヨミを用いたか?

1.1.18.ヨミを用いた場合、ヨミはどのように生成したか?

1.1.19.索引づけに用いたその他の方法(具体的に) 1.2.毎日新聞から構築された索引データの構造 1.2.1.索引の構造の種類

1.2.1.1.クラスタ

1.2.1.2.シグネチャファイル 1.2.1.3.  Pat木

1.2.1.4.知識ベース

1.2.1.5.その他(具体的に)

1.2.2.索引の概要

1.2.2.1.索引の規模 l[¥lIB]

1.2.2.2.構築に要した時間[時間

l

1.2.2.3.実行過程は自動化されているか?

1.2.2.4.語の出現位置(オフセッ ト)は使用 し た か ?

1.3.毎日新間以外の情報源から索引作成のために利用したデータ

1.3.1.独自に構築したデータ (種類=シソーラス、知識ベース、辞書など) 1.3.2.外部で構築されたデータ(種類とデータ名)

2.検索式の作成

2.1.検索式を作成するのに要した時間(1課題当たりの平均 CPU時間[秒]) 2.2.検索式作成に使用した方法

2.2.1.宗 引 単 位 へ の 分 割 (uni‑gralll,bi‑gram,その他の n‑gramぅ単語?フレーズ?その他) 2.2.2.フレーズの抽出

2.2.3.構文解析

2.2.4.語義の暖味性解消 2.2.5.同有名詞の識別 2.2.5.検索式の自動拡張

2.2.5.1.シソーラスなど既存のツール 2.2.5.2.内動レレパンスフィードバック 2.2.5.3.ローカルコンテクストアナリシス

2.2.5.4.その他 (具体的に)

2.2.6.ブール演算子や近接演算子などの自動的付与 2.2.7.その他(具体的に)

3.検索実行

3.1.検 索 時 間 (1検索式に対する平均 CPU時間[秒])  3.2.プロセスサイズ [MB]

3.3.計算機についての情報 3.3.1.実験に使用した計算機 3.3.2.その計算機は専用か共用か 3.3.3.ハー ドディスクの総容量

[ G B ]

3.3.4. RAJVlの総容量 [11B] 3.3.5. CPUのクロック数 [11Hz]

4.検索モデル

4.1.ベクトル空間型を用いたか?

4.2.確 率 型 を 用 い た か ? 4.3.その他 (具体的に)

4.4.ランクづけの要素

4.4.1. TF (語の出現頻度)を使用したか ? 4.4.2. IDFをイ吏用したか?

4.4.3.その他の重みづけ(具体的に) 4.4.4.意味の近さを使用したか?

4.4.5.文書中の位置を使用したか? 4.4.6.構文的な手がかりを使用したか? 4.4.7.語の近接(距離)を使用 し た か ? 4.4.8.文書の長さを使用したか?

4.4.9.その他 (具体的に) 5.そのイ也

5.1.上の質問で回答していないシステムの特色 5.2.チームの構成員

5.2.1.日本語を母国語とする人がいますか?

関連したドキュメント