以上,本論文ではベクトル空間モデルを用いた情報検索手法の検索精度向上に関する研
究として,ベクトル空間モデルを中心に,現在までに行われて きた情報検索手法の研究つ いて議論を行った.特に,第 2章では,単語の意味や共起関係などの情報を用いて検索を 行う手法や,ベクトル空間の構造を利用してベクトルの次元を圧縮する手法として有効な,
LS1 (Latent Sen1antic 1ndexing)を紹介した.
第 3章では, 1REXワークショップにおける 1Rの本試験の結果,および, 参加したすべ ての情報検索システムについてのアンケートを基に,平均適合率,再現率 ・適合率曲線を 直線回帰させた傾きと切片が,情報検索システムに用いられた手法とどのような相関関係 をもっているのかを調査し,それぞれの手法がシステムの性能に与える影響の大きさを示 した.また, NARRATIVEタグの使用有無により shortとlongに分け,平均適合宅との相 関関係,また,再現率 ・適合率曲線を直線回帰させた傾きと切片にそれぞれどのような相 関関係があるかを調査し,システムの性能に与える影響の大きさを示した.その結果,:f4 詞や名詞以外の品詞単語を用いる以上にフレーズが性能向
t
に関係あり,複数の単語を組 み合わせることで意味が限定され 精度に良い影響を与えることを確認することができた.また,再 現 率 ・適合率曲線の切片と傾きにトレードオフの関係が多くの手法に見られ,検 索システムに用いる手法の選択の難しさが現れる結果となった.
第 4章では,LS1の問題点を解決するために,ランダム・プロジェクションを用いた情報 検索モデルを構築し 情報検索における次元圧縮手法として ランダム・プロジェクショ ンの有効性を確認した.また,ランダム・ プロジェクションを行う際にあらかじめ指定す るベクトルに,文書の内容を表す概念ベクトル
[ 1 0 ]
の利用し,これまで単語などが要素で あったベクトルを文書の内容を要素とする低次元のベクトルに変換をするコンセプト・プ ロジェクションを提案した.さらに,第 5章では,提案したコンセプト ・プロジェクションの応用として,関連性フィー ドパックによる検索モデルの更新手法を提案した.本手法により,更新された概念ベクト ルから検索要求や検索対象となる文書ベクトルの次元圧縮が行われるため,フィードバッ ク学習の影響が検索要求だけでなく検索対象にも反映させることができた.
本研究テーマに関する今後の謀題は,より効率のよいフィードパック方法の提案が挙げ
7 7
7 第 6章 結 論
られる.最も一般的なフィードパックモデルと比較しでも,コンセプト・プロジェクショ
ンを用いたフィードパックの効果が少なかった.そこで,検索結果における適合していな い文書集合を再度検索しないようにより効率よくフィードパックを行う必要がある.また,
概念ベクトルの直交性と独立性の差が検索精度にどれほど影響があるのかを研究する予定 である.
謝 辞
本研究の全課程を通じ,直接懇切,丁寧な御指導,待Il鞭捷を賜わった徳島大学工学部知 能 情 報 工 学 科 基 礎 情 報 工 学 講 座 北 研二教授に心より感謝を申し上げます.
本研究を行うにあたり ,絶えず熱心に御指導,御教授を賜わった徳島大学工学部知能情 報 工 学 科 知 能 工 学 講 座 青 江 順 一 教 授,矢野米雄教授に心から感謝を申し上げます.
本研究を行う機会を与えてくださり 有用なデータを提供して下さった IREXワーク ショップ実行委員の方々,及び, IREX‑IRの本試験に参加した方々と判定者の方々に心か ら感謝を申し上げます.
また,これまでの研究活動において,数多くの助言やサポートをして下さった徳島大学
総 合 科 学 部 国 際 経 済 社 会 シ ス テ ム コ ー ス 異 弓 浩 三 教 授,徳島大学工学部知能情報工学科 基 礎 情 報 工 学 講 座 獅 々 堀 正 幹 講 師,徳島大学工学部知能情報工学科基礎情報工学講座石 田 富 士 雄 技 官,兵庫大学経済情報学部田中康仁教授,ならびに,吹谷和雄社長をはじめ
とする意味解析技術応用研究所株式会社の皆様に心から感謝を申し上げます.
修了,卒業をしても,絶えず、熱心にご助言を頂いた,株式会社ワイ・デイ ・シ ー 芦 辺 和 彦氏をはじめとする北研究室の諸先輩方,NTTソフトウェア小田裕樹氏,富士通株式会 社山下高史氏,目立システムアンドサービス守屋知佐子氏をはじめとする北研究室の修
了生,その他,徳島大学知能情報工学科基礎情報工学講座 A‑2グループの諸氏,ならびに 数多くのアイデアや助言を頂いた徳島大学大学院工学研究科桁他覚氏,岡田真氏に心か
ら感謝を申し上げます.
ここに記して,以上の方々に深く感謝の意を表します.
79
参 考 文 献
hαV W'l、ReseαTchJi1ethods) 1nsh、wηcnts)
ι
Compu.tC7、5,
\~l. 23,
pp. 229 236ラ 1991. [12] S. T. DUlllais. Using lsi for inforn1ation五ltering:TREC‑:1 cxperiny . . 献
ーι..... 、
考
参
(Ed.)) Ove川 ωofThe ThiTd Text REtricvα1 Confcrciof Stαndα7、dsαndTechnology Special Pab!?'cαlion
,
pp. 219 ‑230,
1995 語 と 文 書 の 共 起 に 基 づ く 特 徴 度 の 数 量 的 表 現 に つ い て 情 報 処 理 学 会 論 文山相
j事彰子Fastmap: A fast algorithn1 fo1' indexing
,
daia‑mining ancl visualization of traclitional and multimedia datasets. 1n Proceed?'ngδof the 1995 A C司グ [13] C. Falout誌
,
¥101. 41(12),
pp. 33:32‑334:3う2000.[2]新 谷 研1角田達j多?大石巧?長尾真.形態素の共起頻度と出現位置による新聞関連記事
SIGlv10D 1nterηαtioηα1 Conference 0η¥llanαgement of Dαfa
,
pp. 163‑174ぅ 1995.l
ド
1叫
4]
U. Feige. Approxima叫山tir時 the ban町吋dwi川dも山hv吋iaVOh1l11e 閃 spコecti山ngembコedclings. 1n Pro、刀0‑ の検索手法.信学技報?電子情報通信学会, 1995ceedings of the 30th A C¥l1 Symposium 0η the Thcory of Computing、199ぃ
An algorithn1ic theory of learning: Robust concepts ancl random projection. 1n Proceedulgs of the 40th Foundations of ComputeT Science
,
[3] R. 1. Arriaga anel S. ¥lcmpala.
1aehara. The Johnson‑Linclenstrauss lemma ancl the spherici1Y of [15] P. Frar
SOllle graphs. Combz:nαtorial Theoryぅ¥101.B 44
,
pp. 355‑362,
1988. pp. 616‑623,
1999.Data structures & algo‑ Ranking algori1hn1s
,
in information retrieval:[16] D. Hanllan [4] M. W. Berry aud M. Browne. UndeTstaT~ding Seαrch EηgUl.es: Ji1athemαtical l¥10deling
ri thlllS. 1n TtV. B. Frαkesαnd R. Bae::a‑Y;αtes (Eds.)) InfonnαtioηRctrievα1) P何 ηtice α'IId TcxL Reh'ieval. SIAM Book Series: Software, Environments, and Tools, 1999.
1lall) NJ
,
pp. 363‑392う1992. Matrices,
vector spaces,
ancl inform.ation[5] M. VV. Berry
,
Z. DIlllaC,
and E.R. J essup1n Pγ0‑
[17] D. Hull. U sing statistical testi時 inthe evaluaもionof retrieval pcrformance.
日 1rieva.11n S1A¥l1 Revic1U, ¥101. 42(2)
,
pp. 335‑362,
1999.ceedings of A Cl¥イSIG1RConfe1'ence
,
pp. 329‑338,
199:3. [6] A. Bhln1,
G. Konjevod、R.Ravi,
and S. VCll1pala. SC1l1i‑de五nite relaxations for 111ini‑rnum ba.ndwidth and other vertex‑ordering proble111s. 111 PToceεdings of the 30th A CI11
[18] D. Hull. Stemn1ing algoothlll
Americαη Society f01、1nformαfionScience
,
Vo 1.47(1),
pp. 70‑84ぅ1996 SympOS?:U7n on the Theory of Compllt.ing,
pp. 90‑99う1998.EX1ensions of Lipsbitz ma.pping i])10 hilbc1ι [19] W. B. Johnson ancl J. Lindenstrauss.
ew retrieval approaches using sn1art: 11itra、andG. Salton.
[7] C. B川ぇley
,
A. Singhal,
:M1984. 9‑206 space. ContempOTa7、y111αthemαLicsヲVo.126
,
pp. ]Thi rd Text REtriどα1υ Conference Ovel'吋W of The
D. IIarma孔 (Ed.))
n v
' ' A
TREC 4.
デ ー タ 日本語情報検索システム評価用テストコレクション sM1R.J2.
[20]木谷強ほか.
(TREC4) Nalionα1 Instdu/c of Standa7、dsα'I1dTec7mology Special Pllbl?'cαLion
,
pp.25‑ベースシステム研究会〉情報処理学会)1998
~18 , 1996.
Scgn1en1ation problcms: A lllicro‑ [21] J. Kleinberg
,
C. Pa.pa.climitrioll; and P. Ragha日 new 1f'l'lTl wf'ighting formula.s f01・thevector space Teclmica l.report, Oak Riclge National La.bora.tory, Chicholm札ncl
r r .
G. I¥:olda.methocl in i11 fonna.L i011 1・cL1'ie¥'al.
[ 8 ] E
eC0110111ic view of clata mining. 1n PTOCCιdings o
f .
ihe 30th A C¥l1 Sym]J08i nm on. Th C01、U of Computing,
pp. 473‑482ヲ1998.Tf'nn何 sec
,
1998. Oak Riclge[22]国 立 国 語 研 究 所 新 分 類 語 葉 表 .Technical report,国立国語研究所.1996. Harshman.
111all.tic analysis. J01lrnαI o
f .
thc .‑tmclゴCa)lSocicty Ior 1η[01、771αti077 G. ¥ヘ1Furnas,
a.ncl R.[9] S. Dccrwcstcr, S. T. Dumais、T.T¥:. LanclaωI
emicliscrete ma1rix clecomposition fo1' 1,a1cn1
。
Aう
Leary[23] T. G. Kolcla. a.nd D. P. lndcxing by 1δtCll .l
ln Procccdingδ of ACli1 TmnsacL?"on 072 sema.ntic indexing in information re1ricval.
c/cncc、γ。1.‑11(6)、pp.391‑‑107, 1990.
1998. 17210 r171a f10ηS'ys! e'
,
ηヘ¥10.116,
pp. 322‑3↓6Concept clecon1positions fo1' la.rge spa.rse 1ext data [10] I. S. Dhillon ancl D. S. ¥Ilodha
:omparing u1teracLivc infonna 1]on rcuic¥'al systcms a.cross [24] E. La.gergren a.吋 P.Ovel
llS11lgぐl11S.tCl、ing.Tcchnical 1'('[1ort, lBj¥[ Alllladcn Rcs('arch Ccntel', 1999.
111 Be‑
[mprm'Ing thc rct ric¥'al of infonnat ion from extf'rnal SOUl'ces. [11] S. T. Duma
、
。
2 参 考 文 献
iLes: the TREC‑G interactive track 1natrix experin1ent. 1n Proceedings 0] the 21st A 11771lα1 Intcrnαtioηα1 A C1¥1 S'IGIR Con]erence on Re8earchαnd Development in In‑ JOT7TIαt?'oη Retrievαl
,
pp. 164‑172,
1998・[2
. 5 ]
D. D. Lewis. Representation qua.li ty in text cla.ssifica.tion: An i山 αludionand expeトiment. 1n De]ense Advαnced ReseaアchProjects Agency
,
pp. 288‑295,
1990.[26] D. D. Lewis. Eva.lua.ting Lext categorization. 1n Pァocee恥IgS0] S'peechαnd Nat1川 l Lαnguαge VVorkshop
,
pp. 312‑318,
1991.[27]松本裕治?今一修3山下達雄?北内啓?今村友明日本語形態素解析システム「茶笑」使 用説明書.Naist technical report,奈良先端科学技術大学院大学, 1997.
[28]松尾街う宮本昌幸う森辰則.情報検索タスクにおける人間による正解判定についての分 析.1n Proceecl?:ngs of th e IREX 7.Uorkshopぅpp.15‑22
,
1999[29]西野文人.日本語テキスト分類における特徴素抽出.自然言語処理研究会?情報処理学 会, 1996.
[30] C. D. Paice. Another sもen1mer.SIG1R FOT'l̲l7η
,
Vol. 24,
pp. 56‑61、1990. [31リ ]
C. Papa紅仁limi比tr凶r吋巾~lOu叫1九, P. Rag唱gldex幻lllgι:A p刊3χr、obコab孔ilisticaむnal匂ysis. 1n Proceedings 0] the 17th A C1¥1 Symposiurηon the P
,
、i72ciplcsof Datαbase S'ystems,
pp. 159‑168,
1998.[32] M. F. Porter. Al孔1a叫19orithmfor suffix stripping. P叩g叩 m,Vol. 14(3), pp. 130‑137, ] 980.
[
い3
幻 判
3司]‑巴ωEc心ω仁cli止eRaおsm凶 Sぞ臼叩n. ClんUω山85ttC'l行、ヴゴ1吋 片Alυl匂goω凡 ば、ゴith川 (ρ¥71/へ町1.B.Frak但esa吋 R. Baeze Eng凶lc¥VooclClif[s,
NJ: PrcnLice Hall、1991.[34] J. J. Rocchio. Rele¥'a.nce fcedba.ck in information retrieval. 1n S'alion G. (Ed.)) The '1¥IART RetTicvα1 S!)stcm.. ElIglclL'ood CliJJs, N.J.: PrenliとeHαll,pp. 313‑323
,
1971. [:35] G. SalLon and C. Bucklcy. Tcrm ¥¥"cigbt.1ng approaches in auto111atic Lext retricval. JOll 川 al げ0fhη尺げ7げfμ(0川 ]α仙Mtiο仰ηI7
P
/'Oce何句尺q幻訂山"吋7gσmη川d1I[al1ngc門C11ηmεU印ηl川 ][:3苅問6何]U. Sal札Lona凶 ぐ B町1‑::1匂げ ImproyingretrieyaJ performance by relevance feedback
J 0 1l r n a 1 o
f .
t h c A 'l7I C ,、icanSocic/y f01、lnf .
ormαlionScience,
Vol. Lll,
pp. 288‑297,
1990. [37] G. Salton and 1¥1. 1¥IcG ill. [ηt/'Oduction to J[odern Infol'mation Reh、ieva.l1¥/IcGraw‑HillJ 983.
[38]関恨聡、井佐原均.lR E.'\. プロジ、エクト概~. In Procfcdings ofthe IREX 1/'07士shopぅpp.
』Eニーー一一一一一一 ",,",,--',~
参考文│献
8
3 :1‑,5,1999.
[39] A. Singhal, C. Buckley, ¥11. l¥IiLra, a.nd G. Salton. Pivoもeddocument length norm̲aliza‑ tion. Technical report
,
Department of Computer ScienccヲC01・nellUniversityぅIthac, . a
ew York
,
1995.[40] X. Tai ancl K. Kita.教師あり学習によるベクトル空間モデルの精度改善.自然言語処 理研究会7情報処理学会う 2000.
[41] Xiao‑Ying Taiぅ MinoruSasaki
,
Ke州 Kita,
and Yasuhito Tanaka. In1provcl1lc川 of vector space information retrieval moclel based on supervisecl lear、ning.1n Proceed‑ ings 0] the FiJth Iηte7、nat7:oηα1lTV01士shopon 1nf07、mαtionRei7づωαlwit h AS1:αη Lall‑ guag吋
lRAL2000),
pp. 69‑74,
2000[42] TJくohonen著7徳高平蔵?岸田悟?藤村喜久郎訳.自己組織化マッ プ シ ュ プ リ ン ガ ー ・ フェアラーク東京, 1996.
[43]徳 永 健 伸 情 報 検 索 と 言 語 処 理 東 京 大 学 出 版 会 , 1999. [
件44
叫 ]
Iway戸F司an1aMakoto Tok 叩 aga Tak同t但叩e臼elωb凡u.Text Ce山 go 山a叫Lionbased on w附 附C引igbL同胤ωe任ω(1i 川 cr docuユlnentf仕requency.Technical reportヲDept.of Compllter Science Tokyo InsLituLe 01"Technology
,
1994.[45] S. Vempala. RandOln projection: A new approach to vlsi layouL. 1n P7'OCCC(U吋So}" [!J c 39t九F01l'ndαtions0] COmZJ1de7、8cience,Pαlo A1Lo, pp. 389‑395
,
1998.[46] C. C. Vogt
,
G. ¥71/. COLtI・ellぅR.1く.BeLew,
ancl B. T. BarLel. lUscr ]cnscs ‑achicvillg 100% precision on fl、eqllentlyasked questions. 1n Proceedi'ngs oJ Use1、J¥10rlc1ing'.9.9, Bαn, J f
pp. 87‑96,
1999.[47] E. M. Voorhees. Variations in rclcvance juc1genlenLs ill the meaSUfcme川 0'1reLricval effectiveness. 1n Pl'oceedings of th e 21 sL A nn llCll 1nte/'national A CJV1 SJGIR C077.JC7'CUC 072 Researchαnd Dcveloznncnl in Info1、mαLionRel1、1‑ωα1
,
pp. :3 1.5-~323 , J 99ぃ[48司]E. 1¥11. V勺O
∞
,Oαrhee白sa剖叩,ndD. Ha剖1"n冗11an. 0 γ C1れγ1吋1.巾CW of the sばixL山11いしP内X刈L1閃eLricval∞
con凶fc川(TREC‑6的).1n 1;;七00凶εesαndHωα町a川l'、lmα?η7.(Ed心s.))P,.occcdめ1吋So
f ̲
Tη'111ぽeSi、clhTc:rl RE.fricval Conference (TREC‑6) Nαtlo11α1 Jnslihde of 5'tand(L/、dsαndTcchnology Spccial Puuli‑ cα[:io77., pp. 1‑24
,
1997.[49] E. 1¥11. Voorhees a吋 D.Harman. Qyen.jew of the sc
,
'cnth LcxL rct rjeval conference (TREC‑7). 1n Vooルecsαnd[Jarmαn (Eds.)) Procccdings oJ The SCVfllth Texl RE‑参 考 文 献 t
かTl吋εαυalConザfe附
PU
ω
bhcω α
tlωOη',爪 pp. 1‑24, 1998. [伊仰5印0]
円 1 .
H. Wiも比t民e民n1,
A. Mof仇fat,
ar凶 T. C. Bell. AIダα問 g炉t吋 Gψrbyμtε白s: Cωo叫m]JTeSS1.η旬gα仰?η1]r,η~dεαXl仇?ηìg
D o c u
ωmηεηtsηαd Im
αgε白S.Van Nostrand Reinholcl,
New York,
1994.付録 A IR システムアンケート
o .
システム ID0.1. IREX固有の情報
0.1.1.使用した検索課題中の情報 (DESCRIPTIONのみ (D)、NARRATIVEのみ (N)、 DESCRIPTIONとNARRATIVE両方 (D&N))
0.1.2. NEGのタグは利用しましたか?
0.1.3.システム開発に関連して過去に 94、95年毎日新聞を使用したことがありま すか?
0.1.4. 9 5年8月24、25日のデータのパグについて予め対処してありますか?
1.索引づけ
1.1.索引づけに用いた方法
1.1.1日本語の索引単位は何か?(uni‑graln,lコl‑granl,その他の n‑granlぅ単語ぅフレーズラそ の他)
1.1.2.どのような方法を用いて索引づけをしたか?(辞書、形態素解析、その他) 1.1.3.索引語の選択方法は何か?(例 :ストップワード、字種、品詞など)
1.1.4.語棄(文字)の正規化を行なったか?
1.1.5.ステミングアルゴリズムを用いたか?
1.1.6.語の重みづけを用いたか?
1.1.7.フレーズ単位で索引づけをしたか?
1.1.8.フレーズの手重ま買は?
1.1.9.フレーズの見つけ方は?(統計的、構文的、その他) 1.1.10.構文解析は行なったか?
1.1.11.シソーラスや用語集などを用いたか?
1.1.12.語義のl凌昧性解消は行なったか?
1.1.13.誤字脱字やスペルのチェックは行なったか?
1.1.14.誤字脱字やスペルの修正は行なったか?
1.1.15.固有名詞を識別したか?
1.1.16.どのような方法で索引単位に分割したか?
8.5
。
6 付金表 A JRシステムアンケート1.1.17.日本語のヨミを用いたか?
1.1.18.ヨミを用いた場合、ヨミはどのように生成したか?
1.1.19.索引づけに用いたその他の方法(具体的に) 1.2.毎日新聞から構築された索引データの構造 1.2.1.索引の構造の種類
1.2.1.1.クラスタ
1.2.1.2.シグネチャファイル 1.2.1.3. Pat木
1.2.1.4.知識ベース
1.2.1.5.その他(具体的に)
1.2.2.索引の概要
1.2.2.1.索引の規模 l[¥lIB]
1.2.2.2.構築に要した時間[時間
l
1.2.2.3.実行過程は自動化されているか?
1.2.2.4.語の出現位置(オフセッ ト)は使用 し た か ?
1.3.毎日新間以外の情報源から索引作成のために利用したデータ
1.3.1.独自に構築したデータ (種類=シソーラス、知識ベース、辞書など) 1.3.2.外部で構築されたデータ(種類とデータ名)
2.検索式の作成
2.1.検索式を作成するのに要した時間(1課題当たりの平均 CPU時間[秒]) 2.2.検索式作成に使用した方法
2.2.1.宗 引 単 位 へ の 分 割 (uni‑gralll,bi‑gram,その他の n‑gramぅ単語?フレーズ?その他) 2.2.2.フレーズの抽出
2.2.3.構文解析
2.2.4.語義の暖味性解消 2.2.5.同有名詞の識別 2.2.5.検索式の自動拡張
2.2.5.1.シソーラスなど既存のツール 2.2.5.2.内動レレパンスフィードバック 2.2.5.3.ローカルコンテクストアナリシス
2.2.5.4.その他 (具体的に)
2.2.6.ブール演算子や近接演算子などの自動的付与 2.2.7.その他(具体的に)
3.検索実行
3.1.検 索 時 間 (1検索式に対する平均 CPU時間[秒]) 3.2.プロセスサイズ [MB]
3.3.計算機についての情報 3.3.1.実験に使用した計算機 3.3.2.その計算機は専用か共用か 3.3.3.ハー ドディスクの総容量
[ G B ]
3.3.4. RAJVlの総容量 [11B] 3.3.5. CPUのクロック数 [11Hz]
4.検索モデル
4.1.ベクトル空間型を用いたか?
4.2.確 率 型 を 用 い た か ? 4.3.その他 (具体的に)
4.4.ランクづけの要素
4.4.1. TF (語の出現頻度)を使用したか ? 4.4.2. IDFをイ吏用したか?
4.4.3.その他の重みづけ(具体的に) 4.4.4.意味の近さを使用したか?
4.4.5.文書中の位置を使用したか? 4.4.6.構文的な手がかりを使用したか? 4.4.7.語の近接(距離)を使用 し た か ? 4.4.8.文書の長さを使用したか?
4.4.9.その他 (具体的に) 5.そのイ也
5.1.上の質問で回答していないシステムの特色 5.2.チームの構成員
5.2.1.日本語を母国語とする人がいますか?