単語の共起と出現頻度に着目した文書の索引付け
Indexing based on term co-occurrence and frequency
奥井颯平
1∗猪口明博
1Sohei Okui
1and Akihiro Inokuchi
11
関西学院大学 理工学部 情報科学科
1
Department of Informatics, School of Science and Technology, Kwansei Gakuin University
Abstract: In this paper, we propose two models to weight each term in the document for document retrieval. Our idea of the models come from traditional Term Frequencies (TFs) and Term Weights (TWs) proposed in 2013. TF is based on the number of term occurrences in a document and used as de facto standard. On the other hand, TW is based on variation of term co-occurrences in a document and outperforms to TF. Our proposed models give much weight to terms which cooccur with terms frequently occur. We show experimental results comparing to the conventional models using a very large text corpus.
1
はじめに
現在,私たちはインターネットを通じて様々な情報 を手に入れることが可能となった.1 兆ページ以上存 在する web ページがその代表例である [1].また,動画 サイトで閲覧できる動画やショッピングサイトで購入 できる商品の情報もそれにあたる.これらは各サイト が無料あるいは有料のサービスを提供する為に管理さ れ,それぞれのデータベースに蓄積されている.しか し,このように入手可能なデータが多種多様になった 為,蓄積された膨大なデータの中から所望の情報を得 るためには情報検索技術の利用が必要不可欠となる. 情報検索技術を用いれば文書,音楽,画像などのメ ディアを検索することができる.音声解析技術や画像 解析技術を用いて音楽や画像,動画を検索することは 可能であるが,実際,インターネット上で利用される 検索システムの多くは文書検索を用いた検索システム である.たとえ,検索の対象が文書でなくても実際に は文書検索が行われる場合もある.音楽サイトで楽曲 を検索する際やショッピングサイトで商品を検索する 際,楽曲や商品そのものに対して検索を行うのでなく, それぞれの内容を説明する文書などに対して文書検索 が行われる.そこで,本論文では情報検索において最 も中心的な検索手法である文書検索について述べる. 文書検索では,短時間でユーザを満足させる検索結 果を返すことが求められる.検索が行われるたびに検 索語と文書集合内のすべての単語を比較して検索を行っ ていたのでは莫大な時間がかかってしまう.そこで検索 ∗連絡先:関西学院大学理工学部情報科学科 〒 669-1337 三田市学園 2 丁目 1 番地 E-mail: [email protected] 語にあたる単語を参照する為に索引を作成し,索引を 用いて検索を行うことで,ユーザに不快感を与えない ほどに短時間で検索を行うことができる.索引には文 書内の各単語とその重要度を記憶しておくのだが,文 書検索の精度は,索引がいかに的確に各単語の重要度 を記憶してるかで決定する.そこで,本研究では文書 検索の精度が向上する新たな単語の重要度を決定する 手法の考案を目的とする. 文書検索において,文書の索引付け手法のデファクト スタンダードである TF-IDF は文書内に多く出現する 単語ほど重要という考えに基づいている.また,2013 年に報告された TW-IDF という文書の索引付け手法は 単語の共起関係に着目しており,精度において TF-IDF を上回ると報告された [2].これらを踏まえると,文書 内での単語の出現頻度と単語の共起関係は単語の重要 度を測る上で何かしら有用であると考えられる.そこ で,新手法考案への手がりとして,単語の出現頻度と 単語の共起関係に着目する.2
TW-IDF
2013 年に文書における単語の重要度を決定する手法 である TW-IDF が提案された [2].TW は TF に変わ り単語の網羅性を表す指標として用いられる.2.1
Graph-of-word
TW-IDF における TW 値は Graph-of-word という 文書をグラフ構造で表したものを用いることで決定される.そのため,TW-IDF について述べる前に Graph-of-word について述べる.d =⟨Information retrieval is the activity of obtaining⟩ という文書が与えられたと き,単語は各単語から決められたウインドサイズ内で 共起している後方の単語それぞれに辺を張る.例えばウ インドサイズ 3 のとき,“Information”から “retrieval” と “is”に辺を張る.このルールに基づきグラフを作成 すると図 2 のようなグラフ重みなし有向グラフとなる.
/ŶĨŽƌŵĂƚŝŽŶƌĞƚƌŝĞǀĂůŝƐƚŚĞĂĐƚŝǀŝƚLJŽĨŽďƚĂŝŶŝŶŐ
図 1: 単語 “Information”の出線ƌĞƚƌŝĞǀĂů
ŝŶĨŽƌŵĂƚŝŽŶ
ŝƐ
ƚŚĞ
ĂĐƚŝǀŝƚLJ
ŽĨ
ŽďƚĂŝŶŝŶŐ
図 2: 図 1 の文書に対応した Graph-of-word2.2
Term Weight
TF における単語の重要度は単語の出現頻度に着目 して決定されるのに対して,TW では単語の重要度は 単語の共起に着目して決定される. T W (t, d, ω) =|{t′ | tj ∈ d, tk∈ d, t′ = tj, t = tk, j < k < min(|d|, j + ω)}| (1) ここで,検索対象となる文書を d とし,j 番目に出現 する単語を tj とする.また,tj ∈ d は文書 d に j 番 目に出現する索引語 tjが含まれていることを表してい る.式 (1) に示される T W (t, d, ω) は文書 d に対してウ インドサイズ ω で作成した Graph-of-word における単 語 t に対応する頂点の入り線度となり,T W (t, d, ω) は “単語の共起に着目し様々な単語と共起している単語が 重要”という考えに基づく.例えば図 2 における頂点 “activity”の入り線度は 2 となるため,単語 “activity” の TW 値は 2 となる. また,Graph-of-word における辺に重みはないため, 頂点の入り線度は TF のように文書長に合わせて線形 に増加しない.TW 値の増加は文書に新たな文脈が発 生した場合に起こる.単語の重みは対数的に増加する ことを理想としており,TF 値は対数をとることで単語 の出現頻度に対して対数的に増加するが,TW 値は単 語の出現頻度に対して,自然と対数的に増加する. TW は TF と同様に,IDF との積で単語の重要度を 導く.この手法を用いて作成した索引の検索精度が従 来の TF を上回ると報告れた.これにより単語の共起 は単語の重要度を決定するにあたって何かしら有用で あると考えられる.2.3
TW-IDF に対する考察
TW-IDF は単語の共起に着目しているため,周りの 単語の情報や文脈をとらえることが可能である.文書は 多くの場合,人間が作成するため抑揚や規則がある.そ のため,単に単語を独立として重みをつける TF-IDF よ りも,高い精度が得られたと考えられる.しかし,TW-IDF において前方の単語は必ず後方の単語に辺を張る ので,多くの場合,単語の入り線度はウインドサイズ-1 となる.これでは TF-IDF から大きく外れることは無 いため,精度の大幅な向上は望めない可能性がある.ま た,日本語では文法上,必ず前方の単語が後方の単語 を修飾するのに対して,英語や中国語においては後方 の単語が前方の単語を修飾することもある.TW-IDF は前方の単語が後方の単語に辺を張るが,後方の単語 の情報も取り入れるべきであると考えられる.3
提案手法
本研究においてデファクトスタンダードである TF-IDF や前節で述べた TW-TF-IDF に変わる,新たな単語の 重み付け手法を二つ提案する.本節では二つの提案手 法がそれぞれどのようにして単語の重要度を決定する かを述べる.3.1
TFW-IDF
文書における単語の重要度を決定する際,TF-IDF と TW-IDF はそれぞれ単語の出現頻度と共起に着目 し,高い精度を得ている.これにより,単語の出現頻 度と共起は単語の重要度に強く影響していると考えら れる.そこで,文書における単語の出現頻度と共起に 着目した新たな手法を提案する.本節では,本研究に おける提案手法を TFW(Term Frequency Weight) と し,TFW について述べる前に TFW を導出する為に 考案した cs(co-occurrence score) について述べる.3.1.1 Co-occurrence Score cs は単語の周囲に存在する他の語の出現頻度の総和 であり,これをもとに TFW 値を導く.式 (2) に示され る cs(j, d, ω) は,ある文書 d において j 番目に出現す る単語 tjに対してウインドサイズ ω 内で共起する各単 語の出現頻度 tf (tj, d) の総和とする.ウインドサイズ ω = 2n + 1 は単語 tjを中心とし,n 単語前方にある単 語から n 単語後方にある単語までとする.したがって, cs におけるウインドウサイズは奇数とする. cs(j, d, ω) = log j+n∑ k=j−n,k̸=j tf (tk, d) (2) TF では各単語の重みは 1 であるのに対して,提案手 法における単語の重みは複数の単語の出現頻度の総和 なので,cs の値は過度に大きくなることがある.その ため,cs はその総和の対数値をとり,式 (2) で定義さ れる. 例えば,図 3 の文書が与えられたとき,ウインドサイ ズを 5 とすると,図 3 で赤色の下線で示される文頭の 単語 “pen”の cs は青色の下線で示される単語 “give”と “father”の出現頻度である TF 値の和となる.また,同 様に赤色の下線で示す 14 番目の単語 “children”の cs は 青色の下線で示す単語 “red”,“pen”,“father”,“use” に対する TF 値の和となる.図 3 の文書に含まれる各 単語の出現位置と cs を表 1 に示す.同一の単語であっ たとしても出現する位置によって cs が異なる.特に, 単語が連続して出現しない出現位置 8 から 10 にかけて cs は小さくなる.
pen give father desk pen tom lost blue big 1 2 3 4 5 6 7 8 9
eraser small red pen children father use pen. 10 11 12 13 14 15 16 18
図 3: 単語 “pen”と “children”の入り線
3.1.2 Term Frequently Weight
TFW は “出現頻度の多い単語と共起し,かつ自身が 文書中に多く出現する単語ほど重要” という考えに基 づいており,文書に含まれる単語の cs を足し合わせる ことで導かれる.式 (3) に示される T F W (t, d) は文書 d における単語 t の cs の総和となる.また,単語 t の 文書 d = ⟨t1t2· · · tn⟩ における出現位置を pos(t, d) = {j | tj ∈ d, tj= t} とする. 表 1: 図 3 の文書に含まれる単語の cs 単語 出現位置 cs pen 1 1.10 give 2 1.95 father 3 2.30 desk 4 2.08 pen 5 1.61 tom 6 1.95 lost 7 1.95 blue 8 1.39 big 9 1.39 eraser 10 1.39 small 11 1.95 red 12 1.95 pen 13 1.61 children 14 2.08 father 15 2.30 use 16 1.95 pen 17 1.10 T F W (t, d, ω) = ∑ j∈pos(t,d) cs(j, d, ω) (3) 図 3 の文書における単語の TFW 値を表 2 に示す. 単語 “pen”は文書中に 4 回出現しているが重要語とあ まり共起しないため,単語の重みはそれほど大きくな らない.一方,単語 “father”は文書中に 2 回しか出現 していないが,頻出語と多く共起しているため値が大 きくなっている.また,1 回しか出現していない単語 においても,頻出語との共起の有無で値にばらつきが ある. TFW は TF や TW に変わる単語の網羅性を表す新 たな手法であり,TF や TW と同様に特定性を表す IDF との積で単語の重要度を導く.
3.2
R-TFW-IDF
TFW-IDF に対してもう一つ単語の重み付け手法を 提案する.本節で提案する R-TFW-IDF は前節で述べ た TFW-IDF と逆の考え方で単語の重み付けを行う. また,前節における cs に変わる r-cs(r-co-occurrence score) についても述べる.本節で述べる R-TFW-IDF 表 2: 図 3 の文書における単語の TFW 値 単語 出現頻度 T F W (t, d, ω) pen 4 5.42 give 1 1.95 father 2 4.61 desk 1 2.08 tom 1 1.95 lost 1 1.95 blue 1 1.39 big 1 1.39 eraser 1 1.39 small 1 1.95 red 1 1.95 children 1 2.08 use 1 1.95と r-co-occurrence score に含まれる R と r はいずれも 反転を意味しており,TFW-IDF や co-occurrence score と対照的な数値となる. 3.2.1 Reverse-Co-occurrence Score r-cs を求めるにあたって,cs の取りうる値を制限する. cs′(j, d, ω) = 1 if cs(j, d, ω) < 1 cs(j, d, ω) if 1≤ cs(j, d, ω) ≤ p p otherwise (4) 式 (4) に示される p はパラメータとなり,使用する文 書集合とウインドサイズに対して適切な値を調整しな ければならない.このように cs を制限した上で r-cs を 求める. r-cs(j, d, ω) = p + 1− cs′(j, d, ω) (5) r-cs は単語が頻出語と共起せず出現する程度を表し ており,式 (5) に示される r-cs(j, d, ω) は,ある文書 d において j 番目に出現する単語 tj に対して前方の n 単語,後方の n 単語以内で共起する各単語の出現頻度 tf (tk, d) の総和 cs′(j, d, ω) とパラメータ p との差とな る.式 (4) において cs の値を制限したのは式 (5) の値 が 0 になることを防ぐためである. 図 3 の文書に含まれる単語の出現位置と r-cs を表 4 に示す.この例における p は 4 とする. 表 3: 図 3 の文書に含まれる各単語の r-cs 単語 出現位置 r-cs pen 1 2.90 give 2 2.05 father 3 1.70 desk 4 1.92 pen 5 2.39 tom 6 2.05 lost 7 2.05 blue 8 2.61 big 9 2.61 eraser 10 2.61 small 11 2.05 red 12 2.05 pen 13 2.39 children 14 1.92 father 15 1.70 use 16 2.05 pen 17 2.90
3.2.2 Reverse Term Frequently Weight R-TFW 値は文書に含まれる単語の r-cs を足し合わ せることで導かれる.式 (6) に示される TFW は “出 現頻度の少ない単語と共起し,かつ自身が文書中に多 く出現する単語ほど重要” という考えに基づいている. r-tf w(t, d) は文書 d に含まれる単語 t の r-cs の総和で あり,文書 d に含まれる単語 t の TFW 値 T F W (t, d) は r-tf w(t, d) となる. R-T F W (t, d, ω) = ∑ j∈pos(t,d) r-cs(j, d, ω) (6) 図 3 の文書における単語の R-TFW 値と前節で求め た TFW 値を表 4 に示す.単語 “pen”は 4 回出現し,か つ文書内での出現頻度も多いため,R-TFW 値は非常 に大きくなる.また,そのほかの単語も頻出語と共起 しない単語ほど値が大きくなる. R-TFW は TFW と同様に単語の網羅性を表し,TF や TW と同様に特定性を表す IDF との積で単語の重 要度を導く. 表 4: 図 3 の文書における単語の R-TFW 値 単語 出現頻度 R-T F W (t, d, ω) T F W (t, d, ω) pen 4 10.58 5.42 give 1 2.05 1.95 father 2 3.40 4.61 desk 1 1.92 2.08 tom 1 2.05 1.95 lost 1 2.05 1.95 blue 1 2.61 1.39 big 1 2.61 1.39 eraser 1 2.61 1.39 small 1 2.05 1.95 red 1 2.05 1.95 children 1 1.92 2.08 use 1 2.05 1.95 本節で提案した TFW と R-TFW について考察する. TFW-IDF,R-TFW-IDF は単語の出現頻度と共起に 着目し,共起する他の単語の出現頻度を重みに取り入 れているため,従来手法よりも単語の重みを決定する にあたって,より多くの文書の情報を取り入れている と考えれらる.また,単語とその前後の単語との共起 に着目しているため,後方の単語が前方の単語を修飾 する場合においても自然な単語の重み付けがなされて いる考えられる. 次節では TF-IDF,TW-IDF,TFW-IDF,R-TFW-IDF を比較することで,文書において頻出語が密集す る位置に出現する単語が重要であるか,頻出語が連続 して出現しない位置に出現する単語が重要であるかを 評価実験により明らかにする.
4
評価実験
本節では文書検索における精度評価の方法について 述べ,既存手法と提案手法の精度を評価し,結果を考 察する.4.1
文書検索における精度評価
文書検索の索引付け手法の精度評価には検索語集合 と検索語集合に対する各文書の適合性 (relevance) の情 報を用いる.検索語に対して文書が関連していれば文 書は検索語と適合しているとみなされ,適合性は高い 値をとる.本研究において適合性は適合するかしない かの二値となる.また,検索語に対して文書が適合し ているかどうか,という問題は最終的には人間が判断 しなければならない.そこで,適合性を判定するため にテストコレクションを用いる. 検索語集合における各検索語に対して文書検索を行 うと表 5 のような交差行列を作ることができる.この 交差行列の行は検索語に対する文書の適合性を二値で 表し,列は検索語によって検索されたかどうかを表す. 各要素はそれぞれの位置に当てはまる文書数となる. R = W W + X (7) P = W W + Y (8) 式 (7) に示される R は文書検索の再現率 (recall) を表 す.再現率 R は適合文書 W と検索対象となるすべて の文書 W + X との比であり,検索対象となったすべ ての文書に対して,どれだけ漏れの無いように検索で きたかを表している.一方,式 (8) に示される P は文 書検索の適合率 (precision) を表す.適合率 P は適合文 書 W と検索されたすべての文書 W + Y との比であり, 誤って余計な文書を検索していない程度を表している. 適合率は値が大きければ文書検索の精度が高いことを 表す.また,検索の結果 W + Y 件の文書が得られた 時,検索順位が i 位の適合性を ri∈ {0, 1} で表す.こ こで,ri = 1 のとき適合,0 のとき不適合となる.こ の時,検索順位 i 位における適合率は pi =1i ∑i k=1rk と表すこともできる. 平均適合率 (Average Precision) は適合率から求め られる文書検索の評価尺度である.式 (9) に示される AP (W + Y,{ri}) は検索により Y + W 件の文書が得 られた時の平均適合率を表す. AP (W + Y,{ri}) = 1 W Y +W∑ i=1 ripi= ∑W +Y i=1 ripi ∑W +Y i=1 ri (9) 表 5: 交差行列 検索された文書 検索されなかった文書 適合文書 W X 非適合文書 Y Z 表 6: 検索結果 検索順位 文書 適合性 再現率 適合率 1 d1 1 0.20 1.00 2 d5 0 0.20 0.50 3 d4 1 0.40 0.67 4 d6 0 0.40 0.50 5 d8 0 0.40 0.40 6 d2 1 0.60 0.50 7 d6 1 0.80 0.57 8 d3 0 0.80 0.50 9 d10 1 1.00 0.56 10 d9 0 1.00 0.50 例えば,表 6 では順位 1,3,6,7,9 位で適合文書 が検索されている.したがって,1,3,6,7,9 行目 の適合率に着目すると,適合率の値はそれぞれ,1.00, 0.67,0.50,0.71,0.56 となる.適合文書は全部で 5 つ なので適合率の平均である平均適合率の値は 0.688 と なる.4.2
精度評価に対する結果
本研究では提案手法の精度を評価するにあたって, Terrier-3.5 というソフトウェアを用いた [3].Terrier-3.5 を用いることで大規模なテストコレクションの索引 付け,精度評価,検索が可能となる.また,テストコレ クションには WT10G を,検索語集合には TREC9 Web Tracks と TREC10 Web Tracks を用いた.WT10G は オーストラリアの CSIRO (Commonwealth Scientific & Industrial Research Organization)[4] が 1997 年に Internet Archive[5] によって収集した web ページの一 部を用いて作成したもので,文書集合にあたる 10GB に 及ぶ 169 万の Web ページで構成される.TREC9 Web Tracks と TREC10 Web Tracks は TREC(Text RE-trieval Conference) が提供する検索語集合である. 本研究で用いた文書に対する単語の重みを導く計算 式を式 (10) に示す. index-score(t, d) = k1× T (t, d, ω) T (t, d, ω) + k1× (1− b +b ×avdl|d|) × IDF (t, d) (10) 式 (10) における k1 と b はパラメータ,T (t, d, ω) は T F (t, d) や T F W (t, d, ω) などの単語の網羅性にあた る数値,|d| は文書に含まれる単語の数,avdl は全文書 における|d| の平均を表す.パラメータ k1を terrier-3.5 で用いられるデフォルト値である 1.20,パラメータ b を文献 [2] において用いられた値である 0.20 として,式 (8) に TF 値,TW 値,TFW 値,R-TFW 値をそれぞ れ代入することで得られた TF-IDF,TW-IDF,TFW-IDF,R-TFW-IDF それぞれの文書の索引付け手法に おける文書検索の精度を評価した結果を表 7 と表 8 に示す.ここで,TW-IDF における TW 値のウインドサ イズ ω は文献 [2] で最も精度が良いと報告された値であ る 4 とする.また,R-TFW-IDF におけるウインドサ イズ ω とパラメータ p の値に対してチューニングを行っ た結果をを図 4 に示す.すると,ウインドサイズ ω と パラメータ p の値をそれぞれ 7 と 5 とした場合に最も高 い精度が得られた.したがって,R-TFW-IDF のウイ ンドサイズ ω を 7,パラメータ p を 5 とし,TFW-IDF のウインドサイズ ω も R-TFW-IDF のウインドサイズ ω と同じ 7 とする.また,Terrier-3.5 の仕様上,単語 の重みは正の整数である必要がある.そこで,単語の 重みが 1 を下回った場合,単語の重みは 1 となるよう に制限を設けた. Ϭ͘ϮϬϱ Ϭ͘Ϯϭ Ϭ͘Ϯϭϱ Ϭ͘ϮϮ Ϭ͘ϮϮϱ Ϭ͘Ϯϯ Ϭ͘Ϯϯϱ Ϯ ϯ ϰ ϱ ϲ ϳ ϴ ᖹ ᆒ 㐺 ྜ ⋡ Ɖ ʘсϯ ʘсϱ ʘсϳ 図 4: R-TFW におけるパラメータ ω と p に対する チューニング結果 表 7: 各索引付け手法の適合率
R TF-IDF TW-IDF TFW-IDF R-TFW-IDF
0.1 0.7010 0.7423 0.5305 0.7078 0.2 0.5692 0.5885 0.4440 0.6272 0.3 0.4570 0.5046 0.3469 0.5096 0.4 0.3822 0.4296 0.2992 0.4396 0.5 0.2854 0.3618 0.2538 0.3655 0.6 0.1971 0.2088 0.1638 0.2092 0.7 0.1381 0.1398 0.1035 0.1686 0.8 0.0859 0.1151 0.0841 0.1215 0.9 0.0461 0.0602 0.0494 0.0649 1.0 0.0211 0.0290 0.0194 0.0408 表 7 は各索引付け手法で文書検索を行った際の再現 率ごとの適合率を表す.また,表 8 は各索引付け手法 で文書検索を行った際の平均適合率を表す. 本研究における二つの提案手法である TFW-IDF と R-TFW-IDF を比較する.適合率と平均適合率におい て一貫して,R-TFW-IDF の方が TFW-IDF よりも高 表 8: 各索引付け手法の平均適合率
TF-IDF TW-IDF TFW-IDF R-TFW-IDF
AP 0.2114 0.2329 0.1810 0.2322 い精度が得られた.これにより,出現頻度が多い単語 と共起する単語よりも出現頻度が少ない単語と共起す る単語の方が文書を特徴づける上で重要であると考え られる. 次に提案手法である TFW-IDF と既存手法を比較す る.TFW-IDF は適合率と平均適合率において,再現 率が 90%に達した場合を除くと,既存手法である TF-IDF と TW-TF-IDF の適合率を大きく下回った.これによ り,TFW の “出現頻度の多い単語と共起し,かつ自身 が文書中に多く出現する単語ほど重要” という考え方 は文書の索引付けをする上で有用でないと考えらる. 最後にもう一つの提案手法である R-TFW-IDF と既 存手法を比較する.R-TFW-IDF は適合率と平均適合 率において再現率が 10%に達した場合を除くと,既存 手法である TF-IDF を上回った.次に,TW-IDF と比 較すると,平均適合率において,R-TFW-IDF は TW-IDF をわずかに下回った.以上より,R-TFW-TW-IDF は 精度において TW-IDF にわずかに及ばなかったものの, TF-IDF の精度は上回った.よって,R-TFW-IDF の “出現頻度の少ない単語と共起し,かつ自身が文書中に 多く出現する単語ほど重要” という考え方は文書の索 引付けをする上で何かしら有用であると考えられる.
5
むすび
本研究では文書検索における新たな文書の索引付け 手法である TFW-IDF と R-TFW-IDF を提案した.こ れらの提案手法と既存手法を比較して精度評価を行っ た結果,R-TFW-IDF は TW-IDF に及ばなかったもの の高い精度が得られた.今後は WT10G 以外のテスト コレクションを用いて精度評価を行うことで R-TFW-IDF の “出現頻度の少ない単語と共起し,かつ自身が 文書中に多く出現する単語ほど重要” という考え方が 文書の索引付けを行う上でどれほど有用であるか検証 すべきである.参考文献
[1] Google Official Blog. We knew the web was big..., lhttp://googleblog.blogspot.jp/2008/07/we-knew-web-was-big.html (2014/12/24アクセス)
[2] Fran¸ccois, R. and Michalis,V. Graph-of-word and TW-IDF: new approach to ad hoc IR. Proc. of Inter-national Conference on Information and Knowledge Management, pp. 59–68. (2013)
[3] Terrier http://terrier.org/ (2014/12/24アクセス) [4] CSIRO: http://www.csiro.au/ (2014/12/24アクセス) [5] Industrial Archive: http://www.archive.org/