単語の共起と出現頻度に着目した文書の索引付け

(1)

単語の共起と出現頻度に着目した文書の索引付け

Indexing based on term co-occurrence and frequency

奥井颯平

1∗

_猪口明博

1

Sohei Okui

1

_{and Akihiro Inokuchi}

1

_{関西学院大学理工学部情報科学科}

1

_{Department of Informatics, School of Science and Technology, Kwansei Gakuin University}

Abstract: In this paper, we propose two models to weight each term in the document for document retrieval. Our idea of the models come from traditional Term Frequencies (TFs) and Term Weights (TWs) proposed in 2013. TF is based on the number of term occurrences in a document and used as de facto standard. On the other hand, TW is based on variation of term co-occurrences in a document and outperforms to TF. Our proposed models give much weight to terms which cooccur with terms frequently occur. We show experimental results comparing to the conventional models using a very large text corpus.

1 はじめに

現在，私たちはインターネットを通じて様々な情報を手に入れることが可能となった．1 兆ページ以上存在する web ページがその代表例である [1]．また，動画サイトで閲覧できる動画やショッピングサイトで購入できる商品の情報もそれにあたる．これらは各サイトが無料あるいは有料のサービスを提供する為に管理され，それぞれのデータベースに蓄積されている．しかし，このように入手可能なデータが多種多様になった為，蓄積された膨大なデータの中から所望の情報を得るためには情報検索技術の利用が必要不可欠となる．情報検索技術を用いれば文書，音楽，画像などのメディアを検索することができる．音声解析技術や画像解析技術を用いて音楽や画像，動画を検索することは可能であるが，実際，インターネット上で利用される検索システムの多くは文書検索を用いた検索システムである．たとえ，検索の対象が文書でなくても実際には文書検索が行われる場合もある．音楽サイトで楽曲を検索する際やショッピングサイトで商品を検索する際，楽曲や商品そのものに対して検索を行うのでなく，それぞれの内容を説明する文書などに対して文書検索が行われる．そこで，本論文では情報検索において最も中心的な検索手法である文書検索について述べる．文書検索では，短時間でユーザを満足させる検索結果を返すことが求められる．検索が行われるたびに検索語と文書集合内のすべての単語を比較して検索を行っていたのでは莫大な時間がかかってしまう．そこで検索 ∗_{連絡先：関西学院大学理工学部情報科学科} 〒 669-1337 三田市学園 2 丁目 1 番地 E-mail: [email protected] 語にあたる単語を参照する為に索引を作成し，索引を用いて検索を行うことで，ユーザに不快感を与えないほどに短時間で検索を行うことができる．索引には文書内の各単語とその重要度を記憶しておくのだが，文書検索の精度は，索引がいかに的確に各単語の重要度を記憶してるかで決定する．そこで，本研究では文書検索の精度が向上する新たな単語の重要度を決定する手法の考案を目的とする．文書検索において，文書の索引付け手法のデファクトスタンダードである TF-IDF は文書内に多く出現する単語ほど重要という考えに基づいている．また，2013 年に報告された TW-IDF という文書の索引付け手法は単語の共起関係に着目しており，精度において TF-IDF を上回ると報告された [2]．これらを踏まえると，文書内での単語の出現頻度と単語の共起関係は単語の重要度を測る上で何かしら有用であると考えられる．そこで，新手法考案への手がりとして，単語の出現頻度と単語の共起関係に着目する．

2 TW-IDF

2013 年に文書における単語の重要度を決定する手法である TW-IDF が提案された [2]．TW は TF に変わり単語の網羅性を表す指標として用いられる．

2.1 Graph-of-word

TW-IDF における TW 値は Graph-of-word という文書をグラフ構造で表したものを用いることで決定さ

(2)

れる．そのため，TW-IDF について述べる前に Graph-of-word について述べる．d =⟨Information retrieval is the activity of obtaining⟩ という文書が与えられたとき，単語は各単語から決められたウインドサイズ内で共起している後方の単語それぞれに辺を張る．例えばウインドサイズ 3 のとき，“Information”から “retrieval” と “is”に辺を張る．このルールに基づきグラフを作成すると図 2 のようなグラフ重みなし有向グラフとなる．

/ŶĨŽƌŵĂƚŝŽŶƌĞƚƌŝĞǀĂůŝƐƚŚĞĂĐƚŝǀŝƚǇŽĨŽďƚĂŝŶŝŶŐ

図 1: 単語 “Information”の出線

ƌĞƚƌŝĞǀĂů

ŝŶĨŽƌŵĂƚŝŽŶ

ŝƐ

ƚŚĞ

ĂĐƚŝǀŝƚǇ

ŽĨ

ŽďƚĂŝŶŝŶŐ

図 2: 図 1 の文書に対応した Graph-of-word

2.2 Term Weight

TF における単語の重要度は単語の出現頻度に着目して決定されるのに対して，TW では単語の重要度は単語の共起に着目して決定される． T W (t, d, ω) =|{t′ | tj ∈ d, tk∈ d, t′ = tj, t = tk, j < k < min(|d|, j + ω)}| (1) ここで，検索対象となる文書を d とし，j 番目に出現 する単語を tj とする．また，tj ∈ d は文書 d に j 番 目に出現する索引語 tjが含まれていることを表してい る．式 (1) に示される T W (t, d, ω) は文書 d に対してウ インドサイズ ω で作成した Graph-of-word における単 語 t に対応する頂点の入り線度となり，T W (t, d, ω) は “単語の共起に着目し様々な単語と共起している単語が重要”という考えに基づく．例えば図 2 における頂点 “activity”の入り線度は 2 となるため，単語 “activity” の TW 値は 2 となる．また，Graph-of-word における辺に重みはないため，頂点の入り線度は TF のように文書長に合わせて線形に増加しない．TW 値の増加は文書に新たな文脈が発生した場合に起こる．単語の重みは対数的に増加することを理想としており，TF 値は対数をとることで単語の出現頻度に対して対数的に増加するが，TW 値は単語の出現頻度に対して，自然と対数的に増加する． TW は TF と同様に，IDF との積で単語の重要度を導く．この手法を用いて作成した索引の検索精度が従来の TF を上回ると報告れた．これにより単語の共起は単語の重要度を決定するにあたって何かしら有用であると考えられる．

2.3 TW-IDF に対する考察

TW-IDF は単語の共起に着目しているため，周りの単語の情報や文脈をとらえることが可能である．文書は多くの場合，人間が作成するため抑揚や規則がある．そのため，単に単語を独立として重みをつける TF-IDF よりも，高い精度が得られたと考えられる．しかし，TW-IDF において前方の単語は必ず後方の単語に辺を張るので，多くの場合，単語の入り線度はウインドサイズ-1 となる．これでは TF-IDF から大きく外れることは無いため，精度の大幅な向上は望めない可能性がある．また，日本語では文法上，必ず前方の単語が後方の単語を修飾するのに対して，英語や中国語においては後方の単語が前方の単語を修飾することもある．TW-IDF は前方の単語が後方の単語に辺を張るが，後方の単語の情報も取り入れるべきであると考えられる．

3 提案手法

本研究においてデファクトスタンダードである TF-IDF や前節で述べた TW-TF-IDF に変わる，新たな単語の重み付け手法を二つ提案する．本節では二つの提案手法がそれぞれどのようにして単語の重要度を決定するかを述べる．

3.1 TFW-IDF

文書における単語の重要度を決定する際，TF-IDF と TW-IDF はそれぞれ単語の出現頻度と共起に着目し，高い精度を得ている．これにより，単語の出現頻度と共起は単語の重要度に強く影響していると考えられる．そこで，文書における単語の出現頻度と共起に着目した新たな手法を提案する．本節では，本研究における提案手法を TFW(Term Frequency Weight) とし，TFW について述べる前に TFW を導出する為に考案した cs(co-occurrence score) について述べる．

(3)

3.1.1 Co-occurrence Score cs は単語の周囲に存在する他の語の出現頻度の総和であり，これをもとに TFW 値を導く．式 (2) に示され る cs(j, d, ω) は，ある文書 d において j 番目に出現す る単語 tjに対してウインドサイズ ω 内で共起する各単 語の出現頻度 tf (tj, d) の総和とする．ウインドサイズ ω = 2n + 1 は単語 tjを中心とし，n 単語前方にある単 語から n 単語後方にある単語までとする．したがって， cs におけるウインドウサイズは奇数とする． cs(j, d, ω) = log   j+n∑ k=j_−n,k̸=j tf (tk, d)   (2) TF では各単語の重みは 1 であるのに対して，提案手法における単語の重みは複数の単語の出現頻度の総和なので，cs の値は過度に大きくなることがある．そのため，cs はその総和の対数値をとり，式 (2) で定義される．例えば，図 3 の文書が与えられたとき，ウインドサイズを 5 とすると，図 3 で赤色の下線で示される文頭の単語 “pen”の cs は青色の下線で示される単語 “give”と “father”の出現頻度である TF 値の和となる．また，同様に赤色の下線で示す 14 番目の単語 “children”の cs は青色の下線で示す単語 “red”，“pen”，“father”，“use” に対する TF 値の和となる．図 3 の文書に含まれる各単語の出現位置と cs を表 1 に示す．同一の単語であったとしても出現する位置によって cs が異なる．特に，単語が連続して出現しない出現位置 8 から 10 にかけて cs は小さくなる．

pen give father desk pen tom lost blue big 1 2 3 4 5 6 7 8 9

eraser small red pen children father use pen. 10 11 12 13 14 15 16 18

図 3: 単語 “pen”と “children”の入り線

3.1.2 Term Frequently Weight

TFW は “出現頻度の多い単語と共起し，かつ自身が文書中に多く出現する単語ほど重要” という考えに基づいており，文書に含まれる単語の cs を足し合わせる ことで導かれる．式 (3) に示される T F W (t, d) は文書 d における単語 t の cs の総和となる．また，単語 t の 文書 d = ⟨t1t2· · · tn⟩ における出現位置を pos(t, d) = {j | tj ∈ d, tj= t} とする． 表 1: 図 3 の文書に含まれる単語の cs 単語出現位置 cs pen 1 1.10 give 2 1.95 father 3 2.30 desk 4 2.08 pen 5 1.61 tom 6 1.95 lost 7 1.95 blue 8 1.39 big 9 1.39 eraser 10 1.39 small 11 1.95 red 12 1.95 pen 13 1.61 children 14 2.08 father 15 2.30 use 16 1.95 pen 17 1.10 T F W (t, d, ω) = ∑ j∈pos(t,d) cs(j, d, ω) (3) 図 3 の文書における単語の TFW 値を表 2 に示す．単語 “pen”は文書中に 4 回出現しているが重要語とあまり共起しないため，単語の重みはそれほど大きくならない．一方，単語 “father”は文書中に 2 回しか出現していないが，頻出語と多く共起しているため値が大きくなっている．また，1 回しか出現していない単語においても，頻出語との共起の有無で値にばらつきがある． TFW は TF や TW に変わる単語の網羅性を表す新たな手法であり，TF や TW と同様に特定性を表す IDF との積で単語の重要度を導く．

3.2 R-TFW-IDF

TFW-IDF に対してもう一つ単語の重み付け手法を提案する．本節で提案する R-TFW-IDF は前節で述べた TFW-IDF と逆の考え方で単語の重み付けを行う．また，前節における cs に変わる r-cs(r-co-occurrence score) についても述べる．本節で述べる R-TFW-IDF 表 2: 図 3 の文書における単語の TFW 値単語出現頻度 T F W (t, d, ω) pen 4 5.42 give 1 1.95 father 2 4.61 desk 1 2.08 tom 1 1.95 lost 1 1.95 blue 1 1.39 big 1 1.39 eraser 1 1.39 small 1 1.95 red 1 1.95 children 1 2.08 use 1 1.95

(4)

と r-co-occurrence score に含まれる R と r はいずれも反転を意味しており，TFW-IDF や co-occurrence score と対照的な数値となる． 3.2.1 Reverse-Co-occurrence Score r-cs を求めるにあたって，cs の取りうる値を制限する． cs′(j, d, ω) =        1 if cs(j, d, ω) < 1 cs(j, d, ω) if 1≤ cs(j, d, ω) ≤ p p otherwise (4) 式 (4) に示される p はパラメータとなり，使用する文 書集合とウインドサイズに対して適切な値を調整しなければならない．このように cs を制限した上で r-cs を求める． r-cs(j, d, ω) = p + 1− cs′(j, d, ω) (5) r-cs は単語が頻出語と共起せず出現する程度を表し ており，式 (5) に示される r-cs(j, d, ω) は，ある文書 d において j 番目に出現する単語 tj に対して前方の n 単語，後方の n 単語以内で共起する各単語の出現頻度 tf (tk, d) の総和 cs′(j, d, ω) とパラメータ p との差とな る．式 (4) において cs の値を制限したのは式 (5) の値が 0 になることを防ぐためである．図 3 の文書に含まれる単語の出現位置と r-cs を表 4 に示す．この例における p は 4 とする． 表 3: 図 3 の文書に含まれる各単語の r-cs 単語出現位置 r-cs pen 1 2.90 give 2 2.05 father 3 1.70 desk 4 1.92 pen 5 2.39 tom 6 2.05 lost 7 2.05 blue 8 2.61 big 9 2.61 eraser 10 2.61 small 11 2.05 red 12 2.05 pen 13 2.39 children 14 1.92 father 15 1.70 use 16 2.05 pen 17 2.90

3.2.2 Reverse Term Frequently Weight R-TFW 値は文書に含まれる単語の r-cs を足し合わせることで導かれる．式 (6) に示される TFW は “出現頻度の少ない単語と共起し，かつ自身が文書中に多く出現する単語ほど重要” という考えに基づいている． r-tf w(t, d) は文書 d に含まれる単語 t の r-cs の総和で あり，文書 d に含まれる単語 t の TFW 値 T F W (t, d) は r-tf w(t, d) となる． R-T F W (t, d, ω) = ∑ j∈pos(t,d) r-cs(j, d, ω) (6) 図 3 の文書における単語の R-TFW 値と前節で求めた TFW 値を表 4 に示す．単語 “pen”は 4 回出現し，かつ文書内での出現頻度も多いため，R-TFW 値は非常に大きくなる．また，そのほかの単語も頻出語と共起しない単語ほど値が大きくなる． R-TFW は TFW と同様に単語の網羅性を表し，TF や TW と同様に特定性を表す IDF との積で単語の重要度を導く．表 4: 図 3 の文書における単語の R-TFW 値単語出現頻度 R-T F W (t, d, ω) T F W (t, d, ω) pen 4 10.58 5.42 give 1 2.05 1.95 father 2 3.40 4.61 desk 1 1.92 2.08 tom 1 2.05 1.95 lost 1 2.05 1.95 blue 1 2.61 1.39 big 1 2.61 1.39 eraser 1 2.61 1.39 small 1 2.05 1.95 red 1 2.05 1.95 children 1 1.92 2.08 use 1 2.05 1.95 本節で提案した TFW と R-TFW について考察する． TFW-IDF，R-TFW-IDF は単語の出現頻度と共起に着目し，共起する他の単語の出現頻度を重みに取り入れているため，従来手法よりも単語の重みを決定するにあたって，より多くの文書の情報を取り入れていると考えれらる．また，単語とその前後の単語との共起に着目しているため，後方の単語が前方の単語を修飾する場合においても自然な単語の重み付けがなされている考えられる．次節では TF-IDF，TW-IDF，TFW-IDF，R-TFW-IDF を比較することで，文書において頻出語が密集する位置に出現する単語が重要であるか，頻出語が連続して出現しない位置に出現する単語が重要であるかを評価実験により明らかにする．

4 評価実験

本節では文書検索における精度評価の方法について述べ，既存手法と提案手法の精度を評価し，結果を考察する．

(5)

4.1 文書検索における精度評価

文書検索の索引付け手法の精度評価には検索語集合と検索語集合に対する各文書の適合性 (relevance) の情報を用いる．検索語に対して文書が関連していれば文書は検索語と適合しているとみなされ，適合性は高い値をとる．本研究において適合性は適合するかしないかの二値となる．また，検索語に対して文書が適合しているかどうか，という問題は最終的には人間が判断しなければならない．そこで，適合性を判定するためにテストコレクションを用いる．検索語集合における各検索語に対して文書検索を行うと表 5 のような交差行列を作ることができる．この交差行列の行は検索語に対する文書の適合性を二値で表し，列は検索語によって検索されたかどうかを表す．各要素はそれぞれの位置に当てはまる文書数となる． R = W W + X (7) P = W W + Y (8) 式 (7) に示される R は文書検索の再現率 (recall) を表 す．再現率 R は適合文書 W と検索対象となるすべて の文書 W + X との比であり，検索対象となったすべ ての文書に対して，どれだけ漏れの無いように検索で きたかを表している．一方，式 (8) に示される P は文 書検索の適合率 (precision) を表す．適合率 P は適合文 書 W と検索されたすべての文書 W + Y との比であり， 誤って余計な文書を検索していない程度を表している．適合率は値が大きければ文書検索の精度が高いことを 表す．また，検索の結果 W + Y 件の文書が得られた 時，検索順位が i 位の適合性を ri∈ {0, 1} で表す．こ こで，ri = 1 のとき適合，0 のとき不適合となる．こ の時，検索順位 i 位における適合率は pi =1_i ∑i k=1rk と表すこともできる．平均適合率 (Average Precision) は適合率から求められる文書検索の評価尺度である．式 (9) に示される AP (W + Y,{ri}) は検索により Y + W 件の文書が得 られた時の平均適合率を表す． AP (W + Y,{ri}) = 1 W Y +W∑ i=1 ripi= ∑W +Y i=1 ripi ∑W +Y i=1 ri (9) 表 5: 交差行列検索された文書検索されなかった文書適合文書 W X 非適合文書 Y Z 表 6: 検索結果検索順位文書適合性再現率適合率 1 d1 1 0.20 1.00 2 d5 0 0.20 0.50 3 d4 1 0.40 0.67 4 d6 0 0.40 0.50 5 d8 0 0.40 0.40 6 d2 1 0.60 0.50 7 d6 1 0.80 0.57 8 d3 0 0.80 0.50 9 d10 1 1.00 0.56 10 d9 0 1.00 0.50 例えば，表 6 では順位 1，3，6，7，9 位で適合文書が検索されている．したがって，1，3，6，7，9 行目の適合率に着目すると，適合率の値はそれぞれ，1.00， 0.67，0.50，0.71，0.56 となる．適合文書は全部で 5 つなので適合率の平均である平均適合率の値は 0.688 となる．

4.2 精度評価に対する結果

本研究では提案手法の精度を評価するにあたって， Terrier-3.5 というソフトウェアを用いた [3]．Terrier-3.5 を用いることで大規模なテストコレクションの索引付け，精度評価，検索が可能となる．また，テストコレクションには WT10G を，検索語集合には TREC9 Web Tracks と TREC10 Web Tracks を用いた．WT10G はオーストラリアの CSIRO (Commonwealth Scientific & Industrial Research Organization)[4] が 1997 年に Internet Archive[5] によって収集した web ページの一部を用いて作成したもので，文書集合にあたる 10GB に及ぶ 169 万の Web ページで構成される．TREC9 Web Tracks と TREC10 Web Tracks は TREC(Text RE-trieval Conference) が提供する検索語集合である．本研究で用いた文書に対する単語の重みを導く計算式を式 (10) に示す． index-score(t, d) = k1× T (t, d, ω) T (t, d, ω) + k1× (1− b +b ×_avdl|d|) × IDF (t, d) (10) 式 (10) における k1 と b はパラメータ，T (t, d, ω) は T F (t, d) や T F W (t, d, ω) などの単語の網羅性にあた る数値，_{|d| は文書に含まれる単語の数，avdl は全文書} における_{|d| の平均を表す．パラメータ k}1を terrier-3.5 で用いられるデフォルト値である 1.20，パラメータ b を文献 [2] において用いられた値である 0.20 として，式 (8) に TF 値，TW 値，TFW 値，R-TFW 値をそれぞれ代入することで得られた TF-IDF，TW-IDF，TFW-IDF，R-TFW-IDF それぞれの文書の索引付け手法における文書検索の精度を評価した結果を表 7 と表 8 に

(6)

示す．ここで，TW-IDF における TW 値のウインドサ イズ ω は文献 [2] で最も精度が良いと報告された値であ る 4 とする．また，R-TFW-IDF におけるウインドサ イズ ω とパラメータ p の値に対してチューニングを行っ た結果をを図 4 に示す．すると，ウインドサイズ ω と パラメータ p の値をそれぞれ 7 と 5 とした場合に最も高 い精度が得られた．したがって，R-TFW-IDF のウイ ンドサイズ ω を 7，パラメータ p を 5 とし，TFW-IDF のウインドサイズ ω も R-TFW-IDF のウインドサイズ ω と同じ 7 とする．また，Terrier-3.5 の仕様上，単語 の重みは正の整数である必要がある．そこで，単語の重みが 1 を下回った場合，単語の重みは 1 となるように制限を設けた． Ϭ͘ϮϬϱ Ϭ͘Ϯϭ Ϭ͘Ϯϭϱ Ϭ͘ϮϮ Ϭ͘ϮϮϱ Ϭ͘Ϯϯ Ϭ͘Ϯϯϱ Ϯ ϯ ϰ ϱ ϲ ϳ ϴ ᖹ ᆒ 㐺 ྜ ⋡ Ɖ ʘсϯ ʘсϱ ʘсϳ 図 4: R-TFW におけるパラメータ ω と p に対する チューニング結果表 7: 各索引付け手法の適合率

R TF-IDF TW-IDF TFW-IDF R-TFW-IDF

0.1 0.7010 0.7423 0.5305 0.7078 0.2 0.5692 0.5885 0.4440 0.6272 0.3 0.4570 0.5046 0.3469 0.5096 0.4 0.3822 0.4296 0.2992 0.4396 0.5 0.2854 0.3618 0.2538 0.3655 0.6 0.1971 0.2088 0.1638 0.2092 0.7 0.1381 0.1398 0.1035 0.1686 0.8 0.0859 0.1151 0.0841 0.1215 0.9 0.0461 0.0602 0.0494 0.0649 1.0 0.0211 0.0290 0.0194 0.0408 表 7 は各索引付け手法で文書検索を行った際の再現率ごとの適合率を表す．また，表 8 は各索引付け手法で文書検索を行った際の平均適合率を表す．本研究における二つの提案手法である TFW-IDF と R-TFW-IDF を比較する．適合率と平均適合率において一貫して，R-TFW-IDF の方が TFW-IDF よりも高表 8: 各索引付け手法の平均適合率

TF-IDF TW-IDF TFW-IDF R-TFW-IDF

AP 0.2114 0.2329 0.1810 0.2322 い精度が得られた．これにより，出現頻度が多い単語と共起する単語よりも出現頻度が少ない単語と共起する単語の方が文書を特徴づける上で重要であると考えられる．次に提案手法である TFW-IDF と既存手法を比較する．TFW-IDF は適合率と平均適合率において，再現率が 90%に達した場合を除くと，既存手法である TF-IDF と TW-TF-IDF の適合率を大きく下回った．これにより，TFW の “出現頻度の多い単語と共起し，かつ自身が文書中に多く出現する単語ほど重要” という考え方は文書の索引付けをする上で有用でないと考えらる．最後にもう一つの提案手法である R-TFW-IDF と既存手法を比較する．R-TFW-IDF は適合率と平均適合率において再現率が 10%に達した場合を除くと，既存手法である TF-IDF を上回った．次に，TW-IDF と比較すると，平均適合率において，R-TFW-IDF は TW-IDF をわずかに下回った．以上より，R-TFW-TW-IDF は精度において TW-IDF にわずかに及ばなかったものの， TF-IDF の精度は上回った．よって，R-TFW-IDF の “出現頻度の少ない単語と共起し，かつ自身が文書中に多く出現する単語ほど重要” という考え方は文書の索引付けをする上で何かしら有用であると考えられる．

5 むすび

本研究では文書検索における新たな文書の索引付け手法である TFW-IDF と R-TFW-IDF を提案した．これらの提案手法と既存手法を比較して精度評価を行った結果，R-TFW-IDF は TW-IDF に及ばなかったものの高い精度が得られた．今後は WT10G 以外のテストコレクションを用いて精度評価を行うことで R-TFW-IDF の “出現頻度の少ない単語と共起し，かつ自身が文書中に多く出現する単語ほど重要” という考え方が文書の索引付けを行う上でどれほど有用であるか検証すべきである．

参考文献

[1] Google Oﬃcial Blog. We knew the web was big..., lhttp://googleblog.blogspot.jp/2008/07/we-knew-web-was-big.html (2014/12/24アクセス)

[2] Fran¸ccois, R. and Michalis,V. Graph-of-word and TW-IDF: new approach to ad hoc IR. Proc. of Inter-national Conference on Information and Knowledge Management, pp. 59–68. (2013)

[3] Terrier http://terrier.org/ (2014/12/24アクセス) [4] CSIRO: http://www.csiro.au/ (2014/12/24アクセス) [5] Industrial Archive: http://www.archive.org/

単語の共起と出現頻度に着目した文書の索引付け