共起リンク概念ベースを用いた固有名詞に対応した記事関連度計算方式の構築

(1)

共起リンク概念ベースを用いた

固有名詞に対応した記事関連度計算方式の構築

Construction of the Method of Measuring the Degree of Association

between Articles corresponding to proper noun

using Co-occurrence Link Concept-Base

奥田将好

1

_{渡部広一}

2

_{土屋誠司}

2

Masayoshi OKUDA

1

_{Hirokazu WATABE}

2

_{and Seiji TSUCHIYA}

2 1

_{同志社大学大学院理工学研究科}

1

_{Graduate School of Science and Engineering, Doshisha University}

2

_{同志社大学理工学部}

2

_{Faculty of Science and Engineering, Doshisha University}

Abstract:

In order for computers to search for similar articles, it is necessary to quantify how similar the articles are. An article relevance calculation method was proposed as a method to quantify the strength of association between articles, but many proper nouns were not registered in the concept base and could not be used for calculating the degree of article relevance. Therefore, we constructed an article relevance calculation method using a concept base constructed using the Wikipedia link structure. As a result, effective result was obtained.

1 はじめに

近年，インターネットの普及により，Web 上に膨大な情報が溢れるようになった．これらの情報は自由に発信できるため，誤った情報が含まれることがある．その中から正しい情報を得るためには，類似した内容の記事の中から正しい情報を抽出する必要があると考えられるが，人間が膨大な情報の中から類似した内容の記事を抽出するのは困難である．記事間の関連の強さを定量的に表す手法として，本研究室では倉田らにより記事関連度計算方式[1]_，外部研究では Mikolov らにより提案された Doc2Vec[2]_{を用いてベクトル間類似度を計算する手} 法（以降，Doc2Vec による手法）が提案されている． Doc2Vec は，記事に含まれる単語のベクトル表現を予測することで記事のベクトル表現を得る手法，記事関連度計算方式は，記事に含まれる名詞，動詞，形容詞，形容動詞を索引語として抽出し，索引語が持つ重みと，概念ベース[3]_{による索引語間の意味の} 近さを利用することで，記事間の関連の強さを定量的に求める手法である．ここで，Doc2Vec は記事ベクトルの学習のために記事に含まれるすべての単語を利用できるが，記事関連度計算方式では概念ベースに登録されている索引語しか使用できない．概念ベースは電子化された国語辞書などから構築されているため，人間が日常で使用する基本的な語が網羅されている反面，新語や専門用語などの固有名詞の網羅性に問題がある．そのため，多くの固有名詞は記事関連度計算に使用することができない．そこで，長尾らにより提案された，Wikipedia[4]_を用いた共起リンク概念ベース[5]_{を利用し，固有名詞} に対応した記事関連度計算方式を提案する．また， Doc2Vec による手法との比較を行う．なお，本稿ではEMD（Earth Mover’s Distance）[6]_{と呼ばれる距離}

尺度を用いた記事関連度計算方式[7]_{を使用する．}

2 関連研究

2.1 Word2Vec

Word2Vec[8]_{は単語のベクトル表現を得る手法であ} る．文中のベクトル表現を生成したい単語とその周 _______________________ *連絡先：同志社大学大学院理工学研究科情報工学専攻（修士課程）京都府京田辺市多々羅都谷1-3 E-mail:[email protected]

(2)

辺の単語を予測するようにニューラルネットワークを学習する．学習したニューラルネットワークの中間層の重みをベクトル表現として取得する．

2.2 Doc2Vec

Doc2Vec は上述した Word2Vec の考え方を任意の長さの記事にまで拡張した手法である．Doc2Vec は，記事のベクトルから記事に含まれる単語のベクトルを予測するモデルである Paragraph Vector with Distributed Bag of Words （PV-DBOW）モデルと記事中の任意の単語ベクトルをその周辺の単語ベクトル及び記事ベクトルから予測するモデルである Paragraph Vector with Distributed Memory （PV-DM）モデルのどちらかで学習を行う．また，記事間の類似度はコサイン類似度によって求められ，記事A と記事B の類似度𝐷𝑜𝐴(𝐴, 𝐵)は，記事のベクトル表現をそれぞれ𝐴, 𝐵とすると，式(1)のようにして求められる． 𝐷𝑜𝐴(A, B) = 𝐴 ∙ 𝐵 ‖𝐴‖‖𝐵‖ (1)

3 記事関連度計算方式

3.1 概念ベース

概念ベースとは，電子化された国語辞書などから機械的に構築された知識ベースである．ある語を概念として定義し，概念の意味・特徴を表す語（属性）とその重要さを表す数値（重み）の対の集合によって定義されている．概念𝐴は，𝑚個の属性𝑎/と重み w1(> 0)の対によって式(2)のように表現される． 𝐴 = {(𝑎5, 𝑤5), (𝑎7, 𝑤7), ⋯ , (𝑎9, 𝑤9)} (2) この概念ベースを利用し，概念間の一致度を求めることができる．一致度は，概念間でどれだけ一致する属性の重みを持つかということを表すもので，概念間で一致する属性の小さい方の重みの総和により求めることができる．

3.2 MeCab

MeCab[9]_{とは日本語文章を意味を持つ最小単位で} ある形態素に分割し，品詞などの情報を付与する形態素解析器の一つである． MeCab により形態素解析を行う利点として， mecab-ipadic-NEologd[10]_{が使用できることが挙げら} れる．mecab-ipadic-NEologd は多数の Web 上の言語資源から得た新語を追加した MeCab 用のシステム辞書である．「東京スカイツリーに行った」をMeCab で標準に使用されている辞書（ipadic）と mecab-ipadic-NEologd で形態素解析を行った結果をそれぞれ表1，表 2 に示す．表1 形態素解析結果（ipadic）形態素原形品詞東京東京名詞スカイスカイ名詞ツリーツリー名詞にに助詞行っ行く動詞たた助動詞表2 形態素解析結果（mecab-ipadic-NEologd）形態素原形品詞東京スカイツリー東京スカイツリー名詞にに助詞行っ行く動詞たた助動詞表1 より，ipadic を使用した場合は「東京スカイツリー」が正しく解析できないが，表2 より，mecab-ipadic-NEologd を使用することで「東京スカイツリー」を1 つの形態素として正しく解析することができていることが分かる．本稿では， 2019 年 2 月 1 日分のmecab-ipadic-NEologd を辞書として使用した．

3.3 𝑡𝑓 ∙ 𝑖𝑑𝑓重み付け

𝑡𝑓 ∙ 𝑖𝑑𝑓[11]_{とは，対象としている単語の頻度と網羅} 性に基づいた重み付け手法である． 𝑡𝑓は単語頻度を意味し，索引語の網羅性を示す値である．記事中にある単語がどれだけ多く出現するかを示しており，記事内で何度も出現する語は重要であると考える．記事𝑑中に出現するある単語𝑡の出現回数を𝑛(𝑡, 𝑑)と表すと，𝑡𝑓(𝑡, 𝑑)を式(3)で定義する． 𝑡𝑓(𝑡, 𝑑) =_{∑ 𝑛(𝑠, 𝑑)}𝑛(𝑡, 𝑑) B (3) また，𝑖𝑑𝑓はある単語がどの程度その記事にとって特徴的なのか，という特定性を表す尺度である．そのため，記事群が存在する空間全体でのある単語の分布を調べる必要がある．ある単語𝑡の𝑖𝑑𝑓値𝑖𝑑𝑓(𝑡) は，対象とする記事の総数𝑁，ある単語𝑡が出現する記事数を𝑑𝑓(𝑡)とし，式(4)で定義する． 𝑖𝑑𝑓(𝑡) = log 𝑁 𝑑𝑓(𝑡) (4) 以上の𝑡𝑓と𝑖𝑑𝑓を組み合わせたものを単語の重みとする．記事𝑑における単語𝑡の重み𝑤(𝑡, 𝑑)を式(5)のように𝑡𝑓と𝑖𝑑𝑓の積で定義する． 𝑤(𝑡, 𝑑) = 𝑡𝑓(𝑡, 𝑑) × 𝑖𝑑𝑓(𝑡) (5)

3.4 EMD（Earth Mover’s Distance）

EMD は輸送問題において計算される距離尺度で

ある．2 つの離散分布において，一方の分布を他方の

(3)

輸送問題とは，需要地の需要を満たすように供給地から需要地へ輸送を行う場合の最小輸送コストを解く問題である．

3.5 EMD を用いた記事関連度計算方式

EMD を用いた記事関連度計算方式は上述した EMD を記事関連度計算に適用したものである． EMD の考え方を記事関連度計算方式に適用させる際には，記事中の索引語を要素として捉え，記事ごとの要素の集合を離散分布と考える．また，それぞれの要素が持つ重みを𝑡𝑓 ∙ 𝑖𝑑𝑓重み付けによる重み，要素間の距離を 3.1 節で述べた索引語間の一致度を1 から引いたものとして考える．ある記事から得られる離散分布を異なる記事から得られる離散分布へ変換すると考えると，その際のコストが最小となる記事が元の記事に最も近い記事となる．以下で，記事1「千代田区でお花見」と記事 2「東京で桜が咲いた」を入力した場合の記事関連度計算の流れを示す． 3.5.1 索引語の抽出 MeCab により形態素解析を行い，名詞，動詞，形容詞と解析され，かつ概念ベースに存在するものを索引語として抽出する．ここで，動詞，形容詞はその原形を抽出する．例では，「千代田区」「お花見」「東京」「桜」「咲く」が索引語として抽出される． 3.5.2 索引語の重み付け 𝑡𝑓 ∙ 𝑖𝑑𝑓重み付けにより，索引語に重み付けを行う．例では，図1 のそれぞれの索引語の括弧内の数字が重みであるとする．ここで，索引語の重みはそれぞれの記事で合計が1 となるように正規化を行なっている．図1 記事ごとに抽出される索引語と重み 3.5.3 索引語同士の一致度計算記事間の索引語同士の一致度を求める．例での一致度計算の結果は表3 のようになったものとする．表3 索引語間の一致度東京桜咲く千代田区 0.6 0.1 0.2 お花見 0.3 0.8 0.4 3.5.4 索引語間の対応付け索引語間の距離が小さいもの，つまり索引語間の一致度が大きい順に索引語間の対応付けを行う．例では，まず表3 で一致度の最も大きい「お花見」と「桜」で対応付けを行う．このとき，図1 の左側の索引語から右側の索引語に重みを輸送するものとし，左側の索引語が持つ重みを供給量，右側の索引語が持つ重みを需要量と考える．すると，「お花見」と「桜」で重みの小さい方である0.5 だけ「お花見」から「桜」に重みを輸送することになり，「お花見」の残り供給量は0.2，「桜」残り需要量は0 となる．ここで，「桜」の残り需要量が0 となったため，今後は「桜」への対応付けは行わない．次に一致度の大きい「千代田区」と「東京」で対応付けを行う．このとき，重みはどちらも0.3 なので，「千代田区」の重みを全て「東京」に輸送し，今後は「千代田区」と「東京」への対応付けを行わない．最後に「お花見」から「咲く」に 0.2 だけ重みを輸送し，対応付けが終了となる．対応付けの結果，図1 の矢印のように索引語の重みが輸送されたことになる． 3.5.5 EMD，記事関連度の計算 EMD を計算し，EMD の値から記事関連度を計算する．EMD は 4.4 節で述べた処理によって対応付けを行なった索引語間の距離と重みの輸送量の積の総和により求めることができる．例では， 𝐸𝑀𝐷 = (1 − 0.8) × 0.5 + (1 − 0.6) × 0.3 + (1 − 0.4) × 0.2 = 0.34 となる．ここで， EMD が小さいということは，2 つの記事が似ていることを示しているため，記事関連度は1 から EMD を引いた値となり，例で挙げた記事1 と記事 2 での記事関連度𝐷𝑜𝐴(記事 1, 記事 2)は， 𝐷𝑜𝐴U記事 1, 記事 2V = 1 − 𝐸𝑀𝐷 = 1 − 0.34 = 0.66 となる．

4 提案手法

4.1 統合概念ベースの使用

既存の記事関連度計算方式では従来の概念ベース東京（0.3）桜（0.5）咲く（0.2）千代田区（0.3）お花見（0.7）

(4)

（acb008）を使用していたため，多くの固有名詞が計算に使用することができなかった．そこで，従来の概念ベースと共起リンク概念ベースを統合した統合概念ベース（cb2018）を使用する． 4.1.1 共起リンク概念ベース共起リンク概念ベースとは，Wikipedia 全体におけるリンクの共起性を解析し，共起したリンク先の記事タイトルを概念及び属性として獲得することで構築された概念ベースである．解析対象は2018 年 1 月時点の日本語版 Wikipedia のデータからトップページやカテゴリページなど，通常の記事でない記事を除去した記事数約108 万，総リンク数約 4,160 万のデータである． 4.1.2 統合概念ベース共起リンク概念ベースは Wikipedia を知識源としているため，多くの固有名詞は網羅しているが，基本的な語の多くが欠如している．一方で，従来の概念ベースは国語辞典を主な情報源としているため，基本的な語は網羅しているが，多くの固有名詞が欠如している．そのため，従来の概念ベースと共起リンク概念ベースを統合した統合概念ベースが構築された．従来の概念ベースと共起リンク概念ベースの概念は，どちらもベクトル空間モデル[12]_{により，属} 性を次元，その各属性に対する重みを要素とする多次元ベクトルで表されているため，一般的なベクトルに対する演算を適用できる．統合の結果，従来の概念ベースの概念数は87,242 であるのに対し，統合概念ベースは1,068,719 の概念を持つ概念ベースとなった．

4.2 出現記事数リストの作成

従来の記事関連度計算方式では索引語の重み付けの際，新聞記事12579 記事を使用していたが，従来の概念ベースに登録されている概念の約 72.5%が記事内に一度も出現しなかった．そのため，ほとんどの索引語の𝑖𝑑𝑓値は同じ値となり，それぞれの索引語の特定性を考慮できているとはいえない．そこで，Wikipedia を使用して索引語の𝑖𝑑𝑓値を計算する．しかし，𝑖𝑑𝑓値計算時に毎回 Wikipedia 記事データを読み込むのは多大な時間を要する．そこで，概念ベースに登録されている概念がどれだけの記事に含まれているのかを格納した出現記事数リストを作成した．本稿では，livedoor ニュースコーパス[13] とWikipedia の記事データをそれぞれ MeCab により形態素ごとに分割し，動詞，形容詞は原形に変換したうえで概念ベースに登録されている概念の出現文書数をカウントした．ここで，livedoor ニュースコーパスとは，NHN Japan 株式会社が運営する「livedoor ニュース」のうち，クリエイティブ・コモンズライセンス「表示–改変禁止」が適用されるニュース記事を収集したテキストコーパスである．本稿では， livedoor ニュースコーパスは 2012 年 9 月に収集された7,367 件の記事データ，Wikipedia は 2019 年 2 月 1 日時点の1,088,190 件の記事データを使用した．出現記事数リストごとの，一度も出現しない概念の割合を表4 に示す．表4 出現記事数リストの比較出現記事数リスト未出現概念割合（acb008）未出現概念割合（cb2018） livedoor 76.1% 97.8% Wikipedia 33.3% 67.4% 表4 から，livedoor ニュースコーパスの場合，多くの概念が一度も出現しなかったが，Wikipedia では既存の概念ベースでは約43%，統合概念ベースでは約 30%多くの概念が一度以上出現するようになり，網羅性が向上した．

5 評価

5.1 評価方法

評価方法としてはX-BC 評価を行った．X-BC 評価とは，記事X に関連のある記事 B，記事 X に関連のない記事C において，式(6)を満たすとき，正解とする評価方法である． 𝐷𝑜𝐴(𝑋, 𝐵) > 𝐷𝑜𝐴(𝑋, 𝐶) (6) 本稿では，livedoor ニュースコーパスより，記事 X と同じカテゴリの記事を記事 B，別のカテゴリの記事を記事C として 100 セットを作成した．

5.2 比較する手法

概念ベースと出現記事数リストの組み合わせによる記事関連度計算方式の4 手法と，学習に使用した記事データの違いによるDoc2Vec による手法の 2 手法について，パラメータを変化させて評価を行い，最高精度を比較する．記事関連度計算では，抽出された索引語のうち，重みの合計の何%までの索引語を使用するかを， 50%〜100%まで 5%ずつ変化させて評価を行なった．例えば，全体の重みの70%までを使用するとし，抽出された索引語を重み降順に並べたとき，「0.4，0.3， 0.2，0.1」のようになっているとすると，重みの上位から重みを足していき，その値が重みの合計の70% つまり0.7 以上となる上位 2 つまでの索引語を記事

(5)

関連度計算に使用する．本稿で評価した記事関連度計算方式の4 つの手法と最高精度となったときの使用索引語割合を表5 に示す．表5 比較する手法（記事関連度計算方式）手法概念ベース出現記事数リスト使用索引語重み割合 A acb008 livedoor 85% B acb008 Wikipedia 95% C cb2018 livedoor 80% D cb2018 Wikipedia 80% Doc2Vec による手法では，まず記事ベクトルの学習を行い，その後，学習した記事ベクトルを読み込み，テストセットの評価を行う． Doc2Vec の学習にはPV-DBOW モデルを使用した．また，Doc2Vec による記事ベクトルの学習には多くのパラメータが存在するが，本稿では表6 に示すパラメータを変化させて学習を行った．表6 Doc2Vec で変化させるパラメータパラメータ説明変化幅 size 記事ベクトルのサイズ 1〜1000 window 前後何語までを文脈と _するか 1〜100 mincount 最低何回出現した単語_{を学習に使用するか} 0〜1000 Doc2Vec のパラメータはベイズ最適化により変化させ，50 回学習と評価を繰り返した．ベイズ最適化とは，関数の形が不明のブラックボックス関数に対して，少ない評価回数で最適値を求めるための手法である．Doc2Vec による手法の学習に使用した記事と最高精度となったときのパラメータの組み合わせを表7 に示す．なお，Doc2Vec は学習に使用した記事の記事ベクトルを得るため，どちらの手法でも livedoor ニュースコーパスを学習に使用した．表7 比較する手法（Doc2Vec による手法）手法学習した記事 size window mincount

E livedoor 97 1 0 F _Wikipedialivedoor+ 154 1 298

5.3 評価結果

評価結果を図2 に示す．図2 評価結果

6 考察

図2 より，統合概念ベースを使用した手法の方が高精度という結果になった．従来の概念ベースと統合概念ベースにより図3 の記事から抽出される索引語をそれぞれ図4，図 5 に示す． Amazon.co.jp は 26 日、日本国内では未発売の電子書籍リーダー「Kindle（キンドル）」について、同社 Web サイトのトップページにて「近日発売」と案内を開始しています。また、発売開始をお知らせするためのE メール登録サービスも開始されています。これまで海外向け端末を Amazon.com などで購入し、日本に発送して利用するといったことはできていましたが、国内向けの製品は未発売でした。 Amazon.co.jp によれば、本日 26 日から同社 Web サイトで「近日発売」の案内を開始したとのこと。ただし、発売モデルや価格、料金体系などの詳細については、後日、別途案内するということです。いよいよ国内向けにもKindle が発売されるということで、正式発表が楽しみですね！記事執筆：memn0ck ■関連リンク・エスマックス（S-MAX）

・エスマックス（S-MAX） smaxjp on Twitter

・Amazon.co.jp：通販 - ファッション、家電から食品まで【無料配送】図3 記事の例リーダー,本日,近日,登場,向け,製品,端末,開始,案内,発売,登録, 発送,国内,メール,サービス,海外,購入,利用,よる,いる,できる, これ,日本,する,れる図4 抽出された索引語（acb008）

Kindle, 近日 ,Amazon.co.jp, 案内 , 執筆 , お知らせ ,Web サイト,MAX,向け,電子書籍,発売,26 日,キンドル,国内,開始,リーダー,日本国内,S,Amazon.com,E メール,トップページ,製品,本日, 同社,登録,発送,楽しみ,メール,後日,端末,料金,体系,価格,記事, サービス,海外,購入,詳細,モデル,登場,利用,よる,できる,いる, これ,する,日本,れる図5 抽出された索引語（cb2018）図4 より，従来の概念ベースにより抽出された索 83 85 91 90 74 91 0 20 40 60 80 100 A B C D E F 精度[ ％]

(6)

引語からは図3 の記事の内容を推測することは困難であるが，図5 より，統合概念ベースを使用することで，記事の内容を予測できるような索引語が抽出されていることが分かる．また，テストセット全体で形態素解析を行った際，名詞，動詞，形容詞と解析されたものは16338 語であり，その中から従来の概念ベースを用いて抽出された索引語は8346 語，統合概念ベースを用いて抽出された索引語は13513 語であった．このことから，統合概念ベースを使用することで，従来の概念ベースと比較して多くの索引語を抽出することができるようになり，精度が向上したと考えられる．また，手法C と手法 D は，精度はほぼ同じ結果となった．手法C と手法 D で正解となったテストセットでの𝐷𝑜𝐴(𝑋, 𝐵) − 𝐷𝑜𝐴(𝑋, 𝐶)の平均値を比較すると，手法C は約 0.049，手法 D は約 0.062 であった．このことから，Wikipedia により重み付けを行うことで，記事間に関連があるかどうかをより明確に区別できると考えられる．最後に，記事関連度計算方式とDoc2Vec による手法の比較を行う．手法C，手法 D と手法 F における最高精度と，最高精度となったパラメータでテストセットの評価にかかった時間（実行時間）と全パラメータでテストセットの評価にかかった時間（総実行時間）を表8 に示す．ただし，手法 F における実行時間は学習済みの記事ベクトルによりテストセットの評価を行う時間，総実行時間は50 回学習とテストセットの評価を行うのにかかった時間である．表8 手法 C，手法 D，手法 E の比較手法精度実行時間総実行時間 C 91% 240 秒 2099 秒 D 90% 220 秒 2152 秒 F 91% 5 秒 74470 秒表8 より，精度はどちらの手法も同様であったが，実行時間はDoc2Vec による手法の方が短く，総実行時間は記事関連度計算方式の方が短いという結果になった．このことから，大規模もしくは更新が少ない記事データに対しては Doc2Vec を，更新が多く，規模の小さい記事データに対しては記事関連度計算方式を使用するのが良いのではないかと考えられる．

7 おわりに

本稿では，Wikipedia のリンク構造により構築された共起リンク概念ベースと国語辞書などをもとに構築された概念ベースを統合した統合概念ベースを用いて，固有名詞に対応した記事関連度計算方式を提案した．その結果，固有名詞が扱えるようになったことで精度が向上した．さらに，Wikipedia により索引語への重み付けを行うことで，類似した記事同士であるかをより明確に判断できるようになった．また，記事関連度計算方式とDoc2Vec による記事のベクトル表現化によるベクトル間類似度計算手法との比較を行った結果，記事関連度計算方式は適切なパラメータの推定にかかる時間が短いため，更新頻度の高い小規模の記事に対して適用するのが有効なのではないかと考えられる．

謝辞

本研究の一部は，JSPS 科研費 16K00311 の助成を受けて行ったものです．

参考文献

[1] 倉田篤史，渡部広一，河岡司，“概念ベースと関連度計算方式を用いた記事関連度計算方式”，情報処理学会研究報告，2006-NL-171，pp.19-24，(2006)． [2] T.Mikolov, Q.Le，“Distributed representations of senteces

and documents.” ICML pp.1188‐1196，(2014). [3] 奥村紀之，土屋誠司，渡部広一，河岡司，“概念間の関連度計算のための大規模概念ベースの構築”，自然言語処理，Vol.14，No.5，pp.41–64，(2007)． [4] ウィキペディアフリー百科事典，ウィキメディア財団，http://ja.wikipedia.org/（2019-02-12 参照）． [5] 長尾和明，土屋誠司，渡部広一，“Wikipedia を用いた共起リンク概念ベースの構築手法”，信学技報，vol. 117，no. 468, AI2017-47, pp. 25-30，(2018)．

[6] X.Wan, Y.Peng, “The Earth Mover’s Distance as a Semantic Measure for Document Similarity”, Proceeding of the 14th ACM international conference on Information and knowledge management， pp.301-302，(2006)． [7] 藤江悠五, 渡部広一, 河岡司，“概念ベースと Earth

Mover's Distance を用いた文書検索”，信学技報， Vol.108, No.456，pp.111-116，(2009)．

[8] T.Mikolov, I.Sutskever, K.Chen, G.Corrado, and J.Dean， “Distributed representations of words and phrases and their compositionality.” NIPS pp.3111‐3119，(2013). [9] MeCab: Yet Another Part-of-Speech and Morphological

Analyzer，http://taku910.github.io/mecab/（2019-02-12 参照）．

[10] GitHub - neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic，https://github.com/neologd/mecab-ipadic-neologd（2019-02-12 参照）．

[11] 徳永健伸（編），“情報検索と言語処理”，東京大学出版会，(1999)．

[12] G.Salton, A.Wong, and C.S.Yang, ”A Vector Space Model for Automatic Indexing”, Journal of Communications of the ACM, Vol. 18, No. 11, pp. 613–620, (1975).

[13] ダウンロード - 株式会社ロンウイット - RONDHUIT ，株式会社ロンウイット， http://www.rondhuit.com/download.html#ldcc（2019-02-12 参照）．

共起リンク概念ベースを用いた固有名詞に対応した記事関連度計算方式の構築