共起リンク概念ベースを用いた
固有名詞に対応した記事関連度計算方式の構築
Construction of the Method of Measuring the Degree of Association
between Articles corresponding to proper noun
using Co-occurrence Link Concept-Base
奥田 将好
1渡部 広一
2土屋 誠司
2Masayoshi OKUDA
1Hirokazu WATABE
2and Seiji TSUCHIYA
2 1同志社大学大学院理工学研究科
1
Graduate School of Science and Engineering, Doshisha University
2同志社大学理工学部
2
Faculty of Science and Engineering, Doshisha University
Abstract:
In order for computers to search for similar articles, it is necessary to quantify how similar the articles are. An article relevance calculation method was proposed as a method to quantify the strength of association between articles, but many proper nouns were not registered in the concept base and could not be used for calculating the degree of article relevance. Therefore, we constructed an article relevance calculation method using a concept base constructed using the Wikipedia link structure. As a result, effective result was obtained.
1 はじめに
近年,インターネットの普及により,Web 上に膨 大な情報が溢れるようになった.これらの情報は自 由に発信できるため,誤った情報が含まれることが ある.その中から正しい情報を得るためには,類似 した内容の記事の中から正しい情報を抽出する必要 があると考えられるが,人間が膨大な情報の中から 類似した内容の記事を抽出するのは困難である. 記事間の関連の強さを定量的に表す手法として, 本研究室では倉田らにより記事関連度計算方式[1], 外 部 研 究 で は Mikolov ら に よ り 提 案 さ れ た Doc2Vec[2]を用いてベクトル間類似度を計算する手 法(以降,Doc2Vec による手法)が提案されている. Doc2Vec は,記事に含まれる単語のベクトル表現を 予測することで記事のベクトル表現を得る手法,記 事関連度計算方式は,記事に含まれる名詞,動詞, 形容詞,形容動詞を索引語として抽出し,索引語が 持つ重みと,概念ベース[3]による索引語間の意味の 近さを利用することで,記事間の関連の強さを定量 的に求める手法である.ここで,Doc2Vec は記事ベ クトルの学習のために記事に含まれるすべての単語 を利用できるが,記事関連度計算方式では概念ベー スに登録されている索引語しか使用できない.概念 ベースは電子化された国語辞書などから構築されて いるため,人間が日常で使用する基本的な語が網羅 されている反面,新語や専門用語などの固有名詞の 網羅性に問題がある.そのため,多くの固有名詞は 記事関連度計算に使用することができない. そこで,長尾らにより提案された,Wikipedia[4]を 用いた共起リンク概念ベース[5]を利用し,固有名詞 に対応した記事関連度計算方式を提案する.また, Doc2Vec による手法との比較を行う.なお,本稿で はEMD(Earth Mover’s Distance)[6]と呼ばれる距離尺度を用いた記事関連度計算方式[7]を使用する.
2 関連研究
2.1 Word2Vec
Word2Vec[8]は単語のベクトル表現を得る手法であ る.文中のベクトル表現を生成したい単語とその周 _______________________ *連絡先:同志社大学大学院理工学研究科 情報工学専攻(修士課程) 京都府京田辺市多々羅都谷1-3 E-mail:[email protected]辺の単語を予測するようにニューラルネットワーク を学習する.学習したニューラルネットワークの中 間層の重みをベクトル表現として取得する.
2.2 Doc2Vec
Doc2Vec は上述した Word2Vec の考え方を任意の 長さの記事にまで拡張した手法である.Doc2Vec は, 記事のベクトルから記事に含まれる単語のベクトル を 予 測 す る モ デ ル で あ る Paragraph Vector with Distributed Bag of Words (PV-DBOW)モデルと記事 中の任意の単語ベクトルをその周辺の単語ベクトル 及 び 記 事 ベ ク ト ル か ら 予 測 す る モ デ ル で あ る Paragraph Vector with Distributed Memory (PV-DM) モデルのどちらかで学習を行う.また,記事間の類 似度はコサイン類似度によって求められ,記事A と 記事B の類似度𝐷𝑜𝐴(𝐴, 𝐵)は,記事のベクトル表現を それぞれ𝐴, 𝐵とすると,式(1)のようにして求められ る. 𝐷𝑜𝐴(A, B) = 𝐴 ∙ 𝐵 ‖𝐴‖‖𝐵‖ (1)3 記事関連度計算方式
3.1 概念ベース
概念ベースとは,電子化された国語辞書などから 機械的に構築された知識ベースである.ある語を概 念として定義し,概念の意味・特徴を表す語(属性) とその重要さを表す数値(重み)の対の集合によっ て定義されている.概念𝐴は,𝑚個の属性𝑎/と重み w1(> 0)の対によって式(2)のように表現される. 𝐴 = {(𝑎5, 𝑤5), (𝑎7, 𝑤7), ⋯ , (𝑎9, 𝑤9)} (2) この概念ベースを利用し,概念間の一致度を求め ることができる.一致度は,概念間でどれだけ一致 する属性の重みを持つかということを表すもので, 概念間で一致する属性の小さい方の重みの総和によ り求めることができる.3.2 MeCab
MeCab[9]とは日本語文章を意味を持つ最小単位で ある形態素に分割し,品詞などの情報を付与する形 態素解析器の一つである. MeCab により形態素解析を行う利点として, mecab-ipadic-NEologd[10]が使用できることが挙げら れる.mecab-ipadic-NEologd は多数の Web 上の言語 資源から得た新語を追加した MeCab 用のシステム 辞書である.「東京スカイツリーに行った」をMeCab で標準に使用されている辞書(ipadic)と mecab-ipadic-NEologd で形態素解析を行った結果をそれぞ れ表1,表 2 に示す. 表1 形態素解析結果(ipadic) 形態素 原形 品詞 東京 東京 名詞 スカイ スカイ 名詞 ツリー ツリー 名詞 に に 助詞 行っ 行く 動詞 た た 助動詞 表2 形態素解析結果(mecab-ipadic-NEologd) 形態素 原形 品詞 東京スカイツリー 東京スカイツリー 名詞 に に 助詞 行っ 行く 動詞 た た 助動詞 表1 より,ipadic を使用した場合は「東京スカイ ツリー」が正しく解析できないが,表2 より,mecab-ipadic-NEologd を使用することで「東京スカイツリ ー」を1 つの形態素として正しく解析することがで きていることが分かる.本稿では, 2019 年 2 月 1 日 分のmecab-ipadic-NEologd を辞書として使用した.3.3
𝑡𝑓 ∙ 𝑖𝑑𝑓重み付け
𝑡𝑓 ∙ 𝑖𝑑𝑓[11]とは,対象としている単語の頻度と網羅 性に基づいた重み付け手法である. 𝑡𝑓は単語頻度を意味し,索引語の網羅性を示す値 である.記事中にある単語がどれだけ多く出現する かを示しており,記事内で何度も出現する語は重要 であると考える.記事𝑑中に出現するある単語𝑡の出 現回数を𝑛(𝑡, 𝑑)と表すと,𝑡𝑓(𝑡, 𝑑)を式(3)で定義する. 𝑡𝑓(𝑡, 𝑑) =∑ 𝑛(𝑠, 𝑑)𝑛(𝑡, 𝑑) B (3) また,𝑖𝑑𝑓はある単語がどの程度その記事にとって 特徴的なのか,という特定性を表す尺度である.そ のため,記事群が存在する空間全体でのある単語の 分布を調べる必要がある.ある単語𝑡の𝑖𝑑𝑓値𝑖𝑑𝑓(𝑡) は,対象とする記事の総数𝑁,ある単語𝑡が出現する 記事数を𝑑𝑓(𝑡)とし,式(4)で定義する. 𝑖𝑑𝑓(𝑡) = log 𝑁 𝑑𝑓(𝑡) (4) 以上の𝑡𝑓と𝑖𝑑𝑓を組み合わせたものを単語の重み とする.記事𝑑における単語𝑡の重み𝑤(𝑡, 𝑑)を式(5)の ように𝑡𝑓と𝑖𝑑𝑓の積で定義する. 𝑤(𝑡, 𝑑) = 𝑡𝑓(𝑡, 𝑑) × 𝑖𝑑𝑓(𝑡) (5)3.4 EMD(Earth Mover’s Distance)
EMD は輸送問題において計算される距離尺度で
ある.2 つの離散分布において,一方の分布を他方の
輸送問題とは,需要地の需要を満たすように供給地 から需要地へ輸送を行う場合の最小輸送コストを解 く問題である.
3.5 EMD を用いた記事関連度計算方式
EMD を用いた記事関連度計算方式は上述した EMD を記事関連度計算に適用したものである. EMD の考え方を記事関連度計算方式に適用させ る際には,記事中の索引語を要素として捉え,記事 ごとの要素の集合を離散分布と考える.また,それ ぞれの要素が持つ重みを𝑡𝑓 ∙ 𝑖𝑑𝑓重み付けによる重 み,要素間の距離を 3.1 節で述べた索引語間の一致 度を1 から引いたものとして考える.ある記事から 得られる離散分布を異なる記事から得られる離散分 布へ変換すると考えると,その際のコストが最小と なる記事が元の記事に最も近い記事となる. 以下で,記事1「千代田区でお花見」と記事 2「東 京で桜が咲いた」を入力した場合の記事関連度計算 の流れを示す. 3.5.1 索引語の抽出 MeCab により形態素解析を行い,名詞,動詞,形 容詞と解析され,かつ概念ベースに存在するものを 索引語として抽出する.ここで,動詞,形容詞はそ の原形を抽出する.例では,「千代田区」「お花見」 「東京」「桜」「咲く」が索引語として抽出される. 3.5.2 索引語の重み付け 𝑡𝑓 ∙ 𝑖𝑑𝑓重み付けにより,索引語に重み付けを行う. 例では,図1 のそれぞれの索引語の括弧内の数字が 重みであるとする.ここで,索引語の重みはそれぞ れの記事で合計が1 となるように正規化を行なって いる. 図1 記事ごとに抽出される索引語と重み 3.5.3 索引語同士の一致度計算 記事間の索引語同士の一致度を求める.例での一 致度計算の結果は表3 のようになったものとする. 表3 索引語間の一致度 東京 桜 咲く 千代田区 0.6 0.1 0.2 お花見 0.3 0.8 0.4 3.5.4 索引語間の対応付け 索引語間の距離が小さいもの,つまり索引語間の 一致度が大きい順に索引語間の対応付けを行う.例 では,まず表3 で一致度の最も大きい「お花見」と 「桜」で対応付けを行う.このとき,図1 の左側の 索引語から右側の索引語に重みを輸送するものとし, 左側の索引語が持つ重みを供給量,右側の索引語が 持つ重みを需要量と考える.すると,「お花見」と「桜」 で重みの小さい方である0.5 だけ「お花見」から「桜」 に重みを輸送することになり,「お花見」の残り供給 量は0.2,「桜」残り需要量は0 となる.ここで,「桜」 の残り需要量が0 となったため,今後は「桜」への 対応付けは行わない.次に一致度の大きい「千代田 区」と「東京」で対応付けを行う.このとき,重み はどちらも0.3 なので,「千代田区」の重みを全て「東 京」に輸送し,今後は「千代田区」と「東京」への 対応付けを行わない.最後に「お花見」から「咲く」 に 0.2 だけ重みを輸送し,対応付けが終了となる. 対応付けの結果,図1 の矢印のように索引語の重み が輸送されたことになる. 3.5.5 EMD,記事関連度の計算 EMD を計算し,EMD の値から記事関連度を計算 する.EMD は 4.4 節で述べた処理によって対応付け を行なった索引語間の距離と重みの輸送量の積の総 和により求めることができる.例では, 𝐸𝑀𝐷 = (1 − 0.8) × 0.5 + (1 − 0.6) × 0.3 + (1 − 0.4) × 0.2 = 0.34 となる.ここで, EMD が小さいということは,2 つ の記事が似ていることを示しているため,記事関連 度は1 から EMD を引いた値となり,例で挙げた記 事1 と記事 2 での記事関連度𝐷𝑜𝐴(記事 1, 記事 2)は, 𝐷𝑜𝐴U記事 1, 記事 2V = 1 − 𝐸𝑀𝐷 = 1 − 0.34 = 0.66 となる.4 提案手法
4.1 統合概念ベースの使用
既存の記事関連度計算方式では従来の概念ベース 東京(0.3) 桜(0.5) 咲く(0.2) 千代田区(0.3) お花見(0.7)(acb008)を使用していたため,多くの固有名詞が 計算に使用することができなかった.そこで,従来 の概念ベースと共起リンク概念ベースを統合した統 合概念ベース(cb2018)を使用する. 4.1.1 共起リンク概念ベース 共起リンク概念ベースとは,Wikipedia 全体におけ るリンクの共起性を解析し,共起したリンク先の記 事タイトルを概念及び属性として獲得することで構 築された概念ベースである.解析対象は2018 年 1 月 時点の日本語版 Wikipedia のデータからトップペー ジやカテゴリページなど,通常の記事でない記事を 除去した記事数約108 万,総リンク数約 4,160 万の データである. 4.1.2 統合概念ベース 共起リンク概念ベースは Wikipedia を知識源とし ているため,多くの固有名詞は網羅しているが,基 本的な語の多くが欠如している.一方で,従来の概 念ベースは国語辞典を主な情報源としているため, 基本的な語は網羅しているが,多くの固有名詞が欠 如している.そのため,従来の概念ベースと共起リ ンク概念ベースを統合した統合概念ベースが構築さ れた.従来の概念ベースと共起リンク概念ベースの 概念は,どちらもベクトル空間モデル[12]により,属 性を次元,その各属性に対する重みを要素とする多 次元ベクトルで表されているため,一般的なベクト ルに対する演算を適用できる. 統合の結果,従来の概念ベースの概念数は87,242 であるのに対し,統合概念ベースは1,068,719 の概念 を持つ概念ベースとなった.
4.2 出現記事数リストの作成
従来の記事関連度計算方式では索引語の重み付け の際,新聞記事12579 記事を使用していたが,従来 の概念ベースに登録されている概念の約 72.5%が記 事内に一度も出現しなかった.そのため,ほとんど の索引語の𝑖𝑑𝑓値は同じ値となり,それぞれの索引語 の特定性を考慮できているとはいえない. そこで,Wikipedia を使用して索引語の𝑖𝑑𝑓値を計 算する.しかし,𝑖𝑑𝑓値計算時に毎回 Wikipedia 記事 データを読み込むのは多大な時間を要する.そこで, 概念ベースに登録されている概念がどれだけの記事 に含まれているのかを格納した出現記事数リストを 作成した. 本稿では,livedoor ニュースコーパス[13] とWikipedia の記事データをそれぞれ MeCab により 形態素ごとに分割し,動詞,形容詞は原形に変換し たうえで概念ベースに登録されている概念の出現文 書数をカウントした.ここで,livedoor ニュースコー パスとは,NHN Japan 株式会社が運営する「livedoor ニュース」のうち,クリエイティブ・コモンズライ センス「表示–改変禁止」が適用されるニュース記事 を収集したテキストコーパスである.本稿では, livedoor ニュースコーパスは 2012 年 9 月に収集され た7,367 件の記事データ,Wikipedia は 2019 年 2 月 1 日時点の1,088,190 件の記事データを使用した.出現 記事数リストごとの,一度も出現しない概念の割合 を表4 に示す. 表4 出現記事数リストの比較 出現記事数 リスト 未出現概念割合 (acb008) 未出現概念割合 (cb2018) livedoor 76.1% 97.8% Wikipedia 33.3% 67.4% 表4 から,livedoor ニュースコーパスの場合,多く の概念が一度も出現しなかったが,Wikipedia では既 存の概念ベースでは約43%,統合概念ベースでは約 30%多くの概念が一度以上出現するようになり,網 羅性が向上した.5 評価
5.1 評価方法
評価方法としてはX-BC 評価を行った.X-BC 評価 とは,記事X に関連のある記事 B,記事 X に関連の ない記事C において,式(6)を満たすとき,正解とす る評価方法である. 𝐷𝑜𝐴(𝑋, 𝐵) > 𝐷𝑜𝐴(𝑋, 𝐶) (6) 本稿では,livedoor ニュースコーパスより,記事 X と同じカテゴリの記事を記事 B,別のカテゴリの記 事を記事C として 100 セットを作成した.5.2 比較する手法
概念ベースと出現記事数リストの組み合わせによ る記事関連度計算方式の4 手法と,学習に使用した 記事データの違いによるDoc2Vec による手法の 2 手 法について,パラメータを変化させて評価を行い, 最高精度を比較する. 記事関連度計算では,抽出された索引語のうち, 重みの合計の何%までの索引語を使用するかを, 50%〜100%まで 5%ずつ変化させて評価を行なった. 例えば,全体の重みの70%までを使用するとし,抽 出された索引語を重み降順に並べたとき,「0.4,0.3, 0.2,0.1」のようになっているとすると,重みの上位 から重みを足していき,その値が重みの合計の70% つまり0.7 以上となる上位 2 つまでの索引語を記事関連度計算に使用する.本稿で評価した記事関連度 計算方式の4 つの手法と最高精度となったときの使 用索引語割合を表5 に示す. 表5 比較する手法(記事関連度計算方式) 手法 概念ベース 出現記事数 リスト 使用索引語 重み割合 A acb008 livedoor 85% B acb008 Wikipedia 95% C cb2018 livedoor 80% D cb2018 Wikipedia 80% Doc2Vec による手法では,まず記事ベクトルの学 習を行い,その後,学習した記事ベクトルを読み込 み,テストセットの評価を行う. Doc2Vec の学習に はPV-DBOW モデルを使用した.また,Doc2Vec に よる記事ベクトルの学習には多くのパラメータが存 在するが,本稿では表6 に示すパラメータを変化さ せて学習を行った. 表6 Doc2Vec で変化させるパラメータ パラメータ 説明 変化幅 size 記事ベクトルのサイズ 1〜1000 window 前後何語までを文脈と するか 1〜100 mincount 最低何回出現した単語を学習に使用するか 0〜1000 Doc2Vec のパラメータはベイズ最適化により変化 させ,50 回学習と評価を繰り返した.ベイズ最適化 とは,関数の形が不明のブラックボックス関数に対 して,少ない評価回数で最適値を求めるための手法 である.Doc2Vec による手法の学習に使用した記事 と最高精度となったときのパラメータの組み合わせ を表7 に示す.なお,Doc2Vec は学習に使用した記 事の記事ベクトルを得るため,どちらの手法でも livedoor ニュースコーパスを学習に使用した. 表7 比較する手法(Doc2Vec による手法) 手法 学習した記事 size window mincount
E livedoor 97 1 0 F Wikipedia livedoor+ 154 1 298
5.3 評価結果
評価結果を図2 に示す. 図2 評価結果6 考察
図2 より,統合概念ベースを使用した手法の方が 高精度という結果になった.従来の概念ベースと統 合概念ベースにより図3 の記事から抽出される索引 語をそれぞれ図4,図 5 に示す. Amazon.co.jp は 26 日、日本国内では未発売の電子書籍リー ダー「Kindle(キンドル)」について、同社 Web サイトのトッ プページにて「近日発売」と案内を開始しています。 また、発売開始をお知らせするためのE メール登録サービ スも開始されています。 これまで海外向け端末を Amazon.com などで購入し、日本 に発送して利用するといったことはできていましたが、国内 向けの製品は未発売でした。 Amazon.co.jp によれば、本日 26 日から同社 Web サイトで 「近日発売」の案内を開始したとのこと。ただし、発売モデル や価格、料金体系などの詳細については、後日、別途案内する ということです。 いよいよ国内向けにもKindle が発売されるということで、 正式発表が楽しみですね! 記事執筆:memn0ck ■関連リンク ・エスマックス(S-MAX)・エスマックス(S-MAX) smaxjp on Twitter
・Amazon.co.jp: 通販 - ファッション、家電から食品まで【無 料配送】 図3 記事の例 リーダー,本日,近日,登場,向け,製品,端末,開始,案内,発売,登録, 発送,国内,メール,サービス,海外,購入,利用,よる,いる,できる, こ れ,日本,する,れる 図4 抽出された索引語(acb008)
Kindle, 近 日 ,Amazon.co.jp, 案 内 , 執 筆 , お 知 ら せ ,Web サ イ ト,MAX,向け,電子書籍,発売,26 日,キンドル,国内,開始,リーダ ー,日本国内,S,Amazon.com,E メール,トップページ,製品,本日, 同社,登録,発送,楽しみ,メール,後日,端末,料金,体系,価格,記事, サービス,海外,購入,詳細,モデル,登場,利用,よる,できる,いる, これ,する,日本,れる 図5 抽出された索引語(cb2018) 図4 より,従来の概念ベースにより抽出された索 83 85 91 90 74 91 0 20 40 60 80 100 A B C D E F 精 度[ %]
引語からは図3 の記事の内容を推測することは困難 であるが,図5 より,統合概念ベースを使用するこ とで,記事の内容を予測できるような索引語が抽出 されていることが分かる.また,テストセット全体 で形態素解析を行った際,名詞,動詞,形容詞と解 析されたものは16338 語であり,その中から従来の 概念ベースを用いて抽出された索引語は8346 語,統 合概念ベースを用いて抽出された索引語は13513 語 であった.このことから,統合概念ベースを使用す ることで,従来の概念ベースと比較して多くの索引 語を抽出することができるようになり,精度が向上 したと考えられる. また,手法C と手法 D は,精度はほぼ同じ結果と なった.手法C と手法 D で正解となったテストセッ トでの𝐷𝑜𝐴(𝑋, 𝐵) − 𝐷𝑜𝐴(𝑋, 𝐶)の平均値を比較すると, 手法C は約 0.049,手法 D は約 0.062 であった.こ のことから,Wikipedia により重み付けを行うことで, 記事間に関連があるかどうかをより明確に区別でき ると考えられる. 最後に,記事関連度計算方式とDoc2Vec による手 法の比較を行う.手法C,手法 D と手法 F における 最高精度と,最高精度となったパラメータでテスト セットの評価にかかった時間(実行時間)と全パラ メータでテストセットの評価にかかった時間(総実 行時間)を表8 に示す.ただし,手法 F における実 行時間は学習済みの記事ベクトルによりテストセッ トの評価を行う時間,総実行時間は50 回学習とテス トセットの評価を行うのにかかった時間である. 表8 手法 C,手法 D,手法 E の比較 手法 精度 実行時間 総実行時間 C 91% 240 秒 2099 秒 D 90% 220 秒 2152 秒 F 91% 5 秒 74470 秒 表8 より,精度はどちらの手法も同様であったが, 実行時間はDoc2Vec による手法の方が短く,総実行 時間は記事関連度計算方式の方が短いという結果に なった.このことから,大規模もしくは更新が少な い記事データに対しては Doc2Vec を,更新が多く, 規模の小さい記事データに対しては記事関連度計算 方式を使用するのが良いのではないかと考えられる.
7 おわりに
本稿では,Wikipedia のリンク構造により構築され た共起リンク概念ベースと国語辞書などをもとに構 築された概念ベースを統合した統合概念ベースを用 いて,固有名詞に対応した記事関連度計算方式を提 案した.その結果,固有名詞が扱えるようになった ことで精度が向上した.さらに,Wikipedia により索 引語への重み付けを行うことで,類似した記事同士 であるかをより明確に判断できるようになった. また,記事関連度計算方式とDoc2Vec による記事 のベクトル表現化によるベクトル間類似度計算手法 との比較を行った結果,記事関連度計算方式は適切 なパラメータの推定にかかる時間が短いため,更新 頻度の高い小規模の記事に対して適用するのが有効 なのではないかと考えられる.謝辞
本研究の一部は,JSPS 科研費 16K00311 の助成を 受けて行ったものです.参考文献
[1] 倉田篤史,渡部広一,河岡司,“概念ベースと関連度 計算方式を用いた記事関連度計算方式”,情報処理学 会研究報告,2006-NL-171,pp.19-24,(2006). [2] T.Mikolov, Q.Le,“Distributed representations of sentecesand documents.” ICML pp.1188‐1196,(2014). [3] 奥村紀之,土屋誠司,渡部広一,河岡司,“概念間の 関連度計算のための大規模概念ベースの構築”,自然 言語処理,Vol.14,No.5,pp.41–64,(2007). [4] ウィキペディアフリー百科事典,ウィキメディア財 団,http://ja.wikipedia.org/(2019-02-12 参照). [5] 長尾和明,土屋誠司,渡部広一,“Wikipedia を用いた 共起リンク概念ベースの構築手法”,信学技報,vol. 117,no. 468, AI2017-47, pp. 25-30,(2018).
[6] X.Wan, Y.Peng, “The Earth Mover’s Distance as a Semantic Measure for Document Similarity”, Proceeding of the 14th ACM international conference on Information and knowledge management, pp.301-302,(2006). [7] 藤江悠五, 渡部広一, 河岡司,“概念ベースと Earth
Mover's Distance を用いた文書検索”,信学技報, Vol.108, No.456,pp.111-116,(2009).
[8] T.Mikolov, I.Sutskever, K.Chen, G.Corrado, and J.Dean, “Distributed representations of words and phrases and their compositionality.” NIPS pp.3111‐3119,(2013). [9] MeCab: Yet Another Part-of-Speech and Morphological
Analyzer,http://taku910.github.io/mecab/(2019-02-12 参 照).
[10] GitHub - neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic,https://github.com/neologd/mecab-ipadic-neologd(2019-02-12 参照).
[11] 徳永健伸(編),“情報検索と言語処理”,東京大学出 版会,(1999).
[12] G.Salton, A.Wong, and C.S.Yang, ”A Vector Space Model for Automatic Indexing”, Journal of Communications of the ACM, Vol. 18, No. 11, pp. 613–620, (1975).
[13] ダ ウ ン ロ ー ド - 株 式 会 社 ロ ン ウ イ ッ ト - RONDHUIT , 株 式 会 社 ロ ン ウ イ ッ ト , http://www.rondhuit.com/download.html#ldcc(2019-02-12 参照).