自然言語処理24_705

(1)

単語の分散表現データ

新納浩幸

†

_{・浅原正幸}

††

_{・古宮嘉那子}

†

_{・佐々木稔}

† 我々は国語研日本語ウェブコーパスと word2vec を用いて単語の分散表現を構築し，その分散表現のデータを nwjc2vec と名付けて公開している．本稿では nwjc2vec を紹介し，nwjc2vec の品質を評価するために行った 2 種類の評価実験の結果を報告する．第一の評価実験では，単語間類似度の評価として，単語類似度データセットを利用して人間の主観評価とのスピアマン順位相関係数を算出する．第二の評価実験では，タスクに基づく評価として，nwjc2vec を用いて語義曖昧性解消及び回帰型ニューラルネットワークによる言語モデルの構築を行う．どちらの評価実験においても，新聞記事 7 年分の記事データから構築した分散表現を用いた場合の結果と比較することで，nwjc2vec が高品質であることを示す．キーワード：分散表現，国語研日本語ウェブコーパス，word2vec

nwjc2vec: Word Embedding Data Constructed from

NINJAL Web Japanese Corpus

Hiroyuki Shinnou†, Masayuki Asahara††, Kanako Komiya† and Minoru Sasaki† We constructed word embedding data (named as ’nwjc2vec’) using the NINJAL Web Japanese Corpus and word2vec software, and released it publicly. In this report, nwjc2vec is introduced, and the result of two types of experiments that were conducted to evaluate the quality of nwjc2vec is shown. In the ﬁrst experiment, the evaluation based on word similarity is considered. Using a word similarity dataset, we calculate Spearman’s rank correlation coeﬃcient. In the second experiment, the evaluation based on task is considered. As the task, we consider word sense disambiguation (WSD) and language model construction using Recurrent Neural Network (RNN). The results obtained using the nwjc2vec were compared with the results obtained using word embedding constructed from the article data of newspaper for seven years. The nwjc2vec is shown to be high quality.

Key Words: Word Embedding, NINJAL Web Japanese Corpus, word2vec

† _{茨城大学工学部情報工学科, Department of Computer and Information Sciences, Ibaraki University} †† _{人間文化研究機構国立国語研究所, National Institute for Japanese Language and Linguistics}

(2)

1 はじめに

一般に，自然言語処理システムでは単語を何らかの数値ベクトルとして表現する必要がある． 単純にベクトル化する方法としては one-hot 表現がある．これは単語の種類数が N の場合，N 次元ベクトルを用意し，単語 w が i 番目の種類の単語であれば，N 次元ベクトルの i 番目だ けを 1 に，他は 0 にして w をベクトル化する方法である．one-hot 表現によるベクトル化は 単にベクトル化しただけであり，ベクトル間の関係はその単語間のなんらかの関係を反映しているわけではない．処理の意味を考えれば，単語のベクトルはその単語の意味を表し，ベクトル間の関係は，単語の意味の関係を反映したものになっていることが望ましい．このような背景下で，Mikolov は word2vec を発表し (Mikolov, Sutskever, Chen, Corrado, and Dean 2013b; Mikolov, Chen, Corrado, and Dean 2013a)，単語の意味を低次元密なベクトルとして表現する分散表現が大きな成功を収めた．その後，自然言語処理の様々なタスクにおいて，分散表現が導入され，既存のシステムを改善している．また同時に近年，自然言語処理の分野でも深層学習の利用が活発だが，そこでは単語のベクトル化に分散表現が用いられる (岡崎 2016)．つまり，現在，自然言語処理システムにおける単語のベクトル化には分散表現を用いることが一般的な状況となっている．分散表現は，単語分割されたコーパス1_{があれば word2vec}2_{や GloVe}3_{などの公開されている} ツールを用いて簡単に構築できる．また深層学習で利用する場合は，ネットワークの一部として分散表現を学習できる．このため分散表現のデータ自体の品質に関心が持たれることは少ない．ただし分散表現を利用したシステムでは，分散表現の品質がそのシステムの精度に大きな影響を与えている．また深層学習では，学習時間や得られるモデルの品質の観点から，分散表現を学習時に構築するよりも，既存の学習済みの分散表現を用いる方が望ましい．このような観点から容易に利用できる高品質の分散表現データがあれば，様々な自然言語処理システムの構築に有益であることは明らかである．以上の潜在的な需要に応えるために我々は国語研日本語ウェブコーパス（以下，NWJC）(Asahara, Maekawa, Imada, Kato, and Konishi

2014) を利用して分散表現を構築し，それを nwjc2vec と名付けて公開している4_{．NWJC は約} 258 億語からなるコーパスである．1 年分の新聞記事中のプレーンな文のデータが約 2,050 万語5_{であることを考えると，NWJC は 1,200 年分以上の新聞記事に相当し，超大規模コーパスと} いえる．そのためそのコーパスから構築された nwjc2vec が高品質であることが期待できる． 1 _{日本語の場合，’mecab-Owakati’ により，容易にテキストコーパスを word2vec の入力形式に変換できる．} 2 _{https://github.com/svn2github/word2vec} 3 _{https://nlp.stanford.edu/projects/glove/} 4 _{http://nwjc-data.ninjal.ac.jp/} 5 _{2008 年度の毎日新聞記事から，文としてなりたつと考えられるものを抽出し，unidic を基に形態素解析したもの} から算出した．

(3)

本稿では nwjc2vec を紹介するとともに，nwjc2vec の品質を評価するために行った二種類の評価実験の結果を報告する．第一の評価実験では，単語間類似度の評価として，単語類似度データセットを利用して人間の主観評価とのスピアマン順位相関係数を算出する．第二の評価実験では，タスクに基づく評価として，nwjc2vec を用いて語義曖昧性解消及び回帰型ニューラルネットワーク（Recurrent Neural Network, 以下 RNN）による言語モデルの構築を行う．なおここでの言語モデルとは確率的言語モデルであり単語列に対する確率分布を意味する．構築した言語モデルはパープレキシティにより評価できるので，その評価値により構築の基になった分散表現データを評価する．どちらの評価実験においても，新聞記事 7 年分の記事データから構築した分散表現を用いた場合の結果と比較することで，nwjc2vec が高品質であることを示す．

2 nwjc2vec の構築

2.1 NWJC

NWJC はウェブを母集団とし， 100 億語規模を目標として構築した日本語コーパスである．ウェブアーカイブの構築で用いられる Heritrix-3.1.16_{クローラを運用することで，1 年間，3} か月おきに，固定した約 1 億 URL のウェブページを収集している．得られたウェブページは nwc-toolkit-0.0.27_{を用いて，日本語文抽出と正規化を行う．コピーサイトの問題を緩和するた} めに，文単位の単一化（文の異なりを用いる）を行った．アノテーションはすべて自動解析を用い，形態論情報，および係り受け情報を付与している．形態素解析には形態素解析器 MeCab-0.9968_{と UniDic-2.1.2}9_{を使用し，係り受け解析には係り受け解析器 CaboCha-0.69}10_{と UniDic 主}

辞規則11_{を使用した．}

収集したデータを研究者に提供することが求められているが，著作権の問題があり，収集したデータをそのまま外部の研究者に提供することは難しい．そこで，文字列のみならず，形態論情報や係り受け構造に基づく検索系を構築し，例文とともに元データが含まれる URL へのリンクを含めて提示するサービスを構築した (Asahara, Kawahara, Takei, Masuoka, Ohba, Torii, Morii, Tanaka, Maekawa, Kato, and Konishi 2016)．

このサービスから利用可能なデータは，2014 年 10–12 月期収集データ（NWJC-2014-4Q データ）に基づく．基礎統計は表 1 のとおりである． 6 _{http://webarchive.jira.com/wiki/display/Heritrix/Heritrix/} 7 _{https://github.com/xen/nwc-toolkit} 8 _{https://taku910.github.io/mecab/} 9 _{http://unidic.ninjal.ac.jp/} 10_{https://taku910.github.io/cabocha/}

11_{CaboCha コンパイル時に ./configure --with-posset=UNIDIC と指定することで，解析器の主辞規則を UniDic}

(4)

2.2 word2vec による分散表現の構築

表 1 に示した NWJC-2014-4Q データを用いて分散表現データを構築する．分散表現データ

の構築には word2vec12_{の CBOW モデルを用いた．表 2 に word2vec 実行時の各種パラメータ}

を示す13_．分散表現の学習に利用するコーパスは単語分割されている必要がある．ここではこの単語として，書字形出現形のみを使った word と，形態論情報14_{を含めた mrph の 2 種類を用意し，そ} れぞれの単語単位に対してモデルを構築した．

2.3 nwjc2vec

上記により構築できた 2 つのモデルのうち特に有用であるのは形態論情報を含めた分散表現である．このモデルの分散表現を nwjc2vec と名付けて公開している． nwjc2vec は柔軟な利用が可能なように，分散表現をテキストファイルの形式で保存している． 1 行は 1 形態素に相当し，以下の形式になっている．

形態素 e_1 e_2 ・・・ e_200

表 1 基礎統計: NWJC-2014-4Q データ 収集 URL 数 83,992,556 8,399 万 URL 文数（のべ数） 3,885,889,575 38 億文文数（異なり数） 1,463,142,939 14 億文国語研短単位数 25,836,947,421 258 億単位 表 2 word2vec の実行時のパラメータ CBOW or skip-gram -cbow 1 次元数 -size 200 文脈長 -window 8 負サンプリング数 -negative 25 階層化 softmax -hs 0 最低頻度閾値 -sample 1e-4 反復回数 -iter 15 12_{https://github.com/svn2github/word2vec} 13_{これらのパラメータは word2vec のソースと一緒に配布される demo-word.sh に記載されているパラメータであ} る．NWJC に特化してチューニングした値ではない．nwjc2vec の構築に要する時間は高性能マシンを用いても 3 週間以上であるため，他のパラメータとの比較は行っていない．

(5)

e_i がその形態素の分散表現の i 次元目の値である．例えば，以下は「意味」に対応する分散表現である．意味, 名詞, 普通名詞, サ変可能,*,*,*, イミ, 意味, 意味, イミ, 意味, イミ, 漢,*,*,*, -10.491043 -2.121982 -3.084628· · · 4.024705 3.570072 12.781445 つまり “意味, 名詞, 普通名詞, サ変可能,*,*,*, イミ, 意味, 意味, イミ, 意味, イミ, 漢,*,*,*,” が 1 形態素である．またベクトル値は word2vec の出力値をそのまま書き出しており，大きさ15_を 1 とする正規化はされていない． nwjc2vec 全体としては 1,738,455 形態素からなる16_{．書字形出現形は 1,541,651 種類存在する} ので，書字形出現形が同じでも形態論情報が異なるものが多数存在する．従来の単語分散表現は書字形出現形を形態素としたものが一般的であり，その場合，品詞の違いによる別単語を同一の分散表現にしているという明らかな欠点がある．nwjc2vec ではその欠点を回避できている．大分類の品詞別の形態素数を頻度順に表 3 にまとめる．etc は半角英単語などの未知語であり，語彙素の付与に失敗しているものである． 表 3 品詞別の形態素数 品詞形態素数割合 (%) 名詞 1,570,477 90.34 動詞 129,167 7.43 形容詞 12,507 0.71 副詞 7,083 0.41 補助記号 4,884 0.28 感動詞 3,761 0.21 形状詞 3,614 0.21 接尾辞 1,496 0.08 記号 1,163 0.07 助動詞 971 0.05 代名詞 390 0.02 助詞 366 0.02 接頭辞 330 0.02 連体詞 125 0.01 接続詞 100 0.01 etc 2,021 0.12 合計 1,738,455 100.00 15_{本論文ではベクトルの「大きさ」をベクトルの「L2-ノルム」の意味で用いている．} 16_{そのテキストファイルは header の 1 行を含め 1,738,456 行である．}

(6)

次に表 3 の etc 以外の分散表現のベクトルの大きさを調べた．平均は 9.261，標準偏差は 9.641, 中央値は 5.105 であった．またベクトルの大きさを 0.1 刻みに丸め，その頻度分布を調べた．結果を図 1 に示す．参考として，ベクトルの大きさとその単語の関係を調べた．ベクトルの大きさの小数点以下を切り捨て，大きさ 3，15，7517_{の単語をランダムに 10 個取り出した．その結果を表 4 に示} す．ここから明確な特徴を示すことはできないが，頻度が小さな単語はそのベクトルも小さく，頻度が大きな単語はそのベクトルも大きいという傾向があると考えられる． 図 1 分散表現ベクトルの大きさの頻度分布 表 4 ベクトルの大きさと単語の関係 大きさ 3 の単語の例大きさ 15 の単語の例大きさ 75 の単語の例エーシンアロー（名詞）, サニテイション（名詞）, サカハチョウ（名詞）, マムズキッチン（名詞）, リュター（名詞）, ピングン（名詞）, フェニルシリル（名詞）, バディキュン（名詞）, 吹き起こる（動詞）, 取り捲い（動詞）ぶちこわす（動詞）, イベンター（名詞）, アロナビーチ（名詞）, 祖原（名詞）, ワクチネーション（名詞）, 三島木（名詞）, うやまう（動詞）, ダートチャンピオン（名詞）, ふきとれる（動詞）, 莫離支（名詞）様（接尾辞）, 人気（名詞）, 地（名詞）, 連絡（名詞）, 飲み（動詞）, 主義（名詞）, 原発（名詞）, 容疑（名詞）, ベトナム（名詞）, 知名（名詞） 17_{この 3 つの数値は，ベクトルの大きさは 3 が最頻出であったことから選んだ．}

(7)

3 評価実験

一般に分散表現の評価法には単語間類似度の観点からのものと，分散表現を用いたタスクの精度の観点からのものが存在する．単語間類似度から nwjc2vec を評価したものとして，分類語彙表との対応をみた評価が報告されている (浅原，岡 2017)．そこでは主観的な評価ではあるが，nwjc2vec が高品質であることが示されている．ここでは更に定量的な評価を行うために，単語類似度データセットを利用する．またタスクの精度の観点としては，語義曖昧性解消と言語モデル構築という 2 つのタスクから評価を行う．どちらの評価実験においても，新聞記事 7 年分の記事データから構築した分散表現を用いた場合の結果と比較することで，nwjc2vec が高品質であることを示す．

3.1 比較のための分散表現 mai2vec の構築

nwjc2vec との比較のために，新聞記事 7 年分から分散表現を構築する．用いたコーパスは毎日新聞’93 年度版から ’99 年度版の 7 年分の記事であり，そこから見出しや表内の文字列等を取り除き，文として認められるものだけを取り出した．取り出した文は 6,791,403 文であった．これを MeCab-0.996 と UniDic-2.1.2 を用いて分かち書きし，これを word2vec にかけることで分散表現を構築した．この分散表現データをここでは mai2vec と名付ける．word2vec 実行時の各種パラメータは nwjc2vec を構築したもの（表 2）と合わせた．最終的に得られた mai2vec の形態素数は 132,509 であった．

3.2 単語間類似度による評価

分散表現を単語間類似度の観点から評価する方法として，単語類似度データセットを利用する方法がある．単語類似度データセットは用意された単語ペアに対して，複数の人間が主観的にその類似度を付けたものである．複数人の類似度の平均を，その単語ペアの類似度とみなす．単語類似度データセット中の単語ペアの類似度を，分散表現データを用いて算出する．データセットに記されている類似度が高い単語ペアに対しては，分散表現データも高い類似度を算出し，低い単語ペアに対しては分散表現データも低い類似度を算出するというように，データセット内に記された類似度と分散表現が算出する類似度に相関があれば，その分散表現データの単語間類似度が概ね正しいと考えられる．この相関の算出には一般にスピアマン順位相関係数が用いられる．ここでは首都大学東京の小町研究室が以下で公開している単語類似度データセットを利用する．このデータセットは形容詞，副詞，名詞及び動詞の 4 つの単語類似度データセットからなる．10 人のアノテータにより各単語ペアに対して 11 段階（0 から 10）の類似度が付与されている．

(8)

表 5 単語類似度データセット中の利用した単語ペア数 形容詞副詞名詞動詞全単語ペア数 959 901 1,102 1,463 利用した単語ペア数 431 190 793 152 表 6 単語間類似度の実験結果 形容詞副詞名詞動詞 mai2vec 0.293 0.313 0.197 0.223 nwjc2vec 0.342 0.464 0.206 0.345 https://github.com/tmu-nlp/JapaneseWordSimilarityDataset このデータセット中の単語ペアのうち mai2vec と nwjc2vec の両方に登録されている単語ペアだけを評価に利用した．利用した単語ペア数を表 5 に示す．上記の単語ペアに対して mai2vec あるいは nwjc2vec から類似度を求め18_{，形容詞，副詞，名詞} 及び動詞の各データセットに対して，スピアマン順位相関係数を算出した．結果を表 6 に示す．全てのデータセットにおいて nwjc2vec は mai2vec よりも評価値が高く，単語間類似度の観点では mai2vec よりも品質が高いと言える．

3.3 タスクに基づく評価

3.3.1 語義曖昧性解消タスク分散表現を用いて，教師あり学習による語義曖昧性解消を行う．語義曖昧性解消に分散表現を用いる手法には Sugawara が提案した手法 (Sugawara, Takamura, Sasano, and Okumura 2015) を用いる．Sugawara の手法は語義曖昧性解消に対して通常設定する素性群（基本素性と呼ぶ）の他に対象単語の前後 2 単語の分散表現を素性として加えるというものである．例えば以下の文を考える．語義曖昧性解消の対象単語は「意味」であり，単語区切りを “/” で示す．江戸/時代/の/庶民/たち/が/そこ/に/新た/な/意味/の/付与/を/おこなっ/て/き/た/。標準的な教師あり学習の手法では「意味」の前後の文脈情報（例えば前後に現れる自立語や直前の品詞など）を素性で表す．これが基本素性となる．この基本素性をベクトル表現したも のを V とする．Sugawara 手法は対象単語の前後 2 単語，つまり「新た」「な」「の」「付与」の 4 単語の分散表現 V新た，Vな，Vの，V付与を V に結合させ，それを新たな上記文の素性ベクトル 18_{類似度は両者のベクトルの大きさを 1 に正規化し，そららの余弦（この場合，内積）から求めた．}

(9)

表 7 平均正解率 (%)

baseline mai2vec nwjc2vec mai2vec-0 nwjc2vec-0 76.92 77.07 77.71 76.51 76.35 として教師あり学習を行うというものである．ここでの実験では分散表現の差異を明確にするために基本素性を利用せずに，前後 2 単語の 分散表現（上記例では V新た，Vな，Vの，V付与）だけを結合させた素性ベクトルを用いることにする．各分散表現を求める際に nwjc2vec あるいは mai2vec を利用する．ただし nwjc2vec の形態素には形態論情報が付与されているが，ここでは大分類の品詞だけを用いることにした．例えば上記文では，形態素解析時に各単語に大分類の品詞名を付与し，以下のような形に直すことで分散表現を求めている．江戸-名詞/時代-名詞/の-助詞/庶民-名詞/たち-接尾辞/が-助詞/そこ-代名詞/に-助詞/ 新た-形状詞/な-助動詞/意味-名詞/の-助詞/付与-名詞/を-助詞/おこなっ-動詞/て-助詞/ き-動詞/た-助動詞/。-補助記号

語義曖昧性解消のデータセットとしては SemEval-2 の日本語辞書タスク (Okumura, Shirai, Komiya, and Yokono 2011) のデータセットを用いる．このタスクでは 50 単語の対象単語が設定され，各対象単語に対して，50 用例の訓練データと 50 用例のテストデータが与えられている．各対象単語に対して訓練データで分類器を学習し，その単語のテストデータにより分類器の正解率を測る．そして 50 単語に対する正解率の平均によって評価を行う．

実験結果を表 7 に示す．表中の baseline は SemEval-2 でのベースラインである．表中の mai2vec は分散表現 mai2vec から素性ベクトルを作る手法である．表中の nwjc2vec は分散表現 nwjc2vec から素性ベクトルを作る手法である．どちらの場合も分散表現のベクトルは大きさを 1 に正規化している．また大きさを 1 に正規化せずに，word2vec から求まった値を直接使った場合を mai2vec-0 と nwjc2vec-0 により示した．ベースラインも含め，いずれのシステムも学習アルゴリズムとしては線形の SVM19_{を用いた．} nwjc2vec が最も高い正解率を出しており，nwjc2vec が高品質であると考えられる．また分散表現のベクトルの大きさは 1 に正規化して利用した方がよいことも確認できる． 3.3.2 RNN による言語モデル構築 RNN は時系列データを処理する深層学習のモデルである．様々な応用があるが，最も典型的 な応用は言語モデルの構築である．時刻 t の入力データを，文 s 内の t 番目の単語 wt とし， 19_{https://www.csie.ntu.edu.tw/ cjlin/libsvm/}

(10)

その教師データを次に現れる単語 wt+1 とすることで言語モデルが学習できる．

ここでは RNN の拡張版である Long Short-Term Memory（以下 LSTM）(Gers, Schmidhuber, and Cummins 2000) を用いる．言語モデルを学習する LSTM の時刻 t 時の入出力を表したネッ トワークを図 2 に示す．時刻 t で単語 wtが入力され，それを wtの分散表現のベクトルに変換 し，その分散表現のベクトルを LSTM ブロックに入力する．LSTM ブロックでは次の時刻 t + 1 への LSTM ブロックへ w0から wtの単語列の情報を圧縮したベクトル htと記憶セル ctを渡 す．同時に ytを出力し，それを線形作用素 W で one-hot 形式のベクトルに直すことで次に現 れる単語を予測する．学習時には W ytと wt+1との誤差からネットワークの重みを学習する． 上記ネットワークでは， wtをその分散表現のベクトルに変換するが，その変換，つまり wt の分散表現自体を LSTM 内で学習している．その際，学習対象の分散表現の初期値は通常ランダムな値を設定する．しかしこの初期値に既存の分散表現のデータを利用することも可能である．あるいは，分散表現を学習対象から外し，分散表現への変換は既存の分散表現のデータを利用する形でも良い．ここでの実験では分散表現の品質の比較を目的としているために，分散表現を学習対象から外し，分散表現への変換は評価対象の分散表現データを利用する形で実験を行う．つまり分散表現への変換に mai2vec を用いて構築した言語モデル (mai2vec-lm)，及び分散表現への変換に nwjc2vec を用いて構築した言語モデル (nwjc2vec-lm) を比較することで nwjc2vec を評価する．また参考として分散表現を LSTM 内で学習して構築した言語モデル (base-lm) も評価する．言

(11)

語モデルの評価にはパープレキシティを用いる．

言語モデルの学習用のコーパスとしては現代日本語書き言葉均衡コーパス (Maekawa, Yamazaki, Ogiso, Maruyama, Ogura, Kashino, Koiso, Yamaguchi, Tanaka, and Den 2014) の Yahoo! ブログと Yahoo! 知恵袋から取り出した 7,330 文のうち 7,226 文を学習用コーパス，104 文を評価用

コーパスとした．1 epoch20_{毎に構築した言語モデルのパープレキシティを表 8 と図 3 に示す．}

表 8 エポック毎のパープレキシティ epoch base-lm mai2vec-lm nwjc2vec-lm

1 148.13 195.41 212.52 2 126.98 146.07 151.45 3 124.33 129.34 129.82 4 125.93 123.98 120.84 5 130.35 124.72 118.68 6 136.17 130.37 122.79 7 143.96 135.43 128.49 8 150.31 142.84 136.91 9 159.09 150.90 147.10 10 167.91 159.91 160.29 図 3 分散表現の違いによる言語モデルのパープレキシティ 20_{一つの学習用データ（ここでは 7,226 文）を何回繰り返して学習させたかの単位．}

(12)

mai2vec-lm と nwjc2vec-lm は base-lm よりもパープレキシティが低く，言語モデルの学習には分散表現への変換を同時に学習するよりも，既存の分散表現を利用した方がよいと言える．また nwjc2vec-lm は mai2vec-lm よりもパープレキシティが低く，nwjc2vec の方が mai2vec よりも品質が高いと言える．

4 考察

単語間類似度に基づく評価実験では，mai2vec も nwjc2vec もスピアマン順位相関係数の値自体は低かった．ただし nwjc2vec は mai2vec よりも明らかに評価値が高く，少なくとも mai2vec よりも品質が高いと言える．分類語彙表との対応をみた実験 (浅原，岡 2017) からも単語間類似度の精度は良く，しかもタスクに基づく評価実験から mai2vec もかなり品質が高いことがうかがえるため，nwjc2vec は単語間類似度の観点からは高品質であると考える．タスクに基づく評価実験では，語義曖昧性解消でも言語モデルの構築でも nwjc2vec は mai2vec よりも良い値を出したが，その差はわずかであった．ただし品質の差は数値の差以上のものがあると考えられる．まず語義曖昧性解消では SemEval-2 の日本語辞書タスクのデータを用いたが，このタスクは baseline がかなり高く，通常のリソースを使う限りでは baseline を超えることは困難である．実際に SemEval-2 の参加システムで baseline を超える正解率を出したシステムはなかった．また新納はこのタスクにおいて様々なシソーラスの情報を試したが，baseline を 0.2% 以上改善できるものはなかった (新納，佐々木，古宮 2015)．そこではシソーラスの粒度を混合して利用することで 77.28% まで改善しているが，nwjc2vec はこの値よりも 0.43% 高い．Yamaki は wikipedia から構築した分散表現と独自の手法を利用して，77.10% の正解率を出したが (Yamaki, Shinnou, Komiya, and Sasaki 2016)，この値は mai2vec と同程度である．mai2vec も nwjc2vec も baseline を超えているので，どちらの分散表現もかなり品質は高いといえるが，nwjc2vec は mai2vec よりも 0.64% 高い．この 0.64% の差はなかなか埋めることができないものである．次に言語モデルを用いたここでの実験では，未知語の問題を避けていることを注記したい．ここで利用した学習用コーパスと評価用コーパスには mai2vec および nwjc2vec のどちらにも未知語が存在しないように，どちらかに未知語が存在する場合は，その文を予めコーパスから取り除いている．初期のコーパス（175,302 単語，異なり単語数 15,082 単語）では mai2vec を用いた場合の未知語は 7,424 単語（異なり数 3,204 単語）存在したが，nwjc2vec を用いた場合の未知語は 404 単語（異なり数 324 単語）であり，大きな差がある．本実験において，学習用コーパスあるいは評価用コーパス内の分散表現データにおける未知語の出現が，構築できる言語モデルにどの程度悪影響を与えるかは不明である．ただし明らかに未知語の出現により評価値は悪くなるはずであり，この点から nwjc2vec と mai2vec の品質の差は更にあると考えられる．

(13)

表 9 fine-tuning の効果 epoch nwjc2vec-lm fine-tuning

1 212.52 194.72 2 151.45 137.16 3 129.82 118.32 4 120.84 113.40 5 118.68 112.82 6 122.79 115.78 7 128.49 121.34 8 136.91 127.69 9 147.10 133.37 10 160.29 140.86 最後に nwjc2vec の fine-tuning について述べる．あるモデルの学習を行う際に，訓練データが少量しかないことは通常起こりえる．このとき別の訓練データから学習された既存のモデルが利用できれば，手持ちの少量の訓練データからその既存のモデルを自分の用途に調整することができる．これを fine-tuning という．分散表現も fine-tuning が可能であるため，nwjc2vec の存在意義は更に高い．この点を確認するため，分散表現の学習プログラム21_{を作成し (新納 2016)，その分散表現の} 初期値を nwjc2vec に設定し，学習用コーパスとしては mai2vec の基になったコーパスから 30 万文をランダムに取り出したものを用いて nwjc2vec の fine-tuning を行った．得られた分散表現を用いて，前章で行った LSTM による言語モデルの学習を再度行った．学習用コーパスと評価用コーパスも前章のものと同じである．結果を表 9 と図 4 に示す．各 epoch 後に学習できた言語モデルのパープレキシティは fine-tuning による分散表現を用いたものの方が優れており， fine-tuning の効果が確認できる．

5 おわりに

本稿では我々が構築，公開している日本語単語の分散表現のデータ nwjc2vec を紹介した． nwjc2vec は超大規模コーパスである国語研日本語ウェブコーパスから word2vec を用いて構築した分散表現のデータである．ここでは nwjc2vec の品質を評価するため 2 種類の評価実験を行った．第一の評価実験では単語間類似度の評価として，単語類似度データセットを利用して人間の主観評価とのスピアマン順位相関係数を算出した．第二の評価実験では，タスクに基づく評価として，nwjc2vec を用いて語義曖昧性解消及び回帰型ニューラルネットワークによる言

(14)

図 4 fine-tuning による言語モデルのパープレキシティ 語モデルの構築から nwjc2vec の評価を行った．二つの評価実験から nwjc2vec が高品質であることが示された．今後は nwjc2vec の ﬁne-tuning の可能性を調査したい．

謝辞

本研究の一部は国語研コーパス開発センター「超大規模コーパス」プロジェクト (2011– 2015) ・コーパス開発センター共同研究プロジェクト「コーパスアノテーションの拡張・統合・自動化に関する基礎研究」(2016–2021) ・新領域創出型共同研究プロジェクト「all-words WSD システムの構築及び分類語彙表と岩波国語辞典の対応表作成への利用」(2016–2017) によるものです．

参考文献

Asahara, M., Kawahara, K., Takei, Y., Masuoka, H., Ohba, Y., Torii, Y., Morii, T., Tanaka, Y., Maekawa, K., Kato, S., and Konishi, H. (2016). “‘BonTen’—Corpus Concordance System for ‘NINJAL Web Japanese Corpus’.” In Proceedings of COLING 2016, the 26th International

(15)

Conference on Computational Linguistics: System Demonstrations, pp. 25–29.

Asahara, M., Maekawa, K., Imada, M., Kato, S., and Konishi, H. (2014). “Archiving and Analysing Techniques of the Ultra-large-scale Web-based Corpus Project of NINJAL, Japan.” Alexandria: The Journal of National and International Library and Information

Issues, 25 (1–2), pp. 129–148.

浅原正幸，岡照晃 (2017). nwjc2vec:『国語研日本語ウェブコーパス』に基づく単語の分散表現データ. 言語処理学会第 23 回年次大会発表論文集, pp. 94–97.

Gers, F. A., Schmidhuber, J., and Cummins, F. (2000). “Learning to Forget: Continual Prediction with LSTM.” Neural Computation, 12 (10), pp. 2451–2471.

Maekawa, K., Yamazaki, M., Ogiso, T., Maruyama, T., Ogura, H., Kashino, W., Koiso, H., Yamaguchi, M., Tanaka, M., and Den, Y. (2014). “Balanced Corpus of Contemporary Written Japanese.” Language Resources and Evaluation, 48 (2), pp. 345–371.

Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013a). “Eﬃcient Estimation of Word Rep-resentations in Vector Space.” In ICLR Workshop Paper.

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J. (2013b). “Distributed Rep-resentations of Words and Phrases and Their Compositionality.” In Advances in Neural

Information Processing Systems, pp. 3111–3119.

岡崎直観 (2016). 言語処理における分散表現学習のフロンティア（〈特集〉ニューラルネット ワーク研究のフロンティア）. 人工知能：人工知能学会誌, 31 (2), pp. 189–201.

Okumura, M., Shirai, K., Komiya, K., and Yokono, H. (2011). “On SemEval-2010 Japanese WSD Task.” 自然言語処理, 18 (3), pp. 293–307.

新納浩幸 (2016). Chainer による実践深層学習. オーム社.

新納浩幸，佐々木稔，古宮嘉那子 (2015). 語義曖昧性解消におけるシソーラス利用の問題分析. 言語処理学会第 21 回年次大会発表論文集, pp. 59–62.

Sugawara, H., Takamura, H., Sasano, R., and Okumura, M. (2015). “Context Representation with Word Embeddings for WSD.” In PACLING-2015, pp. 149–155.

Yamaki, S., Shinnou, H., Komiya, K., and Sasaki, M. (2016). “Supervised Word Sense Dis-ambiguation with Sentences Similarities from Context Word Embeddings.” In PACLIC-30, pp. 115–121.

略歴

新納浩幸：1985 年東京工業大学理学部情報科学科卒業．1987 年同大学大学院理工学研究科情報科学専攻修士課程修了．同年富士ゼロックス，翌年松下電器を経て，1993 年より茨城大学工学部．現在，茨城大学工学部情報工学科教

(16)

授．博士（工学）．機械学習や統計的手法による自然言語処理の研究に従事．言語処理学会，情報処理学会，人工知能学会各会員．浅原正幸：1998 年京都大学総合人間学部卒．2003 年奈良先端科学技術大学院大学情報科学研究科博士後期課程修了．2004 年より同大学助教．2012 年より国立国語研究所コーパス開発センター特任准教授．現在同准教授．博士（工学）．自然言語処理・コーパス言語学の研究に従事．情報処理学会，言語処理学会，言語学会，日本語学会各会員．古宮嘉那子：2005 年東京農工大学工学部情報コミュニケーション工学科卒．2009 年同大大学院博士後期課程電子情報工学専攻修了．博士（工学）．同年東京工業大学精密工学研究所研究員，2010 年東京農工大学工学研究院特任助教， 2014 年茨城大学工学部情報工学科講師．現在に至る．自然言語処理の研究に従事．情報処理学会，人工知能学会，言語処理学会各会員．佐々木稔：1996 年徳島大学工学部知能情報工学科卒業．2001 年同大学大学院博士後期課程修了．博士（工学）．2001 年 12 月茨城大学工学部情報工学科助手．現在，茨城大学工学部情報工学科講師．機械学習や統計的手法による情報検索，自然言語処理等に関する研究に従事．言語処理学会，情報処理学会各会員．（2017 年 6 月 1 日受付）（2017 年 8 月 4 日再受付）（2017 年 9 月 5 日採録）

自然言語処理24_705

単語の分散表現データ

新納 浩幸

・浅原 正幸

・古宮嘉那子

・佐々木 稔

nwjc2vec: Word Embedding Data Constructed from

NINJAL Web Japanese Corpus

1

はじめに

2

nwjc2vec の構築

2.1

NWJC

2.2

word2vec による分散表現の構築

2.3

nwjc2vec

3

評価実験

3.1

比較のための分散表現 mai2vec の構築

3.2

単語間類似度による評価

3.3

タスクに基づく評価

4

考察

5

おわりに

謝 辞

参考文献

略歴

新納浩幸

_{・浅原正幸}

_{・古宮嘉那子}

_{・佐々木稔}

謝辞