実験方法

第 4 章評価実験

4.3 毎日新聞を対象とした実験

4.3.1 実験方法

本節の実験ではクラスタリング手法としてk-means法とセントロイド法を用いた.

k-means法については70個のインスタンスのみを対象とした実験では評価が非常に低かっ

たため,語義タグを付与していない630個のインスタンスをランダムサンプリングして追

加した計700個のインスタンスを対象にクラスタリングを行っている. ただし, クラスタリングの評価は語義タグを付与した70個のインスタンスのみで行う. 以後, 特に断りのない限り, 700インスタンスをクラスタリングした結果を示す. クラスタ数はk-meansでは 10,セントロイド法では12とした. セントロイド法でクラスタ数を10ではなく12とした理由は,毎日新聞のテストデータでは対象語によっては非常にスパースな特徴ベクトルが作られることがあり,既定の数のクラスタが作成される前に全ての組のクラスタの重心ベクトル間の類似度が0となり, クラスタリングが続行できなかったことによる. クラスタ数を12にすると, 全ての対象語について12個のクラスタを作成することができた.

4.3.2 隣接 , 文脈 , 連想ベクトルによるクラスタリングの評価

隣接ベクトル(3.1.1項, ウインドウ幅w = 2), 文脈ベクトル(4.3.4項), 連想ベクトル

(4.3.3項)についてk-means法とセントロイド法を適用してクラスタリングを行った. ク

ラスタリング結果のPurityとEntropyを表4.6および表4.7に示す. 表中のk-means1,

k-means2はそれぞれ70インスタンス, 700インスタンスを対象にk-meansを適用した結

果を示す. また, k-meansは初期クラスタによってクラスタリング結果が異なるため, 10 回試行した平均の評価値を掲載している.

表 4.6: 連想・文脈・隣接のクラスタリング結果(Purity)

k-means1 k-means2 セントロイド法

連想文脈隣接連想文脈隣接連想文脈隣接頭 0.628 0.580 0.577 0.626 0.573 0.579 0.590 0.590 0.660 場所 0.863 0.813 0.819 0.861 0.863 0.911 0.890 0.830 0.940 ケース 0.884 0.871 0.872 0.866 0.876 0.893 0.900 0.930 0.940 核 0.850 0.831 0.867 0.842 0.837 0.946 0.910 0.930 0.990 記録 0.840 0.751 0.776 0.833 0.808 0.777 0.810 0.860 0.840 目 0.732 0.639 0.796 0.716 0.807 0.904 0.730 0.700 0.960 ポイント 0.714 0.556 0.670 0.737 0.666 0.805 0.630 0.670 0.870 線 0.713 0.537 0.567 0.714 0.639 0.571 0.640 0.640 0.530 自然 0.815 0.703 0.767 0.819 0.740 0.855 0.840 0.740 0.800 運動 0.805 0.759 0.764 0.848 0.770 0.833 0.860 0.830 0.840 avg. 0.784 0.704 0.748 0.786 0.758 0.807 0.780 0.772 0.837

太字はそれぞれのクラスタリング手法においてPurityが最も高い特徴ベクトル

まずPurityの実験結果に注目する. k-means1では, 連想ベクトルの結果がよく, 次に

隣接ベクトルが良い. k-means2では, 連想ベクトルの結果がk-means1よりさらに良くな

表 4.7: 連想・文脈・隣接のクラスタリング結果(Entropy)

k-means1 k-means2 セントロイド法

連想文脈隣接連想文脈隣接連想文脈隣接頭 0.747 0.887 0.871 0.777 0.890 0.858 0.820 0.890 0.690 場所 0.303 0.410 0.380 0.297 0.284 0.225 0.290 0.340 0.170 ケース 0.286 0.319 0.312 0.341 0.301 0.228 0.340 0.240 0.180 核 0.290 0.364 0.281 0.271 0.349 0.132 0.190 0.230 0.040 記録 0.308 0.504 0.465 0.307 0.387 0.449 0.340 0.380 0.370 目 0.588 0.723 0.458 0.670 0.454 0.262 0.710 0.650 0.170 ポイント 0.605 0.928 0.713 0.594 0.724 0.453 0.650 0.780 0.320 線 0.641 0.925 0.892 0.677 0.763 0.875 0.730 0.720 0.920 自然 0.403 0.574 0.490 0.419 0.529 0.344 0.400 0.490 0.400 運動 0.414 0.546 0.521 0.334 0.529 0.415 0.420 0.430 0.400 avg. 0.458 0.618 0.538 0.469 0.521 0.424 0.489 0.515 0.366

太字はそれぞれのクラスタリング手法においてEntropyが最も低い特徴ベクトル

り, 他の特徴ベクトルによるクラスタリングの質も改善した. ただし, k-means2では隣接ベクトルの結果が最も良く, 連想ベクトルも上回った. セントロイド法では, k-means2と同様に隣接ベクトルの結果が最も良く,全体的にみてk-means2より結果が良い. 表4.7の

Entropyについても同様の傾向が見られた.

4.3.3 連想ベクトルの評価

本項では, 3.1.5項で述べたTWP連想ベクトル, WWP連想ベクトル, TDP連想ベクトル, TDL連想ベクトルについて実験する. また, 連想ベクトル(4.3.3項)との比較も行う.

まず, TWP連想ベクトルおよびWWP連想ベクトルについて実験する. TWP・WWP 連想ベクトルの作成の際は, 隠れ変数の数nを256, 500, 900と変化させてPLSIを適用した. なお, クラスタリング手法はk-means法のみを用いた. 結果を表4.8に示す.

対象語によって適切なトピック数nが異なることが表から読み取れる. 例えば, WWP 連想ベクトルに注目すると,「頭」ではnが大きいほど良い結果が出ているが,「ケース」

や「目」といった単語ではn=500のときの結果が最良である.

また,表4.6に示した連想ベクトルをk-means法でクラスタリングした結果と比較すると, WWP連想ベクトルではn=900のときの「場所」とn=500のときの「目」でPurity が改善したほかは悪化している. 同様にTWP連想ベクトルではn=500または900のときの「場所」でPurityが改善しているほかは悪化している. 10語の対象語の平均の結果も

表 4.8: WWP連想ベクトル, TWP連想ベクトルによるクラスタリング結果(Purity)

WWP連想 TWP連想

n 256 500 900 256 500 900

頭 0.584 0.613 0.619 0.600 0.600 0.598 場所 0.874 0.874 0.900 0.869 0.896 0.898 ケース 0.861 0.871 0.857 0.864 0.872 0.863 核 0.826 0.828 0.828 0.821 0.827 0.835 記録 0.801 0.787 0.810 0.786 0.780 0.780 目 0.712 0.729 0.704 0.686 0.697 0.681 ポイント 0.602 0.610 0.627 0.639 0.649 0.663 線 0.648 0.638 0.678 0.648 0.650 0.649 自然 0.736 0.729 0.774 0.761 0.726 0.726 運動 0.765 0.768 0.766 0.774 0.766 0.768 avg. 0.741 0.745 0.756 0.745 0.746 0.746

太字はそれぞれの特徴ベクトルにおいてPurityが最も高いn

これを反映して, 連想ベクトルのPurityは0.786であったのに対し, WWP連想ベクトル

では0.756, TWP連想ベクトルでは0.746が最大となり, いずれもPLSIを利用しないほう

が良いという結果になった.

次に, TDP連想ベクトルおよびTDL連想ベクトルと,連想ベクトルのidfによる重み付けについて実験する. TWP連想ベクトルやWWP連想ベクトルではクラスタリング性能の向上は見られなかった. そこで, トピックを学習する共起行列を単語×単語の行列から単語×文書の行列に変更したTDP連想ベクトルや, PLSIのかわりにLDAを用いたTDL 連想ベクトルを用いる実験を行った. トピックを学習するためのデータは, 毎日新聞1991 年分のコーパス(480,000段落, 10,000単語) より作成した文書-単語の共起行列を用いる.

なお,ここでは, 毎日新聞の段落を文書の単位とする.

さらに, Sch¨utzeがWord Vectorにidfによる重みを与えている[10]ことを参考に, インスタンスwiの周辺に含まれるcjの共起ベクトルo(cj)の和で連想ベクトルを作成する際に, inverse document frequency(idf)の重み付けを試みた. 単語c_j のidfは式(4.6)のように定義される. ただし, N はコーパスに含まれる文書数, N_c_jは単語c_j が含まれる文書の数を表す.

idf(c_j) = log N

N_c_j (4.6)

つまり, idfはc_j を含む文書数が少ないほど高くなる関数である. idfの重みを考慮した

連想ベクトルを式(4.7)のように定義する.

a_i =

c_j∈context

idf(c_j)o(c_j) (4.7)

つまり, idfの重みを考慮した連想ベクトルの要素は, idfの高い周辺語c_j に関する共起ベクトルにバイアスがかかっている. これは, 限られた文書に出現するような周辺語c_jがインスタンスw_iとw_j に出現していれば,それらは同じ意味で使われているであろうという考えに基づいている. TDP連想ベクトル, TDL連想ベクトルについても同様にidfによる重み付けを行う.

以上の条件で実験を行った結果を表4.9, 表4.10 に示す.

表 4.9: idfの重みとTDP・TDL連想ベクトルによるクラスタリング(Purity)

重みなし idf

連想 TDP連想 TDL連想連想 TDP連想 TDL連想

頭 0.633 0.618 0.609 0.627 0.599 0.597

場所 0.856 0.834 0.869 0.850 0.850 0.874

ケース 0.899 0.870 0.883 0.903 0.870 0.882

核 0.841 0.849 0.876 0.840 0.846 0.865

記録 0.834 0.781 0.748 0.843 0.788 0.752

目 0.761 0.788 0.865 0.766 0.697 0.843

ポイント 0.727 0.629 0.668 0.719 0.606 0.645

線 0.714 0.619 0.585 0.699 0.595 0.614

自然 0.782 0.715 0.731 0.772 0.734 0.705

運動 0.795 0.794 0.775 0.796 0.779 0.758

avg 0.784 0.750 0.761 0.781 0.736 0.753 太字は重みあり,重みなしの場合におけるそれぞれのPurity最大値

まず, idfの重みを用いない場合の結果を考察する. 連想ベクトルを基準としてTDP連想ベクトルのPurityを見ると, 「核」と「目」でそれぞれ0.009, 0.027の改善が見られる他は0.01から0.10低下している. それを受けて, 10単語の平均も0.034低下している. 一方, Entropyはいずれの単語でも上昇している. したがって, 全体的にみればTDP連想ベクトルを用いることは有効ではないが, 単語によってはPurity向上が見込める.

連想ベクトルを基準としてTDL連想ベクトルのPurityを見ると,「頭」は0.034,「場所」は0.013, 「核」は0.035, 「目」は0.104の向上が見られるが, 他の対象語では0.016

から0.086低下している. 平均では0.023の低下である. Entropyを比較すると, 「目」で

0.116低下している他は総じて上昇している. 平均で見ても, やはり0.075の上昇であり全

表 4.10: idfの重みとTDP・TDL連想ベクトルによるクラスタリング(Entropy)

重みなし idf

連想 TDP連想 TDL連想連想 TDP連想 TDL連想

頭 0.807 0.818 0.821 0.825 0.864 0.857

場所 0.304 0.356 0.326 0.308 0.318 0.320

ケース 0.269 0.323 0.332 0.252 0.313 0.339

核 0.316 0.358 0.316 0.322 0.349 0.294

記録 0.292 0.407 0.469 0.292 0.422 0.463

目 0.465 0.509 0.349 0.458 0.639 0.411

ポイント 0.599 0.752 0.744 0.611 0.800 0.777

線 0.617 0.764 0.871 0.633 0.816 0.818

自然 0.420 0.548 0.549 0.426 0.504 0.598

運動 0.444 0.450 0.508 0.461 0.484 0.548

avg 0.453 0.528 0.528 0.459 0.551 0.542 太字は重みあり,重みなしの場合におけるそれぞれのEntropy最低値

体的に良いとはいえない. 「核」および「目」はTDP連想ベクトルでも改善していたが, LDAを用いたTDL連想ベクトルを用いた場合はさらに良い. しかしながら, 「記録」などはPLSIを用いたTDP連想ベクトルよりもさらに悪化している.

次に,単語ベクトルの重みをidfにした場合の結果を考察する. idfを重みにすることで Purityが悪化した対象語は「頭」「場所」「核」「ポイント」「線」「自然」で, それぞれ0.001

から0.015低下している. また, Purityが改善された単語は「ケース」「記録」「目」「運動」

で, それぞれ0.001から0.009上昇している. 平均では0.003の低下である. Entropyが改善された単語は「ケース」「目」で, それぞれ0.017と0.007低下している. その他の単語では0.04から0.018上昇している. 平均的に見ればPurityもEntropyも悪化している.

TDP連想ベクトルを用いた場合は, Purityが特に改善したのは「場所」「記録」「自然」

で, それぞれ0.016, 0.007, 0.019向上しているが, その他の単語では低下し, 平均的には悪

化している. Entropyで見ても, 特に「目」では0.130の上昇となっており全ての組み合わせ中最もidfと相性が悪い. 平均的にも悪化している. TDL連想ベクトルを用いた場合も, Purityの改善が「線」「場所」「記録」で見られた他は悪化しており, Entropyの改善も「線」「場所」「記録」で見られた他は悪化している. しかしながら,「線」については Purityで0.029, Entropyで0.053 改善しており, 有効であるといえる.

以上の結果から, 連想ベクトルの拡張やidfによる重み付けは対象語によって有効性が異なるが, 全体的にはクラスタリングの結果を向上させることはなかった.

ドキュメント内コーパスからの単語の意味の発見 (ページ 48-54)

第 4 章 評価実験

4.3 毎日新聞を対象とした実験

4.3.1 実験方法

4.3.2 隣接 , 文脈 , 連想ベクトルによるクラスタリングの評価

4.3.3 連想ベクトルの評価

第 4 章評価実験