文節の係り受け関係を用いた観点に基づく意見クラスタリング

(1)

研究科・専攻大学院情報理工学研究科総合情報学専攻博士前期課程氏名鷹栖弘明学籍番号 1330040 論文題目文節の係り受け関係を用いた観点に基づく意見クラスタリング要旨 Web 上には，様々なトピックに関する意見が存在し，トピックに関する意見には様々な観点のものが混在している．例えば，「原発」というトピックに関する意見には安全性やエネルギー，健康といった観点の意見が混在している．意見をこのような観点ごとに分類することで，観点ごとに意見を容易に把握・比較でき，新たな観点の意見を発見する手がかりにもなる．意見を観点ごとに分類する研究は少なく，分類する観点を予め設定しているものや，観点の差異を考慮していない手法がほとんどである．そこで本研究では，予め観点を設定せずに，文脈情報，とりわけ名詞と動詞の係り受け関係を考慮して意見集合に適した観点を自動的に特定・分類するクラスタリング手法を提案する．本研究で提案する意見クラスタリング手法では，「意見の観点の違いは名詞と動詞の係り受け関係の違いに反映される」という仮定のもと，文節の係り受け関係から名詞𝑁と動詞𝑉のペア 〈𝑁, 𝑉〉を抽出し，これをクラスタリングに利用する．具体的には，各意見から得られた文節の係り受け関係をもとに名詞とそれが係る動詞のペア〈𝑁, 𝑉〉を抽出する．そして，日本語 WordNet と潜在意味インデキシングを用いて計算した名詞𝑁どうしの類似度と動詞𝑉どうしの類似度から抽出した〈𝑁, 𝑉〉間の類似度を計算するが，特に，名詞𝑁どうしの類似度が高くなるほど動詞𝑉 どうしの類似度が〈𝑁, 𝑉〉間の類似度に大きく影響を与えるように計算する．最終的に意見どうしの類似度を〈𝑁, 𝑉〉間の類似度から計算し，Ward 法による階層型クラスタリングを行う．評価実験では，意見集合に対して人手による観点に基づいた分類と提案手法および従来のクラスタリング手法による分類がどの程度近いかということを指標として分類性能を調べた．実験の結果，提案手法では従来手法より高い分類性能となり，提案手法が有用であることが示された．

(2)

文節の係り受け関係を用いた

観点に基づく意見クラスタリング

提出年月日：

平成

27 年

1 月

30 日

提出者：

学籍番号

1330040

氏名鷹栖弘明

コース：

経営情報学コース

指導教員：

内海彰教授

尾内理紀夫教授

(3)

1 はじめに 4 2 関連研究 6 3 要素技術 8 3.1 形態素解析 . . . 8 3.2 構文解析（係り受け解析） . . . 9 3.3 日本語WordNet . . . 10 3.4 潜在意味インデキシング . . . 11 3.4.1 単語・文書行列と類似度 . . . 11 3.4.2 次元圧縮 . . . 12 3.5 潜在的ディリクレ配分法 . . . 15

3.5.1 Collapsed Gibbs Sampling . . . 17

3.6 クラスタリング . . . 19 4 提案手法 20 4.1 提案手法の構想 . . . 20 4.2 概要 . . . 22 4.3 名詞・動詞ペアの抽出 . . . 23 4.3.1 動詞V の抽出 . . . 23 4.3.2 名詞N の抽出 . . . 23 4.4 意見間の類似度の計算 . . . 25 4.5 単語間の類似度計算 . . . 26 4.5.1 日本語WordNetを用いた類似度 . . . 26 4.5.2 LSIを用いた類似度 . . . 27 4.6 名詞・動詞ペア間の類似度計算 . . . 28 4.6.1 名詞N どうしの類似度 . . . 29 4.6.2 動詞V どうしの類似度 . . . 29 4.7 クラスタリング . . . 30

(4)

5 評価実験 31 5.1 実験材料 . . . 31 5.2 実験手順 . . . 32 5.3 評価指標 . . . 33 5.4 比較手法 . . . 36 5.4.1 LSI法 . . . 36 5.4.2 LDA法 . . . 36 5.4.3 MVSC法 . . . 37 5.5 パラメータについて . . . 39 5.5.1 Leave-one-out交差検定 . . . 39 5.6 実験結果 . . . 41 6 考察 44 6.1 有用性の評価 . . . 44 6.1.1 名詞・動詞ペアの利用について . . . 45 6.1.2 複合名詞の利用について . . . 47 6.2 日本語WordNet・LSIを用いた単語間類似度について . . . 50 6.3 エラー分析 . . . 51 6.3.1 名詞・動詞ペア間の類似度計算について . . . 51 6.3.2 名詞・動詞ペアの抽出について . . . 52 6.4 修飾語の種類について . . . 54 6.5 正解クラスタ群について . . . 57 7 ツイートへの応用 60 7.1 マイクロブログサービス . . . 61 7.2 関連研究 . . . 62 7.3 意見ツイートのクラスタリング手法 . . . 63 7.3.1 ツイートへの前処理 . . . 64 7.3.2 関連ツイートの抽出 . . . 65 7.3.3 名詞・動詞ペアの抽出 . . . 66

(5)

7.4 評価実験 . . . 69 7.4.1 比較手法 . . . 69 7.4.2 実験結果 . . . 70 7.5 考察 . . . 72 7.5.1 関連ツイートと名詞・動詞ペアの有用性 . . . 72 7.5.2 エラー分析 . . . 74 8 おわりに 76 参考文献・謝辞 77 付録A 図6.1におけるF値とパラメータ 80 付録B 図6.2におけるF値とパラメータ 81 付録C 評価実験に用いた意見のサンプル 82 C.1 トピック「原発」 . . . 82 C.2 トピック「TPP」 . . . 84 C.3 トピック「STAP細胞」. . . 86 C.4 トピック「人口問題」 . . . 88 付録D 人手により生成された正解クラスタ群のサンプル 90 D.1 トピック「原発」 . . . 90 D.2 トピック「TPP」 . . . 92 D.3 トピック「STAP細胞」. . . 94 D.4 トピック「人口問題」 . . . 96 付録E 提案手法により生成されたクラスタ群のサンプル 98 E.1 トピック「原発」 . . . 98 E.2 トピック「TPP」 . . . 100 E.3 トピック「STAP細胞」. . . 103 E.4 トピック「人口問題」 . . . 105

(6)

1 はじめに

Web上には様々な製品やサービスに関するレビューや，時事問題などに関する意見が存在している．このようなWeb上のレビューや意見が「肯定的・否定的なものなのか」，「どういった評価項目・観点から述べられているのか」ということを知ることは，製品・サービスを利用する上でも，時事問題について自身の意見の幅を広げる上でも非常に有用である．しかし，amazon *1_や楽天*2_{などに代表されるショッピングサイトにおける商品レビューの充実や，}_Twitter*3_や

Facebook*4_{などに代表されるマイクロブログサービスや}_SNS_（_{Social Networking Service}_）によ

る情報発信の容易さから，Web上には膨大な量のレビューや意見が存在しており，すべてに目を通して，得たい情報を探し出すのは多大なる労力が必要である．そこで，Web上に存在するレビューや意見を抽出・整理することでユーザにとって有用な情報を探し出す「意見マイニング」や「センチメント分析」の研究が多く行われている．これらの研究の多くは，あらかじめ評価項目が明確に決まっている製品やサービスに関する意見・レビューを対象として，それらの評価項目や極性（positive/negative）に基づく意見分類・要

約を行っている[Pang 02, Turney 02, Hu 04, Liu 05]．最近では，評価項目が明確ではない時事

問題などに関する意見に対しても，賛成・反対のようないくつかの立場に分類・要約する研究が行われている[Oh 09, Paul 10, Scholz 12, Trabelsi 14]．

しかし，あるトピックに関する意見集合には賛成・反対のような立場とは別に，様々な観点を示す意見が混在している．例えば「原発（問題）」というトピックに関する意見には，「安全性」や「エネルギー」，「健康」といった様々な観点を示す意見が含まれている．そのため，特定のトピックに関する意見を自動的に観点ごとに分類することで，観点ごとの意見を容易に把握・比較することができ，今まで気付かなかった新たな観点を発見する手がかりにもなる．このような観点に基づく意見分類の研究は，今までほとんど行われていない．Wikipediaの外部情報を利用してあらかじめ用意した観点ごとに意見を分類する研究[横本 11]は行われているが，観点をあらかじめ決めるのが困難な場合も多い上に，外部情報に依存した観点が設定されてしまうという問題点もある．また，あらかじめ観点を用意することなく，意見を観点に基づいて分類（クラスタリング）する研究[Luo 09, 鷹栖 13]も行われているが，観点の性質を活かしきれ *1_{http://www.amazon.co.jp/} *2_{http://www.rakuten.co.jp/} *3_{http://twitter.com/} *4_{http://www.facebook.com}

(7)

そこで，本研究ではあらかじめ観点を用意せず，観点の差異を考慮して意見集合を観点ごとにクラスタリングすることを目的とする．観点に基づく意見のクラスタリングには，意見どうしの類似度を計算する必要がある．言語表現間の一般的な類似度計算には，BoW(Bag of Words) *5_アプローチに基づくTF-IDF値*6_{などを用いたベクトル空間モデルが用いられるが，共通語を多く} 含む意見どうしが同じ観点を示すものであるとは限らない．また，ある意見中のTF-IDF値が高い単語が，その意見の観点を示すとは限らない．そこで本研究では，文脈情報，とりわけ名詞と動詞の係り受け関係を考慮して，意見を観点ごとにクラスタリングする手法を提案する． *5単語の並びなどを考慮せず，文書中で単語が出現した頻度のみを考慮するモデル *6特定の文書に多く出現する単語を重要度が高いとみなす手法

(8)

2

3 要素技術

本章では，本研究および評価実験で用いる要素技術について述べる．

3.1 形態素解析

日本語における形態素解析とは，与えられた語句または文を形態素（単語）に分割することである．形態素とは，意味を持つ最小単位の語のことを指す．小さい燃料から電力を作ることができるので賛成です。例えば，以上のような文に対して形態素解析を行うと，以下のように分割される．小さい/燃料/から/電力/を/作る/こと/が/できる/の/で/賛成/です/。（スラッシュ/は区切り文字である）本研究では，形態素解析にMeCab(ver.0.996)*7_{を利用する．}_MeCab_{では分割した単語に品詞} 情報などが付加される．例えば，先ほどの例文をMeCabにかけると，以下のような結果が得られる．なお，解析の辞書にはUniDic(ver.2.1.2)*8を用いる．小さい形容詞,一般,*,*,形容詞,連体形-一般,小さい,小さい,チイサイ,チーサイ燃料名詞,普通名詞,一般,*,*,*,燃料,燃料,ネンリョウ,ネンリョーから助詞,格助詞,*,*,*,*,から,から,カラ,カラ電力名詞,普通名詞,一般,*,*,*,電力,電力,デンリョク,デンリョクを助詞,格助詞,*,*,*,*,を,を,ヲ,オ作る動詞,一般,*,*,五段-ラ行,連体形-一般,作る,作る,ツクル,ツクルこと名詞,普通名詞,一般,*,*,*,事,こと,コト,コトが助詞,格助詞,*,*,*,*,が,が,ガ,ガできる動詞,非自立可能,*,*,上一段-カ行,連体形-一般,出来る,できる,デキル,デキルの助詞,準体助詞,*,*,*,*,の,の,ノ,ノで助動詞,*,*,*,助動詞-ダ,連用形-一般,だ,で,ダ,デ賛成名詞,普通名詞,サ変可能,*,*,*,賛成,賛成,サンセイ,サンセーです助動詞,*,*,*,助動詞-デス,終止形-一般,です,です,デス,デス。補助記号,句点,*,*,*,*,。,。,*,* *7_{http://mecab.sourceforge.net/} *8_{http://sourceforge.jp/projects/unidic/}

(11)

3.2 構文解析（係り受け解析）

日本語における構文解析（係り受け解析）とは，文中の文節の係り受け構造を発見することである．本研究では，構文解析にCaboCha(ver.0.67)*9_{を利用する．前節で挙げた例文を}_CaboCha_にかけると，以下のような係り受け構造が得られる．なお，解析の品詞体系モデルにはMeCabと同様にUniDicを用いる．小さい └燃料から │電気を └┴作る └ことが └できるので └賛成です。 CaboChaでは，以下のように係り受け構造とMeCabによる形態素解析の結果を合わせて出力することができ，本研究では，この出力された情報を利用する． * 0 1D 0/0 1.056797 小さい形容詞,一般,*,*,形容詞,連体形-一般,チイサイ,小さい,小さい,チーサイ,小さい,チーサイ,和,*,*,*,* * 1 3D 0/1 1.057218 燃料名詞,普通名詞,一般,*,*,*,ネンリョウ,燃料,燃料,ネンリョー,燃料,ネンリョー,漢,*,*,*,* から助詞,格助詞,*,*,*,*,カラ,から,から,カラ,から,カラ,和,*,*,*,* * 2 3D 0/1 2.633533 電力名詞,普通名詞,一般,*,*,*,デンリョク,電力,電力,デンリョク,電力,デンリョク,漢,*,*,*,* を助詞,格助詞,*,*,*,*,ヲ,を,を,オ,を,オ,和,*,*,*,* * 3 4D 0/0 1.894854 作る動詞,一般,*,*,五段-ラ行,連体形-一般,ツクル,作る,作る,ツクル,作る,ツクル,和,ツ濁,基本形,*,* * 4 5D 0/1 1.954887 こと名詞,普通名詞,一般,*,*,*,コト,事,こと,コト,こと,コト,和,コ濁,基本形,*,* が助詞,格助詞,*,*,*,*,ガ,が,が,ガ,が,ガ,和,*,*,*,* * 5 6D 0/2 1.954887 できる動詞,非自立可能,*,*,上一段-カ行,連体形-一般,デキル,出来る,できる,デキル,できる,デキル,和,*,*,*,* の助詞,準体助詞,*,*,*,*,ノ,の,の,ノ,の,ノ,和,*,*,*,* で助動詞,*,*,*,助動詞-ダ,連用形-一般,ダ,だ,で,デ,だ,ダ,和,*,*,*,* * 6 -1D 0/1 0.000000 賛成名詞,普通名詞,サ変可能,*,*,*,サンセイ,賛成,賛成,サンセー,賛成,サンセー,漢,*,*,*,* です助動詞,*,*,*,助動詞-デス,終止形-一般,デス,です,です,デス,です,デス,和,*,*,*,* 。補助記号,句点,*,*,*,*,,。,。,,。,,記号,*,*,*,* *9_{http://code.google.com/p/cabocha/}

(12)

3.3 日本語

WordNet

日本語WordNet*10_{とは，日本語の概念辞書である．英語の}_WordNet *11_{がベースとなってお} り，WordNetには図3.1のように単語間の上位・下位概念関係が階層構造で記述されている．日本語WordNetでは，日本語の単語が英語WordNet内の英単語と紐づけて記述されており，構造としては英語WordNetも日本語WordNetも全く同じである．個々の概念はそれぞれ「synset」という単位で表現され，それらが他のsynsetと結びつく形になっている．この階層構造（層の深さや各synsetに属する単語数など）を用いることで，単語間の概念類似度を計算することができる．

lemon

orange

citrus fruit

edible fruit

apple

procedure

beverage

cocoa

food

solid

exporter

businessperson

capitalist

person

substance

life form

entity

図3.1 WordNetの階層構造例

*10_{http://nlpwww.nict.go.jp/wn-ja/} *11_{http://wordnet.princeton.edu/}

(13)

3.4 潜在意味インデキシング

潜在意味インデキシング（Latent Semantic Indexing; LSI）[Deerwester 90]は，文書検索において頻繁に用いられる手法で，高次元の単語・文書行列を低次元の空間（行列）へ射影することにより，検索の精度や速度を改善することができると報告されている． 3.4.1 単語・文書行列と類似度今，以下のような単語・文書行列M があるとする． M =          d1 · · · dj · · · dn w1 f11 · · · f1j · · · f1n .. . ... . .. ... . .. ... wi fi1 · · · fij · · · fin .. . ... . .. ... . .. ... wm fm1 · · · fmj · · · fmn          なお，fij は単語wiが文書dj に出現した頻度を示す．行列M から，単語wi の特徴ベクトルwiと文書dj の特徴ベクトルdj は，それぞれ以下のように表現される． wi = (fi1,· · · , fij,· · · , fin) dj = (f1j,· · · , fij,· · · , fmj)T この特徴ベクトルを用いて単語どうしや文書どうしの類似度を計算することができる．例えば，次の4つの文書から，「車」と「自動車」という2つの単語の類似度を計算することを考える． 1. 大学には車で行きます。 2. 大学には自動車で行きます。 3. 大学には自転車で行きます。 4. 調布には自転車で行きます。まず，これら4つの文書から自立語*12を抽出し，それらの出現頻度を保持するような単語・文書行列M を得る． *12名詞や動詞など，それだけで意味を持つ単語

(14)

M =           d1 d2 d3 d4 大学 1 1 1 0 車 1 0 0 0 行く 1 1 1 1 自動車 0 1 0 0 自転車 0 0 1 1 調布 0 0 0 1           このとき，「車」と「自動車」の特徴ベクトルは以下のように表される．（便宜的に「車」と「自動車」の特徴ベクトルをそれぞれw2, w4 とする） w2 = (1, 0, 0, 0) w4 = (0, 1, 0, 0) そして，コサイン類似度を用いると単語どうしの類似度は以下のように計算することができる． sim (車,自動車) = cos(w2, w4) = w2· w4 |w2||w4| = 0 1× 1 = 0 しかし，上の計算結果からも分かる通り，このままでは2つの単語の類似度は0になってしまう．これは，2 つの単語が共通して出現する文書がないためである．この2つの単語以外にも，「自動車」と「自転車」なども同様に類似度が0になってしまう．このような問題に対処する方法が，潜在意味インデキシング（LSI）である．LSIでは，高次元の行列を低次元に次元圧縮し，単語の持つ意味や概念を考慮した意味空間を構築することで，類似度計算を行えるようにする． 3.4.2 次元圧縮高次元空間の次元圧縮は，自然言語処理の分野だけでなく画像処理など多くの分野で用いられている．特に自然言語処理の潜在意味インデキシング（LSI）における高次元空間の次元圧縮には，一般

的に特異値分解（Singular Value Decomposition; SVD）が用いられる．

今，階数r，m× nの行列M に対する特異値分解は次のように定義される．

M = U ΣVT (3.1)

(15)

Σ = ( S Or,n−r Om−r,r Om−r,n−r ) (3.2) S = diag(σ1, σ2,· · · , σr), (σ1 ≥ σ2 ≥ · · · ≥ σr ≥ 0) (3.3) 行列Sは式(3.3)のような対角行列であり，その要素σi は行列M の特異値と呼ばれる． LSIによる次元圧縮には2種類の方法がある．1つは「もとの行列の次元数はそのままで階数を削減する」方法である．もう1つは「もとの行列の次元数自体を削減する」方法である．階数の削減による次元圧縮特異値分解により行列M から得られた各行列（U, Σ, V）に対し，U とV のk + 1列目（k < r）以降を削除した行列をUk, Vkとし，Σのk + 1行目とk + 1列目以降を削除した行列（式(3.3)において対角要素，すなわち特異値をk 個まで取ったときの行列S と同義）をΣkとしたとき，式 (3.4)のように，これらの行列を掛けあわせることで行列M をk 次元に近似することができる． M ≃ Mk = UkΣkVkT (3.4) 近似された行列Mkを「意味空間」と呼び，この行列の行（単語）ベクトルを見ることで，単語どうしの意味的な類似度を計算することができる．次元数の削減による次元圧縮式(3.5)のように，行列V のk + 1列目（k < r）以降を削除した行列Vkを使うことで，行列 M をk次元に近似することができる． Mk= M ( V_kT)T = M Vk (3.5) また，式(3.6)のように，行列U のk + 1列目（k < r）以降を削除した行列Ukと，行列Σの特異値をk個まで取った行列Σk を掛けあわせることでも，k次元に近似することができる． Mk = UkΣk (3.6) 式(3.5)と式(3.6)におけるMkは，それぞれ異なるものを示しているように見えるが，式(3.4) を用いることで同じものだと分かる．（式(3.7)）

(16)

M Vk ≃ MkVk =(UkΣkVkT ) Vk (∵式(3.4)) = UkΣkIk ( ∵ VT V = I ⇐⇒ V_kTVk = Ik ) = UkΣk (3.7) 前節で例示した単語・文書行列M を階数の削減により次元圧縮を行うことを考える．例えば，次元圧縮後の次元数kをk = 2としたとき，行列M は次のように近似される． M2 = U2Σ2V2T =          −0.55237 −0.44178 −0.17714 −0.27430 −0.70034 0.07200 −0.17714 −0.27430 −0.34604 0.62061 −0.14797 0.51379          ( 2.84104 0. 0. 1.53233 )_   −0.50328 −0.42033 −0.50328 −0.42033 −0.56273 0.16369 −0.42039 0.78730     T =          1.07436 1.07436 0.77229 0.12675 0.42997 0.42997 0.21441 −0.11934 0.95501 0.95501 1.13774 0.92332 0.42997 0.42997 0.21441 −0.11934 0.09506 0.09506 0.70891 1.16202 −0.11934 −0.11934 0.36544 0.79657          もとの行列M と比べて，ゼロ要素がなくなったことが分かる．このとき，2次元に次元圧縮した「車」と「自動車」の特徴ベクトルw₂(2), w(2)₄ は以下のように表される． w(2)₂ = (0.42997, 0.42997, 0.21441,−0.11934) w(2)₄ = (0.42997, 0.42997, 0.21441,−0.11934) これらの特徴ベクトルから単語どうしの類似度simk=2 をコサイン類似度により計算すると， simk=2(車,自動車) = cos ( w₂(2), w(2)₄ ) = w (2) 2 · w (2) 4 w(2) 2 w (2) 4 = 0.42997 0.65572× 0.65572 = 1.0 このように，次元圧縮を行うことで単語どうしの類似度をより適切に計算することができる．ここまでは，単語どうしの類似度計算という観点からLSIの説明を述べてきたが，文書どうしの類似度も同様に計算することができる．

(17)

3.5 潜在的ディリクレ配分法

潜在的ディリクレ配分法（Latent Dirichlet Allocation; LDA）とは，Bleiら[Blei 03]によって提案されたトピックモデルであり，このモデルは「文書は複数の潜在的なトピックからなる単語で構成されている」という仮定に基づいている． LDAでは，文書におけるトピックの出現確率と，各トピックにおける単語の出現確率を多項分布で仮定し，仮定した多項分布にディリクレ分布を用いることで，トピックの推定を可能にしている． LDAによる文書のトピックモデルの生成過程は次の通りである． 1. 文書d におけるトピックの出現確率分布（多項分布）θd をDirichlet 事前分布から選択する． θd ∼ Dirichlet(α) Dirichlet分布とは，「あるn個の事象についてi番目の事象がαi− 1回観測された場合に，その事象の生起確率がxiである」ということを示した確率分布のことである．つまり，大まかに言ってしまえば，確率分布の確率分布である． 2. 文書dに含まれる単語wiについて（a）多項分布θd から単語wiのトピックziを選択する． zi ∼ Mlutinomial(θd) （b）トピックzi における単語の出現確率分布（多項分布）から，単語wiを選択する． wi ∼ p (wi|zi, β) なお，αはDirichlet事前分布のパラメータであり，β はトピックモデルのパラメータである．このとき，LDAのグラフィカルモデルは図3.2のようになる．以上のことから，文書dの生成確率は次のように表される．なお，Ndは文書dに含まれる単語の数を示す． p (d|α, β) = ∫ p (θd|α) (_N d ∏ i=1 ∑ zi p (zi|θd) p (wi|zi, β) ) dθd (3.8)

(18)

𝛼

𝜃

𝑧

𝑤

𝛽

𝑁

_𝑑

𝑀

Gibbs Samplingを用いる．また，トピックにおける単語の出現確率分布を予めDirichlet事前分

(19)

𝛼

𝜃

𝑧

𝑤

𝛽

𝑁

_𝑑

𝑀

𝜙

𝐾

図3.3 Smoothed LDAのグラフィカルモデル wiはトピックzi における単語出現確率分布ϕzi から選択することになる． ϕzi ∼ Dirichlet(β) wi ∼ Multinomial(ϕzi) このことから，パラメータβもαと同様にDirichlet事前分布のパラメータとなり，このよう

な確率分布の生成を行ったLDAを特にSmoothed LDAと呼ぶ．（Smoothed LDAのグラフィ

カルモデルを図3.3に示す．なお，図中のK はトピック数を指す．）

3.5.1 Collapsed Gibbs Sampling

Collapsed Gibbs Sampling（CGS）は，直接計算が困難な確率分布の代わりにそれを近似するようなサンプル（データ）列を生成する手法である．具体的には，文書中の各単語に対して，予めランダムなトピックを割り当てておき，各単語に関してトピックを逐次更新していくという流れを取る．この更新を繰り返すことで，尤もらしいθとϕを得ることができる．ある文書d中の単語wiに対するCGSの更新式（近似式）は次の通りである． p(zi = t|wi = m, z−i, w−i)∝ Cd,t+ α ∑ tCd,t+ Kα Cm,t + β ∑ mCm,t+ V β (3.13) なお，z_−iはトピック集合zからトピックziを除いたもの，w−iは単語集合wから単語wi を除いたものを指す．また，Cd,j は文書dがトピックtに割り当てられた回数，Cm,t は単語mがトピックtに割り当てられた回数，V は全単語数を指す． CGSによるθ とϕの推定結果は次のようになる．なお，θd,t は文書dにおけるトピックtの生

(20)

θd,t = Cd,t+ α ∑ tCd,t+ T α (3.14) ϕm,t = Cm,t+ β ∑ mCm,t+ V β (3.15) LDAでは，この推定されたパラメータθ とϕを用いて，トピックに基づく文書クラスタリングや単語クラスタリングを行うことができる．

(21)

3.6 クラスタリング

クラスタリングとは，データ解析手法の1つであり，あるデータ集合を事前知識（予め与えられた分類基準など）なしに自動的に分類する教師なし機械学習手法のことである．一般的に「分類」と呼ばれるものは，自然言語処理分野においては「分類（classification)」と「クラスタリング（clustering）」に分けられる．前者の「分類（classification)」は教師あり機械学習手法と呼ばれ，予め与えられた教師（正解）データをもとに分類基準を決め，その分類基準を用いて教師データとは別のデータを分類するというものである．代表的な教師あり機械学習手法として，決定木やNaive Bayes，SVM（Support Vector Machine），k-近傍法などがある．一方，後

者の「クラスタリング（clustering）」は，教師なし機械学習手法と呼ばれ，教師データなしに自動的に分類基準を決めていき，データ集合を任意のグループに分割する（クラスタを生成する）というものである．クラスタリング手法は，非階層型クラスタリング手法と階層型クラスタリング手法の大きく2つに分けられ，それぞれの代表的なものとしてk-means法やWard法などがある．「分類」では予め分類項目が設定されていることから，どのデータがどの項目に分類されたかが分かりやすいが，逆に分類項目を限定してしまったり教師データの作成コストが非常に高いというデメリットがある．一方で「クラスタリング」では，教師データが必要ないことや，分類項目を限定することがないため，柔軟な分類を行うことができる．「クラスタリング」では，生成されたクラスタがどのような特徴を表しているか分からないというデメリットもあるが，本研究では「予め観点を用意することなく，意見を観点ごとに分類する」という目的から「クラスタリング」を行う．本研究では，クラスタリングの中でも階層型クラスタリング手法を利用する．なお，階層型クラスタリング手法のアルゴリズムは以下の通りである． 1. 各要素を，それぞれ要素数1のクラスタとする． 2. クラスタどうしのクラスタ間距離を求める． 3. クラスタ間距離の最も小さいクラスタどうしを併合する． 4. クラスタリングの終了条件を満たしていれば終了する．満たしていなければ，手順 2に戻る．手順2のクラスタ間距離の計算には様々な手法が提案されており，本研究ではその中でもWard 法を用いる．

(22)

4 提案手法

4.1 提案手法の構想

従来用いられてきたBag of Words（BoW）アプローチに基づくクラスタリング手法は，トピッ

クを表す内容語（話題語）の共通性・類似性に基づいた文書（クラスタ）間の類似度を計算するため，結果としてクラスタリング対象の文書集合に含まれるトピックを基準とした分類が行われる．したがって，本研究で対象とするような，ある特定のトピック（時事問題）に関する意見集合に対してBoWアプローチに基づくクラスタリングを行うと，その結果はそのトピックのサブトピック（トピックの下位概念）に基づく分類になりやすいと考えることができる．一方，あるトピックに関する意見の観点そのものを表す語句は，意見中には陽に出現しにくいと考えられる．例えば，原発（問題）に対する意見の観点として，「安全性」や「エネルギー政策」，「健康への影響」などが考えられる．これらは，原発（原子力発電所）の下位概念というよりは，原発を議論するにあたっての視点であり，意見中に陽に述べられることは多くはない．よって，BoWアプローチに基づくクラスタリング手法をそのまま意見集合に適用したとしても，これらの観点に基づく分類が行われる可能性は低い．本研究では，このような観点の違いは，内容語（名詞）そのものの違いではなく，その使われ方に反映されていると考える．より具体的には，名詞と動詞の係り受け関係，すなわち述語・項構造の違いに反映されると仮定する．例えば，表4.1は原発（問題）に関する観点の異なる 2つの意見の例を示している．これらの2つの意見は「燃料」という共通の名詞を含んでいるが，それぞれ「作る」と「消費する」という異なる動詞に係ることから，燃料のどのような側面が述べられているかが異なっている．「発電技術」という観点からはエネルギー源としての燃料が話題となっているのに対して，「発電コスト」という観点からは燃料の消費が話題となっており，このような表4.1 トピック「原発」に対する観点の異なる意見の例観点意見発電技術原発の稼働には賛成です。原子力発電だと小さい燃料から電力を作ることができるなんて知りませんでした。少資源の日本にとっては消費の少ない原発の方がいい気がします。発電コスト火力発電だと電力の生成に多くの燃料を消費することになります。円安で輸入費もかかりますし、原発も選択肢の1つだと思います。

(23)

いると言える．そこで，文節の係り受け関係から名詞N と動詞V の名詞・動詞ペア_{⟨N, V ⟩}を抽出し，名詞N どうしの類似度ではなく名詞・動詞ペアどうしの類似度に基づいて意見どうしの類似度を計算することで，観点の差異を考慮したクラスタリングが実現できると考える．さらに，名詞と動詞の係り受け関係を用いることによって，サ変可能名詞*13_{のような単語が文} 中でどの品詞で用いられているかを考慮した類似度計算が可能となる．例えば，表4.1の2つの意見には「消費」という語が含まれているが，この語は前者では名詞の，後者では動詞の機能を担っている．しかし，一般的にBoWアプローチに基づく文書間類似度の計算手法では，このような単語が文中で名詞として機能しているのか，動詞として機能しているのかを区別せずに利用している．提案手法では，名詞と動詞の係り受け関係を考慮することで，単語が文中でどの品詞で用いられているかを同定し，名詞N どうし，動詞V どうしの類似度を適切に計算できることが期待できる． *13「消費」や「開発」のように名詞の直後に動詞の「する」が付くことで動詞化するもの

(24)

4.2 概要

本研究で対象とする意見は，1つ以上の文から構成される短い文章である．提案手法では，ある特定のトピック（時事問題）に関する意見の集合に対して，1つの意見に単一の観点が付与されると仮定して，排他的なクラスタリングを行う．本研究で提案するクラスタリング手法の手順を以下に示す． 1. クラスタリングの対象となる意見集合の各意見に対して，そこに含まれるすべての名詞・動詞ペアを抽出する． 2. 各意見oiをそこに含まれる名詞・動詞ペア集合P (oi)で表現し，名詞・動詞ペア集合間の類似度として，意見どうしの類似度を計算する． 3. 手順2で計算される意見どうしの類似度を用いて，Ward法による階層型クラスタリングを行う．以降の4.3節と4.4節では，それぞれ手順1と手順2の詳細を述べる．

(25)

4.3 名詞・動詞ペアの抽出

各意見に対して，係り受け解析を行い，文節の係り受け関係から動詞の機能を担う語の抽出と名詞の機能を担う語の抽出を行い，名詞・動詞ペア_{⟨N, V ⟩}を抽出する． 4.3.1 動詞V の抽出原則として，ある文節中で形態素解析により動詞と判断されたものをそのまま動詞として抽出するが，文節中に非自立語扱いの動詞（「する」や「ある」など，それ自体で意味を持たない動詞）しか存在しない場合は，その文節に出現する名詞を動詞として抽出する．ただし，名詞が出現しない場合には，非自立語扱いの動詞をそのまま動詞として抽出する．例えば，「代替エネルギーを開発する」という文では，「開発する」という文節で「する」という非自立語扱いの動詞が存在することから，名詞である「開発」が動詞として抽出される． 4.3.2 名詞N の抽出 4.3.1節で抽出された動詞を含む文節に係る文節Piに含まれる名詞N を抽出して，名詞・動詞ペアを生成する．ただし，自立語W を含む文節Pj が文節Pi に係るとき，W が以下に示す条件を満たせば，名詞N の修飾語とみなして複合名詞⟨W, N⟩を抽出する． ■自立語W が名詞の場合： W を含む文節Pj が，助動詞または助詞の「の」を伴って文節Pi に係るとき，W を修飾語とする． ■自立語W が動詞の場合： W を含む文節Pj の終端がW であるとき，W を修飾語とする． ■自立語W が形容詞の場合：そのまま，W を修飾語とする．例えば，「これからの自然の脅威に備える。」という文からは，図4.1のような係り受け構造が得られる．なお，形態素解析上，名詞と判定された単語をN()で，動詞と判定された単語をV() で囲っている．このとき，名詞「自然」が助詞「の」を伴って名詞「脅威」に係ることから，⟨自然, 脅威⟩ という複合名詞が抽出される．また，名詞「脅威」は動詞「備える」に係ることから，最終的に

(26)

これからの └N(自然)の └N(脅威)に └V(備える)。図4.1 係り受け構造の例1 N(原発)に └V(代わる) └N(エネルギー)を └N(開発)V(する)。図4.2 係り受け構造の例2 ⟨⟨自然, 脅威_⟩, 備える_⟩という名詞・動詞ペアが抽出される．また，「原発に代わるエネルギーを開発する。」という文からは，図4.2のような係り受け構造が得られる．このとき，まず，名詞「原発」が動詞「代わる」に係ることから，⟨原発, 代わる⟩という名詞・動詞ペアが抽出される．また，動詞「代わる」はそれ自身が文節となり，名詞「エネルギー」に係ることから，⟨代わる,エネルギー⟩という複合名詞が抽出される．加えて，名詞「エネルギー」が係る文節には名詞「開発」と動詞「する」が含まれるが，4.3.1節で述べたように，「する」は非自立語扱いの動詞であるので，「開発」が動詞として抽出され，⟨⟨代わる, エネルギー⟩, 開発⟩ という名詞・動詞ペアも抽出される．

(27)

4.4 意見間の類似度の計算

意見ox, oy に含まれる名詞・動詞ペアの集合をそれぞれPx ={⟨Ni, Vi⟩xi} , Py = { ⟨Nj, Vj⟩yj } とし，意見ox, oy の類似度simo(ox, oy)を式(4.1)で定義する． simo(ox, oy) = nvSimx+ nvSimy |Px| + |Py| (4.1) nvSimx = |P∑x| i=1 max j [ simnv ( ⟨Ni, Vi⟩xi,⟨Nj, Vj⟩y_j )] nvSimy = |Py| ∑ j=1 max i [ simnv ( ⟨Ni, Vi⟩xi,⟨Nj, Vj⟩yj )] 上式において，simnv ( ⟨Ni, Vi⟩xi,⟨Nj, Vj⟩ y j ) は2つの名詞・動詞ペア_⟨N_i, Vi⟩xi と⟨Nj, Vj⟩ y j の類似度を表している．したがって，nvSimxは，意見ox の各名詞・動詞ペア⟨Ni, Vi⟩xi に対する意見 oy の名詞・動詞ペア集合Py との最大類似度の和であり，nvSimy は逆に，意見oy の各名詞・動詞ペア_⟨N_j, Vj⟩yj に対する意見oxの名詞・動詞ペア集合Pxとの最大類似度の和である．以降の節では，式(4.1)の計算に必要な名詞・動詞ペア間の類似度simnv の計算方法について述べる．なお，simnv は名詞どうしや動詞どうしの類似度を用いて計算するため，まず4.5節で単語間の類似度の計算方法について述べた後に，4.6節で名詞・動詞ペア間の類似度の計算方法について述べる．

(28)

4.5 単語間の類似度計算

単語どうしの類似度計算には，日本語WordNetを用いた類似度と潜在意味インデキシング（以

下，LSI）[Deerwester 90]により構築した意味空間を用いた類似度を利用する．

単語wi, wj の日本語WordNetを用いた類似度をjwnw，LSIを用いた類似度をlsiw としたとき，wiとwj の類似度simw(wi, wj)を式(4.2)で定義する． simw(wi, wj) = α× jwnw(wi, wj) + (1− α) × lsiw(wi, wj) (4.2) なお，α (0 ≤ α ≤ 1)は，jwn_w とlsiw のどちらの類似度の影響を強くするかを示すパラメータであり，その値が大きいほど日本語 WordNetを用いた類似度を重視することになる．ただし， wi, wj のどちらかが日本語WordNetに存在しない場合は，α = 0とする． 4.5.1 日本語WordNetを用いた類似度

日本語WordNetを用いた単語間の概念類似度は，Resnikの手法 [Resnik 95]を用いて計算する．Resnikの手法では，単語wi とwj の概念類似度jwnw を式(4.3)のように定義している． jwn_w(wi, wj) = max ck∈S1(wi) cl∈S1(wj) [simc(ck, cl)] (4.3) S1(wi), S1(wj)は，それぞれ単語wi, wj を含む概念（synset）の集合を指す．このとき，概念ck とclの類似度simc(cl, ck)は式(4.4)より計算される． simc(ck, cl) = max c∈S2(ck,cl) [− log p(c)] (4.4) 式(4.4)におけるS2(ck, cl)は，概念ckとclに共通する上位概念の集合を指す．なおp(c)は，概念cのすべての下位概念の数を全概念数で割った値を求める関数である．ここでの全概念数とは， WordNetに登録されている全概念数117659のことである．ただし，式(4.4)のままでは類似度の最大値が1にならないことから，本研究では全概念数 N で正規化した式(4.5)を用いる． simc(ck, cl) = max c∈S2(ck,cl) [ −log p(c) log N ] (4.5)

(29)

4.5.2 LSIを用いた類似度単語wi とwj のLSIにより構築した意味空間を用いた類似度lsiw をコサイン類似度を利用して式(4.6)のように定義する． lsiw(wi, wj) = 1 + cos ( u(d)_i , u(d)j ) 2 = 1 2  1 + u (d) i · u (d) j u(d) i ×u (d) i   (4.6) u(d)_i , u(d)_j は，クラスタリングの対象とするすべての意見に含まれる自立語の出現頻度を要素とした単語・文書行列に対して，特異値分解を用いて行列の次元数をdに次元圧縮を施した後の単語 wi, wj の特徴ベクトルを示している．また，コサイン類似度は2つのベクトルがなす角度のコサインを求めることに相当するので，その値が取る範囲は-1∼1となる．そのため，式(4.6)では単語間の類似度が0∼1の範囲の値を取るようにスケール調整を行っている．

(30)

4.6 名詞・動詞ペア間の類似度計算

2つの名詞・動詞ペア⟨Ni, Vi⟩i,⟨Nj, Vj⟩j 間の類似度simnv を名詞Ni, Nj の類似度simn と動詞Vi, Vj の類似度simv から式(4.7)で定義する． simnv(⟨Ni, Vi⟩i,⟨Nj, Vj⟩j) = simn+ ( (1− λ) + λ(simn)2 ) × simv (4.7) 式(4.7)は，simn と係数付きのsimv の和を取る形になっている．simnvの計算式を式(4.7) とし

た理由は，simnが小さければsimv の大小に関わらず2つの名詞・動詞ペア⟨N, V ⟩が異なる内容

を表す可能性が高く，simnv を小さくする必要があると考えたからである．そのため，simn が大

きくなるほどsimv がsimnv に与える影響が大きくなるように，simv の係数が設定されている．

λはその影響度合いを示すパラメータであり，その値が大きくなるほどsimnとsimv がより連動したsimnv が計算される．図4.3はλ = 2/3における式(4.7)を表したグラフであり，先述した通り，simnが大きくなるほどsimv がsimnv に与える影響が大きくなっている（グラフの傾きが大きくなっている）． 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 sim_nv sim_n sim_v sim_nv 0 0.5 1 1.5 2 図4.3 λ = 2/3における式(4.7)の3次元グラフ

(31)

4.6.1 名詞N どうしの類似度名詞Ni, Nj 間の類似度simnは，Ni, Nj それぞれが単一の名詞である場合と修飾語を含む複合名詞である場合とで計算方法が異なる． ■NiとNj が単一名詞の場合： 4.5節で定義した式(4.2)で計算する． ■NiとNj の片方のみが複合名詞の場合： Niが複合名詞⟨Ni,1, Ni,2⟩（すなわち，Nj は単一名詞）とすると，式(4.8)のようにNiに含まれる修飾語Ni,1 とNj 間，被修飾語（主辞名詞）Ni,2 とNj 間の類似度を式 (4.2)で計算し，パラメータβ (0≤ β ≤ 1)を用いて和を取る．

simn(Ni, Nj) = β× simw(Ni,1, Nj) + (1− β) × simw(Ni,2, Nj) (4.8)

■NiとNj の両方が複合名詞の場合：

複合名詞Ni =⟨Ni,1, Ni,2⟩とNj =⟨Nj,1, Nj,2⟩に対して，式(4.9)のように，両複合名詞

に含まれる修飾語どうし，被修飾語どうしの類似度を式(4.2)で計算し，式(4.8)と同じパ

ラメータβを用いて和を取る．

simn(Ni, Nj) = β× simw(Ni,1, Nj,1) + (1− β) × simw(Ni,2, Nj,2) (4.9) なお，式(4.8)と式(4.9)に共通するパラメータβ は，修飾語に基づく類似度が全体の類似度に与える影響の度合いを示しており，その値が大きいほど修飾語による類似度の影響が強くなる．

したがって，β = 0とすると，修飾語を無視した主辞名詞のみの類似度を求めることになる．

4.6.2 動詞V どうしの類似度

(32)

4.7 クラスタリング

意見のクラスタリングには，階層型クラスタリング手法であるWard法を用いる．なお，初期状態（各クラスタが各意見にあたる場合）のクラスタ間距離は，意見どうしの非類似度（距離）となる．例えば，初期クラスタCx, Cy のクラスタ間距離は，意見ox, oy の非類似度に相当するので，以下のように計算される． d(Cx, Cy) = d(ox, oy) = 2− simo(ox, oy) (4.10) ここで，2− simo(ox, oy)とした理由は，意見どうしの最大類似度が2（正確には名詞・動詞ペアどうしの最大類似度が2）だからであり，最大類似度からその類似度を引くことで非類似度となる． 4.7.1 Ward法任意のクラスタCp とCqの距離d(Cp, Cq)は，Ward法では以下のように定義される．

d(Cp, Cq) = E(Cp∪ Cq)− E(Cp)− E(Cq) (4.11)

なお，E(Ci)は次を満たす関数であり，ci はクラスタCi の重心ベクトルを指す． E(Ci) = ∑ x∈Ci (x− ci)2 (4.12) このように，クラスタ間の距離を計算する場合は，各クラスタ（または初期状態の各要素）がベクトル空間で表現されている必要がある．しかし，提案手法においては各意見をベクトル空間で表現することができないため，式(4.11) を用いてクラスタ間の距離を計算することができない．そこで，提案手法ではLance-Williamsの更新式[Lance 67]を用いてクラスタ間の距離を計算する．あるクラスタCp がクラスタCpa, Cpbが併合してできたものであるとき，クラスタCpとCqのクラスタ間距離d(Cp, Cq)はLance-Williamsの更新式により以下のように計算される． d(Cp, Cq) = npa+ nq np+ nq d(Cpa, Cq) + npb+ nq np+ nq d(Cpb, Cq)− nq np + nq d(Cpa, Cpb) (4.13) なお，niはクラスタCi に含まれる要素数である． Lance-Williamsの更新式を用いることで，各意見をベクトル空間で表現しなくとも，あらかじめすべての意見どうしの距離を計算しておくことで直接クラスタリングすることができる．

(33)

5 評価実験

5.1 実験材料

評価実験には，あるトピックに関する意見を紹介するWebサイトや，ニュース記事やコラム（エッセイ）に対してユーザがコメントができるWebサイト*14 に掲載されている意見を用い，実験者が予め選択した表5.1に示す4つのトピックに関する意見の中から40件ずつランダムに取得した．意見は1文以上から構成されるもので，4つのトピックの意見全体における1意見あたりの平均文数は4.49文であった．表5.1 実験に用いた意見のトピックと各トピックにおける平均文字数・文数トピック平均文字数平均文数原発 132 4.02 TPP 180 5.28 STAP細胞 148 4.48 人口問題 133 4.18 全体平均 148 4.49 *14_{http://blogos.com}

(34)

5.2 実験手順

評価実験の手順は，以下の通りである． 1. 各トピックの意見集合に対して，3人の被験者により人手でそれぞれ観点ごとに意見がまとまるように分類を行ってもらうことで，各トピック3種類ずつ正解データを用意した．（a）まず，各意見ごとに，その意見が示す観点を列挙（付与）してもらった．この際，複数の観点を示すと判断された意見については，観点を複数付与してもらった．（b）グループ間で意見が重複しないよう，似た観点を示す意見ごとにグループを作ってもらい，最終的にそのグループとして尤もらしい観点を決めてもらった．なお，複数の観点を示す意見については，被験者の判断により，その意見に最もふさわしい（その意見で最も主張したいと思われる）観点を採用し，適宜グループを作ってもらった． 2. 各トピックごとに，人手による分類結果と同じ観点の数で，意見集合に対して提案手法を用いてクラスタリングを行った．（クラスタリングの終了条件を「クラスタ数が人手による分類結果と同じ観点の数になったとき」に設定した．） 3. 人手により生成された観点のグループ（以降，正解クラスタ群と呼ぶ）と提案手法により生成されたクラスタ群の近さを評価指標として，クラスタリング精度を計算した．（評価指標については次節で説明する．）

(35)

5.3 評価指標

提案手法により生成されたクラスタ群と人手により生成された正解クラスタ群がどの程度近いかの指標として，再現率と適合率からなるF値を用いて評価を行った．F値の計算は折原ら [折原 08]と同様に，2つのクラスタ群でF値の総和が最大になるようなクラスタの組み合わせを決定して計算した．提案手法により生成されたクラスタ群をS = {S1,· · · , Sc}（cはクラスタ数である），人手により生成された正解クラスタ群をL ={L1,· · · , Lc}としたとき，クラスタSiに含まれる意見の数をsi，クラスタLj に含まれる意見の数をlj，Si とLj の両方に含まれる意見の数を nij とする．このとき，任意のクラスタSiとLj とのF値F (Si, Lj)は，再現率R(Si, Lj)，適合率P (Si, Lj) から以下のように求まる． R(Si, Lj) = nij li (5.1) P (Si, Lj) = nij sj (5.2) F (Si, Lj) = 2× R(Si, Lj)× P (Si, Lj) R(Si, Lj) + P (Si, Lj) (5.3) 再現率Rは完全性を評価するための尺度であり，クラスタLj に含まれる意見の中でクラスタSi にも含まれる意見の割合を示す．適合率 P は正確性を評価するための尺度であり，クラスタSi に含まれる意見の中でクラスタLjにも含まれる意見の割合を示す．また，F値は再現率と適合率の調和平均である．例えば，図5.1のように，7つの意見が3つのクラスタ（観点）に分けられたとき，提案手法により生成されたクラスタ群Sと正解クラスタ群Lの各クラスタ間のF値は表5.2のようになる． 𝑆1 𝑆2 𝑆3 𝐿₁ 𝐿₂ 𝐿₃ 𝑜1, 𝑜3 𝑜2, 𝑜6, 𝑜7 𝑜4, 𝑜5 𝑜₁, 𝑜₂ 𝑜₄, 𝑜₆, 𝑜₇ 𝑜3, 𝑜5 提案手法によるクラスタ群𝑺 人手によるクラスタ群𝑳 図5.1 o1∼o7の7つの意見のクラスタリング例

(36)

L L1 L2 L3 S S1 0.50 0.00 0.50 S2 0.40 0.67 0.00 S3 0.00 0.40 0.50 𝑣_𝑆₁ 𝑣_𝑆₂ 𝑣_𝑆₃ 𝑣_𝐿₁ 𝑣_𝐿₂ 𝑣_𝐿₃ 提案手法によるクラスタ群𝑽𝑆 人手によるクラスタ群𝑽𝐿 𝑒₁₁ 𝑒12 𝑒₁₃ 𝑒₂₁ 𝑒22 𝑒₂₃ 𝑒₃₁ 𝑒32 𝑒₃₃ 𝑆1= {𝑜1, 𝑜3} 𝑆2= {𝑜2, 𝑜6, 𝑜7} 𝑆3= {𝑜4, 𝑜5} 𝐿1= {𝑜1, 𝑜2} 𝐿2= {𝑜4, 𝑜6, 𝑜7} 𝐿3= {𝑜3, 𝑜5} 図5.2 完全2部グラフK_|S|,|L|の例次に，提案手法により生成されたクラスタ群Sと正解クラスタ群Lをそれぞれ2つの頂点集合 VS, VLとし，それぞれの頂点 vSi, vLj をすべて結んだ完全2部グラフ*15K|S|,|L|（図 5.2）を得る．なお，Eはそれぞれの頂点を結んだエッジeij の集合である． VS ={vS1, vS2,· · · , vSc} (5.4) VL ={vL1, vL2,· · · , vLc} (5.5) E ={(vSi, vLj)|vSi ∈ VS, vLj ∈ VL} (5.6) このとき各頂点は，それぞれのクラスタ群に含まれるクラスタに対応される．任意の頂点vSi とvLj（クラスタSiとLj）を結ぶ辺の重みW (vSi, vLj)は式(5.7)のように，クラスタ間のF値に全体の意見数n（図5.1で示した例にならえばn = 7）のうち正解クラスタLj に含まれる意見数lj の割合を掛けて計算する． W (vSi, vLj) = lj nF (Si, Lj) (5.7) *15グラフ理論における2部グラフにおいて，片方の集合に属する各頂点から別の集合に属するすべての頂点に辺が伸びているものを特に完全2部グラフという．

(37)

VL vL1 vL2 vL3 VS vS1 e11 = 0.14 e12 = 0.00 e13 = 0.14 vS2 e21 = 0.11 e22 = 0.29 e23 = 0.00 vS3 e31 = 0.00 e32 = 0.17 e33 = 0.14 𝑣_𝑆₁ 𝑣_𝑆₂ 𝑣_𝑆₃ 𝑣_𝐿₁ 𝑣_𝐿₂ 𝑣_𝐿₃ 提案手法によるクラスタ群𝑽𝑆 人手によるクラスタ群𝑽𝐿 𝑒₁₁ 𝑒12 𝑒₁₃ 𝑒₂₁ 𝑒22 𝑒₂₃ 𝑒₃₁ 𝑒32 𝑒₃₃ 𝑆1= {𝑜1, 𝑜3} 𝑆2= {𝑜2, 𝑜6, 𝑜7} 𝑆3= {𝑜4, 𝑜5} 𝐿1= {𝑜1, 𝑜2} 𝐿2= {𝑜4, 𝑜6, 𝑜7} 𝐿3= {𝑜3, 𝑜5} 図5.3 最大マッチング問題から得られるクラスタの組み合わせ以上から得られた完全2部グラフの重み付き最大マッチング問題を解くことで，F値の総和が最大になる組み合わせを決定し，そのときのF値の平均を最終的な評価値とした．図5.1のような例のもとでは，頂点（クラスタ）間のエッジの重みは表5.3のようになることから，完全2部グラフの重み付き最大マッチング問題から得られるクラスタの組み合わせは図5.3 （黒の実線で繋がっているクラスタどうしの組み合わせ）のようになる．このとき，組み合わせをもとに表5.2から計算したF値の総和は1.67であるので，その平均である最終的な評価値としてのF値は0.56となる．

(38)

5.4 比較手法

本研究で提案したクラスタリング手法が既存の手法に比べ，どの程度の性能を示すか調査するために比較手法を用意した．意見をクラスタリングする既存手法としては，Luoら[Luo 09]と鷹栖ら[鷹栖 13]の手法が挙げられる．しかし，Luoらの手法は観点の差異や特徴を考慮したものではなく，得られたクラスタに含まれる特徴（肯定的・否定的など）を分析することに焦点をおいているため比較手法からは除外した．（文献中の単語への重み付け方法，クラスタリングの流れ等の説明が不明瞭であったことも除外理由の1つである．）また，鷹栖らの手法は，Twitter上に存在する意見ツイートを対象としたクラスタリングであるため，本研究の評価実験で扱う意見集合に適用することができない．そのため，意見集合に特化したものではない従来の文書クラスタリング手法になるが，比較手法として，LSI法，LDA法，MVSC法の3つを用意した． 5.4.1 LSI法 LSI法は，一般的によく用いられるクラスタリング手法である．具体的には，意見に含まれる自立語の出現頻度を素性とした単語・文書行列に対して次元圧縮を行い，得られた文書（意見）の特徴ベクトルを用いてクラスタリングする方法である．意見どうしの類似度はコサイン類似度により計算し，クラスタリングには提案手法と同様に階層型クラスタリング手法であるWard法を用いた． 5.4.2 LDA法

LDA法は，LDA（Latent Direchlet Allocation; 潜在的ディリクレ配分法）[Blei 03]を用いてクラスタリングする方法である． LDAは，「1つの文書には複数のトピックからなる単語が含まれる」という仮定をもとにしたモデルであるが，これを文書単位ではなく意見単位で考えると，「1つの意見には複数の観点からなる単語が含まれる」という仮定をもとにしたモデルとしてみなすこともできる．そのため，本研究ではLDAを用いたクラスタリングを比較手法の1つとして用意した． LDAでは最終的に各文書におけるトピック生起確率分布（どのトピックがどの程度の割合で含まれているかという分布）が推定される．これを先ほどの仮定から，各意見における観点の生起確率分布とみなして，最も生起確率が高い（最も含まれる割合が高い）観点をその意見の観点として採用することでクラスタリングを行った．

(39)

5.4.3 MVSC法 MVSC法は，Nguyenら[Nguyen 12]によって提案された非階層型クラスタリング手法である．あるクラスタCrに含まれる文書di, dj の正規化された（ベクトルの大きさを1とした）特徴ベクトルをxi, xj としたとき，そのコサイン類似度は一般的に次のように原点を中心とした2つのベクトルの成す角のコサインから計算される． sim(di, dj) = cos(xi, xj) = xi· xj |xi||xj| = xi· xj (5.8) 一方でNguyenらは，文書di, dj ∈ Cr間の類似度をクラスタCr 以外のクラスタに属する文書 dh の特徴ベクトルxhを中心とした2つのベクトルxi, xj が成す角からコサイン類似度を計算している． sim(di, dj|di, dj ∈ Cr) = 1 n− nr ∑ xh∈ ¯Cr cos(xi− xh, xj− xh) = 1 n− nr ∑ xh∈ ¯Cr (xi− xh)· (xj− xh) = 1 n− nr ∑ xh∈ ¯Cr xi· xj− (xi+ xj)· xh+ xh· xh (5.9) なお，nは全文書数，nr はクラスタCr に含まれる文書数を指す．また，特徴ベクトルは全て正規化されたものであり，以降の説明においても同様である． Nguyenらは，この方法により計算した類似度を用いてクラスタリングを行っている．手順としては，まずクラスタCr に含まれる全ての文書どうしで類似度の総和Irを計算する． Ir= ∑ di,dj∈Cr sim(di, dj) = ∑ xi,xj∈Cr 1 n− nr ∑ xh∈ ¯Cr xi· xj− (xi+ xj)· xh+ xh· xh = 1 n− nr ∑ xi,xj∈Cr ∑ xh∈ ¯Cr {xi· xj− (xi+ xj)· xh+ xh· xh} (5.10) また，全文書の特徴ベクトルの総和をDとし，クラスタCr に含まれる文書の特徴ベクトルの総和をDrとすることで，以下のような関係式を得ることができる．

文節の係り受け関係を用いた観点に基づく意見クラスタリング