• 検索結果がありません。

文節の係り受け関係を用いた観点に基づく意見クラスタリング

N/A
N/A
Protected

Academic year: 2021

シェア "文節の係り受け関係を用いた観点に基づく意見クラスタリング"

Copied!
109
0
0

読み込み中.... (全文を見る)

全文

(1)

研究科・専攻 大学院 情報理工学研究科 総合情報学専攻 博士前期課程 氏 名 鷹栖 弘明 学籍番号 1330040 論 文 題 目 文節の係り受け関係を用いた観点に基づく意見クラスタリング 要 旨 Web 上には,様々なトピックに関する意見が存在し,トピックに関する意見には様々な観点 のものが混在している.例えば,「原発」というトピックに関する意見には安全性やエネルギー, 健康といった観点の意見が混在している.意見をこのような観点ごとに分類することで,観点 ごとに意見を容易に把握・比較でき,新たな観点の意見を発見する手がかりにもなる.意見を 観点ごとに分類する研究は少なく,分類する観点を予め設定しているものや,観点の差異を考 慮していない手法がほとんどである.そこで本研究では,予め観点を設定せずに,文脈情報, とりわけ名詞と動詞の係り受け関係を考慮して意見集合に適した観点を自動的に特定・分類す るクラスタリング手法を提案する. 本研究で提案する意見クラスタリング手法では,「意見の観点の違いは名詞と動詞の係り受け 関係の違いに反映される」という仮定のもと,文節の係り受け関係から名詞𝑁と動詞𝑉のペア 〈𝑁, 𝑉〉を抽出し,これをクラスタリングに利用する.具体的には,各意見から得られた文節の係 り受け関係をもとに名詞とそれが係る動詞のペア〈𝑁, 𝑉〉を抽出する.そして,日本語 WordNet と潜在意味インデキシングを用いて計算した名詞𝑁どうしの類似度と動詞𝑉どうしの類似度か ら抽出した〈𝑁, 𝑉〉間の類似度を計算するが,特に,名詞𝑁どうしの類似度が高くなるほど動詞𝑉 どうしの類似度が〈𝑁, 𝑉〉間の類似度に大きく影響を与えるように計算する.最終的に意見どうし の類似度を〈𝑁, 𝑉〉間の類似度から計算し,Ward 法による階層型クラスタリングを行う. 評価実験では,意見集合に対して人手による観点に基づいた分類と提案手法および従来のク ラスタリング手法による分類がどの程度近いかということを指標として分類性能を調べた.実 験の結果,提案手法では従来手法より高い分類性能となり,提案手法が有用であることが示さ れた.

(2)

文節の係り受け関係を用いた

観点に基づく意見クラスタリング

提出年月日:

平成

27

1

30

提出者:

学籍番号

1330040

氏名 鷹栖 弘明

コース:

経営情報学コース

指導教員:

内海 彰 教授

尾内 理紀夫 教授

(3)

目次

1 はじめに 4 2 関連研究 6 3 要素技術 8 3.1 形態素解析 . . . 8 3.2 構文解析(係り受け解析) . . . 9 3.3 日本語WordNet . . . 10 3.4 潜在意味インデキシング . . . 11 3.4.1 単語・文書行列と類似度 . . . 11 3.4.2 次元圧縮 . . . 12 3.5 潜在的ディリクレ配分法 . . . 15

3.5.1 Collapsed Gibbs Sampling . . . 17

3.6 クラスタリング . . . 19 4 提案手法 20 4.1 提案手法の構想 . . . 20 4.2 概要 . . . 22 4.3 名詞・動詞ペアの抽出 . . . 23 4.3.1 動詞V の抽出 . . . 23 4.3.2 名詞N の抽出 . . . 23 4.4 意見間の類似度の計算 . . . 25 4.5 単語間の類似度計算 . . . 26 4.5.1 日本語WordNetを用いた類似度 . . . 26 4.5.2 LSIを用いた類似度 . . . 27 4.6 名詞・動詞ペア間の類似度計算 . . . 28 4.6.1 名詞N どうしの類似度 . . . 29 4.6.2 動詞V どうしの類似度 . . . 29 4.7 クラスタリング . . . 30

(4)

5 評価実験 31 5.1 実験材料 . . . 31 5.2 実験手順 . . . 32 5.3 評価指標 . . . 33 5.4 比較手法 . . . 36 5.4.1 LSI法 . . . 36 5.4.2 LDA法 . . . 36 5.4.3 MVSC法 . . . 37 5.5 パラメータについて . . . 39 5.5.1 Leave-one-out交差検定 . . . 39 5.6 実験結果 . . . 41 6 考察 44 6.1 有用性の評価 . . . 44 6.1.1 名詞・動詞ペアの利用について . . . 45 6.1.2 複合名詞の利用について . . . 47 6.2 日本語WordNet・LSIを用いた単語間類似度について . . . 50 6.3 エラー分析 . . . 51 6.3.1 名詞・動詞ペア間の類似度計算について . . . 51 6.3.2 名詞・動詞ペアの抽出について . . . 52 6.4 修飾語の種類について . . . 54 6.5 正解クラスタ群について . . . 57 7 ツイートへの応用 60 7.1 マイクロブログサービス . . . 61 7.2 関連研究 . . . 62 7.3 意見ツイートのクラスタリング手法 . . . 63 7.3.1 ツイートへの前処理 . . . 64 7.3.2 関連ツイートの抽出 . . . 65 7.3.3 名詞・動詞ペアの抽出 . . . 66

(5)

7.4 評価実験 . . . 69 7.4.1 比較手法 . . . 69 7.4.2 実験結果 . . . 70 7.5 考察 . . . 72 7.5.1 関連ツイートと名詞・動詞ペアの有用性 . . . 72 7.5.2 エラー分析 . . . 74 8 おわりに 76 参考文献・謝辞 77 付録A 図6.1におけるF値とパラメータ 80 付録B 図6.2におけるF値とパラメータ 81 付録C 評価実験に用いた意見のサンプル 82 C.1 トピック「原発」 . . . 82 C.2 トピック「TPP」 . . . 84 C.3 トピック「STAP細胞」. . . 86 C.4 トピック「人口問題」 . . . 88 付録D 人手により生成された正解クラスタ群のサンプル 90 D.1 トピック「原発」 . . . 90 D.2 トピック「TPP」 . . . 92 D.3 トピック「STAP細胞」. . . 94 D.4 トピック「人口問題」 . . . 96 付録E 提案手法により生成されたクラスタ群のサンプル 98 E.1 トピック「原発」 . . . 98 E.2 トピック「TPP」 . . . 100 E.3 トピック「STAP細胞」. . . 103 E.4 トピック「人口問題」 . . . 105

(6)

1

はじめに

Web上には様々な製品やサービスに関するレビューや,時事問題などに関する意見が存在し ている.このようなWeb上のレビューや意見が「肯定的・否定的なものなのか」,「どういった 評価項目・観点から述べられているのか」ということを知ることは,製品・サービスを利用する 上でも,時事問題について自身の意見の幅を広げる上でも非常に有用である.しかし,amazon *1や楽天*2などに代表されるショッピングサイトにおける商品レビューの充実や,Twitter*3

Facebook*4などに代表されるマイクロブログサービスやSNSSocial Networking Service)によ

る情報発信の容易さから,Web上には膨大な量のレビューや意見が存在しており,すべてに目を 通して,得たい情報を探し出すのは多大なる労力が必要である. そこで,Web上に存在するレビューや意見を抽出・整理することでユーザにとって有用な情報 を探し出す「意見マイニング」や「センチメント分析」の研究が多く行われている. これらの研究の多くは,あらかじめ評価項目が明確に決まっている製品やサービスに関する意 見・レビューを対象として,それらの評価項目や極性(positive/negative)に基づく意見分類・要

約を行っている[Pang 02, Turney 02, Hu 04, Liu 05].最近では,評価項目が明確ではない時事

問題などに関する意見に対しても,賛成・反対のようないくつかの立場に分類・要約する研究が 行われている[Oh 09, Paul 10, Scholz 12, Trabelsi 14].

しかし,あるトピックに関する意見集合には賛成・反対のような立場とは別に,様々な観点を 示す意見が混在している.例えば「原発(問題)」というトピックに関する意見には,「安全性」や 「エネルギー」,「健康」といった様々な観点を示す意見が含まれている.そのため,特定のトピッ クに関する意見を自動的に観点ごとに分類することで,観点ごとの意見を容易に把握・比較する ことができ,今まで気付かなかった新たな観点を発見する手がかりにもなる. このような観点に基づく意見分類の研究は,今までほとんど行われていない.Wikipediaの外 部情報を利用してあらかじめ用意した観点ごとに意見を分類する研究[横本 11]は行われている が,観点をあらかじめ決めるのが困難な場合も多い上に,外部情報に依存した観点が設定されて しまうという問題点もある.また,あらかじめ観点を用意することなく,意見を観点に基づいて 分類(クラスタリング)する研究[Luo 09, 鷹栖 13]も行われているが,観点の性質を活かしきれ *1http://www.amazon.co.jp/ *2http://www.rakuten.co.jp/ *3http://twitter.com/ *4http://www.facebook.com

(7)

そこで,本研究ではあらかじめ観点を用意せず,観点の差異を考慮して意見集合を観点ごとにク ラスタリングすることを目的とする.観点に基づく意見のクラスタリングには,意見どうしの類 似度を計算する必要がある.言語表現間の一般的な類似度計算には,BoW(Bag of Words) *5 プローチに基づくTF-IDF値*6などを用いたベクトル空間モデルが用いられるが,共通語を多く 含む意見どうしが同じ観点を示すものであるとは限らない.また,ある意見中のTF-IDF値が高 い単語が,その意見の観点を示すとは限らない.そこで本研究では,文脈情報,とりわけ名詞と 動詞の係り受け関係を考慮して,意見を観点ごとにクラスタリングする手法を提案する. *5単語の並びなどを考慮せず,文書中で単語が出現した頻度のみを考慮するモデル *6特定の文書に多く出現する単語を重要度が高いとみなす手法

(8)

2

関連研究

意見マイニングの分野では,評価項目や評価軸が明確である製品やサービスなどを対象と

して,複数の意見やレビューをセンチメント(positive/negative)に基づいて分類する研究

[Pang 02,Turney 02,Liu 12]が多く行われている.これらの研究では,文中に出現した単語の頻 度や,製品などの評価に用いられる特徴的な単語の有無などを分類に用いる素性としている.

本研究の対象でもある時事問題などに対する意見を分類する研究も近年行われている.Ohら

[Oh 09]は,政治問題について述べられたブログ記事を対象に,単語単位のn-gramや単語の共起

を素性として,記事を「賛成」や「反対」というグループに分類している.Ohらと同様に意見

を賛成や反対といったグループに分類するその他の研究[Anand 11,Paul 10,Somasundaran 10,

Scholz 12, Trabelsi 14]では,単語の極性や係り受け関係,助動詞(shouldやoutghtなど)など を素性として分類に用いている.これらの研究では,意見を賛成・反対といった立場に分類する ことが目的であり,意見の観点に基づいた分類をしていない.また,これらの研究の中には単語の 係り受け関係を分類に用いているものもあり,本研究においても単語の係り受け関係を用いるが, 関連研究では,単語の品詞を考慮せずそのまま素性として用いている一方,本研究では,係り受け 関係の中でも名詞と動詞の係り受け関係を考慮するという点において,これらの研究とは異なる. 意見を観点ごとに分類する研究としては,横本ら[横本 11]の研究がある.この研究では,ユー ザの意見が述べられたブログ記事を対象として,Wikipediaの情報を用いて記事集合を観点ごとに 分類する手法を提案している.分類に用いる観点として,トピックを表す話題語を含むWikipedia 記事集合を取得し,それらの記事タイトルの中で分類対象のブログ記事に多く出現するものを用 いている.しかし,この手法では,Wikipediaの記事タイトルに出現しない観点を設定すること ができず,それが原因で対象のブログ記事集合の分類に適した観点集合を設定できない可能性が ある.さらに,ブログ記事中に含まれる単語が直接観点になるとは限らないという問題点もある. 本研究と同様に,意見をクラスタリングする研究としては,Luoら[Luo 09]と鷹栖ら[鷹栖 13] がある.Luoらは,文中に含まれる単語や句の出現頻度をもとにTF-PDF値というTF-IDF値 を改良した重み付け手法を用いて,意見が述べられたWebページ集合に対してクラスタリング を行っている.最終的にはクラスタリングによって得られた各クラスタを観点とみなして,クラ スタごとに意見の賛成・反対を求めることによって,トピックに関する意見の特徴を探ることを 目的としている.しかし,TF-PDF値自体は観点の特徴や差異を考慮した重み付け手法ではない 上に,クラスタリング手法自体も一般的な BoWに基づいた手法に過ぎない.また,鷹栖らは,

(9)

りにある意見に関連したツイートを利用して,意見ツイートのクラスタリングを行っている.鷹 栖らの研究では観点に基づいたクラスタリングを目指しているものの,観点の性質を活かしきれ ていないという問題点がある.以上のことから,観点の性質を活かした意見のクラスタリング手 法を提案した研究は今までに行われていない. 一般的な文書クラスタリングの研究において,単語どうしの結びつき(共起語)を考慮した文 書クラスタリング手法が,小熊ら[小熊 05]や村上ら[村上 07]によって提案されている.本研究 においても,名詞と動詞という単語の結びつきを考慮するが,これらの研究では,1文書内に共起 する単語の情報を利用しているだけであり,係り受け関係などの文脈情報までは利用していない. 係り受け関係を用いてクラスタリングを行う研究では,類義語発見のために単語をクラスタリ ングすることを目的とした研究[真野 08, 風間 09]が多く,文書をクラスタリングすることを目的 とした研究は行われていない.

(10)

3

要素技術

本章では,本研究および評価実験で用いる要素技術について述べる.

3.1

形態素解析

日本語における形態素解析とは,与えられた語句または文を形態素(単語)に分割することで ある.形態素とは,意味を持つ最小単位の語のことを指す. 小さい燃料から電力を作ることができるので賛成です。 例えば,以上のような文に対して形態素解析を行うと,以下のように分割される. 小さい/燃料/から/電力/を/作る/こと/が/できる/の/で/賛成/です/。 (スラッシュ/は区切り文字である) 本研究では,形態素解析にMeCab(ver.0.996)*7を利用する.MeCabでは分割した単語に品詞 情報などが付加される.例えば,先ほどの例文をMeCabにかけると,以下のような結果が得られ る.なお,解析の辞書にはUniDic(ver.2.1.2)*8を用いる.   小さい 形容詞,一般,*,*,形容詞,連体形-一般,小さい,小さい,チイサイ,チーサイ 燃料  名詞,普通名詞,一般,*,*,*,燃料,燃料,ネンリョウ,ネンリョー から  助詞,格助詞,*,*,*,*,から,から,カラ,カラ 電力  名詞,普通名詞,一般,*,*,*,電力,電力,デンリョク,デンリョク を   助詞,格助詞,*,*,*,*,を,を,ヲ,オ 作る  動詞,一般,*,*,五段-ラ行,連体形-一般,作る,作る,ツクル,ツクル こと  名詞,普通名詞,一般,*,*,*,事,こと,コト,コト が   助詞,格助詞,*,*,*,*,が,が,ガ,ガ できる 動詞,非自立可能,*,*,上一段-カ行,連体形-一般,出来る,できる,デキル,デキル の   助詞,準体助詞,*,*,*,*,の,の,ノ,ノ で   助動詞,*,*,*,助動詞-ダ,連用形-一般,だ,で,ダ,デ 賛成  名詞,普通名詞,サ変可能,*,*,*,賛成,賛成,サンセイ,サンセー です  助動詞,*,*,*,助動詞-デス,終止形-一般,です,です,デス,デス 。   補助記号,句点,*,*,*,*,。,。,*,*   *7http://mecab.sourceforge.net/ *8http://sourceforge.jp/projects/unidic/

(11)

3.2

構文解析(係り受け解析)

日本語における構文解析(係り受け解析)とは,文中の文節の係り受け構造を発見することで ある. 本研究では,構文解析にCaboCha(ver.0.67)*9を利用する.前節で挙げた例文をCaboCha かけると,以下のような係り受け構造が得られる.なお,解析の品詞体系モデルにはMeCabと同 様にUniDicを用いる.   小さい └燃料から  │電気を  └┴作る    └ことが     └できるので      └賛成です。   CaboChaでは,以下のように係り受け構造とMeCabによる形態素解析の結果を合わせて出力 することができ,本研究では,この出力された情報を利用する.   * 0 1D 0/0 1.056797 小さい 形容詞,一般,*,*,形容詞,連体形-一般,チイサイ,小さい,小さい,チーサイ,小さい,チーサイ,和,*,*,*,* * 1 3D 0/1 1.057218 燃料 名詞,普通名詞,一般,*,*,*,ネンリョウ,燃料,燃料,ネンリョー,燃料,ネンリョー,漢,*,*,*,* から 助詞,格助詞,*,*,*,*,カラ,から,から,カラ,から,カラ,和,*,*,*,* * 2 3D 0/1 2.633533 電力 名詞,普通名詞,一般,*,*,*,デンリョク,電力,電力,デンリョク,電力,デンリョク,漢,*,*,*,* を 助詞,格助詞,*,*,*,*,ヲ,を,を,オ,を,オ,和,*,*,*,* * 3 4D 0/0 1.894854 作る 動詞,一般,*,*,五段-ラ行,連体形-一般,ツクル,作る,作る,ツクル,作る,ツクル,和,ツ濁,基本形,*,* * 4 5D 0/1 1.954887 こと 名詞,普通名詞,一般,*,*,*,コト,事,こと,コト,こと,コト,和,コ濁,基本形,*,* が 助詞,格助詞,*,*,*,*,ガ,が,が,ガ,が,ガ,和,*,*,*,* * 5 6D 0/2 1.954887 できる 動詞,非自立可能,*,*,上一段-カ行,連体形-一般,デキル,出来る,できる,デキル,できる,デキル,和,*,*,*,* の 助詞,準体助詞,*,*,*,*,ノ,の,の,ノ,の,ノ,和,*,*,*,* で 助動詞,*,*,*,助動詞-ダ,連用形-一般,ダ,だ,で,デ,だ,ダ,和,*,*,*,* * 6 -1D 0/1 0.000000 賛成 名詞,普通名詞,サ変可能,*,*,*,サンセイ,賛成,賛成,サンセー,賛成,サンセー,漢,*,*,*,* です 助動詞,*,*,*,助動詞-デス,終止形-一般,デス,です,です,デス,です,デス,和,*,*,*,* 。 補助記号,句点,*,*,*,*,,。,。,,。,,記号,*,*,*,*   *9http://code.google.com/p/cabocha/

(12)

3.3

日本語

WordNet

日本語WordNet*10とは,日本語の概念辞書である.英語のWordNet *11がベースとなってお り,WordNetには図3.1のように単語間の上位・下位概念関係が階層構造で記述されている.日 本語WordNetでは,日本語の単語が英語WordNet内の英単語と紐づけて記述されており,構造 としては英語WordNetも日本語WordNetも全く同じである. 個々の概念はそれぞれ「synset」という単位で表現され,それらが他のsynsetと結びつく形に なっている.この階層構造(層の深さや各synsetに属する単語数など)を用いることで,単語間 の概念類似度を計算することができる.

lemon

orange

citrus fruit

edible fruit

apple

procedure

beverage

cocoa

food

solid

exporter

businessperson

capitalist

person

substance

life form

entity

図3.1 WordNetの階層構造例

*10http://nlpwww.nict.go.jp/wn-ja/ *11http://wordnet.princeton.edu/

(13)

3.4

潜在意味インデキシング

潜在意味インデキシング(Latent Semantic Indexing; LSI)[Deerwester 90]は,文書検索にお いて頻繁に用いられる手法で,高次元の単語・文書行列を低次元の空間(行列)へ射影すること により,検索の精度や速度を改善することができると報告されている. 3.4.1 単語・文書行列と類似度 今,以下のような単語・文書行列M があるとする. M =          d1 · · · dj · · · dn w1 f11 · · · f1j · · · f1n .. . ... . .. ... . .. ... wi fi1 · · · fij · · · fin .. . ... . .. ... . .. ... wm fm1 · · · fmj · · · fmn          なお,fij は単語wiが文書dj に出現した頻度を示す. 行列M から,単語wi の特徴ベクトルwiと文書dj の特徴ベクトルdj は,それぞれ以下のよ うに表現される. wi = (fi1,· · · , fij,· · · , fin) dj = (f1j,· · · , fij,· · · , fmj)T この特徴ベクトルを用いて単語どうしや文書どうしの類似度を計算することができる.例えば, 次の4つの文書から,「車」と「自動車」という2つの単語の類似度を計算することを考える. 1. 大学には車で行きます。 2. 大学には自動車で行きます。 3. 大学には自転車で行きます。 4. 調布には自転車で行きます。 まず,これら4つの文書から自立語*12を抽出し,それらの出現頻度を保持するような単語・文 書行列M を得る. *12名詞や動詞など,それだけで意味を持つ単語

(14)

M =           d1 d2 d3 d4 大学 1 1 1 0 車 1 0 0 0 行く 1 1 1 1 自動車 0 1 0 0 自転車 0 0 1 1 調布 0 0 0 1           このとき,「車」と「自動車」の特徴ベクトルは以下のように表される.(便宜的に「車」と「自 動車」の特徴ベクトルをそれぞれw2, w4 とする) w2 = (1, 0, 0, 0) w4 = (0, 1, 0, 0) そして,コサイン類似度を用いると単語どうしの類似度は以下のように計算することができる. sim (車,自動車) = cos(w2, w4) = w2· w4 |w2||w4| = 0 1× 1 = 0 しかし,上の計算結果からも分かる通り,このままでは2つの単語の類似度は0になってしま う.これは,2 つの単語が共通して出現する文書がないためである.この2つの単語以外にも, 「自動車」と「自転車」なども同様に類似度が0になってしまう. このような問題に対処する方法が,潜在意味インデキシング(LSI)である.LSIでは,高次元 の行列を低次元に次元圧縮し,単語の持つ意味や概念を考慮した意味空間を構築することで,類 似度計算を行えるようにする. 3.4.2 次元圧縮 高次元空間の次元圧縮は,自然言語処理の分野だけでなく画像処理など多くの分野で用いられ ている. 特に自然言語処理の潜在意味インデキシング(LSI)における高次元空間の次元圧縮には,一般

的に特異値分解(Singular Value Decomposition; SVD)が用いられる.

今,階数rm× nの行列M に対する特異値分解は次のように定義される.

M = U ΣVT (3.1)

(15)

Σ = ( S Or,n−r Om−r,r Om−r,n−r ) (3.2) S = diag(σ1, σ2,· · · , σr), 1 ≥ σ2 ≥ · · · ≥ σr ≥ 0) (3.3) 行列Sは式(3.3)のような対角行列であり,その要素σi は行列M の特異値と呼ばれる. LSIによる次元圧縮には2種類の方法がある.1つは「もとの行列の次元数はそのままで階数を 削減する」方法である.もう1つは「もとの行列の次元数自体を削減する」方法である. 階数の削減による次元圧縮 特異値分解により行列M から得られた各行列(U, Σ, V)に対し,UVk + 1列目(k < r) 以降を削除した行列をUk, Vkとし,Σのk + 1行目とk + 1列目以降を削除した行列(式(3.3)に おいて対角要素,すなわち特異値をk 個まで取ったときの行列S と同義)をΣkとしたとき,式 (3.4)のように,これらの行列を掛けあわせることで行列Mk 次元に近似することができる. M ≃ Mk = UkΣkVkT (3.4) 近似された行列Mkを「意味空間」と呼び,この行列の行(単語)ベクトルを見ることで,単語 どうしの意味的な類似度を計算することができる. 次元数の削減による次元圧縮 式(3.5)のように,行列Vk + 1列目(k < r)以降を削除した行列Vkを使うことで,行列 Mk次元に近似することができる. Mk= M ( VkT)T = M Vk (3.5) また,式(3.6)のように,行列Uk + 1列目(k < r)以降を削除した行列Ukと,行列Σの 特異値をk個まで取った行列Σk を掛けあわせることでも,k次元に近似することができる. Mk = UkΣk (3.6) 式(3.5)と式(3.6)におけるMkは,それぞれ異なるものを示しているように見えるが,式(3.4) を用いることで同じものだと分かる.(式(3.7))

(16)

M Vk ≃ MkVk =(UkΣkVkT ) Vk (∵式(3.4)) = UkΣkIk ( ∵ VT V = I ⇐⇒ VkTVk = Ik ) = UkΣk (3.7) 前節で例示した単語・文書行列M を階数の削減により次元圧縮を行うことを考える.例えば, 次元圧縮後の次元数kk = 2としたとき,行列M は次のように近似される. M2 = U2Σ2V2T =          −0.55237 −0.44178 −0.17714 −0.27430 −0.70034 0.07200 −0.17714 −0.27430 −0.34604 0.62061 −0.14797 0.51379          ( 2.84104 0. 0. 1.53233 )   −0.50328 −0.42033 −0.50328 −0.42033 −0.56273 0.16369 −0.42039 0.78730     T =          1.07436 1.07436 0.77229 0.12675 0.42997 0.42997 0.21441 −0.11934 0.95501 0.95501 1.13774 0.92332 0.42997 0.42997 0.21441 −0.11934 0.09506 0.09506 0.70891 1.16202 −0.11934 −0.11934 0.36544 0.79657          もとの行列M と比べて,ゼロ要素がなくなったことが分かる.このとき,2次元に次元圧縮し た「車」と「自動車」の特徴ベクトルw2(2), w(2)4 は以下のように表される. w(2)2 = (0.42997, 0.42997, 0.21441,−0.11934) w(2)4 = (0.42997, 0.42997, 0.21441,−0.11934) これらの特徴ベクトルから単語どうしの類似度simk=2 をコサイン類似度により計算すると, simk=2(車,自動車) = cos ( w2(2), w(2)4 ) = w (2) 2 · w (2) 4 w(2) 2 w (2) 4 = 0.42997 0.65572× 0.65572 = 1.0 このように,次元圧縮を行うことで単語どうしの類似度をより適切に計算することができる. ここまでは,単語どうしの類似度計算という観点からLSIの説明を述べてきたが,文書どうし の類似度も同様に計算することができる.

(17)

3.5

潜在的ディリクレ配分法

潜在的ディリクレ配分法(Latent Dirichlet Allocation; LDA)とは,Bleiら[Blei 03]によっ て提案されたトピックモデルであり,このモデルは「文書は複数の潜在的なトピックからなる単 語で構成されている」という仮定に基づいている. LDAでは,文書におけるトピックの出現確率と,各トピックにおける単語の出現確率を多項分 布で仮定し,仮定した多項分布にディリクレ分布を用いることで,トピックの推定を可能にして いる. LDAによる文書のトピックモデルの生成過程は次の通りである. 1. 文書d におけるトピックの出現確率分布(多項分布)θd をDirichlet 事前分布から選択 する. θd ∼ Dirichlet(α) Dirichlet分布とは,「あるn個の事象についてi番目の事象がαi− 1回観測された場合に, その事象の生起確率がxiである」ということを示した確率分布のことである.つまり,大 まかに言ってしまえば,確率分布の確率分布である. 2. 文書dに含まれる単語wiについて (a)多項分布θd から単語wiのトピックziを選択する. zi ∼ Mlutinomial(θd) (b)トピックzi における単語の出現確率分布(多項分布)から,単語wiを選択する. wi ∼ p (wi|zi, β) なお,αはDirichlet事前分布のパラメータであり,β はトピックモデルのパラメータである.こ のとき,LDAのグラフィカルモデルは図3.2のようになる. 以上のことから,文書dの生成確率は次のように表される.なお,Ndは文書dに含まれる単語 の数を示す. p (d|α, β) =p (θd|α) (N di=1zi p (zi|θd) p (wi|zi, β) ) dθd (3.8)

(18)

𝛼

𝜃

𝑧

𝑤

𝛽

𝑁

𝑑

𝑀

図3.2 LDAのグラフィカルモデル また,M 個の文書からなる文書集合Dの生成確率は式(3.9)のようになる. p (D|α, β) = Md=1 p (d|α, β) (3.9) LDAでは式(3.10)のように,式(3.9)の対数を取ったものを最大化するようなパラメータθd, z の推定を行い,トピックの選択(推定)を行う. log p (D|α, β) = log (Md=1 p (d|α, β) ) = Md=1 log p (d|α, β) (3.10) 文書dに含まれる単語集合w|w| = Nd)のトピック推定にはp (θd, z|w, α, β)を求めること になる.しかし,式(3.11),(3.12)のように,p (θd, z|w, α, β)の計算には,p (w|α, β)を計算しな ければならず,θdの積分やziの和を直接計算することはできない. p (θd, z|w, α, β) = p (θd, z, w|α, β) p (w|α, β) (3.11) p (w|α, β) =p(θd|α) (N di=1zi p(zi|θd)p(wi|zi, β) ) dθd (3.12) この問題に対処するためBleiらは変分ベイズ法を用いてp (θd, z|w, α, β)を別の確率分布に近 似し,EMアルゴリズムを用いてパラメータを推定している.(詳細は文献[Blei 03]を参照.) 本研究では,トピック推定における計算の簡略化を図るため,パラメータの推定にCollapsed

Gibbs Samplingを用いる.また,トピックにおける単語の出現確率分布を予めDirichlet事前分

(19)

𝛼

𝜃

𝑧

𝑤

𝛽

𝑁

𝑑

𝑀

𝜙

𝐾

図3.3 Smoothed LDAのグラフィカルモデル wiはトピックzi における単語出現確率分布ϕzi から選択することになる. ϕzi ∼ Dirichlet(β) wi ∼ Multinomial(ϕzi) このことから,パラメータβαと同様にDirichlet事前分布のパラメータとなり,このよう

な確率分布の生成を行ったLDAを特にSmoothed LDAと呼ぶ.(Smoothed LDAのグラフィ

カルモデルを図3.3に示す.なお,図中のK はトピック数を指す.)

3.5.1 Collapsed Gibbs Sampling

Collapsed Gibbs Sampling(CGS)は,直接計算が困難な確率分布の代わりにそれを近似する ようなサンプル(データ)列を生成する手法である.具体的には,文書中の各単語に対して,予 めランダムなトピックを割り当てておき,各単語に関してトピックを逐次更新していくという流 れを取る.この更新を繰り返すことで,尤もらしいθϕを得ることができる. ある文書d中の単語wiに対するCGSの更新式(近似式)は次の通りである. p(zi = t|wi = m, z−i, w−i) Cd,t+ αtCd,t+ Kα Cm,t + βmCm,t+ V β (3.13) なお,z−iはトピック集合zからトピックziを除いたもの,w−iは単語集合wから単語wi を除 いたものを指す.また,Cd,j は文書dがトピックtに割り当てられた回数,Cm,t は単語mがト ピックtに割り当てられた回数,V は全単語数を指す. CGSによるθϕの推定結果は次のようになる.なお,θd,t は文書dにおけるトピックtの生

(20)

θd,t = Cd,t+ αtCd,t+ T α (3.14) ϕm,t = Cm,t+ βmCm,t+ V β (3.15) LDAでは,この推定されたパラメータθϕを用いて,トピックに基づく文書クラスタリング や単語クラスタリングを行うことができる.

(21)

3.6

クラスタリング

クラスタリングとは,データ解析手法の1つであり,あるデータ集合を事前知識(予め与えら れた分類基準など)なしに自動的に分類する教師なし機械学習手法のことである. 一般的に「分類」と呼ばれるものは,自然言語処理分野においては「分類(classification)」と 「クラスタリング(clustering)」に分けられる.前者の「分類(classification)」は教師あり機械学 習手法と呼ばれ,予め与えられた教師(正解)データをもとに分類基準を決め,その分類基準を用 いて教師データとは別のデータを分類するというものである.代表的な教師あり機械学習手法と して,決定木やNaive Bayes,SVM(Support Vector Machine),k-近傍法などがある.一方,後

者の「クラスタリング(clustering)」は,教師なし機械学習手法と呼ばれ,教師データなしに自動 的に分類基準を決めていき,データ集合を任意のグループに分割する(クラスタを生成する)とい うものである.クラスタリング手法は,非階層型クラスタリング手法と階層型クラスタリング手 法の大きく2つに分けられ,それぞれの代表的なものとしてk-means法やWard法などがある. 「分類」では予め分類項目が設定されていることから,どのデータがどの項目に分類されたかが 分かりやすいが,逆に分類項目を限定してしまったり教師データの作成コストが非常に高いとい うデメリットがある.一方で「クラスタリング」では,教師データが必要ないことや,分類項目 を限定することがないため,柔軟な分類を行うことができる.「クラスタリング」では,生成され たクラスタがどのような特徴を表しているか分からないというデメリットもあるが,本研究では 「予め観点を用意することなく,意見を観点ごとに分類する」という目的から「クラスタリング」 を行う. 本研究では,クラスタリングの中でも階層型クラスタリング手法を利用する.なお,階層型ク ラスタリング手法のアルゴリズムは以下の通りである. 1. 各要素を,それぞれ要素数1のクラスタとする. 2. クラスタどうしのクラスタ間距離を求める. 3. クラスタ間距離の最も小さいクラスタどうしを併合する. 4. クラスタリングの終了条件を満たしていれば終了する.満たしていなければ,手順 2に 戻る. 手順2のクラスタ間距離の計算には様々な手法が提案されており,本研究ではその中でもWard 法を用いる.

(22)

4

提案手法

4.1

提案手法の構想

従来用いられてきたBag of Words(BoW)アプローチに基づくクラスタリング手法は,トピッ

クを表す内容語(話題語)の共通性・類似性に基づいた文書(クラスタ)間の類似度を計算するた め,結果としてクラスタリング対象の文書集合に含まれるトピックを基準とした分類が行われる. したがって,本研究で対象とするような,ある特定のトピック(時事問題)に関する意見集合に対 してBoWアプローチに基づくクラスタリングを行うと,その結果はそのトピックのサブトピッ ク(トピックの下位概念)に基づく分類になりやすいと考えることができる. 一方,あるトピックに関する意見の観点そのものを表す語句は,意見中には陽に出現しにくい と考えられる.例えば,原発(問題)に対する意見の観点として,「安全性」や「エネルギー政 策」,「健康への影響」などが考えられる.これらは,原発(原子力発電所)の下位概念というより は,原発を議論するにあたっての視点であり,意見中に陽に述べられることは多くはない.よっ て,BoWアプローチに基づくクラスタリング手法をそのまま意見集合に適用したとしても,これ らの観点に基づく分類が行われる可能性は低い. 本研究では,このような観点の違いは,内容語(名詞)そのものの違いではなく,その使われ方 に反映されていると考える.より具体的には,名詞と動詞の係り受け関係,すなわち述語・項構 造の違いに反映されると仮定する.例えば,表4.1は原発(問題)に関する観点の異なる 2つの 意見の例を示している.これらの2つの意見は「燃料」という共通の名詞を含んでいるが,それ ぞれ「作る」と「消費する」という異なる動詞に係ることから,燃料のどのような側面が述べられ ているかが異なっている.「発電技術」という観点からはエネルギー源としての燃料が話題となっ ているのに対して,「発電コスト」という観点からは燃料の消費が話題となっており,このような 表4.1 トピック「原発」に対する観点の異なる意見の例 観点 意見 発電技術 原発の稼働には賛成です。原子力発電だと小さい 燃料 から電力を作ること ができるなんて知りませんでした。少資源の日本にとっては 消費 の少ない 原発の方がいい気がします。 発電コスト 火力発電だと電力の生成に多くの 燃料 を 消費する ことになります。円安で 輸入費もかかりますし、原発も選択肢の1つだと思います。

(23)

いると言える.そこで,文節の係り受け関係から名詞N と動詞V の名詞・動詞ペア⟨N, V ⟩を抽 出し,名詞N どうしの類似度ではなく名詞・動詞ペアどうしの類似度に基づいて意見どうしの類 似度を計算することで,観点の差異を考慮したクラスタリングが実現できると考える. さらに,名詞と動詞の係り受け関係を用いることによって,サ変可能名詞*13のような単語が文 中でどの品詞で用いられているかを考慮した類似度計算が可能となる.例えば,表4.1の2つの 意見には「消費」という語が含まれているが,この語は前者では名詞の,後者では動詞の機能を 担っている.しかし,一般的にBoWアプローチに基づく文書間類似度の計算手法では,このよ うな単語が文中で名詞として機能しているのか,動詞として機能しているのかを区別せずに利用 している.提案手法では,名詞と動詞の係り受け関係を考慮することで,単語が文中でどの品詞 で用いられているかを同定し,名詞N どうし,動詞V どうしの類似度を適切に計算できること が期待できる. *13「消費」や「開発」のように名詞の直後に動詞の「する」が付くことで動詞化するもの

(24)

4.2

概要

本研究で対象とする意見は,1つ以上の文から構成される短い文章である.提案手法では,ある 特定のトピック(時事問題)に関する意見の集合に対して,1つの意見に単一の観点が付与される と仮定して,排他的なクラスタリングを行う. 本研究で提案するクラスタリング手法の手順を以下に示す. 1. クラスタリングの対象となる意見集合の各意見に対して,そこに含まれるすべての名詞・ 動詞ペアを抽出する. 2. 各意見oiをそこに含まれる名詞・動詞ペア集合P (oi)で表現し,名詞・動詞ペア集合間の 類似度として,意見どうしの類似度を計算する. 3. 手順2で計算される意見どうしの類似度を用いて,Ward法による階層型クラスタリング を行う. 以降の4.3節と4.4節では,それぞれ手順1と手順2の詳細を述べる.

(25)

4.3

名詞・動詞ペアの抽出

各意見に対して,係り受け解析を行い,文節の係り受け関係から動詞の機能を担う語の抽出と 名詞の機能を担う語の抽出を行い,名詞・動詞ペア⟨N, V ⟩を抽出する. 4.3.1 動詞V の抽出 原則として,ある文節中で形態素解析により動詞と判断されたものをそのまま動詞として抽出 するが,文節中に非自立語扱いの動詞(「する」や「ある」など,それ自体で意味を持たない動詞) しか存在しない場合は,その文節に出現する名詞を動詞として抽出する.ただし,名詞が出現し ない場合には,非自立語扱いの動詞をそのまま動詞として抽出する. 例えば,「代替エネルギーを開発する」という文では,「開発する」という文節で「する」という 非自立語扱いの動詞が存在することから,名詞である「開発」が動詞として抽出される. 4.3.2 名詞N の抽出 4.3.1節で抽出された動詞を含む文節に係る文節Piに含まれる名詞N を抽出して,名詞・動詞 ペアを生成する. ただし,自立語W を含む文節Pj が文節Pi に係るとき,W が以下に示す条件を満たせば,名 詞N の修飾語とみなして複合名詞⟨W, N⟩を抽出する. ■自立語W が名詞の場合: W を含む文節Pj が,助動詞または助詞の「の」を伴って文節Pi に係るとき,W を修飾 語とする. ■自立語W が動詞の場合: W を含む文節Pj の終端がW であるとき,W を修飾語とする. ■自立語W が形容詞の場合: そのまま,W を修飾語とする. 例えば,「これからの自然の脅威に備える。」という文からは,図4.1のような係り受け構造が 得られる.なお,形態素解析上,名詞と判定された単語をN()で,動詞と判定された単語をV() で囲っている. このとき,名詞「自然」が助詞「の」を伴って名詞「脅威」に係ることから,自然, 脅威 と いう複合名詞が抽出される.また,名詞「脅威」は動詞「備える」に係ることから,最終的に

(26)

これからの └N(自然)の  └N(脅威)に   └V(備える)。   図4.1 係り受け構造の例1 N(原発)に └V(代わる)  └N(エネルギー)を   └N(開発)V(する)。   図4.2 係り受け構造の例2 ⟨⟨自然, 脅威⟩, 備えるという名詞・動詞ペアが抽出される. また,「原発に代わるエネルギーを開発する。」という文からは,図4.2のような係り受け構造 が得られる.このとき,まず,名詞「原発」が動詞「代わる」に係ることから,原発, 代わると いう名詞・動詞ペアが抽出される.また,動詞「代わる」はそれ自身が文節となり,名詞「エネル ギー」に係ることから,代わる,エネルギーという複合名詞が抽出される.加えて,名詞「エネ ルギー」が係る文節には名詞「開発」と動詞「する」が含まれるが,4.3.1節で述べたように,「する」 は非自立語扱いの動詞であるので,「開発」が動詞として抽出され,⟨⟨代わる, エネルギー⟩, 開発 という名詞・動詞ペアも抽出される.

(27)

4.4

意見間の類似度の計算

意見ox, oy に含まれる名詞・動詞ペアの集合をそれぞれPx ={⟨Ni, Vi⟩xi} , Py = { ⟨Nj, Vj⟩yj } とし,意見ox, oy の類似度simo(ox, oy)を式(4.1)で定義する. simo(ox, oy) = nvSimx+ nvSimy |Px| + |Py| (4.1) nvSimx = |Px| i=1 max j [ simnv ( ⟨Ni, Vi⟩xi,⟨Nj, Vj⟩yj )] nvSimy = |Py|j=1 max i [ simnv ( ⟨Ni, Vi⟩xi,⟨Nj, Vj⟩yj )] 上式において,simnv ( ⟨Ni, Vi⟩xi,⟨Nj, Vj⟩ y j ) は2つの名詞・動詞ペア⟨Ni, Vi⟩xi⟨Nj, Vj⟩ y j の類 似度を表している.したがって,nvSimxは,意見ox の各名詞・動詞ペア⟨Ni, Vi⟩xi に対する意見 oy の名詞・動詞ペア集合Py との最大類似度の和であり,nvSimy は逆に,意見oy の各名詞・動 詞ペア⟨Nj, Vj⟩yj に対する意見oxの名詞・動詞ペア集合Pxとの最大類似度の和である. 以降の節では,式(4.1)の計算に必要な名詞・動詞ペア間の類似度simnv の計算方法について 述べる.なお,simnv は名詞どうしや動詞どうしの類似度を用いて計算するため,まず4.5節で単 語間の類似度の計算方法について述べた後に,4.6節で名詞・動詞ペア間の類似度の計算方法につ いて述べる.

(28)

4.5

単語間の類似度計算

単語どうしの類似度計算には,日本語WordNetを用いた類似度と潜在意味インデキシング(以

下,LSI)[Deerwester 90]により構築した意味空間を用いた類似度を利用する.

単語wi, wj の日本語WordNetを用いた類似度をjwnw,LSIを用いた類似度をlsiw としたと き,wiwj の類似度simw(wi, wj)を式(4.2)で定義する. simw(wi, wj) = α× jwnw(wi, wj) + (1− α) × lsiw(wi, wj) (4.2) なお,α (0 ≤ α ≤ 1)は,jwnw とlsiw のどちらの類似度の影響を強くするかを示すパラメータ であり,その値が大きいほど日本語 WordNetを用いた類似度を重視することになる.ただし, wi, wj のどちらかが日本語WordNetに存在しない場合は,α = 0とする. 4.5.1 日本語WordNetを用いた類似度

日本語WordNetを用いた単語間の概念類似度は,Resnikの手法 [Resnik 95]を用いて計算す る.Resnikの手法では,単語wiwj の概念類似度jwnw を式(4.3)のように定義している. jwnw(wi, wj) = max ck∈S1(wi) cl∈S1(wj) [simc(ck, cl)] (4.3) S1(wi), S1(wj)は,それぞれ単語wi, wj を含む概念(synset)の集合を指す.このとき,概念ckclの類似度simc(cl, ck)は式(4.4)より計算される. simc(ck, cl) = max c∈S2(ck,cl) [− log p(c)] (4.4) 式(4.4)におけるS2(ck, cl)は,概念ckclに共通する上位概念の集合を指す.なおp(c)は,概 念cのすべての下位概念の数を全概念数で割った値を求める関数である.ここでの全概念数とは, WordNetに登録されている全概念数117659のことである. ただし,式(4.4)のままでは類似度の最大値が1にならないことから,本研究では全概念数 N で正規化した式(4.5)を用いる. simc(ck, cl) = max c∈S2(ck,cl) [ −log p(c) log N ] (4.5)

(29)

4.5.2 LSIを用いた類似度 単語wiwj のLSIにより構築した意味空間を用いた類似度lsiw をコサイン類似度を利用し て式(4.6)のように定義する. lsiw(wi, wj) = 1 + cos ( u(d)i , u(d)j ) 2 = 1 2  1 + u (d) i · u (d) j u(d) i × u (d) i   (4.6) u(d)i , u(d)j は,クラスタリングの対象とするすべての意見に含まれる自立語の出現頻度を要素とし た単語・文書行列に対して,特異値分解を用いて行列の次元数をdに次元圧縮を施した後の単語 wi, wj の特徴ベクトルを示している.また,コサイン類似度は2つのベクトルがなす角度のコサ インを求めることに相当するので,その値が取る範囲は-1∼1となる.そのため,式(4.6)では単 語間の類似度が0∼1の範囲の値を取るようにスケール調整を行っている.

(30)

4.6

名詞・動詞ペア間の類似度計算

2つの名詞・動詞ペア⟨Ni, Vi⟩i,⟨Nj, Vj⟩j 間の類似度simnv を名詞Ni, Nj の類似度simn と動 詞Vi, Vj の類似度simv から式(4.7)で定義する. simnv(⟨Ni, Vi⟩i,⟨Nj, Vj⟩j) = simn+ ( (1− λ) + λ(simn)2 ) × simv (4.7) 式(4.7)は,simn と係数付きのsimv の和を取る形になっている.simnvの計算式を式(4.7) とし

た理由は,simnが小さければsimv の大小に関わらず2つの名詞・動詞ペア⟨N, V ⟩が異なる内容

を表す可能性が高く,simnv を小さくする必要があると考えたからである.そのため,simn が大

きくなるほどsimv がsimnv に与える影響が大きくなるように,simv の係数が設定されている.

λはその影響度合いを示すパラメータであり,その値が大きくなるほどsimnとsimv がより連動 したsimnv が計算される. 図4.3はλ = 2/3における式(4.7)を表したグラフであり,先述した通り,simnが大きくなる ほどsimv がsimnv に与える影響が大きくなっている(グラフの傾きが大きくなっている). 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 simnv simn simv simnv 0 0.5 1 1.5 2 図4.3 λ = 2/3における式(4.7)の3次元グラフ

(31)

4.6.1 名詞N どうしの類似度 名詞Ni, Nj 間の類似度simnは,Ni, Nj それぞれが単一の名詞である場合と修飾語を含む複合 名詞である場合とで計算方法が異なる. ■NiNj が単一名詞の場合: 4.5節で定義した式(4.2)で計算する. ■NiNj の片方のみが複合名詞の場合: Niが複合名詞⟨Ni,1, Ni,2⟩(すなわち,Nj は単一名詞)とすると,式(4.8)のようにNiに 含まれる修飾語Ni,1Nj 間,被修飾語(主辞名詞)Ni,2Nj 間の類似度を式 (4.2)で 計算し,パラメータβ (0≤ β ≤ 1)を用いて和を取る.

simn(Ni, Nj) = β× simw(Ni,1, Nj) + (1− β) × simw(Ni,2, Nj) (4.8)

NiNj の両方が複合名詞の場合:

複合名詞Ni =⟨Ni,1, Ni,2⟩Nj =⟨Nj,1, Nj,2⟩に対して,式(4.9)のように,両複合名詞

に含まれる修飾語どうし,被修飾語どうしの類似度を式(4.2)で計算し,式(4.8)と同じパ

ラメータβを用いて和を取る.

simn(Ni, Nj) = β× simw(Ni,1, Nj,1) + (1− β) × simw(Ni,2, Nj,2) (4.9) なお,式(4.8)と式(4.9)に共通するパラメータβ は,修飾語に基づく類似度が全体の類似度 に与える影響の度合いを示しており,その値が大きいほど修飾語による類似度の影響が強くなる.

したがって,β = 0とすると,修飾語を無視した主辞名詞のみの類似度を求めることになる.

4.6.2 動詞V どうしの類似度

(32)

4.7

クラスタリング

意見のクラスタリングには,階層型クラスタリング手法であるWard法を用いる.なお,初期 状態(各クラスタが各意見にあたる場合)のクラスタ間距離は,意見どうしの非類似度(距離)と なる.例えば,初期クラスタCx, Cy のクラスタ間距離は,意見ox, oy の非類似度に相当するの で,以下のように計算される. d(Cx, Cy) = d(ox, oy) = 2− simo(ox, oy) (4.10) ここで,2− simo(ox, oy)とした理由は,意見どうしの最大類似度が2(正確には名詞・動詞ペアど うしの最大類似度が2)だからであり,最大類似度からその類似度を引くことで非類似度となる. 4.7.1 Ward法 任意のクラスタCpCqの距離d(Cp, Cq)は,Ward法では以下のように定義される.

d(Cp, Cq) = E(Cp∪ Cq)− E(Cp)− E(Cq) (4.11)

なお,E(Ci)は次を満たす関数であり,ci はクラスタCi の重心ベクトルを指す. E(Ci) = ∑ x∈Ci (x− ci)2 (4.12) このように,クラスタ間の距離を計算する場合は,各クラスタ(または初期状態の各要素)が ベクトル空間で表現されている必要がある.しかし,提案手法においては各意見をベクトル空間 で表現することができないため,式(4.11) を用いてクラスタ間の距離を計算することができな い.そこで,提案手法ではLance-Williamsの更新式[Lance 67]を用いてクラスタ間の距離を計 算する. あるクラスタCp がクラスタCpa, Cpbが併合してできたものであるとき,クラスタCpCqの クラスタ間距離d(Cp, Cq)はLance-Williamsの更新式により以下のように計算される. d(Cp, Cq) = npa+ nq np+ nq d(Cpa, Cq) + npb+ nq np+ nq d(Cpb, Cq) nq np + nq d(Cpa, Cpb) (4.13) なお,niはクラスタCi に含まれる要素数である. Lance-Williamsの更新式を用いることで,各意見をベクトル空間で表現しなくとも,あらかじ めすべての意見どうしの距離を計算しておくことで直接クラスタリングすることができる.

(33)

5

評価実験

5.1

実験材料

評価実験には,あるトピックに関する意見を紹介するWebサイトや,ニュース記事やコラム (エッセイ)に対してユーザがコメントができるWebサイト*14 に掲載されている意見を用い,実 験者が予め選択した表5.1に示す4つのトピックに関する意見の中から40件ずつランダムに取得 した. 意見は1文以上から構成されるもので,4つのトピックの意見全体における1意見あたりの平 均文数は4.49文であった. 表5.1 実験に用いた意見のトピックと各トピックにおける平均文字数・文数 トピック 平均文字数 平均文数 原発 132 4.02 TPP 180 5.28 STAP細胞 148 4.48 人口問題 133 4.18 全体平均 148 4.49 *14http://blogos.com

(34)

5.2

実験手順

評価実験の手順は,以下の通りである. 1. 各トピックの意見集合に対して,3人の被験者により人手でそれぞれ観点ごとに意見がまと まるように分類を行ってもらうことで,各トピック3種類ずつ正解データを用意した. (a)まず,各意見ごとに,その意見が示す観点を列挙(付与)してもらった.この際,複数 の観点を示すと判断された意見については,観点を複数付与してもらった. (b)グループ間で意見が重複しないよう,似た観点を示す意見ごとにグループを作っても らい,最終的にそのグループとして尤もらしい観点を決めてもらった.なお,複数の 観点を示す意見については,被験者の判断により,その意見に最もふさわしい(その意 見で最も主張したいと思われる)観点を採用し,適宜グループを作ってもらった. 2. 各トピックごとに,人手による分類結果と同じ観点の数で,意見集合に対して提案手法を 用いてクラスタリングを行った.(クラスタリングの終了条件を「クラスタ数が人手による 分類結果と同じ観点の数になったとき」に設定した.) 3. 人手により生成された観点のグループ(以降,正解クラスタ群と呼ぶ)と提案手法により 生成されたクラスタ群の近さを評価指標として,クラスタリング精度を計算した.(評価指 標については次節で説明する.)

(35)

5.3

評価指標

提案手法により生成されたクラスタ群と人手により生成された正解クラスタ群がどの程度近 いかの指標として,再現率と適合率からなるF値を用いて評価を行った.F値の計算は折原ら [折原 08]と同様に,2つのクラスタ群でF値の総和が最大になるようなクラスタの組み合わせを 決定して計算した. 提案手法により生成されたクラスタ群をS = {S1,· · · , Sc}cはクラスタ数である),人手によ り生成された正解クラスタ群をL ={L1,· · · , Lc}としたとき,クラスタSiに含まれる意見の数 をsi,クラスタLj に含まれる意見の数をljSiLj の両方に含まれる意見の数を nij とする. このとき,任意のクラスタSiLj とのF値F (Si, Lj)は,再現率R(Si, Lj),適合率P (Si, Lj) から以下のように求まる. R(Si, Lj) = nij li (5.1) P (Si, Lj) = nij sj (5.2) F (Si, Lj) = 2× R(Si, Lj)× P (Si, Lj) R(Si, Lj) + P (Si, Lj) (5.3) 再現率Rは完全性を評価するための尺度であり,クラスタLj に含まれる意見の中でクラスタSi にも含まれる意見の割合を示す.適合率 P は正確性を評価するための尺度であり,クラスタSi に含まれる意見の中でクラスタLjにも含まれる意見の割合を示す.また,F値は再現率と適合率 の調和平均である. 例えば,図5.1のように,7つの意見が3つのクラスタ(観点)に分けられたとき,提案手法に より生成されたクラスタ群Sと正解クラスタ群Lの各クラスタ間のF値は表5.2のようになる. 𝑆1 𝑆2 𝑆3 𝐿1 𝐿2 𝐿3 𝑜1, 𝑜3 𝑜2, 𝑜6, 𝑜7 𝑜4, 𝑜5 𝑜1, 𝑜2 𝑜4, 𝑜6, 𝑜7 𝑜3, 𝑜5 提案手法による クラスタ群𝑺 人手による クラスタ群𝑳 図5.1 o1∼o7の7つの意見のクラスタリング例

(36)

L L1 L2 L3 S S1 0.50 0.00 0.50 S2 0.40 0.67 0.00 S3 0.00 0.40 0.50 𝑣𝑆1 𝑣𝑆2 𝑣𝑆3 𝑣𝐿1 𝑣𝐿2 𝑣𝐿3 提案手法による クラスタ群𝑽𝑆 人手による クラスタ群𝑽𝐿 𝑒11 𝑒12 𝑒13 𝑒21 𝑒22 𝑒23 𝑒31 𝑒32 𝑒33 𝑆1= {𝑜1, 𝑜3} 𝑆2= {𝑜2, 𝑜6, 𝑜7} 𝑆3= {𝑜4, 𝑜5} 𝐿1= {𝑜1, 𝑜2} 𝐿2= {𝑜4, 𝑜6, 𝑜7} 𝐿3= {𝑜3, 𝑜5} 図5.2 完全2部グラフK|S|,|L|の例 次に,提案手法により生成されたクラスタ群Sと正解クラスタ群Lをそれぞれ2つの頂点集合 VS, VLとし,それぞれの頂点 vSi, vLj をすべて結んだ完全2部グラフ*15K|S|,|L|(図 5.2)を得 る.なお,Eはそれぞれの頂点を結んだエッジeij の集合である. VS ={vS1, vS2,· · · , vSc} (5.4) VL ={vL1, vL2,· · · , vLc} (5.5) E ={(vSi, vLj)|vSi ∈ VS, vLj ∈ VL} (5.6) このとき各頂点は,それぞれのクラスタ群に含まれるクラスタに対応される.任意の頂点vSivLj(クラスタSiLj)を結ぶ辺の重みW (vSi, vLj)は式(5.7)のように,クラスタ間のF値 に全体の意見数n(図5.1で示した例にならえばn = 7)のうち正解クラスタLj に含まれる意見 数lj の割合を掛けて計算する. W (vSi, vLj) = lj nF (Si, Lj) (5.7) *15グラフ理論における2部グラフにおいて,片方の集合に属する各頂点から別の集合に属するすべての頂点に辺が伸 びているものを特に完全2部グラフという.

(37)

VL vL1 vL2 vL3 VS vS1 e11 = 0.14 e12 = 0.00 e13 = 0.14 vS2 e21 = 0.11 e22 = 0.29 e23 = 0.00 vS3 e31 = 0.00 e32 = 0.17 e33 = 0.14 𝑣𝑆1 𝑣𝑆2 𝑣𝑆3 𝑣𝐿1 𝑣𝐿2 𝑣𝐿3 提案手法による クラスタ群𝑽𝑆 人手による クラスタ群𝑽𝐿 𝑒11 𝑒12 𝑒13 𝑒21 𝑒22 𝑒23 𝑒31 𝑒32 𝑒33 𝑆1= {𝑜1, 𝑜3} 𝑆2= {𝑜2, 𝑜6, 𝑜7} 𝑆3= {𝑜4, 𝑜5} 𝐿1= {𝑜1, 𝑜2} 𝐿2= {𝑜4, 𝑜6, 𝑜7} 𝐿3= {𝑜3, 𝑜5} 図5.3 最大マッチング問題から得られるクラスタの組み合わせ 以上から得られた完全2部グラフの重み付き最大マッチング問題を解くことで,F値の総和が 最大になる組み合わせを決定し,そのときのF値の平均を最終的な評価値とした. 図5.1のような例のもとでは,頂点(クラスタ)間のエッジの重みは表5.3のようになることか ら,完全2部グラフの重み付き最大マッチング問題から得られるクラスタの組み合わせは図5.3 (黒の実線で繋がっているクラスタどうしの組み合わせ)のようになる.このとき,組み合わせを もとに表5.2から計算したF値の総和は1.67であるので,その平均である最終的な評価値として のF値は0.56となる.

(38)

5.4

比較手法

本研究で提案したクラスタリング手法が既存の手法に比べ,どの程度の性能を示すか調査する ために比較手法を用意した. 意見をクラスタリングする既存手法としては,Luoら[Luo 09]と鷹栖ら[鷹栖 13]の手法が挙 げられる.しかし,Luoらの手法は観点の差異や特徴を考慮したものではなく,得られたクラス タに含まれる特徴(肯定的・否定的など)を分析することに焦点をおいているため比較手法からは 除外した.(文献中の単語への重み付け方法,クラスタリングの流れ等の説明が不明瞭であったこ とも除外理由の1つである.)また,鷹栖らの手法は,Twitter上に存在する意見ツイートを対象 としたクラスタリングであるため,本研究の評価実験で扱う意見集合に適用することができない. そのため,意見集合に特化したものではない従来の文書クラスタリング手法になるが,比較手 法として,LSI法,LDA法,MVSC法の3つを用意した. 5.4.1 LSI法 LSI法は,一般的によく用いられるクラスタリング手法である.具体的には,意見に含まれる自 立語の出現頻度を素性とした単語・文書行列に対して次元圧縮を行い,得られた文書(意見)の 特徴ベクトルを用いてクラスタリングする方法である.意見どうしの類似度はコサイン類似度に より計算し,クラスタリングには提案手法と同様に階層型クラスタリング手法であるWard法を 用いた. 5.4.2 LDA法

LDA法は,LDA(Latent Direchlet Allocation; 潜在的ディリクレ配分法)[Blei 03]を用いて クラスタリングする方法である. LDAは,「1つの文書には複数のトピックからなる単語が含まれる」という仮定をもとにしたモ デルであるが,これを文書単位ではなく意見単位で考えると,「1つの意見には複数の観点からな る単語が含まれる」という仮定をもとにしたモデルとしてみなすこともできる.そのため,本研 究ではLDAを用いたクラスタリングを比較手法の1つとして用意した. LDAでは最終的に各文書におけるトピック生起確率分布(どのトピックがどの程度の割合で含 まれているかという分布)が推定される.これを先ほどの仮定から,各意見における観点の生起 確率分布とみなして,最も生起確率が高い(最も含まれる割合が高い)観点をその意見の観点と して採用することでクラスタリングを行った.

(39)

5.4.3 MVSC法 MVSC法は,Nguyenら[Nguyen 12]によって提案された非階層型クラスタリング手法である. あるクラスタCrに含まれる文書di, dj の正規化された(ベクトルの大きさを1とした)特徴ベ クトルをxi, xj としたとき,そのコサイン類似度は一般的に次のように原点を中心とした2つの ベクトルの成す角のコサインから計算される. sim(di, dj) = cos(xi, xj) = xi· xj |xi||xj| = xi· xj (5.8) 一方でNguyenらは,文書di, dj ∈ Cr間の類似度をクラスタCr 以外のクラスタに属する文書 dh の特徴ベクトルxhを中心とした2つのベクトルxi, xj が成す角からコサイン類似度を計算し ている. sim(di, dj|di, dj ∈ Cr) = 1 n− nrxh∈ ¯Cr cos(xi− xh, xj− xh) = 1 n− nrxh∈ ¯Cr (xi− xh)· (xj− xh) = 1 n− nrxh∈ ¯Cr xi· xj− (xi+ xj)· xh+ xh· xh (5.9) なお,nは全文書数,nr はクラスタCr に含まれる文書数を指す.また,特徴ベクトルは全て正 規化されたものであり,以降の説明においても同様である. Nguyenらは,この方法により計算した類似度を用いてクラスタリングを行っている.手順と しては,まずクラスタCr に含まれる全ての文書どうしで類似度の総和Irを計算する. Ir= ∑ di,dj∈Cr sim(di, dj) = ∑ xi,xj∈Cr 1 n− nrxh∈ ¯Cr xi· xj− (xi+ xj)· xh+ xh· xh = 1 n− nrxi,xj∈Crxh∈ ¯Cr {xi· xj− (xi+ xj)· xh+ xh· xh} (5.10) また,全文書の特徴ベクトルの総和をDとし,クラスタCr に含まれる文書の特徴ベクトルの総 和をDrとすることで,以下のような関係式を得ることができる.

図 3.1 WordNet の階層構造例
表 5.4 クラスタリングの評価実験結果(交差検定) トピック k F 値 パラメータの最適値 提案手法 LSI LDA MVSC 提案手法 LSI (α, β, λ, d p ) d c 原発 7 0.406 0.326 0.302 0.239 0.6, 0.6, 0.9, 25 25 9 0.424 0.339 0.227 0.299 0.9, 0.8, 0.9, 20 10 12 0.435 0.294 0.237 0.321 0.8, 0.7, 0.8, 15 25 平均 0.421 0.320 0
表 5.5 クラスタリングの評価実験結果(最大 F 値) トピック k 最大 F 値 パラメータ α β λ d p 原発 7 0.535 0.8 0.7 0.9 15 9 0.534 0.7 0.7 0.8 30 12 0.544 0.6 0.9 0.9 15 平均 0.538  -TPP 9 0.548 0.2 0.8 0.7 15100.5290.30.50.620 12 0.550 0.3 0.6 0.8 35 平均 0.542  -STAP 細胞 10 0.586 0.6 0.5 0.9 1511
表 6.1 図 6.3 における分割表 A 行合計 A 1 A 2 A 3 A 4 B B 1 1 0 0 1 2B 2 0 2 1 0 3 B 3 1 0 1 0 2 列合計 2 2 2 1 7 表 6.2 表 6.1 の期待値表 A 行合計 A 1 A 2 A 3 A 4 B B 1 4/7 4/7 4/7 2/7 2B 2 6/7 6/7 6/7 3/7 3 B 3 4/7 4/7 4/7 2/7 2 列合計 2 2 2 1 7 トピック ペア 連関係数 V原発A−B0.707A−C0.735B−C0
+2

参照

関連したドキュメント

学術関係者だけでなく、ヘリウム供給に関わる企業や 報道関係などの幅広い参加者を交えてヘリウム供給 の現状と今後の方策についての

帰ってから “Crossing the Mississippi” を読み返してみると,「ミ

【こだわり】 ある わからない ない 留意点 道順にこだわる.

だけでなく, 「家賃だけでなくいろいろな面 に気をつけることが大切」など「生活全体を 考えて住居を選ぶ」ということに気づいた生

本判決が不合理だとした事実関係の︱つに原因となった暴行を裏づける診断書ないし患部写真の欠落がある︒この

C :はい。榎本先生、てるちゃんって実践神学を教えていたんだけど、授

今日、お話しさせていただく内容ですけれども、まず、股関節の仕組み。それから股関

現を教えても らい活用 したところ 、その子は すぐ動いた 。そういっ たことで非常 に役に立 っ た と い う 声 も いた だ い てい ま す 。 1 回の 派 遣 でも 十 分 だ っ た、 そ