• 検索結果がありません。

提案手法により生成されたクラスタ群と人手により生成された正解クラスタ群がどの程度近 いかの指標として,再現率と適合率からなるF値を用いて評価を行った.F値の計算は折原ら [折原 08]と同様に,2つのクラスタ群でF値の総和が最大になるようなクラスタの組み合わせを 決定して計算した.

提案手法により生成されたクラスタ群をS ={S1,· · · , Sc}cはクラスタ数である),人手によ り生成された正解クラスタ群をL={L1,· · · , Lc}としたとき,クラスタSiに含まれる意見の数 をsi,クラスタLj に含まれる意見の数をljSiLj の両方に含まれる意見の数を nij とする.

このとき,任意のクラスタSiLj とのF値F(Si, Lj)は,再現率R(Si, Lj),適合率P(Si, Lj) から以下のように求まる.

R(Si, Lj) = nij li

(5.1) P(Si, Lj) = nij

sj

(5.2) F(Si, Lj) = 2×R(Si, Lj)×P(Si, Lj)

R(Si, Lj) +P(Si, Lj) (5.3) 再現率Rは完全性を評価するための尺度であり,クラスタLj に含まれる意見の中でクラスタSi

にも含まれる意見の割合を示す.適合率 P は正確性を評価するための尺度であり,クラスタSi

に含まれる意見の中でクラスタLjにも含まれる意見の割合を示す.また,F値は再現率と適合率 の調和平均である.

例えば,図5.1のように,7つの意見が3つのクラスタ(観点)に分けられたとき,提案手法に より生成されたクラスタ群Sと正解クラスタ群Lの各クラスタ間のF値は表5.2のようになる.

𝑆1 𝑆2 𝑆3

𝐿1 𝐿2 𝐿3

𝑜1, 𝑜3 𝑜2, 𝑜6, 𝑜7 𝑜4, 𝑜5

𝑜1, 𝑜2 𝑜4, 𝑜6, 𝑜7 𝑜3, 𝑜5

提案手法による クラスタ群𝑺

人手による クラスタ群𝑳

5.1 o1o77つの意見のクラスタリング例

L

L1 L2 L3

S

S1 0.50 0.00 0.50 S2 0.40 0.67 0.00 S3 0.00 0.40 0.50

𝑣𝑆1 𝑣𝑆2 𝑣𝑆3

𝑣𝐿1 𝑣𝐿2 𝑣𝐿3

提案手法による クラスタ群𝑽𝑆

人手による クラスタ群𝑽𝐿

𝑒11

𝑒12

𝑒13 𝑒21

𝑒22

𝑒23 𝑒31

𝑒32 𝑒33 𝑆1= {𝑜1, 𝑜3} 𝑆2= {𝑜2, 𝑜6, 𝑜7} 𝑆3= {𝑜4, 𝑜5}

𝐿1= {𝑜1, 𝑜2} 𝐿2= {𝑜4, 𝑜6, 𝑜7} 𝐿3= {𝑜3, 𝑜5}

5.2 完全2部グラフK|S|,|L|の例

次に,提案手法により生成されたクラスタ群Sと正解クラスタ群Lをそれぞれ2つの頂点集合 VS,VLとし,それぞれの頂点 vSi, vLj をすべて結んだ完全2部グラフ*15K|S|,|L|(図 5.2)を得 る.なお,Eはそれぞれの頂点を結んだエッジeij の集合である.

VS ={vS1, vS2,· · · , vSc} (5.4) VL ={vL1, vL2,· · · , vLc} (5.5) E={(vSi, vLj)|vSi VS, vLj VL} (5.6) このとき各頂点は,それぞれのクラスタ群に含まれるクラスタに対応される.任意の頂点vSi

vLj(クラスタSiLj)を結ぶ辺の重みW(vSi, vLj)は式(5.7)のように,クラスタ間のF値 に全体の意見数n(図5.1で示した例にならえばn= 7)のうち正解クラスタLj に含まれる意見 数lj の割合を掛けて計算する.

W(vSi, vLj) = lj

nF(Si, Lj) (5.7)

*15グラフ理論における2部グラフにおいて,片方の集合に属する各頂点から別の集合に属するすべての頂点に辺が伸 びているものを特に完全2部グラフという.

VL

vL1 vL2 vL3

VS

vS1 e11 = 0.14 e12 = 0.00 e13 = 0.14 vS2 e21 = 0.11 e22 = 0.29 e23 = 0.00 vS3 e31 = 0.00 e32 = 0.17 e33 = 0.14

𝑣𝑆1 𝑣𝑆2 𝑣𝑆3

𝑣𝐿1 𝑣𝐿2 𝑣𝐿3

提案手法による クラスタ群𝑽𝑆

人手による クラスタ群𝑽𝐿

𝑒11

𝑒12

𝑒13 𝑒21

𝑒22

𝑒23 𝑒31

𝑒32 𝑒33 𝑆1= {𝑜1, 𝑜3} 𝑆2= {𝑜2, 𝑜6, 𝑜7} 𝑆3= {𝑜4, 𝑜5}

𝐿1= {𝑜1, 𝑜2} 𝐿2= {𝑜4, 𝑜6, 𝑜7} 𝐿3= {𝑜3, 𝑜5}

5.3 最大マッチング問題から得られるクラスタの組み合わせ

以上から得られた完全2部グラフの重み付き最大マッチング問題を解くことで,F値の総和が 最大になる組み合わせを決定し,そのときのF値の平均を最終的な評価値とした.

図5.1のような例のもとでは,頂点(クラスタ)間のエッジの重みは表5.3のようになることか ら,完全2部グラフの重み付き最大マッチング問題から得られるクラスタの組み合わせは図5.3

(黒の実線で繋がっているクラスタどうしの組み合わせ)のようになる.このとき,組み合わせを もとに表5.2から計算したF値の総和は1.67であるので,その平均である最終的な評価値として のF値は0.56となる.