表6.1 図6.3における分割表
A 行合計
A1 A2 A3 A4
B
B1 1 0 0 1 2
B2 0 2 1 0 3
B3 1 0 1 0 2
列合計 2 2 2 1 7
表6.2 表6.1の期待値表
A
行合計 A1 A2 A3 A4
B
B1 4/7 4/7 4/7 2/7 2 B2 6/7 6/7 6/7 3/7 3 B3 4/7 4/7 4/7 2/7 2 列合計 2 2 2 1 7
トピック ペア 連関係数V
原発
A−B 0.707
A−C 0.735
B−C 0.789
平均 0.744
TPP
A−B 0.762
A−C 0.730
B−C 0.628
平均 0.707
STAP細胞
A−B 0.713
A−C 0.696
B−C 0.773
平均 0.727
人口問題
A−B 0.617
A−C 0.706
B−C 0.698
平均 0.674
該当行の合計と該当列の合計の積を総度数で割った値である.
このとき,表6.1および表6.2のセルA1B1の値をそれぞれ R(A1, B1), E(A1, B1) とすると,
χ2 値は次のように求まる.
χ2(A,B) =
∑|A|
i=1
∑|B|
j=1
(R(Ai, Bj)−E(Ai, Bj))2
E(Ai, Bj) ≃7.58 なお,|A|,|B|はそれぞれクラスタ群A,Bのクラスタ数を指す.
以上より,図6.3における作成者Aと作成者Bの連関係数V は式(6.1)から,以下のように求 まる.
V(A, B) =
√
7.58
7×(3−1) ≃0.736
されたクラスタ群と作成者Bにより作成されたクラスタ群は比較的一致していると言える.
以上から,本研究における正解データに対して計算した連関係数V を表6.3に示す.なお,表 中の「ペア」列は3名の作成者A〜C から2名を選んだときのペアを指す.
いずれのトピックおよびペアでも連関係数がおよそ0.7前後であったことから,作成者間でク ラスタリング結果にばらつきはあまりないと考えられる.
7 ツイートへの応用
本章では,マイクロブログサービスの1つであるTwitterに存在する意見(以下,意見ツイー ト)に対して,本研究における提案手法を適用した観点に基づくクラスタリング手法(以下,本手 法)について述べる.
本研究で提案した名詞・動詞ペアを用いることに変わりはないが,Twitterでは1ツイートあ たり140文字の字数制限があるため,意見ツイートどうしの類似度を計算するには情報量が少な く,適切にクラスタリングすることができないという問題点がある.そこで,意見ツイートどう しの類似度を適切に計算するのに十分な情報を得るために,意見ツイートに関連するユーザのツ イートを考慮し,意見の観点に基づいてクラスタリングを行う.
7.1 マイクロブログサービス
マイクロブログサービスの代表的なサービスとして,本章でも扱うTwitterがある.これらの マイクロブログサービスを従来のブログサービス(Yahooブログ*21など)と比較したとき,大き く分けて以下の3点の違いがある.
• リアルタイム性
• 字数制限
• follow(購読機能)
まず,マイクロブログサービスの特徴の1つとして,高いリアルタイム性が挙げられる.従来 のブログサービスでは長い文章量を持つ記事が投稿されることがあるため,ユーザによって投稿 時間に差が生じる場合がある.しかし,マイクロブログでは1日に何度も書き込まれることが一 般的であり,あるイベントやテレビ番組を見ている間にユーザが実況として逐次「つぶやき(ツ イート)」を投稿することが多い.
また,従来のブログサービスでは,文字数制限は特に設けられておらず,ユーザが書けるだけ 記事を書くことができる.しかし,マイクロブログサービスでは,文字数制限(Twitterの場合は 140字)が設けられており,ある出来事に対して一回の投稿で全てを記述することが困難となって いる.そのため,従来のブログサービスでは一回の投稿で済んでいた内容が,複数のツイートに よって構成されることがある.
Twitterでは,他のユーザをfollowすることでそのユーザのツイートを購読することができる.
これにより,ユーザは他のユーザのツイートをリツイート*22することができる.また,他のユー ザIDを参照(「@ユーザID」と表記される)することで,他のユーザと簡単にやりとり(リプラ イ)することができる.
*21http://blogs.yahoo.co.jp/
*22Eメールの転送にあたる機能