Twitterの感情抽出に基づく
フォロイー推薦
甲南大学大学院 自然科学研究科
知能情報学専攻 灘本研究室
21424010 山本 湧輝
2015年度修士論文発表
2016年2月13日
じめに
2
は
の基本的な使い方
気になるユーザをフォローする
⇒ そのユーザのツイートを見ることが出来るフォロイー
フォロー
ツイート
ーザをフォローする理由
3
ユ
趣味嗜好が似ているユーザ
・阪神ファン
好きな有名人
・SMAPのファン
現実世界での知人・友人
・大学の友達
様々な理由が存在する
ォローしたいユーザの発見
4
フ
今日は学校しんどいわろたwwwwでも今調べたら ポケモンの新作楽しい! 阪神負けたやん!めっちゃムカつく 就活ホンマ辛いフォロイー推薦
・ Twitterには
数多くのユーザが存在する
・ ツイートをすべて見るのは大変
自分に合ったフォロイーを
見つけるのは困難
来のフォロイー推薦
5
従
話題が同じ人を推薦する
阪神 阪神 阪神 阪神 阪神 阪神 閲覧ユーザ 推薦ユーザ1 推薦ユーザ2 従来のフォロイー推薦は 阪神 阪神 阪神来のフォロイー推薦の問題点
6
従
阪神頑張れ 阪神大好き 阪神いいね! 阪神負けろ 阪神むかつく 阪神に勝ちたい 阪神に対して 好意的なツイートをしている 阪神に対して 否定的なツイートをしている 閲覧ユーザ 推薦ユーザ1 推薦ユーザ2 阪神いいね! 阪神ファイト 阪神勝って!的
7
目
感情
話題
フォロイー推薦
阪神頑張れ 阪神大好き 阪神いいね! 阪神負けろ 阪神むかつく 阪神に勝ちたい 阪神に対して 好意的なツイートをしている 阪神に対して 否定的なツイートをしている 閲覧ユーザ 推薦ユーザ1 推薦ユーザ2 阪神いいね! 阪神ファイト 阪神勝って!案手法
8
提
共通の話題の抽出
感情
話題
フォロイー推薦
共通の話題に対する感情値算出
案手法
9
提
共通の話題の抽出
感情
話題
フォロイー推薦
共通の話題に対する感情値算出
• ツイートの感情抽出
• 話題における感情の類似度計算
案手法
10
提
共通の話題の抽出
感情
話題
フォロイー推薦
共通の話題に対する感情値算出
• ツイートの感情抽出
• 話題における感情の類似度計算
中間発表
共通の話題に対する感情値算出
案手法
11
提
共通の話題の抽出
感情
話題
フォロイー推薦
通の話題の抽出
12
共
1. 閲覧ユーザと推薦候補ユーザのツイートを取得
2. 二人のユーザのツイートを混ぜてクラスタリング
3. クラスタの中から共通の話題を抽出
目的:閲覧ユーザと推薦候補ユーザの共通の話題を抽出
通の話題の抽出
13
共
閲覧ユーザ 推薦候補ユーザ200ツイート
400ツイート
200ツイート
1. 閲覧ユーザと推薦候補ユーザのツイートを取得
2. 二人のユーザのツイートを混ぜてクラスタリング
3. クラスタの中から共通の話題を抽出
目的:閲覧ユーザと推薦候補ユーザの共通の話題を抽出
通の話題の抽出
14
共
1. 閲覧ユーザと推薦候補ユーザのツイートを取得
2. 二人のユーザのツイートを混ぜてクラスタリング
3. クラスタの中から共通の話題を抽出
目的:閲覧ユーザと推薦候補ユーザの共通の話題を抽出
人のユーザのツイートを混ぜてクラスタリング
15
二
混ぜ合わせた400ツイート →
クラスタリング
Repeated Bisection 法
閲覧ユーザ:200ツイート
推薦候補ユーザ:200ツイート
合計400ツイー
トを混ぜる
Repeated Bisection 法
短文のクラスタリングに向いている
クラスタの話題:中心ベクトルに最も近いトピック
阪神 ヒット 藤浪 大和クラスタ1
クラスタの話題:
阪神
通の話題の抽出
16
共
1. 閲覧ユーザと推薦候補ユーザのツイートを取得
2. 二人のユーザのツイートを混ぜてクラスタリング
3. クラスタの中から共通の話題を抽出
目的:閲覧ユーザと推薦候補ユーザの共通の話題を抽出
ラスタの中から共通の話題を抽出
17
ク
クラスタ2
閲覧ユーザ
推薦候補ユーザ
クラスタ1
クラスタ3
・・・・・
クラスタリングによって生成されたクラスタの全てが
共通の興味であるとは言えない
ラスタの中から共通の話題を抽出
18
ク
ツイート数の比率
ツイートの凝集性
2ユーザ共通の話題かどうか
クラスタの話題がまとまっているか
:
:
クラスタ2
閲覧ユーザ
推薦候補ユーザ
クラスタ1
クラスタ3
・・・・・
2ユーザのツイート数に偏りがあると
共通の話題とは言えない
イート数の比率
19
ツ
𝑅
𝑖:
ツイート数の比率
𝑋
𝑖:
ユーザXのツイート数
𝑌
𝑖:
ユーザYのツイート数
𝑅
𝑖=
|𝑋
𝑖− 𝑌
𝑖|
𝑋
𝑖+ 𝑌
𝑖ツイート数の比率が均等
クラスタ2
クラスタ1
ツイート数が偏っている
ため
共通な話題として相応しくない
ツイート数が均等
なので
共通な話題として相応しい
閲覧ユーザ
推薦候補ユーザ
Repeated Bisection 法は
ハードクラスタリングである
ガベージクラスタが生成される
イートの凝集性
20
ツ
ガベージクラスタの除外
相互に関連性のない ツイートが集まったクラスタ ガベージクラスタとはA
𝑖:ツイートの凝集性𝑐
𝑖:クラスタのセントロイド𝑥
:クラスタに含まれるツイート𝐴
𝑖=
𝑥∈𝐶𝑖(
𝑥 ∙ 𝑐
𝑖𝑥 |𝑐
𝑖|
)
クラスタ3
ツイート同士の
関係性が薄い為
共通な話題として相応しくない
ツイート同士の
関係性が濃い為
共通な話題として相応しい
クラスタ2
閲覧ユーザ
推薦候補ユーザ
ラスタの中から共通の話題を抽出
21
ク
ツイート数の比率
𝑅
𝑖=
|𝑋
𝑖− 𝑌
𝑖|
𝑋
𝑖+ 𝑌
𝑖ツイートの凝集性
𝐴
𝑖=
𝑥∈𝐶𝑖(
𝑥 ∙ 𝑐
𝑖𝑥 |𝑐
𝑖|
)
共通話題クラスタ
𝑅
𝑖: 𝑇
𝑅= 0.25
𝐴
𝑖: 𝑇
𝐴= 0.60
閾値以上のクラスタを抽出する
クラスタ2
閲覧ユーザ
推薦候補ユーザ
クラスタ1
クラスタ3
・・・・・
共通の話題に対する感情値算出
案手法
22
提
共通の話題の抽出
感情
話題
フォロイー推薦
通の話題に対する感情値算出
23
共
共通話題クラスタ
ツイートそれぞれの感情値を算出
→
→
→
→
→
→
感情値算出
感情値算出
感情値算出
感情値算出
感情値算出
感情値算出
感情語辞書
、
顔文字の役割
多次元の感情軸
を用いる
閲覧ユーザのツイート
推薦候補ユーザのツイート
喜・好 安 昂 哀 怖 怒・厭 驚 恥通の話題に対する感情値算出
24
共
共通話題クラスタ
ツイートそれぞれの感情値を算出
→
→
→
→
→
→
感情値算出
感情値算出
感情値算出
感情値算出
感情値算出
感情値算出
閲覧ユーザのツイート
推薦候補ユーザのツイート
中間発表
感情語辞書
、
顔文字の役割
多次元の感情軸
を用いる
喜・好 安 昂 哀 怖 怒・厭 驚 恥情に基づく類似度算出
25
感
𝑆 =
𝑖=1
𝑘
𝐴𝑆
𝑖
∙ 𝐵𝑆
𝑖
𝐴𝑆
𝑖
|𝐵𝑆
𝑖
|
𝑆:感情に基づく類似度
𝐴𝑆
𝑖:閲覧ユーザのi番目の
クラスタの感情ベクトル
B𝑆
𝑖:推薦候補ユーザのi番目の
クラスタの感情ベクトル
共通話題クラスタ
𝐴𝑆
𝑖B𝑆
𝑖閲覧ユーザのツイート
推薦候補ユーザのツイート
→
→
→
→
→
→
感情値算出
感情値算出
感情値算出
感情値算出
感情値算出
感情値算出
似度算出の例
26
類
喜・好 安 昂 哀 怖 怒・厭 驚 恥 閲覧ユーザ 20 3 12 3 4 3 3 5 推薦候補ユーザ1 20 4 11 4 3 3 5 3話題:阪神
喜・好 安 昂 哀 怖 怒・厭 驚 恥 閲覧ユーザ 20 3 12 3 4 3 3 5 推薦候補ユーザ2 3 5 5 12 3 18 5 3話題:阪神
阪神という話題に対して両ユーザとも
「喜・好」のような好意的な感情を持っている
阪神という話題に対して閲覧ユーザとは異なり推薦
候補ユーザは「怒・厭」のような反感を抱いている
𝑆
𝑖= 0.99
𝑆
𝑖= 0.36
阪神頑張れ 阪神大好き 阪神いいね! 阪神負けろ 阪神むかつく 阪神に勝ちたい薦ユーザの可視化
27
推
推薦ユーザ1 喜・好 安 怖 驚 怒・厭 恥 哀 昂話題に対する感情の違いを直感的に比較できる
レーダーチャート形式
で話題と
その話題に対する感情を可視化
視化の例
28
可
赤:閲覧ユーザ
青
:推薦候補ユーザ
話題と感情が似ている
話題と感情が異なる
価実験
29
評
User1:阪神ファン,アンチ巨人
User2:政治
User3:巨人ファン
User4:アニメ
User5:サッカー
閲覧ユーザ:趣味の異なる5ユーザ
実験1:提案クラスタリング手法の有用性
実験2:感情を考慮したフォロイー推薦手法の有用性
目的
フォロイーのフォロイーを推薦候補ユーザ
験の前準備
30
実
推薦候補となるユーザの決定
フォローしているユーザのフォローしている人は
共通の趣味を持っている
Twitter上には多くのユーザが存在
→
その全てを推薦候補ユーザとするのは現実的ではないランダムに100ユーザに対して実験
閲覧ユーザ フォロイー 推薦候補ユーザ験1
クラスタリングの有用性
31
実
ベースライン手法
クラスタリングされたそのままの結果
実験方法
閲覧ユーザと推薦ユーザのツイートしている
話題とクラスタが一致しているかを評価
比率と凝集性を考慮した共通話題クラスタの決定手法の有用性を示す
験1
クラスタリングの有用性
32
実
ベースライン手法 提案手法 User1 0.25 0.72 User2 0.20 0.79 User3 0.19 0.55 User4 0.20 0.45 User5 0.19 0.47 実験1の精度(適合率)格段に精度が上がっている
理由1:両ユーザ共通の話題となっていた
→
ツイート数の比率を考慮したため
理由2:Repeated Bisection 法はハードクラスタリング
であるため生成される不要なクラスタを
削除できた
→
クラスタの凝集性を考慮したため
験2
感情を考慮したフォロイー推薦手法の有用性
33
実
共通の話題と感情を考慮したフォロイー推薦の有用性を示す
ベースライン手法
話題のみのフォロイー推薦
実験方法
実際に推薦されたユーザをフォローしたいか
したくないかを評価
験2
感情を考慮したフォロイー推薦手法の有用性
34
実
手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)験2
感情を考慮したフォロイー推薦手法の有用性
35
実
手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)適合率,再現率,F値全ての値で
ベースラインを上回った
「阪神」「巨人」に対して
感情的なツイートを多くしていた
User1:阪神ファン,アンチ巨人
験2
感情を考慮したフォロイー推薦手法の有用性
36
実
手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)ベースラインと提案手法との差が
見られなかった
閲覧ユーザと推薦候補ユーザがあまり
感情的なツイートをしていなかった
User2:政治
験2
感情を考慮したフォロイー推薦手法の有用性
37
実
手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)ベースラインより提案手法の方
が良い結果となったが,User1と
比べるとあまり精度は向上しなかった
巨人の選手に対しての
ツイートを多く投稿していたため
評価が分散した
User3:巨人ファン
験2
感情を考慮したフォロイー推薦手法の有用性
38
実
手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)ベースラインと提案手法との差が
見られなかった
アニメのキャラクターに対しての
ツイートを多く投稿
していたため評価が分散した
User4:アニメ
験2
感情を考慮したフォロイー推薦手法の有用性
39
実
手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)提案手法がベースラインを
下回った
推薦候補ユーザは感情的なツイートを
多く投稿しているがUser5は感情的な
ツイートをあまりしていなかった
User5:サッカー
察
40
考
感情あり 感情なし 感情あり 感情なし 推薦候補ユーザ 閲 覧 ユ ー ザ 感情があるツイートをしているかどうか両ユーザ共に感情があるツイートをしている場合:
感情を用いた類似度計算の結果が
良いため推薦の精度が向上
どちらかのユーザが感情がないツイートをしてる場合:
閲覧ユーザと推薦候補ユーザの感情に差が
ある場合ため推薦の精度が減少
両ユーザとも感情がないツイートをしている場合:
感情を用いた類似度計算があまり反映されず
精度に変化がない
○ ○ ×× × × △△とめと今後の課題
41
ま
まとめ
話題とその話題に対しての感情を考慮したフォロイー推薦手法を提案 • クラスタリングを用いて共通の話題の抽出手法 • 共通な話題の感情値算出手法 • 共通な話題の感情値から類似度を算出して推薦ユーザを決定今後の課題
レーダーチャートによるユーザ実験 対象ユーザが実際にフォローしているユーザからフォロー傾向の分析究成果
(
1
)
国際会議(査読あり):2本
• Yuki Yamamoto, Tadahiko Kumamoto and Akiyo Nadamoto
“Multidimensional sentiment calculation method for Twitter based on emoticons” International Journal of Pervasive Computing and
Communications, Vol. 11 Iss: 2, pp.212 – 232, 2015.
論文誌(査読あり):1本
• Yuki Yamamoto, Tadahiko Kumamoto, Akiyo Naadmoto,
“Role of Emoticons for Multidimensional Sentiment Analysis of Twitter”, The 16th International Conference on Information Integration and
Web-based Applications & Services(iiWAS’14),
December 4-6, 2014, Hanoi, Vietnam (acceptance rate: 31%) • Yuki Yamamoto, Tadahiko Kumamoto, Akiyo Naadmoto,
“Followee Recommendation Based on Topic Extraction and
Sentiment Analysis from Tweets”, The 17th International Conference on
Information Integration and Web-based Applications & Services(iiWAS’15), December 11-13, 2015, Brussels, Belgium (acceptance rate: 30%)