• 検索結果がありません。

話題と感情の可視化に基づくフォロイー推薦

N/A
N/A
Protected

Academic year: 2021

シェア "話題と感情の可視化に基づくフォロイー推薦"

Copied!
45
0
0

読み込み中.... (全文を見る)

全文

(1)

Twitterの感情抽出に基づく

フォロイー推薦

甲南大学大学院 自然科学研究科

知能情報学専攻 灘本研究室

21424010 山本 湧輝

2015年度修士論文発表

2016年2月13日

(2)

じめに

2

Twitter

の基本的な使い方

気になるユーザをフォローする

⇒ そのユーザのツイートを見ることが出来る

フォロイー

フォロー

ツイート

(3)

ーザをフォローする理由

3

趣味嗜好が似ているユーザ

・阪神ファン

好きな有名人

・SMAPのファン

現実世界での知人・友人

・大学の友達

様々な理由が存在する

(4)

ォローしたいユーザの発見

4

今日は学校しんどいわろたwwwwでも今調べたら ポケモンの新作楽しい! 阪神負けたやん!めっちゃムカつく 就活ホンマ辛い

フォロイー推薦

・ Twitterには

数多くのユーザが存在する

・ ツイートをすべて見るのは大変

自分に合ったフォロイーを

見つけるのは困難

(5)

来のフォロイー推薦

5

話題が同じ人を推薦する

阪神 阪神 阪神 阪神 阪神 阪神 閲覧ユーザ 推薦ユーザ1 推薦ユーザ2 従来のフォロイー推薦は 阪神 阪神 阪神

(6)

来のフォロイー推薦の問題点

6

阪神頑張れ 阪神大好き 阪神いいね! 阪神負けろ 阪神むかつく 阪神に勝ちたい 阪神に対して 好意的なツイートをしている 阪神に対して 否定的なツイートをしている 閲覧ユーザ 推薦ユーザ1 推薦ユーザ2 阪神いいね! 阪神ファイト 阪神勝って!

(7)

7

感情

話題

フォロイー推薦

阪神頑張れ 阪神大好き 阪神いいね! 阪神負けろ 阪神むかつく 阪神に勝ちたい 阪神に対して 好意的なツイートをしている 阪神に対して 否定的なツイートをしている 閲覧ユーザ 推薦ユーザ1 推薦ユーザ2 阪神いいね! 阪神ファイト 阪神勝って!

(8)

案手法

8

共通の話題の抽出

感情

話題

フォロイー推薦

共通の話題に対する感情値算出

(9)

案手法

9

共通の話題の抽出

感情

話題

フォロイー推薦

共通の話題に対する感情値算出

• ツイートの感情抽出

• 話題における感情の類似度計算

(10)

案手法

10

共通の話題の抽出

感情

話題

フォロイー推薦

共通の話題に対する感情値算出

• ツイートの感情抽出

• 話題における感情の類似度計算

中間発表

(11)

共通の話題に対する感情値算出

案手法

11

共通の話題の抽出

感情

話題

フォロイー推薦

(12)

通の話題の抽出

12

1. 閲覧ユーザと推薦候補ユーザのツイートを取得

2. 二人のユーザのツイートを混ぜてクラスタリング

3. クラスタの中から共通の話題を抽出

目的:閲覧ユーザと推薦候補ユーザの共通の話題を抽出

(13)

通の話題の抽出

13

閲覧ユーザ 推薦候補ユーザ

200ツイート

400ツイート

200ツイート

1. 閲覧ユーザと推薦候補ユーザのツイートを取得

2. 二人のユーザのツイートを混ぜてクラスタリング

3. クラスタの中から共通の話題を抽出

目的:閲覧ユーザと推薦候補ユーザの共通の話題を抽出

(14)

通の話題の抽出

14

1. 閲覧ユーザと推薦候補ユーザのツイートを取得

2. 二人のユーザのツイートを混ぜてクラスタリング

3. クラスタの中から共通の話題を抽出

目的:閲覧ユーザと推薦候補ユーザの共通の話題を抽出

(15)

人のユーザのツイートを混ぜてクラスタリング

15

混ぜ合わせた400ツイート →

クラスタリング

Repeated Bisection 法

閲覧ユーザ:200ツイート

推薦候補ユーザ:200ツイート

合計400ツイー

トを混ぜる

Repeated Bisection 法

短文のクラスタリングに向いている

クラスタの話題:中心ベクトルに最も近いトピック

阪神 ヒット 藤浪 大和

クラスタ1

クラスタの話題:

阪神

(16)

通の話題の抽出

16

1. 閲覧ユーザと推薦候補ユーザのツイートを取得

2. 二人のユーザのツイートを混ぜてクラスタリング

3. クラスタの中から共通の話題を抽出

目的:閲覧ユーザと推薦候補ユーザの共通の話題を抽出

(17)

ラスタの中から共通の話題を抽出

17

クラスタ2

閲覧ユーザ

推薦候補ユーザ

クラスタ1

クラスタ3

・・・・・

クラスタリングによって生成されたクラスタの全てが

共通の興味であるとは言えない

(18)

ラスタの中から共通の話題を抽出

18

ツイート数の比率

ツイートの凝集性

2ユーザ共通の話題かどうか

クラスタの話題がまとまっているか

クラスタ2

閲覧ユーザ

推薦候補ユーザ

クラスタ1

クラスタ3

・・・・・

(19)

2ユーザのツイート数に偏りがあると

共通の話題とは言えない

イート数の比率

19

𝑅

𝑖

ツイート数の比率

𝑋

𝑖

ユーザXのツイート数

𝑌

𝑖

ユーザYのツイート数

𝑅

𝑖

=

|𝑋

𝑖

− 𝑌

𝑖

|

𝑋

𝑖

+ 𝑌

𝑖

ツイート数の比率が均等

クラスタ2

クラスタ1

ツイート数が偏っている

ため

共通な話題として相応しくない

ツイート数が均等

なので

共通な話題として相応しい

閲覧ユーザ

推薦候補ユーザ

(20)

Repeated Bisection 法は

ハードクラスタリングである

ガベージクラスタが生成される

イートの凝集性

20

ガベージクラスタの除外

相互に関連性のない ツイートが集まったクラスタ ガベージクラスタとは

A

𝑖:ツイートの凝集性

𝑐

𝑖:クラスタのセントロイド

𝑥

:クラスタに含まれるツイート

𝐴

𝑖

= ෍

𝑥∈𝐶𝑖

(

𝑥 ∙ 𝑐

𝑖

𝑥 |𝑐

𝑖

|

)

クラスタ3

ツイート同士の

関係性が薄い為

共通な話題として相応しくない

ツイート同士の

関係性が濃い為

共通な話題として相応しい

クラスタ2

閲覧ユーザ

推薦候補ユーザ

(21)

ラスタの中から共通の話題を抽出

21

ツイート数の比率

𝑅

𝑖

=

|𝑋

𝑖

− 𝑌

𝑖

|

𝑋

𝑖

+ 𝑌

𝑖

ツイートの凝集性

𝐴

𝑖

= ෍

𝑥∈𝐶𝑖

(

𝑥 ∙ 𝑐

𝑖

𝑥 |𝑐

𝑖

|

)

共通話題クラスタ

𝑅

𝑖

: 𝑇

𝑅

= 0.25

𝐴

𝑖

: 𝑇

𝐴

= 0.60

閾値以上のクラスタを抽出する

クラスタ2

閲覧ユーザ

推薦候補ユーザ

クラスタ1

クラスタ3

・・・・・

(22)

共通の話題に対する感情値算出

案手法

22

共通の話題の抽出

感情

話題

フォロイー推薦

(23)

通の話題に対する感情値算出

23

共通話題クラスタ

ツイートそれぞれの感情値を算出

感情値算出

感情値算出

感情値算出

感情値算出

感情値算出

感情値算出

感情語辞書

顔文字の役割

多次元の感情軸

を用いる

閲覧ユーザのツイート

推薦候補ユーザのツイート

喜・好 安 昂 哀 怖 怒・厭 驚 恥

(24)

通の話題に対する感情値算出

24

共通話題クラスタ

ツイートそれぞれの感情値を算出

感情値算出

感情値算出

感情値算出

感情値算出

感情値算出

感情値算出

閲覧ユーザのツイート

推薦候補ユーザのツイート

中間発表

感情語辞書

顔文字の役割

多次元の感情軸

を用いる

喜・好 安 昂 哀 怖 怒・厭 驚 恥

(25)

情に基づく類似度算出

25

𝑆 = ෍

𝑖=1

𝑘

𝐴𝑆

𝑖

∙ 𝐵𝑆

𝑖

𝐴𝑆

𝑖

|𝐵𝑆

𝑖

|

𝑆:感情に基づく類似度

𝐴𝑆

𝑖

:閲覧ユーザのi番目の

クラスタの感情ベクトル

B𝑆

𝑖

:推薦候補ユーザのi番目の

クラスタの感情ベクトル

共通話題クラスタ

𝐴𝑆

𝑖

B𝑆

𝑖

閲覧ユーザのツイート

推薦候補ユーザのツイート

感情値算出

感情値算出

感情値算出

感情値算出

感情値算出

感情値算出

(26)

似度算出の例

26

喜・好 安 昂 哀 怖 怒・厭 驚 恥 閲覧ユーザ 20 3 12 3 4 3 3 5 推薦候補ユーザ1 20 4 11 4 3 3 5 3

話題:阪神

喜・好 安 昂 哀 怖 怒・厭 驚 恥 閲覧ユーザ 20 3 12 3 4 3 3 5 推薦候補ユーザ2 3 5 5 12 3 18 5 3

話題:阪神

阪神という話題に対して両ユーザとも

「喜・好」のような好意的な感情を持っている

阪神という話題に対して閲覧ユーザとは異なり推薦

候補ユーザは「怒・厭」のような反感を抱いている

𝑆

𝑖

= 0.99

𝑆

𝑖

= 0.36

阪神頑張れ 阪神大好き 阪神いいね! 阪神負けろ 阪神むかつく 阪神に勝ちたい

(27)

薦ユーザの可視化

27

推薦ユーザ1 喜・好 安 怖 驚 怒・厭 恥 哀 昂

話題に対する感情の違いを直感的に比較できる

レーダーチャート形式

で話題と

その話題に対する感情を可視化

(28)

視化の例

28

赤:閲覧ユーザ

:推薦候補ユーザ

話題と感情が似ている

話題と感情が異なる

(29)

価実験

29

User1:阪神ファン,アンチ巨人

User2:政治

User3:巨人ファン

User4:アニメ

User5:サッカー

閲覧ユーザ:趣味の異なる5ユーザ

実験1:提案クラスタリング手法の有用性

実験2:感情を考慮したフォロイー推薦手法の有用性

目的

(30)

フォロイーのフォロイーを推薦候補ユーザ

験の前準備

30

推薦候補となるユーザの決定

フォローしているユーザのフォローしている人は

共通の趣味を持っている

Twitter上には多くのユーザが存在

その全てを推薦候補ユーザとするのは現実的ではない

ランダムに100ユーザに対して実験

閲覧ユーザ フォロイー 推薦候補ユーザ

(31)

験1

クラスタリングの有用性

31

ベースライン手法

クラスタリングされたそのままの結果

実験方法

閲覧ユーザと推薦ユーザのツイートしている

話題とクラスタが一致しているかを評価

比率と凝集性を考慮した共通話題クラスタの決定手法の有用性を示す

(32)

験1

クラスタリングの有用性

32

ベースライン手法 提案手法 User1 0.25 0.72 User2 0.20 0.79 User3 0.19 0.55 User4 0.20 0.45 User5 0.19 0.47 実験1の精度(適合率)

格段に精度が上がっている

理由1:両ユーザ共通の話題となっていた

ツイート数の比率を考慮したため

理由2:Repeated Bisection 法はハードクラスタリング

であるため生成される不要なクラスタを

削除できた

クラスタの凝集性を考慮したため

(33)

験2

感情を考慮したフォロイー推薦手法の有用性

33

共通の話題と感情を考慮したフォロイー推薦の有用性を示す

ベースライン手法

話題のみのフォロイー推薦

実験方法

実際に推薦されたユーザをフォローしたいか

したくないかを評価

(34)

験2

感情を考慮したフォロイー推薦手法の有用性

34

手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)

(35)

験2

感情を考慮したフォロイー推薦手法の有用性

35

手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)

適合率,再現率,F値全ての値で

ベースラインを上回った

「阪神」「巨人」に対して

感情的なツイートを多くしていた

User1:阪神ファン,アンチ巨人

(36)

験2

感情を考慮したフォロイー推薦手法の有用性

36

手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)

ベースラインと提案手法との差が

見られなかった

閲覧ユーザと推薦候補ユーザがあまり

感情的なツイートをしていなかった

User2:政治

(37)

験2

感情を考慮したフォロイー推薦手法の有用性

37

手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)

ベースラインより提案手法の方

が良い結果となったが,User1と

比べるとあまり精度は向上しなかった

巨人の選手に対しての

ツイートを多く投稿していたため

評価が分散した

User3:巨人ファン

(38)

験2

感情を考慮したフォロイー推薦手法の有用性

38

手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)

ベースラインと提案手法との差が

見られなかった

アニメのキャラクターに対しての

ツイートを多く投稿

していたため評価が分散した

User4:アニメ

(39)

験2

感情を考慮したフォロイー推薦手法の有用性

39

手法 適合率 再現率 F値 User1 ベースライン手法 0.70 0.54 0.61 提案手法 0.90 0.77 0.83 User2 ベースライン手法 0.81 0.65 0.72 提案手法 0.87 0.65 0.74 User3 ベースライン手法 0.76 0.60 0.68 提案手法 0.77 0.73 0.75 User4 ベースライン手法 0.86 0.80 0.83 提案手法 0.92 0.73 0.81 User5 ベースライン手法 0.82 0.60 0.70 提案手法 0.67 0.52 0.59 実験1の精度(適合率)

提案手法がベースラインを

下回った

推薦候補ユーザは感情的なツイートを

多く投稿しているがUser5は感情的な

ツイートをあまりしていなかった

User5:サッカー

(40)

40

感情あり 感情なし 感情あり 感情なし 推薦候補ユーザ 閲 覧 ユ ー ザ 感情があるツイートをしているかどうか

両ユーザ共に感情があるツイートをしている場合:

感情を用いた類似度計算の結果が

良いため推薦の精度が向上

どちらかのユーザが感情がないツイートをしてる場合:

閲覧ユーザと推薦候補ユーザの感情に差が

ある場合ため推薦の精度が減少

両ユーザとも感情がないツイートをしている場合:

感情を用いた類似度計算があまり反映されず

精度に変化がない

○ ○ ×× × × △△

(41)

とめと今後の課題

41

まとめ

 話題とその話題に対しての感情を考慮したフォロイー推薦手法を提案 • クラスタリングを用いて共通の話題の抽出手法 • 共通な話題の感情値算出手法 • 共通な話題の感情値から類似度を算出して推薦ユーザを決定

今後の課題

 レーダーチャートによるユーザ実験  対象ユーザが実際にフォローしているユーザからフォロー傾向の分析

(42)

究成果

国際会議(査読あり):2本

• Yuki Yamamoto, Tadahiko Kumamoto and Akiyo Nadamoto

“Multidimensional sentiment calculation method for Twitter based on emoticons” International Journal of Pervasive Computing and

Communications, Vol. 11 Iss: 2, pp.212 – 232, 2015.

論文誌(査読あり):1本

• Yuki Yamamoto, Tadahiko Kumamoto, Akiyo Naadmoto,

“Role of Emoticons for Multidimensional Sentiment Analysis of Twitter”, The 16th International Conference on Information Integration and

Web-based Applications & Services(iiWAS’14),

December 4-6, 2014, Hanoi, Vietnam (acceptance rate: 31%) • Yuki Yamamoto, Tadahiko Kumamoto, Akiyo Naadmoto,

“Followee Recommendation Based on Topic Extraction and

Sentiment Analysis from Tweets”, The 17th International Conference on

Information Integration and Web-based Applications & Services(iiWAS’15), December 11-13, 2015, Brussels, Belgium (acceptance rate: 30%)

(43)

究成果

国内会議(査読あり): 1本

• 山本 湧輝,熊本 忠彦,灘本 明代,”顔文字の役割に着目したツイー トの多次元感情抽出手法の提案”,ARG 第4回Webインテリジェンスと インタラクション研究会,2014年5月 • 山本 湧輝,熊本 忠彦,灘本 明代, ” Twitter特有表現を考慮したツ イートの多次元感情抽出手法の提案”,情報処理学会第77回関西支 部支部大会,2014年9月 • 山本 湧輝,熊本 忠彦,灘本 明代,”ツイートの感情の関係に基づく Twitter感情軸の決定”,第7回データ工学と情報マネジメントに関する フォーラム,(DEIM2015),2015年3月 • 山本 湧輝,熊本 忠彦,灘本 明代,“話題と感情の可視化に基づく フォロイー推薦”,第8回Webとデータベースに関するフォーラム, (WebDB Forum2015),2015年11月 (採択率: 65.9%)

研究会発表:3本

43

(44)

究成果

• 山本 湧輝,熊本 忠彦,灘本 明代,”ツイートの感情の関係に基づく Twitter感情軸の決定”,第7回データ工学と情報マネジメントに関する フォーラム,(DEIM2015),2015年3月 • 山本 湧輝,熊本 忠彦,灘本 明代,“話題と感情の可視化に基づくフォロ イー推薦”,第8回Webとデータベースに関するフォーラム,(WebDB Forum2015),2015年11月

ポスター発表:2本

44

(45)

賞歴

• 山本 湧輝,熊本 忠彦,灘本 明代, ” Twitter特有表現を考慮したツ イートの多次元感情抽出手法の提案”,情報処理学会第77回関西支 部支部大会,2014年9月(学生奨励賞)

研究会発表:1回

45

参照

関連したドキュメント

CONSCIOUSNESS AND OPERATING EXPENSE CONCERNING EARTHQUAKE COUNTERMEASURES BY THE LARGE SCALE WATER SUPPLIER. - A CASE STUDY IN OSAKA

教育・保育における合理的配慮

1A 神の全知 1-6 2A 神の遍在 7-12 3A 神の創造 13-18 4A 神の救い

相談件数約 1,300 件のうち、6 割超が東京都、大阪府、神奈川県をはじめとした 10 都

白山中居神社を中心に白山信仰と共に生き た社家・社人 (神社に仕えた人々) の村でし

[r]

 ところで、 2016年の相模原市障害者殺傷事件をきっかけに、 政府

保坂 幸司: NPO 法人 大阪精神障害者就労支援ネットワーク(JSN) 事務局長. 堀川 洋 : NPO