• 検索結果がありません。

顔文字を考慮したニュースに対するツイートの感情抽出手法の提案

N/A
N/A
Protected

Academic year: 2021

シェア "顔文字を考慮したニュースに対するツイートの感情抽出手法の提案"

Copied!
29
0
0

読み込み中.... (全文を見る)

全文

(1)

実況ツイートからの感情抽出手法の

提案

甲南大学大学院 自然科学研究科

知能情報学専攻

灘本研究室 若井 祐樹

平成

25年度修士論文発表会 2014年2月15日

(2)

背景

近年,TwitterやFacebookといったソーシャルメディアが発展している

気軽に発信できることが利点

Twitterで自分が思っていることや

(3)

背景

スポーツ

ドラマ

映画

もうすぐフィギュア始まる。今夜も見る。 本格的な医療ドラマを作ることによって、それを見た若き視聴 者が医者を志してくれれば、とてもいいことだと思う。 なんかキュンキュンして胸がくるしくなる話だった!

テレビ番組を視聴しながらの実況ツイート

実況ツイート

番組出演者やキャラクターのセリフ

番組に対する自分の意見や感想

視聴者の感情が多く含まれる

実況ツイートから感情を抽出する手法を提案

(4)

実況ツイートから感情を抽出する利点

時系列毎に実況ツイートを見て

感情を抽出することで・・・

番組に対する感情の流れを読み取ることができる

感情の大きさから盛り上がりシーンを探索することができる

(5)

目的

実況

ツイートからユーザの感情を抽出する

テレビで放送されている

映画の実況ツイート

に着目

 一般の文章を対象として

 ツイート特有表現を考慮した

• 顔文字 (^o^)

• 繰り返し表現 (よっしゃああああ)

• 既存辞書を用いた実況ツイートの感情抽出

(6)

• 顔文字

• 繰り返し表現

\(^O^)/

きたああああ\(^O^)/

無理だ

\(^O^)/

ふざけんなこら

\(^O^)/

ツイート特有表現の感情抽出

同じ顔文字でも文によって使われ方が異なる

顔文字の役割:「

強調

」,「

自嘲

」,「

弛緩

」を定義

(7)

感情表現語辞書について

感情表現語辞書 悲しい⇔楽しい 感情表現語辞書 怒り⇔うれしい 感情表現語辞書 緊迫⇔のどか

以前の研究では,熊本ら

(千葉工大)が提案・構築した辞書を使用

問題点

3つの感情軸で感情を表現することが困難

感情表現語辞書に含まれていない単語

新聞から感情語を抽出しているためツイートには適さない

中村の

感情表現辞典

を用いて

辞書の構築を行う

熊本忠彦,河合由起子,田中克己.“ 新聞記事を対象とするテキスト印象マイニング手法 の設計と評価”,信学論,Vol. J94-D,No.3,pp.540–548,2011.

(8)

感情表現辞典

中村明の感情表現辞典は小説の用例を

10軸の感情に分類

感情 単語 感情 単語 喜 楽しい,嬉しい,心が引かれる 怒 怒る,甚だしい,むっとする 哀 悲しい,痛い,じいんと来る 怖 怖い,震える,気味悪い 恥 恥ずかしい,照れる,穴に入りたい 好 恋しい,愛しい,敬意を表する 厭 暗い,憎い,愛想をつかす 昂 苛立つ,感情,心が張り詰める 安 のんびり,すっきり,気を鎮める 驚 ぼんやり,歓喜,目を丸くする

辞書構築手法

熊本らの提案する感情語を定量化するツールを用いる

(9)

感情表現語辞書の再構築

前準備

データ:Yahoo!映画のレビューデータ74,000文書 感情語:感情表現辞典の語句 感情軸:感情表現辞典の10軸の感情で構成された対極な軸

⇔喜

⇔怒

⇔好

⇔昂

⇔安

Plutchikの感情の輪

(10)

再構築した感情表現語辞書の例

単語

哀⇔喜

厭⇔好

恥⇔安

怖⇔怒

驚⇔昂

爆笑できる 0.9266 0.0142 0 0.3717 0.5 涙ながらだ -0.9433 -0.0428 -0.7228 -0.3922 0.5964 泣き崩れる -0.9171 0.2987 0.3142 -0.073 0.792 恋する 0.1267 0.8927 -0.0176 -0.1385 0.0561 嫌らしい -0.2417 -0.9616 0 0.0424 -0.0938 明快だ 0.3598 -0.0033 0.7422 0.2494 0.0339 真っ赤だ -0.3879 0.1115 -0.9926 -0.0089 0.2922 腹立つ -0.3405 0.1049 0.0937 0.9051 -0.1221 恐ろしい -0.2891 -0.2304 0.0375 -0.9662 0.14 熱心だ -0.0481 0.1551 0.183 0.231 0.9697 意外だ -0.0081 0.1663 0.207 0.003 -0.9906 -1 1 左側の感情 右側の感情

(11)

繰り返し表現

浅井洋樹,秋岡明香,山名早人.きたああああああああああああああああ!!!!!11:マイクロブログを用いたことにより教師なし叫喚フレーズ抽 出,第5 回データ工学と情報マネジメントに関するフォーラム(DEIM Forum2013),A4-4,2013.

叫喚フレーズ

「きたああああ!」のように崩れた表記をして母音を繰り返す表現

定義

同じ母音を3つ以上繰り返してある 大文字・小文字を区別しないもの

バレンタインのお菓子おいし

いいいい

ツイート例

(12)

繰り返し表現に対するユーザ実験

目的

繰り返し表現が使われていることで

どのような感情の変化があるのか

実験データ

繰り返し表現がある実況ツイート50ツイート

① 繰り返し表現の部分を削除したツイートを見て感情 表現辞典の10軸の感情から最大3つまで選び感情 の強さを10点満点で評価する ② 繰り返し表現があるツイートを見て ①と同様に評価してもらう

被験者:11名

実験方法

(13)

評価方法

h

i

j

j

j

i

NR

R

h

TW

1

,

10

)

(

1

: : : : j j j i NR R h TW,



0

0

, , j i j i

TW

TW

繰り返し表現によって感情をより強めている 繰り返し表現によって感情をより弱めている ある感情軸i におけるあるツイートj の評価値 被験者の人数 ツイートj における繰り返し表現がある場合のある感情軸i におけるツイートを評価した点数 ツイートj における繰り返し表現がない場合のある感情軸i におけるツイートを評価した点数

(14)

実験結果と考察

感情 Twi,j>0 Twi,j<0 Twi,j=0

喜 67% 2% 31% 哀 35% 10% 55% 怒 27% 2% 71% 怖 29% 10% 61% 好 80% 2% 18% 厭 33% 14% 53% 昂 100% 0% 0% 驚 84% 4% 12% 安 8% 41% 51% 恥 14% 0% 86% ○○かわいいよお ○○かわいいよおおおおおおおお

気持ちが高揚

していることを表現

「安」の感情が弱める

繰り返し表現 感情を強調する機能がある 「安」は反対に弱めている

感情値算出を行う

(15)

繰り返し表現を考慮した感情値算出手法

繰り返し表現が含まれている場合

ツイートの感情値

= 文の感情値 +

重み

繰り返し表現の重みの値の決定

)

,

max(

i

i

i

i

i

SW

SS

SW

SS

TW

i i i

SW

SS

TW

繰り返し表現を考慮したときのある感情iの重み Twi,j>0 Twi,j<0

(16)

重みの値の決定

感情 Twi,j>0 Twi,j<0 重み 喜 67% 2% 0.97 哀 35% 10% 0.71 好 80% 2% 0.98 厭 33% 14% 0.58 安 8% 41% -0.80 恥 14% 0% 1.00 怒 27% 2% 0.93 怖 29% 10% 0.66 昂 100% 0% 1.00 驚 84% 4% 0.95

繰り返し表現を考慮した

感情値を算出

(17)

映画の実況ツイート 形態素解析 感情表現語辞書 (喜) 感情表現語辞書 (驚) 感情語と感情値を取得 辞書毎に 処理 文の感情値を決定 繰り返し表現あり 文の感情値 + 繰り返し表現の重み 感情表現語辞書 (哀) 感情表現語辞書 (昂)

繰り返し表現を考慮した

感情抽出手法の流れ

感情語毎の感情値の合計 感情語数 感情値の決定

(18)

繰り返し表現の重みを考慮した

評価実験

1. 視聴率の高い番組での評価実験

(19)

紅白歌合戦での評価実験

データ:紅白歌合戦に関する繰り返し表現が含まれる

103ツイート

目的:繰り返し表現を用いた感情抽出手法の有用性を示す実験

正解データ:ツイートごとに個別で判断した感情

ツイート

感情抽出

手法

感情を出力

適合率を求めた

(20)

実験結果と考察

感情 ツイート数 適合率 喜 3 100.0% 哀 17 0% 好 18 77.8% 厭 2 0% 安 4 0% 恥 16 0% 怒 6 0% 怖 14 0% 昂 18 94.9% 驚 2 50.0%

「喜」「好」「昂」が精度が良い

重みの値を大きく設定 重み付けに有用性がある 異なったジャンルのテレビ番組に関する 実況ツイートで検証する

(21)

映画の実況ツイートに対する

評価実験

目的:実際に繰り返し表現が含まれる映画の実況ツイートの評価

繰り返し表現が含まれるツイート 繰り返し表現の部分を削除したツイート 54ツイート 1. 感情表現辞典の10軸の感情の中からツイートの感情に適した 感情軸最大3つまで選び,10点満点で評価 2. 評価した合計の点数が平均以上のものを ツイートの感情と決定 実験データ 正解データ 実験データ 重みを考慮 した手法 重みを考慮 しない手法 正解データ 正解データ

再現率・適合率・

F値を求めた

被験者:8名

(22)

実験結果と考察

→感情をより強調する効果が得られた 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 喜 哀 好 厭 安 恥 怒 怖 昂 驚 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 喜 哀 好 厭 安 恥 怒 怖 昂 驚 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 喜 哀 好 厭 安 恥 怒 怖 昂 驚 再現率 適合率 F値

「哀」,「好」,「厭」,「昂」のF値がより良くなっている

重みを考慮しない場合 重みを考慮した場合

(23)

時間軸ごとのツイートの感情値の分析

分析手法

① 映画の実況ツイートの感情値を算出

② ツイートされた時間と算出された感情軸ごとの感情値を出力

1分ごとの感情値の合計とツイート頻度で平均を算出

④ 時間軸で可視化を行い,分析

対象映画:「ONEPIECE FILM Z」 データ:映画に関する実況ツイート5549ツイートとツイートした時間

(24)

映画の実況ツイートの

時間軸ごとの感情値分析

-0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 0.2 2 1 00 2 1 03 2 1 06 2 1 09 2 1 12 2 1 15 2 1 18 2 1 21 2 1 24 2 1 27 2 1 30 2 1 33 2 1 36 2 1 39 2 1 42 2 1 45 2 1 48 2 1 51 2 1 54 2 1 57 2 2 00 2 2 03 2 2 06 2 2 09 2 2 12 2 2 15 2 2 18 2 2 21 2 2 24 2 2 27 2 2 30 2 2 33 2 2 36 2 2 39 2 2 42 2 2 45 2 2 48 2 2 51 2 2 54 2 2 57 2 3 00 2 3 03 哀⇔喜 厭⇔好 恥⇔安 怖⇔怒 驚⇔昂

(25)

映画の実況ツイートの

時間軸ごとの感情値分析

-0.1 -0.05 0 0.05 0.1 0.15 0.2 2 1 00 2 1 04 2 1 08 2 1 12 2 1 16 2 1 20 2 1 24 2 1 28 2 1 32 2 1 36 2 1 40 2 1 44 2 1 48 2 1 52 2 1 56 2 2 00 2 2 04 2 2 08 2 2 12 2 2 16 2 2 20 2 2 24 2 2 28 2 2 32 2 2 36 2 2 40 2 2 44 2 2 48 2 2 52 2 2 56 2 3 00 2 3 04 驚⇔昂 見どころでは「昂」が 高くなっていることが多い

(26)

映画の実況ツイートの

時間軸ごとの感情値分析

-0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 0.2 2 1 00 2 1 03 2 1 06 2 1 09 2 1 12 2 1 15 2 1 18 2 1 21 2 1 24 2 1 27 2 1 30 2 1 33 2 1 36 2 1 39 2 1 42 2 1 45 2 1 48 2 1 51 2 1 54 2 1 57 2 2 00 2 2 03 2 2 06 2 2 09 2 2 12 2 2 15 2 2 18 2 2 21 2 2 24 2 2 27 2 2 30 2 2 33 2 2 36 2 2 39 2 2 42 2 2 45 2 2 48 2 2 51 2 2 54 2 2 57 2 3 00 2 3 03 哀⇔喜 厭⇔好 「好」に振れている 「哀」に振れている

(27)

まとめと今後の課題

まとめ

今後の課題

映画の実況ツイートを対象とする繰り返し表現を考慮した感情抽出手法を提案 繰り返し表現の有無による感情の変化の分析 繰り返し表現の重みを設定し その有用性を示す実験 映画の実況ツイートを時間軸ごとに分析 実況ツイートに特化した感情語辞書の構築 繰り返し表現の重みつけ 他の実況ツールとの比較

(28)

研究成果

1

研究会発表(6本) 若井 祐樹,熊本 忠彦,灘本 明代, “ニュースに対するつぶやきの感情分 析”,情報処理学会関西支部大会,2012 若井 祐樹,田中 美羽,熊本 忠彦,灘本 明代, “顔文字を考慮したニュース に対するツイートの感情抽出手法の提案”,第5回データ工学と情報マネジメン トに関するフォーラム(DEIM2013) 若井 祐樹,熊本 忠彦,灘本 明代, “ツイートの感情抽出の為の顔文字の 役割分類”,第2回WI2研究会(ARG SIG-WI2),2013 若井 祐樹,熊本忠彦,灘本明代, “映画に対する実況ツイートの感情抽出 手法の提案”,第158 回データベースシステム研究発表会,2013 若井 祐樹,山本 湧輝,熊本 忠彦,灘本 明代, “映画の実況ツイートにおけ る時系列毎の感情抽出手法の提案”,第6回データ工学と情報マネジメントに 関するフォーラム(DEIM2014).(to appear) 若井 祐樹,熊本忠彦,灘本明代, “多次元感情軸に基づくツイートの感情抽 出手法の提案”,2014年電子情報通信学会総合大会,2014(to appear)

(29)

研究成果

2

ポスター発表(2本)

若井 祐樹,田中 美羽,熊本 忠彦,灘本 明代, “顔文字を考慮したニュー スに対するツイートの感情抽出手法の提案”,第5回データ工学と情報マネジ メントに関するフォーラム(DEIM2013). 若井 祐樹,山本 湧輝,熊本 忠彦,灘本 明代, “映画の実況ツイートにお ける時系列毎の感情抽出手法の提案”,第6回データ工学と情報マネジメント に関するフォーラム(DEIM2014).(to appear)

参照

関連したドキュメント

本稿 は昭和56年度文部省科学研究費 ・奨励

機械物理研究室では,光などの自然現象を 活用した高速・知的情報処理の創成を目指 した研究に取り組んでいます。応用物理学 会の「光

全国の 研究者情報 各大学の.

国民の「知る自由」を保障し、

情報理工学研究科 情報・通信工学専攻. 2012/7/12

J-STAGE は、日本の学協会が発行する論文集やジャー ナルなどの国内外への情報発信のサポートを目的とした 事業で、平成

収入の部 学会誌売り上げ 前年度繰り越し 学会予算から繰り入れ 利息 その他 収入合計 支出の部 印刷費 事務局通信費 編集事務局運営費 販売事務局運営費

収入の部 学会誌売り上げ 前年度繰り越し 学会予算から繰り入れ 利息 その他 収入合計 支出の部 印刷費 事務局通信費 編集事務局運営費 販売事務局運営費