• 検索結果がありません。

PDFファイル 3 「ソーシャルイベント分析」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 3 「ソーシャルイベント分析」"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

1K3-3

マイクロブログへの投稿に基づく政治家の立場推定

Estimation of a politician’s stance based on his/her posts to microblogs

岩井

宏道

∗1

Hiromichi Iwai

道満

恵介

∗2

Keisuke Doman

井手

一郎

∗3

Ichiro Ide

出口

大輔

∗4

Daisuke Deguchi

村瀬

∗5

Hiroshi Murase

∗1

名古屋大学

工学部

School of Engineering, Nagoya University

∗2

中京大学

工学部

School of Engineering, Chukyo University

∗3∗5

名古屋大学大学院

情報科学研究科

Graduate School of Information Science, Nagoya University

∗4

名古屋大学

情報連携統括本部

Information and Communications Headquarters, Nagoya University

We propose a method for estimating a politician’s stance based on sentiment analysis of his/her posts to mi-croblogs. This method calculates the average semantic orientation of a politician’s posts in general, and compares it to that of the posts regarding a particular theme, to estimate the politician’s stance regarding the theme. Through an experiment with actual posts to “Twitter”, the effectiveness of proposed method is shown.

1.

はじめに

インターネット上での選挙活動が2013年に解禁され,多く

の議員や議員候補者がソーシャルネットワーキングサービス

(SNS)を通じて情報発信を行っている.SNSを通じて議員候 補者の考えを知ることは,投票意思決定などにおいて重要であ

る.しかし,多数の候補者の情報発信を随時確認するのは負担

が大きい.そこで,過去の発言に基づいて,個々の議員候補者

が関心を持つトピックや,それに対する立場を自動的にまとめ

て提示することができれば,この負担を軽減することができ

る.本研究では,議員候補者によるマイクロブログへの投稿の

感情極性を計算することで,あるトピックに対するその候補者

の立場(本研究では「肯定的」または「否定的」のいずれか)

を推定する手法を提案する.

2.

立場の推定

一般に,我々が何らかのトピックについて言及する際には,

そのトピックを肯定的に捉えていれば肯定的な語が,否定的

に捉えていれば否定的な語がより多く出現すると考えられる.

マイクロブログは1投稿あたりの文書長が短いため,1投稿中

で複数のトピックに言及することは少ないと考えられる.そこ

で,1投稿が1トピックに対応していると仮定し,各投稿の感

情極性を計算する.そして,あるユーザの投稿すべてを母集団

とした感情極性の平均値に対して,そのユーザのあるトピック

に関する投稿のみに限った感情極性の平均値を比較すること

で,そのトピックに関する立場を推定する.

2.1

処理手順

処理手順を図1に示す.まず,対象とするユーザの過去の

投稿を収集し,各投稿に対して形態素解析を行う.形態素解析

にはMeCab∗1 を用いた.

連絡先:岩井宏道,名古屋大学,愛知県名古屋市千種区不老町,

[email protected]

∗1 本研究では MeCab-Python の第 0.993 版を用いた.

https://code.google.com/p/mecab/

今日も良い天気ですね。: 0.502 形態素解析

今日

/

/

良い

/

天気

/

です

/

/

単語の極性を参照

各語の極性の平均値を

ツイート全体の極性値として付与

今日  も  良い  天気  です  ね  。

0.264500 0.999995 0.240650

今日も良い天気ですね。

単語感情極性

対応表 投稿

図1: 投稿に対する感情極性付与の例

次に,形態素解析により分割された各単語について,高村[1]

らが作成した単語感情極性対応表を参照し,感情極性を付与す

る.この単語感情極性対応表には,ある語と,その語が一般に

肯定的に使われるか,否定的に使われるかの極性との対応が列

挙されている.[1

,1]を値域として,否定的な印象の語ほど

−1に近く,肯定的な印象の語ほど1に近くなるような値が割

り振られている.なお,単語感情極性対応表の語彙にない単語

については感情極性の計算に含めないことにした.

続いて,図2に示すように,投稿中に出現する単語の感情

極性の平均値を求め,これをその投稿全体の感情極性とする.

そして,あるユーザの投稿すべての感情極性を計算し,その平

均値を算出する.これをそのユーザの肯定・否定を判定する際

の基準値とする.その後,注目トピックに関連する特定のキー

ワードを含む投稿を抽出したうえで,それらの感情極性の平均

値を計算する.最終的に,基準値よりも高ければそのトピック

に対して肯定的,低ければ否定的であると判定する.

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

今日も良い天気ですね。:0.502

極性の 平均値を計算 あるユーザによる 全ての投稿の集合

立場の推定

極性の 平均値を計算

ユーザ A による

全投稿の 極性の平均 = -0.390

ユーザ A による 「福祉」に関する 投稿の極性の平均 = -0.228

語「福祉」を含む 投稿の集合

社会福祉の充実がより必要です。 : -0.184

ユーザ A は

「福祉」に対し 肯定的

一部抜粋

図2: 提案手法による立場推定の例

表1: 注目したトピックと検索に用いたキーワード

トピック キーワード

TPP(環太平洋経済連携協定) 「TPP」

消費税増 「消費税」

憲法改正 「憲法改正」 または 「改憲」

原子力発電所 「原子力発電所」 または 「原発」

3.

評価実験

提案手法を評価するために,2つの実験を行った.実験1で

はマイクロブログを利用している議員候補者を対象に,提案手

法の推定精度を確認した.実験2では単語感情極性対応表の

語彙に制限を加え,推定精度の変化を調べた.

3.1

データセット

2013年参議院議員選挙における議員候補者のうち,マイク

ロブログサービス“Twitter”を利用していた281名を対象と

して投稿を収集した∗

2

.2013年11月22日から2014年1月

25日までの期間に,合計22,995件の投稿を収集した.そのな かで,「新しい写真をFacebookに投稿しました」のような自 動生成された定型文は,ユーザの感情とは無関係であるため削

除した.さらに,他のユーザによる投稿文を引用している場合

には,引用部分を削除した.本研究では,281名のユーザのう

ち,投稿数が100件を超えていた40名について,その立場を 推定した.

3.2

提案手法の推定精度に関する評価

提案手法により,各ユーザの特定トピックに関する立場を推

定した.また,各ユーザの基準値と比べるのではなく,絶対値

を用いて,特定のキーワードを含む投稿の平均極性が負であれ

ば否定的,正であれば肯定的とする方法と比較した.推定した

トピックおよび当該トピックに関する投稿の検索に用いたキー

ワードを表 1に示す.例として,あるユーザの投稿の感情極

性の分布を図3に示す.推定された立場について,文献[2]を

正解データとして評価を行った.文献[2]は,自己申告により,

議員候補者の各政策に関する立場を「賛成」から「反対」まで

の5段階で調査したものである.本実験では「賛成」および

「どちらかといえば賛成」を肯定的な立場,「反対」および「ど

ちらかといえば反対」を否定的な立場とみなした.「どちらで

もない」や「無回答」となっている項目については推定から除

∗2 投稿の収集にはTwitterから公開されているAPIを利用した https://dev.twitter.com/

表2:「肯定的」が正解である立場の推定精度(語彙制限なし)

推定手法 推定精度と件数

比較手法 0.00 (0/10) 提案手法 0.20 (2/10)

表3:「否定的」が正解である立場の推定精度(語彙制限なし)

推定手法 推定精度と件数

比較手法 1.00 (78/78) 提案手法 0.69 (54/78)

図5: 単語感情極性対応表の語彙制限

外した.

実験結果を表2, 3に示す.比較手法では「肯定的」である

立場を1件も正しく推定できなかったが,提案手法では一部

といえども推定できるようになった.

3.3

単語感情極性対応表の語彙に制限を加えた際の推

定精度に関する評価

単語感情極性対応表には極性が1または1に近いような, 強い否定・肯定の特徴をもつ単語が含まれる一方で,極性値が

0に近い,実際には否定・肯定どちらの文脈にも登場し得る単

語も数多く含まれる.このような中間的な極性値の単語を除外

することで,極端な感情極性がその投稿の感情極性へと反映さ

れやすくなると考えられる.そこで,図5に示すように,あ

る感情極性の範囲に含まれる単語を除外したうえで実験1と

同様の推定を行った.除外する範囲は,単語感情極性対応表に

含まれる全単語の感情極性の平均値である0

.32を中心とし て,±0.1∼0.6までの6通りを設定した.

実験結果は表4,表5のようになった.適切なしきい値を設

定することで,推定精度が向上することがわかった.また,例

として,中心±0.6までの単語を除外した際の,図3と同じ

ユーザの投稿の感情極性の分布を図4に示す.図3と比べて

図4では投稿の感情極性の分散が大きく,否定・肯定の特徴

がより際立って感情極性に表れていることがわかる.

4.

まとめ

ユーザのマイクロブログへの投稿に基づき,投稿の感情極

性を計算することで,特定のトピックに関する立場を推定する

手法を提案した.極性値の正負を基準にした立場推定では「肯

定的」な立場が全く推定できなかったのに対し,提案手法では

正しく推定できるようになった.実験2では,単語感情極性対

応表の語彙に適切な制限を加えることで,推定の精度が向上す

ることがわかった.

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

表4:「肯定的」が正解である立場の推定精度(語彙制限あり)

極性値のしきい値 推定精度と件数

しきい値なし(実験1と同様) 0.20 (2/10) 中心±0.1 0.10 (1/10) 中心±0.2 0.20 (2/10) 中心±0.3 0.20 (2/10) 中心±0.4 0.20 (2/10) 中心±0.5 0.20 (2/10) 中心±0.6 0.40 (4/10)

表5:「否定的」が正解である立場の推定精度(語彙制限あり)

極性値のしきい値 推定精度と件数

しきい値なし(実験1と同様) 0.69 (54/78) 中心±0.1 0.71 (55/78) 中心±0.2 0.71 (55/78) 中心±0.3 0.76 (59/78) 中心±0.4 0.68 (53/78) 中心±0.5 0.72 (56/78) 中心±0.6 0.68 (52/78)

今後は,渡邉ら[3]のように潜在的Dirichlet配分法や協調 フィルタリングを導入するなどして,ユーザが直接言及してい

ないトピックに関して間接的に立場を推定したり,推定精度の

向上を図る必要がある.

参考文献

[1] 高村大也, 乾孝司, 奥村学, “スピンモデルによる単語の 感 情 極 性 抽 出,” 情 報 処 理 学 会 論 文 誌, vol.47, no.2, pp.

627–637, Feb. 2006.

[2] (株) 朝日新聞社, “朝日・東大谷口研究室共同調査―

2013参院選:朝日新聞デジタル,”

http://www.asahi.com/senkyo/senkyo2013/ asahitodai/[2014/3/10アクセス]

[3] 渡邊恵太,加藤昇平, “潜在的ディリクレ配分法に基づく 協調フィルタリングを用いたマイクロブログユーザの興

味対象分析,”第12回情報科学技術フォーラム講演論文 集, vol.2, pp. 273–276, Aug. 2013.

(4)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

0 0 0 0 3

6 12 38 54 105 112115 81 36 22 17 11 6 3 2

0 2 1 1 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0

0 20 40 60 80 100 120 140 -1 .0 0 -0 .9 5 -0 .9 0 -0 .8 5 -0 .8 0 -0 .7 5 -0 .7 0 -0 .6 5 -0 .6 0 -0 .5 5 -0 .5 0 -0 .4 5 -0 .4 0 -0 .3 5 -0 .3 0 -0 .2 5 -0 .2 0 -0 .1 5 -0 .1 0 -0 .0 5 0 .0 0 0 .0 5 0 .1 0 0 .1 5 0 .2 0 0 .2 5 0 .3 0 0 .3 5 0 .4 0 0 .4 5 0 .5 0 0 .5 5 0 .6 0 0 .6 5 0 .7 0 0 .7 5 0 .8 0 0 .8 5 0 .9 0 0 .9 5

イート数

ツイートの極性値

全ツイートの極性値の 平均 : -0.443

肯定的 否定的

「原子力発電所」に 関するツイートの 極性値の平均:

-0.462 「消費税」に 関するツイートの

極性値の平均: -0.476 「憲法改正」に

関するツイートの 極性値の平均:

-0.503

「TPP」に 関するツイートの

極性値の平均: -0.497

図3:あるユーザの投稿の極性の分布(語彙制限なし)

165 15 0 6 1620 26 19 28 21 27 14 6 38

7 8 8 7

0 29

19

2 4 3

0 0

11

2 1 0 1 0 2 0 0 0 2 2 5

25 0 20 40 60 80 100 120 140 160 180 0

イー

ツイートの極性値

全ツイートの極性値の 平均 : -0.490

肯定的

否定的

「原子力発電所」に 関するツイートの

極性値の平均:

-0.476

「消費税」に 関するツイートの

極性値の平均:

-0.597

「憲法改正」に 関するツイートの

極性値の平均:

-0.652

「TPP」に 関するツイートの

極性値の平均:

-0.707 -1 .0 0 -0 .9 5 -0 .9 0 -0 .8 5 -0 .8 0 -0 .7 5 -0 .7 0 -0 .6 5 -0 .6 0 -0 .5 5 -0 .5 0 -0 .4 5 -0 .4 0 -0 .3 5 -0 .3 0 -0 .2 5 -0 .2 0 -0 .1 5 -0 .1 0 -0 .0 5 0 .0 0 0 .0 5 0 .1 0 0 .1 5 0 .2 0 0 .2 5 0 .3 0 0 .3 5 0 .4 0 0 .4 5 0 .5 0 0 .5 5 0 .6 0 0 .6 5 0 .7 0 0 .7 5 0 .8 0 0 .8 5 0 .9 0 0 .9 5

図4:あるユーザの投稿の極性の分布(語彙制限あり)

参照

関連したドキュメント

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

Thus, we use the results both to prove existence and uniqueness of exponentially asymptotically stable periodic orbits and to determine a part of their basin of attraction.. Let

Then it follows immediately from a suitable version of “Hensel’s Lemma” [cf., e.g., the argument of [4], Lemma 2.1] that S may be obtained, as the notation suggests, as the m A

To derive a weak formulation of (1.1)–(1.8), we first assume that the functions v, p, θ and c are a classical solution of our problem. 33]) and substitute the Neumann boundary

Shi, “The essential norm of a composition operator on the Bloch space in polydiscs,” Chinese Journal of Contemporary Mathematics, vol. Chen, “Weighted composition operators from Fp,

This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on

The proof of the existence theorem is based on the method of successive approximations, in which an iteration scheme, based on solving a linearized version of the equations, is

While conducting an experiment regarding fetal move- ments as a result of Pulsed Wave Doppler (PWD) ultrasound, [8] we encountered the severe artifacts in the acquired image2.