拡散可能性を用いた流言ツイートの検出

(1)

DEIM Forum 2016 B6-4

拡散可能性を用いた流言ツイートの検出

吉田

然

†

_{有次正義}

††

†

熊本大学工学部情報電気電子工学科〒 860–8555 熊本県熊本市中央区黒髪 2 丁目 39 番 1 号

††

熊本大学大学院自然科学研究科〒 860–8555 熊本県熊本市中央区黒髪 2 丁目 39 番 1 号

E-mail:

†

††

あらまし

近年，誰もが容易に情報を発信できる場として SNS が注目されている．特に Twitter では投稿文字数が

140 文字以内と制限されており，利用者は気軽に情報を発信できる．しかし一方で，その気軽さから多くの流言が発

信され，利用者の混乱を招いている．流言による問題が発生するのはその情報が拡散されるためである．本研究では

流言と拡散の関係性に注目し，流言ツイートの検出手法に拡散可能性を組み合わせることで流言検出の精度向上を目

指す．この目標に向け，投稿内容の拡散可能性を考慮した流言検出手法を提案し，その有効性を検討する．

キーワード

SNS, Twitter, 流言, 情報拡散

1. はじめに

近年，誰もが容易に情報を発信，受信できる場としてSNS が注目されている．従来の情報発信者はテレビや新聞などのマスメディアであったが，SNSが登場したことにより個人でも情報発信を容易に行うことができるようになった．特にTwitter では投稿文字数を140文字以内に制限することで，より気軽に情報を発信できる他，リアルタイムな情報の収集源としても利用されている．2011年3月11日に発生した東日本大震災の際も，Twitterを用いた被災者の安否確認や被害情報の収集などが行われ，被災地の最新の情報を得るための手段として広く活用された[1]．しかし，個人が気軽に情報を発信できる一方で，Twitterを始めとするSNS上には多くの流言が拡散されてしまっているという問題がある．同じく東日本大震災の際，炎や噴煙をあげる工場の様子から「工場から出た有害物質が雲に付着し，雨と一緒に降ってくる」という事実無根の内容のツイートが拡散され，人々の混乱を招いたという事例がある[2]．また，2013年 4月に起こったボストンマラソン爆弾テロ事件に関するツイートでは，デマや噂の情報が全体の29%を占めていた，という研究結果もある[3]．これら事例の他にも，流言が拡散されることで多くの利用者の混乱を招くような状況はTwitter上で後を絶たず，有志によってTwitter上の流言情報が手動でまとめられる事態にも発展している（注1）_．このようにTwitter上では流言による様々な問題が発生しているが，これらの問題が発生するのは流言が拡散されることで多くの人の目に触れてしまうためである．本研究ではこの点に注目し，Twitter上の流言検出に情報の拡散可能性を組み合わせることで流言検出の精度を向上することを目的とする．本稿ではまず，拡散されるツイートの特徴を素性とし，拡散される可能性が高いと考えられるツイートを分類する拡散可能性分類（注1）：デマに関連する 1630 件のまとめ - Togetter まとめ http://togetter.com/t/%E3%83%87%E3%83%9E 器を構築する．そしてこの拡散可能性分類器によって分類されたツイートに対して，流言訂正情報をもとに流言検出を行い，拡散可能性を用いる有効性を検証する．本研究の貢献を以下に示す． • 拡散する可能性の高いツイートを抽出する拡散可能性分類器の実装 • 流言検出に拡散可能性を用いるという手法の提案 • 流言検出に拡散可能性を用いることの有効性を示した検証結果本論文は以下のように構成する．まず第2章では本研究と関連のある既存研究について述べる．第3章では拡散可能性分類器の構築と，本研究で提案する流言検出手法を説明する．第4 章では拡散可能性分類器と提案した流言検出手法の評価のための実験内容と実験結果を述べる．第5章では実験結果に基づいた考察を述べる．最後に第6章で本論文のまとめと将来研究について述べる．

2.

3. 提案手法

3. 1 概要本研究では2. 2節で紹介した，拡散されるツイートに見られる様々な特徴を用いることで拡散される可能性の高い，つまり多くの利用者の目に触れる可能性が高いツイートに的を絞り，それらの中から流言を検出する．図1で今回の提案手法の流れを説明する．まず，投稿されるツイートの中から拡散される可能性の高いツイートを予め拡散可能性分類器によって分類する．そして，流言訂正情報分類器によって取得した流言訂正情報ツイートをもとにして，拡散可能性の高いツイートの中から流言ツイートを検出する．流言検出に情報の拡散可能性を組み合わせるという，この新たな手法で流言検出の精度向上を目指す． 3. 2 拡散可能性分類器の構築本研究では「拡散可能性分類器」という，拡散しそうか否かでツイートを分類をする分類器を構築する． 3. 2. 1 使用データ拡散可能性分類器の構築に用いたデータは，2015/12/17∼20 のツイートから無作為に抽出されたリツイート数100以上のツイート15,000件と，リツイート数100未満のツイート15,000 件の計30,000件である．拡散したツイートかどうかはそのツイートのリツイート数をもとに判断することとし，閾値については今回は暫定的にリツイート数100とした． 3. 2. 2 素性拡散可能性分類器の構築に用いた素性は表1の通りである．単語の有無を用いた素性では，2. 2節にて示した興梠ら[11]，安田[2]，梅島ら[13]の研究を参考とし，理由を示す単語を「背景，理由，秘密，なぜ，何故，裏側，真実，知られざる，実態，とは」，方法を示す単語を「法則，作り方，方法，秘訣」，驚きを示す単語を「すごい，凄，驚，驚き，素敵，びっくり，ビッ

(3)

表 1 拡散可能性分類器の素性素性型次元数画像の添付の有無二値 1 URL の有無二値 1 ツイートした時間帯二値 5 (2∼5，6∼9，10∼15，16∼19，20∼1 時) ツイートした日 (平日，休日) 二値 2 ツイートの先頭は【か二値 1 最初の形態素は固有名詞か二値 1 2 番目の形態素は名詞か二値 1 場所を示す単語の有無二値 1 ツイートの形態素数整数 1 ツイートの感情指数（注 2） _実数 ₁ 理由を示す単語の有無二値 1 方法を示す単語の有無二値 1 驚きを示す単語の有無二値 1 特別を示す単語の有無二値 1 拡散を促す表現の有無二値 1 !マークの数整数 1 ?マークの数整数 1 クリ」，特別を示す単語を「特別，スペシャル，とっておき，だけの，得，特，初，重大」，拡散を促す表現を「拡散，広めて，知らせて，RT，リツイート」と定めた． 3. 2. 3 学習アルゴリズム

分類器の学習にはSVM(Support Vector Machine)を用いる．今回は，libsvm3.20を用いてデータのスケーリング，パラメータ調整，分類器構築を行った． 3. 3 流言ツイートの検出流言ツイートの検出は，次のアプローチで行う．（1）流言訂正情報のツイートを形態素解析し，文章中で最初に出てきた「デマ」という単語より前の一般名詞，固有名詞，動詞を抽出する．（2）検出にかけるツイートを形態素解析し，一般名詞，固有名詞，動詞を抽出する．（3） (1)で流言訂正情報から抽出した形態素が(2)で抽出した形態素にいくつ含まれているか数える．（4）検出にかける各ツイートに含まれていた(1)で抽出した形態素の平均個数以上が，ツイート中に含まれていればそのツイートは流言ツイートだと判断する．

4. 実

験

本論文では，2種類の実験による評価を行う． 4. 1 拡散可能性分類器の性能評価本節では，3. 2節で構築した拡散可能性分類器の評価を行う． 4. 1. 1 実験内容 3. 2節で構築した拡散可能性分類器が，どの程度正確に拡散したツイートを分類できるかについてlibsvm3.20による10分割交差検定を用いて評価を行う．3. 2. 1節でも説明した通り，（注2）：感情指数の算出には，日本語評価極性辞書 (名詞編)ver.1.0 [14] [15] を用いた．表 2 使用したツイートデータと拡散可能性分類器の分類性能ツイートデータの種類 Accuracy Precision Recall F 値

30,000 ツイート 0.882 0.868 0.905 0.886 1,000 ツイート 0.868 0.843 0.904 0.873 今回は「拡散した」の基準をリツイート数100以上と暫定的に定めることとする． 4. 1. 2 使用データ使用するデータは次の2つである．（1） 3. 2. 1節で示した2015/12/17∼2015/12/20のツイート30,000件(正クラス15,000件，負クラス15,000件) （2） (1)のデータから無作為に抽出したツイート1,000件 (正クラス500件，負クラス500件) 4. 1. 3 実験結果 4. 1. 2節で示した30,000件と1,000件のツイートデータを用いて，libsvm3.20による10分割交差検定を行った結果を表 2に示す．表2に示した結果から，3. 2節で構築した拡散可能性分類器は85%以上の正解率で拡散されるツイートとそうでないツイートを分類できることが分かった．また，30,000件のツイートを用いた場合と1,000件のツイートを用いた場合の比較より，サンプル数の違いによる影響は低いとみられる．このため，以降は1,000件の方のデータを用いて実験を行っていく． 4. 2 流言ツイート検出の評価本節では，3. 3節で提案した流言ツイート検出方法について評価を行う． 4. 2. 1 実験内容まず，3. 3節で説明した流言ツイートの検出方法がどの程度正しく流言ツイートを検出できるかを検証する．流言訂正情報であるツイートと，検出にかけるツイートのデータセットを用意し，それらのツイートに対して提案した検出方法を用いる．次に，ツイートの拡散可能性を用いることの有効性を検討する．評価は，データセットの全ツイートに対して流言検出を行った場合と，拡散可能性分類器によって拡散されると分類されたツイートのみに対して流言検出を行った場合の2つの実験結果の比較により行う． 4. 2. 2 使用データ本実験では，過去にTwitter上で実際に拡散された2つの流言に関するデータを用いる．今回取り上げる流言は次の2つである．流言1 「スマートフォンの発信画面で110を押して発信すると通信速度が速くなる」流言2 「年金運用失敗で損失額21兆5000億円」それぞれの流言について「拡散した流言」「拡散しなかった流言」「流言に関連するジャンル」「その他の内容」のツイートを含む40件のツイートデータと，5件の流言訂正情報を用意する．表3に流言1の流言訂正情報，表4に流言2の流言訂正情報，表5に40件のツイートデータの内訳を示す． 4. 2. 3 用いる流言の背景 4. 2. 2で示した，本実験で用いる2つの流言の内容について詳しく説明する．

(4)

表 3 使用する流言 1 についての訂正情報番号ツイート本文 1 110 にかけたら通信制限解除するていうデマの情報のやつがテレビのニュースであってた 2 「110 を入力すると通信速度が速くなる」のデマ拡散 22 府警に影響 3 110 にかけると通信速度が向上する的なデマに騙される人って本当にいるんだなぁと 4 実際にやってて気が付かないものなのかな。110 なんて日時生活では入力しないのでピンとこないのか。∼ 通信制限を解除できる裏ワザ広まる。実際は 110 番通報してしまうデマ http://…… 5 iPhone で 110って押して通話すると通信速度が速くなるっていうデマが出回ってるようだけどこれ騙される人いるのか…？表 4 使用する流言 2 についての訂正情報番号ツイート本文 1 ツイッターで拡散されてた『年金損失 21 兆 5 千億円』ってデマだった。 2 年金損失 21 兆 5 千億円デマの勢いが衰えない 3 年金損失 21 兆円のデマ、本当のところどうなってる？なぜ拡散したの？: 私たちの公的年金に 21 兆 5000 億円の損失が出ているという話がネットで広がっています。これはツイッターで拡散した人の誤解であり、... http://…… 4 去年の段階で、最悪で 21 兆 5000 億円の損失が出る恐れがあることは分かっていたことじゃないか。それが伝言ゲームで断定調になったらしい。年金損失 21 兆円のデマ、本当のところどうなってる？なぜ拡散したの？ — THE PAGE http://…… 5 大きな芸能ニュースの裏で 21 兆の話はデマ。短期に 7 兆マイナスだったことはマジ。表 5 流言検出の実験で使用したデータの種類別件数流言の種類拡散流言非拡散流言流言関連その他計流言 1 2 4 4 30 40 流言 2 3 5 4 28 40 流言1: スマートフォンの発信画面で110を押して発信すると通信速度が速くなる 2015年8月下旬にTwitter上で拡散された流言である．スマートフォンのキーパッドで「1」を2回押した後に「0」を1 回押し，その0.5秒以内に通話ボタンを押すと通信制限が解除される，という流言である．110番と書かずに1を2回，0を 1回と分かりにくく書いている点や，0.5秒以内に通話ボタンを押すという制約をつけ，通話前に考える隙を与えないよう工夫されている点から，最初から他人を騙す目的をもって発信された流言であると考えられる．この流言の拡散により，22府県において110番への誤通報の増加が確認され（注3）_{，社会的混乱} を招いた．（注3）：デマで 110 番誤通報急増 22 府県、ツイッターで拡散: 日本経済新聞 http://www.nikkei.com/article/DGXLASDG26H6F W5A820C1000000/ 表 6 流言 1 における流言検出の結果 (全ツイート対象) 訂正情報番号拡散流言非拡散流言流言関連その他 1 0/2 1/4 2/4 4/30 2 1/2 2/4 2/4 4/30 3 1/2 2/4 2/4 4/30 4 1/2 0/4 2/4 7/30 5 2/2 4/4 4/4 4/30 表 7 流言 2 における流言検出の結果 (全ツイート対象) 訂正情報番号拡散流言非拡散流言流言関連その他 1 3/3 5/5 3/4 2/28 2 3/3 5/5 3/4 1/28 3 3/3 5/5 3/4 1/28 4 3/3 5/5 4/4 9/28 5 0/3 0/5 0/4 0/28 表 8 拡散可能性分類器によって流言 1 のデータセットから省かれたツイート数とその種類別件数ツイート種類拡散流言非拡散流言流言関連その他全ツイート (40 件) 2 4 4 30 抽出後 (23 件) 2 1 3 18 省かれたツイート数 0 3 1 12 省いた拡散ツイート数 - 0 0 3 省いた非拡散ツイート数 - 3 1 9 正解率 - 1.0 1.0 0.75 表 9 拡散可能性分類器によって流言 2 のデータセットから省かれたツイート数とその種類別件数ツイート種類拡散流言非拡散流言流言関連その他全ツイート (40 件) 3 5 4 28 抽出後 (22 件) 2 5 2 13 省かれたツイート数 1 0 2 15 省いた拡散ツイート数 1 - 1 0 省いた非拡散ツイート数 0 - 1 15 正解率 0.0 - 0.50 1.0 流言2: 年金運用失敗で損失額21兆5000億円 2016年1月下旬にTwitter上で拡散された流言である．国が年金資金の運用を失敗してしまい21兆5000億円の損失が出てしまった，という流言である．事実は，年金資金運用失敗により想定される「最大損失額」が21兆5000億円になるというものであった（注 4）_{．流言を最初に発信した人がニュース中の} 「最大損失額」を実際に損失した額だと誤解してTwitter上に投稿してしまったことで，21兆5000億円の損失が出てしまったという流言が拡散されることになってしまったと考えられる．この流言の発端となった投稿者は既に当該ツイートを削除し， Twitter上で謝罪している． 4. 2. 4 実験結果提案手法を用いて，4. 2. 1節に示した流言検出の実験を行った結果を表6，表7に示す．次に，40件のツイートデータに対（注4）：年金損失 21 兆円のデマ、本当のところどうなってる？なぜ拡散したの？—THE PAGE(ザ・ページ) http://thepage.jp/detail/20160121-00000001-wordleaf

(5)

表 10 流言 1 における流言検出の結果 (拡散すると思われるツイートのみ対象) 訂正情報 No 拡散流言非拡散流言流言関連その他 1 0/2 (± 0) 0/4 (-1) 1/4 (-1) 1/30 (-3) 2 1/2 (± 0) 1/4 (-1) 0/4 (-2) 1/30 (-3) 3 1/2 (± 0) 0/4 (-2) 1/4 (-1) 1/30 (-3) 4 1/2 (± 0) 0/4 (± 0) 2/4 (± 0) 7/30 (± 0) 5 2/2 (± 0) 1/4 (-3) 3/4 (-1) 1/30 (-3) 表 11 流言 2 における流言検出の結果 (拡散すると思われるツイートのみ対象) 訂正情報 No 拡散流言非拡散流言流言関連その他 1 2/3 (-1) 5/5 (± 0) 2/4 (-2) 1/28 (-1) 2 2/3 (-1) 5/5 (± 0) 2/4 (-2) 1/28 (± 0) 3 2/3 (-1) 5/5 (± 0) 2/4 (-2) 0/28 (-1) 4 2/3 (-1) 5/5 (± 0) 2/4 (-2) 5/28 (-4) 5 0/3 (± 0) 0/5 (± 0) 0/4 (± 0) 0/28 (± 0) して3. 2節で構築した拡散可能性分類器を用い，拡散すると思われるツイートを抽出した結果とその内訳を示したのが表8，表9である．そして，拡散可能性分類器によって抽出された，拡散すると思われるツイートに対して流言検出の実験を行った結果を表10，表11に示す．表中，括弧内に記されている数字は表6，表7にて示した全ツイートを対象とした結果からの検出数の変化である．表8，表9から分かる通り，拡散可能性を用いることで拡散されていないツイートの一部を検出対象から省くことができた．表10，表11を見ると拡散可能性分類器によってツイートを省いた分，誤検出の数を抑えることができていることが分かる．この結果から，誤検出を抑えるという観点において，流言検出に拡散可能性を用いることは有効であると考えられる．しかしながら流言2については，拡散している流言のうち1つが拡散可能性分類器によって省かれてしまったために検出できていない．この点については課題が残る．一方，提案手法が正しく流言ツイートを抽出できるかについては，まだまだ改良の必要があると考える．表6，表7の結果からも分かる通り，用いる訂正情報によっては検出すべきである拡散した流言ツイートが検出できなかった．今回提案した手法は本文の単純なマッチングのみで構成されていたが，それでは判断材料として不十分であったことが窺える．検出できなかったツイートについては次章の考察にて述べる．

5. 考

察

5. 1 拡散可能性分類器による分類結果 5. 1. 1 ツイートのメタデータをもとにした素性の有効性ツイートのメタデータをもとにした素性(画像の添付，URL の有無，投稿時間帯，投稿日は平日か休日か)に当てはまるツイートの割合を分類結果ごとにまとめたグラフを図2に示す．図2より，分類結果がtp,fnのツイートに多く画像が添付されていることが分かるので，画像の有無はツイートが拡散するかどうかに大きく関わっているといえる．これは興梠ら[11]の図 2 メタデータを用いた素性に当てはまるツイートの分類結果ごとの割合図 3 ツイート中の単語を用いた素性に当てはまるツイートの分類結果ごとの割合研究結果に矛盾していない．一方で，URLの有無については画像添付ほどの傾向は見られなかった．また，ツイートの投稿時間帯については，20∼1時に投稿されたツイートに拡散されたツイートが多く含まれており，他の時間帯と比較してもfnに含まれるツイート数と比べてtpに含まれるツイート数が多いことから，20∼1時に投稿されたツイートは比較的高い割合で拡散したツイートを分類できていることが分かる．しかし，6∼9 時に投稿されたツイートについては，tpに含まれるツイート数に比べてfnに含まれるツイート数が圧倒的に多いことから，拡散したツイートをあまり分類できていないことが分かる．このことから，時間帯によって拡散するツイートの傾向は変化している可能性がある．このため，拡散したツイートをうまく捉えられていなかった朝の時間帯のツイートについて更に調査を行い，その傾向を究明する必要がある．投稿日が平日か休日かについても時間帯と同じことが言える．平日のツイートについては拡散したツイートを比較的よく分類できているが，休日のツイートについては拡散したツイートを捉えられていない．平日か休日かによっても拡散する要因は変化している可能性があることが窺える． 5. 1. 2 ツイートに含まれる単語をもとにした素性の有効性次に，ツイート中で使用されている単語を用いた素性に当てはまるツイートの割合を分類結果ごとにまとめたグラフを図3 に示す．図3より，まずどの素性についても当てはまるツイートの数が少なかったことが分かる．理由，方法，驚き，特別，拡散を示す単語については3. 2. 2節でも説明したように，こちらで用

(6)

表 12 分類結果ごとのツイートの形態素数平均値 tp tn fp fn 43.23 21.62 23.19 38.02 意したいくらかの単語に当てはまる単語があるかで判断を行ったため，類義語を取りこぼしてしまっている可能性もある．同じような意味を示す単語でよく使われている単語が他に有るか，また拡散に大きく寄与するような表現などが他にもないか，調査する必要がある．しかし，中でも拡散を促す表現については，その表現が入っているツイートが非常に高い可能性で拡散されていることが分かった．このことから拡散を促す表現についてはツイートの拡散に大きく寄与していることが分かるので，分類の際にこの素性に重みをつけるなどすると更に拡散されるツイートを的確に分類することができると考える． 5. 1. 3 分類を誤ったツイートまず，分類結果ごとのツイートの形態素数の平均値を表12 に示す．表12より，拡散されているツイート(tp,fn)は形態素数が比較的多い傾向にあることが分かる．しかし，fnのツイートを確認すると画像付きで文章が短いツイートが多く見つかった．このように，分類を誤ったツイートの中には，短文で拡散していたツイートが存在していた．形態素数20個以下の拡散されていたツイートは，今回用いたデータの中で拡散されているツイート500件中，81件であった．また，形態素数20個以下の拡散されていたツイートの中で画像が添付されていないものは81件のうち14件のみであった．これより，短文で拡散されたツイートのほとんどには画像が添付されていたことになる．図2にて確認した，画像の添付がツイートの拡散に寄与していることがこの結果からも分かる．このことから，画像の添付はツイートの拡散可能性を見極める重要な要素であることが窺える．そのような拡散可能性に大きく寄与する素性とそうでない素性に対してそれぞれ適切な重み付けを行なうことで誤検出を更に抑えられる可能性があると考えられる．また，画像添付無しの短文にも関わらず拡散されていたツイートの投稿主はほとんどが著名人や企業の公式アカウントであった．このことから，投稿ユーザによって拡散の規模が変わってくることが確認できる．ユーザ間の拡散の規模の違いに大きく関わっていると考えられるのは投稿主とリツイートしたユーザのフォロワー数である．フォロワーの数が多いほど，その人のツイートやリツイートを見る人の母数は大きくなる．安田[2]の研究では，解析したデータセットにおいて20回以上リツイートされているツイートは全て拡散されていく過程で500 人以上のフォロワーを持つユーザにリツイートされていたという調査結果がある．これより，投稿主やリツイートしたユーザのフォロワー数を新たに判断材料として取り入れることでより良い分類ができるようになると考えられる． 5. 2 提案手法による検出結果 5. 2. 1 拡散可能性を用いたことによる流言検出結果の変化まず，拡散可能性を用いることによる誤検出数の変化を見る．表10，表11より，流言1については訂正情報1,2,3,5，流言2 については訂正情報1,2,3,4において拡散可能性を用いることで誤検出数を抑えることができている．この結果から流言検出に拡散可能性を用いることは誤検出抑制の観点から有効であると考える．一方，拡散可能性を用いることによる正しい流言検出数の変化を見る．表10，表11に示す拡散した流言の検出数について，流言1については変化は見られないものの，流言2については減少してしまっていることが分かる．これは表9からも分かる通り，拡散可能性分類器が拡散した流言を誤って省いたことが原因である．これは拡散可能性を用いる欠点といえる．拡散可能性分類器の分類精度は4. 1. 3節より，1,000件のツイートを用いた場合で86.8%の正解率であり，90.4%の再現率である．より取りこぼしの少ない正しい流言検出を実現するためには，拡散可能性分類器の性能において再現率を向上させる必要がある． 5. 2. 2 検出できなかったツイートの分析今回の実験での流言検出結果において検出できなかったツイートについて考察する．流言1における流言検出について，表6に示す結果からは，用いる訂正情報によっては流言ツイートが検出できていない場合があったことが分かる．今回用意した，流言1に関する拡散した流言ツイート2件のうちの片方は「書き直した笑iPhoneの人めっちゃいいやん」という本文で，添付されている画像に流言の内容が明記されていたものであった．訂正情報1,2,3,4はこのツイートを検出できていなかった．この結果より，本文のみの解析では流言検出手法としては不十分であることが窺える．この例の他にも，画像だけではなく本文中のURLなどに流言情報が含まれている場合やリプライを使ってリプライ先の流言情報を訂正している場合なども考えられる．また，社会情勢の様々な変化や流行の移り変わり， Twitter上のトレンドの変化など，流言かどうかを判断するために活用できそうな要素は多く存在する．このことから，更に正確な分類を実現するためには，検出に用いる判断材料を増やすことで幅広い流言ツイートに対して対応できるよう改良する必要がある．また，流言2における流言検出について，表7に示す結果からは，訂正情報5が1つもツイートを検出できていないことが分かる．流言ツイートを全く検出できなかった原因として，訂正情報5中に抽出の対象となる流言関連の情報が存在しなかったことが挙げられる．訂正情報5は表4にも示す通り「大きな芸能ニュースの裏で21兆の話はデマ。短期に7兆マイナスだったことはマジ。」というものであった．提案手法では「デマ」という単語以前の一般名詞，固有名詞，動詞のみを抽出するため，この訂正情報5から抽出される単語は「芸能ニュース，裏」のみであった．数詞は抽出単語に含めていないため「21，兆」はこれに含まれていない．これをもとにして検出を行っていたためにどのツイートともマッチしなかったのだと考えられる．この考察に基づけば，数詞を抽出単語に加えればこのようなツイートも検出できそうであるが，新たな問題が発生した．数詞を抽出対象に加えて全ツイートを対象に流言2のデータセットに対して行った流言検出結果を表13に示す．数詞を抽出対象に加えた場合，流言ツイートは取りこぼしなく検出できたが，

(7)

表 13 流言 2 における数詞を加味した場合の流言検出の結果 (全ツイート対象) 訂正情報 No 拡散流言非拡散流言流言関連その他 1 3/3 5/5 4/4 4/28 2 3/3 5/5 4/4 1/28 3 3/3 5/5 4/4 1/28 4 3/3 5/5 4/4 9/28 5 3/3 5/5 4/4 0/28 その一方で流言に関係したことを述べているツイートについても，流言ではないのに全て流言であると誤検出されてしまう結果となった．また，数詞は様々な場面で用いられる一般的な単語であるため，関係のないツイートを多く検出してしまう危険性も増える．このため，数詞を抽出する単語に追加するという手段とは違った方法によって解決する必要があると考える． 5. 2. 3 誤検出してしまったツイートの分析次に，今回の実験での流言検出結果において誤検出してしまったツイートの傾向について考察する．誤検出の中で傾向として目立っていたのが，表6中の訂正情報1,2,3,5において，それぞれその他のツイートから4件が誤検出されてしまっていることである．これら4件はどれも同じツイートを誤検出してしまっており，それらのツイートには共通して「する」という単語が含まれていた．一方で，流言訂正情報1,2,3,5についても「デマ」という単語より前の本文中，つまり提案手法によって抽出の対象となった文章中にも「する」という単語が含まれていた．これが訂正情報1,2,3,5という多くの訂正情報で共通のツイートが誤検出されてしまった理由と考えられる．本来，流言情報を特定するための単語が入っているべきところに一般的な単語が入ってしまっていたことが，このような誤検出を引き起こしてしまった．このような事態を防ぐためには，訂正情報から抽出した形態素に含まれる一般的な単語を省く必要がある． 5. 2. 4 流言の種類ごとの検出率の違い最後に，拡散された流言ツイートの検出率について流言の種類ごとに比較する．表6，表7より，流言であるツイートについては流言1よりも流言2の方が正しく検出できていることが分かる．この検出率の違いは，文字数の違いによるものであると考える．流言自体を短い言葉で表しやすい内容であった流言 2に比べて，手順を踏んで説明しなければならない流言1は流言自体の文字数が比較的多かった．これに関連する結果として，表6，表7中の訂正情報4による検出結果がある．流言1,2の訂正情報4は，表3，表4から分かる通り，「デマ」という単語がツイートの後ろの方にあるという特徴を持つ．そして流言1,2共に訂正情報4を用いた検出において，その他のツイートの誤検出が他の訂正情報による検出よりも多いことが分かる．「デマ」という単語が後ろの方にあることは，抽出対象の文字数がそれだけ多くなることを意味する．抽出対象が長い分，流言と直接関係ない単語もより抽出されてしまい，その影響でその他ツイートの誤検出が増えたと考えられる．これらのことから今回提案した検出手法では，抽出対象の文字数が多い訂正情報を用いた検出を苦手とすることが分かった．そしてこの弱点より，長い文中から的確に訂正情報を抽出する性能がまだ不足していることが窺える．今回の提案手法の改善すべき点の一つとして，文脈の情報を用いるなどして，流言訂正情報が何を訂正しているのかを更に正確に抽出できるように改良する必要があるという点が挙げられる．

6. まと

め

本論文では，誰もが情報を発信できることで現在注目を集めているSNSからTwitterを取り上げ，Twitter内で投稿された流言ツイートが利用者の混乱を招いているという問題に目を向けた．SNS上で発生する流言による問題は情報が拡散されて初めて発生するものであり，拡散されない流言については被害が少ない分，大きな問題とはならない．本研究ではこの点から流言と拡散の関係性に注目し，流言検出の精度向上のために，流言検出と拡散可能性を組み合わせて用いるという新たな手法を提案した．今回提案した手法は，拡散される可能性が高いと判断されたツイートの中から，流言訂正情報に基づいて流言ツイートを検出するというものであった．そして提案手法の実現のために拡散可能性分類器を構築し，流言訂正情報を用いた流言ツイート検出がどの程度できるか実験を行った．拡散可能性分類器については，ツイート30,000件を用いて訓練させた時に88.2%の正解率，90.5%の再現率を得ることができた．また，ツイートの投稿時間帯や，投稿日が平日か休日かによって分類結果に差がみられた．このことから投稿時間帯や投稿日に応じて拡散に寄与する要因は異なっている可能性があることが分かった．他にも，画像添付の有無や形態素数といった複数の素性において，拡散されたツイートとされていないツイートの間にはっきりとした関係性が見られた．流言ツイート検出の手法については，現段階では検出のための判断材料が本文しかなかったため正確な検出を行う上ではまだ不十分であったと考える．しかし，拡散可能性を用いることについては，拡散可能性分類器によって拡散しないと思われるツイートを対象から省くことにより，誤検出数を抑えることができるという点で有効性を見出すことができた．これらの実験結果を踏まえた上で，本研究の貢献を以下に示す． • 拡散する可能性の高いツイートを抽出する拡散可能性分類器の実装 • 流言検出に拡散可能性を用いるという手法の提案 • 流言検出に拡散可能性を用いることの有効性を示した検証結果流言検出に拡散可能性を組み合わせるという新たな観点からの流言検出が有効であることを示すことができたため，流言が引き起こすSNS上での実際の問題を解決することに貢献できたと考える．しかしながら，検出精度については従来の研究以上の結果は出せていないため，より正確な自動検出という点においては課題が残っていると言える．一方で，今回実装した拡散可能性分類器は，拡散するツイートを9割弱の正解率で抽出できたため，この分類器は流言検出に留まらず，様々なTwitter

(8)

上の問題を解決する際に活用できると期待している．今後は，情報拡散分類器と流言ツイート検出手法の実験結果から得られた傾向や問題点をもとにしてそれぞれに改良を加えることで，より正確な流言の自動検出の実現を目指す．また，平常時と災害時の違いを始めとし，社会情勢の変化や，愉快犯，特定人物への嫌がらせ，ビジネス，誤報などといった流言を投稿する目的の違いなどによって流言ツイート自体の特徴や傾向も変化すると考えられる．今回取り扱った2つの流言についても，4. 2. 3節で述べたように流言が投稿された目的はそれぞれ異なっていた．幅広い内容の流言に対応するためにも，そのような特徴や傾向を究明し，それに応じた検出法を考案することも必要であると考える．文献 [1] 吉次由美：東日本大震災に見る大災害時のソーシャルメディアの役割，放送研究と調査 2011 年 7 月号，NHK 放送文化研究所， 2011． [2] 安田雪：ソーシャルメディア上の情報拡散の特性−東日本大震災時のデマの事例とハブの役割，関西大学『社会学部紀要』第 45 巻第 1 号，pp.33-46，2013

[3] Aditi Gupta, Hemank Lamba, and Ponnurangam Ku-maraguru: $1.00 per RT #BostonMarathon #PrayFor-Boston: Analyzing Fake Content on Twitter, eCrime Re-searchers Summit (eCRS), pp.1-12, 2013.

[4] 村山優子，向井未来，西岡大，齊藤義仰：緊急時の Twitter におけるデマ情報拡散を考慮したリツイートの意思決定モデルの提案，マルチメディア、分散、協調とモバイルシンポジウム (DICOMO2013)，pp.873-879，2013 [5] 宮部真衣，梅島彩奈，灘本明代，荒牧英治：流言情報クラウド: 人間の発信した訂正情報の抽出による流言収集，言語処理学会第 18 回年次大会，pp.891-894，2012

[6] Jing Ma, Wei Gao, Zhongyu Wei, Yueming Lu, and Kam-Fai Wong: Detect Rumors Using Time Series of Social Con-text Information on Microblogging Websites, the 24th ACM International on Conference on Information and Knowledge Management (CIKM ’15), pp.1751-1754, 2015. [7] 鍋島啓太，水野淳太，岡崎直観，乾健太郎：訂正パターンに基づく誤情報の抽出と集約，情報処理学会第 75 回全国大会，pp.2-179 - 2-180，2013． [8] 須田剛裕，小嶋和徳，伊藤慶明，石亀昌明，鳥海不二夫：震災時におけるツイッターのトレンドワードと拡散情報を利用したデマ推定の一考察，第 75 回全国大会講演論文集，pp.99-101，2013． [9] 宮部真衣，梅島彩奈，灘本明代，荒牧英治：マイクロブログにおける流言の特徴分析，情報処理学会論文誌，Vol.54，No.1， pp.223-236，2013．

[10] Vahed Qazvinian, Emily Rosengren, Dragomir R.Radev, and Qiaozhu Mei: Rumor has it: Identifying Misinforma-tion in Microblogs, the 2011 Conference on Empirical Meth-ods in Natural Language Processing, pp.1589-1599, 2011.

[11] 興梠紗和，木村昭悟，藤代裕之，西川仁：SNS 上での拡散を誘

発する web ニュース説明文の調査と自動選択，第 7 回データ工学と情報マネジメントに関するフォーラム，2015

[12] Akiyo Nadamoto, Mai Miyabe, and Eiji Aramaki: Analy-sis of Microblog Rumors and Correction Texts for Disaster Situations, the 15th International Conference on Informa-tion IntegraInforma-tion and Web-based ApplicaInforma-tions & Services (ii-WAS2013), pp.44-52, 2013. [13] 梅島彩奈，宮部真衣，荒牧英治，灘本明代：災害時 Twitter におけるデマとデマ訂正 RT の傾向，情報処理学会研究報告，研究報告データベースシステム，Vol.2011-DBS-152，No.4，pp.1-6， 2011 [14] 小林のぞみ，乾健太郎，松本裕治，立石健二，福島俊一. 意見抽出のための評価表現の収集. 自然言語処理，Vol.12, No.3, pp.203-222, 2005 [15] 東山昌彦, 乾健太郎, 松本裕治, 述語の選択選好性に着目した名詞評価極性の獲得, 言語処理学会第 14 回年次大会論文集, pp.584-587, 2008

拡散可能性を用いた流言ツイートの検出

DEIM Forum 2016 B6-4