デマ情報の収集及び分析 - 情報拡散メカニズム解明と拡散制御手法の構築

S I get

4.1 デマ情報の収集及び分析

本研究では，鳥海ら[67]によって収集されたツイートデータを使用する．これらのツイートデータは以下の方法によって収集されており，以下にその手法を引用する¹．

1. 「当該期間までに200件以上Tweetを行ったユーザーを列挙する．」 2. 「各ユーザーについて200件ずつTweetを収集する．」

3. 「全ユーザーの収集が終了した時点で，はじめのユーザーに戻り改めて未収集のTweetを最大200件収集する．」

この手法により，概ね網羅的にツイートが収集可能であるという．但し，上記手法を試みている間に200件以上ツイートしているようなユーザーに関しては，収

1出典:震災がもたらしたソーシャルメディアの変化，鳥海不二夫ら著，JWEIN11，p.1

表 4.1: 各日のツイート件数(2011年3月11日 24日) 日付ツイート数

2011年3月11日 23,412,446 2011年3月12日 16,365,240 2011年3月13日 14,426,839 2011年3月14日 17,036,622 2011年3月15日 18,246,496 2011年3月16日 17,688,258 2011年3月17日 15,736,640 2011年3月18日 16,456,983 2011年3月19日 17,125,320 2011年3月20日 16,793,213 2011年3月21日 14,822,535 2011年3月22日 18,197,419 2011年3月23日 19,613,136 2011年3月24日 13,833,894

集されていない．そのため，本データにTwitterに投稿された全ツイートが含まれてはいない．

収集したツイートの概要について述べる．収集されたのは，2011年3月5日〜

2011年3月24日までの間に日本語で投稿されたツイートである(以降，全ツイートデータ)．本研究では，東日本大震災以降に投稿されたデマ情報の拡散を対象とするため，3月11日〜3月24日のツイートを使用する．収集したツイートデータに含まれる情報は，ユーザー名，ツイートの内容，投稿時刻である．全ツイートデータにおける1日あたりのツイート投稿件数を表4.1に示す．

第2章で述べたようにTwitterの一般的な利用方法は，ユーザーが他のユーザーをフォローしてツイートを閲覧することであり，これによりネットワークが形成されている．このネットワーク(以降，フォロー・フォロワーネットワーク)も併せて収集された(注：2011年1月30日現在のデータ)．このフォロー・フォロワーネットワークには，896,775ユーザーの情報が含まれている．全ツイートデータ同

様，Twitterを利用する全てのユーザーのフォロー関係を収集できてはいない．ま

た，フォロー・フォロワーネットワークは静的なものではなく，日々変化する動的なネットワークであり，その点に注意が必要である．特に，東日本大震災の発生後，多くのユーザーが正確な情報を取得するためNHKや総務省，被災地域の自治体，地震速報等の公的な機関あるいは信頼のおけるTwitterアカウントを積極的にフォローしたため，震災以降のフォロー・フォロワーネットワークには大きな変化が生じたと推測できる[8, 67]．

4.1.1 デマ情報・訂正情報の抽出

本研究で分析及び再現の対象とするデマ情報及び訂正情報の抽出方法について述べる．本手法は，文献[11]にて用いられている手法である．対象とするデマ情報に関するツイートは複数の固有キーワードを含んでいる．よって，本研究でのツイートの分類はデマ情報毎に適切なキーワードを指定し，対象とするデマ情報及び訂正情報を抽出する手法を採用する．デマ情報および訂正情報の抽出手順を表4.2に引用する²．なお，この表4.2中の各用語は以下の様に定義されている³．

• 「必須キーワード: ある特定のデマ情報に言及するために，必ず含まれているべきキーワード」

• 「ネガティブキーワード:ある特定のデマ情報について，デマ情報を拡散させるツイートに含まれるキーワード」

• 「ポジティブキーワード:ある特定のデマ情報について，デマ訂正情報を拡散させるツイートに含まれるキーワード」

• 「候補ツイートデータ:全ツイートデータのうち，必須キーワードを含み，ある特定のデマ情報に言及している考えられるツイート集合」

2Twitterネットワークにおけるデマの拡散とデマの拡散防止モデルの推定[66]，白井崇士著，

p.20

3Twitterネットワークにおけるデマの拡散とデマの拡散防止モデルの推定[66]，白井崇士著，

p.19

表 4.2: デマ情報ツイートおよびデマ訂正ツイートの抽出手順⁴

Step1：インターネットのWebページ上に公開されているデマ情報を

ひとつ選択する．

Step2：ツイートがそのデマ情報について言及しているかどうかを判

別する基準として，デマ情報の内容から必須キーワードを設定する．

Step3：必須キーワードでツイートの検索を行い，デマ情報に関する

情報を含むと思われるツイート（候補ツイートデータ）を全て抽出する．

Step4：候補ツイートデータから，RT数が多いデマツイートとデマ

訂正ツイートを複数選択する．

Step5：選択したデマ情報ツイート，デマ訂正情報ツイートから，ネ

ガティブキーワード，ポジティブキーワードを設定する．

Step6：必須キーワード，ネガティブキーワード，ポジティブキーワ

ード全てを用いて検索を行い，候補ツイートデータから，デマ・デマ訂正情報ツイートデータを抽出する．

Step7：必須キーワード，ポジティブキーワードを用いて検索を行い，

デマ・デマ訂正情報ツイートデータから，デマ情報ツイートデータとデマ訂正情報ツイートデータを分離する．

• 「デマ情報・デマ訂正ツイートデータ:候補ツイートデータのうち，ネガティブキーワード，ポジティブキーワードを含むツイート集合」

• 「デマ情報ツイートデータ:デマ情報・デマ訂正情報ツイートのうち，ポジティブキーワードを含んでいないツイート集合」

• 「デマ訂正情報ツイートデータ:デマ情報・デマ訂正情報ツイートデータのうち，ポジティブキーワードを1つ以上含むツイート集合」

4Twitterネットワークにおけるデマの拡散とデマの拡散防止モデルの推定[66]，白井崇士著，

p.19より転載

全ツイート

ドキュメント内情報拡散メカニズム解明と拡散制御手法の構築 (ページ 65-69)