クラスタリングに基づく東日本大震災前後の情報拡散度の比較

(1)

クラスタリングに基づく東日本大震災前後の

情報拡散度の比較

Comparison of diffusiveness of information before and after the Great East Japan

Earthquake based on clustering

秦恭史

1

_諏訪博彦

1

_岸本康成

2

_藤原靖宏

2

_新井淳也

2

飯田恭弘

2

_岩村相哲

2

_{鳥海不二夫}

3

_安本慶一

1

Kyoji HATA

1

, Hirohiko SUWA

1

, Yasunari KISHIMOTO

2

, Yasuhiro FUJIWARA

2

, Junya ARAI

2

Yasuhiro IIDA

2

, Sotetsu IWAMURA

2

, Fujio TORIUMI

3

and Keiichi YASUMOTO

1

_{奈良先端科学技術大学院大学}

1

_{Nara Institute of Science and Technology}

2

_{NTT ソフトウェアイノベーションセンタ}

2

_{NTT Software Innovation Center}

3

_東京大学

3

_{The University of Tokyo}

Abstract: In the event of a disaster, it is important to spread information extensively to every corner, and

as one of them, Twitter is useful as a tool for information distribution as evidenced by related research. In order to make more use of Twitter, it is necessary to find important accounts with high spreading ability, Ishihara et al. extract important accounts as one network as a whole network. However, according to Amac et al., the Twitter network is thought to have close connection among close people, and it is considered to be divided into multiple clusters. As a result, the overall important account is not always important to everyone. Therefore, we do clustering using high speed graph mining technology corresponding to large scale Twitter network and extract important accounts by using page rank.

1 はじめに

近年，日本の災害事情は深刻化してきている．2011 年 3 月 11 日，東北地方を中心に起こった東日本大震災では，最大震度 7 の大地震とそれによる大津波の影響で甚大な被害をだした．2016 年 3 月 10 日時点における死者・行方不明者は 18,455 人，建築物の全壊，半壊は合わせて 400,326 戸が公式に確認されている[1]．また，2014 年には御嶽山が噴火，2016 年には再び最大震度 7 の地震が熊本で発生し，大規模な災害が頻繁に起こっている．このような災害時，いち早く情報を手に入れることは生死に関わる．そこで速効性という観点で注目されているのが Twitter 等の SNS である．実際に東日本大震災時，Twitter が災害情報の拡散において有用である事が総務省により証明されている．当時，Twitter には多くのメッセージが投稿され，地震に関するリアルタイムな情報のやり取りが行われた．そのやり取りをしているアカウントの中には，既存のマスメディアの情報発信チャンネルとしてだけでなく，首相官邸や総務省消防庁といった政府機関からの情報発信チャンネルとしても積極的に利用されるようになった[2]．このような背景において石原ら[2] は，Twitter をより活かすためには情報拡散能力の高いアカウントが重要となると考え，ネットワーク全体を一つのネットワークとして重要アカウントを抽出した．しかしながら，Amac ら[3] によれば Twitter ネットワークは趣味嗜好の近い人同士でつながりを持つものと考えられる．すなわち，ひとつの均一なネットワークだけでなく，複数のクラスタに分かれたネットワークと考えられる．そのため，ネットワーク全体で重要とされるアカウントが，すべての人々にとって重要であるとは限らない．結果として，単にネットワーク全体から重要アカウントを抽出しても，効率的な情報流通には貢献できないと考えられる．

(2)

本研究では，クラスタリングに基づく重要アカウントの抽出を試みる．しかし今回のようなビッグデータにおいて，従来のクラスタリング手法ではクラスタリングに膨大な時間とハイスペックなマシンを必要とするため，迅速な対応が迫られる災害時には不適切であった．この課題に対し我々は，大規模ネットワークに対しても高速にクラスタリング可能な Modularity ベースのクラスタリング[4] を行うことで，ネットワークの分割を行う．また，石原ら[2] は，次数中心性と媒介中心性に着目して重要なアカウントを抽出している．震災時のツイートネットワークは，リプライ，リツイートによるコミュニケーションネットワークとなっており，単にそのアカウントの次数や媒介性だけでなく，他のどのようなアカウントとつながっているかが重要となる．そのため，本研究では新たな重要アカウント抽出指標としてページランクに着目する．ページランクは，「有名なページは有名なページへリンクを張る」という考えに基づいて Web ページ間のリンクから，Web ページのランク付けを行う指標である．この考えを採用し，重要なアカウントは重要なアカウントとコミュニケーションをとるという考えに基づいて重要なアカウントの抽出を試みる．ページランクは，石原らが使用した次数中心性や媒介中心性よりも情報拡散時の重要アカウントをより適切に判断できると考える．大規模クラスタリングおよびページランクにより，災害時に情報を広範囲に隅々まで広げる情報拡散手法を実現する．加えて，提案手法を評価するために，情報の拡散を計る指標を定義する．予備実験として情報の拡散に偏りがあることを明らかにする．まず，Twitter ネットワークが，均一なひとつのネットワークではなく，複数のクラスタをもつネットワークの集合であることを確認するために，大規模クラスタリングを行い各クラスタの特徴を把握する．その後，情報拡散の偏りを「関西電力の節電呼びかけチェーンメール」のデマ情報拡散の事例に基づいて調査する．具体的には，このデマの情報が各ネットワーク（クラスタ）においてどの程度拡散されたのかを割合で算出する．クラスタリングの結果，1,149,490 のアカウントが 578 のクラスタに分かれ，一番規模の大きなクラスタのアカウント数が 151,435 アカウントとなった．また，規模の大きなクラスタには有名人のクラスタや Web サービスのクラスタ，海外アーティストのクラスタ等が存在した．また，デマのツイートをしたアカウントが各クラスタごとにどの程度存在しているのかを調べた結果，クラスタによって偏りがあったことから，ネットワーク全体において情報の拡散に偏りがあることが確かめられた．提案手法の評価のために，東日本大震災前後である 2011 年 3 月 10 日と 12 日のデータを使用し検証を行う．分析は従来手法と提案手法を用いた場合の情報拡散度の比較により行う．検証の結果，媒介中心性に対してページランクの方がより高い拡散度を得ることがわかった．また，小規模なクラスタに対してはクラスタリングに基づく重要アカウントの抽出手法が有効であることが確認できた． 2 章において関連研究について説明し，3 章においてクラスタリングによる情報の偏りについて述べる． 4 章では 3 章の結果を受け新手法について提案し，5 章で検証を行う．6 章で 3 章，5 章の結果について考察し，7 章で結論を述べる．

2 関連研究

石原ら[2]は，災害時の Twitter 上の情報流通において，異種協調型災害情報支援システム実現に向けた知見を得ることを目的としている．この異種協調型災害情報支援システムというのは，東日本大震災を受けて，今後も日本で発生するであろう様々な災害において災害救助支援を実現するための基盤技術である．具体的には，必要な情報や機能の多くはどこかに存在しているとの考えに基づき，どこかに存在している有用な情報を探し繋ぐという知的操作を行う．石原らは，東日本大震災時，この情報を「繋ぐ」という機能の一旦を担った Twitter に着目し，情報拡散の基点となるアカウントや情報を仲介するアカウントを発見することが重要だと考えた．情報拡散と情報仲介の性質は，ネットワーク分析における次数中心性と媒介中心性の指標で表現できると考え，重要なアカウントを発見している．しかし，この指標だけで十分だろうか．Amac ら[3] によれば，Twitter のような自発的に形成されるグループをクラスタリングにより特徴付けた結果，情報嗜好とつながりが共起しやすいということがわかっている．つまり，ネットワークの性質上，Twitter は情報嗜好の近い人同士でつながりを持つものと考えられ，複数のクラスタに分かれるということがわかる．ここから，もし発見したアカウントが一部のクラスタに偏ってしまった場合，情報の拡散に偏りが出てしまう可能性がある．よって，災害という緊急時，より多くの命を救うためには，情報をネットワーク全体に均等に拡散させなければならない．そこで本研究では，クラスタリングを用いた重要アカウントの発見を行う．しかし，今回のようなビッグデータにおいて従来のクラスタリング手法ではクラスタリングに膨大な時間とハイスペックなマシ

(3)

ンを必要とするため非現実的であった．高速グラフマイニング技術を実装した Garpon[4]を活用し， Modularity ベースのクラスタリングを行った．

3 予備調査：情報流通の偏り

本章では，情報拡散におけるクラスタ毎の情報の偏りを明らかにする．使用する情報は，東日本大震災時に問題となった関西電力デマの情報を使用する．このデマとは，要約すると「関東の電気の備蓄が底を尽きるので関西から送電を行う．そこで関西で節電を行い少しでも力になろう」というものである．この情報がクラスタ毎にどの程度拡散されたのか比較する．

3.1 分析概要

本分析の目的は，Twitter ネットワークに対するクラスタリング手法の検討と，クラスタリング毎の情報流通度の比較である．分析手順は以下の通りである．１．ネットワークの生成２．大規模クラスタリング（3 種類）３．クラスタリング結果の確認４．デマツイートをしたアカウント特定５．クラスタ毎の情報の偏りを比較まず，東日本大震災時のツイートデータを基に，コミュニケーションネットワークを生成する．コミュニケーションネットワークは，RT および Reply に基づいて構築される．次に，大規模クラスタリング手法を用いてクラスタリングを行う．本研究では，Modularity ベースのクラスタリング，等粒度クラスタリング，構造的クラスタリングの３つの手法を検討する．各手法について，以下に説明する． Modularity ベースのクラスタリング：Modularity と は与えられた分割に対して「グループ内のノード同士が繋がるリンクの割合」から「リンクがランダムに配置された場合の期待値」を引いた値として定義されるものである．この値が良いほど，より適切にグラフデータ内のクラスタを抽出できていることを示す．従来の Modularity ベースのクラスタリングではこのような大規模ネットワークにおけるクラスタリングは膨大な計算コストがかかるため難しかったが，本研究で使用した Grapon の Modularity ベースのクラスタリングは，計算対象となるノードとエッジの数を削減することにより，高速化を実現している[5]．等粒度クラスタリング：基本的には Modularity ベースのクラスタリングと同様に処理を行う．これに加えてグラフの分割数を k，クラスタの等粒度の度合いを決めるパラメータを a を指定可能とした手法である．この手法ではクラスタリングの進行中にクラスタ数が k×a を下回ると等粒度化に向けてクラスタをマージしていく．こうすることにより，各クラスタの大きさが同程度になるように柔軟にグラフを分割でき，並列処理に適したネットワークの分割が行える[6]．構造的クラスタリング：ノード間の構造的類似度を計算し，閾値を超える類似度のノード群をクラスタに，複数のクラスタに接続しているノードをハブ（橋渡し役）に，それ以外のノードを外れ値として分類を行う手法である．この手法は主に橋渡し役となるノードを見つけることに特化している[7]．なお，今回の調査では Modularity ベースのクラスタリング以外の場合，一番大きいクラスタの人数が，他のクラスタに対し圧倒的に大きくなる等のことから有意なクラスタリングはできなかった．そのため，以降の分析は行わなかった．クラスタリング結果の確認については，各クラスタの次数中心性上位のアカウントの内容を一つ一つ著者が確認した．その結果，後述の通り，Modularity ベースのクラスタリングにおいて，ニュースアカウントや有名人アカウント，bot アカウント，海外アーティストアカウントなどが，それぞれクラスタを形成していることが確認された．そのため，このクラスタリング結果に基づいて，情報流通度の比較を行った．クラスタ毎に情報流通度を比較するために，「関西電力デマ」をつぶやいたアカウントを抽出した．このデマには，さまざまな亜種が存在するが，それらを含めて特定している．最後に，特定されたアカウントが各クラスタにどの程度存在するかを比較し，情報流通度の偏りを確認する．

3.2 分析対象

分析対象は，震災前である 2011 年 3 月 10 日と，震災後である 3 月 12 日に日本語で Twitter に投稿されたツイートである．これは震災前後でネットワークが変わってしまう可能性があるためその二日を選んだ．また，取得したツイートの一日毎のコミュニケーション(リプライ，リツイート)に基づいて無向ネットワークを作成し，デマツイートをしたアカウントのリスト化を行う．

3.3 分析結果

本節では，クラスタリング結果と，各クラスタの情報流通度の比較結果について述べる．

(4)

3.3.1 クラスタリングの結果 クラスタリングを行った結果，震災前はクラスタ数が 578 個に分類され，震災後では 346 個に分類された．表 1，表 3 は震災前後のネットワークのクラスタリング行い，所属アカウント数が多い順番に並べた時の上位 10 クラスタの結果である．表 1 と表 3 を比べてみると震災前後で所属アカウント数上位のクラスタのアカウント数が大きく変わることが確認された．表 1 震災前の所属アカウント数上位 10 クラスタ順位クラスタ ID 所属アカウント数 1 274 151,435 2 226 133,305 3 443 77,657 4 124 69,729 5 573 68,435 6 420 53,999 7 244 53,647 8 353 46,376 9 170 45,315 10 92 44,611 表 2 震災前の次数中心性上位 10 アカウント次数順位クラスタ ID : 274 クラスタ ID : 226 クラスタ ID : 443 1 swedenhills Setsulla justinbieber 2 Yomiuri_Online karashichan JavaJoeMyspace 3 47news shuzo_matsuoka professor_adail 4 mainichijpnews now_fes eseMendiola 5 kenichiromogi OttikiCharlie alfian_007 6 rinrin_kit zenra_bot GregoryMJackson 7 Mujina30 Le_potiron mamm5 8 gizmodojapan htmk73 saferprint 9 lgm_ scarletrain193 Sexstrology 10 masason ultrasoul_bot randomtwi

表 3 震災後の所属アカウント数上位 10 クラスタ順位クラスタ ID 所属アカウント数 1 252 241,985 2 269 202,579 3 332 155,817 4 102 101,547 5 45 93,804 6 145 75,281 7 122 55,109 8 147 33,846 9 261 32,721 10 309 29,336 表 4 震災後の次数中心性上位 10 アカウント次数順位クラスタ ID : 252 クラスタ ID : 269 クラスタ ID : 332 1 NHK_PR UN_NERV DECADE_1105 2 nhk_seikatsu zishin3255 BSJ_ACT4 3 nhk_HORIJUN ZIMUING m78_ultraman 4 twj han_Warai sato_hiromi_s 5 takapon_jp haonirohiroaki sarasiru 6 Fukanju tachiiri sugercraft 7 Tsuda yuuki_xxx eew_jp 8 Masason cellmon solid_vox 9 FDMA_JAPAN AKUALU abfly 10 h_ototake rin0330 watch_akiba

表 2，表 4，はその時の上位 3 クラスタをそれぞれピックアップし，そのクラスタ内における次数中心性の高い上位 10 アカウントを示している．表 2 より，震災前の所属アカウント数の一番多いクラスタ ID：274 には，Yomiuri_Online や kenichiromogi など影響力の高いニュースや有名人が多く所属している．このことからクラスタ ID：274 はニュース，有名人クラスタであることがわかる．同様に，クラスタ ID： 226 は bot，オタククラスタ，クラスタ ID：443 は海外音楽クラスタであることがわかる．表 4 についても同様に，クラスタ ID：252 は NHK，有名人クラスタ，クラスタ ID：269 はニュース拡散クラスタ，クラスタ ID：332 はアニメクラスタであることが確認できた． 3.3.2 情報流通度の結果 図 1，図 2 は震災前後の所属アカウント数上位 30 クラスタにおいてクラスタ毎にデマツイートをしたアカウントの割合を求めた結果である．図 1，図 2 から見てわかるように，震災前後に関わらず，明らかに情報が届きにくいクラスタがあることが確認できる．これらのクラスタ内のアカウントを 3.3.1.と同様に求めた結果，海外音楽クラスタや海外 web サービスのクラスタであることがわかった．図 1 震災前のデマツイートをしたアカウントの割合図 2 震災後のデマツイートをしたアカウントの割合

(5)

4 提案手法

前章では，各クラスタの特徴を捉え，クラスタ毎に情報の拡散に偏りがあることが確認できた．本章では，情報拡散の偏りを起こさず，拡散度の高い重要アカウントの抽出手法について提案する．提案する手法は，ページランクに基づく手法と，クラスタリングに基づく手法である．

4.1 ページランクに基づく重要アカウン

ト抽出手法

石原らの手法は，次数中心性と媒介中心性による重要アカウントの抽出を行っていた．次数中心性とは，ノード同士を繋ぐ関係の多寡によりノードの重要性を評価する指標で，情報拡散の基点となるアカウントの特定に使用していた．媒介中心性は，ノード間の連結関係上の重要性を評価する指標で，情報を仲介するアカウントの特定に使用していた．我々は，新たな指標としてページランクに着目する．ページランクは，Google の検索エンジンのページ表示ランキングに使用されていたもので，web ページの重要度を計る指標の一つとして使われている．この指標は，被リンク数とその質により決定され，リンクがより集まっているページは重要であると定義されている．ここで我々は，twitter のコミュニケーションネットワークにおいて，重要なアカウントは重要なアカウントとコミュニケーションをとるという仮説を立てた．この仮説に基づいて，我々は，ページランクによる重要アカウントの抽出手法を提案する．具体的には，Twitter ネットワーク全体からページランクを算出し，ページランクが高い n アカウントを重要アカウントとして抽出する．また，この提案手法の評価方法として，抽出された重要アカウントから 1 ホップ離れたアカウントが，各クラスタにどれくらいの割合で存在しているのか（情報拡散度）を算出する．拡散度は以下の式で表される． 𝐷𝑖𝑓𝑓𝑢𝑠𝑖𝑣𝑖𝑡𝑦(𝑛) =𝐴𝐴(𝑛) 𝐴𝑖𝐶 𝐷𝑖𝑓𝑓𝑢𝑠𝑖𝑣𝑖𝑡𝑦(𝑛)：対象のクラスタの拡散度 𝐴𝐴(𝑛)：対象のクラスタ内における 1 ホップ離れたアカウントの数 𝐴𝑖𝐶：対象のクラスタ内のアカウント総数既存手法（次数中心性，媒介中心性を用いて重要アカウントを抽出）も同様に各クラスタにおける拡散度の算出を行い提案手法と比較する．これにより，抽出された重要アカウントが，情報拡散においてどの程度の拡散力を秘めているか検証する．

4.2 クラスタリングに基づく重要アカウ

ント抽出手法

3 章により，情報の拡散に偏りがあることが確認できた．そこで我々は，各クラスタから重要アカウントをそれぞれ抽出することによって，クラスタによる情報の偏りを軽減する手法を提案する．図 3 クラスタリングに基づく重要アカウントの抽出手法提案手法は以下の通りである（図 3）．まず， Grapon によりクラスタリングを行い，クラスタ内の所属アカウント数が多い上位 k クラスタを抽出する．その抽出したクラスタ内で各指標に基づいた上位 n アカウント抽出し，4.1 節と同様に拡散度を算出する．なお，今回は，k=30，n=10 としている．これは，石原らが上位 300 アカウントを重要アカウントと議論しており，その数にあわせるためである．

5 重要アカウントの抽出と評価

本章では，4 章で提案した手法に基づいて重要アカウントの抽出と評価を行う．分析対象は 3 章で使用した，震災前のコミュケーションネットワークを使用する．

5.1 分析概要

提案手法を評価するために，従来手法と提案手法で抽出されるアカウントを比較する．また，それぞれの情報拡散度を比較する．重要アカウントを抽出する手法は，以下の 6 手法である． 1.次数中心性の高いアカウント 2.媒介中心性の高いアカウント 3.ページランクの高いアカウント 4.クラスタ毎に次数中心性が高いアカウントクラスタ(1) 1位 Kさん 2位 ESさん 3位 FGさん 9位 HAさん 10位 HKさん・・・・・・・・_・・・_・クラスタ(30) 1位 Dさん 2位 Zさん 3位 SKさん 9位 XLさん 10位 XXさんクラスタ(29) 1位 Dさん 2位 Zさん 3位 SKさん 9位 XLさん 10位 XXさんクラスタ(・・・) 1位 Dさん 2位 Zさん 3位 SKさん 9位 XLさん 10位 XXさんクラスタ(3) 1位 Dさん 2位 Zさん 3位 SKさん 9位 XLさん 10位 XXさんクラスタ(2) 1位 Dさん 2位 Zさん 3位 SKさん 9位 XLさん 10位 XXさんクラスタ(1) クラスタ(2) ・・・・・・

(6)

5.クラスタ毎に媒介中心性が高いアカウント 6.クラスタ毎にページランクが高いアカウント手法 1 から 3 までは上位 300 アカウントを，手法 4 から 6 はクラスタ毎に 10 アカウントを所属アカウント数上位 30 クラスタ分で計 300 アカウントを重要アカウントとして抽出する．大規模な Twitter ネットワークのページランク計算には F-Rank[8]を用いた．

5.2 分析結果

抽出した重要アカウントの例を表 5，および表 6，表 7，表 8 に示す．表 5 より，それぞれの指標順で並べた場合，近しい順位に同じアカウントがあることが多いことが確認できる．このことから，次数中心性，媒介中心性，ページランクはそれぞれと相関が高いことがわかる．この傾向は，クラスタリングした後でも同様に確認された．しかし，特異的なアカウントがいくつか確認された．表 5 において他指標と比べて明らかにページランクが高かったアカウントは，MentionKE や papatah，justinbieber や eseMendiola など，海外のアカウントであった．これらのアカウントは，3.3.2. 節で行った，情報があまり届かなかったクラスタに所属するものであり，情報の偏りを是正する効果が期待できる．表 5 ネットワーク全体の各指標上位 20 アカウント順位次数中心性媒介中心性ページランク 1 youtube youtube youtube 2 shuumai foursquare shuumai 3 setsulla shuumai foursquare 4 natalie_mu AddThis SoalCINTA 5 wwwwww_bot wwwwww_bot natalie_mu 6 foursquare swedenhills MentionKe 7 swedenhills natalie_mu setsulla 8 Yomiuri_Online setsulla swedenhills 9 SoalCINTA justinbieber wwwwww_bot 10 47news sazae_f justinbieber 11 karashichan 47news Yomiuri_Online 12 sazae_f SoalCINTA sazae_f 13 mainichijpnews Yomiuri_Online mainichijpnews 14 kenichiromogi rinrin_kit 47news 15 issonson_8374 MentionKe kenichiromogi 16 rinrin_kit Mujina30 pepatah 17 Mujina30 viratter AddThis 18 MentionKe kenichiromogi gizmodojapan 19 gizmodojapan shuzo_matsuoka issonson_8374 20 lgm_ karashichan rinrin_kit 21 shuzo_matsuoka kakusan_RT DamnItsTrue 22 now_fes issonson_8374 Mujina30 23 justinbieber lgm_ BangMir 24 d_v_osorezan winwin88 lgm_ 25 AddThis mainichijpnews mariko_dayo 26 mariko_dayo twinavi masason 27 ogiri_tweet BangMir shuzo_matsuoka 28 masason gizmodojapan karashichan 29 OttikiCharlie masason cnet_japan 30 batounohito60 DamnItsTrue twinavi

表 6 上位 3 クラスタの次数中心性上位 10 アカウント次数順位クラスタ ID : 274 クラスタ ID : 226 クラスタ ID : 443 1 swedenhills setsulla justinbieber 2 Yomiuri_Online karashichan JavaJoeMyspace 3 47news shuzo_matsuoka professor_adail 4 mainichijpnews now_fes eseMendiola 5 kenichiromogi OttikiCharlie alfian_007 6 rinrin_kit zenra_bot GregoryMJackson 7 Mujina30 Le_potiron mamm5 8 gizmodojapan htmk73 saferprint 9 lgm_ scarletrain193 Sexstrology 10 masason ultrasoul_bot randomtwi

表 7 上位 3 クラスタの媒介中心性上位 10 アカウント媒介順位クラスタ ID : 274 クラスタ ID : 226 クラスタ ID : 443 1 swedenhills setsulla justinbieber 2 47news shuzo_matsuoka gmail 3 Yomiuri_Online karashichan Sexstology 4 rinrin_kit OttikiCharlie charliesheen 5 Mujina30 htmk73 eseMendiola 6 kenichiromogi zenra_bot 23kin 7 kakusan_RT Le_potiron BreakingNews 8 lgm_ ultrasoul_bot alfian_007 9 winwin88 oreyomebot P3achyBaBy 10 mainichijpnews abarenbot GregoryMJackson

表 8 上位 3 クラスタのページランク上位 10 アカウントページランク順位クラスタ ID : 274 クラスタ ID : 226 クラスタ ID : 443 1 swedenhills setsulla justinbieber 2 Yomiuri_Online karashichan eseMendiola 3 mainichijpnews shuzo_matsuoka JavaJoeMyspace 4 47news OttikiCharlie yarrjerrica 5 kenichiromogi htmk73 professor_adail 6 gizmodojapan Le_potiron Sexstrology 7 rinrin_kit scarletrain193 JiNxBeatz 8 Mujina30 souha00 Mazaroddi 9 lgm_ zenra_bot iUsX 10 masason now_fes OfficialJaden

図 4 各中心性指標における拡散度の比較

(7)

図 6 クラスタリングの有無による拡散度の比較図 4，図 5，図 6 は，それぞれのパターンにおいて抽出した重要アカウントから 1 ホップ離れているアカウントが，所属アカウント数上位 30 クラスタの中にどれだけ含まれているかの割合を表したグラフである．図 4 は次数中心性，媒介中心性，ページランクから重要アカウントを抽出した結果である．クラスタ毎に違いはあるものの，媒介中心性よりもページランクの方が高い拡散度であることが確認できる．また，この傾向が特に見られたのはクラスタ ID：124 や 443 などの 3.4.節で確認した情報があまり届かなかった海外音楽クラスタや海外 web サービスのクラスタであった．図 5 はクラスタ毎の次数中心性，媒介中心性，ページランクから重要アカウントを抽出した結果である．図 4 に比べて，各クラスタ内の情報拡散度が増加しているのがわかる．クラスタ毎に見ていくと，媒介中心性が他の指標に比べて若干低いことが確認できる．また，この図からも次数中心性，媒介中心性，ページランクの相関性が高いことがわかる．図 6 は，次数中心性に基づいてネットワーク全体から重要アカウントを抽出する手法（従来手法）と，次数中心性に基づいてクラスタ毎から重要アカウントを抽出する手法（提案手法）の情報拡散度を比較した結果である．横軸は，クラスタに所属する人数が多い順にクラスタを並び替えている．この結果から，グラフの左に位置する所属アカウント数が多いクラスタは従来手法が，アカウント数が少ないクラスタは提案手法が，高い情報拡散度を示すことがわかった．また媒介中心性，ページランクに関しても同様の比較を行った場合，規模の大きなクラスタに対しては，ネットワーク全体から重要アカウントを抽出する石原らの手法が，規模の小さなクラスタに対しては，クラスタ毎に重要アカウントを抽出する提案手法が効果的であることが同様に確認できた．

6 考察

本章では，分析結果について考察を行う．6.1.節では震災前後のクラスタについて述べる．また， 6.2.節では情報が届きにくいクラスタについて述べ，6.3.節ではより良い重要アカウントの発見について述べる．

6.1 震災前後のクラスタについて

3.3.1.節の結果から，震災前後のネットワークのクラスタリング結果が表 1 から表 4 に示されている．まずは，震災前後のクラスタの規模の違いについて述べる．表 1 と表 3 の結果から，震災前に比べ震災後は，所属アカウント数上位のクラスタの規模が圧倒的に大きくなっている．これは石原らも述べていたが，震災後において，Twitter によるコミュニケーションが活発になったことが原因であると考えられる．次に，震災前後のクラスタの特徴について述べる．震災前は，有名人や bot などのクラスタが所属アカウント数上位のクラスタとしてあることから， Twitter を楽しむためのサービスとして使用していた．しかし震災後は，NHK やニュース拡散などのクラスタが上位となった．これは，数多くのユーザが震災後に NHK などのアカウントから情報を収集したことが原因だと考えられる．震災後の所属アカウント数 3 位にアニメのクラスタが存在している理由は，このクラスタ内のアカウントはアニメの bot が多く，震災後，手動で災害情報を発信していたからだと考えられる．

6.2 情報が届きにくいクラスタについて

3.3.2.節の分析結果から，海外音楽クラスタや海外 web サービスクラスタへ情報が届きにくいことがわかった．これには，二つの原因があると考えられる．今回対象としたツイートが全て日本語であるため，海外のクラスタでは拡散しなかったことが考えられる．もう一つは，今回使用したデマツイートという情報が，コアな情報であるため海外のクラスタからは重要視されなかったということが考えられる．しかし，他のクラスタにおいても情報の拡散に偏りがあったことは確認できる．よってこれらから，情報の拡散には普段のネットワークによる拡散と，情報の性質による拡散があるものと考えられる．

(8)

6.3 より良い重要アカウントの発見

まずは，5.2.節の分析結果から，前節で述べた海外クラスタについて考える．これらのクラスタは所属アカウント数が全体で 4 位，5 位と規模が大きい．他のクラスタも含め，規模が大きいクラスタは，各クラスタ内から選択した重要アカウントよりも，ネットワーク全体から各指標で上位 300 アカウントを重要アカウントとして選択した方が良い結果が得られている．一方，規模が小さいクラスタは，各クラスタないから選択した重要アカウントの方が良い結果が得られる．これは，重要アカウントがネットワーク全体から選択した場合と，各クラスタ内から選択した場合に比べ，規模が大きなクラスタに多く所属しているからだと考えられる．また，結果より，クラスタ毎に違いはあるものの，媒介中心性に対してページランクの方が良い結果が得られている．特に，海外という特殊なクラスタにおいては，ページランクを用いることが良いことがわかった．これは，ページランクが媒介中心性に比べ，関連度との親和性が高いからだと考えられる．

7 結論

本研究では，石原らが行った次数中心性，媒介中心性による重要アカウントの抽出に対し，ページランクに基づく重要アカウントの抽出手法の提案と，クラスタリングに基づいた重要アカウントの抽出手法の提案を行った．東日本大震災時における twitter のコミュニケーションネットワークに基づいて，重要アカウントの抽出と情報拡散度の評価を行った．その結果，規模の大きなクラスタに対してはネットワーク全体から重要アカウントを，規模の小さなクラスタに関しては各クラスタから重要アカウントを抽出することが必要であることがわかった．加えて，媒介中心性よりもページランクの方が有用であることがわかった．また，拡散させる情報によって，情報の拡散具合に影響が出ることが示唆された．よって，拡げたい情報に合わせて重要アカウントを抽出することが必要になると考えられる．今後は震災後のネットワークについても検証を行っていく．

参考文献

[１] 警察庁，平成 23 年東北地方太平洋沖地震の被害状況と警察措置，http://www.npa.go.jp/archive/keibi/biki/hig aijokyo.pdf，2011. [２] 石原裕規，諏訪博彦，鳥海不二夫，太田敏澄，東日本大震災前後における重要アカウントの抽出とコミュニケーション形態の変容，電子情報通信学会論文誌 D，Vol.J99-D，No.5，pp.501-513.

[３] Herda Ğdelen, AmaÇ, Zuo Wenyun, Gard-Murray Alexander, Bar-Yam Yaneer, An exploration of social identity: The geography and politics of news-sharing communities in twitter, COMPLEXITY, Volume 19, Issue 2, November/December 2013, Pages 10-20.

[４] 飯田恭弘，岸本康成，藤原靖宏，塩川浩昭，新井淳也，岩村相哲，大規模グラフ向けの先進的な処理・分析技術，NTT 技術ジャーナル 2015 年 12 月，Vol.27, No.12, pp.24-28.

[５] Hiroaki Shiokawa, Yasuhiro Fujiwara, Makoto Onizuka, "Fast Algorithm for Modularity-based Graph Clustering," In Proceedings of the 27th AAAI Conference on Artificial Intelligence (AAAI 2013), Bellevue, Washington, USA, July 2013.

[６] 藤森俊匡，塩川浩昭，鬼塚真, 分散グラフ処理におけるグラフ分割の最適化，第 7 回データ工学と情報マネジメントに関するフォーラム(DEIM2015), E5-2, 2015.

[７] Hiroaki Shiokawa, Yasuhiro Fujiwara, Makoto Onizuka， SCAN++: Efficient Algorithm for Finding Clusters, Hubs and Outliers on Large-scale Graphs，The Proceedings of the VLDB Endowment (PVLDB)，Vol. 8, No. 11，pp. 1178–1189，2015．

[８] 藤原靖宏，中辻真，塩川浩昭，三島健，鬼塚真， PageRank のための高速な Top-k 検索，人工知能学会論文誌 30(2), pp.473-4778, February 2015.