• 検索結果がありません。

クラスタリングに基づく東日本大震災前後の情報拡散度の比較

N/A
N/A
Protected

Academic year: 2021

シェア "クラスタリングに基づく東日本大震災前後の情報拡散度の比較"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

クラスタリングに基づく東日本大震災前後の

情報拡散度の比較

Comparison of diffusiveness of information before and after the Great East Japan

Earthquake based on clustering

秦恭史

1

諏訪博彦

1

岸本康成

2

藤原靖宏

2

新井淳也

2

飯田恭弘

2

岩村相哲

2

鳥海不二夫

3

安本慶一

1

Kyoji HATA

1

, Hirohiko SUWA

1

, Yasunari KISHIMOTO

2

, Yasuhiro FUJIWARA

2

, Junya ARAI

2

Yasuhiro IIDA

2

, Sotetsu IWAMURA

2

, Fujio TORIUMI

3

and Keiichi YASUMOTO

1

1

奈良先端科学技術大学院大学

1

Nara Institute of Science and Technology

2

NTT ソフトウェアイノベーションセンタ

2

NTT Software Innovation Center

3

東京大学

3

The University of Tokyo

Abstract: In the event of a disaster, it is important to spread information extensively to every corner, and

as one of them, Twitter is useful as a tool for information distribution as evidenced by related research. In order to make more use of Twitter, it is necessary to find important accounts with high spreading ability, Ishihara et al. extract important accounts as one network as a whole network. However, according to Amac et al., the Twitter network is thought to have close connection among close people, and it is considered to be divided into multiple clusters. As a result, the overall important account is not always important to everyone. Therefore, we do clustering using high speed graph mining technology corresponding to large scale Twitter network and extract important accounts by using page rank.

1 はじめに

近年,日本の災害事情は深刻化してきている.2011 年 3 月 11 日,東北地方を中心に起こった東日本大震 災では,最大震度 7 の大地震とそれによる大津波の 影響で甚大な被害をだした.2016 年 3 月 10 日時点 における死者・行方不明者は 18,455 人,建築物の全 壊,半壊は合わせて 400,326 戸が公式に確認されて いる[1].また,2014 年には御嶽山が噴火,2016 年に は再び最大震度 7 の地震が熊本で発生し,大規模な 災害が頻繁に起こっている. このような災害時,いち早く情報を手に入れるこ とは生死に関わる.そこで速効性という観点で注目 されているのが Twitter 等の SNS である.実際に東 日本大震災時,Twitter が災害情報の拡散において有 用である事が総務省により証明されている. 当時,Twitter には多くのメッセージが投稿され, 地震に関するリアルタイムな情報のやり取りが行わ れた.そのやり取りをしているアカウントの中には, 既存のマスメディアの情報発信チャンネルとしてだ けでなく,首相官邸や総務省消防庁といった政府機 関からの情報発信チャンネルとしても積極的に利用 されるようになった[2]. このような背景において石原ら[2] は,Twitter を より活かすためには情報拡散能力の高いアカウント が重要となると考え,ネットワーク全体を一つのネ ットワークとして重要アカウントを抽出した.しか しながら,Amac ら[3] によれば Twitter ネットワー クは趣味嗜好の近い人同士でつながりを持つものと 考えられる.すなわち,ひとつの均一なネットワー クだけでなく,複数のクラスタに分かれたネットワ ークと考えられる.そのため,ネットワーク全体で 重要とされるアカウントが,すべての人々にとって 重要であるとは限らない.結果として,単にネット ワーク全体から重要アカウントを抽出しても,効率 的な情報流通には貢献できないと考えられる.

(2)

本研究では,クラスタリングに基づく重要アカウン トの抽出を試みる.しかし今回のようなビッグデー タにおいて,従来のクラスタリング手法ではクラス タリングに膨大な時間とハイスペックなマシンを必 要とするため,迅速な対応が迫られる災害時には不 適切であった.この課題に対し我々は,大規模ネッ トワークに対しても高速にクラスタリング可能な Modularity ベースのクラスタリング[4] を行うこと で,ネットワークの分割を行う. また,石原ら[2] は,次数中心性と媒介中心性に着 目して重要なアカウントを抽出している.震災時の ツイートネットワークは,リプライ,リツイートに よるコミュニケーションネットワークとなっており, 単にそのアカウントの次数や媒介性だけでなく,他 のどのようなアカウントとつながっているかが重要 となる.そのため,本研究では新たな重要アカウン ト抽出指標としてページランクに着目する.ページ ランクは,「有名なページは有名なページへリンクを 張る」という考えに基づいて Web ページ間のリンク から,Web ページのランク付けを行う指標である. この考えを採用し,重要なアカウントは重要なアカ ウントとコミュニケーションをとるという考えに基 づいて重要なアカウントの抽出を試みる.ページラ ンクは,石原らが使用した次数中心性や媒介中心性 よりも情報拡散時の重要アカウントをより適切に判 断できると考える.大規模クラスタリングおよびペ ージランクにより,災害時に情報を広範囲に隅々ま で広げる情報拡散手法を実現する.加えて,提案手 法を評価するために,情報の拡散を計る指標を定義 する. 予備実験として情報の拡散に偏りがあることを明 らかにする.まず,Twitter ネットワークが,均一な ひとつのネットワークではなく,複数のクラスタを もつネットワークの集合であることを確認するため に,大規模クラスタリングを行い各クラスタの特徴 を把握する.その後,情報拡散の偏りを「関西電力 の節電呼びかけチェーンメール」のデマ情報拡散の 事例 に基づいて調査する.具体的には,このデマの 情報が各ネットワーク(クラスタ)においてどの程 度拡散されたのかを割合で算出する.クラスタリン グの結果,1,149,490 のアカウントが 578 のクラス タに分かれ,一番規模の大きなクラスタのアカウン ト数が 151,435 アカウントとなった.また,規模の 大きなクラスタには有名人のクラスタや Web サー ビスのクラスタ,海外アーティストのクラスタ等が 存在した.また,デマのツイートをしたアカウント が各クラスタごとにどの程度存在しているのかを調 べた結果,クラスタによって偏りがあったことから, ネットワーク全体において情報の拡散に偏りがある ことが確かめられた. 提案手法の評価のために,東日本大震災前後であ る 2011 年 3 月 10 日と 12 日のデータを使用し検 証を行う.分析は従来手法と提案手法を用いた場合 の情報拡散度の比較により行う.検証の結果,媒介 中心性に対してページランクの方がより高い拡散度 を得ることがわかった.また,小規模なクラスタに 対してはクラスタリングに基づく重要アカウントの 抽出手法が有効であることが確認できた. 2 章において関連研究について説明し,3 章におい てクラスタリングによる情報の偏りについて述べる. 4 章では 3 章の結果を受け新手法について提案し,5 章で検証を行う.6 章で 3 章,5 章の結果について考 察し,7 章で結論を述べる.

2 関連研究

石原ら[2]は,災害時の Twitter 上の情報流通におい て,異種協調型災害情報支援システム実現に向けた 知見を得ることを目的としている.この異種協調型 災害情報支援システムというのは,東日本大震災を 受けて,今後も日本で発生するであろう様々な災害 において災害救助支援を実現するための基盤技術で ある.具体的には,必要な情報や機能の多くはどこ かに存在しているとの考えに基づき,どこかに存在 している有用な情報を探し繋ぐという知的操作を行 う.石原らは,東日本大震災時,この情報を「繋ぐ」 という機能の一旦を担った Twitter に着目し,情報拡 散の基点となるアカウントや情報を仲介するアカウ ントを発見することが重要だと考えた.情報拡散と 情報仲介の性質は,ネットワーク分析における次数 中心性と媒介中心性の指標で表現できると考え,重 要なアカウントを発見している. しかし,この指標だけで十分だろうか.Amac ら[3] によれば,Twitter のような自発的に形成されるグル ープをクラスタリングにより特徴付けた結果,情報 嗜好とつながりが共起しやすいということがわかっ ている.つまり,ネットワークの性質上,Twitter は 情報嗜好の近い人同士でつながりを持つものと考え られ,複数のクラスタに分かれるということがわか る.ここから,もし発見したアカウントが一部のク ラスタに偏ってしまった場合,情報の拡散に偏りが 出てしまう可能性がある.よって,災害という緊急 時,より多くの命を救うためには,情報をネットワ ーク全体に均等に拡散させなければならない. そこで本研究では,クラスタリングを用いた重要 アカウントの発見を行う.しかし,今回のようなビ ッグデータにおいて従来のクラスタリング手法では クラスタリングに膨大な時間とハイスペックなマシ

(3)

ンを必要とするため非現実的であった.高速グラフ マイニング技術を実装した Garpon[4]を活用し, Modularity ベースのクラスタリングを行った.

3 予備調査:情報流通の偏り

本章では,情報拡散におけるクラスタ毎の情報の 偏りを明らかにする.使用する情報は,東日本大震 災時に問題となった関西電力デマの情報を使用する. このデマとは,要約すると「関東の電気の備蓄が底 を尽きるので関西から送電を行う.そこで関西で節 電を行い少しでも力になろう」というものである. この情報がクラスタ毎にどの程度拡散されたのか比 較する.

3.1 分析概要

本分析の目的は,Twitter ネットワークに対するク ラスタリング手法の検討と,クラスタリング毎の情 報流通度の比較である. 分析手順は以下の通りである. 1.ネットワークの生成 2.大規模クラスタリング(3 種類) 3.クラスタリング結果の確認 4.デマツイートをしたアカウント特定 5.クラスタ毎の情報の偏りを比較 まず,東日本大震災時のツイートデータを基に, コミュニケーションネットワークを生成する.コミ ュニケーションネットワークは,RT および Reply に 基づいて構築される. 次に,大規模クラスタリング手法を用いてクラス タリングを行う.本研究では,Modularity ベースのク ラスタリング,等粒度クラスタリング,構造的クラ スタリングの3つの手法を検討する.各手法につい て,以下に説明する. Modularity ベースのクラスタリング:Modularity と は与えられた分割に対して「グループ内のノード 同士が繋がるリンクの割合」から「リンクがランダ ムに配置された場合の期待値」を引いた値として 定義されるものである.この値が良いほど,より適 切にグラフデータ内のクラスタを抽出できている ことを示す.従来の Modularity ベースのクラスタ リングではこのような大規模ネットワークにおけ るクラスタリングは膨大な計算コストがかかるた め難しかったが,本研究で使用した Grapon の Modularity ベースのクラスタリングは,計算対象と なるノードとエッジの数を削減することにより, 高速化を実現している[5]. 等粒度クラスタリング:基本的には Modularity ベー スのクラスタリングと同様に処理を行う.これに 加えてグラフの分割数を k,クラスタの等粒度の度 合いを決めるパラメータを a を指定可能とした手 法である.この手法ではクラスタリングの進行中 にクラスタ数が k×a を下回ると等粒度化に向けて クラスタをマージしていく.こうすることにより, 各クラスタの大きさが同程度になるように柔軟に グラフを分割でき,並列処理に適したネットワー クの分割が行える[6]. 構造的クラスタリング:ノード間の構造的類似度を 計算し,閾値を超える類似度のノード群をクラス タに,複数のクラスタに接続しているノードをハ ブ(橋渡し役)に,それ以外のノードを外れ値とし て分類を行う手法である.この手法は主に橋渡し 役となるノードを見つけることに特化している[7]. なお,今回の調査では Modularity ベースのクラス タリング以外の場合,一番大きいクラスタの人数が, 他のクラスタに対し圧倒的に大きくなる等のことか ら有意なクラスタリングはできなかった.そのため, 以降の分析は行わなかった. クラスタリング結果の確認については,各クラス タの次数中心性上位のアカウントの内容を一つ一つ 著者が確認した.その結果,後述の通り,Modularity ベースのクラスタリングにおいて,ニュースアカウ ントや有名人アカウント,bot アカウント,海外アー ティストアカウントなどが,それぞれクラスタを形 成していることが確認された.そのため,このクラ スタリング結果に基づいて,情報流通度の比較を行 った. クラスタ毎に情報流通度を比較するために,「関西 電力デマ」をつぶやいたアカウントを抽出した.こ のデマには,さまざまな亜種が存在するが,それら を含めて特定している.最後に,特定されたアカウ ントが各クラスタにどの程度存在するかを比較し, 情報流通度の偏りを確認する.

3.2 分析対象

分析対象は,震災前である 2011 年 3 月 10 日と, 震災後である 3 月 12 日に日本語で Twitter に投稿さ れたツイートである.これは震災前後でネットワー クが変わってしまう可能性があるためその二日を選 んだ.また,取得したツイートの一日毎のコミュニ ケーション(リプライ,リツイート)に基づいて無向 ネットワークを作成し,デマツイートをしたアカウ ントのリスト化を行う.

3.3 分析結果

本節では,クラスタリング結果と,各クラスタの情 報流通度の比較結果について述べる.

(4)

3.3.1 クラスタリングの結果 クラスタリングを行った結果,震災前はクラスタ 数が 578 個に分類され,震災後では 346 個に分類さ れた.表 1,表 3 は震災前後のネットワークのクラ スタリング行い,所属アカウント数が多い順番に並 べた時の上位 10 クラスタの結果である.表 1 と表 3 を比べてみると震災前後で所属アカウント数上位の クラスタのアカウント数が大きく変わることが確認 された. 表 1 震災前の所属アカウント数上位 10 クラスタ 順位 クラスタ ID 所属アカウント数 1 274 151,435 2 226 133,305 3 443 77,657 4 124 69,729 5 573 68,435 6 420 53,999 7 244 53,647 8 353 46,376 9 170 45,315 10 92 44,611 表 2 震災前の次数中心性上位 10 アカウント 次数 順位 クラスタ ID : 274 クラスタ ID : 226 クラスタ ID : 443 1 swedenhills Setsulla justinbieber 2 Yomiuri_Online karashichan JavaJoeMyspace 3 47news shuzo_matsuoka professor_adail 4 mainichijpnews now_fes eseMendiola 5 kenichiromogi OttikiCharlie alfian_007 6 rinrin_kit zenra_bot GregoryMJackson 7 Mujina30 Le_potiron mamm5 8 gizmodojapan htmk73 saferprint 9 lgm_ scarletrain193 Sexstrology 10 masason ultrasoul_bot randomtwi

表 3 震災後の所属アカウント数上位 10 クラスタ 順位 クラスタ ID 所属アカウント数 1 252 241,985 2 269 202,579 3 332 155,817 4 102 101,547 5 45 93,804 6 145 75,281 7 122 55,109 8 147 33,846 9 261 32,721 10 309 29,336 表 4 震災後の次数中心性上位 10 アカウント 次数 順位 クラスタ ID : 252 クラスタ ID : 269 クラスタ ID : 332 1 NHK_PR UN_NERV DECADE_1105 2 nhk_seikatsu zishin3255 BSJ_ACT4 3 nhk_HORIJUN ZIMUING m78_ultraman 4 twj han_Warai sato_hiromi_s 5 takapon_jp haonirohiroaki sarasiru 6 Fukanju tachiiri sugercraft 7 Tsuda yuuki_xxx eew_jp 8 Masason cellmon solid_vox 9 FDMA_JAPAN AKUALU abfly 10 h_ototake rin0330 watch_akiba

表 2,表 4,はその時の上位 3 クラスタをそれぞれ ピックアップし,そのクラスタ内における次数中心 性の高い上位 10 アカウントを示している.表 2 よ り,震災前の所属アカウント数の一番多いクラスタ ID:274 には,Yomiuri_Online や kenichiromogi など 影響力の高いニュースや有名人が多く所属している. このことからクラスタ ID:274 はニュース,有名人 クラスタであることがわかる.同様に,クラスタ ID: 226 は bot,オタククラスタ,クラスタ ID:443 は海 外音楽クラスタであることがわかる.表 4 について も同様に,クラスタ ID:252 は NHK,有名人クラス タ,クラスタ ID:269 はニュース拡散クラスタ,ク ラスタ ID:332 はアニメクラスタであることが確認 できた. 3.3.2 情報流通度の結果 図 1,図 2 は震災前後の所属アカウント数上位 30 クラスタにおいてクラスタ毎にデマツイートをした アカウントの割合を求めた結果である. 図 1,図 2 から見てわかるように,震災前後に関 わらず,明らかに情報が届きにくいクラスタがある ことが確認できる.これらのクラスタ内のアカウン トを 3.3.1.と同様に求めた結果,海外音楽クラスタ や海外 web サービスのクラスタであることがわか った. 図 1 震災前のデマツイートをした アカウントの割合 図 2 震災後のデマツイートをした アカウントの割合

(5)

4 提案手法

前章では,各クラスタの特徴を捉え,クラスタ毎 に情報の拡散に偏りがあることが確認できた.本章 では,情報拡散の偏りを起こさず,拡散度の高い重 要アカウントの抽出手法について提案する.提案す る手法は,ページランクに基づく手法と,クラスタ リングに基づく手法である.

4.1 ページランクに基づく重要アカウン

ト抽出手法

石原らの手法は,次数中心性と媒介中心性による 重要アカウントの抽出を行っていた.次数中心性と は,ノード同士を繋ぐ関係の多寡によりノードの重 要性を評価する指標で,情報拡散の基点となるアカ ウントの特定に使用していた.媒介中心性は,ノー ド間の連結関係上の重要性を評価する指標で,情報 を仲介するアカウントの特定に使用していた. 我々は,新たな指標としてページランクに着目す る.ページランクは,Google の検索エンジンのペ ージ表示ランキングに使用されていたもので,web ページの重要度を計る指標の一つとして使われてい る.この指標は,被リンク数とその質により決定さ れ,リンクがより集まっているページは重要である と定義されている.ここで我々は,twitter のコミュ ニケーションネットワークにおいて,重要なアカウ ントは重要なアカウントとコミュニケーションをと るという仮説を立てた. この仮説に基づいて,我々は,ページランクによ る重要アカウントの抽出手法を提案する.具体的に は,Twitter ネットワーク全体からページランクを 算出し,ページランクが高い n アカウントを重要ア カウントとして抽出する. また,この提案手法の評価方法として,抽出され た重要アカウントから 1 ホップ離れたアカウント が,各クラスタにどれくらいの割合で存在している のか(情報拡散度)を算出する.拡散度は以下の式 で表される. 𝐷𝑖𝑓𝑓𝑢𝑠𝑖𝑣𝑖𝑡𝑦(𝑛) =𝐴𝐴(𝑛) 𝐴𝑖𝐶 𝐷𝑖𝑓𝑓𝑢𝑠𝑖𝑣𝑖𝑡𝑦(𝑛):対象のクラスタの拡散度 𝐴𝐴(𝑛):対象のクラスタ内における 1 ホップ離れたアカウントの数 𝐴𝑖𝐶:対象のクラスタ内のアカウント総数 既存手法(次数中心性,媒介中心性を用いて重要 アカウントを抽出)も同様に各クラスタにおける拡 散度の算出を行い提案手法と比較する.これによ り,抽出された重要アカウントが,情報拡散におい てどの程度の拡散力を秘めているか検証する.

4.2 クラスタリングに基づく重要アカウ

ント抽出手法

3 章により,情報の拡散に偏りがあることが確認 できた.そこで我々は,各クラスタから重要アカウ ントをそれぞれ抽出することによって,クラスタに よる情報の偏りを軽減する手法を提案する. 図 3 クラスタリングに基づく重要アカウントの 抽出手法 提案手法は以下の通りである(図 3).まず, Grapon によりクラスタリングを行い,クラスタ内 の所属アカウント数が多い上位 k クラスタを抽出す る.その抽出したクラスタ内で各指標に基づいた上 位 n アカウント抽出し,4.1 節と同様に拡散度を算 出する. なお,今回は,k=30,n=10 としている.これ は,石原らが上位 300 アカウントを重要アカウント と議論しており,その数にあわせるためである.

5 重要アカウントの抽出と評価

本章では,4 章で提案した手法に基づいて重要ア カウントの抽出と評価を行う.分析対象は 3 章で使 用した,震災前のコミュケーションネットワークを 使用する.

5.1 分析概要

提案手法を評価するために,従来手法と提案手法 で抽出されるアカウントを比較する.また,それぞ れの情報拡散度を比較する.重要アカウントを抽出 する手法は,以下の 6 手法である. 1.次数中心性の高いアカウント 2.媒介中心性の高いアカウント 3.ページランクの高いアカウント 4.クラスタ毎に次数中心性が高いアカウント クラスタ(1) 1位 Kさん 2位 ESさん 3位 FGさん 9位 HAさん 10位 HKさん ・ ・ ・ ・・・ ・・ ・・ クラスタ(30) 1位 Dさん 2位 Zさん 3位 SKさん 9位 XLさん 10位 XXさん クラスタ(29) 1位 Dさん 2位 Zさん 3位 SKさん 9位 XLさん 10位 XXさん クラスタ(・・・) 1位 Dさん 2位 Zさん 3位 SKさん 9位 XLさん 10位 XXさん クラスタ(3) 1位 Dさん 2位 Zさん 3位 SKさん 9位 XLさん 10位 XXさん クラスタ(2) 1位 Dさん 2位 Zさん 3位 SKさん 9位 XLさん 10位 XXさん クラスタ(1) クラスタ(2) ・ ・ ・ ・・・

(6)

5.クラスタ毎に媒介中心性が高いアカウント 6.クラスタ毎にページランクが高いアカウント 手法 1 から 3 までは上位 300 アカウントを,手法 4 から 6 はクラスタ毎に 10 アカウントを所属アカ ウント数上位 30 クラスタ分で計 300 アカウントを 重要アカウントとして抽出する.大規模な Twitter ネットワークのページランク計算には F-Rank[8]を 用いた.

5.2 分析結果

抽出した重要アカウントの例を表 5,および表 6,表 7,表 8 に示す.表 5 より,それぞれの指標 順で並べた場合,近しい順位に同じアカウントがあ ることが多いことが確認できる.このことから,次 数中心性,媒介中心性,ページランクはそれぞれと 相関が高いことがわかる.この傾向は,クラスタリ ングした後でも同様に確認された. しかし,特異的なアカウントがいくつか確認され た.表 5 において他指標と比べて明らかにページラ ンクが高かったアカウントは,MentionKE や papatah,justinbieber や eseMendiola など,海外のア カウントであった.これらのアカウントは,3.3.2. 節で行った,情報があまり届かなかったクラスタに 所属するものであり,情報の偏りを是正する効果が 期待できる. 表 5 ネットワーク全体の各指標上位 20 アカウント 順位 次数中心性 媒介中心性 ページランク 1 youtube youtube youtube 2 shuumai foursquare shuumai 3 setsulla shuumai foursquare 4 natalie_mu AddThis SoalCINTA 5 wwwwww_bot wwwwww_bot natalie_mu 6 foursquare swedenhills MentionKe 7 swedenhills natalie_mu setsulla 8 Yomiuri_Online setsulla swedenhills 9 SoalCINTA justinbieber wwwwww_bot 10 47news sazae_f justinbieber 11 karashichan 47news Yomiuri_Online 12 sazae_f SoalCINTA sazae_f 13 mainichijpnews Yomiuri_Online mainichijpnews 14 kenichiromogi rinrin_kit 47news 15 issonson_8374 MentionKe kenichiromogi 16 rinrin_kit Mujina30 pepatah 17 Mujina30 viratter AddThis 18 MentionKe kenichiromogi gizmodojapan 19 gizmodojapan shuzo_matsuoka issonson_8374 20 lgm_ karashichan rinrin_kit 21 shuzo_matsuoka kakusan_RT DamnItsTrue 22 now_fes issonson_8374 Mujina30 23 justinbieber lgm_ BangMir 24 d_v_osorezan winwin88 lgm_ 25 AddThis mainichijpnews mariko_dayo 26 mariko_dayo twinavi masason 27 ogiri_tweet BangMir shuzo_matsuoka 28 masason gizmodojapan karashichan 29 OttikiCharlie masason cnet_japan 30 batounohito60 DamnItsTrue twinavi

表 6 上位 3 クラスタの次数中心性上位 10 アカウント 次数 順位 クラスタ ID : 274 クラスタ ID : 226 クラスタ ID : 443 1 swedenhills setsulla justinbieber 2 Yomiuri_Online karashichan JavaJoeMyspace 3 47news shuzo_matsuoka professor_adail 4 mainichijpnews now_fes eseMendiola 5 kenichiromogi OttikiCharlie alfian_007 6 rinrin_kit zenra_bot GregoryMJackson 7 Mujina30 Le_potiron mamm5 8 gizmodojapan htmk73 saferprint 9 lgm_ scarletrain193 Sexstrology 10 masason ultrasoul_bot randomtwi

表 7 上位 3 クラスタの媒介中心性上位 10 アカウント 媒介 順位 クラスタ ID : 274 クラスタ ID : 226 クラスタ ID : 443 1 swedenhills setsulla justinbieber 2 47news shuzo_matsuoka gmail 3 Yomiuri_Online karashichan Sexstology 4 rinrin_kit OttikiCharlie charliesheen 5 Mujina30 htmk73 eseMendiola 6 kenichiromogi zenra_bot 23kin 7 kakusan_RT Le_potiron BreakingNews 8 lgm_ ultrasoul_bot alfian_007 9 winwin88 oreyomebot P3achyBaBy 10 mainichijpnews abarenbot GregoryMJackson

表 8 上位 3 クラスタのページランク上位 10 アカウント ページ ランク 順位 クラスタ ID : 274 クラスタ ID : 226 クラスタ ID : 443 1 swedenhills setsulla justinbieber 2 Yomiuri_Online karashichan eseMendiola 3 mainichijpnews shuzo_matsuoka JavaJoeMyspace 4 47news OttikiCharlie yarrjerrica 5 kenichiromogi htmk73 professor_adail 6 gizmodojapan Le_potiron Sexstrology 7 rinrin_kit scarletrain193 JiNxBeatz 8 Mujina30 souha00 Mazaroddi 9 lgm_ zenra_bot iUsX 10 masason now_fes OfficialJaden

図 4 各中心性指標における拡散度の比較

(7)

図 6 クラスタリングの有無による拡散度の比較 図 4,図 5,図 6 は,それぞれのパターンにおい て抽出した重要アカウントから 1 ホップ離れている アカウントが,所属アカウント数上位 30 クラスタ の中にどれだけ含まれているかの割合を表したグラ フである. 図 4 は次数中心性,媒介中心性,ページランクか ら重要アカウントを抽出した結果である.クラスタ 毎に違いはあるものの,媒介中心性よりもページラ ンクの方が高い拡散度であることが確認できる.ま た,この傾向が特に見られたのはクラスタ ID:124 や 443 などの 3.4.節で確認した情報があまり届かな かった海外音楽クラスタや海外 web サービスのク ラスタであった. 図 5 はクラスタ毎の次数中心性,媒介中心性,ペ ージランクから重要アカウントを抽出した結果であ る.図 4 に比べて,各クラスタ内の情報拡散度が増 加しているのがわかる.クラスタ毎に見ていくと, 媒介中心性が他の指標に比べて若干低いことが確認 できる.また,この図からも次数中心性,媒介中心 性,ページランクの相関性が高いことがわかる. 図 6 は,次数中心性に基づいてネットワーク全体 から重要アカウントを抽出する手法(従来手法) と,次数中心性に基づいてクラスタ毎から重要アカ ウントを抽出する手法(提案手法)の情報拡散度を 比較した結果である.横軸は,クラスタに所属する 人数が多い順にクラスタを並び替えている.この結 果から,グラフの左に位置する所属アカウント数が 多いクラスタは従来手法が,アカウント数が少ない クラスタは提案手法が,高い情報拡散度を示すこと がわかった.また媒介中心性,ページランクに関し ても同様の比較を行った場合,規模の大きなクラス タに対しては,ネットワーク全体から重要アカウン トを抽出する石原らの手法が,規模の小さなクラス タに対しては,クラスタ毎に重要アカウントを抽出 する提案手法が効果的であることが同様に確認でき た.

6 考察

本章では,分析結果について考察を行う.6.1.節 では震災前後のクラスタについて述べる.また, 6.2.節では情報が届きにくいクラスタについて述 べ,6.3.節ではより良い重要アカウントの発見につ いて述べる.

6.1 震災前後のクラスタについて

3.3.1.節の結果から,震災前後のネットワークの クラスタリング結果が表 1 から表 4 に示されてい る. まずは,震災前後のクラスタの規模の違いについ て述べる.表 1 と表 3 の結果から,震災前に比べ震 災後は,所属アカウント数上位のクラスタの規模が 圧倒的に大きくなっている.これは石原らも述べて いたが,震災後において,Twitter によるコミュニ ケーションが活発になったことが原因であると考え られる. 次に,震災前後のクラスタの特徴について述べ る.震災前は,有名人や bot などのクラスタが所属 アカウント数上位のクラスタとしてあることから, Twitter を楽しむためのサービスとして使用してい た.しかし震災後は,NHK やニュース拡散などの クラスタが上位となった.これは,数多くのユーザ が震災後に NHK などのアカウントから情報を収集 したことが原因だと考えられる.震災後の所属アカ ウント数 3 位にアニメのクラスタが存在している理 由は,このクラスタ内のアカウントはアニメの bot が多く,震災後,手動で災害情報を発信していたか らだと考えられる.

6.2 情報が届きにくいクラスタについて

3.3.2.節の分析結果から,海外音楽クラスタや海 外 web サービスクラスタへ情報が届きにくいこと がわかった.これには,二つの原因があると考えら れる.今回対象としたツイートが全て日本語である ため,海外のクラスタでは拡散しなかったことが考 えられる.もう一つは,今回使用したデマツイート という情報が,コアな情報であるため海外のクラス タからは重要視されなかったということが考えられ る.しかし,他のクラスタにおいても情報の拡散に 偏りがあったことは確認できる.よってこれらか ら,情報の拡散には普段のネットワークによる拡散 と,情報の性質による拡散があるものと考えられ る.

(8)

6.3 より良い重要アカウントの発見

まずは,5.2.節の分析結果から,前節で述べた海 外クラスタについて考える.これらのクラスタは所 属アカウント数が全体で 4 位,5 位と規模が大き い.他のクラスタも含め,規模が大きいクラスタ は,各クラスタ内から選択した重要アカウントより も,ネットワーク全体から各指標で上位 300 アカウ ントを重要アカウントとして選択した方が良い結果 が得られている.一方,規模が小さいクラスタは, 各クラスタないから選択した重要アカウントの方が 良い結果が得られる.これは,重要アカウントがネ ットワーク全体から選択した場合と,各クラスタ内 から選択した場合に比べ,規模が大きなクラスタに 多く所属しているからだと考えられる. また,結果より,クラスタ毎に違いはあるもの の,媒介中心性に対してページランクの方が良い結 果が得られている.特に,海外という特殊なクラス タにおいては,ページランクを用いることが良いこ とがわかった.これは,ページランクが媒介中心性 に比べ,関連度との親和性が高いからだと考えられ る.

7 結論

本研究では,石原らが行った次数中心性,媒介中 心性による重要アカウントの抽出に対し,ページラ ンクに基づく重要アカウントの抽出手法の提案と, クラスタリングに基づいた重要アカウントの抽出手 法の提案を行った.東日本大震災時における twitter のコミュニケーションネットワークに基づいて,重 要アカウントの抽出と情報拡散度の評価を行った. その結果,規模の大きなクラスタに対してはネット ワーク全体から重要アカウントを,規模の小さなク ラスタに関しては各クラスタから重要アカウントを 抽出することが必要であることがわかった.加え て,媒介中心性よりもページランクの方が有用であ ることがわかった. また,拡散させる情報によって,情報の拡散具合 に影響が出ることが示唆された.よって,拡げたい 情報に合わせて重要アカウントを抽出することが必 要になると考えられる.今後は震災後のネットワー クについても検証を行っていく.

参考文献

[1] 警察庁,平成 23 年東北地方太平洋沖地震の被害状況 と警察措置,http://www.npa.go.jp/archive/keibi/biki/hig aijokyo.pdf,2011. [2] 石原裕規,諏訪博彦,鳥海不二夫,太田敏澄,東日本 大震災前後における重要アカウントの抽出とコミュ ニケーション形態の変容,電子情報通信学会論文誌 D,Vol.J99-D,No.5,pp.501-513.

[3] Herda Ğdelen, AmaÇ, Zuo Wenyun, Gard-Murray Alexander, Bar-Yam Yaneer, An exploration of social identity: The geography and politics of news-sharing communities in twitter, COMPLEXITY, Volume 19, Issue 2, November/December 2013, Pages 10-20.

[4] 飯田恭弘,岸本康成,藤原靖宏,塩川浩昭,新井淳也, 岩村相哲,大規模グラフ向けの先進的な処理・分析技 術,NTT 技術ジャーナル 2015 年 12 月,Vol.27, No.12, pp.24-28.

[5] Hiroaki Shiokawa, Yasuhiro Fujiwara, Makoto Onizuka, "Fast Algorithm for Modularity-based Graph Clustering," In Proceedings of the 27th AAAI Conference on Artificial Intelligence (AAAI 2013), Bellevue, Washington, USA, July 2013.

[6] 藤森 俊匡,塩川 浩昭,鬼塚 真, 分散グラフ処理に おけるグラフ分割の最適化,第 7 回データ工学と情 報マネジメントに関するフォーラム(DEIM2015), E5-2, 2015.

[7] Hiroaki Shiokawa, Yasuhiro Fujiwara, Makoto Onizuka, SCAN++: Efficient Algorithm for Finding Clusters, Hubs and Outliers on Large-scale Graphs,The Proceedings of the VLDB Endowment (PVLDB),Vol. 8, No. 11,pp. 1178–1189,2015.

[8] 藤原靖宏,中辻真,塩川浩昭,三島健,鬼塚真, PageRank のための高速な Top-k 検索,人工知能学会 論文誌 30(2), pp.473-4778, February 2015.

表 3  震災後の所属アカウント数上位 10 クラスタ  順位 クラスタ ID  所属アカウント数 1  252  241,985  2  269  202,579  3  332  155,817  4  102  101,547  5  45  93,804  6  145  75,281  7  122  55,109  8  147  33,846  9  261  32,721  10  309  29,336  表 4  震災後の次数中心性上位 10 アカウント  次数 順位  クラスタ ID
表 6 上位 3 クラスタの次数中心性上位 10 アカウント  次数 順位  クラスタ ID : 274  クラスタ ID : 226  クラスタ ID : 443  1  swedenhills  setsulla  justinbieber  2  Yomiuri_Online  karashichan  JavaJoeMyspace  3  47news  shuzo_matsuoka  professor_adail  4  mainichijpnews  now_fes  eseMendiola
図 6  クラスタリングの有無による拡散度の比較    図 4,図 5,図 6 は,それぞれのパターンにおい て抽出した重要アカウントから 1 ホップ離れている アカウントが,所属アカウント数上位 30 クラスタ の中にどれだけ含まれているかの割合を表したグラ フである.    図 4 は次数中心性,媒介中心性,ページランクか ら重要アカウントを抽出した結果である.クラスタ 毎に違いはあるものの,媒介中心性よりもページラ ンクの方が高い拡散度であることが確認できる.ま た,この傾向が特に見られたのはクラスタ

参照

関連したドキュメント

このように雪形の名称には特徴がありますが、その形や大きさは同じ名前で

本文書の目的は、 Allbirds の製品におけるカーボンフットプリントの計算方法、前提条件、デー タソース、および今後の改善点の概要を提供し、より詳細な情報を共有することです。

手動のレバーを押して津波がどのようにして起きるかを観察 することができます。シミュレーターの前には、 「地図で見る日本

Google マップ上で誰もがその情報を閲覧することが可能となる。Google マイマップは、Google マップの情報を基に作成されるため、Google

9 時の都内の Ox 濃度は、最大 0.03 ppm と低 かったが、昼前に日照が出始めると急速に上昇 し、14 時には多くの地域で 0.100ppm を超え、. 区東部では 0.120

防災 “災害を未然に防⽌し、災害が発⽣した場合における 被害の拡⼤を防ぎ、及び災害の復旧を図ることをい う”

優越的地位の濫用は︑契約の不完備性に関する問題であり︑契約の不完備性が情報の不完全性によると考えれば︑

本稿筆頭著者の市川が前年度に引き続き JATIS2014-15の担当教員となったのは、前年度日本