卒業論文
2012
年度(平成24
年度)慶應義塾大学 環境情報学部 倉田 彩子
卒業論文要旨
- 2012
年度(
平成24
年度)
状況検知システムの設計と構築
社会の情報化、通信デバイスの普及によって、
24
時間いつでもどこでも情報の 入手・発信が可能となった。これに伴い、人々の興味・関心の対象が変化するス ピードも速くなっている。さまざまなイベントへの参加や購買活動など、私たち の行動は流行に左右されることが多く、各種メディアは、様々な方法で 今 話題 となっているものをいかに早く発信するか試行錯誤している。そこで、本研究では
Web
上に存在するテキストや位置情報を用いることで、 今 この瞬間に起こっている話題のものとそれに付随する場所を検知する手法を提案 する。本論文では、マイクロブログサービスの1つである
このことから、Twitterへの投稿の収集、解析を行うことで実空間の状況検知が 可能であるという仮説を立て、これを実現するシステム、AKT24(Ayako Kurata
Tweet-analyzer 24h)
の設計と構築を行った。AKT24
は、Twitterに投稿された情報を、字句/時間/緯度/経度の4
次元で解析を行うことで実空間の状態検知を行うことを目的とする。システムは地図と、横 軸をキーワード、縦軸を時刻とするグラフで構成され、これによって指定期間中 の特徴キーワード、それを含むツイートの地理分布を表示する。キーワードの抽 出には、通常時との出現数の差分の大小を利用する手法を採用した。
システムの実装、評価の結果、本システムにより複数の実空間イベントの発生 とその発生箇所が感知できることが確認された。
本研究によって、これまで情報収集のために必要とされていた時間やコストを 大幅に削減することが可能となる。
キーワード:
1
.Twitter, 2.
時空間解析, 3.
位置情報慶應義塾大学 環境情報学部
倉田 彩子
Abstract of Bachelor’s Thesis - Academic Year 2012
Auto situation detecting system using Twitter
Today, the computerization and the popularization of communication devices have made it possible to get and provide the information at anytime, anywhere.
Accordingly, the things and places we become interested in change quickly and what event we should take part in or what we should buy can be easily influenced by the fashion. Thus, various media struggle how to detect and provide information about hot topics .
We have investigated and validated the correlation between texts, geo-information of Twitter and events in real world. As a result, we found that the number, con- tents of texts and geo-information are influenced by events in real world. From above, we made a hypothesis which is we can detect situation in real world by collecting and analyzing tweets and built the system, AKT24(Ayako Kurata Tweet-analyzer 24h) to validate the hypothesis.
The purpose of this system is to detect present situation in real world by an- alyzing tweets from the point of text, time, latitude and longitude. This system consists of map and graph, showing characteristic keywords on longitudinal axis and time on horizontal axis. This indicates characteristic keywords and its ge- ographical distribution in specific period. To extract the keywords, we use the difference of frequency of words used between specific period and previous one.
After this implementation and validation of this system, we verified that we were able to detect what and where the events occur in real world.
This study contributed the dramatic reduction in search costs and time for hot topics .
Keywords :
1. Twitter, 2.Temporal-spatial analysis, 3.Geo-information
Keio University, Faculty of Environmental information
Ayako Kurata
目 次
1
序論8
1.1
はじめに. . . . 8
1.2
目的. . . . 9
1.3
本論文の構成. . . . 9
2
背景10 2.1
ソーシャルメディア. . . . 10
2.2 Twitter . . . . 11
2.3
位置情報. . . . 13
2.4
集合知(クチコミ) . . . . 16
2.5
本章のまとめ. . . . 16
3
実空間とTwitter 18 3.1
「天空の城ラピュタ」テレビ放映時におけるTwitter . . . . 18
3.2
東日本大震災発生時におけるTwitter . . . . 19
3.3
事前検証. . . . 22
3.3.1
検証の概要. . . . 22
3.3.2
ツイートマッピングシステム概要. . . . 22
3.3.3
検証結果. . . . 23
3.4
本章のまとめ. . . . 24
4
関連研究/
サービス26 4.1
マイクロブログを用いたキーワードと地理的位置の対応付けシステム26 4.2 Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors . . . . 27
4.3 Google
トレンド. . . . 28
4.4
関連研究/サービスの比較. . . . 29
5
アプローチと設計31 5.1
アプローチ. . . . 31
5.2
システム概要. . . . 31
5.3
キーワード抽出手法の検討. . . . 32
5.3.1
手法1:
出現回数による選出. . . . 33
5.3.2
手法2:
出現率による選出. . . . 34
5.3.3
手法3:
出現回数の差分による選出. . . . 34
5.3.4
手法4:
出現率の差分による選出. . . . 35
5.3.5
4つの手法の比較. . . . 37
5.4
視覚化手法の検討. . . . 37
5.5
各モジュール詳細. . . . 38
5.5.1
タイムライン取得モジュール. . . . 39
5.5.2
頻出キーワード抽出モジュール. . . . 40
5.5.3
特徴キーワード抽出モジュール. . . . 40
5.5.4
ツイート抽出モジュール. . . . 40
5.5.5
ツイート表示モジュール. . . . 40
5.6
本章のまとめ. . . . 40
6
実装41 6.1
各モジュール詳細. . . . 41
6.1.1
タイムライン取得モジュール. . . . 41
6.1.2
頻出キーワード抽出モジュール. . . . 42
6.1.3
特徴キーワード抽出モジュール. . . . 43
6.1.4
ツイート抽出モジュール. . . . 45
6.1.5
ツイート表示モジュール. . . . 46
6.2
本章のまとめ. . . . 47
7
評価48 7.1
実用性の有無. . . . 48
7.2
イベント検知. . . . 50
7.2.1 2012
年10
月13
日. . . . 50
7.2.2 2012
年11
月18
日. . . . 52
7.2.3 2013
年1
月2
日. . . . 54
7.2.4 2012
年11
月10
日. . . . 54
7.3
利用者からの声. . . . 55
7.4
考察. . . . 56
8
結論59 8.1
本研究のまとめ. . . . 59
8.2
今後の課題. . . . 59
8.2.1
イベント発生箇所の定量的検知. . . . 59
8.2.2
プライバシーへの対処. . . . 60
図 目 次
1 ranKing ranQueen
概要. . . . 8
2
ソーシャルメディア人口の推移. . . . 11
3
利用しているソーシャルメディア. . . . 11
4 Twitter
メイン画面例. . . . 12
5
ジオタグ付ツイート例. . . . 13
6
位置情報表示例. . . . 13
7
国別アカウント数. . . . 13
8
端末別に見たインターネット利用者数・比率の推移. . . . 14
9 foursquare
操作画面. . . . 15
10
欲しい商品・サービスの情報源. . . . 17
11
天空の城ラピュタ放映時の全世界のツイート数推移. . . . 18
12
天空の城ラピュタ放映時の「バルス」に関するツイート数推移. . . 19
13
東北でのツイート数推移. . . . 20
14
関東でのツイート数推移. . . . 20
15
東日本大震災発生時のツイート頻出単語の変化. . . . 21
16
システム画面. . . . 23
17
「花火」を含むツイートの数の推移. . . . 24
18
「花火」を含むツイート数と地理分布の推移. . . . 25
19 19
時台のツイートの地理分布. . . . 26
20
検索結果の時間による推移と駅伝走者の位置(2区). . . . 27
21
検索結果の時間による推移と駅伝走者の位置(3区). . . . 27
22 Google
トレンド検索結果例(1)
検索キーワード:earthquake . . . . 28
23 Google
トレンド検索結果例(2)
検索キーワード:earthquake. . . . 28
24
動作の流れ. . . . 32
25
イメージ図. . . . 35
26
イメージ図. . . . 36
27
キーワード選出手法の比較. . . . 38
28
システム概要図. . . . 39
29
頻出キーワード抽出の流れ. . . . 42
30
特徴キーワード抽出の流れ. . . . 43
31 2012
年10
月13
日キーワード出力結果. . . . 50
32 2012
年10
月13
日、キーワード「花火」の出力結果. . . . 51
33 2012
年10
月13
日の出力結果と同日の花火大会打ち上げ箇所. . . . 51
34 16
時台に投稿された、「空」を含むツイートの地理分布. . . . 52
35
ツイートに含まれていた画像例. . . . 52
36 2012
年11
月18
日. . . . 53
37 2012
年紅葉見頃マップ. . . . 53
38
「箱根」を含むツイートの地理分布の時間別推移と箱根駅伝1
区か ら4
区. . . . 54
39
「展示」を含むツイートの9:00
から17:00
までの地理分布. . . . . 55
40
判定されたイベントの分類. . . . 58
表 目 次
1
収集したツイート情報. . . . 22
2
ツイート数. . . . 22
3
比較. . . . 29
4
タイムラインデータベース格納項目. . . . 33
5
頻出単語データベース. . . . 33
6
手法1:
出現回数による選出結果. . . . 34
7
手法2:
出現率による選出結果. . . . 34
8
手法3:
出現回数の差分による選出結果. . . . 36
9
出現率の差分による選出結果. . . . 36
10
ソフトウェア構成. . . . 41
11
タイムラインデータベース格納項目. . . . 41
12
頻出ワードデータベース格納項目. . . . 42
13
キーワードデータベース作成にかかる時間. . . . 49
14
検索にかかる時間. . . . 49
15
比較. . . . 57
1
序論1.1
はじめに社会の情報化が進み、様々な情報を誰もが簡単に手に入れることができるよう になった。これに伴い、人の趣味や嗜好は多種多様となり、興味関心が移り変わ るスピードも早くなった。この急速な変化に対応するように、様々な形態のメディ アや店舗が登場している。その
1
つとして、新商品や毎日変化する売れ筋商品の みをランキング形式で販売する形態の店舗[1]
がある(図1)。この店舗で陳列され
る商品は流通各社のデータをもとに決定され、約2
週間で移り変わる。この販売 形態は、これまでの、店や商品が流行を創り出すという従来のスタイルを、流行 が店を作るという新しいものへ変えたといえる。このように、販売の現場では流行を察知する、または創り出すということが非 常に重視され、その方法は日々試行錯誤されている。
流行を発信する代表的なメディアとして雑誌やテレビがある。これらの情報は 多くの調査に基づいて発信されるため、一般に正確性が高いとされているが、そ れゆえに人々の手に渡るまでの時間やコストがかかる。
また今日では、インターネット上でも企業・個人ブログやクチコミサイトといっ た様々な形でトレンド情報が発信されている。これらのサイトでは、商品や飲食 店を利用した客がその商品についてレポートし評価をつけることで、数ある商品 のランク付けを行う。これから商品を購入しようとしているユーザは、これらの 情報を商品選択の参考とする。これらの手段は、情報が受け手に辿りつくまでの 時間やコストが雑誌やテレビに比べて大幅に削減される一方で、ユーザが意識的 にクチコミ等を提供する必要があるため手間がかかり、また情報の一般性、正確 性の欠如という問題がある。そして、これらのサイトを成立させるのは、レポー トや評価を提供するユーザの善意であるというもろさが存在する。
図
1: ranKing ranQueen
概要流行の急速な変化を創り出している要因の
1
つにSNS(Social Networking Service)
やマイクロブログサービスの普及が挙げられる。これらのサービスは、1つ1
つの 小さな情報を瞬時に拡散させることを可能にした。これにより、これまでは注目 されることのなかった単なるつぶやきが、共感され拡散されることで大きな力を 持つようになった。SNS
やマイクロブログサービスの利用者は今後も増え、Web上を行き交う声も 増え続けると考えられる。ウェブから生まれる流行も刻々と変化していく。そのような状況の中では、流行をいち早くキャッチし、人々の行動決定に役立て る手段が求められる。そこで、この
Web
上を行き交う大量の声を分析し、意味を 読み取ることで、ユーザの手間なく、十分に一般性を持った世の中の流行を検知 する手法を提案する。本研究では、マイクロブログサービスの
1.2
目的個人によって発信されるテキスト情報および位置情報を用いて、社会の流行や ホットトピックを検知することを目的とする。そのために、大量のテキスト情報 および位置情報の管理、解析、視覚化を行うシステムの設計と構築を行う。
1.3
本論文の構成本論文は全
8
章で構成する。第
2
章で、背景となるサービスとその利用状況、またその社会的影響を示す。第3
章で、本研究で利用するマイクロブログサービスである第
4
章では、関連する研究/サービスの紹介と比較を行い、本研究が目指す姿を 示す。第5
章、第6
章で、本研究で構築したシステムについての設計と実装につい て述べ、第7
章で、構築したシステムの評価を行う。第8
章で、本研究から導かれ た結論と今後の課題を示し、まとめとする。2
背景本章では、本研究の背景であるソーシャルメディア、位置情報サービス、集合知 の現状について述べる。
2.1
ソーシャルメディア本論文では、ソーシャルネットワーキングサービス(SNS)とマイクロブログサー ビスをまとめたものをソーシャルメディアとする。両サービスについての説明を 示す。
SNS
は、社会的なつながりをインターネット上でも実現させるサービスである。代表的な
SNS
として、Facebook[2]
やmixi[3]
、LinkedIn[4]
といったものが存在す る。SNSの中には実名を必須とするもの/しないもの、日記や写真をメインとした ものやゲームを主体としたもの、ターゲットをビジネスの現場に絞ったもの等、さ まざまな種類がある。マイクロブログサービスは、
200
文字程度の短い文章を投稿するブログサービス である。代表的なものとしてTwitter[5]
がある。近年さまざまな場面で利用され、注目されるサービスである。
ソーシャルメディアには、各社が提供する様々なサービスがある。資料
[6]
によ ると、ソーシャルメディア利用者の利用目的も「リアルな友人とのコミュニケー ション」、「暇つぶし」、「ネット上の知り合いとのコミュニケーション」、「趣味な どに関する情報収集」などと様々である。ソーシャルメディア同士や他のサービス との連携も進んでいることから、インターネット上の様々なサービスのプラット フォームとしても注目を集めている。また、ソーシャルメディアの利用人口は年々 増加している。特に近年の増加幅は大きく、2012年5
月時点での日本国内のソー シャルメディア人口の推定値は5060
万人と、2011
年の同人口に比べ、1530
万人 の増加がみられた。2008年からの同人口の推移を図2
に示す。また、図
3
から、スマートフォン利用者は、他の端末利用者に比べ、mixi、 Face-
book
、シャルメディアは、固定された室内でなく、外出先や移動中からも頻繁に利用さ れていると考えられる。
図
2:
ソーシャルメディア人口の推移図
3:
利用しているソーシャルメディア2.2 Twitter
本節では、ソーシャルメディアの中でも近年特に注目を集めている
Obvious
社(現2006
年7
月に開始したマイクロ ブログサービスである。ユーザは、1度に140
文字以内で文章を投稿することがで きる。この文章のことをツイートと呼び、投稿することを「つぶやく」、「ツイー トする」という。ログインすると、タイムラインと呼ばれる画面が表示され、他 のユーザが投稿したツイートを時系列に読むことができる。Twitterユーザの間に は「フォロー」「フォロワー」という関係があり、興味のあるユーザを「フォロー」することで自分のタイムラインにそのユーザのツイートが表示されるようになる。
反対に自分のことをフォローしたユーザを「フォロワー」と呼ぶ。ツイートは非 公開にすることもでき、自分がフォローされる際に、フォロワーの許可/不許可を 選択することができる。ツイッターのメイン画面例を図
4
に示す。図
4: Twitter
メイン画面例投稿機能には、ツイートの他に、リツイート、リプライがある。
リツイートとは、他のユーザが投稿したツイートを再投稿することで、この機
能は
1
つとされる。リツイートには、元のツイートをそのままの形で投稿する公式リツイートと、元のツイートを引用し、自分のコメント 等を付け足して投稿する非公式リツイートがある。一般に、リツイートされた回 数が多いほど、そのツイートの注目度・重要度は高いとされ、現在はリツイート された回数が多かったツイートを知らせるサービスが複数存在する
[7],[8]。
リプライとは、「@宛先アカウント名」をツイートに記述することで、特定のユー ザに向けてツイートすることである。この投稿は、宛先、送り主、宛先と送り主 双方をフォローしているユーザのタイムラインにのみ表示され、チャットのように 使われることもある。
投稿機能の他、ハッシュタグも
[9]
も存在する。また、ツイートにはジオタグと呼ばれる位置情報を付与することができる。こ の機能により、ツイートのテキスト情報とともに緯度・経度情報が投稿され、地 図でユーザの現在位置が示される。ジオタグが付与されたツイートの例を図
5、図 6
に示す。21
ヶ国語に対応しており、世界中で利用されている。2012
年現在、全世界でのアカウント数は
4
億6500
万を超えており、1日に1
億7500
万のツイート が投稿されている[10]。また、国別アカウント数は、1
位がアメリカで1
億770
万 アカウント、2
位はブラジルの3330
万アカウント、3
位に日本の2990
万アカウン ト[10]
と、世界的に見て日本の7
に国別アカウント数を 示す。図
5:
ジオタグ付ツイート例図
6:
位置情報表示例図
7:
国別アカウント数2.3
位置情報現在、携帯電話や携帯ゲーム機、スマートフォンなど、位置情報の発信を可能 とするデバイスは多く存在する。図
8
が示す通り、インターネット利用者数全体に占めるモバイルデバイス利用者の比率は
2002
年を境に急激に増加している。こ の流れは、室内に限られていたインターネット利用環境を、外出時などいつでも どこでも利用できる、ユーザの行動スタイルに合ったものへと変化させた。この 動きの中で、ユーザが発信する位置情報からその行動パターンを調査する手法と いった、ユーザの位置を利用した研究が多く行われている。その1
つとして、酒 巻ら[11]
の研究が挙げられる。酒巻ら
[11]
は、したユーザにとってどのような意味を持つかという情報を推定する手法を提案し た。これを実現させることで、Twitterを用いて人の行動調査を行うことが可能と なる。提案手法は、まずツイートの位置情報により、ツイートのクラスタリングを 行う。次に、各クラスタ内の投稿内容に形態素解析を行い、そのクラスタを代表 する単語を抽出する。提案手法の結果、「起きる」、「寝る」、「家」といった単語の グループが検出され、その範囲が「自宅」に関する箇所であることが推測できた。
図
8:
端末別に見たインターネット利用者数・比率の推移モバイルデバイスの普及に伴い、位置情報を利用したサービスも増加している。
位置情報を利用したサービスは、おおまかに
•
コミュニケーション/ライフログ•
ロケーションベースマーケティング•
ゲームの3つに分類することができる。
コミュニケーション/ライフログ系の位置情報サービスの代表例として、
foursquare[12]、
ロケタッチ
[13]、 Google Latitude[14]、 Facebook/Twitter
のロケーション機能等がfoursquare
は、スマートフォンや携帯電話を使って、自分の位置を他のユーザと 共有したり、他のユーザへリコメンドすることができるサービスである。例えば、ある飲食店へ行った際、チェックイン機能を使ってメッセージを残したり、過去に どんな人がチェックインしたかを知ることができる。また、チェックインの回数に よって店舗からサービスが受けられるなど、店舗と連携したサービスも行ってい る。Twitterや
/
ライフログ系位 置情報サービスは、位置を媒体として人とのつながりを創り出す、SNSの新たな 形として注目を集めている。図
9: foursquare
操作画面ロケーションベースマーケティング
[15]
は、近年利用が増加しつつあるマーケ ティング手法で、企業等がユーザの位置情報と連動して情報配信を行う。例えば、ユーザの現在位置から、周辺のエリア情報を提供したり、目的の商品が買える一 番近い店舗を紹介する。位置情報を用いたマーケティングの例としては、日立製 作所の地図クル
[16]
が挙げられる。位置情報を用いたマーケティング手法につい ては、位置情報から得られる購買行動の記録から消費傾向や消費意欲の関係を調 査する研究[17]
も行われている。飯尾ら[17]
らは、携帯電話から得られる位置情 報ログと、オンラインアンケートの結果を結び付けることで、実際の行動と消費 意欲の関係を分析した。平日および休日に消費者が過ごす行動についてあらかじ め4つのタイプを用意し、得られた位置情報ログから、被験者の行動をこれらの タイプに分類する。検証の結果、「特定の行動タイプの被験者はファッションにお 金をかける傾向がある」、「特定の行動タイプの被験者は独身や単身者が多い」な ど、行動タイプごとに属性や購買行動の特徴がみられた。位置情報を利用したゲームは、2000年に登場して以来、ゲーム市場で人気を博 している。位置情報ゲームでは、実際の移動距離に応じてポイントを取得し、そ れを使って仮想的な町を作り上げるもの、実際にある場所へ行って位置情報を送 信することでその地点を仮想的に「統一」し、これを繰り返しながら日本中の統 一を目指すもの等、様々なものがリリースされている。中でも人気を博している のが、株式会社コロプラが運営するコロニーな生活☆
PLUS[18]
である。その概要を示す。
ゲームに登録すると、自分だけの街=コロニーが作成される。コロニーな生活 は、そのコロニーを発展させていく街育成ゲームである。育成するためにはゲー ム内の通貨である「プラ」が必要となる。この「プラ」を取得するには実際に移 動しなければならず、その移動距離に伴って、取得できる「プラ」も増える。1km なら1プラ、10kmなら
10
プラ取得できる。また、限られた場所でのみ買うこと ができるお土産やスタンプもあり、これらのシステムがユーザの移動を促す。こ のゲームは、2005年にリリースされて以来ユーザ数を増やし続け、2012年7
月の 段階でユーザ数は300
万人を突破した[19]。また、2011
年6
月には東急百貨店吉 祥寺店と連携し、コロプラ物産展2011[20]
が開催された。このイベントは9
日間 の開催で4
万人を動員し、さらに売上合計は約7000
万円、この会場規模として開 店以来の売上を記録した。遠方からの来場者も非常に多く、「一都三県以外」の来 場者だけで通常の週末並みの来客を記録するなど、集客効果を発揮した。この事例は位置情報ゲームが人の実空間での行動を促した例といえる。
2.4
集合知(
クチコミ)2.1
節で述べたソーシャルメディアの普及の結果、今日のインターネット上には 個人の感情や感覚、感想を記したテキストデータで溢れている。このようなデー タは、一般に非構造化データ[21]
の一つとされる。このような非構造化データは、多く集めることで人の行動決定や購買意欲に影 響を及ぼし得る有用な情報となる。それを利用したサービスの例が、クチコミサ イトや商品のレビューサイトである。
購買者の欲しい商品・サービスの情報源についての調査結果を図
10
に示す。欲 しい商品・サービスの情報源としてクチコミサイトや商品などのレビューサイト を挙げた人の割合は、企業のウェブサイトや商品・サービス提供者からのメール マガジン等に比べ高い[10]
。このことから、消費者は、各企業の発表する情報より も実際に利用した個人の感想を重要視していることがわかる。さらに、商品のク チコミを発信するサイトでも、「各専門分野の商品・サービスを紹介する紹介サイ ト(個人が運営するもの)」や「個人ホームページ」の順位が低いことから、イン ターネット上のクチコミは、大量に集まった状況で有用となると考えられる。2.5
本章のまとめ本章では、ソーシャルメディア、位置情報サービス、集合知(口コミ)を利用し たサービスの種類・普及状況と実社会への影響について示した。
ソーシャルメディアの利用者は年々増加しており、その利用目的は友人とのコ ミュニケーションや暇つぶしなど、複数あることがわかった。
図
10:
欲しい商品・サービスの情報源位置情報サービスについては、その利用について、コミュニケーション/ライフ ログ、ロケーションベースマーケティング、ゲームの大まかに
3
つのジャンルに分 類される。特にゲームの分野では、提携した百貨店イベントで大きな売り上げを 上げるなど、実空間に多大な影響を及ぼした。集合知を利用したサービスは、購買者が購買活動をする上で重要視されている。
さらに、
Web
上に存在するクチコミは、大量に集まった状況で有用となると考え られることがわかった。以上を踏まえ、次章では対象をマイクロブログサービスである
いて示す。
3
実空間と本章では、2つの事例と独自に行った事前検証の結果を用いて、Twitterと実空 間イベントとの相関について示す。
本章では、マイクロブログサービス
3.1
「天空の城ラピュタ」テレビ放映時における資料
[10]
によると、2012年12
月22
日現在の瞬間最高ツイート数トップ3
は、1 位が映画「天空の城ラピュタ[22]」テレビ放映時(日本、25088
ツイート/秒)、2 位、「スーパーボウルXL
」優勝決時点(アメリカ、12233
ツイート/
秒、3
位「スー パーボウル」マドンナ登場時(アメリカ、10245ツイート/秒)と、映画やスポー ツの特定のシーンと連動している。1
位となった「天空の城ラピュタ」テレビ放映時には、特に主人公である2
人が 滅びの呪文「バルス」を唱える瞬間に瞬間最高ツイート数を達成した。この際の ツイート内容はほとんどが「バルス」を含むものである[23]
。映画を見ていた視聴 者が、映画中の特定のシーンと同時にツイートをしたためと考えられる。これは、実空間での出来事の盛り上がりが
この日の全世界におけるツイート数の変化および「バルス」に関するツイート 数の変化を図
11、図 12
に示す。図
11:
天空の城ラピュタ放映時の全世界のツイート数推移図
12:
天空の城ラピュタ放映時の「バルス」に関するツイート数推移3.2
東日本大震災発生時における2011
年3
月11
日に発生した東日本大震災は、震源地である東北地方で多数の犠 牲者を出すと同時に、関東地方でも交通期間の乱れや停電、通信手段の不通といっ た各種の混乱を招いた。そのような状況の中で、この際、大きな話題となった取組として「ヤシマ作戦」が挙げられる。「ヤシマ 作戦」とはテレビアニメ「新世紀エヴァンゲリオン
[24]」に登場する作戦名で、ア
ニメ中では、攻撃兵器の電力を集めるために日本中を停電状態にする作戦を指す。震災時、福島県の原子力発電所をはじめとする発電設備が大きな打撃を受けたた め、東北および関東地方で停電の恐れが生じた。この停電を免れるため、「ヤシマ 作戦」の実行が
本研究では、震災発生時におけるツイート内容と時間との関係を調べるため、東 日本大震災発生時に関東と東北で投稿されたジオタグ付ツイート数の推移を調査 した。結果を図
??
に示す。グラフは、震災発生の前後1
日ずつ、計3
日間の推移 を示している。ツイート数のピークは、関東では
11
日19:30
から20:30
までの3017
ツイート、東 北では11
日15:30
から16:30
までの189
ツイート、また3
日間合計は関東は52580
ツイート、東北で3460
ツイートと、ツイート数には約15
倍の差があった。これは 人口の差と14:46
を境に急激にツイート数が変 化していることがわかる。次に、表
15
に示すのは地震発生当日13
時30
分から翌日00
時30
分までの、時間 帯ごとの関東でのツイートの頻出単語とその出現数である。11
時間で合計23980
ツイート取得することができた。この日特に多く見られた単語の出現数の推移を 示した。震災当日、Twitterは安否確認や災害情報、交通情報、天気といった様々 な情報を得るためのツールとして重要な役目を果たした。頻出単語を時間別に見図
13:
東北でのツイート数推移図
14:
関東でのツイート数推移ても、震災発生前の
13
時30
分から14
時30
分までは「笑」、「人」、「日」といっ た、それだけで特に意味を表さない単語が多く、またその出現数も少ない。した がって、それぞれのツイートに共通性はあまり見られない。一方で、震災発生後の
15
時30
時以降を見てみると、「地震」、「大丈夫」、「余 震」、「電車」といったキーワードが多く出現し、またの出現数も格段に増加して いる。このことから、地震発生をきっかけにユーザが一斉に共通の話題について ツイートしていることがわかる。これらの単語をその内容からおおまかに以下の4つのジャンルに分別し、ジャ ンル毎に時間に伴う出現数の変化を検証した。
•
安否確認:単語例「大丈夫」「無事」•
交通:単語例「駅」「線」•
現在状況の発信:単語例「通過」「帰宅」•
災害そのものについて:単語例「地震」「揺れ」その結果、それぞれのジャンルごとに、時間に伴ってその単語の出現数が変化 していることがわかった。
災害そのものについてのツイートや安否確認をするようなツイートは、地震発 生時をピークに減少傾向にあり、反対に交通網についてのツイートや現在状況の 発信をするツイートは時間の経過とともに増加傾向にある。これは、仕事や学校 等で中心部へ来ていた人々が、時間が経つにつれて帰宅手段について検討したり、
帰宅状況について発信したためと考えられる。
図
15:
東日本大震災発生時のツイート頻出単語の変化3.3
事前検証前節で示した例から、ツイート数、ツイート内容はともに実空間で起こったイ ベントと密接な関係があると考察した。本研究で構築するシステムの方針を設定 するにあたり、この考察についての検証を行う。
3.3.1
検証の概要実空間イベントと位置情報付きツイートの位置
/
内容/
数は相関するか否かにつ いて事前検証を行う。あらかじめキーワードを設定し、キーワードを含むツイー トを、その位置情報から地図上にプロットする。そのキーワードに関するイベン トの発生および発生箇所がそこから検知できるか検証する。キーワードは「花火」に設定し、花火大会が予定されていた
2012
年7
月28
日 と、予定されていない2012
年7
月27
日でツイートの動向を比較した。時間帯は16
時から23
時59
分で、1時間ごとに比較を行った。検証にあたり、次に述べるツイートマッピングシステムを実装した。
3.3.2
ツイートマッピングシステム概要検証を行うにあたり、独自に実装を行ったツイートマッピングシステムの概要 を示す。システムの実装にあたっては、梶原
[25]
の研究を参考とした。本システムは、ツイートの位置を視覚的に認識することを可能とする。投稿さ れた日時や含まれるキーワードを選択することができ、特定の日時、キーワード を含むツイート群について調査することができる。地図とキーワード、対象日時 選択欄で構成され、キーワードと日時を選択すると、地図上に該当するツイート がピンのアイコンで表示される。図
16
に操作画面を示す。なお、検証に用いたツイートは、Twitter社が提供する
streamingAPI
を使い、日本列島をカバーする緯度
127.4414〜148.7109
度、経度29.9930〜45.8900
度の範 囲で投稿されたもののみを独自に収集した。検証するにあたって収集したツイー トの情報を表1,2
に示す。表
1:
収集したツイート情報user
ユーザ名date
日時lat
緯度lng
経度text
ツイート内容表
2:
ツイート数指定期間中の全ツイート
81791
キーワードを含むツイート1690
図
16:
システム画面3.3.3
検証結果2011
年8
月27
日、2011
年8
月28
日で、キーワードを含むツイートの割合、地 理分布は明らかに異なった。花火大会のなかった
27
日は、キーワードを含むツイートの割合は9
時間平均で0.56
%、最小が15
時台の0.33
%、最大が20
時台の0.89
%であった。これに対し 花火大会のあった28
日は、キーワードを含むツイートの割合が9
時間平均で3.06
%、最小が
15
時台の1.17
%、最大が19
時台の6.67
%と、最大で5.78
%も差があ る。また、1
日の中での割合の増減の変化も両日で異なっている。27
日は20
時台 をピークにゆるやかに変化している。それに対し、28日は、花火大会開始時刻の19
時台をピークに、特に19
時前後で急激に変化している。その地理分布にも違いがある。
27
日は全体にまばらに分布しており、時間帯に よっての差はほぼ見られない。しかし28
日は、19時を中心に、若干ではあるが関 東中心部にツイートは集中している。ピークを迎えた19
時台の地理分布を見ると、花火大会が開催された立川、隅田川、八王子に特にツイートが集まっていること がわかった。19時台のツイートの地理分布を図
19
に示す。図
17:
「花火」を含むツイートの数の推移検証結果から、以下のことがいえる。
•
イベントの発生時刻と、それに関連するツイートの数には相関関係がある。•
イベント発生地点と、それに関連するツイートの位置には相関関係がある。•
ツイート数、地理分布は短いタイムスパンで変化する。これらから、ツイート内容・時刻・数・位置情報から、ある地点でのホットト ピックの検知が可能であるという仮説を立てた。この仮説に基づいて、システム の設計と構築を行う。
3.4
本章のまとめ本章では、
特定のイベント開催時については、花火大会に焦点をあて、花火大会の開催日 とそうでない日のツイートの動向を比較した。結果、開催日とそうでない日では ツイート数、その地理分布が大きく異なったことから、実空間イベントとテキス ト、それに付随する位置情報も相関することがわかった。
以上の事例から、Twitterは時間・位置・ツイート内容において実社会の出来事 と相関を持つと考えられる。
25
図
19: 19
時台のツイートの地理分布4
関連研究/
サービス本章では、ウェブ上でのイベントやホットトピックの検知を目的とした関連研 究、サービスを示す。
4.1
マイクロブログを用いたキーワードと地理的位置の対応付けシ ステム梶原
[25]
は、ジオタグが付与されたツイートを用いて、言葉と地理的位置との 対応付けを行うシステム「最大瞬間なう速システム」を開発した。これは、ジオ タグ付ツイートを時間とキーワードで検索を行い、該当するツイートをマップ上 に表示するものである。この研究の目的は、キーワードが持つ地理的なあいまい 性を除去することで、あるキーワードの地理的なトレンドを明らかにすることで ある。例えば、「箱根」というキーワードについて聞き手が想定する場所は、「箱根湯 本」、「強羅」、「仙石原」とさまざまである。これを、「箱根」という言葉を含む ツイートが、実際にはどのような場所でつぶやかれているかを明らかにすること で、このような言葉のあいまい性を除去することを目指している。また、この研 究の中で、「駅伝」のように、時間によって地理的意味が変化するキーワードの存 在もわかった。「駅伝」での時間による検索結果の違いと実際の駅伝走者の位置を 図
20,21
に示す。[a]2
区の時間の検索結果[b]2
区の時間の駅伝走者の位置 図20:
検索結果の時間による推移と駅伝走者の位置(2
区)[a]3
区の時間の検索結果[b]3
区の時間の駅伝走者の位置 図21:
検索結果の時間による推移と駅伝走者の位置(3区)4.2 Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors
Sakaki
ら[26]
は、ジオタグが付与されたツイートの解析を行い、これを利用して地震の検知と発生箇所の推定を行った。
解析は2つの段階から成る。
1
段階目として、「地震」「揺れた」といった言葉を含むツイートが、実際の地 震の発生直後にされたものかどうかの判定を行う。「地震」や「揺れ」という言葉 を含む場合でも、それが本当に地震の発生を意味するものかは定かではない。例 えば、一週間前の地震についてのつぶやきである可能性や、「心が揺れる」といっ た慣用句として使われている可能性も十分にある。これらを正しく判断するため、SVM
を用いて有効なツイートかを判定する。次に、地震直後のツイートの集団からノイズの除去、それらの位置情報から地 震発生地点の予測を行う。地震発生時のツイート数の推移を見ると、その数は指 数関数的に増加していることがわかる。このことから、ノイズについては時系列 的にツイート数を検証し、ノイズか否かを判断する。
位置推定については、カルマンフィルタとパーティクルフィルタ
[27]
を利用する。カルマンフィルタとは、直前までの情報と現在の情報を組み合わせることで、現 在の状態を推定する手法で、位置推定に広く用いられる。
パーティクルフィルタとは、物体の検出と追跡を同時に行うためのアルゴリズ ムである。現状態から起こり得る多数の次状態を粒子に見立て、その確立密度か ら次の状態の予測を行う。
Sakaki
らは検知するイベントを地震に絞り、日によって変化する、地震に関する ホットな場所 を観測することで地震の発生の検知を可能とした。
4.3 Google
トレンドの被検索数を時系列に表すことで、そのキーワードの人気度の動向を表す。検索 数の他に、指定したキーワードと共に検索されたキーワードや、検索された地理 位置も見ることができ、さらに検索された地理位置は、時系列ごとに変化する様 子を見ることができる。キーワードの盛り上がりを時空間的に観測することがで きる。
22,23
に示す。図
22: Google
トレンド検索結果例(1)
検索キーワード:earthquake
図
23: Google
トレンド検索結果例(2)
検索キーワード:earthquake4.4
関連研究/
サービスの比較上記の3つの関連研究およびサービスの総括と比較を行う。どれも時空間解析 によって、変化するホットトピックを視覚化および検知を行うという点では共通 している。
ここでは、即時性、正確性、ユーザによるイベントの想定の必要性の有無の3 つの点において比較を行う。
即時性とは、イベントが発生してから検知できるまでの時間の短さを指す。イ ベント発生から短い時間で検知できる場合に、即時性が高いとみなす。
正確性とは、検索する情報のノイズの少なさを表す。指定したキーワードを含 むものの、そのテキスト情報が本当にそのイベントの発生を意味しているとは限 らない。キーワードの意味と、そのイベントの発生が合致する情報が多い場合に、
正確性が高いとみなす。
ユーザによるイベントの想定とは、あらかじめユーザによるイベントの想定が 必要か否か、つまりユーザの趣味・思考に関係なく、社会一般での盛り上がりを 抽出できるか否かを指す。
比較結果を表
3
に示す。なお、Sakaki
らの研究については、そのシステム名で あるToretter
と表記する。表
3:
比較即時性 正確性 ユーザによる想定 最大瞬間なう速 ○ × 必要
Toretter
○ ○ 必要即時性
最大瞬間なう速、Toretterは情報源として
3
章 でも示した通り、ツイート数の増減は秒単位で実イベントと対応している。したがって、即時性は高いと言える。反対に、
正確性
最大瞬間なう速は、ツイートに形態素解析を行い、その結果とキーワードと のマッチングを行っている。したがって、正確性は形態素解析ツールに依存 し、それほど正確性は高くないと考えられる。
正確性は高いと言える。
Toretter
は、解析の第1
段階で、そのツイートが本 当に地震の発生直後にされたものなのかの判断を行っている。正確性は高い と言える。ユーザによるイベントの想定
最大瞬間なう速、Googleトレンドは、ユーザがキーワードを指定する形を とるため、あらかじめイベントの想定が必要である。Toretterは対象を地震 に限定しているため、こちらもある程度ユーザが地震の発生を想定している 場合に有効となる。したがって、検出されるイベントの種類はユーザ依存と なる。
本研究は、時空間解析を用いてテキスト情報からホットトピックの検知を行う という点で、上記の3つの研究
/
システムと共通している。最も大きな違いは、ユーザによる、イベントの想定が必要か否かという点であ る。上記の研究/サービスは、キーワード指定等の方法で、ユーザ側であらかじめ ある程度のイベントの予測が必要となり、ゆえに検知されるホットトピックもユー ザ依存となる。しかしこれらの方法では、社会一般で盛り上がっているトピック や、1番盛り上がっているキーワードを知ることは容易ではない。本研究では、そ ういったユーザの想定を必要とせず、ウェブ上で一番盛り上がっているトピック をユーザへ提示することを目指す。これにより、ユーザの新たな気付きを促すこ とができる。