Twitter を用いた状況検知システムの設計と構築

(1)

卒業論文

2012

年度（平成

24

年度）

Twitter

を用いた状況検知システムの設計と構築

慶應義塾大学環境情報学部倉田彩子

(2)

卒業論文要旨

- 2012

年度

(

平成

24

年度

)

Twitter

^を用いた

状況検知システムの設計と構築

社会の情報化、通信デバイスの普及によって、

24

時間いつでもどこでも情報の入手・発信が可能となった。これに伴い、人々の興味・関心の対象が変化するスピードも速くなっている。さまざまなイベントへの参加や購買活動など、私たちの行動は流行に左右されることが多く、各種メディアは、様々な方法で今話題となっているものをいかに早く発信するか試行錯誤している。

そこで、本研究では

Web

上に存在するテキストや位置情報を用いることで、今この瞬間に起こっている話題のものとそれに付随する場所を検知する手法を提案する。

本論文では、マイクロブログサービスの１つである

Twitter

に着目し、

Twitter

に投稿されるテキスト/位置情報と実空間で発生するイベントとの間の相関について調査・検証を行った。その結果、Twitterに投稿されるテキストの数、テキスト内容、位置情報は、実空間イベントから大きな影響を受けていることがわかった。

このことから、Twitterへの投稿の収集、解析を行うことで実空間の状況検知が可能であるという仮説を立て、これを実現するシステム、AKT24(Ayako Kurata

Tweet-analyzer 24h)

の設計と構築を行った。

AKT24

は、Twitterに投稿された情報を、字句/時間/緯度/経度の

4

次元で解析

を行うことで実空間の状態検知を行うことを目的とする。システムは地図と、横軸をキーワード、縦軸を時刻とするグラフで構成され、これによって指定期間中の特徴キーワード、それを含むツイートの地理分布を表示する。キーワードの抽出には、通常時との出現数の差分の大小を利用する手法を採用した。

システムの実装、評価の結果、本システムにより複数の実空間イベントの発生とその発生箇所が感知できることが確認された。

本研究によって、これまで情報収集のために必要とされていた時間やコストを大幅に削減することが可能となる。

キーワード:

1

．

Twitter, 2.

時空間解析

, 3.

位置情報

慶應義塾大学環境情報学部

倉田彩子

Abstract of Bachelor’s Thesis - Academic Year 2012

(3)

Auto situation detecting system using Twitter

Today, the computerization and the popularization of communication devices have made it possible to get and provide the information at anytime, anywhere.

Accordingly, the things and places we become interested in change quickly and what event we should take part in or what we should buy can be easily inﬂuenced by the fashion. Thus, various media struggle how to detect and provide information about hot topics .

We have investigated and validated the correlation between texts, geo-information of Twitter and events in real world. As a result, we found that the number, con- tents of texts and geo-information are inﬂuenced by events in real world. From above, we made a hypothesis which is we can detect situation in real world by collecting and analyzing tweets and built the system, AKT24(Ayako Kurata Tweet-analyzer 24h) to validate the hypothesis.

The purpose of this system is to detect present situation in real world by an- alyzing tweets from the point of text, time, latitude and longitude. This system consists of map and graph, showing characteristic keywords on longitudinal axis and time on horizontal axis. This indicates characteristic keywords and its ge- ographical distribution in specific period. To extract the keywords, we use the difference of frequency of words used between specific period and previous one.

After this implementation and validation of this system, we veriﬁed that we were able to detect what and where the events occur in real world.

This study contributed the dramatic reduction in search costs and time for hot topics .

Keywords :

1. Twitter, 2.Temporal-spatial analysis, 3.Geo-information

Keio University, Faculty of Environmental information

Ayako Kurata

(4)

1

序論

8

1.1

はじめに

. . . . 8

1.2

目的

. . . . 9

1.3

本論文の構成

. . . . 9

2

背景

10 2.1

ソーシャルメディア

. . . . 10

2.2 Twitter . . . . 11

2.3

位置情報

. . . . 13

2.4

集合知

(クチコミ） . . . . 16

2.5

本章のまとめ

. . . . 16

3

実空間と

Twitter 18 3.1

「天空の城ラピュタ」テレビ放映時における

Twitter . . . . 18

3.2

東日本大震災発生時における

Twitter . . . . 19

3.3

事前検証

. . . . 22

3.3.1

検証の概要

. . . . 22

3.3.2

ツイートマッピングシステム概要

. . . . 22

3.3.3

検証結果

. . . . 23

3.4

本章のまとめ

. . . . 24

4 /

サービス

26 4.1

マイクロブログを用いたキーワードと地理的位置の対応付けシステム

26 4.2 Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors . . . . 27

4.3 Google

トレンド

. . . . 28

4.4 . . . . 29

5

アプローチと設計

31 5.1

アプローチ

. . . . 31

5.2

システム概要

. . . . 31

5.3

キーワード抽出手法の検討

. . . . 32

5.3.1

手法

1:

出現回数による選出

. . . . 33

5.3.2

手法

2:

出現率による選出

. . . . 34

5.3.3

手法

3:

出現回数の差分による選出

. . . . 34

5.3.4

手法

4:

出現率の差分による選出

. . . . 35

5.3.5

４つの手法の比較

. . . . 37

5.4

視覚化手法の検討

. . . . 37

(5)

5.5

各モジュール詳細

. . . . 38

5.5.1

タイムライン取得モジュール

. . . . 39

5.5.2

頻出キーワード抽出モジュール

. . . . 40

5.5.3

特徴キーワード抽出モジュール

. . . . 40

5.5.4

ツイート抽出モジュール

. . . . 40

5.5.5

ツイート表示モジュール

. . . . 40

5.6

本章のまとめ

. . . . 40

6

実装

41 6.1

各モジュール詳細

. . . . 41

6.1.1

タイムライン取得モジュール

. . . . 41

6.1.2

頻出キーワード抽出モジュール

. . . . 42

6.1.3

特徴キーワード抽出モジュール

. . . . 43

6.1.4

ツイート抽出モジュール

. . . . 45

6.1.5

ツイート表示モジュール

. . . . 46

6.2

本章のまとめ

. . . . 47

7

評価

48 7.1

実用性の有無

. . . . 48

7.2

イベント検知

. . . . 50

7.2.1 2012

年

10

月

13

日

. . . . 50

7.2.2 2012

年

11

月

18

日

. . . . 52

7.2.3 2013

年

1

月

2

日

. . . . 54

7.2.4 2012

年

11

月

10

日

. . . . 54

7.3

利用者からの声

. . . . 55

7.4

考察

. . . . 56

8

結論

59 8.1

本研究のまとめ

. . . . 59

8.2

今後の課題

. . . . 59

8.2.1

イベント発生箇所の定量的検知

. . . . 59

8.2.2

プライバシーへの対処

. . . . 60

(6)

図目次

1 ranKing ranQueen

概要

. . . . 8

2

ソーシャルメディア人口の推移

. . . . 11

3

利用しているソーシャルメディア

. . . . 11

4 Twitter

メイン画面例

. . . . 12

5

ジオタグ付ツイート例

. . . . 13

6

位置情報表示例

. . . . 13

7

国別アカウント数

. . . . 13

8

端末別に見たインターネット利用者数・比率の推移

. . . . 14

9 foursquare

操作画面

. . . . 15

10

欲しい商品・サービスの情報源

. . . . 17

11

天空の城ラピュタ放映時の全世界のツイート数推移

. . . . 18

12

天空の城ラピュタ放映時の「バルス」に関するツイート数推移

. . . 19

13

東北でのツイート数推移

. . . . 20

14

関東でのツイート数推移

. . . . 20

15

東日本大震災発生時のツイート頻出単語の変化

. . . . 21

16

システム画面

. . . . 23

17

「花火」を含むツイートの数の推移

. . . . 24

18

「花火」を含むツイート数と地理分布の推移

. . . . 25

19 19

時台のツイートの地理分布

. . . . 26

20

検索結果の時間による推移と駅伝走者の位置（2区）

. . . . 27

21 . . . . 27

22 Google

トレンド検索結果例

(1)

検索キーワード：

earthquake . . . . 28

23 Google

(2)

検索キーワード：earthquake

. . . . 28

24

動作の流れ

. . . . 32

25

イメージ図

. . . . 35

26

イメージ図

. . . . 36

27

キーワード選出手法の比較

. . . . 38

28

システム概要図

. . . . 39

29

頻出キーワード抽出の流れ

. . . . 42

30

特徴キーワード抽出の流れ

. . . . 43

31 2012

年

10

月

13

日キーワード出力結果

. . . . 50

32 2012

年

10

月

13

日、キーワード「花火」の出力結果

. . . . 51

33 2012

年

10

月

13

日の出力結果と同日の花火大会打ち上げ箇所

. . . . 51

34 16

時台に投稿された、「空」を含むツイートの地理分布

. . . . 52

35

ツイートに含まれていた画像例

. . . . 52

36 2012

年

11

月

18

日

. . . . 53

37 2012

年紅葉見頃マップ

. . . . 53

(7)

38

「箱根」を含むツイートの地理分布の時間別推移と箱根駅伝

1

区から

4

区

. . . . 54

39

「展示」を含むツイートの

9:00

から

17:00

までの地理分布

. . . . . 55

40

判定されたイベントの分類

. . . . 58

(8)

表目次

1

収集したツイート情報

. . . . 22

2

ツイート数

. . . . 22

3

比較

. . . . 29

4

タイムラインデータベース格納項目

. . . . 33

5

頻出単語データベース

. . . . 33

6

手法

1:

出現回数による選出結果

. . . . 34

7

手法

2:

出現率による選出結果

. . . . 34

8

手法

3:

出現回数の差分による選出結果

. . . . 36

9

出現率の差分による選出結果

. . . . 36

10

ソフトウェア構成

. . . . 41

11

タイムラインデータベース格納項目

. . . . 41

12

頻出ワードデータベース格納項目

. . . . 42

13

キーワードデータベース作成にかかる時間

. . . . 49

14

検索にかかる時間

. . . . 49

15

比較

. . . . 57

(9)

1

序論

1.1

はじめに

社会の情報化が進み、様々な情報を誰もが簡単に手に入れることができるようになった。これに伴い、人の趣味や嗜好は多種多様となり、興味関心が移り変わるスピードも早くなった。この急速な変化に対応するように、様々な形態のメディアや店舗が登場している。その

1

つとして、新商品や毎日変化する売れ筋商品のみをランキング形式で販売する形態の店舗

[1]

がある（図

1）。この店舗で陳列され

る商品は流通各社のデータをもとに決定され、約

2

週間で移り変わる。この販売形態は、これまでの、店や商品が流行を創り出すという従来のスタイルを、流行が店を作るという新しいものへ変えたといえる。

このように、販売の現場では流行を察知する、または創り出すということが非常に重視され、その方法は日々試行錯誤されている。

流行を発信する代表的なメディアとして雑誌やテレビがある。これらの情報は多くの調査に基づいて発信されるため、一般に正確性が高いとされているが、それゆえに人々の手に渡るまでの時間やコストがかかる。

また今日では、インターネット上でも企業・個人ブログやクチコミサイトといった様々な形でトレンド情報が発信されている。これらのサイトでは、商品や飲食店を利用した客がその商品についてレポートし評価をつけることで、数ある商品のランク付けを行う。これから商品を購入しようとしているユーザは、これらの情報を商品選択の参考とする。これらの手段は、情報が受け手に辿りつくまでの時間やコストが雑誌やテレビに比べて大幅に削減される一方で、ユーザが意識的にクチコミ等を提供する必要があるため手間がかかり、また情報の一般性、正確性の欠如という問題がある。そして、これらのサイトを成立させるのは、レポートや評価を提供するユーザの善意であるというもろさが存在する。

図

1: ranKing ranQueen

概要

(10)

流行の急速な変化を創り出している要因の

1

つに

SNS(Social Networking Service)

やマイクロブログサービスの普及が挙げられる。これらのサービスは、1つ

1

つの小さな情報を瞬時に拡散させることを可能にした。これにより、これまでは注目されることのなかった単なるつぶやきが、共感され拡散されることで大きな力を持つようになった。

SNS

やマイクロブログサービスの利用者は今後も増え、Web上を行き交う声も増え続けると考えられる。ウェブから生まれる流行も刻々と変化していく。

そのような状況の中では、流行をいち早くキャッチし、人々の行動決定に役立てる手段が求められる。そこで、この

Web

上を行き交う大量の声を分析し、意味を読み取ることで、ユーザの手間なく、十分に一般性を持った世の中の流行を検知する手法を提案する。

本研究では、マイクロブログサービスの

Twitter

上に発信されるテキストと、それに付与された位置情報を用いたイベント検知システムの設計と実装を行う。

1.2

目的

個人によって発信されるテキスト情報および位置情報を用いて、社会の流行やホットトピックを検知することを目的とする。そのために、大量のテキスト情報および位置情報の管理、解析、視覚化を行うシステムの設計と構築を行う。

1.3

本論文の構成

本論文は全

8

章で構成する。

第

2

章で、背景となるサービスとその利用状況、またその社会的影響を示す。第

3

章で、本研究で利用するマイクロブログサービスである

Twitter

について、その実空間との相関を事例と独自に行った検証の結果を用いて示す。

第

4

章では、関連する研究/サービスの紹介と比較を行い、本研究が目指す姿を示す。第

5

章、第

6

章で、本研究で構築したシステムについての設計と実装について述べ、第

7

章で、構築したシステムの評価を行う。第

8

章で、本研究から導かれた結論と今後の課題を示し、まとめとする。

(11)

2

背景

本章では、本研究の背景であるソーシャルメディア、位置情報サービス、集合知の現状について述べる。

2.1

ソーシャルメディア

本論文では、ソーシャルネットワーキングサービス（SNS)とマイクロブログサービスをまとめたものをソーシャルメディアとする。両サービスについての説明を示す。

SNS

は、社会的なつながりをインターネット上でも実現させるサービスである。

代表的な

SNS

として、

Facebook[2]

や

mixi[3]

、

LinkedIn[4]

といったものが存在する。SNSの中には実名を必須とするもの/しないもの、日記や写真をメインとしたものやゲームを主体としたもの、ターゲットをビジネスの現場に絞ったもの等、さまざまな種類がある。

マイクロブログサービスは、

200

文字程度の短い文章を投稿するブログサービスである。代表的なものとして

Twitter[5]

がある。近年さまざまな場面で利用され、

注目されるサービスである。

ソーシャルメディアには、各社が提供する様々なサービスがある。資料

[6]

によると、ソーシャルメディア利用者の利用目的も「リアルな友人とのコミュニケーション」、「暇つぶし」、「ネット上の知り合いとのコミュニケーション」、「趣味などに関する情報収集」などと様々である。ソーシャルメディア同士や他のサービスとの連携も進んでいることから、インターネット上の様々なサービスのプラットフォームとしても注目を集めている。また、ソーシャルメディアの利用人口は年々増加している。特に近年の増加幅は大きく、2012年

5

月時点での日本国内のソーシャルメディア人口の推定値は

5060

万人と、

2011

年の同人口に比べ、

1530

万人の増加がみられた。2008年からの同人口の推移を図

2

に示す。

また、図

3

から、スマートフォン利用者は、他の端末利用者に比べ、

mixi、 Face-

book

、

Twitter

といったソーシャルメディアの利用者が多いこともわかる。ソー

シャルメディアは、固定された室内でなく、外出先や移動中からも頻繁に利用されていると考えられる。

(12)

図

2:

ソーシャルメディア人口の推移

図

3:

利用しているソーシャルメディア

2.2 Twitter

本節では、ソーシャルメディアの中でも近年特に注目を集めている

Twitter

について詳説する。

Twitter

とは、米

Obvious

社（現

Twitter

社）が

2006

年

7

月に開始したマイクロブログサービスである。ユーザは、1度に

140

文字以内で文章を投稿することができる。この文章のことをツイートと呼び、投稿することを「つぶやく」、「ツイートする」という。ログインすると、タイムラインと呼ばれる画面が表示され、他のユーザが投稿したツイートを時系列に読むことができる。Twitterユーザの間には「フォロー」「フォロワー」という関係があり、興味のあるユーザを「フォロー」

することで自分のタイムラインにそのユーザのツイートが表示されるようになる。

反対に自分のことをフォローしたユーザを「フォロワー」と呼ぶ。ツイートは非公開にすることもでき、自分がフォローされる際に、フォロワーの許可/不許可を選択することができる。ツイッターのメイン画面例を図

4

に示す。

(13)

図

4: Twitter

メイン画面例

投稿機能には、ツイートの他に、リツイート、リプライがある。

リツイートとは、他のユーザが投稿したツイートを再投稿することで、この機

能は

Twitter

の大きな特徴の

1

つとされる。リツイートには、元のツイートをその

ままの形で投稿する公式リツイートと、元のツイートを引用し、自分のコメント等を付け足して投稿する非公式リツイートがある。一般に、リツイートされた回数が多いほど、そのツイートの注目度・重要度は高いとされ、現在はリツイートされた回数が多かったツイートを知らせるサービスが複数存在する

[7],[8]。

リプライとは、「@宛先アカウント名」をツイートに記述することで、特定のユーザに向けてツイートすることである。この投稿は、宛先、送り主、宛先と送り主双方をフォローしているユーザのタイムラインにのみ表示され、チャットのように使われることもある。

投稿機能の他、ハッシュタグも

Twitter

の特徴の一つである。ハッシュタグとは、同じ話題のツイートに付与される目印のようなものである。「#ハッシュタグ名」をツイートに記述するだけで、ツイートをグループ化したり、同じ話題のツイートを検索してまとめて読むことができる。現在、ハッシュタグ分析・検索サービス

[9]

も存在する。

また、ツイートにはジオタグと呼ばれる位置情報を付与することができる。この機能により、ツイートのテキスト情報とともに緯度・経度情報が投稿され、地図でユーザの現在位置が示される。ジオタグが付与されたツイートの例を図

5、図 6

に示す。

Twitter

は

21

ヶ国語に対応しており、世界中で利用されている。

2012

年現在、全

世界でのアカウント数は

4

億

6500

万を超えており、1日に

1

億

7500

万のツイートが投稿されている

[10]。また、国別アカウント数は、1

位がアメリカで

1

億

770

万アカウント、

2

位はブラジルの

3330

万アカウント、

3

位に日本の

2990

万アカウント

[10]

と、世界的に見て日本の

Twitter

利用者は多い。図

7

に国別アカウント数を示す。

(14)

図

5:

ジオタグ付ツイート例

図

6:

位置情報表示例

図

7:

国別アカウント数

2.3

位置情報

現在、携帯電話や携帯ゲーム機、スマートフォンなど、位置情報の発信を可能とするデバイスは多く存在する。図

8

が示す通り、インターネット利用者数全体

(15)

に占めるモバイルデバイス利用者の比率は

2002

年を境に急激に増加している。この流れは、室内に限られていたインターネット利用環境を、外出時などいつでもどこでも利用できる、ユーザの行動スタイルに合ったものへと変化させた。この動きの中で、ユーザが発信する位置情報からその行動パターンを調査する手法といった、ユーザの位置を利用した研究が多く行われている。その

1

つとして、酒巻ら

[11]

の研究が挙げられる。

酒巻ら

[11]

は、

Twitter

に投稿されたテキストと位置情報から、その位置が投稿

したユーザにとってどのような意味を持つかという情報を推定する手法を提案した。これを実現させることで、Twitterを用いて人の行動調査を行うことが可能となる。提案手法は、まずツイートの位置情報により、ツイートのクラスタリングを行う。次に、各クラスタ内の投稿内容に形態素解析を行い、そのクラスタを代表する単語を抽出する。提案手法の結果、「起きる」、「寝る」、「家」といった単語のグループが検出され、その範囲が「自宅」に関する箇所であることが推測できた。

図

8:

端末別に見たインターネット利用者数・比率の推移

モバイルデバイスの普及に伴い、位置情報を利用したサービスも増加している。

位置情報を利用したサービスは、おおまかに

•

コミュニケーション/ライフログ

•

ロケーションベースマーケティング

•

ゲーム

の３つに分類することができる。

コミュニケーション/ライフログ系の位置情報サービスの代表例として、

foursquare[12]、

ロケタッチ

[13]、 Google Latitude[14]、 Facebook/Twitter

のロケーション機能等が

(16)

foursquare

は、スマートフォンや携帯電話を使って、自分の位置を他のユーザと共有したり、他のユーザへリコメンドすることができるサービスである。例えば、

ある飲食店へ行った際、チェックイン機能を使ってメッセージを残したり、過去にどんな人がチェックインしたかを知ることができる。また、チェックインの回数によって店舗からサービスが受けられるなど、店舗と連携したサービスも行っている。Twitterや

Facebook

と連携して利用することで、自分が訪れた場所を友人と共有するユーザも増えている。このように、コミュニケーション

/

ライフログ系位置情報サービスは、位置を媒体として人とのつながりを創り出す、SNSの新たな形として注目を集めている。

図

9: foursquare

操作画面

ロケーションベースマーケティング

[15]

は、近年利用が増加しつつあるマーケティング手法で、企業等がユーザの位置情報と連動して情報配信を行う。例えば、

ユーザの現在位置から、周辺のエリア情報を提供したり、目的の商品が買える一番近い店舗を紹介する。位置情報を用いたマーケティングの例としては、日立製作所の地図クル

[16]

が挙げられる。位置情報を用いたマーケティング手法については、位置情報から得られる購買行動の記録から消費傾向や消費意欲の関係を調査する研究

[17]

も行われている。飯尾ら

[17]

らは、携帯電話から得られる位置情報ログと、オンラインアンケートの結果を結び付けることで、実際の行動と消費意欲の関係を分析した。平日および休日に消費者が過ごす行動についてあらかじめ４つのタイプを用意し、得られた位置情報ログから、被験者の行動をこれらのタイプに分類する。検証の結果、「特定の行動タイプの被験者はファッションにお金をかける傾向がある」、「特定の行動タイプの被験者は独身や単身者が多い」など、行動タイプごとに属性や購買行動の特徴がみられた。

位置情報を利用したゲームは、2000年に登場して以来、ゲーム市場で人気を博している。位置情報ゲームでは、実際の移動距離に応じてポイントを取得し、それを使って仮想的な町を作り上げるもの、実際にある場所へ行って位置情報を送信することでその地点を仮想的に「統一」し、これを繰り返しながら日本中の統一を目指すもの等、様々なものがリリースされている。中でも人気を博しているのが、株式会社コロプラが運営するコロニーな生活☆

PLUS[18]

である。その概要

(17)

を示す。

ゲームに登録すると、自分だけの街=コロニーが作成される。コロニーな生活は、そのコロニーを発展させていく街育成ゲームである。育成するためにはゲーム内の通貨である「プラ」が必要となる。この「プラ」を取得するには実際に移動しなければならず、その移動距離に伴って、取得できる「プラ」も増える。1km なら１プラ、10kmなら

10

プラ取得できる。また、限られた場所でのみ買うことができるお土産やスタンプもあり、これらのシステムがユーザの移動を促す。このゲームは、2005年にリリースされて以来ユーザ数を増やし続け、2012年

7

月の段階でユーザ数は

300

万人を突破した

[19]。また、2011

年

6

月には東急百貨店吉祥寺店と連携し、コロプラ物産展

2011[20]

が開催された。このイベントは

9

日間の開催で

4

万人を動員し、さらに売上合計は約

7000

万円、この会場規模として開店以来の売上を記録した。遠方からの来場者も非常に多く、「一都三県以外」の来場者だけで通常の週末並みの来客を記録するなど、集客効果を発揮した。

この事例は位置情報ゲームが人の実空間での行動を促した例といえる。

2.4

集合知

(

クチコミ）

2.1

節で述べたソーシャルメディアの普及の結果、今日のインターネット上には個人の感情や感覚、感想を記したテキストデータで溢れている。このようなデータは、一般に非構造化データ

[21]

の一つとされる。

このような非構造化データは、多く集めることで人の行動決定や購買意欲に影響を及ぼし得る有用な情報となる。それを利用したサービスの例が、クチコミサイトや商品のレビューサイトである。

購買者の欲しい商品・サービスの情報源についての調査結果を図

10

に示す。欲しい商品・サービスの情報源としてクチコミサイトや商品などのレビューサイトを挙げた人の割合は、企業のウェブサイトや商品・サービス提供者からのメールマガジン等に比べ高い

[10]

。このことから、消費者は、各企業の発表する情報よりも実際に利用した個人の感想を重要視していることがわかる。さらに、商品のクチコミを発信するサイトでも、「各専門分野の商品・サービスを紹介する紹介サイト（個人が運営するもの）」や「個人ホームページ」の順位が低いことから、インターネット上のクチコミは、大量に集まった状況で有用となると考えられる。

2.5

本章のまとめ

本章では、ソーシャルメディア、位置情報サービス、集合知（口コミ）を利用したサービスの種類・普及状況と実社会への影響について示した。

ソーシャルメディアの利用者は年々増加しており、その利用目的は友人とのコミュニケーションや暇つぶしなど、複数あることがわかった。

(18)

図

10:

欲しい商品・サービスの情報源

位置情報サービスについては、その利用について、コミュニケーション/ライフログ、ロケーションベースマーケティング、ゲームの大まかに

3

つのジャンルに分類される。特にゲームの分野では、提携した百貨店イベントで大きな売り上げを上げるなど、実空間に多大な影響を及ぼした。

集合知を利用したサービスは、購買者が購買活動をする上で重要視されている。

さらに、

Web

上に存在するクチコミは、大量に集まった状況で有用となると考えられることがわかった。

以上を踏まえ、次章では対象をマイクロブログサービスである

Twitter

に絞り、

Twitter

と実空間イベントとの相関について、複数の事例と独自に行った検証を用

いて示す。

(19)

3

実空間と

Twitter

本章では、2つの事例と独自に行った事前検証の結果を用いて、Twitterと実空間イベントとの相関について示す。

本章では、マイクロブログサービス

Twitter

の概要と、これまでの

Twitter

と実空間イベントとの連携例を示す。

3.1

「天空の城ラピュタ」テレビ放映時における

Twitter

資料

[10]

によると、2012年

12

月

22

日現在の瞬間最高ツイート数トップ

3

は、1 位が映画「天空の城ラピュタ

[22]」テレビ放映時（日本、25088

ツイート/秒）、2 位、「スーパーボウル

XL

」優勝決時点（アメリカ、

12233

/

秒、

3

位「スーパーボウル」マドンナ登場時（アメリカ、10245ツイート/秒）と、映画やスポーツの特定のシーンと連動している。

1

位となった「天空の城ラピュタ」テレビ放映時には、特に主人公である

2

人が滅びの呪文「バルス」を唱える瞬間に瞬間最高ツイート数を達成した。この際のツイート内容はほとんどが「バルス」を含むものである

[23]

。映画を見ていた視聴者が、映画中の特定のシーンと同時にツイートをしたためと考えられる。これは、

実空間での出来事の盛り上がりが

Twitter

上にも反映された例といえる。

この日の全世界におけるツイート数の変化および「バルス」に関するツイート数の変化を図

11、図 12

に示す。

図

11:

天空の城ラピュタ放映時の全世界のツイート数推移

(20)

図

12:

天空の城ラピュタ放映時の「バルス」に関するツイート数推移

3.2

東日本大震災発生時における

Twitter

2011

年

3

月

11

日に発生した東日本大震災は、震源地である東北地方で多数の犠牲者を出すと同時に、関東地方でも交通期間の乱れや停電、通信手段の不通といった各種の混乱を招いた。そのような状況の中で、

Twitter

は安否確認や情報発信の手段として大きな役割を果たした。

この際、大きな話題となった取組として「ヤシマ作戦」が挙げられる。「ヤシマ作戦」とはテレビアニメ「新世紀エヴァンゲリオン

[24]」に登場する作戦名で、ア

ニメ中では、攻撃兵器の電力を集めるために日本中を停電状態にする作戦を指す。

震災時、福島県の原子力発電所をはじめとする発電設備が大きな打撃を受けたため、東北および関東地方で停電の恐れが生じた。この停電を免れるため、「ヤシマ作戦」の実行が

Twitter

上で呼びかけられ、日本中で節電の流れが起こった。この出来事は世界的にも

Twitter

の影響力の大きさが認識されるきっかけとなった。

本研究では、震災発生時におけるツイート内容と時間との関係を調べるため、東日本大震災発生時に関東と東北で投稿されたジオタグ付ツイート数の推移を調査した。結果を図

??

に示す。グラフは、震災発生の前後

1

日ずつ、計

3

日間の推移を示している。

ツイート数のピークは、関東では

11

日

19:30

から

20:30

までの

3017

ツイート、東北では

11

日

15:30

から

16:30

までの

189

ツイート、また

3

日間合計は関東は

52580

ツイート、東北で

3460

ツイートと、ツイート数には約

15

倍の差があった。これは人口の差と

Twitter

ユーザの差によるものと考えられる。しかし、ツイート数は異なるものの、関東、東北ともに地震が発生した

14:46

を境に急激にツイート数が変化していることがわかる。

次に、表

15

に示すのは地震発生当日

13

時

30

分から翌日

00

時

30

分までの、時間帯ごとの関東でのツイートの頻出単語とその出現数である。

11

時間で合計

23980

ツイート取得することができた。この日特に多く見られた単語の出現数の推移を示した。震災当日、Twitterは安否確認や災害情報、交通情報、天気といった様々な情報を得るためのツールとして重要な役目を果たした。頻出単語を時間別に見

(21)

図

13:

東北でのツイート数推移

図

14:

関東でのツイート数推移

ても、震災発生前の

13

時

30

分から

14

時

30

分までは「笑」、「人」、「日」といった、それだけで特に意味を表さない単語が多く、またその出現数も少ない。したがって、それぞれのツイートに共通性はあまり見られない。

一方で、震災発生後の

15

時

30

時以降を見てみると、「地震」、「大丈夫」、「余震」、「電車」といったキーワードが多く出現し、またの出現数も格段に増加している。このことから、地震発生をきっかけにユーザが一斉に共通の話題についてツイートしていることがわかる。

これらの単語をその内容からおおまかに以下の４つのジャンルに分別し、ジャンル毎に時間に伴う出現数の変化を検証した。

•

安否確認：単語例「大丈夫」「無事」

•

交通：単語例「駅」「線」

(22)

•

現在状況の発信：単語例「通過」「帰宅」

•

災害そのものについて：単語例「地震」「揺れ」

その結果、それぞれのジャンルごとに、時間に伴ってその単語の出現数が変化していることがわかった。

災害そのものについてのツイートや安否確認をするようなツイートは、地震発生時をピークに減少傾向にあり、反対に交通網についてのツイートや現在状況の発信をするツイートは時間の経過とともに増加傾向にある。これは、仕事や学校等で中心部へ来ていた人々が、時間が経つにつれて帰宅手段について検討したり、

帰宅状況について発信したためと考えられる。

図

15:

東日本大震災発生時のツイート頻出単語の変化

(23)

3.3

事前検証

前節で示した例から、ツイート数、ツイート内容はともに実空間で起こったイベントと密接な関係があると考察した。本研究で構築するシステムの方針を設定するにあたり、この考察についての検証を行う。

3.3.1

検証の概要

実空間イベントと位置情報付きツイートの位置

/

内容

/

数は相関するか否かについて事前検証を行う。あらかじめキーワードを設定し、キーワードを含むツイートを、その位置情報から地図上にプロットする。そのキーワードに関するイベントの発生および発生箇所がそこから検知できるか検証する。

キーワードは「花火」に設定し、花火大会が予定されていた

2012

年

7

月

28

日と、予定されていない

2012

年

7

月

27

日でツイートの動向を比較した。時間帯は

16

時から

23

時

59

分で、1時間ごとに比較を行った。

検証にあたり、次に述べるツイートマッピングシステムを実装した。

3.3.2

ツイートマッピングシステム概要

検証を行うにあたり、独自に実装を行ったツイートマッピングシステムの概要を示す。システムの実装にあたっては、梶原

[25]

の研究を参考とした。

本システムは、ツイートの位置を視覚的に認識することを可能とする。投稿された日時や含まれるキーワードを選択することができ、特定の日時、キーワードを含むツイート群について調査することができる。地図とキーワード、対象日時選択欄で構成され、キーワードと日時を選択すると、地図上に該当するツイートがピンのアイコンで表示される。図

16

に操作画面を示す。

なお、検証に用いたツイートは、Twitter社が提供する

streamingAPI

を使い、

日本列島をカバーする緯度

127.4414〜148.7109

度、経度

29.9930〜45.8900

度の範囲で投稿されたもののみを独自に収集した。検証するにあたって収集したツイートの情報を表

1,2

に示す。

表

1:

収集したツイート情報

user

ユーザ名

date

日時

lat

緯度

lng

経度

text

ツイート内容

表

2:

ツイート数

指定期間中の全ツイート

81791

キーワードを含むツイート

1690

(24)

図

16:

システム画面

3.3.3

検証結果

2011

年

8

月

27

日、

2011

年

8

月

28

日で、キーワードを含むツイートの割合、地理分布は明らかに異なった。

花火大会のなかった

27

日は、キーワードを含むツイートの割合は

9

時間平均で

0.56

％、最小が

15

時台の

0.33

％、最大が

20

時台の

0.89

％であった。これに対し花火大会のあった

28

日は、キーワードを含むツイートの割合が

9

時間平均で

3.06

％、最小が

15

時台の

1.17

％、最大が

19

時台の

6.67

％と、最大で

5.78

％も差がある。また、

1

日の中での割合の増減の変化も両日で異なっている。

27

日は

20

時台をピークにゆるやかに変化している。それに対し、28日は、花火大会開始時刻の

19

時台をピークに、特に

19

時前後で急激に変化している。

その地理分布にも違いがある。

27

日は全体にまばらに分布しており、時間帯によっての差はほぼ見られない。しかし

28

日は、19時を中心に、若干ではあるが関東中心部にツイートは集中している。ピークを迎えた

19

時台の地理分布を見ると、

花火大会が開催された立川、隅田川、八王子に特にツイートが集まっていることがわかった。19時台のツイートの地理分布を図

19

に示す。

(25)

図

17:

「花火」を含むツイートの数の推移

検証結果から、以下のことがいえる。

•

イベントの発生時刻と、それに関連するツイートの数には相関関係がある。

•

イベント発生地点と、それに関連するツイートの位置には相関関係がある。

•

ツイート数、地理分布は短いタイムスパンで変化する。

これらから、ツイート内容・時刻・数・位置情報から、ある地点でのホットトピックの検知が可能であるという仮説を立てた。この仮説に基づいて、システムの設計と構築を行う。

3.4

本章のまとめ

本章では、

Twitter

と実空間イベントとの相関について、特定のテレビ番組放映時、震災発生時、特定のイベント開催時の３つの事例を示した。特定のテレビ放映時の事例では、放映された番組の特定の場面において、

Twitter

上で特定のキーワードについてのつぶやきが急増したこと、震災発生時には、時間に伴う人々の行動の推移に伴ってツイート数・ツイート内容が変化していることから、実空間イベントとテキスト内容が、秒単位で相互に影響を受けることが確認された。

特定のイベント開催時については、花火大会に焦点をあて、花火大会の開催日とそうでない日のツイートの動向を比較した。結果、開催日とそうでない日ではツイート数、その地理分布が大きく異なったことから、実空間イベントとテキスト、それに付随する位置情報も相関することがわかった。

以上の事例から、Twitterは時間・位置・ツイート内容において実社会の出来事と相関を持つと考えられる。

(26)

25

(27)

図

19: 19

時台のツイートの地理分布

4 /

サービス

本章では、ウェブ上でのイベントやホットトピックの検知を目的とした関連研究、サービスを示す。

4.1

マイクロブログを用いたキーワードと地理的位置の対応付けシステム

梶原

[25]

は、ジオタグが付与されたツイートを用いて、言葉と地理的位置との対応付けを行うシステム「最大瞬間なう速システム」を開発した。これは、ジオタグ付ツイートを時間とキーワードで検索を行い、該当するツイートをマップ上に表示するものである。この研究の目的は、キーワードが持つ地理的なあいまい性を除去することで、あるキーワードの地理的なトレンドを明らかにすることである。

例えば、「箱根」というキーワードについて聞き手が想定する場所は、「箱根湯本」、「強羅」、「仙石原」とさまざまである。これを、「箱根」という言葉を含むツイートが、実際にはどのような場所でつぶやかれているかを明らかにすることで、このような言葉のあいまい性を除去することを目指している。また、この研究の中で、「駅伝」のように、時間によって地理的意味が変化するキーワードの存在もわかった。「駅伝」での時間による検索結果の違いと実際の駅伝走者の位置を図

20,21

に示す。

(28)

[a]2

区の時間の検索結果

[b]2

区の時間の駅伝走者の位置図

20:

検索結果の時間による推移と駅伝走者の位置（

2

区）

[a]3

区の時間の検索結果

[b]3

区の時間の駅伝走者の位置図

21:

4.2 Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors

Sakaki

ら

[26]

は、ジオタグが付与されたツイートの解析を行い、これを利用し

て地震の検知と発生箇所の推定を行った。

解析は２つの段階から成る。

1

段階目として、「地震」「揺れた」といった言葉を含むツイートが、実際の地震の発生直後にされたものかどうかの判定を行う。「地震」や「揺れ」という言葉を含む場合でも、それが本当に地震の発生を意味するものかは定かではない。例えば、一週間前の地震についてのつぶやきである可能性や、「心が揺れる」といった慣用句として使われている可能性も十分にある。これらを正しく判断するため、

SVM

を用いて有効なツイートかを判定する。

次に、地震直後のツイートの集団からノイズの除去、それらの位置情報から地震発生地点の予測を行う。地震発生時のツイート数の推移を見ると、その数は指数関数的に増加していることがわかる。このことから、ノイズについては時系列的にツイート数を検証し、ノイズか否かを判断する。

(29)

位置推定については、カルマンフィルタとパーティクルフィルタ

[27]

を利用する。

カルマンフィルタとは、直前までの情報と現在の情報を組み合わせることで、現在の状態を推定する手法で、位置推定に広く用いられる。

パーティクルフィルタとは、物体の検出と追跡を同時に行うためのアルゴリズムである。現状態から起こり得る多数の次状態を粒子に見立て、その確立密度から次の状態の予測を行う。

Sakaki

らは検知するイベントを地震に絞り、日によって変化する、地震に関す

るホットな場所を観測することで地震の発生の検知を可能とした。

4.3 Google

トレンド

Google

トレンドとは、Google.Incが提供するサービスで、指定したキーワード

の被検索数を時系列に表すことで、そのキーワードの人気度の動向を表す。検索数の他に、指定したキーワードと共に検索されたキーワードや、検索された地理位置も見ることができ、さらに検索された地理位置は、時系列ごとに変化する様子を見ることができる。キーワードの盛り上がりを時空間的に観測することができる。

Google

トレンドの検索結果例を図

22,23

に示す。

図

22: Google

(1)

検索キーワード：

earthquake

図

23: Google

(2)

検索キーワード：earthquake

(30)

4.4 /

サービスの比較

上記の３つの関連研究およびサービスの総括と比較を行う。どれも時空間解析によって、変化するホットトピックを視覚化および検知を行うという点では共通している。

ここでは、即時性、正確性、ユーザによるイベントの想定の必要性の有無の３つの点において比較を行う。

即時性とは、イベントが発生してから検知できるまでの時間の短さを指す。イベント発生から短い時間で検知できる場合に、即時性が高いとみなす。

正確性とは、検索する情報のノイズの少なさを表す。指定したキーワードを含むものの、そのテキスト情報が本当にそのイベントの発生を意味しているとは限らない。キーワードの意味と、そのイベントの発生が合致する情報が多い場合に、

正確性が高いとみなす。

ユーザによるイベントの想定とは、あらかじめユーザによるイベントの想定が必要か否か、つまりユーザの趣味・思考に関係なく、社会一般での盛り上がりを抽出できるか否かを指す。

比較結果を表

3

に示す。なお、

Sakaki

らの研究については、そのシステム名である

Toretter

と表記する。

表

3:

比較

即時性正確性ユーザによる想定最大瞬間なう速 ○ × 必要

Toretter

○ ○ 必要

Google

トレンド △ ○ 必要

即時性

最大瞬間なう速、Toretterは情報源として

Twitter

を利用している。第

3

章でも示した通り、ツイート数の増減は秒単位で実イベントと対応している。

したがって、即時性は高いと言える。反対に、

Google

トレンドは情報源として被検索数を用いている。イベントが発生してから、人がそれについて検索するまでの時間は人や状況に依存する。

正確性

最大瞬間なう速は、ツイートに形態素解析を行い、その結果とキーワードとのマッチングを行っている。したがって、正確性は形態素解析ツールに依存し、それほど正確性は高くないと考えられる。

Google

トレンドは、キーワードのマッチングで判断するため、文脈等のあいまい性は発生しない。よって

(31)

正確性は高いと言える。

Toretter

は、解析の第

1

段階で、そのツイートが本当に地震の発生直後にされたものなのかの判断を行っている。正確性は高いと言える。

ユーザによるイベントの想定

最大瞬間なう速、Googleトレンドは、ユーザがキーワードを指定する形をとるため、あらかじめイベントの想定が必要である。Toretterは対象を地震に限定しているため、こちらもある程度ユーザが地震の発生を想定している場合に有効となる。したがって、検出されるイベントの種類はユーザ依存となる。

本研究は、時空間解析を用いてテキスト情報からホットトピックの検知を行うという点で、上記の３つの研究

/

システムと共通している。

最も大きな違いは、ユーザによる、イベントの想定が必要か否かという点である。上記の研究/サービスは、キーワード指定等の方法で、ユーザ側であらかじめある程度のイベントの予測が必要となり、ゆえに検知されるホットトピックもユーザ依存となる。しかしこれらの方法では、社会一般で盛り上がっているトピックや、1番盛り上がっているキーワードを知ることは容易ではない。本研究では、そういったユーザの想定を必要とせず、ウェブ上で一番盛り上がっているトピックをユーザへ提示することを目指す。これにより、ユーザの新たな気付きを促すことができる。