各モジュールの実装

第 4 章実装 27

4.4 各モジュールの実装

ユーザデータ／発言内容分離部

ユーザデータ／発言内容分離部ではJSONデータをパースし，ユーザ情報テーブルと発言内容テーブルに必要なデータを分割して，クエリ生成部へと送信する．

ユーザデータは，id，id str，nameの3項目に分割する．idはグループ情報データベースにおいてユーザを識別するIDで，新しいユーザの発言を取得するたびに付与する．id str は，Twitter内部でユーザを識別するための一意なIDで，nameはTwitterのscreen nameである．

表4.2:ユーザデータ

項目詳細

id DBにおけるユーザID id str TwitterにおけるユーザID name Twitterのscreen name

発言内容は，id，user id，tweet str，nameの4項目に分割する．idはグループ情報データベースにおいて発言を識別するIDである．user idはユーザデータのidを指し，グループ情報データベース内で発言とユーザデータを連携させるために用いる．tweet idはTwitter 内部で発言を識別するための一意なIDである．latitude，longitudeは発言に付与された緯度経度の座標であり，textは発言の本文である．orig created atは，Twitterに発言が投稿された日時を示す．

表4.3:発言内容

項目詳細

id DBにおける発言ID

user id DBにおけるユーザID

tweet id Twitterにおける発言ID

latitude 発言に付与された緯度座標

longitude 発言に付与された経度座標

text 発言内容

orig created at 発言された日時

クエリ生成部

クエリ生成部では，ユーザデータ／発言内容分離部から受け取ったデータをクエリに変換する．グループ情報データベースと通信するために，PHPのO/RマッパーであるDoctrine

1.2.3を用いた．ソースコード4.1は，クエリ生成部がユーザデータ／発言内容をデータベー

スに格納する動作を示す．

ソースコード4.1:クエリ生成部

1 $json = # 発言取得モジュールから受信

2 $t = json_decode ( $json , true);

4 $user = new User ();

5 $user -> setName ( $t [’ user ’][’ screen_name ’]);

6 $user -> setIdStr ( $t [’ user ’][’ id_str ’]);

7 $user -> save ();

9 $tweet = new Tweet ();

10 $tweet -> setUserId ( $user -> getId ());

11 $tweet -> setTweetId ( $t [’ id_str ’]);

12 $tweet -> setLatitude ( $t [’geo ’][" coordinates "][0]);

13 $tweet -> setLongitude ( $t [’geo ’][" coordinates "][1]);

14 $tweet -> setText ( $t [’ text ’]);

15 $tweet -> setOrigCreatedAt (date(’Y -m -d H:i:s ’, strtotime( $t [’ created_at ’])));

16 $tweet -> save ();

4.4.3 クラスタリングモジュール

クラスタリングモジュールの実装について述べる．発言内容取得部，クエリ生成部の実装言語はPHPを利用した．

発言内容取得部

まず必要とする期間の発言内容を，グループ情報データベースから取得する．MySQLの

SELECT文を実行し，結果をTSV形式で取得する．発言内容は標準出力に出力し，テキス

トデータとして一時的に保存する．

クラスタリング解析部

クラスタリング解析部では，R言語を用いて解析を行う．クラスタリング解析に使用する発言内容は，id，user id，tweet id，name，latitude，longitude，text，orig created at，created at，

updated atの9項目からなるリストである．具体的なエントリの例を，ソースコード4.2に

示す．

ソースコード4.2: tweet.tsv

1 650916 385 20981410961563648 hiru_ecn 35.35729400 139.63366300 2011 -01 -01 08:15:32 2011 -01 -01 08:14:47 2011 -01 -01 08:14:47

R言語を用いて，発言のクラスタリングを行う．ここでは，クラスタ分析数を10，100， 1000の3パターンで行い，結果を出力するRのプログラムをソースコード4.3に示す．解析に必要な緯度経度情報のみを取り出した行列を作成し，Rのkmeans()関数でクラスタリングを行い，整形した結果を保存している．

ソースコード4.3:クラスタリング解析部

1 orig <- matrix(scan("./tweet . tsv ", sep ="\t", what =character() , quote=""), ncol=10 , byrow =T)

2 data <- matrix(as.numeric( orig [ ,5:6]) , ncol=2)

4 k <- 10

5 km <- kmeans (data, k)

6 result <- matrix(c(rep(" \\ n", nrow( orig )) , orig [ ,1] , orig [ ,2] , rep(k , nrow( orig )) , km$

cluster , rep("k - means ", nrow( orig )) , km$centers [ ,1][ km$cluster ], km$centers [ ,2][ km$cluster ], rep(" \\ n", nrow( orig )) , rep(" \\ n", nrow( orig ))) , ncol=10)

7 write(t( result ), file="./cluster . txt ", ncolumns =10 , sep ="\t")

9 k <- 100

10 km <- kmeans (data, k , iter .max = 100)

11 result <- matrix(c(rep(" \\ n", nrow( orig )) , orig [ ,1] , orig [ ,2] , rep(k , nrow( orig )) , km$

cluster , rep("k - means ", nrow( orig )) , km$centers [ ,1][ km$cluster ], km$centers [ ,2][ km$cluster ], rep(" \\ n", nrow( orig )) , rep(" \\ n", nrow( orig ))) , ncol=10)

12 write(t( result ), file="./cluster . txt ", ncolumns =10 , sep ="\t", append=T)

14 k <- 1000

15 km <- kmeans (data, k , iter .max=100)

16 result <- matrix(c(rep(" \\ n", nrow( orig )) , orig [ ,1] , orig [ ,2] , rep(k , nrow( orig )) , km$

cluster , rep("k - means ", nrow( orig )) , km$centers [ ,1][ km$cluster ], km$centers [ ,2][ km$cluster ], rep(" \\ n", nrow( orig )) , rep(" \\ n", nrow( orig ))) , ncol=10)

17 write(t( result ), file="./cluster . txt ", ncolumns =10 , sep ="\t", append=T)

クラスタリング結果は，id，tweet id，user id，level，cluster no，method，center lat， cen-ter lng，created at，updated atの10項目からなるリストである．表4.4に，それぞれの値の詳細を示す．ソースコード4.4は，具体的なエントリの例である．

表4.4:クラスタリング結果

項目詳細

id DBにおける発言ID

tweet id Twitterにおける発言ID

user id DBにおけるユーザID

level クラスタ分割数

cluster no 分類されたクラスタID

method クラスタリングに用いたアルゴリズム

center lat クラスタ中心の緯度

center lng クラスタ中心の経度

created at データベースに保存した日時

created at 情報を更新した日時

ソースコード4.4: cluster.tsv

1 \n 650916 385 10 6 k - means 35.6575151159336 139.651827804471 \n \n

クエリ生成部

クエリ生成部では，クラスタリング解析結果を受け取り，グループ情報データベースのクラスタリング結果テーブルにINSERT文を発行する．

4.4.4 類似度計算モジュール

類似度計算モジュールの実装について述べる．モジュール全体の実装言語はPHPを利用した．

ユーザデータ／発言内容取得部

ユーザデータ／発言内容取得部ではmysqlコマンドを用いてグループ情報データベースと接続する．必要とするユーザ情報，発言内容を取得するため，グループ情報データベー

スにSELECT文を発行し，結果を類似度計算部に送信する．

類似度計算部

類似度計算部では，ユーザデータ／発言内容取得部から受け取ったデータを解析し，結果をクエリ生成部へと送信する．類似度計算結果は，基準ユーザID，対象ユーザID，類似度の3項目からなるリストである．

クエリ生成部

クエリ生成部では，グループ情報データベースの類似度テーブルにINSERT文を発行する．

4.4.5 グループ情報取得モジュール

グループ情報データベースの実装について述べる．モジュール全体の実装言語はPHPを利用した．

リクエスト解析部

リクエスト解析部においては，Webサーバの実装であるApache HTTP Server 2.2.9を利用した．その上で，PHP5用のフレームワークであるSymfony 1.4.8を利用してWebAPIを実装した．リクエストはHTTPのGETメソッドを用い，パラメータに基準ユーザ情報を受け取る．

アプリケーションからグループ情報を利用するため，以下のようなAPIを作成した．

URL

http://aoi.ht.sfc.keio.ac.jp/geo/index.php/location/group/ Method

GET Parameter

user name

引数のuser nameには，グループを取得したいユーザのTwitterにおけるscreen nameを指定する．例えば，hiru ecnのグループを取得したい場合，以下のURLにアクセスする．

http://aoi.ht.sfc.keio.ac.jp/geo/index.php/location/group/screen_name/hiru_ecn

クエリ生成部

クエリ生成部ではDoctrineを用いてグループ情報データベースと接続する．グループ情報データベースの類似度情報テーブルに，基準ユーザIDをキーとするSELECT文を発行する．

結果取得部

結果取得部では，Doctrineを用いてグループ情報データベースと接続する．クエリの実行結果を受け取り，ユーザリスト生成部へ送信する．

ユーザリスト生成部

ユーザリスト生成部では，結果取得部から受け取ったデータの中から類似度が一定以上のユーザのみを抽出し，レスポンス生成部へ送信する．結果はグループとなるユーザIDのリストである．

レスポンス生成部

レスポンスはHTTPリクエストに対するレスポンスとして送信する．結果に応じて適切なHTTPステータスコードを送信し，結果をメッセージボディに格納する．リクエストの形式が不正であった場合は400 Bad Requestを送信し，リクエストを受けた基準ユーザが存在しなかった場合は404 Not Foundを送信する．ユーザリストが正しく取得できた場合は，200 OKと結果を送信する．ユーザリストはJSON形式にエンコードして送信する．

4.4.6 グループ情報データベース

グループ情報データベースの実装について述べる．リレーショナルデータベースには MySQL 5.0.51aを使用した．

発言解析モジュール，クラスタリングモジュール，類似度計算モジュール，グループ情報取得モジュールとSQLを用いて通信する．発言内容，ユーザ情報，クラスタリング結果，

類似度の4つのテーブルに分割される．

4.4.7 位置情報共有アプリケーション例

図4.2:位置情報共有アプリケーション例

実際の位置情報共有アプリケーションの例として，グループ情報を用いて類似するユーザを提示するアプリケーションを実装した．図4.2に，アプリケーション例のスクリーンショットを示す．

左のマップには取得した位置情報付き発言のうち最新の200件がプロットされており，

マーカをクリックするとユーザ名，発言内容，発言時刻の詳細表示がポップアップされる．

また，右のメニューにはマップで詳細表示されているユーザが上に表示され，そのユーザのグループであるユーザ一覧がその下にリスト表示されている．ユーザ名をクリックすると，そのユーザを基準ユーザとしたグループが表示される．

ドキュメント内 GLoBES ：位置情報を用いたグループ検出アルゴリズムの設計と実装 (ページ 40-46)

第 4 章 実装 27

4.4 各モジュールの実装

4.4.3 クラスタリングモジュール

4.4.4 類似度計算モジュール

4.4.5 グループ情報取得モジュール

4.4.6 グループ情報データベース

4.4.7 位置情報共有アプリケーション例

第 4 章実装 27