• 検索結果がありません。

位置情報付きツイートからのイベント検出手法の提案

N/A
N/A
Protected

Academic year: 2021

シェア "位置情報付きツイートからのイベント検出手法の提案"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 74 回全国大会. 5B-1. 位置情報付きツイートからのイベント検出手法の提案 中澤昌美† 池田和史† 服部元† 小野智弘† 株式会社KDDI研究所†. 1. はじめに. 近年 SNS(Social Networking Service)の普及により, 一般ユーザによる手軽な情報発信が可能となりつつある. 情報発信に携帯電話やスマートフォンを利用するユーザ も多く,ツイッターなどでは,端末に内蔵された GPS を 利用して位置情報を付与したコメントの投稿が可能であ る.また,Foursquare[1]やコロプラ[2]といった位置ゲ ームサービスや localmind[3]のような,位置情報と連携 した Q&A サービスなど,位置情報を活用したサービスも 多数提供されている.このように,位置情報を活用して 興味のある場所に関する付加価値情報を得るサービスに 対する需要は大きい. 本稿では,特定のエリアにおいて局所的に多数のツイ ートが投稿されるような,スポーツや音楽,花火大会な どのイベント地点を検出し,その場所で起きているイベ ントの内容を推定する手法を提案する.これにより,旅 行先など不慣れな場所で,季節や曜日,時間帯によって 変化するイベントを,リアルタイムに検索可能となる. しかしながら,従来の手法では,位置情報付きのツイー トが多くは存在しないために,少数のイベント地点しか 検出できない点が課題であった.これに対し,提案手法 では,少数の位置情報付きツイートから多数の位置情報 の付与されていないツイートを収集対象として加えるこ とで,より多くのイベント地点を提示することを可能と した.提案手法について,有効性を検証するため,性能 評価実験を実施した.. 2. 関連研究. 守屋ら[4]は,ブログに記載されている地名と,その 地名に関する記述から,その土地の印象や雰囲気を表す キーワードを地図上に表示する手法を提案している.本 稿では,季節や曜日,時間帯によって変化するイベント を検出することを目的とするため,守屋らの手法は適さ ない.また,位置情報付きツイートからイベントが発生 している区域を検出する手法が提案されている.この手 法では,メッシュ状に区切られた地図上に,位置情報付 きツイートをマッピングし,各メッシュ内におけるツイ ート数の変化からイベントを検出する.しかし,著者ら の事前調査では,日本における位置情報付きツイートは ツイート全体の約 0.5%と極めて少ない.このため,文献 [5]の手法では,少数のイベント地点しか検出することが できない課題がある.また,少数の位置情報付きツイー トから,イベント内容の推定を行うことは困難である.. 3. 提案手法. 本稿では,スポーツや音楽,花火大会などのイベント に起因する,局所的に多数のツイートが投稿されるイベ ント地点を検出し,その場所で起きているイベントの内 容を推定する手法を提案する. 提案手法では,経緯度情報を含むツイート(位置情報付 “Detection and Labeling of Local Events from Tweets with location information. ” Masami NAKAZAWA†, Kazushi IKEDA†, Gen HATTORI† and Chihiro ONO† † KDDI R&D Laboratories, inc. 2-1-15 OHARA FUJIMINO-SHI SAITAMA, 356-8502, JAPAN {ms-nakazawa, kz-ikeda, gen, ono}@kddilabs.jp. イベント候補地検出 位置情報なしツイート収集 ここにアプリの絵を下さい イベント地点の同定 イベント内容の推定 アプリケーション イメージ. システム処理フロー. ツイートの取得. ツイッター. 地図データへの重畳. 提案手法サーバ. アプリケーション 利用者. 図 1.提案手法の処理フロー. きツイートと呼ぶ)が少数であることに対する解決策とし て,(Step1)少数の位置情報付きツイートからのイベント 候補地検出,(Step2)イベント候補地に関連するツイート の追加収集,(Step3)イベントが開催されている地点の同 定,(Step4)イベント内容の推定,という 4 つのステップ を実行する(図 1). また,イベント候補地検出にツイッターを活用した理 由として,140 文字という手軽な情報発信が可能なため リアルタイム性の高い情報が得られる点,Foursquare 等 の既存の位置登録サービスは登録のみを行うユーザが多 いことに対し,ツイッターはイベントに対する感想や意 見,行動内容を具体的に記述するユーザが多い点などが 挙げられる.以降では,提案手法の各ステップの詳細を 説明する.. 3.1. Step1:位置情報付きツイートの収集とイ ベント候補地検出. 位置情報付きツイートの収集方法について説明する. ツイッターの各投稿データ中には,経緯度情報を記載す るフィールドが存在し,携帯電話やスマートフォンなど の対応端末では,経緯度を自動的に付与する機能がある. Twitter 社が提供する API を利用し,指定した経緯度の 範囲内に含まれるツイートを収集することが可能である. 収集した位置情報付きツイートの経緯度から,投稿ツ イートの密集地点を検出することで,イベント候補地を 検出する.具体的には,DBSCAN [6]を利用し,一定期間 のツイートを経緯度情報に基づいてクラスタリングする ことで,イベント候補地を検出する.この手法により, 多数のイベントを効率よく検出することが可能となる.. 3.2. Step2:位置情報なしイベント関連ツイー ト収集. 3.1 章に記載の手法で検出したイベント候補地に関連 する,位置情報が付与されていないツイート(位置情報な しツイート)を抽出する.まず,Step1 のクラスタリング 結果に対し,それぞれの塊の中心地から一定距離以内の ランドマーク名を,ローカルサーチ API を用いて取得す る.ここで,サーチ対象はツイートに含まれやすいラン ドマークに限定しておく。次に,このランドマーク名を. 1-503. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 74 回全国大会. 検索キーワードとして位置情報なしツイートを検索する. Step1 と同一期間のツイートに限定することで,イベン ト候補地に対する多くの関連ツイートを確実に収集可能 となる.. 3.3. 表 1.検出されたランドマークの例 六本木ヒルズ,丸の内,品川プリンスホテル,ラゾーナ,国立代々木競 技場,恵比寿ガーデンプレイス,赤レンガ倉庫,新橋駅前,日本武道 館,東京タワー,東京都庁,羽田空港, Salt,かんだ食堂,アメ横, サンシャインシティ,スターダスト. Step3:イベント地点の同定. イベント候補地からイベントが発生している地点を同 定する.ここで,Step1 および Step2 の結果には,単に ツイート数が多い地点(駅など)も,イベント候補地とし て検出されてしまう課題があり,ツイート投稿数が多く ても,イベントが発生していない地点は候補から削除す る必要がある.提案手法では,①イベント候補地のツイ ートにおける Foursquare サービス等のチェックインツイ ートの割合が高い,および,②イベント候補地のツイー トに重要度の高いキーワードがない場合,イベント候補 地から除く.この 2 つの指標により実際にイベントが発 生している地点を同定する.. 3.4. Step4:イベント内容の推定 図 2.イベント候補地. 同定したイベント地点に対し,イベント内容を表す単 語を付与する.検出したイベント地点に対し,上記の方 法で収集した各ツイートから TF-IDF で抽出した単語を, イベント内容を表すラベルとして付与する.. 4. 表 2.収集したツイート数結果(実験 2) 位置情報付き 位置情報なし 地点 ツイート数 ツイート数 さいたまスーパーアリーナ 12 260 東京タワー 6 178 六本木ヒルズ 9 134 川崎ラゾーナ 8 58. 評価実験. 提案手法の有効性を検証するため,評価実験を行った. 2012 年 1 月 7 日の 12 時~14 時の 2 時間につぶやかれた ツイートを評価対象とした.結果を以下に述べる.. 4.1. ランドマーク名の抽出結果. 位置情報付きツイートから検出したイベント候補地を 図 2 に示す.ここでは,関東圏で 75 件のイベント候補地 を得ることができた.次に,2011 年 12 月 20~27 日の期 間の関東地区の経緯度が付与されたツイートデータとロ ーカルサーチ API を用い,ツイートされやすいランドマ ーク 147 件を得た.イベント候補地とランドマークとの 一致率を調べたところ,20%程度となり,やや低い値と なった.ツイートから関連語を抽出するなど,他の手段 での検索キーワード補完が必要であることが分かった.. 4.2. 表 3.イベント内容の推定 位置情報付き ツイート. 地点. チャンミン,ドラマティ ック,テヨン,さいたま 市中央区,新都心,ド ゥ,タラ,ベン 樺太犬,キャロットタワ ー,記念像,オペラシテ ィ,南極観測,右奥,芝 公園,展望台. さいたまスー パーアリーナ. 東京タワー. 位置情報なし ツイート. ペンラ,トンペン,内容 詳細,ファイティン,イ ベント取材,コンサ,テ ヨン,チケット プレミアム・エディショ ン,ひとあし先,ナノブ ロック,大田原市付近, 富士山,キレイ. 位置情報なし関連ツイート収集結果. ランドマーク名が一致した候補地のうち 4 地点(さいた まスーパーアリーナ,東京タワー,六本木ヒルズ,川崎 ラゾーナ)について,位置情報付きツイート数と,位置情 報なしツイート数を比較した.結果を表 2 に示す.位置 情報なしツイートを利用することで,イベントに関する ツイート情報を増加させることができた.. 4.3. (2012 年 1 月 7 日 12:00 時点). イベント内容の推定結果. 位置情報付きツイート,位置情報なしツイートそれぞ れに対し,イベント内容を表す単語を TF-IDF により抽出 した.実際に取得した単語の例を表 3 に示す.さいたま スーパーアリーナの事例では,当日行われた韓流コンサ ートの出演者名やコンサートに関連する単語が,位置情 報付きツイートのみの場合と比べてより多く得られ,そ こでコンサートが行われていることが具体的に把握でき た.東京タワーの事例では,富士山が綺麗に見えるとい った,当該時間帯に特有のイベントを検出できた.ただ し,東京タワーを題材とした映画の関連語「プレミア ム・エディション」が提示されるなど,ノイズの除去が 課題であることが分かった.また,六本木ヒルズと川崎 ラゾーナについては,紙面の都合上例示を割愛するが, 特別なイベントが実施されていないために,特徴的な単. 語を得ることはできなかった.出現単語に一定のまとま りがある場合のみイベント地点とするなど,イベント地 点の同定手法の改善が必要と考えられる.. 5. おわりに. 本稿では,特定のエリアにおいて局所的に多数のツイ ートが投稿されるようなイベント地点を検出し,その場 所で起きているイベントの内容を推定する手法を提案し た.性能評価実験により,提案手法は従来手法よりも多 くの関連ツイートを収集可能であり,イベントの内容を より具体的に把握できるようになることを確認した.今 後の課題として,イベント関連語の抽出方法の検討,イ ベント地点を同定する条件の追加,ならびにイベント内 容を表す単語の抽出手法の改善などが挙げられる. 参考文献. 1-504. [1] [2] [3] [4] [5] [6]. Foursquare:https://foursquare.com/ コロプラ:http://pl.colopl.jp/c/c/pc localmind:http://www.localmind.com/ 守屋敬太,佐々木詩織,清木康,”地域情報関連テキストを対象と した地域状況表示地図の動的生成方式,In DEIM Forum 2009. 藤坂達也,李龍,角谷和俊,「ツイッターユーザの集合経験知を 用いた地域的ノーマル状態に基づく地域イベントの発見」, WebDB Forum 2010 Martin Ester , Hans-peter Kriegel , Jörg S , Xiaowei Xu,”A density-based algorithm for discovering clusters in large spatial databases with noise”, In Proceedings of 2nd International Conference on KDD, 1996.. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..

(3)

参照

関連したドキュメント

  BCI は脳から得られる情報を利用して,思考によりコ

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

7.法第 25 条第 10 項の規定により準用する第 24 条の2第4項に定めた施設設置管理

【原因】 自装置の手動鍵送信用 IPsec 情報のセキュリティプロトコルと相手装置の手動鍵受信用 IPsec

Google マップ上で誰もがその情報を閲覧することが可能となる。Google マイマップは、Google マップの情報を基に作成されるため、Google

しかしながら、世の中には相当情報がはんらんしておりまして、中には怪しいような情 報もあります。先ほど芳住先生からお話があったのは

(ECシステム提供会社等) 同上 有り PSPが、加盟店のカード情報を 含む決済情報を処理し、アクワ

※ 本欄を入力して報告すること により、 「項番 14 」のマスター B/L番号の積荷情報との関