位置情報付きツイートからのイベント検出手法の提案
2
0
0
全文
(2) 情報処理学会第 74 回全国大会. 検索キーワードとして位置情報なしツイートを検索する. Step1 と同一期間のツイートに限定することで,イベン ト候補地に対する多くの関連ツイートを確実に収集可能 となる.. 3.3. 表 1.検出されたランドマークの例 六本木ヒルズ,丸の内,品川プリンスホテル,ラゾーナ,国立代々木競 技場,恵比寿ガーデンプレイス,赤レンガ倉庫,新橋駅前,日本武道 館,東京タワー,東京都庁,羽田空港, Salt,かんだ食堂,アメ横, サンシャインシティ,スターダスト. Step3:イベント地点の同定. イベント候補地からイベントが発生している地点を同 定する.ここで,Step1 および Step2 の結果には,単に ツイート数が多い地点(駅など)も,イベント候補地とし て検出されてしまう課題があり,ツイート投稿数が多く ても,イベントが発生していない地点は候補から削除す る必要がある.提案手法では,①イベント候補地のツイ ートにおける Foursquare サービス等のチェックインツイ ートの割合が高い,および,②イベント候補地のツイー トに重要度の高いキーワードがない場合,イベント候補 地から除く.この 2 つの指標により実際にイベントが発 生している地点を同定する.. 3.4. Step4:イベント内容の推定 図 2.イベント候補地. 同定したイベント地点に対し,イベント内容を表す単 語を付与する.検出したイベント地点に対し,上記の方 法で収集した各ツイートから TF-IDF で抽出した単語を, イベント内容を表すラベルとして付与する.. 4. 表 2.収集したツイート数結果(実験 2) 位置情報付き 位置情報なし 地点 ツイート数 ツイート数 さいたまスーパーアリーナ 12 260 東京タワー 6 178 六本木ヒルズ 9 134 川崎ラゾーナ 8 58. 評価実験. 提案手法の有効性を検証するため,評価実験を行った. 2012 年 1 月 7 日の 12 時~14 時の 2 時間につぶやかれた ツイートを評価対象とした.結果を以下に述べる.. 4.1. ランドマーク名の抽出結果. 位置情報付きツイートから検出したイベント候補地を 図 2 に示す.ここでは,関東圏で 75 件のイベント候補地 を得ることができた.次に,2011 年 12 月 20~27 日の期 間の関東地区の経緯度が付与されたツイートデータとロ ーカルサーチ API を用い,ツイートされやすいランドマ ーク 147 件を得た.イベント候補地とランドマークとの 一致率を調べたところ,20%程度となり,やや低い値と なった.ツイートから関連語を抽出するなど,他の手段 での検索キーワード補完が必要であることが分かった.. 4.2. 表 3.イベント内容の推定 位置情報付き ツイート. 地点. チャンミン,ドラマティ ック,テヨン,さいたま 市中央区,新都心,ド ゥ,タラ,ベン 樺太犬,キャロットタワ ー,記念像,オペラシテ ィ,南極観測,右奥,芝 公園,展望台. さいたまスー パーアリーナ. 東京タワー. 位置情報なし ツイート. ペンラ,トンペン,内容 詳細,ファイティン,イ ベント取材,コンサ,テ ヨン,チケット プレミアム・エディショ ン,ひとあし先,ナノブ ロック,大田原市付近, 富士山,キレイ. 位置情報なし関連ツイート収集結果. ランドマーク名が一致した候補地のうち 4 地点(さいた まスーパーアリーナ,東京タワー,六本木ヒルズ,川崎 ラゾーナ)について,位置情報付きツイート数と,位置情 報なしツイート数を比較した.結果を表 2 に示す.位置 情報なしツイートを利用することで,イベントに関する ツイート情報を増加させることができた.. 4.3. (2012 年 1 月 7 日 12:00 時点). イベント内容の推定結果. 位置情報付きツイート,位置情報なしツイートそれぞ れに対し,イベント内容を表す単語を TF-IDF により抽出 した.実際に取得した単語の例を表 3 に示す.さいたま スーパーアリーナの事例では,当日行われた韓流コンサ ートの出演者名やコンサートに関連する単語が,位置情 報付きツイートのみの場合と比べてより多く得られ,そ こでコンサートが行われていることが具体的に把握でき た.東京タワーの事例では,富士山が綺麗に見えるとい った,当該時間帯に特有のイベントを検出できた.ただ し,東京タワーを題材とした映画の関連語「プレミア ム・エディション」が提示されるなど,ノイズの除去が 課題であることが分かった.また,六本木ヒルズと川崎 ラゾーナについては,紙面の都合上例示を割愛するが, 特別なイベントが実施されていないために,特徴的な単. 語を得ることはできなかった.出現単語に一定のまとま りがある場合のみイベント地点とするなど,イベント地 点の同定手法の改善が必要と考えられる.. 5. おわりに. 本稿では,特定のエリアにおいて局所的に多数のツイ ートが投稿されるようなイベント地点を検出し,その場 所で起きているイベントの内容を推定する手法を提案し た.性能評価実験により,提案手法は従来手法よりも多 くの関連ツイートを収集可能であり,イベントの内容を より具体的に把握できるようになることを確認した.今 後の課題として,イベント関連語の抽出方法の検討,イ ベント地点を同定する条件の追加,ならびにイベント内 容を表す単語の抽出手法の改善などが挙げられる. 参考文献. 1-504. [1] [2] [3] [4] [5] [6]. Foursquare:https://foursquare.com/ コロプラ:http://pl.colopl.jp/c/c/pc localmind:http://www.localmind.com/ 守屋敬太,佐々木詩織,清木康,”地域情報関連テキストを対象と した地域状況表示地図の動的生成方式,In DEIM Forum 2009. 藤坂達也,李龍,角谷和俊,「ツイッターユーザの集合経験知を 用いた地域的ノーマル状態に基づく地域イベントの発見」, WebDB Forum 2010 Martin Ester , Hans-peter Kriegel , Jörg S , Xiaowei Xu,”A density-based algorithm for discovering clusters in large spatial databases with noise”, In Proceedings of 2nd International Conference on KDD, 1996.. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..
(3)
関連したドキュメント
BCI は脳から得られる情報を利用して,思考によりコ
テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から
7.法第 25 条第 10 項の規定により準用する第 24 条の2第4項に定めた施設設置管理
【原因】 自装置の手動鍵送信用 IPsec 情報のセキュリティプロトコルと相手装置の手動鍵受信用 IPsec
Google マップ上で誰もがその情報を閲覧することが可能となる。Google マイマップは、Google マップの情報を基に作成されるため、Google
しかしながら、世の中には相当情報がはんらんしておりまして、中には怪しいような情 報もあります。先ほど芳住先生からお話があったのは
(ECシステム提供会社等) 同上 有り PSPが、加盟店のカード情報を 含む決済情報を処理し、アクワ
※ 本欄を入力して報告すること により、 「項番 14 」のマスター B/L番号の積荷情報との関