• 検索結果がありません。

DEIM Forum 2015 G7-6 Twitter ,

N/A
N/A
Protected

Academic year: 2021

シェア "DEIM Forum 2015 G7-6 Twitter ,"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

DEIM Forum 2015 G7-6

Twitter を利用した観光ルート推薦の一手法

新井

晃平

新妻 弘崇

††

太田

†††

岡山大学工学部情報系学科

〒 700-8530 岡山県岡山市北区津島中 3-1-1

††

,

†††

岡山大学大学院自然科学研究科 〒 700-8530 岡山県岡山市北区津島中 3-1-1

E-mail:

[email protected],

††

[email protected],

†††

[email protected]

あらまし

Twitter に代表されるマイクロブログの普及に伴い,今日では様々な情報が発信されている.それらの情

報の中には,Twitter ユーザ自身が実際にどのような場所を訪れ,どのような体験をしたかといった観光体験情報も

多く存在する.実際の観光体験に基づくこれらの情報は,これから観光する者にとって重要な情報源となる.そこで

本稿では,まず Twitter から実際の観光体験に基づいてつぶやかれたツイートを収集する.観光体験に関わるツイー

トかどうかの判定には,旅行者のツイートに頻繁に現れる特徴や手がかり語の有無を利用する.そして,収集したツ

イートを「食事」,

「景観」,

「行動」,

「土産」の 4 つのカテゴリに分類し,それらの結果を用いて観光ルートを推薦する

手法を提案する.実験では,人手で判定した正解データとの比較により観光ツイートの抽出精度と分類精度を評価し

た.また,推薦した観光ルートを分析し,その有効性について考察した.

キーワード

マイクロブログ,Twitter,観光情報,ルート推薦

1.

は じ め に

Twitter(注1)は,ツイートと呼ぶ140文字以内の短文を投稿・ 閲覧することによってユーザ間のコミュニケーションを図るこ とができるマイクロブログサービスであり,今日では,何気な い発言からニュース速報に至るまで,幅広い情報が発信されて いる.それらの情報の中には旅行者が実際に,どのような場 所で,どのような体験をしたかといった観光に関する体験情 報を記したツイートも数多く存在する.また,Twitterと連携 できるFoursquare(注 2)などの位置情報に基づいたサービスや Instagram(注3)のような画像共有サービスも登場し,ユーザの 位置情報や体験情報が発信されている. 実際の観光体験に基づいてつぶやかれたツイートには,現地 を訪れた時刻や現地の様子,景観に対する感想など,観光に おける重要な情報が含まれる.しかし,Twitterには無数のツ イートが存在するため,観光体験に基づく情報のみを収集し, 利用することは容易ではない.そこで中嶋ら[1]は,観光体験 に関わるツイートの収集に,旅行者のツイートに頻繁に現れる 特徴とFoursquareやInstagram などのサービスを利用した. そして収集したツイートをカテゴリ分類し,その結果を用いて 旅行者の好みに合わせた観光ルートを推薦する手法を提案した. 中嶋らは,位置情報が付与されたツイートと本文に「なう」 を含むツイートのみを対象に,観光スポット周辺でリアルタイ ムにつぶやかれたツイートの収集と分類を行ったが,位置情報 が付与されていないツイートの中にも観光体験に関わるツイー トは数多く存在する.また,中嶋らは観光スポットでの過去の 体験についてつぶやかれたツイートを収集対象としていないた (注1):Twitter,http://twitter.com/ (注2):Foursquare,https://ja.foursquare.com/ (注3):Instagram,http://instagram.com/ め,観光情報の取りこぼしが多い. さらに,中嶋らの手法では Twitterユーザのタイムラインからのみ観光スポットを収集す るため,得られる観光スポットが少ないという問題がある.そ こで本研究では,あらかじめ観光スポットを収集し,その一覧 を生成する.また,本研究では位置情報の有無に関わらず全て のツイートを対象に観光ツイートを収集し,分類する.そして, それらのツイートに含まれる観光情報を用いて観光ルートを推 薦する手法を提案する.なお,本稿において,観光スポットと は観光名所や店のことを指し,実際の観光体験に基づいてつぶ やかれたツイートのことを観光ツイートと呼ぶ. 本稿の構成は次の通りである.まず2.節で関連研究につい て述べ,3.節で提案する観光ルート推薦システムの概要を述べ る.次に4.節で観光スポット一覧の提示方法について説明し, 5.節で推薦ルートの決定方法について述べる.そして,6.節で 提案手法に対する評価実験を行い,最後に7.節で本研究のまと めと今後の課題について述べる.

2.

関 連 研 究

中嶋ら[1]は位置情報付きツイートを用いて,観光ルートを 推薦する手法を提案した.彼らは旅行者のツイートに頻繁に現 れる特徴とFoursquareやInstagramのサービスを用いて観光 スポットでつぶやかれたツイートを収集し,そのユーザのタイ ムラインから観光ルートを抽出した.また,収集したツイート を,手がかり語や品詞の特徴から「食事」,「景観」,「行動」の 3つのカテゴリに分類し,その結果を用いて観光ルートを推薦 した.中嶋らの手法では,Twitterユーザのタイムラインから のみ観光スポットを収集しているため,得られる観光スポット が少ない.そこで本研究では,あらかじめ観光スポットを収集 する手法を提案する.また,中嶋らは位置情報が付与されたツ イートと本文に「なう」を含むツイートのみを対象にして,観 光スポットでリアルタイムにつぶやかれたツイートを収集した

(2)

が,本研究では位置情報の有無に関わらず全てのツイートを対 象に観光ツイートを収集する. Twitter を利用して観光情報を抽出する研究には藤坂ら[2] の研究があり,彼らもまた位置情報付きツイートを用いて観光 情報の抽出を試みている.藤坂らは,K-means法により分割 した日本の各領域に対して,ツイート数,Twitter ユーザ数, Twitterユーザの移動量からノーマルパターンを規定し,ある 時間におけるツイート数,Twitterユーザ数,Twitterユーザ の移動量と,ノーマルパターンとを比較することで地域イベン トが行われている領域を検知した. 石野ら[3]はANPI NLPで提供される震災情報に関わるツ イートを利用して被災時における避難経路を自動抽出する手法 を提案した.石野らは機械学習を用いて,移動元,移動先,移 動手段のタグを東日本大震災に関連するツイートに自動付与す ることによって,被災者の行動経路を抽出した.また,先行研 究として,小田原ら[4]は旅行ブログエントリに対してタグ付 与を行い,旅行者の行動経路を自動抽出する手法を提案した. 長谷川ら[5]は行動計画の立案支援として,ブログからユー ザの行動時の代表的な経路とその文脈を抽出し,地図上にマッ ピングして提示するシステムを提案した.長谷川らの手法では, ブログ内に出現する各地名に対して,旅行者が実際にその場所 を訪れたかどうかを文脈から判定し,訪れたと判定した場合は その地名をルート要素とする.その後,ルート要素に対して順 序付けを行い,地名による系列パターンを抽出した.

3.

観光ルート推薦システムの概要

まず最初に,提案する観光ルート推薦システム(以下,提案 システムと呼ぶ)の概要について説明する.提案システムは, 次の手順でユーザに観光ルートを推薦する. (1) ユーザが出発地,到着地,出発時刻,到着時刻を入力 (2) 入力された条件を満足する観光スポット一覧を提示 (3) ユーザが訪ねたい観光スポットを1つ選択 (4) ユーザの選択した観光スポットを含むルートを推薦 まず手順 (1)でユーザが出発地,到着地,出発時刻,到着 時刻を入力すると,手順(2)に記したように,提案システム は入力された条件を満足する観光スポットの一覧をユーザに提 示する.ここで,入力された条件を満足する観光スポットとは, 5. 2節で述べる観光ツイートの時間帯分布についての条件を満 たし,かつ,ユーザが指定した時間内で訪ねることができる観 光スポットを指す.観光スポット一覧をユーザに提示するため には,あらかじめ観光スポットを収集する必要がある.そこで本 研究では,Google Places API(注4)Yahoo!知恵袋 質問検索

API(注 5)を用いて観光スポットの一覧を取得する.

指定した時間内で訪ねられる観光スポットであるかを判定す るためには,観光スポットでの滞在時間や,移動時間を推定す

る必要がある.滞在時間は4. 2. 2節の方法で抽出する観光ルー

(注4):Google Places API,https://developers.google.com/places/ (注5):Yahoo!知 恵 袋 質 問 検 索 API,http://developer.yahoo.co.jp/

webapi/chiebukuro/chiebukuro/v1/questionsearch.html

トを利用して求め,移動時間はGoogle Directions API(注 6)を 用いて取得する. そして,手順(3)でユーザは,提示された観光スポット一覧 から訪ねたい観光スポットを1つ選択する.すると,手順(4) に記したように,提案システムはユーザが選択した観光スポッ トを含むルートを作成し,ユーザに推薦する.なお,観光スポッ トでの滞在時間や移動時間は,手順(2)で観光スポットを選 別するために用いた方法で推定する.本研究では,観光ルート を決定するための指標として次の3つを使用した.これらの詳 細は5.節で述べる. 観光ルート内における観光スポットの共起頻度 ツイートの時間帯分布 ツイートをカテゴリ分類した結果

4.

観光スポット一覧の提示

提案システムは,ユーザが出発地,到着地,出発時刻,到着 時刻を入力すると,5. 2節で述べる観光ツイートの時間帯分布 についての条件を満たし,かつ,ユーザが指定した時間内で訪 ねることができる観光スポットの一覧をユーザに提示する. 最初に4. 1節で観光スポットを収集する手法について述べる. また,各観光スポットについてつぶやかれた観光ツイートを収 集し,ユーザタイムラインから観光ルートを抽出する方法につ いて4. 2節で説明する.さらに,4. 3節で観光スポットでの滞 在時間や,移動時間を推定する方法について述べる. 4. 1 観光スポットの収集

ここでは,Google Places API とYahoo!知恵袋 質問検索

API(以下,質問検索APIと呼ぶ)を用いて観光スポットを収

集する手法について述べる.

4. 1. 1 観光スポット候補の収集

本研究では,Google Places APIのプレイス検索を用い,以

下の手順で,ある地点の周辺に位置する施設一覧を取得する. まず,任意の地点を決め,Geocoding API(注 7)を用いてその

地点の位置情報(緯度,経度)を取得する.その後,得られた

位置情報を用いてGoogle Places APIで周辺の施設の情報(施

設名,緯度,経度,タイプ)を20 件取得する.タイプとは,

aquarium(水族館)やhospital(病院)など,Googleによっ

て定義されたカテゴリのことを指す.次に,取得した20件の

各施設に対しても同様にGoogle Places APIを用いて周辺情報

を取得する.これを繰り返し,新しい施設名が出現しなくなっ た場合,この処理を停止する.本研究では,図1に示す10種 類のタイプを観光スポット候補の取得に利用した. 4. 1. 2 観光スポットの選定 4. 1. 1節で収集した観光スポット候補一覧において,各候補 が観光スポットであるかどうかを判定する必要がある.観光ス ポットの判定には,質問検索APIを用いる.質問検索APIで は,Yahoo!知恵袋に公開されている質問の中から,あるキー

(注6):Google Directions API,https://developers.google.com/maps/ documentation/directions/

(3)

amusement park(遊園地) aquarium(水族館) cafe(カフェ) establishment(施設) museum(美術館/博物館) park(公園)

place of worship(礼拝所) restaurant(レストラン) spa(温泉、スパ) zoo(動物園) 図 1 観光スポット候補の取得に利用するタイプ 表 1 閾値と観光スポットの収集精度 都道府県 閾値 再現率 適合率 F 値 岡山県 0.27 0.917 0.776 0.841 京都府 0.32 0.970 0.922 0.945 表 2 得られた観光スポットの例 岡山県の観光スポット 京都府の観光スポット 岡山城 清水寺 岡山後楽園 伏見稲荷大社 吉備津神社 知恩院 池田動物園 京都水族館 岡山県立博物館 京都国立博物館 津山城 金閣寺 ワードを含む質問本文や質問に対するベストアンサー,キー ワードにマッチした質問の総数等を取得することができる. 本研究では,4. 1. 1節で得たそれぞれの観光スポット候補名 をキーワードとして質問検索APIを用い,それにマッチした 質問の総数を取得する.ある観光スポット候補cに対して,全 カテゴリでマッチした質問の総数をAcとし,「地域,旅行,お 出かけ」カテゴリ内の下位に位置する「国内」カテゴリでマッ チした質問の総数をLc とした時,各観光スポット候補が観光 にどの程度関連するかの度合い(関連度)Rcを次式で表す. Rc= Lc/Ac (1) 次に,求めた関連度Rcが設定した閾値を上回る観光スポッ ト候補を観光スポットとして選定する.閾値は次のようにして 設定する.各観光スポット候補に対し,人手で観光スポットで あるかどうかを判定したものを正解データとする.閾値を0か ら1まで0.01間隔で設定し,それぞれの閾値において取得した 観光スポット群の適合率と再現率を求める.さらに,求めた適 合率および再現率からF値を算出する.算出したF値の中で, 最大のF値をとる時の閾値を選定に利用する閾値と定める. この手法を用いて,岡山県と京都府の観光スポット候補一覧 を対象に閾値を設定した.岡山県の閾値は0.27となり,合計で 79件の観光スポットが得られた.また,京都府の閾値は0.32 となり,合計で134件の観光スポットが得られた.決定した閾 値とその時の再現率,適合率,F値を表1に示し,得られたス ポットの例を表2に示す. 4. 2 観光体験情報の収集 次に,各観光スポットについてつぶやかれた観光ツイートを 収集する方法について説明する.また,収集した観光ツイート が観光スポットでリアルタイムにつぶやかれたツイートである かを判定し,Twitterユーザの観光ルートを抽出する手法につ いて述べる. 4. 2. 1 観光ツイートの収集 観光ツイートを収集するためには,どのツイートが実際の観 光体験に基づくツイートであるかを判定する必要がある.そこ で,本研究では以下の5項目のうち1つ以上の特徴を満たす ツイートを観光ツイートであるとみなす.

(1) URL中に“swarmapp.com”または“4sq.com”を含む (2) URL中に“tou.ch”を含む (3) URL中に“instagram.com”を含む (4) URL中に“.jpg”または“.png”を含む (5) 観光スポットを訪れたとみなせる表現が存在する 項目(1)はFoursquareを用いたツイートに現れる特徴で ある.Foursquareとは,訪れた場所にチェックインすることで 得点が得られ,その得点に応じてバッジを獲得することができ る位置情報を利用したゲームの一種である. 項目(2)はロケタッチ(注8)を利用したツイートに出現する 特徴であり,Foursquareと同様に,ユーザが訪れた場所を友人 や知人と共有するサービスである. 項目(3)はInstagramを用いたツイートに現れる特徴であ る.Instagramは画像共有サービスの一種であり,その観光ス ポットを訪れて撮影された画像であると判定し収集する. 項目(4)はInstagramと同様,その観光スポットを訪れて 撮影された画像であると判定して収集する.ただし本研究で は,ノイズを減らすため,同じユーザが同じ内容で投稿したツ イートはbot であると判定し,収集しない.なお,botとは Twitterの機能を用いて作られた自動発言システムである. 最後に,項目(5)の観光スポットを訪れたとみなせる表現 が出現する場合について述べる.Twitter利用者の間で頻繁に 利用される語「なう」は,場所や動作の後につけ,今どこにい るかや何をしているかを表す語であり,例えば「岡山駅なう」 ならば「今岡山駅にいる」という意味で使用される.よって, 「なう」が観光スポットの直後に用いられる場合は観光スポッ トでつぶやかれたツイートであると判定する.また,「わず」も 「岡山駅わず」のように使用され,観光スポットの直後に使用 される場合は過去に観光スポットを訪れたとみなすことができ る.同様に,「@」,「at」,「in」が観光スポットの直前に出現し た場合も観光スポットでつぶやかれたツイートであると判定す る.また,ツイート本文に対して形態素解析を行い,表3に示 すような表現が観光スポット名より後方に出現した場合も観光 ツイートであるとみなす.なお,形態素解析器にはSen(注9)を 使用した. 本研究では,観光スポット名を本文に含む全てのツイートか ら観光ツイートの収集を試みる.観光ツイートの収集は次の手 順で行う.まず,観光スポットを本文中に含む,リツイートと リプライを除く全てのツイートを取得する.その後,取得した ツイートそれぞれに対して,先述した(1)から(5)の特徴 が含まれているかどうかでフィルタリングを行い,1つ以上の 特徴を含むツイートを観光ツイートとして収集する. (注8):ロケタッチ,http://tou.ch/ (注9):形 態 素 解 析 シ ス テ ム Sen,https://www.mlab.im.dendai.ac.jp/ ˜yamada/ir/MorphologicalAnalyzer/Sen.html

(4)

表 3 観光スポットを訪れたとみなす表現 出現する表現 具体例 「行く/着く/来る」+「た/ました」 着いた 形容詞 +「た」 楽しかった 名詞-サ変接続 +「する」+「た/ました」 満足しました 名詞-形容動詞語幹 +「だ/です」+「た」 綺麗だった 「行く/来る」+「て」+「き/み」+「た/ました」 来てみました 4. 2. 2 観光ルートの抽出 あるユーザによって観光スポットでリアルタイムにつぶやか れたツイート集合を時系列順に並べることで,そのユーザの 観光ルートを抽出することができる.そこで,収集した観光ツ イートに対して,それがリアルタイムにつぶやかれたものであ るか,もしくは,過去の観光スポットでの体験についてつぶや かれたものであるかを判別する.本研究では,4. 2. 1節で列挙 した 5項目のうち,項目(1),項目(2),項目(5)中の 「なう」,「@」,「at」,「in」のいずれかの特徴を満たすツイート をリアルタイムにつぶやかれたツイートであると判定する. ある観光ツイートが,観光スポットでリアルタイムにつぶや かれたツイートであると判定できる場合,そのユーザのタイム ラインからリツイートとリプライを除く同じ日に投稿された全 てのツイートを取得し,同様にしてリアルタイムにつぶやかれ たと判断できるツイートを収集する.例えば,あるユーザのタ イムラインから抽出した,リアルタイムにつぶやかれたツイー ト群を時系列順に並べると表4のようになる.表4のツイート は全てFoursquareを用いてつぶやかれたツイートであり,こ のユーザは仙台空港を出発した後,清水寺をはじめとする京都 府のいくつかの観光名所を訪れ,最終的には滋賀県に移動しホ テルに宿泊したことがわかる. 表4からもわかるように,Foursquareを用いたツイートには 「I’m at」の直後,もしくは「(@」の直後にユーザが現在いる 場所が示される.また,ロケタッチを用いたツイートにも「に タッチ」や「に写真付きタッチ」という文字列の直前に位置情 報が記述されるという特徴がある.こういった手がかり語をも とに観光スポットを抽出し,それらを時系列順に並べることで 旅行者の観光ルートを抽出する. また,観光スポットでつぶやかれたわけではないが,1つの ツイート内で複数の観光スポットを訪れた記述があるツイート も存在し,複数の観光スポットを「→」で繋いだ形で記述され ることが多い.このようなツイートは4. 1節で挙げたどの項目 にも当てはまらないが,観光スポットの出現順序がそのまま観 光ルートになっているとみなして抽出する. 4. 3 移動時間と滞在時間

本研究では,2地点間の移動時間をGoogle Directions API

を用いて取得する.Google Directions APIは,指定した出発 地点から目的地点までのルート検索ができるサービスであり, 指定した 2地点間の移動距離と移動時間を得ることができる. 例えば,出発地に清水寺,到着地に金閣寺を指定すると,移動 時間27分,移動距離9.8 kmというレスポンスが返される. ある観光スポットにおける滞在時間の推定には,4. 2. 2節で 抽出した観光ルートを利用した.ある観光スポットAで観光 ツイートがつぶやかれた時刻と,次に別の観光スポットBで観 光ツイートがつぶやかれた時刻の差を求め,その結果から2点 間の移動時間を引いたものを,観光スポットA の滞在時間と して求めた.例えば,清水寺で12時30分にツイートをした ユーザが,次に13時50分に金閣寺でツイートしたとすると, 清水寺における滞在時間は80分から27分 を引いた53分と なる.この計算を抽出した観光ルート全てに対して行い,得ら れた滞在時間を平均したものを滞在時間として設定する.

5.

観光ルートの推薦

ユーザが提示された観光スポット一覧から訪れたい観光ス ポットを1つ選択すると,提案システムはユーザが選択した観 光スポットを含むルートを作成し,ユーザに推薦する. 本節では,観光ルートの決定に使用する3つの指標について, それぞれ5. 1節,5. 2節,5. 3節で説明する.また,それらの 指標を用いた,観光ルート推薦手法について5. 4節で述べる. 5. 1 観光スポットの共起頻度 4. 2. 2節で述べたように,本研究では,ある観光スポットで リアルタイムに観光ツイートをつぶやいたユーザのタイムライ ンから,そのユーザが実際に巡った観光ルートを抽出する. ある観光スポットA をルート内に含む全ての観光ルートか ら,A以外の観光スポットの出現回数を求めることによって, どのような観光スポットがAと共に訪れられることが多いか がわかる.本研究では,観光スポットAを訪れたユーザが,同 じ観光ルート内で観光スポットBを訪れる頻度を,Aに対す るBの共起スコアと定義する.そしてこの共起スコアを,観 光ルート推薦のための指標の1つとして用いる. 例えば,観光スポットAを訪れたユーザが40人いたとして, そのうち10人が同じ観光ルート内で観光スポットBを訪れた とする.この時,観光スポットAに対する観光スポットBの 共起スコアは,10/40 = 0.25となる. 5. 2 観光ツイートの時間帯分布 観光ルートを推薦するための指標の1つとして,観光ツイー トの時間帯分布を用いる.観光客が多い時間帯を検出するため に,24時間を3時間毎に区切り,その時間帯毎に観光スポッ トでリアルタイムにつぶやかれた観光ツイート数の割合を求め る.本研究では,この時間帯毎の観光ツイート数の割合を時間 帯スコアと定義する. 例えば,50件のツイートが観光スポットAでリアルタイム につぶやかれており,50件のうち12時から15時までの間に リアルタイムにつぶやかれた観光ツイート数が20 件のとき, 時間帯スコアは,20/50 = 0.4となる. 5. 3 観光ツイートのカテゴリ分類 観光スポットを訪れたユーザがそこでどのような体験をした かを知ることは,これから旅行をする者にとって大変有益な情 報である.そこで本研究では,各観光スポットについて収集し た観光ツイートを「食事」,「景観」,「土産」,「行動」の4つのカ テゴリに分類する.具体的には,観光ツイートの本文中に次の ような手がかり語が出現するかどうかに基づいて,観光ツイー

(5)

表 4 ある旅行者の Foursquare を利用したツイート ツイート時刻 ツイート本文

6:20 開門待ち。 (@ 仙台空港 (Sendai Airport - SDJ/RJSS) in 名取市, 宮城県) https://www.swarmapp.com/... 9:33 I’m at 大阪国際空港 (ITM/RJOO) in 豊中市, 大阪府 https://www.swarmapp.com/...

12:20 世界遺産。 (@ 清水寺 (Kiyomizu-dera Temple) in 京都市, 京都府) https://www.swarmapp.com/... 12:44 I’m at 六花亭 in 京都市東山区, 京都府 https://www.swarmapp.com/...

15:01 I’m at 金閣寺 不動堂 https://www.swarmapp.com/...

15:56 ハイペースすぎ。 (@ 北野天満宮 (Kitano-Tenmangu Shrine) in 京都市, 京都府) https://www.swarmapp.com/... 17:53 めちゃくちゃいいホテルやー。 (@ 大津プリンスホテル in 大津市, 滋賀県) https://www.swarmapp.com/... 表 5 行動に関するツイートとみなす表現 出現する表現 具体例 動詞 +「た/ました」 遊んだ 名詞-サ変接続 +「する」+「た/ました」 散策した 名詞-サ変接続 +「できる」+「た/ました」 体験できた 名詞-サ変接続 +「なう」 参拝なう トを分類する.なお,手がかり語の収集にはWikipedia(注 11)と Weblio類語辞典(注 12)を用いた.また,括弧内の数字は収集し た手がかり語の個数を表している. 食事に関するツイート 「うどん」などの料理の名称(2,033) 「懐石料理」などの料理の種類(70) 「昼食」などの食事の形態(18) 「カフェ」などの食事施設の名称(32) 「おいしい」などの食事に対する評価(14) 「食べる」などの食事に関する動作(11) 景観に関するツイート 「夜景」などの景観の対象(26) 「雨」などの天候に関する語(27) 「綺麗」などの景観に対する評価(30) 「撮る」などの景観に関する動作(7) 土産に関するツイート 「きびだんご」などの土産の名称(316) 「名物」などの土産に関する語(8) 「買う」などの入手を表す動作(5) 行動に関するツイート 表5に示す表現 ここで,表5に示した「動詞」には,「来る」,「行く」,「向か う」,「着く」を含めないものとする.これは,「来る」や「行く」 といった動詞が移動を表す動詞であり,観光スポットでの体験 を表さないことが多いためである. Wikipediaの各記事はカテゴリ分類されており,例えば「料 理」カテゴリの下位に「揚げ物」や「卵料理」といったサブカ テゴリが存在し,さらにその「揚げ物」カテゴリの下位に「か ら揚げ」や「コロッケ」などの記事が存在する.本研究では

MediaWiki API(注13)を用いて,Wikipediaの比較的上位に位

(注11):Wikipedia,http:// ja.wikipedia.org/wiki/ (注12):Weblio 類語辞典,http://thesaurus.weblio.jp/ (注13):MediaWiki API,http://www.mediawiki.org/wiki/API:Main page/ 置する「料理」や「土産菓子」のようなカテゴリを指定してそ の下位に存在するサブカテゴリや記事タイトルを取得し,それ を手がかり語とした. 本研究では,観光ツイートをカテゴリ分類した結果を,観光 ルート推薦のための指標として用いる.なお,「食事」,「景観」, 「土産」,「行動」のいずれかのカテゴリに分類された観光ツイー ト総数のうち,あるカテゴリに分類されたツイートの割合を, 本研究では分類スコアと呼ぶ. 例えば,ある観光スポット Aについてつぶやかれた観光ツ イートが計100件あり,そのうち 80件が「食事」,「景観」, 「土産」,「行動」のいずれかに分類されたとする.さらに,そ の80件のうち「景観」に分類されたツイート数が 60件であ るとき,その割合,すなわち「景観」に対する分類スコアは, 60/80 = 0.75となる. 5. 4 ルート推薦アルゴリズム 5. 4. 1 提示する観光スポットの決定 提案システムにおけるユーザの最初の入力は,出発地PS, 到着地PG,出発時刻TS,到着時刻TGである.また,ルート R =< PSPG>とする.出発地PSからある観光スポットSi までの移動時間をMS,i,観光スポットSiから到着地PGまで の移動時間をMi,G,2つの観光スポットSiSj間の移動時 間をMi,jとし,観光スポットSiでの滞在時間をViで表す. また,ある時刻をtとし,時刻X =TS+ MS,i+ Vi/2)か ら時刻Y =TG− Mi,G− Vi/2)までの区間において,観光ス ポットSiの最も高い時間帯スコアZX<max=t<=Y(Si)を求める.8つ に分割した時間帯スコアをZ(Si)0, Z(Si)3,, Z(Si)21と定義 し,Zmax X<=t<=Y(Si)を次式で表す. ZX<max=t<=Y(Si) = max ⌊X/3⌋<=j<=⌊Y /3⌋ Z3j(Si) (2) 本研究では,次式の両方を満たす観光スポットの一覧をユー ザに提示する. ZX<max=t<=Y(Si) >= 0.125 (3) TG− TS >= MS,i+ Vi+ Mi,G (4) 5. 4. 2 推薦ルートの決定 提示した観光スポット一覧の中からユーザが訪れたい観光ス ポットSUを1つ選択すると,提案システムはSUを含む観光 ルートをユーザに推薦する.従って,ルートRSU を加え, R =< PSSUPG>とする.これより先の観光ルート推薦ア ルゴリズムについて,図2を用いて説明する.

(6)

図 2 観光スポット推薦アルゴリズム • Phase 1 こ こ で は ,時 刻 X = (TS + MS,U + VU/2) か ら Y =TG− MU,G− VU/2)までの区間と重なりがあり,最も 高い時間帯スコアZX<max=t<=Y(SU)が得られる時間帯を求める. 図2は,15時から18時までの時間帯スコアが最大である例を 説明している. • Phase 2 本研究では,観光スポットの時間帯スコアが最も高くなる区 間に,4. 3節で求めた滞在時間の半分はユーザが滞在すること を条件とする. 図2に示した通り,SU における滞在時間VU は 120分であるので,120分のうちの60分は少なくとも15 時から18時までの間にSUに滞在できるようにする.従って, ユーザは 14時から19時までの区間で120分SUに滞在する ことになる.しかし,ユーザが設定した到着時刻TGは19時 であり,SUからPGまでにかかる移動時間MU,Gは30分 で あるため,遅くとも18時30分にSU を出発しなければTGを 超えてしまう.そのため,観光スポットSUの推薦が可能な時 間は,図2のPhase 2に矢印で示す14時から18時30分ま での区間である. • Phase 3 Phase 3では,Phase 2で定めた時間内でユーザがSUに最 も早く訪れる場合と最も遅く訪れる場合を考える.ここで,あ る観光スポットSiを最も早く出発する時刻をminTiDSiに最

も遅く到着する時刻をmaxTiAとする.Phase 2より,minT D U は16時,maxTUAは16時30分である. 4. 3節で求めた滞在時間の半分は時間帯スコアが最も高く なる区間に滞在するという条件を満たし,推薦ルートに追加 する観光スポットを決定するには,TSからmaxTUAの間と, minTUDからTGの間で推薦すべき観光スポットを探せばよい. それぞれの区間で,式(3),(4)を満たし,共起スコア,時間 帯スコア,カテゴリスコアの和が最大となる観光スポットを導 出し,それらを追加候補SASBとする.ただし,式(3),(4) においては,時刻XY ならびにPSPGをそれぞれの区間の ものに置き換えて計算する.そして,SASBを比較してスコ アが大きい追加候補を推薦ルートに加える.図2は,SBのスコ アがSAより大きかった場合を説明している.SBは,minTUD からTGの区間で導出した観光スポットなので,SUの後に追加 する.すなわち,R =< PSSUSBPG>とする.なお,SB をルートに追加したことによって生じる時間の制約については Phase 5で述べる. • Phase 4 Phase 4では,新たに追加された観光スポットSBを検出した 区間で,Phase 1同様,SBの時間帯スコアが最も高くなる時間 帯を求める.すなわち,時刻X =minTUD+ MU,B+ VB/2) からY =TG− MB,G− VB/2)の区間と重なりがあり,最も 高い時間帯スコアZmax X<=t< =Y(SB)が得られる時間帯を求める. 図2は,15時から18時までの時間帯スコアが最大である場合 を説明している. • Phase 5 Phase 5 では,4. 3節で求めた滞在時間の半分はユーザが滞 在するという条件をルート内の観光スポット全てに適用し,そ れぞれの推薦可能な時間帯を求める.図2に示すように,SBの 滞在時間VBは60分なので,SBの推薦が可能な時間は14時 30分から18時30分となる.しかし,ユーザは少なくとも時 刻minTD U まではSUに滞在しなければならない.また,MU,B が30分であるため,SBを推薦可能な時間帯は16時30分か ら18時30分までの間である.一方,SUを推薦可能な時間帯 は,Phase 2の段階で14時から18時30分の間となってい たが,maxTBA は17時30分であり,MU,Bが30分であるの で,SUを推薦可能な時間帯は14時から17時である.以上の ことから,観光スポットSUSB を推薦可能な時間帯は,そ れぞれ図2のPhase 5に矢印で示す範囲である. • Phase 6 Phase 6で推薦ルートに追加する観光スポットを決定する. ルート内の観光スポット全てについて,Phase 5で定めた時間内 で,ユーザが最も早く訪れる場合と最も遅く訪れる場合を考え る.Phase 5より,minTUDは16時,maxT

A U は15時,minT D BmaxTBAはともに17時30分である.次に推薦ルートに追加 する観光スポットを決定するには,R =< PSSUSBPG>

(7)

において,PSSUSUSBSBPGの間でそれぞれ推 薦すべき観光スポットを探す.すなわち,TSからmaxTUAま で,minTD U からmaxTBAまで,さらに,minTBDからTGま での間で,それぞれ追加候補を探す. それぞれの区間について,追加候補SCSDSEを導出し, SCSDSEを比較してスコアが最も大きい追加候補を推薦ルー トに加える.図2では,SCのスコアがSDSEより大きかった場 合を示している.SCは,TSからmaxTUAの間で得られた観光ス ポットなので,PSの次に追加し,R =< PSSCSUSBPG> となる. 提案手法では,追加候補,すなわち,推薦ルートに追加でき る観光スポットがなくなるまでPhase 4,Phase 5,Phase 6

を再帰的に繰り返すことで,推薦ルートを決定する.

6.

評 価 実 験

本節では,収集した観光ツイートの適切さと,観光ツイート の分類精度を評価実験により求める.また,作成した観光ルー トを評価する. 6. 1 観光ツイートの収集実験 「岡山後楽園」,「倉敷美観地区」,「清水寺」,「伏見稲荷大社」 の4つの観光スポットを対象として観光ツイートを収集し,そ の適合率,再現率,F値を求めた.「岡山後楽園」と「倉敷美観 地区」については2014年12月21日から2015年1月9日 までの間に投稿されたツイートから観光ツイートを収集した. また,「清水寺」と「伏見稲荷大社」は2014年12月21日から 2014年12月23日までの間に投稿されたツイートを収集した. 対象の期間に投稿されたツイートから人手により観光ツイー トを収集し,正解データとして用いた.人手で収集した観光ツ イートは「岡山後楽園」が178件,「倉敷美観地区」が518件, 「清水寺」が483件,「伏見稲荷大社」が201件あった.実験結 果を表6に示す. 収集できなかった例としては,「伏見稲荷大社の千本鳥居凄 い!」のように,4. 2. 1節で挙げた特徴が現れないものがあっ た.また,誤って収集した例としては,「播州清水寺はもう正 月の準備万端。http://instagram.com/...」のような,京都の 清水寺ではない同名の観光スポットについての観光ツイートを 誤って検出した例もあった.また,「伏見稲荷大社に行ったらし い」のような,自分の体験ではないツイートも誤って検出して いた. 中嶋らの手法では位置情報の付与されたツイートと本文中に 「なう」が含まれるツイートのみを対象としているため,今回得 られた観光ツイートのおよそ 1割程度しか収集できなかった. また,中嶋らの観光ツイート収集結果は再現率0.719,適合率 0.837 であった.表6と比較すると,適合率でも本手法の方が 高い結果を示している.このことから,本研究における観光ツ イートの収集手法は中嶋らの手法より有用であると言える. 6. 2 観光ツイートの分類実験 6. 1節に示した4つの検索スポットと期間において収集した 観光ツイートを対象に,観光ツイートの「食事」,「景観」,「行 動」,「土産」カテゴリへの分類精度を調べた.各カテゴリに分 表 6 観光ツイートの収集結果 観光スポット 再現率 適合率 F 値 岡山後楽園 0.854 0.849 0.852 倉敷美観地区 0.903 0.876 0.890 清水寺 0.884 0.846 0.864 伏見稲荷大社 0.901 0.858 0.879 合計 0.890 0.859 0.874 表 7 観光ツイートの分類精度 観光スポット 食事 景観 行動 土産 岡山後楽園 0.652 0.831 0.629 0.571 倉敷美観地区 0.777 0.782 0.717 0.625 清水寺 0.671 0.776 0.622 0.833 伏見稲荷大社 0.556 0.883 0.775 0.750 合計 0.707 0.801 0.681 0.711 類されたツイートを,人手によりそのカテゴリにふさわしいか どうか判定し,適切なものの割合を分類精度として求めた.実 験結果を表7に示す. 検出できなかった例をみると,「キレイだった」や「きれかっ た」といったフレーズを「綺麗だった」という意味で解析でき なかったために,「景観」カテゴリに分類されなかった.同様に, 「吉備団子」が平仮名表記されていた場合も「土産」に分類で きなかった.誤って検出した例としては,「パンフレット」とい う単語が本文中に出現した場合に,「パン」という食べ物の名前 を誤って検出して「食事」カテゴリに分類したものがあった. 6. 3 推薦ルートの評価 5. 4節で述べた方法で決定した観光ルートについて考察する. 提案システムで決定したルート(以下,提案ルートと呼ぶ)を,

Google Maps API(注 14)で提供されるルートサービスを用いて

可視化した.比較対象としては,Googleによって最適化され た観光ルート(以下,最短ルートと呼ぶ)を用いた.提案ルー トの例を図3,最短ルートの例を図4にそれぞれ示す. 図3,図4は,地点Aの御陵駅を11時に出発し,地点Hに あるホテルに19時に到着するように指定した場合の観光ルー トである.なお,必ず訪れねるスポットには,清水寺(図3の 地点D,図4の地点F)を選択した.ユーザは地点Bの観光 スポットからアルファベット順に各観光スポットを巡る. 最短ルートを示す図4に比べ,提案ルートを示す図3では, 地点Bを訪れてから地点Cまで戻り,再び地点Bの近くにあ る地点Dまで行き,地点C付近の地点Eに向かうといったよ うに,移動経路に何度も往復が生じた.また,提案ルートと最 短ルートの合計移動時間を比較したところ,提案ルートが81 分,比較ルートが56分と大きな差があった.このことから,提 案ルートは移動に関する効率は悪いことがわかる.これは,本 手法が観光スポット間の移動時間を重視せず,ツイートの時間 帯分布等により推薦ルートを決定したために生じた問題である. 一方で,図4における地点E の法観寺や地点Fの清水寺, 地点Gの建仁寺は拝観・開館時間が決まっており,最短ルート

(8)

図 3 提案システムによる推薦ルート 図 4 最適化された観光ルート では,法観寺と建仁寺をその拝観時間内で訪れられないが,提 案ルートでは拝観・開館時間内に訪れることができる.これは, 本手法がツイートの時間帯分布を利用して推薦ルートを決定し たために生じた利点であり,最短ルートは観光スポット間の移 動時間しか考慮していないため,推薦すべきでない時間帯に観 光スポットを薦めてしまう. 提案ルートは5. 4節で説明したアルゴリズムに基づいて決定 されるため,時間の制約を満たし,指標となる3つのスコアが 最も高くなる観光スポットであれば,距離が離れていても推薦 する.そのため,移動効率の悪いルートを推薦してしまうとい う欠点があるが,一方で,移動効率のみを考慮した最短ルート では推薦すべきでない時間帯に観光スポットを薦めてしまい, 観光スポットにおけるユーザの満足度が低くなるという欠点 がある.観光ルートを推薦するにあたって,移動効率に関わる ユーザの満足度と,観光スポットにおけるユーザの満足度をど ちらも満たすようなルートを導出することが望ましく,これは 今後の課題として挙げられる.また,図3における地点Fの 哲学の道や地点Gの蹴上インクラインは春には桜の名所とな る観光スポットである.そういった季節等の状況に応じて推薦 ルートを決定することも今後の課題である.

7.

お わ り に

本研究では,Twitterを用いて,観光スポットでの実際の観 光体験に基づくツイートを収集し,それらのツイートに含まれ る観光情報を利用して観光ルートを推薦する手法を提案した. 観光スポットの収集にはGoogle Places APIとYahoo!知恵袋

質問検索APIを用いた.また,観光体験に関わるツイートか どうかの判定には,旅行者のツイートに頻繁に現れる特徴や手 がかり語の有無を利用した.さらに,観光ツイートを「食事」, 「景観」,「行動」,「土産」に分類した結果と,リアルタイムにつ ぶやかれた観光ツイートの時間帯分布,観光ルート内における 観光スポットの共起頻度を用いて,観光スポットをスコア付け した.そしてそのスコアを用いて,推薦ルートを決定した. 観光ツイートの収集実験では適合率 0.859,再現率0.890, F 値0.874という結果を得た.また,観光ツイートの分類実験で は「食事」が0.707,「景観」が0.801,「行動」が0.681,「土産」 が0.711という分類精度が得られた.さらに,推薦ルートを分 析し,その有効性について考察した. 本研究で提案した観光ルート推薦手法では,推薦ルートを決 定する際に観光スポット間の移動効率を考慮していないため, スコアが高い観光スポットが離れた位置に存在する場合に移動 効率の悪いルートになってしまうという問題がある.しかし, 本手法では観光ツイートの時間帯分布を指標に用いているため, 営業時間のある観光スポットをその時間内に訪れられるような ルートを推薦できた. 今後の課題としては,移動効率の改善とともに,リアルタイ ムなイベントの検出や,状況(季節やユーザの年齢,移動手段 など)を考慮した推薦方法の検討,インタフェースの実装と被 験者実験などが挙げられる. 文 献 [1] 中嶋勇人,新妻弘祟,太田学,“ 位置情報付きツイートを利用 した観光ルート推薦 ”,情報処理学会研究報告.データベース・ システム研究会報告,Vol.2013-DBS-158,No.28,pp.1-6, 2013. [2] 藤坂達也,李龍,角谷和俊,“ 地域イベント発見のためのジオタ グ付マイクロブログを用いたノーマルパターン検出手法 ”,平成 22 年度情報処理学会関西支部大会,Vol.2010,2010. [3] 石野亜耶,小田原周平,難波英嗣,竹澤寿幸,“ Twitter からの 被災時の行動経路の自動抽出および可視化 ”,言語処理学会 第 18 回年次大会,pp.907-910,2012. [4] 小田原周平,石野亜耶,難波英嗣,竹澤寿幸,“ ブログからの ユーザの行動経路の自動抽出と可視化 ”,電子情報通信学会 第 20 回 Web インテリジェンスとインタラクション研究会,2011. [5] 郡宏志,服部峻,手塚太郎,田島敬史,田中克己,“ ブログからの ビジターの代表的な行動経路とそのコンテキストの抽出 ”,電子 情報通信学会技術研究報告,Vol.106,No.149,pp.29-34, 2006.

表 3 観光スポットを訪れたとみなす表現 出現する表現 具体例 「行く/着く/来る」+「た/ました」 着いた 形容詞 +「た」 楽しかった 名詞-サ変接続 +「する」+「た/ました」 満足しました 名詞-形容動詞語幹 +「だ/です」+「た」 綺麗だった 「行く/来る」+「て」+「き/み」+「た/ました」 来てみました 4
表 4 ある旅行者の Foursquare を利用したツイート ツイート時刻 ツイート本文
図 2 観光スポット推薦アルゴリズム • Phase 1 こ こ で は ,時 刻 X = ( T S + M S,U + V U /2 ) か ら Y = ( T G − M U,G − V U /2 )までの区間と重なりがあり,最も 高い時間帯スコア Z X&lt; max = t&lt;= Y (S U ) が得られる時間帯を求める. 図 2 は, 15 時から 18 時までの時間帯スコアが最大である例を 説明している. • Phase 2 本研究では,観光スポットの時間帯スコアが最も高くなる区 間に
図 3 提案システムによる推薦ルート 図 4 最適化された観光ルート では,法観寺と建仁寺をその拝観時間内で訪れられないが,提 案ルートでは拝観・開館時間内に訪れることができる.これは, 本手法がツイートの時間帯分布を利用して推薦ルートを決定し たために生じた利点であり,最短ルートは観光スポット間の移 動時間しか考慮していないため,推薦すべきでない時間帯に観 光スポットを薦めてしまう. 提案ルートは 5

参照

関連したドキュメント

Causation and effectuation processes: A validation study , Journal of Business Venturing, 26, pp.375-390. [4] McKelvie, Alexander &amp; Chandler, Gaylen &amp; Detienne, Dawn

Previous studies have reported phase separation of phospholipid membranes containing charged lipids by the addition of metal ions and phase separation induced by osmotic application

It is separated into several subsections, including introduction, research and development, open innovation, international R&amp;D management, cross-cultural collaboration,

UBICOMM2008 BEST PAPER AWARD 丹   康 雄 情報科学研究科 教 授 平成20年11月. マルチメディア・仮想環境基礎研究会MVE賞

To investigate the synthesizability, we have performed electronic structure simulations based on density functional theory (DFT) and phonon simulations combined with DFT for the

During the implementation stage, we explored appropriate creative pedagogy in foreign language classrooms We conducted practical lectures using the creative teaching method

講演 1 「多様性の尊重とわたしたちにできること:LGBTQ+と無意識の 偏見」 (北陸先端科学技術大学院大学グローバルコミュニケーションセンター 講師 元山

Come with considering two features of collaboration, unstructured collaboration (information collaboration) and structured collaboration (process collaboration); we