観光情報推薦システム

(1)

1．は

じめに

観光旅行は，多くの人々が経験するものとなってきている．総務省統計局が行っている「社会生活基本調査」＊1 では，1 年間の生活行動についての調査内容の中で「旅行・行楽」を入れている．2016 年に行われた調査によると，日本国民の 73.5％が旅行・行楽に 1 回以上行っており， 1泊以上の国内観光旅行には 48.9％の人が，海外旅行には 7.2％の人が行っていると報告されている．観光旅行を計画する際，旅行者はどのような行動をとるのだろうか．旅行のための情報収集に関して，2013 年に goo リサーチによって行われた「国内旅行と情報メディア」に関する調査＊2_{によると，旅行計画の作成には} 「宿泊予約サイト・旅行サイト（26.0％）」，「自治体や観光協会の公式ホームページ（22.5％）」とオンラインの情報メディアが用いられることが多い．その一方で，旅行に行くきっかけとなる情報としては「以前に行ったことがありもう一度行きたいと思って（30.5％）」，「家族・知人から直接聞いて（19.6％）」，「以前から行ってみたいと思って（10.7％）」，「パンフレットを見て（7.4％）」，「テレビや雑誌の特集を見て（6.3％）」のようにオフライン由来の動機が目立っている．これらのことより，観光するエリアの決定はオフラインで得られる情報が主であり，エリア内での行動を詳細に決定するためにオンラインメディアの情報が用いられるという行動を思い浮かべることができる．実際，Sanderson ら [Sanderson 04] や Gravano ら [Gravano 03] の研究結果によれば，検索エンジンを用いた Web 検索の 20％近くは特定の場所に関係する問い合わせであるといわれており，Web 上で観光情報を検索するユーザが求める情報を適切に提示することは情報検索・情報推薦システムにとって重要なタスクであると考えられる．観光旅行に対する満足度の調査として，2003 年に内閣府により行われた「自由時間と観光に関する世論調査」＊3_{がある．その中で 1 泊以上の国内旅行の満足度の} 調査が行われた．この調査では「大いに満足」，「どちらかといえば満足」を合わせると 51.4％であり，「どちらかといえば不満」，「大いに不満」を合わせると 2.7％となっており，観光旅行自体に対して不満を感じにくいというのも観光ドメイン特有の特徴といえる．なお，残りは「わからない（0.4％）」，「1 泊以上の国内旅行に行かなかった（45.5％）」である．観光情報推薦というトピックとしては，観光するエリア自体を推薦することもターゲットになり得るが，本稿ではエリアを決定した後に，エリア内での行動決定を支援するための情報推薦に注目する．また，推薦システムという文脈での狭い意味の観光情報推薦としては，個人化された観光情報の提供を指す．一方，広い意味の観光情報推薦としては，ガイドブックにあるような「おすすめの観光情報」という不特定多数のユーザを対象としたものも，観光情報推薦と呼べるであろう．本稿では個人化の有無にかかわらず，観光情報検索も含め，広い意味で観光情報推薦を捉える．観光情報推薦を実現するにはいくつかの課題が考えられる．ここでは，観光情報を観光スポット，観光ルート，観光の観点に分けて説明する．あるスポットは，従来そうでなかったとしても，特定のイベントによって観光スポットとなることがあり得る．例えば，ある映画の撮影場所になったとすると，それ以後観光スポットとなることがある．そのため，推薦対象となる観光スポットを自動的に抽出する技術が必要となる．次に，観光スポットが推薦に値するスポットであるかを評価する必要がある．また，観光とはある特定のスポットに行くだけではなく，あるエリアの複数のスポットを巡ることも多い．そのとき，どのようなルートで行動するかというルート推薦も必要であろう．一般に，観光は未知のエリアに行

観光情報推薦システム

Recommender Systems for Tourist Information

北山　大輔

工学院大学

Daisuke Kitayama Kogakuin University.

[email protected]

Keywords:

tourist information, recommender systems, review analysis, spot extraction and evaluation. 「推薦システム」

＊1 https://www.stat.go.jp/data/shakai/2016/index. html（2019/2/14 参照）

＊2 https://research.nttcoms.com/database/data/

(2)

くことが多いが，先述の「国内旅行と情報メディア」に関する調査においても，旅行に行くきっかけとなる情報としては「以前に行ったことがありもう一度行きたいと思って」が 1 位であるように，一度訪れたエリアに再訪することも考えられる．代表的なのは，春に花見を楽しんだエリアで，秋に紅葉を楽しむような場合である．このように，同じ観光地であっても提示する観点によって，異なるアイテムとして取り扱うこともあり得る．本稿では，2 章：観光スポット抽出，3 章：観光スポットの評価， 4章：観光ルートの推薦，5 章：観光の観点に基づく推薦支援として，主な取組みを紹介する．

2．

観光スポットの抽出

じゃらんや TripAdviser などの観光情報サイトでは，あらかじめ定められた観光スポットが存在し，そのスポットについての情報が掲載されている．しかしながら，このような観光情報サイトでは，新たな観光スポットや，突発的に出現した観光スポットにすばやく対応できない．このように，観光情報においては，いつどの地点が観光スポットとしての価値をもつかわからず，あらかじめ定めておくことに限界がある．そのため，観光スポット抽出は観光情報推薦において重要な技術となる． 2･1 観光スポット抽出アプリケーションの例本章では，観光スポットの抽出に関して，著者らが取り組んだ穴場スポットの動的抽出アプリケーション AnabaMiner [Kitayama 16]を例に基本的な考え方を説明する．図 1 は AnabaMiner のユーザインタフェースであり，観光スポット検索のために「夜景」というキーワードを入力して実行した結果である．淡網ピンは穴場スポット度の高い（知られていないが価値が高い）スポットであり，濃網ピンは被閲覧数の高い（人気である）写真があるスポットである．SNS などにおける位置情報付きのコンテンツを用いて，その座標に基づいてクラスタリングすることで，コンテンツが多く投稿される地域を特定するというのが基本的な手法になる．AnabaMiner においては，位置情報付きの SNS として写真共有サイトである Flickr を用いた．地域的に偏って写真投稿が行われるということは，その地域に「景色が良い」，「共有したいオブジェクトがある」などの観光的要素があると考えられる．アプリケーションの処理の流れを説明する．まず，画面に表示された地図領域内に存在し，かつ入力キーワー ドをタグとしてもつ写真を N 件取得する．AnabaMiner ではリアルタイムに動作させることを考え，N＝1 500 で構築した．次に，それらの写真データの位置情報をもとにクラスタリングを行い，クラスタをスポットとして抽出する．各スポットの評価については 3 章で取り扱う． 2･2 DBSCAN によるクラスタリングと粒度制御クラスタリングアルゴリズムに関しては種々のアルゴリズムを適応可能であるが，AnabaMiner では地理情報のクラスタリングで一般的な DBSCAN アルゴリズムを用いた．ただし，表示領域に応じてスポットの粒度が異なると考えられるため，データの分布に基づいてパラメータを決定する．例えば，花火大会のスポットを抽出する場合，東京都全域で抽出したいスポットは大会の開催場所であるのに対し，ある花火大会の領域で抽出したいスポットは観覧場所というように，領域の広さに応じて粒度は異なる． DBSCAN [Sander 98]は，クラスタの密度を基準にクラスタリングを行うため，高密度なクラスタのみを抽出することが可能となる．DBSCAN は，クラスタ間 の距離のしきい値 Eps とクラスタのデータ数のしきい 値 MinP の二つのしきい値をもつ．ある点 x から，距離 Eps 内にある点集合を近傍 NEps（x）と定義し，以下の接 続関係を満たすとき，同じクラスタに分類する． （1）y ∈ NEps（x） （2）｜NEps（x）｜ MinP

ただし，NEps（x）＝ { y ∈ X｜D（x, y） Eps} である．ここ

で，D（x, y）は x の座標と y の座標からユークリッド距 離を返す関数である．つまり，ある座標から半径 Eps 内 に MinP 以上の座標集合が存在するなら，同じクラスタ に分類する．AnabaMiner では領域の広さによって粒度 を変更するため，距離のしきい値 Eps をデータの分布に よって変更し，MinP は 3 に設定した．Eps を以下の式 で定義する． Eps＝α× ｜P｜ p∈ PD（p, p–） （1） ここで，P は得られた位置情報付き写真の集合であり， p – はその平均座標である．｜P｜（＝N）は取得した写真の 総数であるため，Eps は各写真の平均座標からの距離の 平均となる．αは粒度の大きさを調整する重みであり， AnabaMinerでは 0.067 を用いている．赤いピンは穴場スポット度の高い（知られていないが価値が高い）スポットであり，青いピンは被閲覧数の高い（人気である）写真があるスポットである．図 1 AnabaMiner のインタフェース

(3)

2･3 スポット抽出に関する他のアプローチスポットを抽出する手法およびそのスポットの利用方法としては，さまざまなアプローチがある．王ら [王 11] の研究では，ジオタグ付き写真をクラスタリングし，各クラスタが風景を表していると考え，そのアイコンをマップ上に表示する手法を提案している．スポット抽出としては，位置情報に対して最短距離法による階層的クラスタリングを用い，しきい値θ〔km〕で分割を行っている． Crandallら [Crandall 09] は，大量の写真とそれに付随した位置情報やタグに基づいてクラスタリングし，人気のスポットやランドマークを抽出する手法を提案している．また，Crandall らは同一撮影者のデータから撮影ルートの軌跡が得られることも示している．スポットの抽出の核として，やはり密度に基づくクラスタリングの Mean Shift 法 [Comaniciu 02] が用いられている．

白井ら [白井 14] や Hirota ら [Hirota 14] は，位置情報付き写真を用いて多量の写真が撮影された複数の地点を可視化，また，撮影方向を利用しランドマークの形状の抽出手法を提案している．スポット抽出としては，同じく密度に基づくクラスタリングである P-DBSCAN [Kisilevich 10]が用いられ，クラスタ内の写真の撮影方向を用いてクラスタ間を関係付けている．最後に直接的なスポット抽出ではないが，スポット抽出に関連する技術として，スポットの領域推定について触れる．奥ら [Oku 15] が，観光スポット領域内の tweet をもとに，観光スポットの特徴を抽出する手法を提案している．ここでは，あるスポットの領域を特定する手法として，One-Class SVM [高畠 06] を用いている．スポットの領域形状を抽出する意味では，白井らと同じであるが，奥らの手法では対象スポット名を直接指定し，領域を得ることができる．

3．

観光スポットの評価

3･1 穴場スポットとしての評価観光スポットの評価指標としては，さまざまなものが考えられる．一般的な指標として，知名度や人気度が考えられるだろう．もちろん，観光レビューサイトにおける星の数というのも評価指標である．指標を組み合わせることで，新たな指標をつくることもできる．例えば，レストランのコストパフォーマンスを考える際には，その評価値と平均予算を用いて評価することが考えられる．本章でも引き続き，AnabaMiner を例に観光スポットの評価を説明する．AnabaMiner では，穴場である度合いを表現するために穴場スポット度を定義している．穴場とは，「一般の人にあまり知られていない，良いところ＊4_{」，「人のあまり知らない，良いところ}＊5_{」というよ} うに定義されることが多い．そのため，知名度と評価値によって穴場スポット度（GUS：Good Unknown Spot）

を算出可能であると考えた．あるスポット siに対する穴場スポット度を以下の式で定義する． GUS（si）＝ Evaluation（si） Recognition（si）（2） 知名度 Recognition（si）とは，そのスポットが一般によく知られている度合いであり，例えばスポットに対する訪問数やそのスポットに対する言及数が相当する．そ れに対して，評価値 Evaluation（si）とはそのスポットが評価される度合いであり，そのスポットの被閲覧数や お気に入り登録数，N 段階評価の評価値が相当する．す なわち，知名度の割に評価を集めることが可能なスポットが穴場スポットである．そのため，そのスポットが何らかの影響で有名になり知名度が高くなるとそのスポットは穴場スポットではなくなる．図 2 は穴場スポット度の概念図である．足跡の数が知名度を表しており，星の数が評価値を表している．スポット A と B を比較すると A のほうが穴場スポット度が高くなる様子を表している．知名度や評価値は，適応するサービスにおいて利用可能なものを選択する必要がある．また，スポット自体の定義も適応するサービスによって変化する．例えば，レストラン検索における穴場店舗の評価を行う場合であれば，スポット自体は店舗を単位とすることが可能であり，知名度は店舗への訪問数，評価値はレストラン評価サイトの評価値を用いることが考えられる．一方，観光における穴場スポットの評価を行う場合であれば，観光スポットは領域をもつ場合があり，特定の施設をスポットとするのは困難となる．そのような場合，2 章で述べたように，まず Twitter などのマイクロブログや Flickr などの写真共有サイトのジオタグ付きデータを用いて，地理的な分布から対象となるスポットを特定することが必要となる．このような場合，知名度はそのスポットの領域に対する訪問数を利用することが可能であり，評価はそのジオタグ付きデータにつく評価値（Twitter であればお気に入り数や re-tweet 数，Flickr であればお気に入り数や被閲覧数）を用いることができるであろう． 3･2 穴場スポット度の実装本節では，写真共有サイトのデータに対する穴場スポット度の実装について述べる．本稿では，クラスタリ Spot A� ��t�o� �� o��t�o�� Spot B� ��t�o� �� o��t�o��

>

図 2 穴場スポット度の概念＊4 デジタル大辞泉の穴場の項目より．＊5 大辞林の穴場の項目より．

(4)

ングにより抽出したスポットに含まれる写真データのメタデータを用いて知名度と評価値を定義する．写真のメタデータとして，被閲覧数，お気に入り数，コメント数，撮影者，タグといったものが考えられるが，このうち，被閲覧数，お気に入り数，コメント数は，スポットそのものというよりは写真に対するメタデータであると考えられる．その点，撮影者は実際にその場所を訪れて写真を撮影した人であり，スポットを評価することが可能である．タグはスポットを表現するタグも存在するが，多種多様である．これらのことより，写真共有サイトにおけるスポットの知名度としては，実際にその場所を訪れて撮影した人数を知名度として用いることが妥当であると考えた．一方，評価値としては，写真に写っているものに対しての評価が高ければスポットの評価が高いと考えられるため，被閲覧数，お気に入り数，コメント数を用いることが妥当である．ここでは，1 回の Flickr API アクセスで取得可能な被閲覧数を用いて評価値を算出する．以下の 式によりあるスポット piの知名度と評価値を定義する． Recognition（si）＝User（si）（3） Evaluation（si si ）＝｜｜ p∈ si View（p） _（4） ここで，User はスポット si中の写真を撮影した撮影 者数を返す関数である．また，View はある写真 p の被 閲覧数を返す関数である．評価値 Evaluation（si）を被閲覧数の平均としているのは，評価の高いスポットの場合，ある特定の写真の評価が高いわけではなく，平均的 に高いと考えられるためである．Recognition（si）は穴場スポット度としては分母となるため，値が小さいほど 良いことになる．しかし，Recognition（si）が 1 の場合，ある人物がたまたまその場所でたくさん撮影したためにスポットとして抽出されたに過ぎない．そのためしきい値を設け，一定の人数以上でなければ算出を行わない工夫が必要である． 3･3 スポット評価に関する他のアプローチ AnabaMinerと同様にスポット自体の評価の高さや知名度に着目する研究は多い．Zhuang ら [Zhuang 15] は，地理情報付きの写真を用いて，そのスポットの無名度の評価および景観価値の評価を行う手法を提案している．撮影者のそのスポットに対する熟知度合いを出すことで，スポットの無名度を算出している．また，景観としての評価を行うための評価式を提案している．観光スポットは地理的なオブジェクトであるため，空間的な広がりに着目して評価する研究もある．徳永ら [徳永 14] は，blog 記事の地名表現の共起関係を用いることで，スポットの地理的広がりと知名度の局所性を分析する手法を提案している．この手法により，局所的によく知られているスポットを発見することが可能となる．一方，観光スポットの評価は季節によって変動するということに着目した研究もある．熊野ら [熊野 13] は，撮影スポットの旬のシーズンを抽出する研究を行った．旬のシーズンを抽出する際に，バースト性に着目した指標を提案している．この指標は，その地域において注目するシーズンが短い，またはシーズン期間内に撮影者数が多ければ大きくなるように定義されており，この値によりシーズンを特定する．このように，観光スポットの評価において，一般的な観点，空間的な観点，時間的な観点という評価軸が存在し，どのような見方をするかでその評価値は変動するのが観光スポットの評価の特徴である．

4．

観光ルートの推薦

観光ルート推薦では，ユーザの嗜好に合致する観光プランを旅行前に推薦するアプローチや，現地で動的に変化するユーザの要求や時間的・金銭的制約に対応して推薦するアプローチが考えられる．本章では主に，後者の現地で動的に観光ルートを推薦するアプローチとして，著者らが取り組んだ観光スポットに対するユーザの滞在時間の差異に基づく経路探索システム [Kitayama 15] について紹介する． 4･1 滞在時間の差異に基づく経路探索事前にユーザが立てた観光プランがあったとする．このとき，訪問するスポットにはそれぞれ予定滞在時間が存在する．しかし，実際に現地で行動すると予定滞在時間どおりに滞在するとは限らない．このとき，予定滞在時間に対して長く，もしくは短く滞在するのは，観光スポットへの興味の有無によるものとユーザの歩き方や観光の仕方などの特性によるものの二つの理由が考えられる．図 3 は観光スポットとその滞在時間の模式図である．スタートとゴールの間に四つの観光スポットがあり，色はスポットの種類を示しているとする．一つ目の観光ス ポット w を出発するとき，元のプランでは観光スポット x へ向かう予定であった．しかし，観光スポット w で 10 分早く行動したとすると，時間に余裕ができるので，観 光スポット x ではなく観光スポット y を推薦することも できる．また，このユーザは同じ種類の他の観光スポットでも早く行動する可能性が考えられる．そこで，さら に時間に余裕ができるため，観光スポット x や y へ向か う経路ではなく z を経由して y へ至る経路を推薦するこ とができる．そこで，観光スポット間に関係を定義し同種のスポットには同様に影響を与え，異種の観光スポットには少しの影響を与えるようにすることで適切な各観光スポットの予定滞在時間を算出できると考えた．

(5)

本手法の手順を以下に述べる．まずユーザが，始点と終点，到着時間を設定しそれに基づき観光経路を推薦する．その後，推薦した経路を参考にユーザが行動を行い，観光スポットへ移動し，その滞在時間により新たな観光経路を推薦することを繰り返す．このとき，残りのコストを再計算し，設定した到着時間の残り時間以内に行動可能な経路を再推薦する．以下に手順をまとめる．（1）ユーザが始点，終点，到着時刻を設定する．（2）始点から終点の到着時間に基づいた全体の時間から合計経路コストを引いた数値が正の値で 0 に近い経路を推薦する．（3）ユーザが現在地から次の観光スポットへ移動する．（4）次の観光スポットの予定コストとユーザの滞在コストの差異に基づき，新たな予定コストを算出する．（5）新たな予定コストと移動コストを用いて，新しい経路を検索し現在時間から到着予定時間に行ける経路を推薦する．（6）観光地と残り時間がある限り（3）∼（5）を繰り返す．（7）推薦できる経路が時間をオーバしているときは直接，終点の観光地へ経路を推薦する． 4･2 差異に基づくフィードバック滞在中の観光スポットにおける行動時間（滞在コスト）を抽出し，残りの観光地の予定コストに反映させて経路を再推薦する．滞在コストを分子，予定コストを分母とすることで，予定された時間に対するユーザ行動時間の比をフィードバック係数として用いる．この係数をスポットの種類に応じて増幅パラメータを変更して用いる．フィードバック係数を求める式は次のとおりである． x＝A× ⎟n ⎠ ⎞ ⎜ ⎝ ⎛ y x （5） Aはある観光スポットの予定滞在時間であり，n は増 幅パラメータである．また，x は滞在スポットの予定コ スト，y は滞在スポットの滞在コスト，x_{は再計算後の} 予定コストである．本システムでは，滞在中のスポットと同種のスポットに対し，増幅パラメータは 1.0 とした．一方，異種のスポットに対しては，増幅パラメータは 0.6 とした．スポットの類似度を計算可能である場合には，この増幅パラメータは類似度に比例するように設定することもできる．図 4 は，寺に行った後に資料館に行き，他の予定コス トに影響を与える例を示した図である．予定コスト（E） が 30 分だったところ，滞在コスト（A）が 40 分と少し 遅く行動している．そのため，他のスポットの予定滞在時間が増加する様子を表している．ただし，スポットの種類に応じて増加率が変化する． 4･3 時間制約の計算方法本システムの主眼は，ユーザの意図に基づいて観光スポットの予定コストを再計算し経路を推薦し直すことである．そのため，時間制約の計算は簡潔に行っている．元の観光プランにおける始点から終点までの移動時間を含めた滞在時間の合計に最も近くなる，予定コスト再計算後の経路を推薦する．図 5 は，観光経路の例で，区間時間に最も近いコストの経路を表示している．出発時点の時間を 14 時 20 分，到着時間を 16 時 30 分とすると，滞在時間は 130 分である．図中の予定コストは一つ目の観光スポットを訪問 し終えた時点で再計算後の予定コストである．X, Y, Z を たどる経路と U, V, Z をたどる経路を比較すると，X, Y, Zをたどる経路のほうが元のプランの 130 分に近く，推薦度合いが高くなる． 4･4 経路推薦の他のアプローチ観光ルートの推薦に関する研究を紹介する．大沢ら [大沢 10] や鈴木ら [鈴木 12] は，設定した経路に対して，寄り道箇所を追加した場合の経路探索アルゴリズムを提案している．大沢らは，運転者が入力した寄り道条件に合致する POI（Point Of Interest）を通る最適な経路を発見するために逐次拡大法というアルゴリズムを用いており，ダイクストラ法をベースにした逐次探索法と A＊アルゴリズムをベースにした逐次探索法で実験を行って図 3 観光スポットとその滞在時間の模式図図 5 予定コストを再計算した後の経路推薦図 4 滞在時間の差異によるフィードバック例

(6)

いる．鈴木らは，逐次探索法とタイムセール寄り道探索を用いて時間の制約を満たす解を算出する手法を提案している．また，太田ら [太田 18] は，寄り道するスポットの Serendipity 度合いを算出することで，思いがけない出会いにつながる寄り道経路を推薦する手法について検討している．これらのアプローチは，観光スポットを追加したい際に経路を含めて観光プランを再推薦するようなアプローチである．奥山ら [奥山 11] の研究では，写真に付与された位置情報を連続して考慮することにより，移動軌跡と考える．この移動軌跡を連結させることにより，新しい観光ルートをユーザに推薦する手法を提案している．Arase ら [Arase 10]は写真の地理情報，時間情報を用いて，過去の旅行経路のマイニングを行っている．利用者が旅行の目的や期間，旅行のテーマを入力することで，旅行計画を自動生成することを可能とした．これらのアプローチは，あらかじめもっともらしい観光ルートを抽出しておき，その中から旅行者にマッチする観光ルート推薦するという考え方である．観光においては，その景観を考慮した経路推薦というアプローチも考えられる．川俣ら [川俣 18] はドライブルートの推薦として，景観を考慮した経路探索を行う手法を提案し，このアプローチに取り組んでいる．この手法では，田園系，山林系，水辺系，都市系という四つの要素からなる景観ベクトルを道路に付与し，それらの重視度合いを変更した経路を探索することで，ユーザに適した経路を推薦することを可能としている．

5．

観光の観点に基づく推薦支援

観光情報推薦の最終的なゴールは，その観光地に足を運ばせることであろう．そのゴールに対し，単におすすめの観光スポットや観光ルートを提示するだけでは不十分となる．旅行に行くきっかけとなる情報としては，1 章で述べたように，すでに旅行者に動機があったり，魅力を提示する知人の存在が重要となる．そこで，旅行者がもつ要求への近さや，魅力を感じる観光の観点を提示できれば，観光情報推薦のゴールに一歩近づくことであろう． 5･1 Paragraph Vector モデルによる観光スポットの特徴ベクトル算出観光の観点の類似性を示すことができれば，旅行者のもつ観点とスポットの観点を結び付けることが可能となる．そのために，観光スポットの特徴を適切に表現できることが望ましい．著者らは，観光スポットのレビューにはその観点が含まれていると考え，レビュー文を学習データとした，観光スポットの分散表現を獲得する手法に取り組んだ [Kitayama 18]．また，分散表現を獲得することで，スポットやエリアの意味的演算を行うことが期待できる．例えば，東京都内において「梅田 BIGMAN＊6_{」と同様に待ち合わせ場所として著名な観} 光スポットを検索したい場合には，“梅田 BIGMAN−大阪府＋東京都”のようなベクトルの加減算を行い，演算結果のベクトルとコサイン類似度が高い観光スポットとして「ハチ公の銅像」や「西郷隆盛像」のような東京都内において待ち合わせ場所として著名な観光スポットを抽出することが期待できる．文章の分散表現を獲得する Paragraph Vector モデルは，Mikolov らによって考案された単語の特徴ベクトル学習手法である Word2Vec[Mikolov 13] を拡張し，Le ら [Le 14]によって提案された文書の特徴ベクトル学習手法である．Paragraph Vector モデルでは「同じ文脈で出現する単語は類似した意味をもつ」というハリスの分布仮説 [Harris 54] に基づき，「ある文書中である単語列が与えられたとき，次に出現する単語を予測する」というタスクをニューラルネットワークに学習させることで，文脈や単語の語順を考慮した文書の特徴ベクトルを生成することができる．Paragraph Vector モデルでは，生成した文書の特徴ベクトルを文書の分散表現と呼ぶ．観光スポットへの Paragraph Vector モデルの適応手法として著者らは，ある観光スポットに対して投稿された全レビュー文を 1 文書とみなし各文書を Paragraph Vectorモデルの学習データとして各スポットの特徴ベクトルを生成する手法を提案している．図 6 に示すように，「ハチ公の銅像」の特徴ベクトルを生成する際には「ハチ公の銅像」に対して投稿されたすべてのユーザレビューを連結したものを「ハチ公の銅像」に対応する 1 文書とみなし，Paragraph Vector モデルによって学習したこの文書の分散表現を「ハチ公の銅像」の特徴ベクト表 1 「ハチ公の銅像」と類似度が高いスポットスポット名類似度地域カテゴリハチ公の銅像 − 渋谷区観光名所モヤイ像 0.7825 渋谷区観光名所ハチ公ファミリーレリーフ 0.6197 渋谷区その他西郷隆盛像 0.5719 台東区観光名所梅田 BIGMAN 0.4992 大阪市観光名所大館駅前ハチ公像 0.4675 大館市観光名所＊6 梅田 BIGMAN は大阪における有名な待ち合わせスポットである．図 6 Paragraph Vector モデルによる「ハチ公の銅像」の特徴ベクトル生成例

(7)

ルとする．表 1 は，国内の代表的な観光情報サイトであるじゃらんに掲載されている 43 759 件の観光スポットに対して投稿された 1 481 831 レビューを学習データに用いた Paragraph Vector モデルにおいて，「ハチ公の銅像」の特徴ベクトルとコサイン類似度が高い特徴ベクトルをもつ観光スポット上位 5 件である．「ハチ公の銅像」は待ち合わせ場所として全国的に著名な観光スポットであり，これは「ハチ公の銅像」に付与された「渋谷区」などの地域や「観光施設・名所巡り」などのカテゴリーだけでは予測することが難しい「ハチ公の銅像」に対する観光の観点であると考えられる．表 1より，「ハチ公の銅像」の類似スポットとして「モヤイ像」，「西郷隆盛像」，「梅田 BIGMAN」などの待ち合わせ場所として同様に著名な観光スポットが抽出されている．これらのスポットはレビュー中に待ち合わせについての記述を多く含んでおり，Paragraph Vector モデルがこのようなレビュー中の記述に基づきスポットの観光の観点を考慮した特徴ベクトルを生成できていると考えられる． 5･2 観光の観点の利用例観光の観点を用いることで，旅行者に対し推薦結果の納得性を向上できる可能性がある．この点について，最近著者らが取り組んでいる二つの取組みを紹介する．一つは，既訪問スポットによる未訪問スポットの説明 [潘 19]であり，もう一つは観光スポット説明文の個人化 [山田 19] である．既訪問スポットによる未訪問スポットの説明では，旅行者が過去に訪れたことがある観光スポットにどのような観点で類似しているのかということを，これから旅行に行く未訪問エリアの観光スポットの説明として用いることで，そのエリアの観光スポットの概要を想起しやすくすることを目的とする．アイディアとしては，まず先の Paragraph Vector モデルを用いて，履歴中の観光スポットと未訪問エリアの観光スポットの類似度を算出する．最も高い類似度をもつ観光スポットを対応付け，共通する特徴語を提示することで，未訪問エリアの観光スポットでも旅行者の知る観光スポットの特定の観点によく似た特徴をもつことを知ることができる．観光スポット説明文の個人化では，もう少し細かい粒度によるアプローチを考えている．旅行者が過去に訪れた観光スポットの履歴は，旅行者が好む観光の観点を含んでいると考えられる．そこで，履歴中の観光スポットに付随する個々のレビューをクラスタリングすることで，履歴中で共通して出現する観点を抽出する．具体的には，先の Paragraph Vector モデルをレビュー単位で適応し，レビューの分散表現を得てクラスタリングする．個々のクラスタとしては，特定のスポットのレビューが偏っているクラスタや，複数のスポットのレビューをバランス良く含んでいるクラスタが抽出される．このとき，履歴中で共通して出現する観点を旅行者の好む観点と捉え，後者の複数のスポットのレビューをバランス良く含んでいるクラスタが高くなるようにスコアを計算し，旅行者の嗜好として抽出する．何らかの推薦・検索アルゴリズムで列挙された観光スポットのレビューに対し，クラスタの重心ベクトルとの類似度とクラスタのスコアを用いて，個人化説明文として適切なレビューを選択する．このことにより，提示された観光スポットに対して，旅行者が好む観点での説明が表示され，推薦・検索結果の選別が容易になることが期待できる． 5･3 観光の観点の抽出と推薦支援に関する他のアプローチこのような観光の観点を抽出し，推薦・検索の支援を行う他のアプローチについて紹介する．著者らは観光スポットのレビュー文をその観光スポットの学習データとしたため，Paragraph Vector モデルを用いているが，土田ら [土田 16] は Word2Vec により，直接的に地域を表す単語を分散表現で表し，意味演算を可能としている．石野ら [石野 14] はガイドブックなどでは知ることが難しい観光スポットの詳細な情報を効率良くユーザに提示するための情報拡張システムを開発している．この研究では，観光スポットの観点として「見る」や「食べる」というタイプを抽出し，その観点に適合する blog 記事を関連付けることで情報を拡張する．伊達ら [伊達 11] は blog 記事から観光スポットの印象を表す単語を抽出し印象に基づく観光スポット推薦手法を提案している．この研究では TF-IDF 法をもとに印象を表す単語の抽出を行い，過去に訪れた観光スポットと印象が類似する観光スポットを推薦する．

6．ま

とめ

本稿では，観光情報推薦について著者の取組みを中心に，観光スポット抽出，観光スポットの評価，観光ルートの推薦，観光の観点に基づく推薦支援に注目して紹介した．観光というトピックは，地域活性化や，インバウンド需要の最大化，国際的イベントの招致など，さまざまな理由から需要が高まってきている．また旅行者個人としても，ある程度のまとまった時間やお金を消費する，重要な余暇活動の一つである．1 章で紹介したように，観光体験は満足方向に振れやすい．観光地側としても「来てくれさえすれ満足させる自信がある」ことが多いであろうし，旅行者側としても「行けばきっと楽しいだろうな」という思いをもつことは多いであろう．観光情報推薦が果たすべき役割は，旅行者の背中を押し，その架け橋となることであろう．本稿がその架け橋の一助となれば幸いである．

(8)

◇ 参考文献 ◇

[Arase 10] Arase, Y., Xie, X., Hara, T. and Nishio, S.: Mining people’s trips from large scale geo-tagged photos, Proc. 18th ACM Int. Conf. on Multimedia, MM’10, pp. 133-142, New York, NY, USA, ACM（2010）

[Comaniciu 02] Comaniciu, D. and Peter, M.: Mean shift: A robust approach toward feature space analysis, IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol. 25, pp. 281-288 （2002）

[Crandall 09] Crandall, D. J., Backstrom, L., Huttenlocher, D. and Kleinberg, J.: Mapping the World’s photos, Proc. 18th Int. Conf. on World Wide Web, WWW’09, pp. 761-770, New York, NY, USA, ACM（2009）

[伊達 11] 伊達賢志，北須賀輝明，糸川剛，有次正義：旅先での観光地選び支援のためのブログを用いた観光地の印象抽出手法，マルチメディア，分散協調とモバイルシンポジウム 2011 論文集， pp. 1566-1579（2011）

[Gravano 03] Gravano, L., Hatzivassiloglou, V. and Lichtenstein, R.: Categorizing web queries according to geographical locality, Proc. 12th Int. Conf. on Information and Knowledge Management, CIKM 2013, pp. 325-333（2003）

[潘 19] 潘健太，北山大輔：ユーザの既訪問スポットの位置付けに基づく未訪問スポットの説明手法，第 11 回データ工学と情報 マネジメントに関するフォーラム（DEIM 2019）論文集，pp. H7-2（2019）

[Harris 54] Harris, Z. S.: Distributional structure, Word, Vol. 10, No. 2-3, pp. 146-162（1954）

[Hirota 14] Hirota, M., Shirai, M., Ishikawa, H. and Yokoyama, S.: Detecting Relations of Hotspots Using Geo-tagged Photographs in Social Media Sites, Proc. Workshop on Managing and Mining Enriched Geo-Spatial Data, GeoRich’14, pp. 7:1-7:6, New York, NY, USA, ACM（2014）

[石野 14] 石野亜耶，藤井一輝，藤原泰士，前田剛，難波英嗣，竹澤寿幸：旅行ブログエントリと質問応答コンテンツを利用した旅行ガイドブックの情報拡張，人工知能学会論文誌，Vol. 29, No. 3, pp. 328-342（2014） [川俣 18] 川俣光司，奥健太：景観クラスタリングに基づく景観アウェアルート推薦システム，第 10 回データ工学と情報マネジメントに関するフォーラム（DEIM 2018）論文集，pp. D1-1（2018） [Kisilevich 10] Kisilevich, S., Mansmann, F. and Keim, D. A.: PDBSCAN : A density based clustering algorithm for exploration and analysis of attractive areas using collections of geo-tagged photos, in Liao, L., ed., Proc. 1st Int. Conf. and Exhibition on Computing for Geospatial Research and Application, New York, N.Y, Association for Computing Machinery, Article Number, 38（2010）

[Kitayama 15] Kitayama, D., Ozu, K., Nakajima, S. and Sumiya, K.: A Route Recommender System Based on the User’s Visit Duration at Sightseeing Locations, pp. 177-190, Springer International Publishing, Cham（2015）

[Kitayama 16] Kitayama, D.: Extraction method for anaba spots based on name recognition and user’s evaluation, Proc. 18th Int. Conf. on Information Integration and Web-based Applications and Services, iiWAS’16, pp. 12-15, New York, NY, USA, ACM（2016）

[Kitayama 18] Kitayama, D., Yoshida, T., Nakajima, S. and Sumiya, K.: A tourist spot search system based on paragraph vector model of location and category tags using user reviews, Ao, S.-I., Kim, H. K., Castillo, O., Chan, A. H.-S. and Katagiri, H., eds., Trans. on Engineering Technologies, pp. 211-225, Singapore, Springer Singapore（2018）

[熊野 13] 熊野雅仁，岩渕聡，小関基徳，小野景子，木村昌弘：集合知に基づいたポピュラー撮影スポットに関する旬シーズンの可視化，芸術科学会論文誌，Vol. 13, No. 4, pp. 218-228（2013） [Le 14] Le, Q. V. and Mikolov, T.: Distributed representations of sentences and documents, Proc. 31st Int. Conf. on Machine Learning, ICML 2014, pp. 1188-1196（2014）

[Mikolov 13] Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S. and Dean, J.: Distributed representations of words and

phrases and their compositionality, Advances in Neural Information Processing Systems, Vol. 26, pp. 3111-3119（2013） [Oku 15] Oku, K. and Hattori, F.: Mapping geotagged tweets to tourist spots considering activity region of spot, Matsuo, T., Hashimoto, K. and Iwamoto, H., eds., Tourism Informatics, Vol. 90 of Intelligent Systems Reference Library, pp. 15-30, Springer Berlin Heidelberg（2015） [奥山 11] 奥山幸也，柳井啓司：写真撮影の位置軌跡を利用した旅行支援システム，第 3 回データ工学と情報マネジメントに関す るフォーラム（DEIM 2011）論文集，pp. F7-6（2011） [大沢 10] 大沢裕，藤野和久：前処理を必要としない道路ネットワーク上での最短寄り道経路探索アルゴリズム，信学論（D），情報・システム，Vol. 93, No. 3, pp. 203-210（2010） [太田 18] 太田竜人，Siriaraya, P., 坂本瞭，北山大輔，中島伸介： SNSデータを用いた寄り道スポットの Serendipity スコア算出方法，第 10 回データ工学と情報マネジメントに関するフォーラ ム（DEIM 2018）論文集，pp. P6-5（2018）

[Sander 98] Sander, J., Ester, M., Kriegel, H.-P. and Xu, X.: Density-based clustering in spatial databases: The algorithm GDBSCAN and its applications, Data Min. Knowl. Discov., Vol. 2, No. 2, pp. 169-194（1998）

[Sanderson 04] Sanderson, M. and Kohler, J.: Analyzing geographic queries, Proc. SIGIR 2004 Workshop on Geographic Information Retrieval（2004） [白井 14] 白井元浩，廣田雅春，石川博，横山昌平：ジオタグ付き写真を用いた関心領域と撮影スポットの発見，信学論（D）， Vol. J97-D, No. 4, pp. 835-844（2014） [鈴木 12] 鈴木源吾，榎本俊文，小林伸幸，山室雅司，鬼塚真：時間制約を持つ寄り道経路探索システムの実現と評価，情処学論， Vol. 53, No. 2, pp. 857-867（2012） [高畠 06] 高畠泰斗，香田正人：1 クラス SVM と近傍サポートによる領域判別，オペレーションズ・リサーチ：経営の科学，Vol. 51, No. 11, pp. 677-682（2006） [徳永 14] 徳永陽子，数原良彦，佐藤吉秀，戸田浩之，鷲崎誠司：知名度の地理的広がりを考慮した実世界スポットの地域局所性推定，情処学論，Vol. 55, No. 9, pp. 2203-2215（2014） [土田 16] 土田崇仁，遠藤雅樹，加藤大受，江原遥，廣田雅春，横山昌平，石川博：Word2Vec を用いた地域やランドマークの意味演算，第 8 回データ工学と情報マネジメントに関するフォー ラム（DEIM 2016）論文集，pp. H5-1（2016） [王 11] 王佳な，野田雅文，高橋友和，出口大輔，井手一郎，村瀬洋： Web上の大量の写真に対する画像分類による観光マップの作成，情処学論，Vol. 52, No. 12, pp. 3588-3592（2011） [山田 19] 山田祥輝，北山大輔：ユーザの嗜好に基づく観光スポット説明文の個人化手法，第 11 回データ工学と情報マネジメント に関するフォーラム（DEIM 2019）論文集，pp. E3-1（2019） [Zhuang 15] Zhuang, C., Ma, Q., Liang, X. and Yoshikawa, M.:

Discovering obscure sightseeing spots by analysis of geo-tagged social images, Proc. 2015 IEEE/ACM Int. Conf. on Advances in Social Networks Analysis and Mining 2015, ASONAM’15, pp. 590-595, New York, NY, USA, ACM（2015） 2019年 2 月 25 日受理

著　者　紹　介

北山大輔（正会員） 2009年兵庫県立大学大学院環境人間学研究科博士後期課程修了．同年，日本学術振興会特別研究員 PD． 2011年兵庫県立大学環境人間学部特任助教．2012 年工学院大学情報学部助教．2016 年同大学准教授，現在に至る．博士（環境人間学）．Web 情報，地理情報の検索および推薦に関する研究に従事．情報処理学会，電子情報通信学会，日本データベース学会， ACM各会員．

観光情報推薦システム

1．は

じ め に

観光情報推薦システム

Recommender Systems for Tourist Information

北山 大輔

Keywords:

2．

観光スポットの抽出

3．

観光スポットの評価

>

4．

観光ルートの推薦

5．

観光の観点に基づく推薦支援

6．ま

と め

◇ 参 考 文 献 ◇

著 者 紹 介

じめに

北山　大輔

とめ

◇ 参考文献 ◇

著　者　紹　介