1.は
じ め に
観光旅行は,多くの人々が経験するものとなってきて いる.総務省統計局が行っている「社会生活基本調査」*1 では,1 年間の生活行動についての調査内容の中で「旅行・ 行楽」を入れている.2016 年に行われた調査によると, 日本国民の 73.5%が旅行・行楽に 1 回以上行っており, 1泊以上の国内観光旅行には 48.9%の人が,海外旅行に は 7.2%の人が行っていると報告されている. 観光旅行を計画する際,旅行者はどのような行動をと るのだろうか.旅行のための情報収集に関して,2013 年に goo リサーチによって行われた「国内旅行と情報メ ディア」に関する調査*2によると,旅行計画の作成には 「宿泊予約サイト・旅行サイト(26.0%)」,「自治体や観 光協会の公式ホームページ(22.5%)」とオンラインの 情報メディアが用いられることが多い.その一方で,旅 行に行くきっかけとなる情報としては「以前に行ったこ とがありもう一度行きたいと思って(30.5%)」,「家族・ 知人から直接聞いて(19.6%)」,「以前から行ってみた いと思って(10.7%)」,「パンフレットを見て(7.4%)」, 「テレビや雑誌の特集を見て(6.3%)」のようにオフラ イン由来の動機が目立っている.これらのことより,観 光するエリアの決定はオフラインで得られる情報が主で あり,エリア内での行動を詳細に決定するためにオンラ インメディアの情報が用いられるという行動を思い浮か べることができる.実際,Sanderson ら [Sanderson 04] や Gravano ら [Gravano 03] の研究結果によれば,検索 エンジンを用いた Web 検索の 20%近くは特定の場所に 関係する問い合わせであるといわれており,Web 上で観 光情報を検索するユーザが求める情報を適切に提示する ことは情報検索・情報推薦システムにとって重要なタス クであると考えられる. 観光旅行に対する満足度の調査として,2003 年に内 閣府により行われた「自由時間と観光に関する世論調 査」*3がある.その中で 1 泊以上の国内旅行の満足度の 調査が行われた.この調査では「大いに満足」,「どちら かといえば満足」を合わせると 51.4%であり,「どちら かといえば不満」,「大いに不満」を合わせると 2.7%と なっており,観光旅行自体に対して不満を感じにくいと いうのも観光ドメイン特有の特徴といえる.なお,残り は「わからない(0.4%)」,「1 泊以上の国内旅行に行か なかった(45.5%)」である. 観光情報推薦というトピックとしては,観光するエリ ア自体を推薦することもターゲットになり得るが,本稿 ではエリアを決定した後に,エリア内での行動決定を支 援するための情報推薦に注目する.また,推薦システム という文脈での狭い意味の観光情報推薦としては,個人 化された観光情報の提供を指す.一方,広い意味の観光 情報推薦としては,ガイドブックにあるような「おすす めの観光情報」という不特定多数のユーザを対象とした ものも,観光情報推薦と呼べるであろう.本稿では個人 化の有無にかかわらず,観光情報検索も含め,広い意味 で観光情報推薦を捉える. 観光情報推薦を実現するにはいくつかの課題が考えら れる.ここでは,観光情報を観光スポット,観光ルート, 観光の観点に分けて説明する.あるスポットは,従来そ うでなかったとしても,特定のイベントによって観光ス ポットとなることがあり得る.例えば,ある映画の撮影 場所になったとすると,それ以後観光スポットとなるこ とがある.そのため,推薦対象となる観光スポットを自 動的に抽出する技術が必要となる.次に,観光スポット が推薦に値するスポットであるかを評価する必要があ る.また,観光とはある特定のスポットに行くだけでは なく,あるエリアの複数のスポットを巡ることも多い. そのとき,どのようなルートで行動するかというルート 推薦も必要であろう.一般に,観光は未知のエリアに行観光情報推薦システム
Recommender Systems for Tourist Information
北山 大輔
工学院大学Daisuke Kitayama Kogakuin University.
Keywords:
tourist information, recommender systems, review analysis, spot extraction and evaluation. 「推薦システム」*1 https://www.stat.go.jp/data/shakai/2016/index. html(2019/2/14 参照)
*2 https://research.nttcoms.com/database/data/
くことが多いが,先述の「国内旅行と情報メディア」に 関する調査においても,旅行に行くきっかけとなる情報 としては「以前に行ったことがありもう一度行きたいと 思って」が 1 位であるように,一度訪れたエリアに再訪 することも考えられる.代表的なのは,春に花見を楽し んだエリアで,秋に紅葉を楽しむような場合である.こ のように,同じ観光地であっても提示する観点によって, 異なるアイテムとして取り扱うこともあり得る.本稿で は,2 章:観光スポット抽出,3 章:観光スポットの評価, 4章:観光ルートの推薦,5 章:観光の観点に基づく推 薦支援として,主な取組みを紹介する.
2.
観光スポットの抽出
じゃらんや TripAdviser などの観光情報サイトでは, あらかじめ定められた観光スポットが存在し,そのス ポットについての情報が掲載されている.しかしながら, このような観光情報サイトでは,新たな観光スポットや, 突発的に出現した観光スポットにすばやく対応できな い.このように,観光情報においては,いつどの地点が 観光スポットとしての価値をもつかわからず,あらかじ め定めておくことに限界がある.そのため,観光スポッ ト抽出は観光情報推薦において重要な技術となる. 2・1 観光スポット抽出アプリケーションの例 本章では,観光スポットの抽出に関して,著者らが 取り組んだ穴場スポットの動的抽出アプリケーション AnabaMiner [Kitayama 16]を例に基本的な考え方を説 明する.図 1 は AnabaMiner のユーザインタフェース であり,観光スポット検索のために「夜景」というキー ワードを入力して実行した結果である.淡網ピンは穴場 スポット度の高い(知られていないが価値が高い)スポッ トであり,濃網ピンは被閲覧数の高い(人気である)写 真があるスポットである.SNS などにおける位置情報付 きのコンテンツを用いて,その座標に基づいてクラスタ リングすることで,コンテンツが多く投稿される地域を 特定するというのが基本的な手法になる.AnabaMiner においては,位置情報付きの SNS として写真共有サイ トである Flickr を用いた.地域的に偏って写真投稿が行 われるということは,その地域に「景色が良い」,「共有 したいオブジェクトがある」などの観光的要素があると 考えられる. アプリケーションの処理の流れを説明する.まず,画 面に表示された地図領域内に存在し,かつ入力キーワー ドをタグとしてもつ写真を N 件取得する.AnabaMiner ではリアルタイムに動作させることを考え,N=1 500 で構築した.次に,それらの写真データの位置情報をも とにクラスタリングを行い,クラスタをスポットとして 抽出する.各スポットの評価については 3 章で取り扱う. 2・2 DBSCAN によるクラスタリングと粒度制御 クラスタリングアルゴリズムに関しては種々のアルゴ リズムを適応可能であるが,AnabaMiner では地理情 報のクラスタリングで一般的な DBSCAN アルゴリズム を用いた.ただし,表示領域に応じてスポットの粒度が 異なると考えられるため,データの分布に基づいてパラ メータを決定する.例えば,花火大会のスポットを抽出 する場合,東京都全域で抽出したいスポットは大会の開 催場所であるのに対し,ある花火大会の領域で抽出した いスポットは観覧場所というように,領域の広さに応じ て粒度は異なる. DBSCAN [Sander 98]は,クラスタの密度を基準に クラスタリングを行うため,高密度なクラスタのみを 抽出することが可能となる.DBSCAN は,クラスタ間 の距離のしきい値 Eps とクラスタのデータ数のしきい 値 MinP の二つのしきい値をもつ.ある点 x から,距離 Eps 内にある点集合を近傍 NEps(x)と定義し,以下の接 続関係を満たすとき,同じクラスタに分類する. (1)y ∈ NEps(x) (2)|NEps(x)| MinPただし,NEps(x)= { y ∈ X|D(x, y) Eps} である.ここ
で,D(x, y)は x の座標と y の座標からユークリッド距 離を返す関数である.つまり,ある座標から半径 Eps 内 に MinP 以上の座標集合が存在するなら,同じクラスタ に分類する.AnabaMiner では領域の広さによって粒度 を変更するため,距離のしきい値 Eps をデータの分布に よって変更し,MinP は 3 に設定した.Eps を以下の式 で定義する. Eps=α× |P| p∈ PD(p, p–) (1) ここで,P は得られた位置情報付き写真の集合であり, p – はその平均座標である.|P|(=N)は取得した写真の 総数であるため,Eps は各写真の平均座標からの距離の 平均となる.αは粒度の大きさを調整する重みであり, AnabaMinerでは 0.067 を用いている. 赤いピンは穴場スポット度の高い(知られていないが価 値が高い)スポットであり,青いピンは被閲覧数の高い(人 気である)写真があるスポットである. 図 1 AnabaMiner のインタフェース
2・3 スポット抽出に関する他のアプローチ スポットを抽出する手法およびそのスポットの利用方 法としては,さまざまなアプローチがある.王ら [王 11] の研究では,ジオタグ付き写真をクラスタリングし,各 クラスタが風景を表していると考え,そのアイコンをマッ プ上に表示する手法を提案している.スポット抽出とし ては,位置情報に対して最短距離法による階層的クラス タリングを用い,しきい値θ〔km〕で分割を行っている. Crandallら [Crandall 09] は,大量の写真とそれに付 随した位置情報やタグに基づいてクラスタリングし,人 気のスポットやランドマークを抽出する手法を提案して いる.また,Crandall らは同一撮影者のデータから撮 影ルートの軌跡が得られることも示している.スポット の抽出の核として,やはり密度に基づくクラスタリング の Mean Shift 法 [Comaniciu 02] が用いられている.
白井ら [白井 14] や Hirota ら [Hirota 14] は,位置情 報付き写真を用いて多量の写真が撮影された複数の地点 を可視化,また,撮影方向を利用しランドマークの形 状の抽出手法を提案している.スポット抽出としては, 同じく密度に基づくクラスタリングである P-DBSCAN [Kisilevich 10]が用いられ,クラスタ内の写真の撮影方 向を用いてクラスタ間を関係付けている. 最後に直接的なスポット抽出ではないが,スポット抽 出に関連する技術として,スポットの領域推定について 触れる.奥ら [Oku 15] が,観光スポット領域内の tweet をもとに,観光スポットの特徴を抽出する手法を提案し ている.ここでは,あるスポットの領域を特定する手法 として,One-Class SVM [高畠 06] を用いている.スポッ トの領域形状を抽出する意味では,白井らと同じである が,奥らの手法では対象スポット名を直接指定し,領域 を得ることができる.
3.
観光スポットの評価
3・1 穴場スポットとしての評価 観光スポットの評価指標としては,さまざまなものが 考えられる.一般的な指標として,知名度や人気度が考え られるだろう.もちろん,観光レビューサイトにおける 星の数というのも評価指標である.指標を組み合わせる ことで,新たな指標をつくることもできる.例えば,レ ストランのコストパフォーマンスを考える際には,その 評価値と平均予算を用いて評価することが考えられる. 本章でも引き続き,AnabaMiner を例に観光スポット の評価を説明する.AnabaMiner では,穴場である度合 いを表現するために穴場スポット度を定義している.穴 場とは,「一般の人にあまり知られていない,良いとこ ろ*4」,「人のあまり知らない,良いところ*5」というよ うに定義されることが多い.そのため,知名度と評価値 によって穴場スポット度(GUS:Good Unknown Spot)を算出可能であると考えた.あるスポット siに対する穴 場スポット度を以下の式で定義する. GUS(si)= Evaluation(si) Recognition(si) (2) 知名度 Recognition(si)とは,そのスポットが一般に よく知られている度合いであり,例えばスポットに対す る訪問数やそのスポットに対する言及数が相当する.そ れに対して,評価値 Evaluation(si)とはそのスポット が評価される度合いであり,そのスポットの被閲覧数や お気に入り登録数,N 段階評価の評価値が相当する.す なわち,知名度の割に評価を集めることが可能なスポッ トが穴場スポットである.そのため,そのスポットが何 らかの影響で有名になり知名度が高くなるとそのスポッ トは穴場スポットではなくなる.図 2 は穴場スポット度 の概念図である.足跡の数が知名度を表しており,星の 数が評価値を表している.スポット A と B を比較する と A のほうが穴場スポット度が高くなる様子を表してい る. 知名度や評価値は,適応するサービスにおいて利用可 能なものを選択する必要がある.また,スポット自体の 定義も適応するサービスによって変化する.例えば,レ ストラン検索における穴場店舗の評価を行う場合であれ ば,スポット自体は店舗を単位とすることが可能であり, 知名度は店舗への訪問数,評価値はレストラン評価サイ トの評価値を用いることが考えられる.一方,観光にお ける穴場スポットの評価を行う場合であれば,観光ス ポットは領域をもつ場合があり,特定の施設をスポット とするのは困難となる.そのような場合,2 章で述べた ように,まず Twitter などのマイクロブログや Flickr な どの写真共有サイトのジオタグ付きデータを用いて,地 理的な分布から対象となるスポットを特定することが必 要となる.このような場合,知名度はそのスポットの領 域に対する訪問数を利用することが可能であり,評価は そのジオタグ付きデータにつく評価値(Twitter であれ ばお気に入り数や re-tweet 数,Flickr であればお気に入 り数や被閲覧数)を用いることができるであろう. 3・2 穴場スポット度の実装 本節では,写真共有サイトのデータに対する穴場ス ポット度の実装について述べる.本稿では,クラスタリ Spot A� ������t�o� ������ ���� ���o���t�o�� Spot B� ������t�o� ������ ���� ���o���t�o��
>
図 2 穴場スポット度の概念 *4 デジタル大辞泉の穴場の項目より.*5 大辞林の穴場の項目より.ングにより抽出したスポットに含まれる写真データのメ タデータを用いて知名度と評価値を定義する.写真のメ タデータとして,被閲覧数,お気に入り数,コメント数, 撮影者,タグといったものが考えられるが,このうち, 被閲覧数,お気に入り数,コメント数は,スポットその ものというよりは写真に対するメタデータであると考え られる.その点,撮影者は実際にその場所を訪れて写真 を撮影した人であり,スポットを評価することが可能で ある.タグはスポットを表現するタグも存在するが,多 種多様である. これらのことより,写真共有サイトにおけるスポット の知名度としては,実際にその場所を訪れて撮影した人 数を知名度として用いることが妥当であると考えた.一 方,評価値としては,写真に写っているものに対しての 評価が高ければスポットの評価が高いと考えられるた め,被閲覧数,お気に入り数,コメント数を用いること が妥当である.ここでは,1 回の Flickr API アクセスで 取得可能な被閲覧数を用いて評価値を算出する.以下の 式によりあるスポット piの知名度と評価値を定義する. Recognition(si)=User(si) (3) Evaluation(si si )= | | p∈ si View(p) (4) ここで,User はスポット si中の写真を撮影した撮影 者数を返す関数である.また,View はある写真 p の被 閲覧数を返す関数である.評価値 Evaluation(si)を被 閲覧数の平均としているのは,評価の高いスポットの場 合,ある特定の写真の評価が高いわけではなく,平均的 に高いと考えられるためである.Recognition(si)は穴 場スポット度としては分母となるため,値が小さいほど 良いことになる.しかし,Recognition(si)が 1 の場合, ある人物がたまたまその場所でたくさん撮影したために スポットとして抽出されたに過ぎない.そのためしきい 値を設け,一定の人数以上でなければ算出を行わない工 夫が必要である. 3・3 スポット評価に関する他のアプローチ AnabaMinerと同様にスポット自体の評価の高さや 知名度に着目する研究は多い.Zhuang ら [Zhuang 15] は,地理情報付きの写真を用いて,そのスポットの無名 度の評価および景観価値の評価を行う手法を提案してい る.撮影者のそのスポットに対する熟知度合いを出すこ とで,スポットの無名度を算出している.また,景観と しての評価を行うための評価式を提案している. 観光スポットは地理的なオブジェクトであるため,空 間的な広がりに着目して評価する研究もある.徳永ら [徳永 14] は,blog 記事の地名表現の共起関係を用いる ことで,スポットの地理的広がりと知名度の局所性を分 析する手法を提案している.この手法により,局所的に よく知られているスポットを発見することが可能とな る. 一方,観光スポットの評価は季節によって変動すると いうことに着目した研究もある.熊野ら [熊野 13] は, 撮影スポットの旬のシーズンを抽出する研究を行った. 旬のシーズンを抽出する際に,バースト性に着目した指 標を提案している.この指標は,その地域において注目 するシーズンが短い,またはシーズン期間内に撮影者数 が多ければ大きくなるように定義されており,この値に よりシーズンを特定する. このように,観光スポットの評価において,一般的な 観点,空間的な観点,時間的な観点という評価軸が存在 し,どのような見方をするかでその評価値は変動するの が観光スポットの評価の特徴である.
4.
観光ルートの推薦
観光ルート推薦では,ユーザの嗜好に合致する観光プ ランを旅行前に推薦するアプローチや,現地で動的に変 化するユーザの要求や時間的・金銭的制約に対応して推 薦するアプローチが考えられる.本章では主に,後者の 現地で動的に観光ルートを推薦するアプローチとして, 著者らが取り組んだ観光スポットに対するユーザの滞在 時間の差異に基づく経路探索システム [Kitayama 15] に ついて紹介する. 4・1 滞在時間の差異に基づく経路探索 事前にユーザが立てた観光プランがあったとする.こ のとき,訪問するスポットにはそれぞれ予定滞在時間が 存在する.しかし,実際に現地で行動すると予定滞在時 間どおりに滞在するとは限らない.このとき,予定滞在 時間に対して長く,もしくは短く滞在するのは,観光ス ポットへの興味の有無によるものとユーザの歩き方や観 光の仕方などの特性によるものの二つの理由が考えられ る.図 3 は観光スポットとその滞在時間の模式図である. スタートとゴールの間に四つの観光スポットがあり,色 はスポットの種類を示しているとする.一つ目の観光ス ポット w を出発するとき,元のプランでは観光スポット x へ向かう予定であった.しかし,観光スポット w で 10 分早く行動したとすると,時間に余裕ができるので,観 光スポット x ではなく観光スポット y を推薦することも できる.また,このユーザは同じ種類の他の観光スポッ トでも早く行動する可能性が考えられる.そこで,さら に時間に余裕ができるため,観光スポット x や y へ向か う経路ではなく z を経由して y へ至る経路を推薦するこ とができる. そこで,観光スポット間に関係を定義し同種のスポッ トには同様に影響を与え,異種の観光スポットには少し の影響を与えるようにすることで適切な各観光スポット の予定滞在時間を算出できると考えた.本手法の手順を以下に述べる.まずユーザが,始点と 終点,到着時間を設定しそれに基づき観光経路を推薦す る.その後,推薦した経路を参考にユーザが行動を行い, 観光スポットへ移動し,その滞在時間により新たな観光 経路を推薦することを繰り返す.このとき,残りのコス トを再計算し,設定した到着時間の残り時間以内に行動 可能な経路を再推薦する.以下に手順をまとめる. (1)ユーザが始点,終点,到着時刻を設定する. (2)始点から終点の到着時間に基づいた全体の時間か ら合計経路コストを引いた数値が正の値で 0 に近い 経路を推薦する. (3)ユーザが現在地から次の観光スポットへ移動する. (4)次の観光スポットの予定コストとユーザの滞在コ ストの差異に基づき,新たな予定コストを算出する. (5)新たな予定コストと移動コストを用いて,新しい 経路を検索し現在時間から到着予定時間に行ける経 路を推薦する. (6)観光地と残り時間がある限り(3)∼(5)を繰り返す. (7)推薦できる経路が時間をオーバしているときは直 接,終点の観光地へ経路を推薦する. 4・2 差異に基づくフィードバック 滞在中の観光スポットにおける行動時間(滞在コス ト)を抽出し,残りの観光地の予定コストに反映させて 経路を再推薦する.滞在コストを分子,予定コストを分 母とすることで,予定された時間に対するユーザ行動時 間の比をフィードバック係数として用いる.この係数を スポットの種類に応じて増幅パラメータを変更して用い る.フィードバック係数を求める式は次のとおりである. x=A× ⎟n ⎠ ⎞ ⎜ ⎝ ⎛ y x (5) Aはある観光スポットの予定滞在時間であり,n は増 幅パラメータである.また,x は滞在スポットの予定コ スト,y は滞在スポットの滞在コスト,xは再計算後の 予定コストである. 本システムでは,滞在中のスポットと同種のスポット に対し,増幅パラメータは 1.0 とした.一方,異種のスポッ トに対しては,増幅パラメータは 0.6 とした.スポット の類似度を計算可能である場合には,この増幅パラメー タは類似度に比例するように設定することもできる. 図 4 は,寺に行った後に資料館に行き,他の予定コス トに影響を与える例を示した図である.予定コスト(E) が 30 分だったところ,滞在コスト(A)が 40 分と少し 遅く行動している.そのため,他のスポットの予定滞在 時間が増加する様子を表している.ただし,スポットの 種類に応じて増加率が変化する. 4・3 時間制約の計算方法 本システムの主眼は,ユーザの意図に基づいて観光ス ポットの予定コストを再計算し経路を推薦し直すことで ある.そのため,時間制約の計算は簡潔に行っている. 元の観光プランにおける始点から終点までの移動時間を 含めた滞在時間の合計に最も近くなる,予定コスト再計 算後の経路を推薦する. 図 5 は,観光経路の例で,区間時間に最も近いコスト の経路を表示している.出発時点の時間を 14 時 20 分, 到着時間を 16 時 30 分とすると,滞在時間は 130 分で ある.図中の予定コストは一つ目の観光スポットを訪問 し終えた時点で再計算後の予定コストである.X, Y, Z を たどる経路と U, V, Z をたどる経路を比較すると,X, Y, Zをたどる経路のほうが元のプランの 130 分に近く,推 薦度合いが高くなる. 4・4 経路推薦の他のアプローチ 観光ルートの推薦に関する研究を紹介する.大沢ら [大沢 10] や鈴木ら [鈴木 12] は,設定した経路に対して, 寄り道箇所を追加した場合の経路探索アルゴリズムを提 案している.大沢らは,運転者が入力した寄り道条件に 合致する POI(Point Of Interest)を通る最適な経路を 発見するために逐次拡大法というアルゴリズムを用いて おり,ダイクストラ法をベースにした逐次探索法と A* アルゴリズムをベースにした逐次探索法で実験を行って 図 3 観光スポットとその滞在時間の模式図 図 5 予定コストを再計算した後の経路推薦 図 4 滞在時間の差異によるフィードバック例
いる.鈴木らは,逐次探索法とタイムセール寄り道探索 を用いて時間の制約を満たす解を算出する手法を提案し ている.また,太田ら [太田 18] は,寄り道するスポッ トの Serendipity 度合いを算出することで,思いがけな い出会いにつながる寄り道経路を推薦する手法について 検討している.これらのアプローチは,観光スポットを 追加したい際に経路を含めて観光プランを再推薦するよ うなアプローチである. 奥山ら [奥山 11] の研究では,写真に付与された位置 情報を連続して考慮することにより,移動軌跡と考える. この移動軌跡を連結させることにより,新しい観光ルー トをユーザに推薦する手法を提案している.Arase ら [Arase 10]は写真の地理情報,時間情報を用いて,過去 の旅行経路のマイニングを行っている.利用者が旅行の 目的や期間,旅行のテーマを入力することで,旅行計画 を自動生成することを可能とした.これらのアプローチ は,あらかじめもっともらしい観光ルートを抽出してお き,その中から旅行者にマッチする観光ルート推薦する という考え方である. 観光においては,その景観を考慮した経路推薦という アプローチも考えられる.川俣ら [川俣 18] はドライブ ルートの推薦として,景観を考慮した経路探索を行う手 法を提案し,このアプローチに取り組んでいる.この手 法では,田園系,山林系,水辺系,都市系という四つの 要素からなる景観ベクトルを道路に付与し,それらの重 視度合いを変更した経路を探索することで,ユーザに適 した経路を推薦することを可能としている.
5.
観光の観点に基づく推薦支援
観光情報推薦の最終的なゴールは,その観光地に足を 運ばせることであろう.そのゴールに対し,単におすす めの観光スポットや観光ルートを提示するだけでは不十 分となる.旅行に行くきっかけとなる情報としては,1 章で述べたように,すでに旅行者に動機があったり,魅 力を提示する知人の存在が重要となる.そこで,旅行者 がもつ要求への近さや,魅力を感じる観光の観点を提示 できれば,観光情報推薦のゴールに一歩近づくことであ ろう. 5・1 Paragraph Vector モデルによる観光スポットの 特徴ベクトル算出 観光の観点の類似性を示すことができれば,旅行者 のもつ観点とスポットの観点を結び付けることが可能 となる.そのために,観光スポットの特徴を適切に表 現できることが望ましい.著者らは,観光スポットのレ ビューにはその観点が含まれていると考え,レビュー文 を学習データとした,観光スポットの分散表現を獲得す る手法に取り組んだ [Kitayama 18].また,分散表現を 獲得することで,スポットやエリアの意味的演算を行う ことが期待できる.例えば,東京都内において「梅田 BIGMAN*6」と同様に待ち合わせ場所として著名な観 光スポットを検索したい場合には,“梅田 BIGMAN−大 阪府+東京都”のようなベクトルの加減算を行い,演算 結果のベクトルとコサイン類似度が高い観光スポットと して「ハチ公の銅像」や「西郷隆盛像」のような東京都 内において待ち合わせ場所として著名な観光スポットを 抽出することが期待できる. 文章の分散表現を獲得する Paragraph Vector モデル は,Mikolov らによって考案された単語の特徴ベクトル 学習手法である Word2Vec[Mikolov 13] を拡張し,Le ら [Le 14]によって提案された文書の特徴ベクトル学習手 法である.Paragraph Vector モデルでは「同じ文脈で出 現する単語は類似した意味をもつ」というハリスの分布 仮説 [Harris 54] に基づき,「ある文書中である単語列が 与えられたとき,次に出現する単語を予測する」という タスクをニューラルネットワークに学習させることで, 文脈や単語の語順を考慮した文書の特徴ベクトルを生成 することができる.Paragraph Vector モデルでは,生成 した文書の特徴ベクトルを文書の分散表現と呼ぶ. 観光スポットへの Paragraph Vector モデルの適応手 法として著者らは,ある観光スポットに対して投稿され た全レビュー文を 1 文書とみなし各文書を Paragraph Vectorモデルの学習データとして各スポットの特徴ベ クトルを生成する手法を提案している.図 6 に示すよう に,「ハチ公の銅像」の特徴ベクトルを生成する際には 「ハチ公の銅像」に対して投稿されたすべてのユーザレ ビューを連結したものを「ハチ公の銅像」に対応する 1 文書とみなし,Paragraph Vector モデルによって学習し たこの文書の分散表現を「ハチ公の銅像」の特徴ベクト 表 1 「ハチ公の銅像」と類似度が高いスポット スポット名 類似度 地域 カテゴリ ハチ公の銅像 − 渋谷区 観光名所 モヤイ像 0.7825 渋谷区 観光名所 ハチ公ファミリーレリーフ 0.6197 渋谷区 その他 西郷隆盛像 0.5719 台東区 観光名所 梅田 BIGMAN 0.4992 大阪市 観光名所 大館駅前ハチ公像 0.4675 大館市 観光名所 *6 梅田 BIGMAN は大阪における有名な待ち合わせスポットで ある. 図 6 Paragraph Vector モデルによる「ハチ公の銅像」の特徴 ベクトル生成例ルとする.表 1 は,国内の代表的な観光情報サイトであ るじゃらんに掲載されている 43 759 件の観光スポット に対して投稿された 1 481 831 レビューを学習データに 用いた Paragraph Vector モデルにおいて,「ハチ公の銅 像」の特徴ベクトルとコサイン類似度が高い特徴ベクト ルをもつ観光スポット上位 5 件である. 「ハチ公の銅像」は待ち合わせ場所として全国的に著 名な観光スポットであり,これは「ハチ公の銅像」に付 与された「渋谷区」などの地域や「観光施設・名所巡り」 などのカテゴリーだけでは予測することが難しい「ハチ 公の銅像」に対する観光の観点であると考えられる.表 1より,「ハチ公の銅像」の類似スポットとして「モヤ イ像」,「西郷隆盛像」,「梅田 BIGMAN」などの待ち合 わせ場所として同様に著名な観光スポットが抽出されて いる.これらのスポットはレビュー中に待ち合わせにつ いての記述を多く含んでおり,Paragraph Vector モデル がこのようなレビュー中の記述に基づきスポットの観光 の観点を考慮した特徴ベクトルを生成できていると考え られる. 5・2 観光の観点の利用例 観光の観点を用いることで,旅行者に対し推薦結果の 納得性を向上できる可能性がある.この点について,最 近著者らが取り組んでいる二つの取組みを紹介する.一 つは,既訪問スポットによる未訪問スポットの説明 [潘 19]であり,もう一つは観光スポット説明文の個人化 [山田 19] である. 既訪問スポットによる未訪問スポットの説明では,旅 行者が過去に訪れたことがある観光スポットにどのよう な観点で類似しているのかということを,これから旅行 に行く未訪問エリアの観光スポットの説明として用いる ことで,そのエリアの観光スポットの概要を想起しやす くすることを目的とする.アイディアとしては,まず先 の Paragraph Vector モデルを用いて,履歴中の観光ス ポットと未訪問エリアの観光スポットの類似度を算出す る.最も高い類似度をもつ観光スポットを対応付け,共 通する特徴語を提示することで,未訪問エリアの観光ス ポットでも旅行者の知る観光スポットの特定の観点によ く似た特徴をもつことを知ることができる. 観光スポット説明文の個人化では,もう少し細かい 粒度によるアプローチを考えている.旅行者が過去に訪 れた観光スポットの履歴は,旅行者が好む観光の観点を 含んでいると考えられる.そこで,履歴中の観光スポッ トに付随する個々のレビューをクラスタリングすること で,履歴中で共通して出現する観点を抽出する.具体的 には,先の Paragraph Vector モデルをレビュー単位で 適応し,レビューの分散表現を得てクラスタリングする. 個々のクラスタとしては,特定のスポットのレビューが 偏っているクラスタや,複数のスポットのレビューをバ ランス良く含んでいるクラスタが抽出される.このとき, 履歴中で共通して出現する観点を旅行者の好む観点と捉 え,後者の複数のスポットのレビューをバランス良く含 んでいるクラスタが高くなるようにスコアを計算し,旅 行者の嗜好として抽出する.何らかの推薦・検索アルゴ リズムで列挙された観光スポットのレビューに対し,ク ラスタの重心ベクトルとの類似度とクラスタのスコアを 用いて,個人化説明文として適切なレビューを選択する. このことにより,提示された観光スポットに対して,旅 行者が好む観点での説明が表示され,推薦・検索結果の 選別が容易になることが期待できる. 5・3 観光の観点の抽出と推薦支援に関する 他のアプローチ このような観光の観点を抽出し,推薦・検索の支援を 行う他のアプローチについて紹介する.著者らは観光ス ポットのレビュー文をその観光スポットの学習データと したため,Paragraph Vector モデルを用いているが,土 田ら [土田 16] は Word2Vec により,直接的に地域を表 す単語を分散表現で表し,意味演算を可能としている. 石野ら [石野 14] はガイドブックなどでは知ることが 難しい観光スポットの詳細な情報を効率良くユーザに提 示するための情報拡張システムを開発している.この研 究では,観光スポットの観点として「見る」や「食べる」 というタイプを抽出し,その観点に適合する blog 記事 を関連付けることで情報を拡張する.伊達ら [伊達 11] は blog 記事から観光スポットの印象を表す単語を抽出 し印象に基づく観光スポット推薦手法を提案している. この研究では TF-IDF 法をもとに印象を表す単語の抽出 を行い,過去に訪れた観光スポットと印象が類似する観 光スポットを推薦する.
6.ま
と め
本稿では,観光情報推薦について著者の取組みを中心 に,観光スポット抽出,観光スポットの評価,観光ルー トの推薦,観光の観点に基づく推薦支援に注目して紹介 した. 観光というトピックは,地域活性化や,インバウンド 需要の最大化,国際的イベントの招致など,さまざまな 理由から需要が高まってきている.また旅行者個人とし ても,ある程度のまとまった時間やお金を消費する,重 要な余暇活動の一つである.1 章で紹介したように,観 光体験は満足方向に振れやすい.観光地側としても「来 てくれさえすれ満足させる自信がある」ことが多いであ ろうし,旅行者側としても「行けばきっと楽しいだろう な」という思いをもつことは多いであろう.観光情報推 薦が果たすべき役割は,旅行者の背中を押し,その架け 橋となることであろう.本稿がその架け橋の一助となれ ば幸いである.◇ 参 考 文 献 ◇
[Arase 10] Arase, Y., Xie, X., Hara, T. and Nishio, S.: Mining people’s trips from large scale geo-tagged photos, Proc. 18th ACM Int. Conf. on Multimedia, MM’10, pp. 133-142, New York, NY, USA, ACM(2010)
[Comaniciu 02] Comaniciu, D. and Peter, M.: Mean shift: A robust approach toward feature space analysis, IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol. 25, pp. 281-288 (2002)
[Crandall 09] Crandall, D. J., Backstrom, L., Huttenlocher, D. and Kleinberg, J.: Mapping the World’s photos, Proc. 18th Int. Conf. on World Wide Web, WWW’09, pp. 761-770, New York, NY, USA, ACM(2009)
[伊達 11] 伊達賢志,北須賀輝明,糸川 剛,有次正義:旅先での観 光地選び支援のためのブログを用いた観光地の印象抽出手法, マルチメディア,分散協調とモバイルシンポジウム 2011 論文集, pp. 1566-1579(2011)
[Gravano 03] Gravano, L., Hatzivassiloglou, V. and Lichtenstein, R.: Categorizing web queries according to geographical locality, Proc. 12th Int. Conf. on Information and Knowledge Management, CIKM 2013, pp. 325-333(2003)
[潘 19] 潘 健太,北山大輔:ユーザの既訪問スポットの位置付けに 基づく未訪問スポットの説明手法,第 11 回データ工学と情報 マネジメントに関するフォーラム(DEIM 2019)論文集,pp. H7-2(2019)
[Harris 54] Harris, Z. S.: Distributional structure, Word, Vol. 10, No. 2-3, pp. 146-162(1954)
[Hirota 14] Hirota, M., Shirai, M., Ishikawa, H. and Yokoyama, S.: Detecting Relations of Hotspots Using Geo-tagged Photographs in Social Media Sites, Proc. Workshop on Managing and Mining Enriched Geo-Spatial Data, GeoRich’14, pp. 7:1-7:6, New York, NY, USA, ACM(2014)
[石野 14] 石野亜耶,藤井一輝,藤原泰士,前田 剛,難波英嗣,竹 澤寿幸:旅行ブログエントリと質問応答コンテンツを利用した 旅行ガイドブックの情報拡張,人工知能学会論文誌,Vol. 29, No. 3, pp. 328-342(2014) [川俣 18] 川俣光司,奥 健太:景観クラスタリングに基づく景観ア ウェアルート推薦システム,第 10 回データ工学と情報マネジメ ントに関するフォーラム(DEIM 2018)論文集,pp. D1-1(2018) [Kisilevich 10] Kisilevich, S., Mansmann, F. and Keim, D. A.: PDBSCAN : A density based clustering algorithm for exploration and analysis of attractive areas using collections of geo-tagged photos, in Liao, L., ed., Proc. 1st Int. Conf. and Exhibition on Computing for Geospatial Research and Application, New York, N.Y, Association for Computing Machinery, Article Number, 38(2010)
[Kitayama 15] Kitayama, D., Ozu, K., Nakajima, S. and Sumiya, K.: A Route Recommender System Based on the User’s Visit Duration at Sightseeing Locations, pp. 177-190, Springer International Publishing, Cham(2015)
[Kitayama 16] Kitayama, D.: Extraction method for anaba spots based on name recognition and user’s evaluation, Proc. 18th Int. Conf. on Information Integration and Web-based Applications and Services, iiWAS’16, pp. 12-15, New York, NY, USA, ACM(2016)
[Kitayama 18] Kitayama, D., Yoshida, T., Nakajima, S. and Sumiya, K.: A tourist spot search system based on paragraph vector model of location and category tags using user reviews, Ao, S.-I., Kim, H. K., Castillo, O., Chan, A. H.-S. and Katagiri, H., eds., Trans. on Engineering Technologies, pp. 211-225, Singapore, Springer Singapore(2018)
[熊野 13] 熊野雅仁,岩渕 聡,小関基徳,小野景子,木村昌弘:集 合知に基づいたポピュラー撮影スポットに関する旬シーズンの 可視化,芸術科学会論文誌,Vol. 13, No. 4, pp. 218-228(2013) [Le 14] Le, Q. V. and Mikolov, T.: Distributed representations of sentences and documents, Proc. 31st Int. Conf. on Machine Learning, ICML 2014, pp. 1188-1196(2014)
[Mikolov 13] Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S. and Dean, J.: Distributed representations of words and
phrases and their compositionality, Advances in Neural Information Processing Systems, Vol. 26, pp. 3111-3119(2013) [Oku 15] Oku, K. and Hattori, F.: Mapping geotagged tweets to tourist spots considering activity region of spot, Matsuo, T., Hashimoto, K. and Iwamoto, H., eds., Tourism Informatics, Vol. 90 of Intelligent Systems Reference Library, pp. 15-30, Springer Berlin Heidelberg(2015) [奥山 11] 奥山幸也,柳井啓司:写真撮影の位置軌跡を利用した旅 行支援システム,第 3 回データ工学と情報マネジメントに関す るフォーラム(DEIM 2011) 論文集,pp. F7-6(2011) [大沢 10] 大沢 裕,藤野和久:前処理を必要としない道路ネットワー ク上での最短寄り道経路探索アルゴリズム,信学論(D),情報・ システム,Vol. 93, No. 3, pp. 203-210(2010) [太田 18] 太田竜人,Siriaraya, P., 坂本 瞭,北山大輔,中島伸介: SNSデータを用いた寄り道スポットの Serendipity スコア算出 方法,第 10 回データ工学と情報マネジメントに関するフォーラ ム(DEIM 2018)論文集,pp. P6-5(2018)
[Sander 98] Sander, J., Ester, M., Kriegel, H.-P. and Xu, X.: Density-based clustering in spatial databases: The algorithm GDBSCAN and its applications, Data Min. Knowl. Discov., Vol. 2, No. 2, pp. 169-194(1998)
[Sanderson 04] Sanderson, M. and Kohler, J.: Analyzing geographic queries, Proc. SIGIR 2004 Workshop on Geographic Information Retrieval(2004) [白井 14] 白井元浩,廣田雅春,石川 博,横山昌平:ジオタグ付 き写真を用いた関心領域と撮影スポットの発見,信学論(D), Vol. J97-D, No. 4, pp. 835-844(2014) [鈴木 12] 鈴木源吾,榎本俊文,小林伸幸,山室雅司,鬼塚 真:時 間制約を持つ寄り道経路探索システムの実現と評価,情処学論, Vol. 53, No. 2, pp. 857-867(2012) [高畠 06] 高畠泰斗,香田正人:1 クラス SVM と近傍サポートに よる領域判別,オペレーションズ・リサーチ:経営の科学,Vol. 51, No. 11, pp. 677-682(2006) [徳永 14] 徳永陽子,数原良彦,佐藤吉秀,戸田浩之,鷲崎誠司: 知名度の地理的広がりを考慮した実世界スポットの地域局所性 推定,情処学論,Vol. 55, No. 9, pp. 2203-2215(2014) [土田 16] 土田崇仁,遠藤雅樹,加藤大受,江原 遥,廣田雅春,横 山昌平,石川 博:Word2Vec を用いた地域やランドマークの意 味演算,第 8 回データ工学と情報マネジメントに関するフォー ラム(DEIM 2016)論文集,pp. H5-1(2016) [王 11] 王 佳な,野田雅文,高橋友和,出口大輔,井手一郎,村瀬 洋: Web上の大量の写真に対する画像分類による観光マップの作成, 情処学論,Vol. 52, No. 12, pp. 3588-3592(2011) [山田 19] 山田祥輝,北山大輔:ユーザの嗜好に基づく観光スポッ ト説明文の個人化手法,第 11 回データ工学と情報マネジメント に関するフォーラム(DEIM 2019)論文集,pp. E3-1(2019) [Zhuang 15] Zhuang, C., Ma, Q., Liang, X. and Yoshikawa, M.:
Discovering obscure sightseeing spots by analysis of geo-tagged social images, Proc. 2015 IEEE/ACM Int. Conf. on Advances in Social Networks Analysis and Mining 2015, ASONAM’15, pp. 590-595, New York, NY, USA, ACM(2015) 2019年 2 月 25 日 受理