ジオタグ付き写真の撮影順序を考慮したホットスポットの分析

(1)

DEIM Forum 2016 H4-4

ジオタグ付き写真の撮影順序を考慮したホットスポットの分析

高木

有人

†

_{遠藤雅樹}

†,††

_江原

_遥

†

_廣田

_雅春

†††

_{横山昌平}

††††

石川

博

†

首都大学東京大学院システムデザイン研究科

〒 191–0065 東京都日野市旭が丘 6-6

††

職業能力開発総合大学校基盤ものづくり系

〒 187–0035 東京都小平市小川西町 2-32-1

†††

大分工業高等専門学校情報工学科

〒 870–0152 大分県大分市大字牧 1666

††††

静岡大学情報学科

〒 432–8011 静岡県浜松市中区城北 3-5-1

E-mail:

†

{

ehara,ishikawa-hiroshi

}

@tmu.ac.jp,

††

†††

††††

あらまし

近年，スマートフォンなどの普及により，ソーシャルメディアサイトに位置情報付きの写真が大量に投稿

されるようになった．これに伴い，これらの情報から，観光産業に有益な情報を抽出する研究が進んでいる．従来，

写真の位置情報を特徴量としたクラスタリング手法を用いて，多くの人々が写真を撮影している場所であるホットス

ポットを抽出する手法が提案されている．観光客は，限られた時間で観光スポットを回るという制約があるため，そ

の写真の撮影順序にはパターンがあることが予想される．撮影順序を考慮して，観光客の動線を明らかにすることで，

従来のホットスポット抽出手法では埋もれてしまうような小さなホットスポットでも，動線上は重要なものを抽出で

きる可能性がある．本論文では，人々の興味・関心をより正確に把握するために，写真の撮影順序に着目し，クラス

タリング手法を拡張することで，位置情報のみを用いた従来のクラスタリング手法では発見しにくいが観光客の動線

上重要な，小さなホットスポットの抽出を目指す．

キーワード

観光情報，空間分析，クラスタリング，Flickr

1. はじめに

スマートフォンや，デジタルカメラの普及に伴い，人々は，日々の行動や興味を写真に残し，Flickr（注 1）などのソーシャルメディアサイトを通じて共有している．写真は，撮影者の興味・関心を写しているものであると考えられるため，ソーシャルメディアサイト上の膨大な写真群は，多くの人々の興味・関心に関する情報の集約であると考えられる．また，写真が撮影可能なデバイスには，GPS (Global Positioning System)が搭載されていることが多く，撮影位置を表す情報として，緯度経度情報が付与された多数の写真がソーシャルメディア上に存在する．そのため，それらの膨大な写真を機械的に解析する事により，未知の注目スポットやイベントの発見が可能となる．これらの情報は，観光産業や，人々の行動の分析に応用されている[1], [2]．本研究において，大量の写真が撮影された地域をホットスポットと定義する．多くの人々が興味・関心のある領域はホットスポット周辺に存在するか，ホットスポットに含まれていると考えられる．これについて，例えば，観光客は，観光スポットや，主要な駅などの交通の要所になる場所を訪れた際に，それらの写真を撮影すると考えられる．そのため，それらの写真に付与された緯度経度情報を分析することで，多くの人々が写真を撮影している地点には，その周辺に人々の関心を集めるような観（注1）：http://www.flickr.com 図 1 DBSCAN のパラメータによるクラスタの変化光スポットや，交通の要所などの重要な施設が存在することがわかる．このようなホットスポットを抽出する研究は盛んに行われており[3], [4]，それらの研究では，写真に付与された緯度経度情報を特徴量として，DBSCAN [5]や，Mean shift [6]などの密度ベースのクラスタリング手法を適用することで，多くの人々が写真を撮影している地域をホットスポットとして抽出している．これらの密度ベースのクラスタリング手法により，ランドマークなどの有名な観光スポットが存在する地点や，主要な駅などの多くの人々が滞在する地点がホットスポットとして抽出される．しかし，ホットスポットを抽出する手法としてよく用いられるDBSCANは，クラスタ間の距離の閾値Epsと，データ数の閾値M inPという2つのパラメータを設定する必要があるため，最適なパラメータの調整が難しい．ここで，DBSCAN のパラメータによって，生成されるクラスタが変化する例を，

(2)

図1に示す．DBSCANのパラメータを大きな値に設定すると，図1の左のように，異なる意味を持つ複数の地域が隣接している場合，1つのホットスポットとして抽出される．また，観光スポットの範囲が狭い場合は，ホットスポットとして抽出されない．一方，パラメータを小さな値に設定した場合，図1の右のように，異なる意味を持つ複数の地域は，それぞれホットスポットとして抽出され，また，小さな観光スポットも抽出される．その代わりに，なぜそこがホットスポットとして抽出されたのか人手で確認してもわからない地点などの，ノイズであると思われるクラスタも，ホットスポットとして多く抽出されてしまう．これらのことについて，ノイズを抽出せずに，サイズの異なるホットスポットをクラスタとして抽出することは，DBSCANのパラメータ調整のみにより解決することが困難である．また，密度ベースのクラスタリング手法としては，

DBSCAN以外にも，P-DBSCAN [1]や，OPTICS [7]などの改良手法が提案されているが，この課題は解決していない．そこで，本研究では，写真の撮影順序を用いて従来のクラスタリング手法を拡張することで，従来手法で発見可能なホットスポットの抽出に加え，そのパラメータで抽出可能なホットスポットのサイズより小さくても，ユーザの動線において重要であると考えられる地域についてもホットスポットとして抽出する手法を提案する．ここで，本論文において，動線とは，ユーザが観光スポット間を移動する際の経路である．観光の際に，ユーザは，移動手段についてや，限られた時間の中で効率的に観光スポットを回るため，観光スポット間の移動の経路にはパターンがあることが予想される．そこで，撮影順序を考慮して，ユーザのホットスポット間の移動を考慮することで，従来のホットスポット抽出手法では埋もれてしまうような小さなホットスポットでも，動線上は重要なものを抽出できる可能性がある．本論文では，Flickrから取得した大量の写真に対して，提案手法を適用することで，サイズの異なるホットスポットを抽出し，可視化した結果をもとに考察を行った．本論文の構成は，以下のとおりである．2章では，関連研究についてまとめる．3章では，提案手法について述べる．4章では，本研究で行った実験結果について述べる．5章では，実験結果に対する考察を述べる．6章では，本論文のまとめ，および今後の課題について述べる．

2.

3. 提案手法

本研究では，ソーシャルメディアサイトに投稿された写真から，緯度経度情報を特徴量として，多くのユーザが写真を撮影しているホットスポットの発見，およびホットスポット間の関連性を抽出し，可視化する．このとき，ホットスポットの発見には写真に付与されている緯度経度情報のみを用いる．また，ホットスポット間の関連性の抽出には，緯度経度情報に加えて写真の撮影時間を特徴量としている． 3. 1 フォトストリームの分割 ユーザのフォトストリームを，写真の緯度経度情報，および，写真の撮影時間の差に基づいて分割することにより，ユーザの写真撮影枚数の差に対処する．写真の撮影時間として，写真に付与されたExifのDate and Time (original)を用いる．ユーザのフォトストリームにおいて，連続する2枚の写真の撮影地点の距離が閾値よりも大きい場合，そこでフォトストリームを分割する．次に，撮影時間に着目し，撮影時間の差が閾値よりも大きい場合，そこでフォトストリームを分割した．

(3)

図 2 連続して撮影された写真の撮影時間の差ると，1人の同じユーザが大量の写真を撮影している地点がホットスポットとして抽出されてしまう可能性がある．本研究では，多くの人々が写真を撮影している地点を，人々の関心が集まっている場所として抽出することを目標としているため，少数のユーザが撮影した大量の写真によって，ホットスポットが抽出されることは望ましくない．そのため，同一ユーザによって短期間に連続して撮影された写真群を，1枚の写真として扱うことで，ユーザの写真撮影枚数の差に対処する．また，ユーザは移動しながら連続して写真を撮影している場合があるため，写真の撮影地点の距離が離れている写真群を分割する必要がある．ここで，ユーザのフォトストリームを分割するための撮影時間の差の閾値の設定について述べる．2013年1月1日から 2014年12月31日の間にロンドン市内で撮影された，緯度経度情報が付与されている写真1,204,029枚をFlickrから収集し，連続して撮影された写真の撮影時間の差を算出した結果を図2 に示す．図2から，全ての写真のうち，約77.9%の写真が30 分以内に連続して撮影されていることがわかる．そのため，多くのユーザのフォトストリームは，30分程度が1つの区切りになっていることがわかるため，本論文では，30分をフォトストリームを分割するための撮影時間の閾値とする．また，撮影距離の差の閾値についても，撮影時間の差と同様に，連続して撮影された写真の撮影距離の差を算出した．その結果の平均値を求めたところ，およそ100mであったため，本論文では100m をフォトストリームを分割するための撮影距離の閾値とする．分割された写真群は，1枚の写真として扱う．ここで，写真群の緯度経度は，分割前の写真群の全ての写真の緯度経度の重心とする． 3. 2 ホットスポットの発見 はじめに，写真に付与されている緯度経度情報を用いて，ホットスポットを発見する．ホットスポットでは，多くの写真が撮影されているため，写真の撮影地点が密集している地域にホットスポットが存在する可能性が高い．密度が高い地域を推定するために，DBSCAN [5]を用いる．クラスタ間の距離の閾値Epsとデータ数の閾値M inPに基づいて，以下の接続関係で到達できる対象の集合で極大のものをクラスタとして抽出する． (1) xq∈ NEps(xp) (2) _|NEps| >_{= M inP}

ただし，NEps(xp) ={xp ∈ X||Dist(xp, xq) <= Eps}である． 2点間の距離Dist(xp, xq)は，ヒュベニの公式から算出する． Dist(xp, xq) = ((M×dP )×(M×dP ) + (N ×cos(P )×dR)×(N×cos(P )×dR))2 (1) このとき，Pは2点間の平均緯度，dPは2点間の緯度差， dRは2点間の経度差，M は午線曲率半径，Nは卯酉線曲率半径を表す．DBSCANによって抽出されたクラスタをそれぞれホットスポットとする． 3. 3 多様なサイズのホットスポット抽出 多様なサイズのホットスポットを抽出するために，DBSCAN のパラメータを大きな値と小さな値の2種類用意する．まず，それぞれのパラメータを用いて，写真の位置情報に基づいて DBSCANを適用する．それらの結果を統合することで，大きなホットスポットと小さなホットスポットを同時に抽出し，その結果に基づいてホットスポット間の関連性を抽出・可視化する． 3. 4 ホットスポット間の関連性の抽出 抽出されたホットスポット内の写真の撮影時間に注目し，各ユーザの写真の撮影順序を考慮することにより，ホットスポット間の関連性を抽出する．まず，分割した写真群に対して DB-SCANを適用し，多くのユーザによって撮影された写真が密集しているホットスポットを発見する．3. 3節で生成された各ホットスポットに含まれる写真を用いて，ユーザのフォトストリームの写真とホットスポットを紐付けることで，写真の撮影順序から，ユーザごとのホットスポット間の移動を把握することができる．各ホットスポットについて，そのホットスポットの直前・直後の移動数を集計する．集計された移動数の割合から，ホットスポット間の関連性を抽出し，関連性が高いと判断されたホットスポット間を可視化する．本論文では，各ホットスポットへの移動確率，および各ホットスポットからの移動確率の高いホットスポット間をそれぞれ可視化した．

4. 実験結果

提案した手法に基づいて，分割した写真群に基づいたホットスポットの発見，および，ホットスポット間の関連性の抽出を行い，可視化した．本論文では，Flickrから収集した写真を用いて実験を行った．本章で用いるデータセットは，3章で述べた，連続して撮影された写真の差の算出(図2)に用いたものを分割した写真群を使用した．緯度経度情報が付与された写真 461,474枚，ユーザ数は30,740人である． 4. 1 多様なサイズのホットスポット抽出 分割した写真群に対して，2種類のパラメータを用いて DB-SCANを適用する．それらの結果を統合することで，多様なサイズのホットスポット抽出を行う．図3は，分割された写真群に対し，2種類のパラメータを用いてDBSCANを適用し，それらの結果を統合し可視化したものの一部である．図3において，黒く塗りつぶされたホットスポッ

(4)

図 3 2 種類のパラメータを用いた DBSCAN 結果

図 4 図 3 におけるホットスポット間の関連性抽出結果 (各ホットスポットからの移動)

図 5 図 3 におけるホットスポット間の関連性抽出結果 (各ホットスポットへの移動)

トは，DBSCANのパラメータをEps = 0.0005，M inP = 800

に設定した結果である．赤く塗りつぶされたホットスポットは，

DBSCANのパラメータをEps = 0.00025，M inP = 400に設定した結果である．

図3において，赤く塗りつぶされたホットスポットの多くが，黒く塗りつぶされたホットスポットに内包されているが，

Trafalgar Squareや，Somerset House，Borough Marketなどの周辺には，赤く塗りつぶされたホットスポットのみが抽出されている．また，Buckingham PalaceやBig Benの周辺には，黒く塗りつぶされたホットスポットのみが抽出されている．このことから，1種類のパラメータのみでは抽出されなかったホッ図 6 図 5 の結果における縮小図トスポットが，複数抽出できていることがわかる．そのため，2 種類のパラメータを用いた結果を統合することで，より正確なホットスポットの分析が可能であると考えられる． 4. 2 ホットスポット間の関連性の抽出 4. 1節において抽出されたホットスポットに含まれる写真から，ユーザごとに写真の撮影順序を考慮してホットスポット間の関連性を抽出し，可視化する．図3における各ホットスポット内の写真の撮影順序から，ユーザごとにホットスポット間の移動を集計し，ホットスポット間の関連性を抽出した．各ホットスポットからの移動確率が高いホットスポット間の可視化結果の一部を図4に，各ホットスポットへの移動確率が高いホットスポット間の可視化結果の一部を図5に示す．図4，図5において，ホットスポットを結ぶ線が各ホットスポット間の関連性を示している．各ホットスポットと線で結ばれたホットスポットは，他のホットスポットよりもその間の移動数が多いことから，それらのホットスポットは関連性が高いと考えられる．例えば，ロンドンの代表的なランドマークの1つとして，Big BenやLondon Eyeが挙げられる．これらは徒歩で移動できる範囲に存在し，多くの人々が連続して訪れていると考えられる．また，これらの間には，Westminster Bridgeという大きな橋が存在し，Big BenやLondon Eyeの撮影スポットにもなっている．以上のことから，このような場所に抽出されたホットスポットは，関連性が高くなると考えられる．また，本研究ではホットスポット間の移動の図4，図5より，各ホットスポット間の移動の前後でユーザの移動先が異なっていることがわかる．そのため，前後の移動にそれぞれ注目し，可視化することで，ホットスポット間の関連性をより正確に示すことが可能であると考えられる．

5. 考

察

5. 1 前後の移動の比較 図4と，図5において，各ホットスポットの前後の移動にそれぞれ注目し，ホットスポット間の関連性を可視化した．以下で，これら2つの結果の比較を行い，考察を述べる．図4，図5におけるホットスポットAは，Somerset House と呼ばれる大きな建物で，現在は商店やイベントホールなどが

(5)

図 7 ホットスポット間の関連性 (各ホットスポットからの移動) (Eps = 0.0005，M inP = 800) 図 8 ホットスポット間の関連性 (各ホットスポットへの移動) (Eps = 0.0005，M inP = 800) 入っている歴史的建造物である．この場所は，音楽，映画，芸術，ファッションなどに関するイベントが1年中盛んに行われており，また，11月から1月の間は，中庭が大きなスケートリンクになることで有名で，多くの人々が訪れる観光施設となっている．このSomerset Houseについて，図4では，Covent Gardenというショッピングモール周辺のホットスポットと線が結ばれており，関連性が抽出されている．これは，Covent Gardenを訪れたユーザの多くが，その次にSomerset House

に訪れていることを示している．一方，図5では，他のホットスポットと線が結ばれておらず，関連性が抽出されていない．これは，Somerset Houseを訪れたユーザが次に訪れる場所は，ユーザごとにばらばらであるため，関連性が抽出されなかったと考えられる．次に，図6に，図5の結果を縮小したものを示す．図6の左側に位置する，Heathrow Airportの中に，ホットスポットが抽出された．このホットスポットは，DBSCANのパラメータをEps = 0.00025，M inP = 400に設定した際に抽出されたものである．図4の結果では，他のホットスポットと線が結ばれておらず，Heathrow Airportへ向かう直前にユーザが訪れる場所は抽出されなかった．一方，図5では，Buckingham Palace周辺のホットスポットと線が結ばれており，Heathrow Airportから多くのユーザが訪れている場所が，関連性の高いホットスポットとして抽出されていることがわかる．これ図 9 ホットスポット間の関連性 (各ホットスポットからの移動) (Eps = 0.00025，M inP = 400) 図 10 ホットスポット間の関連性 (各ホットスポットへの移動) (Eps = 0.00025，M inP = 400) は，Heathrow Airportへ向かう直前にユーザが訪れる場所は，ユーザによってばらばらであること，および，多くのユーザが，Heathrow Airportの次に同じ場所へ移動しているためと考えられる．このことより，Heathrow Airportに着いた人々は，まず初めにBuckingham Palaceを訪れることが多いが， Heathrow Airportへ行く際は，それぞれ様々な場所から向かうということがわかる．以上のことから，各ホットスポットの前後の移動にそれぞれ着目し，それらの関連性を可視化することで，より正確にユーザの動線を把握し，多様なサイズのホットスポットを抽出することができると考えられる． 5. 2 多様なサイズのホットスポットの抽出 本論文の提案手法では，多様なサイズのホットスポットを抽出するために，2種類のパラメータを用いてDBSCANを適用した結果を統合し，ホットスポット間の関連性を抽出している．この提案手法の有用性を示すために，1種類のパラメータのみのDBSCANを適用し，ホットスポット間の関連性を抽出した場合との比較・考察を行う．図7，図8は，パラメータを，Eps = 0.0005，M inP = 800 に設定しDBSCANを適用した結果である．図9，図10は，パラメータを，Eps = 0.00025，M inP = 400に設定しDBSCAN

を適用した結果である．また，図7，図9は，各ホットスポットからの移動確率が高いホットスポット間の関連性を，図8，図

(6)

10は，各ホットスポットへの移動確率が高いホットスポット間の関連性を抽出し，可視化した結果である．これらの図と，2

種類のパラメータのDBSCAN結果を統合した結果である，図

4，図5を比較することで，2種類のパラメータを用いることの有用性を示す．

まず，Big Benや，London Eyeの周辺については，いずれの結果においても，ホットスポット，および関連性の両方が抽出されている．これは，これらのランドマークが比較的近い距離にあり，徒歩で移動しながら写真を撮影しているユーザが多いためであると考えられる．一方，4. 2節で述べた，図6で示されるHeathrow AirportとBuckingham Palace間の関連性は，

1種類のパラメータのみを用いたDBSCANの結果では抽出されていない．これは，2種類のパラメータを用いたDBSCAN 結果を統合した際に初めて発見された関連性であり，パラメータが異なることによって，ホットスポット内の写真数に差が生じたことが原因であると考えられる．以上のことから，提案手法により，2種類のパラメータを用いたDBSCANの結果を統合し，ホットスポット間の関連性を抽出することで，多様なサイズのホットスポットや，より正確なホットスポット間の関連性の抽出が可能であると考えられる．

6. おわりに

本論文では，ソーシャルメディアサイトから取得した大量の写真に付与されている位置情報を用いて，ユーザの興味・関心をより正確に把握するために，2種類のパラメータを用いた DBSCANを適用することで，サイズの異なるホットスポットを抽出した．加えて，抽出されたホットスポット内の写真の撮影順序を考慮することにより，ユーザのホットスポット間の移動を分析し，前後の移動それぞれについて，ホットスポット間の関連性を抽出し，可視化した．その結果，2種類のパラメータを用いてホットスポット間の関連性を抽出することで，意味があると考えられる，多様なサイズのホットスポットをより正確に抽出することができた．今後の課題として，可視化システムの改善や，DBSCANのパラメータ，およびホットスポット間の関連性を抽出する際の閾値の調整などが挙げられる．例えば，本論文では，DBSCAN のパラメータであるEps，およびM inP をどちらも変化させて実験を行っている．しかし，Epsを固定し，M inPのみを変化させることによって，より多様なサイズのホットスポット抽出が可能になることが考えられる．また，ホットスポットの発見に必要なデータが限定されるため，クラスタリング手法の実行速度が速くなることも考えられる．

謝

辞

本研究(の一部)は傾斜的研究費(全学分)学長裁量枠戦略的研究プロジェクト戦略的研究支援枠「ソーシャルビッグデータの分析・応用のための学術基盤の研究」による文献

[1] Slava Kisilevich, Florian Mansmann, and Daniel Keim.

P-dbscan: A density based clustering algorithm for explo-ration and analysis of attractive areas using collections of geo-tagged photos. In Proceedings of the 1st International

Conference and Exhibition on Computing for Geospatial Research & Application, COM.Geo ’10, pp. 38:1–38:4,

New York, NY, USA, 2010. ACM.

[2] Christian Sengstock and Michael Gertz. Latent geographic feature extraction from social media. In Proceedings of the

20th International Conference on Advances in Geographic Information Systems, SIGSPATIAL ’12, pp. 149–158, New

York, NY, USA, 2012. ACM.

[3] David J. Crandall, Lars Backstrom, Daniel Huttenlocher, and Jon Kleinberg. Mapping the world’s photos. In

Proceed-ings of the 18th International Conference on World Wide Web, WWW ’09, pp. 761–770, New York, NY, USA, 2009.

ACM.

[4] Motohiro Shirai, Masaharu Hirota, Shohei Yokoyama, Naoki Fukuta, and Hiroshi Ishikawa. Discovering multi-ple hotspots using geo-tagged photographs. In Proceedings

of the 20th International Conference on Advances in Ge-ographic Information Systems, SIGSPATIAL ’12, pp. 490–

493, New York, NY, USA, 2012. ACM.

[5] Martin Ester, Hans-Peter Kriegel, J¨org Sander, and Xiaowei Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. In Proc. of 2nd

Interna-tional Conference on Knowledge Discovery and Data Min-ing (KDD-96), Vol. 96, pp. 226–231, 1996.

[6] Yizong Cheng. Mean shift, mode seeking, and clustering.

Pattern Analysis and Machine Intelligence, IEEE Transac-tions on, Vol. 17, No. 8, pp. 790–799, Aug 1995.

[7] Mihael Ankerst, Markus M. Breunig, Hans-Peter Kriegel, and J¨org Sander. Optics: Ordering points to identify the clustering structure. In Proceedings of the 1999 ACM

SIG-MOD International Conference on Management of Data,

SIGMOD ’99, pp. 49–60, New York, NY, USA, 1999. ACM. [8] Yiyang Yang, Zhiguo Gong, and Leong Hou U. Identifying points of interest by self-tuning clustering. In Proceedings

of the 34th International ACM SIGIR Conference on Re-search and Development in Information Retrieval, SIGIR

’11, pp. 883–892, New York, NY, USA, 2011. ACM. [9] Yuri Almeida Lacerda, Robson Gon¸calves Fechine Feitosa,

Guilherme ´Alvaro Rodrigues Maia Esmeraldo, Cl´audio de Souza Baptista, and Leandro Balby Marinho. Compass clustering: A new clustering method for detection of points of interest using personal collections of georeferenced and oriented photographs. In Proceedings of the 18th Brazilian

Symposium on Multimedia and the Web, WebMedia ’12, pp.

281–288, New York, NY, USA, 2012. ACM.

[10] Shohei Yokoyama, Ágnes Bogárdi-Mészöly, and Hiroshi Ishikawa. Ebscan: An entanglement-based algorithm for discovering dense regions in large geo-social data streams with noise. In Proceedings of the 8th ACM

SIGSPA-TIAL International Workshop on Location-Based Social Networks, LBSN’15, pp. 7:1–7:10, New York, NY, USA,

2015. ACM.

[11] Bart Thomee and Adam Rae. Uncovering locally charac-terizing regions within geotagged data. In Proceedings of

the 22nd international conference on World Wide Web,

pp. 1285–1296. International World Wide Web Conferences Steering Committee, 2013.

[12] Masaharu Hirota, Motohiro Shirai, Hiroshi Ishikawa, and Shohei Yokoyama. Detecting relations of hotspots using geo-tagged photographs in social media sites. In Proceedings of

Workshop on Managing and Mining Enriched Geo-Spatial Data, GeoRich’14, pp. 7:1–7:6, New York, NY, USA, 2007.

ジオタグ付き写真の撮影順序を考慮したホットスポットの分析

DEIM Forum 2016 H4-4