• 検索結果がありません。

Flickr Chen [] () k-means Crandall [3] Mean Shift Kisilevich p-dbscan[4] Yang Self-tuning Spectral Clustering[5] [6] [7] Foursquare [8] Chen [] ()POI

N/A
N/A
Protected

Academic year: 2021

シェア "Flickr Chen [] () k-means Crandall [3] Mean Shift Kisilevich p-dbscan[4] Yang Self-tuning Spectral Clustering[5] [6] [7] Foursquare [8] Chen [] ()POI"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

ソーシャル観光マップ

-

ソーシャルデータからの観光スポット抽出

-荒川豊

1,a)

Tatjana Scheffler

2

Stephan Baumann

3

Andreas Dengel

3

概要:本論文では,位置情報付きのソーシャルデータを分析に基づくソーシャル観光マップの構築に向け, 都市の人気スポットをその正確な名前と共に抽出する仕組みを提案する.提案では,人気スポットの名前 を推定する手法として,Foursquareなどの複数のチェックインサービスから得られる情報を用いることで, 従来のタグ分析手法と比較して,正確な表記の名前を得ることを可能とする.また,分析対象面積に対す る十分なデータサイズについて検証し,実際に収集した膨大なデータの中からサンプリングした小さな データセットからでも,十分な結果が得られることを示す.最後に,従来方式(枚数による順位付け+タ グ分析による意味付け)と提案方式(枚数と時間分散による順付け+チェックインサービスを用いた意味 付け)による観光スポット上位10件の比較した結果を示す.

Social Tourist Map

-Discovering Popular Point of Interests for Tourism from Social

Data-A

RAKAWA

Y

UTAKA1 , a)

T

ATJANA

S

CHEFFLER2

S

TEPHAN

B

AUMANN3

A

NDREAS

D

ENGEL3

1.

Introduction

近年,GPSを搭載したスマートフォンが広く普及し,位 置情報サービスがこれまで以上に活発になっている.位置 情報サービスとは,位置に応じて適切な情報を提供する サービスであり,その場の地図を表示するだけでなく,近 隣のレストラン推薦や位置に応じた辞書切り替え[1]など 位置を利用して関連情報を推薦するさまざまなものを含む. 推薦するためには,各情報がその位置情報を保持する必要 があり,近年ではレストラン情報であっても,店名や電話 番号,営業時間と並んで,その緯度・経度情報がデータベー スに登録されるようになっている.写真に関しては,写真

SNS(Social Network Service)であるFlickr*12006年か

ら提供していることから,スマートフォンが普及する前の 1 奈良先端科学技術大学院大学

Nara Institute of Science and Technology

〒630–0192,奈良県生駒市高山町8916-5

2 University of Potsdam

Karl-Liebknecht-Str. 24-25, 14476 Potsdam, Germany

3 DFKI GmbH

Trippstadter Strasse 122, 67663 Kaiserslautern, Germany

a) [email protected] *1 http://www.flickr.com/ 写真にも位置情報が含まれた写真が多く蓄積されている. 近年では,Twitterや写真にはジオタグと呼ばれる位置情報 のタグを付与することが可能となっており,一般的なユー ザが生成する個々のデータも位置情報を含むようになって きている.その最たる例は,「チェックイン」と呼ばれる SNSによって生成されるデータである.Foursquareによっ て広く普及したチェックインは,利用者が訪問地に足あと を残し,その履歴によってバッジなどのインセンティブを 受け取るものであるが,現在はFacebookやGoogleなども チェックイン機能を提供しており,日々,位置情報の足あ とが蓄積されている. 本論文は,こうしたSNS上の足あとを分析して,さまざ まな都市の観光地図を自動的に生成する仕組みについて取 り扱う.ソーシャルデータを分析して観光地図を生成する 研究は,Chenら[2]が2009年に取り組んでいる.この研 究は,Flickr上の位置情報付き写真をデータとして,(1)ク

ラスタリングによるPOI(Point of Interest)の抽出,(2)画

像分析による抽出されたPOIに対する意味付け,(3)クラ

スタの代表画像選出,(4)人気度を考慮した地図上への画像

配置,から構成されている.同時期に,Crandallら[3]は,

「マルチメディア,分散,協調とモバイル (DICOMO2013)シンポジウム」 平成25年7月

(2)

全世界を対象として収集した膨大な数のFlickr画像から, 地球上で最も写真が撮られるエリアやそのエリアにおける 人気スポットの抽出を行なっている.この研究では,Chen ら[2]が,(1)に関してk-means法を用いていたのに対し て,Crandallら[3]は,従来,画像分析や物体追跡によく 用いられていたノンパラメトリッククラスタリング法の1 つであるMean Shift法を適用している.クラスタリング手 法に関しては,その後もKisilevichらによるp-DBSCAN[4]

や,YangらによるSelf-tuning Spectral Clustering[5]なども 研究されている. その後,これら研究の発展として,都市内におけるクラス タ間の遷移をマルコフモデルで解析し,フォトグラファー の興味と時間制約を満たしたルートを推薦する手法[6]や, ユーザのルートのランキング手法[7],Foursquareの足あと から観光ルートを分析する手法[8]などルート分析と推薦 に関する種々の研究がなされている. そうした背景の中で,本論文では,Chenら[2]における, (2)POIに対する意味付けと,(4)人気度を考慮した地図上 への画像配置,に焦点を当て,(1)に関しては従来手法を 用い,(3)に関しては今回は取り扱わない.(4)に関しても 画像配置そのものではなく,配置する際に考慮する観光ス ポットの人気度をいかに定量化するかという点に焦点を絞 る.さらに,このような地図を作成するに当たり,分析の 高速化を測るため,十分なデータセットのサイズについて も分析する. POIに対する意味付けは,写真そのものを分析しその被写 体から推定する手法(Visual Information)[2]と,写真に付 与されたタグ情報から推定する手法(Textual Information) [6],その両者を組み合わせた手法[3]がこれまで提案さ れている.写真に映る被写体からPOIを推定する手法は, SIFT特徴[9]を用いて,当該写真と前もって構築された画 像データベース内の画像群との類似度を評価するものであ る.画像分析によるPOIの推定は,教師データの選定や その学習コストが膨大である上,教師データに含まれない 未知のPOIの推定は行えないという点から,本論文では

Textual Informationだけを用いる.しかしながら,Flickrの

各写真に付与されたタグ情報は,不正確なものが多く,タ グ名をそのまま観光スポット名として利用することはでき ない. 一方,画像サイズに反映するPOIの人気度に関しては, Chenら[2]は人間の主観に基づいて,人気度を反映して, 画像サイズを変化させるとどのように見えるかということ を示しているだけであり,具体的な手法は提示されていな い.また,Crandallら[3]のランキングは,すべて写真の 枚数に基づいており,写真が多く取られた場所を人気エリ ア/スポットと定義しているが,旅行とは関係のないイベン ト(特に近年のソーシャルでの情報伝播を狙ったイベント や,フォトエキスポといった展示会など)などで写真がた またま多く撮影されることもあり,「旅行」を主眼に考えた 場合,必ずしも枚数がそのスポットの人気度を表している とは限らない. そこで本論文では,ソーシャルデータからの観光スポッ ト抽出へ向けて,以下の3つの研究項目を行う. 十分なデータセットサイズの調査 これまで我々は,Flickrからのべ430万枚以上(5都 市)の位置情報付き写真を収集している.最も多いエ リアは,ニューヨークとサンフランシスコでそれぞれ 約110万枚,次にロンドンが約100万枚,パリが83 万枚,ベルリン30万枚である.これらのデータを分 析するためには計算コストが高いため,分析する前 に,適切なデータセットに絞り込むことが重要である と考えている.Crandallら[3]は,単一の撮影者によ る同じ場所での連射の影響を排除するため,同一撮影 者によって30分以内に撮影された写真を排除してい る.これに加えて,我々は,付与された位置情報の粒 度*2と,写真に付随するタグの有無を考慮して,さら に絞り込む.さらに,その中からランダムに数万件∼ 数十万件をサンプリングし,それぞれの上位10クラ スタの中心点の精度とそれが後述の意味付けにどのよ うに影響するかを分析する. チェックインとの紐付けによるPOI推定 従来の写真そのものに付与されたタグ情報を用いる のではなく,写真と同じく位置情報が付与されたデー タであるチェックイン情報から,そのクラスタが何を 意味しているのかを推定する手法を提案する.提案手 法では,Foursquare,Facebook,Googleという3大メ ジャーチェックインサービスを利用し,クラスタの中 心点に対して提示される複数のチェックイン候補(ア ルゴリズムはブラックボックスであるが,各社ともに 人気度に基づいた候補が提示されている)の中から,そ のクラスタが示すPOIを推定する.推定精度を改善す るために,カテゴリによる候補の絞り込みをおこなっ た上で,各サービスから取得した上位3件のチェック イン候補,合計9件を,各候補間の文字列類似度,お よび,全候補中の単語の出現頻度による重み付けによ り,順位付けすることによって,最も確からしいPOI を推定する. 時間分散を考慮した人気度の定量化 「観光」は古くからあるものであり,人気観光スポッ トは今も昔も観光スポットである可能性が高い.そこ で,各クラスタ内の写真の撮影時間に着目し,その撮 影間隔が定常的であるほど,そのクラスタは定番観光 スポットであると判断することができると考えてい る.提案手法では,写真の枚数に加えて,撮影間隔の *2 Flickr上では,Accurarcyが1∼16で定義されており,16が最も 細かい粒度を示す

(3)

分散を加味することで,観光スポットの定常的人気度 を定量化する. 以降,第2章において,本論文で利用するさまざまな関 連技術について説明し,第3章で提案手法について述べる. 第4章でいくつかの検証例を示し,第5章で総括する.

2.

関連技術

ここでは本論文に関連する研究として,クラスタリング手 法であるMean Shift法,従来論文におけるタグ情報の順位 付け手法,並びにチェックイン候補を取得するためのリバー スジオコーディングとそのAPI(Application Programming

Interface)について説明する. 2.1 Mean Shift Mean shift(MS)法[10]は,主に画像分析[11]や物体追 跡に用いられてきたクラスタリング手法であるが,Crandall らが緯度・経度からなる空間情報に対しても適用可能であ ることを示して[3]からは,いくつかの研究[6], [7]で空 間情報のクラスタリングに用いられている.空間情報の クラスタリング手法としては,このMean Shift法以外に

も,Kisilevichらによるp-DBSCAN[4]や,Yangらによる

Self-tuning Spectral Clustering[5]などが提案されているが,

これらが目的としているPOIの大小や形状の違いを考慮す

る必要がないことから,パラメータが少ないを重視し,本

研究ではMean Shift法を適用する.

Mean Shift法では,bandwidth wと呼ばれる1つのパラ

メータのみを設定し,ある観測点の点xから半径wに含ま れる点の重心(平均値)を次の観測点として,密度分布関 数の極大値を検出する.観測点xにおけるMean Shiftベク トルをmは下記のように定義できる. mh,G(x) =n i=1xigk (x − xi)/wk 2 ∑n i=1gk (x − xi)/wk 2 − x (1) この式において,xiは半径wに含まれる観測点を示し,gGで指定されたカーネル関数を表す.カーネル関数とし ては,一様カーネル[3]やガウシアンカーネル[6]が用い られており,本研究では後者のガウシアンカーネルを採用 する.これは,観光スポットの中心部ほど写真が多いとい う仮定に基づいている. Mean Shift法は,任意の観測点x(1)から計算を始め,下 記の式に基づいて観測点を移動しながら,Mean Shiftベク トルが0に収束するまで計算を繰り返す. x(i+1)= xi+ mh,G(xi) (2) 空間情報分析においては,Bandwidth w = 0.001は約 100m,w = 1は約100kmを表す.Crandallら[3]は,全世 界から都市を抽出する際に1,各都市のスポットを抽出す るのに0.001としている.他にもYangら[5]がスポットの 抽出を目的として,0.001としている.また,倉島ら[6]は

1 Reverse Geocoding APIの比較

名前 POIの登録 カテゴリ指定 出力アルゴリズム

Foursquare API Yes Yes Popularity

Facebook Graph API No No Popularity

Google Places API No Yes Prominence or Distance

ルート分析と推薦に関する研究であるため,0.0001(10m) と極めて細かい粒度としているが,本研究では,スポット の抽出に相当するため,0.001を用いる. 2.2 タグ情報の順位付け手法 Flickrの画像に付随するタグ情報の評価[3], [6]について 説明する.タグ情報の評価とは,Mean Shift法によって生 成された各クラスタに含まれるすべてのタグの中から,そ のクラスタの特徴を表すタグを選出することである.選出 にあたり,各タグV のスコアT (V )を下記の評価式によっ て求める. T (V ) = P (m| V ) = N (V, m) N (V ) (3) ここでN (V, m)は,クラスタmにおいてタグV を含む写 真の枚数であり,N (V )はすべての写真の中でタグV を含 む写真の枚数である.この式により,クラスタmに多く含 まれるタグのうち,全体のクラスタにも多く含まれるタグ のスコアが小さくなるため,タグスコアが大きいほどクラ スタmにだけよく現れるタグとなる.ただし,ノイズ(ク ラスタ特有であるが,スラングなど有用性の低い単語)を 排除するため,各クラスタにおいてタグV を含む写真の枚 数が5%以下のタグに関しては評価の対象から除いている.

2.3 Reverse Geocoding APIs

位置情報サービスの普及に伴い,文字列として住所を地 図上に投影可能な座標(緯度・経度)情報に変換する,ジオ コーディング(Geocoding)と呼ばれるサービスが普及して きている.同時に,座標情報から,住所,あるいはスポッ ト名や店名といった人間が認識可能な文字列情報に変換す る,リバースジオコーディング(Reverse Geocoding)とい うサービスも普及している.これらのサービスは,一般的 に,Web API(Application Programming Interface)を介して 提供されており,一般ユーザからも利用することが可能と なっている.特に,“GeoNames*3“OpenStreetMap*4は 有名な公開サービスであり,巨大な位置情報データベース が無償で公開されている. また,近年では「チェックイン」という,その場所に来 たことをSNS上で知らせるサービスが広く普及している. これは,米Foursquare社*52009年に始めたサービスであ るが,現在ではGoogleやFacebookといったメジャーな企 業が同様のサービスを提供している.この「チェックイン」 *3 http://www.geonames.org/ *4 http://www.openstreetmap.org/ *5 http://foursquare.com/

(4)

サービスでは,ユーザに対して,その位置におけるチェック イン対象となる候補を一覧表示する.その際に用いられる のが前述したリバースジオコーディング機能であり,より ユーザの所望するチェックイン候補を上位に提示した方が 利便性が向上することから,各社データベースおよび選出ア ルゴリズムを独自に保有している.表1は,有名なリバー スジオコーディングAPIを比較したものである.これ以外

にも,Deら[12]が用いているYahoo GeoPlanet API*6や,レ

ストラン情報なども網羅したYelp API*7OpenStreetMaps

のデータを利用したCloudMade API*8など,さまざまなAPI

が存在するが,サービスの持続性*9などを踏まえ,これら 3つのAPIを比較対象として選択している. まず,Foursquareは,初期データとして前述のGeoNames のデータを用いているが,利用者が新規にPOIを登録でき るという特徴がある.チェックインの種類や回数に応じて バッジと呼ばれるインセンティブを付与したり,あるPOI に対して最も頻繁にチェックインするユーザにMayerと 呼ばれる称号を与えたり,新規POIの追加に対してポイン トを付与したりと,ゲーミフィケーションによって,デー タベースに登録されていない未知のPOIがユーザによっ て追加される仕組みになっており,2013年3月のニュー ス*10によると5000万件以上のPOIが登録されている.し かしながら,ユーザによって登録されるPOI情報は,その 粒度や表記も統一することができないため,過大なPOI情 報が必ずしも良いとは限らない.鉄道駅を例に取ると,あ る駅では乗車ホームごとにPOIが分割されていたり,複 数の路線が乗り入れる駅では駅名に路線名まで含んでい ることも多い.また,海外の例では,フランクフルト空 港(Frankfurt International Airport)という1つのPOIに対

して,“Frankfurt Airport”, “Frankfurt Flughafen”, “Flughafen

Frankfurt am Main”と様々な言語が混在していることもあ

る.それに対して,Facebookが提供するGraph APIは,ユー

ザによる新規登録を許可せず,商用であるFactual*11社の

データベースを利用しており,データ量は相対的に少ない ものの,比較的正確性の高い情報のみが登録されている印

象である.ちなみに,Googleが提供するPlaces APIの基盤

データは不明であるが,Google Mapsの資産を活用してい ると考えられる. もう1つの大きな相違点は,カテゴリ指定が可能か否か である.膨大なPOIデータベースから適切な情報を抽出し *6 http://developer.yahoo.com/geo/geoplanet/ *7 http://www.yelp.com/developers/ *8 http://cloudmade.com/ *9 巨大なデータを維持と継続的な情報更新には膨大な費用がかかる ため,いつの間にかサービスを停止あるいは会社が消滅している 場合が多い *10 http://www.blogherald.com/2013/03/11/ foursquare-possibly-switching-focus-from-check\ \-in-to-api-data/ *11 http://www.factual.com/ 2 カテゴリの設定の例 Foursquare()内は意味 Google

4fceea171983d5d06c3e9823 (Aquarium) Aquarium

4d4b7104d754a06370d81259 (Art & entertainment) Art gallery

4deefb944765f83613cdba6e (Historic site) Political

4bf58dd8d48988d181941735 (Museum) Museum

4bf58dd8d48988d182941735 (Theme park)

4bf58dd8d48988d1df941735 (Bridge)

4bf58dd8d48988d163941735 (Park) Park

4bf58dd8d48988d161941735 (Lake) Place of worship

4bf58dd8d48988d129941735 (City hall) City hall

4bf58dd8d48988d1f9931735 (Road) Sublocality

4bf58dd8d48988d12d941735 (Monument landmark) Establishment

4bf58dd8d48988d17b941735 (Zoo) Zoo

4bf58dd8d48988d164941735 (Plaza) Neighborhood

4d954b16a243a5684b65b473 (Rest area)

4bf58dd8d48988d129951735 (Train station)

5032792091d4c4b30a586d5c (Concert hall)

4bf58dd8d48988d15a941735 (Garden)

4bf58dd8d48988d184941735 (Stadium)

4bf58dd8d48988d132941735 (Charch) Church

4bf58dd8d48988d1f2931735 (Performing arts venue)

4bf58dd8d48988d1fa941735 (Farmers Market)

たい場合,ユーザのコンテキストに応じてカテゴリを限定 することによって精度を改善できると期待できる.今回取

り上げた3つのAPIの中で,このカテゴリを指定可能な

APIはFoursquare APIとGoogle Places APIであるが,両者 のカテゴリ分類は大きく異なるという問題がある.具体的 には,Foursquareのカテゴリは,9つの主カテゴリと,そ の下に含まれる多数のサブカテゴリから構成される階層 的なカテゴリとなっており,主カテゴリを指定することに よって.下位のサブカテゴリすべてを指定することが可能 となっている.一方,Googleはフラットな126のカテゴリ から構成されている. 各APIの共通点としては,各社独自のアルゴリズムに基 づいた重要度(人気度)に基づいて出力順位が決定される という点である.これは,スマートフォンで得られる位置 情報の精度がそれほど高くないことから,緯度経度から得 られる距離が近いからといって必ずしも,実際に距離が近 いとは限らないためである.しかしんがら具体的なアルゴ

リズムはすべて不明である.なお,Google Places APIに関

しては,距離に基づいたアルゴリズムを明示的に指定する ことが可能である.

3.

事前実験

3.1 カテゴリ設定に関する事前実験 「チェックイン」を行うためにはインターネットへのア クセスが必要であるため,無料WiFiを提供するマクドナル ドやスターバックスなどが,チェックイン対象の上位に抽 出されることがある.カテゴリを指定することによって, このような目的(今回は旅行)に関係のない情報を低減す ることができると考えている.今回は,著者の主観に基づ いてカテゴリを設定し,カテゴリ指定の有無によって結果 に差が出るかを検証した.

(5)

3 カテゴリ設定の効果(Foursquare APIの場合)

クラスタの中心座標 第1候補(カテゴリ設定なし) 第1候補(カテゴリ設定あり)

緯度 経度 名前 カテゴリ 名前 カテゴリ

40.75900103 -73.9791215 30 Rockefeller Plaza Building Rockefeller Center Plaza

40.75784677 -73.9856731 Microsoft Pop-Up Store Electronics Store Discovery Times Square Museum

40.74160657 -73.98933982 The Flatiron District Neighborhood Flatiron Building Historic Site

37.76222647 -122.4350683 Hot Cookie Bakery Castro Theater Indie Movie Theater

37.80872975 -122.4157081 The Chowder Hut Seafood Restaurant Fisherman’s Wharf Sign Historic Site

提案システムでは,「旅行」に関する情報を抽出するこ

とを目的としているため,表2に示すように,Foursquare

APIとGoogle APIに対して,それぞれ21個と12個のカ

テゴリを設定した.

その結果の一部を表3に示す.カテゴリを指定しない場

合にはBekeryやSeafood Restaurantが第1候補として表示

されていた位置に対して,カテゴリを指定した場合,Movie

TheaterやHistoric Siteなど,観光に関係しそうなPOIが第

1候補として選出されており,一定の効果を確認できる. 将来的には,ユーザの挙動(提示されたPOIに対するク リックなど)に応じて,目的に対するカテゴリのセットを 自動形成する仕組みを検討していきたいと考えている. 3.2 データセットのサイズに関する事前実験 Mean Shift法を適用するデータセットは小さいほど,計 算時間が短くなるのは自明である.一方,データセットを 小さくすると,抽出された結果の信頼性が低下する可能性 がある.また,単一の撮影者が同じ場所で同じ時間帯に連 射すると分析に影響を与えてしまうことも自明である.そ こで本研究では,分析に十分なデータセットのサイズにつ いて調査する.事前実験では,ロンドンの1.9km四方エリ ア*12とパリの3.77km四方エリア*13を対象として,収集し たデータの中からランダムに,1万枚,5万枚,10万枚, 30万枚を抽出して,4通りのデータセットを作成し,そ

れぞれに対してbandwidth=0.001(100m)でMean Shift法を

適用し,含まれる写真の数が多い上位10クラスタとその 中心点の座標を比較する.さらに正解値として,各クラス タの中心点およびタグ分析結果に基づいて人為的に決定 されたPOI名とその座標を示す.このときPOIの座標は, Wikipediaに登録されている座標を用いる. 1に,ロンドンにおいて4通りのデータセットを用い

てMean Shift法を適用した結果を示す.ここで,Bandwidth

あたりのデータの密度を表すDPB(Data Per Bandwidth)と いう指標を導入する.

DP B = ( T he size of dataset

One side length of the area (m) Actual distance f or Bandwidth (m)

)2 (4)

例えば,ロンドンの場合,1辺は1.9kmであるため,式

*12 Google Static MapsでZoomレベルを15として600px四方で切 り出した場合の実距離

*13 Google Static MapsでZoomレベルを14として600px四方で切 り出した場合の実距離 (4)を用い,10000枚の写真データを利用する場合,その DPBは27.7と算出できる.図1を見ると,主観的には,10 万枚のデータセット(DPB: 277)と30万枚のデータセッ ト(DPB: 831)の結果は,見た目上,あまり変化がないよ うに見える.逆に,1万枚のデータセット(DPB: 27.7)は データが不足しているように見える.次に,より詳しい結 果を表4から表7に示す.まず,上位2件に関しては,ど のデータセットを用いても同じ結果になっており,かつ, 4 Dateset Size = 10000の結果 名前 Wikipedia クラスタリングの中心 誤差 (m) 緯度 経度 緯度 経度 1 Trafalgar Square 51.508056 -0.128056 51.5079055 -0.128038862 16.79 2 The London Eye 51.5033 -0.1197 51.50332342 -0.11945936 16.91 3 British Museum 51.519459 -0.126931 51.51924954 -0.126861289 23.8 4 Tate Modern 51.507778 -0.099167 51.50788031 -0.09923166 12.24 5 Covent Garden 51.51197 -0.1228 51.51203413 -0.122969168 13.74 6 Piccadilly Circus 51.51 -0.134444 51.51003761 -0.134596073 11.36 7 Royal Festival Hall 51.505836 -0.116789 51.50608762 -0.117013619 32.05 8 Big Ben 51.500756 -0.124661 51.50079601 -0.1241917 32.89 9 Buckingham Palace 51.501 -0.142 51.50164185 -0.141012851 98.99 10 Parliament Square 51.500556 -0.126667 51.50071057 -0.12623318 34.69 5 Dateset Size = 50000の結果 名前 緯度Wikipedia経度 クラスタリングの中心緯度 経度 誤差 (m) 1 Trafalgar Square 51.508056 -0.128056 51.50788021 -0.128021995 19.70 2 The London Eye 51.5033 -0.1197 51.50337771 -0.119408265 22.02 3 British Museum 51.519459 -0.126931 51.51926686 -0.126871105 21.78 4 Tate Modern 51.507778 -0.099167 51.50789364 -0.09923061 13.6 5 Covent Garden 51.51197 -0.1228 51.51202463 -0.122886121 8.53 6 Piccadilly Circus 51.51 -0.134444 51.51003115 -0.13457096 9.47 7 Big Ben 51.500756 -0.124661 51.50085145 -0.124220506 32.38 8 Parliament Square 51.500556 -0.126667 51.50057757 -0.126369023 20.83 9 Royal Festival Hall 51.505836 -0.116789 51.50619057 -0.117028952 42.82 10 Buckingham Palace 51.501 -0.142 51.50174603 -0.140816821 116.79

6 Dateset Size = 100000の結果

名前 Wikipedia クラスタリングの中心 誤差 (m) 緯度 経度 緯度 経度

1 Trafalgar Square 51.508056 -0.128056 51.50788257 -0.128019371 19.46 2 The London Eye 51.5033 -0.1197 51.50336906 -0.119428653 20.35 3 Tate Modern 51.507778 -0.099167 51.5078909 -0.099228349 13.26 4 St Paul’s Cathedral 51.513611 -0.098056 51.51379002 -0.099013597 69.4 5 British Museum 51.519459 -0.126931 51.51927515 -0.12688193 20.74 6 Royal Festival Hall 51.505836 -0.116789 51.50615413 -0.117029657 39.14 7 Piccadilly Circus 51.51 -0.134444 51.51003717 -0.134580905 10.37 8 Covent Garden 51.51197 -0.1228 51.51201826 -0.122928562 10.42 9 Big Ben 51.500756 -0.124661 51.50084041 -0.124234837 31.05 10 Buckingham Palace 51.501 -0.142 51.50173073 -0.14086723 113.12 7 Dateset Size = 300000の結果 名前 Wikipedia クラスタリングの中心 誤差 (m) 緯度 経度 緯度 経度 1 Trafalgar Square 51.508056 -0.128056 51.50787524 -0.128015861 20.3 2 The London Eye 51.5033 -0.1197 51.50337514 -0.119424553 20.87 3 Tate Modern 51.507778 -0.099167 51.50787947 -0.099258178 12.94 4 British Museum 51.519459 -0.126931 51.51926718 -0.126877012 21.67 5 Covent Garden 51.51197 -0.1228 51.51202197 -0.12290653 9.39 6 Royal Festival Hall 51.505836 -0.116789 51.50615148 -0.117029839 38.88 7 Piccadilly Circus 51.51 -0.134444 51.51003304 -0.134571192 9.57 8 Big Ben 51.500756 -0.124661 51.50084761 -0.124237255 31.14 9 Parliament Square 51.500556 -0.126667 51.50060541 -0.126310114 25.38 10 St Paul’s Cathedral 51.513611 -0.098056 51.51367288 -0.098282778 17.18

(6)

Size of Dataset : 10000 Size of Dataset : 50000

Size of Dataset : 100000 Size of Dataset : 300000

1 ロンドンの結果(それぞれ約1.9km四方のエリア)

実際の位置との誤差はいずれも非常に小さいことがわか る.Buckingham PalaceとSt Paul’s Cathedralについては, データセットによって有無が異なるが,出現する場合もそ の誤差はいずれも大きい.これはそのPOIが大きいため に写真撮影地点(ジオタグに記録される位置)と,実際の POIの位置が離れているからであり,この誤差は許容範囲 内と考えることができる. これらの結果を見ると,ロンドンに関しては,ランダム サンプリングによって得られた10000件のデータセットで も,30倍のデータセットと遜色ない結果が得られることが わかる. 次に,ロンドンよりもデータセット当たりの面積を大き く設定したパリについて,図2に示す.図中の各地図の一 辺は約3.8kmに相当する.そのため,各データセットの DBPは,小さい順に,それぞれ6.9, 34.6, 69.3, 207.8とな る.見た目上は,DBPが極めて小さい10000枚のデータ セットの場合,クラスタと呼べるものが少なく,DPBが増 加するに従い,クラスタが鮮明になることがわかる.ロン ドンと同様に各データセットにおける上位10件の詳しい 結果を表8から表11に示す. 結論から言うと,予想外に,低いDBPの場合も,高い DBPの場合とほぼ同じ10個のPOIを抽出でき,その誤差

も小さいことがわかる.Effel TowerとLouvre Pyramidに

注目すると,その順位はデータセットによって異なるが, その誤差はどのデータセットでも同等(Effel Towerは約 11m,Louvre Pyramidは約22m)であることがわかる.こ の評価における順位は,クラスタ内の写真の枚数に基づい ているため,ランダムに抽出した過程で,誤差に影響を与 えない程度のわずかな枚数の差だけが生じたと予想され る.本論文では,枚数だけでなく,時間分散を加味した順 位付けを行うことで,これらの順位誤差も低減できるので はないかと考えている.

(7)

Size of Dataset : 10000 Size of Dataset : 50000

Size of Dataset : 100000 Size of Dataset : 300000

2 パリの結果(それぞれ約3.7km四方のエリア) 8 Dateset Size = 10000の結果 名前 Wikipedia クラスタリングの中心 誤差(m) 緯度 経度 緯度 経度 1 Eiffel Tower 48.8583 2.2945 48.85836692 2.294373682 11.89 2 Louvre Pyramid 48.860854 2.335812 48.86104189 2.335897987 21.83 3 Notre Dame de Paris 48.853 2.3498 48.85316491 2.349367549 36.65 4 Arc de Triomphe 48.8738 2.295 48.87382757 2.294992512 3.11 5 Pompidou Centre 48.860653 2.352411 48.8605276 2.35211698 25.69 6 Basilique du Sacr´e-Cæur 48.886694 2.343 48.88626403 2.34302319 47.85 7 Place de l’Hˆotel de Ville 48.856667 2.351389 48.85674765 2.351397153 8.99 8 Mus´ee d’Orsay 48.86 2.327 48.85998727 2.326398714 44.14 9 Pont des Arts 48.858333 2.3375 48.85844818 2.337483121 12.87 10 Mus´ee du Louvre 48.860339 2.337599 48.86045942 2.339874631 167.51 9 Dateset Size = 100000の結果 名前 Wikipedia クラスタリングの中心 誤差(m) 緯度 経度 緯度 経度 1 Louvre Pyramid 48.860854 2.335812 48.86104974 2.335912865 22.99 2 Eiffel Tower 48.8583 2.2945 48.85836359 2.294392839 10.58 3 Notre Dame de Paris 48.853 2.3498 48.85315962 2.349360746 36.80 4 Arc de Triomphe 48.8738 2.295 48.87383094 2.294998431 3.44 5 Pompidou Centre 48.860653 2.352411 48.86053977 2.352162256 22.17 6 Basilique du Sacr´e-Cæur 48.886694 2.343 48.88628711 2.343054385 45.42 7 Place de l’Hˆotel de Ville 48.856667 2.351389 48.85670189 2.351539929 11.74 8 Pont des Arts 48.858333 2.3375 48.85843663 2.337525665 11.68 9 Mus´ee d’Orsay 48.86 2.327 48.86002691 2.326362552 46.87 10 Pont Neuf 48.857447 2.341617 48.85712789 2.341051881 54.58 10 Dateset Size = 50000の結果 名前 Wikipedia クラスタリングの中心 誤差(m) 緯度 経度 緯度 経度 1 Louvre Pyramid 48.860854 2.335812 48.86104577 2.3358937 22.15 2 Eiffel Tower 48.8583 2.2945 48.85836362 2.294391996 10.62 3 Notre Dame de Paris 48.853 2.3498 48.8531583 2.349346488 37.65 4 Arc de Triomphe 48.8738 2.295 48.87381853 2.295015755 2.36 5 Pompidou Centre 48.860653 2.352411 48.86052319 2.35217369 22.62 6 Basilique du Sacr´e-Cæur 48.886694 2.343 48.88629702 2.343050873 44.30 7 Place de l’Hˆotel de Ville 48.856667 2.351389 48.85670647 2.351574334 14.29 8 Place de la Concorde 48.865556 2.321111 48.86551189 2.321117582 4.93 9 Pont des Arts 48.858333 2.3375 48.85842702 2.337526654 10.64 10 Pont Neuf 48.857447 2.341617 48.85719063 2.34098064 54.71 11 Dateset Size = 300000の結果 名前 Wikipedia クラスタリングの中心 誤差(m) 緯度 経度 緯度 経度 1 Eiffel Tower 48.8583 2.2945 48.85836334 2.294393578 10.52 2 Louvre Pyramid 48.860854 2.335812 48.86104888 2.335899708 22.61 3 Notre Dame de Paris 48.853 2.3498 48.85315696 2.349368515 36.16 4 Arc de Triomphe 48.8738 2.295 48.87382847 2.294996218 3.18 5 Pompidou Centre 48.860653 2.352411 48.86053575 2.352157794 22.70 6 Basilique du Sacr´e-Cæur 48.886694 2.343 48.88630321 2.343055059 43.65 7 Place de l’Hˆotel de Ville 48.856667 2.351389 48.85671831 2.351355457 6.21 8 Pont des Arts 48.858333 2.3375 48.85843634 2.337532974 11.74 9 Place de la Concorde 48.865556 2.321111 48.86556988 2.32113341 2.25 10 Mus´ee d’Orsay 48.86 2.327 48.86002636 2.326379711 45.61

(8)

Flickr

クラスタリング (Mean Shift 法) - 位置情報 - 撮影日時 - タグ情報 (タグスコアリング)意味付け 順位=枚数 1 2 trafalgar eye 従来研究 連射の排除 サンプリング

Facebook

Foursquare

Google

チェックインサービス Cathédrale Notre-Dame de Paris Notre-Dame de Paris Notre-Dame Square Jean Xxiii

枚数と時間分散 による順位付け 提案部分 不正確な名前 POI の候補 1 2 Trafalgar Square The London Eye

正確な名前 スコアリングに よる POI の選択 今回は取り扱わない 可視化・実アプリ Place info Nearby places Nearby places Action Big ben Buckingham Palace The London Eye

- 2D/3D の融合表示 - 重要度に応じたアブストラクション - 付随情報の提示 - 時間制約付き最適ルート探索 3 提案システムの構成と本論文で取り扱う項目

4.

提案手法

本論文で提案する,ソーシャル観光マップは,位置情報 付きのソーシャルデータの分析による都市の人気スポット を抽出して地図上に可視化するシステムであり,図3に示 すような構成となる.大本のデータソースとして,Flickr 上の位置情報付き写真を利用し,Mean Shiftクラスタリン グにより,人気スポットを抽出するという全体の流れは, 従来研究[3], [6]と共通である.異なる点は,網掛けされ た部分であり,計算の高速化を目的としたデータセットの ランダムサンプリング,チェックインサービスからの情報 を統合したPOI推定手法,そして,枚数と撮影時間の時 間分散を考慮した人気度の定量化である.なお,本論文で は,副題の通り,人気スポットの抽出に焦点を当てており, 地図上に可視化するシステムに関しては今後の研究課題と する. 4.1 データセットのサンプリングに関して

今回,5都市(New York, San Francisco, London, Paris,

Berlin)で撮影された位置情報付き写真436万枚をFlickr から収集した.436万枚の写真の撮影者は15.4万人にのぼ り,撮影者当たりの写真の枚数は,28.4枚になる.近年は デジタルカメラのメモリも大容量かつ安価になっているた め,1撮影者が連射で何枚も撮影していることも多い.そ こで,従来研究と同様に,30分以内に同じ撮影者によって 撮影されたすべての写真を1つと見なす前処理を行う.提 案では,古い写真を排除し(2004/01/01 00:00:00以降の写 真に限定し),同時に付与されている位置情報の精度が低い ものと,タグが一切付与されていない写真も排除する.そ の結果,分析対象となるデータは,182万枚に減る.さら に,提案は,事前実験の検証結果に基づき,このデータから さらにランダムサンプリングを行う.今回は上位10位だ けに焦点を当てることから,DBPが20以上となるデータ

セット(New York: 200000, San Francisco: 300000, London: 20000 , Paris: 50000, Berlin:100000)を用いる.サンフラン シスコは対象となるエリアが大きいため,より多くのデー タが必要となる.一方,ロンドンは最もコンパクトにまと まっており,少ないデータでもDBPが20以上となる. 4.2 チェックインサービスの統合に関して 今回,3つのチェックインサービス(Foursquare, Facebook, Google)が提供しているリバースジオコーディングAPIを 用いる.FoursquareとGoogleに関しては,事前実験の検 証結果に基づき,旅行に関するカテゴリ設定を行う.また, Googleは距離に基づいた出力も可能であるが,今回は他と 合わせるために,重要度に基づいた出力を指定する.ある クラスタの中心座標(x)として,リバースジオコーディン グAPIから得られる上位mのPOI名{s1, s2,· · · , sm}のう ちから最も確からしいsを選択する手法について考える. 提案手法では,確からしさを「他の候補との類似性」と 「単語の出現頻度」という2つの指標で評価する.他の候補 との類似性は, 文字列間の編集距離を計算し,他のm− 1 個のPOIとの平均編集距離dmを求める.編集距離の計 算は,有名なLevenshtein距離でも良いが,今回は扱いや すさの観点*14からJaro-Winkler距離[13]を利用している. 単語の出現頻度は,si (i={1,2,···,m})をさらにn個の単語 wi 1, wi2,· · · , winに分割し,各単語がそれぞれ何回ほかのPOI 名で利用されているかを各単語の重みとし,その総和を含 まれる単語数で割ったものをPOI名sをスコアリングす る.単語数で乗算する理由は,POI名の長さの影響を減ら *14 Jaro-Winkler距離は0∼1の値となるが,Levenshtein距離は文字 列長によって最大値が異なる.それを正規化する手法も提案され ているが,今回はJaro-Winkler距離を用いる.

(9)

12 ニューヨークにおける第5位のクラスタにおけるスコア計算の例

サービス名 出力順位 POI 名 平均編集距離によるスコア 出現頻度によるスコア スコア

Foursquare

1 位 Museum of Modern Art (MoMA) 0.578109941 1.75 1.011692397

2 位 The Paley Center for Media 0.484803086 0 0

3 位 Saint Thomas Church 0.451673654 0 0

Facebook

1 位 The Metropolitan Museum of Art 0.593139804 1.333333333 0.790853072

2 位 MoMA 0.413197612 1 0.206598806

3 位 The Modern - Dining Room 0.563627745 1 0.187875915

Google

1 位 Museum of Modern Art 0.587213362 2.333333333 1.370164512

2 位 21 Club 0.337940269 0 0 3 位 The Modern 0.62388356 3 0.62388356 すためである.また,theやofや記号などは単語としてみ なさず,すべて重みを0とする.これに先ほど計算したdm を乗算し,出現順位で割ったものをPOI名si (i={1,2,···,m}) のスコアとし,そのスコアが大きなものを最も確からしい POI名として選出する.出現順位で割るのは,各APIで考 慮されている人気度を反映するためである.提案アルゴリ ズムにより,チェックインサービスにおける人気度が高い POIの中で,多くの候補に含まれる単語を含みつつ,文字 列全体に見た時に類似度の高い他の候補が存在するような POIが選ばれる.なお今回,3つのAPIからそれぞれ上位 3件を候補とするため,mは9となる. 12に,ニューヨークにおける第5位のクラスタを例 をスコアの数値例を示す.ニューヨーク近代美術館と推測 できるが,その表記はサービスによって異なっていること がわかる.この中で,最も他の候補との類似度が高いのは,

Google APIの3位として得られた「The Modern」である.

また,この中の「Modern」という単語は,他にも3つの候 補で利用されており,その重みは3となる.そして,The Modernに含まれる単語数は,Theを除外するため1と数え ることができ,出現頻度によるスコアは3と計算できる. しかしながら,Googleにおける順位が3位であるため,最 終的なスコアはそれほど大きな値にはならない.最終スコ アが最も高くなったのは,Google APIの1位として得られ

た「Museum of Modern Art」である.平均編集距離による

スコアは全体の3位,出現頻度によるスコアは全体の2位 だが,Googleにおける順位は1位であり,最終的なスコ アは大きな値となる.このように提案アルゴリズムは,各 APIにおける出力順位が大きく影響する.これは,アルゴ リズムは不明であるものの,各社における膨大なデータを 用いた人気度計算を重視しているためである.ちなみに, この例において,従来のタグ分析によって得られたPOI名 は,museumofmodernart,であり,提案手法によって別の ソーシャルデータであるチェックインサービスから得た名 前が適切である上,その表記もタグ分析の結果より優れて いることがわかる. 4.3 時間分散を考慮した人気度について 本研究は,観光スポットの抽出を目的としているため, 定常的に人気度の高いスポットを抽出する仕組みが必要で ある.従来方式では,単にクラスタ内の写真の枚数によっ てクラスタを順位付けしていたが,この手法はジオタグ付 き写真がたまたま多く発生した大きなイベントの影響を受 けることがある.また,わずか数枚の写真枚数の違いでス ポットの人気度の順位が変わるのも意にそぐわない. 本論文では,有名な観光スポットは今も昔も有名という 前提に基づき,写真が定常的に撮影されているか否かに よって,そのスポットの旅行という目的に対する重要度を 決定する仕組みを提案する.定常性を測るために,本論文 では,クラスタ内の写真をタイムスタンプ順にソートし, 写真の撮影間隔の分散を計算する.クラスタck枚の写 真が含まれてているとした時,古い順にソートしたタイム スタンプ群をpi (i=1,···,k)と定義する.最古のタイムスタン プはp1,最新のタイムスタンプはpkとなる.この時,写 真の撮影間隔WiWi= pi− p(i−1) (i ={0, · · · , k})と表 すことができる.p0は,データセットに含まれる可能性の ある最も古いタイムスタンプ2004/01/01 00:00:00とする. このWiを用いて,クラスタcに含まれる写真の撮影時間 の分散Dcは,Dc = √ 1 kk i=1(Wi− ¯W )2と計算するこ とができる.提案手法では,このDcにクラスタ内の写真 の枚数を乗算した,Dc× kをクラスタcの重要度と定義 する.

5.

分析結果

今回,データを収集した5都市に関して,従来方式(枚 数による順位付け+タグ分析による意味付け)と提案方式 (枚数と時間分散による順付け+チェックインサービスを 用いた意味付け)による観光スポット上位10件の比較を 行う.このとき,データセットのサイズは,事前実験の結 果に基づき,それぞれ異なるサイズを用いる. 13から表17の結果を見ると,いずれも提案手法に よって,正確性の高い名前が割り当てできていることがわ かる.しかしながら,その順位は,あまり大きな違いは見 られない.また,順位の入れ替わりが,本当に人気度を示 しているのかは今回の評価では評価できていないため不明 である.順位付けの評価は,今後,アプリケーションを実 際にリリースし,多人数に使ってもらう被験者実験を通じ て行なって行きたいと考えている.

(10)

13 ロンドン

順位 従来方式 提案方式

1 trafalgar Trafalgar Square 2 tatemodern The London Eye 3 britishmuseum St Paul’s Cathedral 4 eye Tate Modern 5 stpaulscathedral British Museum 6 covent Big Ben 7 royalfestivalhall Piccadilly Circus 8 parliamentsquare Parliament Square 9 bigben Covent garden 10 piccadillycircus Buckingham Palace Gardens

14 サンフランシスコ

順位 従来方式 提案方式

1 unionsquare Alcatraz Island 2 prison Coit Tower 3 attpark San Francisco City Hall 4 californiaacademyofsciences Union Square 5 cityhall Sea Lions @ Pier 39 6 sfmoma Powell St. BART Station 7 flickrhq Ferry Building Marketplace 8 sanfrancisco de Young Museum 9 ferrybuilding San Francisco Museum of Modern Art 10 deyoungmuseum Transamerica Redwood Park

6.

おわりに

本論文では,位置情報付きのソーシャルデータを分析に 基づくソーシャル観光マップの構築に向け,都市の人気ス ポットをその正確な名前と共に抽出する仕組みを提案し た.Foursquareなどの複数のチェックインサービスから得 られる情報を用いる提案手法によって,従来のタグ分析手 法と比較して,より正確な表記の名前を得られることを明 らかにした.また,分析対象面積に対する十分なデータサ イズについて検証し,実際に収集した膨大なデータの中か らサンプリングした小さなデータセットからでも,十分な 結果が得られることを示した.

謝辞

本研究の一部は,財団法人人工知能研究振興財団および 公益財団法人中島記念国際交流財団からの研究助成に基づ くものである.ここに記して謝意を示す. 参考文献 [1]  荒川, 末松, 田頭, 福田:コンテキストアウェ アIMEの実現へ向けた動的辞書生成手法の提案,情報処 理学会論文誌,Vol. 52, No. 3, pp. 1033–1044 (2011). [2] Chen, W., Battestini, A., Gelfand, N. and Setlur, V.: Visual

summaries of popular landmarks from community photo col-lections, Signals, Systems and Computers, 2009 Conference Record of the Forty-Third Asilomar Conference on, IEEE, pp. 1248–1255 (2009).

[3] Crandall, D., Backstrom, L., Huttenlocher, D. and Kleinberg, J.: Mapping the world’s photos, Proceedings of the 18th in-ternational conference on World wide web, ACM, pp. 761– 770 (2009).

[4] Kisilevich, S., Mansmann, F. and Keim, D.: P-DBSCAN: A density based clustering algorithm for exploration and analy-sis of attractive areas using collections of geo-tagged photos, Proceedings of the 1st International Conference and Exhibi-tion on Computing for Geospatial Research & ApplicaExhibi-tion, ACM, p. 38 (2010).

15 ニューヨーク

順位 従来方式 提案方式

1 rockefellercenter Rockefeller Center 2 timessquare Empire State Building 3 empirestatebuilding Prayer in the Square 4 museumofmodernart Times Square 5 timessquare Museum of Modern Art 6 grandcentralterminal Flatiron Building 7 flatironbuilding Grand Central Terminal 8 bryantpark Wall Street 9 — Bryant Park 10 unionsquare Washington Square Park

16 パリ

順位 従来方式 提案方式

1 pyramid Cath´edrale Notre-Dame de Paris 2 notredame Tour Eiffel 3 eiffeltower Pyramide du Louvre 4 centrepompidou Centre Pompidou - Mus´ee National d’Art Moderne

5 sacrecoeur Arc de Triomphe 6 arcdetriomphe Mus´ee d’Orsay 7 Paris Square Jean XXIII 8 pontdesarts Pont des Arts 9 saintechapelle Sainte Chapelle 10 placedelaconcorde Place de la Concorde

17 ベルリン

順位 従来方式 提案方式

1 pariserplatz Brandenburg Gate 2 reichstag Reichstag 3 potsdamer Potsdamer Platz 4 holocaustmemorial CineStar Sony Center 5 alexanderplatz Alexanderplatz 6 sonycenter Holocaust Mahnmal 7 — Checkpoint Charlie 8 berlinhauptbahnhof S+U Bahnhof Berlin Alexanderplatz 9 berlinerdom Berliner Dom 10 deutscherdom Berlin Brandenburger Tor station

[5] Yang, Y., Gong, Z. et al.: Identifying points of interest by self-tuning clustering, Proceedings of the 34th international ACM SIGIR conference on Research and development in In-formation, ACM, pp. 883–892 (2011).

[6] Kurashima, T., Iwata, T., Irie, G. and Fujimura, K.: Travel route recommendation using geotags in photo sharing sites, Proceedings of the 19th ACM international conference on In-formation and knowledge management, pp. 579–588 (2010). [7] Yin, Z., Cao, L., Han, J., Luo, J. and Huang, T.: Diversified trajectory pattern ranking in geo-tagged social media, Pro-ceedings of the Eleventh SIAM International Conference on Data Mining, SDM 2011, pp. 980–991 (2011).

[8] Liu, H., Wei, L.-Y., Zheng, Y., Schneider, M. and Peng, W.-C.: Route discovery from mining uncertain trajectories, Data Mining Workshops (ICDMW), 2011 IEEE 11th International Conference on, IEEE, pp. 1239–1242 (2011).

[9] Lowe, D. G.: Distinctive image features from scale-invariant keypoints, International journal of computer vision, Vol. 60, No. 2, pp. 91–110 (2004).

[10] Cheng, Y.: Mean shift, mode seeking, and clustering, Pat-tern Analysis and Machine Intelligence, IEEE Transactions on, Vol. 17, No. 8, pp. 790–799 (1995).

[11] Carreira-Perpinan, M.: Acceleration strategies for Gaussian mean-shift image segmentation, Computer Vision and Pat-tern Recognition, 2006 IEEE Computer Society Conference on, Vol. 1, IEEE, pp. 1160–1167 (2006).

[12] De Choudhury, M., Feldman, M., Amer-Yahia, S., Golbandi, N., Lempel, R. and Yu, C.: Automatic construction of travel itineraries using social breadcrumbs, Proceedings of the 21st ACM conference on Hypertext and hypermedia, pp. 35–44 (2010).

[13] Jaro, M.: Advances in record-linkage methodology as applied to matching the 1985 census of Tampa, Florida, Journal of the American Statistical Association, Vol. 84, No. 406, pp. 414–420 (1989).

表 1 Reverse Geocoding API の比較
表 3 カテゴリ設定の効果( Foursquare API の場合)
図 1 ロンドンの結果(それぞれ約 1.9km 四方のエリア)
図 2 パリの結果(それぞれ約 3.7km 四方のエリア) 表 8 Dateset Size = 10000 の結果 名前 Wikipedia クラスタリングの中心 誤差 (m) 緯度 経度 緯度 経度 1 Eiffel Tower 48.8583 2.2945 48.85836692 2.294373682 11.89 2 Louvre Pyramid 48.860854 2.335812 48.86104189 2.335897987 21.83 3 Notre Dame de Paris 48.853
+3

参照

関連したドキュメント

6-4 LIFEの画面がInternet Exproler(IE)で開かれるが、Edgeで利用したい 6-5 Windows 7でLIFEを利用したい..

[r]

2リットルのペットボトル には、0.2~2 ベクレルの トリチウムが含まれる ヒトの体内にも 数十 ベクレルの

 渡嘉敷島の慰安所は慶良間空襲が始まった23日に爆撃され全焼した。7 人の「慰安婦」のうちハルコ

❸今年も『エコノフォーラム 21』第 23 号が発行されました。つまり 23 年 間の長きにわって、みなさん方の多く

高さについてお伺いしたいのですけれども、4 ページ、5 ページ、6 ページのあたりの記 述ですが、まず 4 ページ、5

号機等 不適合事象 発見日 備  考.

写真① 西側路盤整備完了 写真② 南側路盤整備完了 写真④ 構台ステージ状況 写真⑤