位置、キーワードおよびソーシャル関係に基づくTop-kパブリッシュ/サブスクライブ

(1)

DEIM Forum 2016 D3-3

位置，キーワードおよびソーシャル関係に基づく

Top-k パブリッシュ/サブスクライブ

西尾俊哉

†

天方大地

††

原

隆浩

††

西尾章治郎

††

†

大阪大学工学部電子情報工学科

〒 565–0871 大阪府吹田市山田丘 1-5

††

大阪大学大学院情報科学研究科〒 565–0871 大阪府吹田市山田丘 1-5

E-mail:

†{

nishio.syunya,amagata.daichi,hara,nishio

}

@ist.osaka-u.ac.jp

あらまし近年，多くのアプリケーションでは，PoI(Point of Interest) がパブリッシュ/サブスクライブモデルに基づい

てデータを発信しており，ユーザは生成されたデータの中から自身が興味を持つもののみを取得する．また，位置情

報サービスやソーシャルネットワークサービスの普及により，位置やキーワード，ソーシャル関係を用いた検索への

関心が高まっている．本研究では，パブリッシュ/サブスクライブモデルで生成されたデータから，ユーザにとって有

用な上位 k 個のデータをモニタリングする問題に取り組む．この上位 k 個のデータを収集する際，PoI の位置，指定し

たキーワードとの一致度，およびデータを生成した PoI とのソーシャル関係からデータのスコアを計算する．データ

が発生した際に，上位 k 個に含まれるデータであるかどうかを全てのユーザ (Top-k クエリ) に対して計算する単純な

方法は，多数のクエリが存在する環境に対応できない．この問題を解決するため，クエリを四分木により管理し，発

生したデータが上位 k 個となり得るクエリにのみアクセスするアルゴリズムを提案する．実データを用いた実験によ

り，提案アルゴリズムの有効性を示す．

キーワード

パブリッシュ/サブスクライブ，Top-k クエリ

1. はじめに

スマートフォンやタブレットなどのGPSを利用可能な端末の普及に伴い，位置情報を考慮した検索が多くのアプリケーションにとって必要不可欠になっている[4] [9]．その一例として，位置依存ソーシャルサービスであるYelpやFoursquareなどが挙げられる．これらのサービスでは，位置やキーワードに基づく検索をユーザに提供している．また，Twitterに代表されるSNSの急速な発展により，ソーシャル関係を考慮した検索も注目を集めている[7] [11]．例えば，Facebook [2]における“いいね”など，ユーザは興味のあるPoI（Point of Interest）に対してソーシャル関係を持つ．この関係は，図1におけるユーザと PoI間の辺として表現でき，図1はユーザu1およびu2のソーシャル関係のみを表現している．このとき，ユーザu2はPoI p1 とソーシャル関係があるため，p1が発信するデータを受信する．また，ユーザu1とu2は，ソーシャル関係があるPoIが類似しており，二人のユーザの興味は類似しているといえる．このとき，p1はu1とソーシャル関係はないが，p1はu2とソーシャル関係があるため，u1の興味に合う可能性は高い．そこで，ソーシャル関係を考慮し，p1が発信するデータをu1が受信しやすくすることにより，u1 は既知でなかった興味に合うデータを受信できる．つまり，ソーシャル関係を考慮することによって，あるユーザにとって既知でない興味に合うデータも検索可能になると同時に，PoIは広告配信などを効率化できる．ここで，多くのアプリケーションでは，PoIは任意のユーザに向けてデータを提供し，ユーザは自身が興味を持つデータのみを受信するパブリッシュ/サブスクライブモデルに基づいてい 𝑝1 𝑝₂ 𝑝3 𝑝4 𝑢1 𝑢2 : PoI : ユーザ図1:ユーザとPoIとのソーシャル関係キーワードデータ 𝑤0 … … 𝑤55 … … 𝑤₁₃₀ … … 𝑝0 1 2 100 1 2 100 : PoI 𝑝50 𝑢50 𝑢0 𝑢51 50 𝑝1 : ユーザ図2:パブリッシュ/サブスクライブモデルる[5] [8] [10]．例えば，図2のように，PoIは受信者を指定せずにデータを送信する．送信されたデータはキーワードごとに分類され，キーワードw0に興味があるユーザu0には，データ1

(2)

および2が送信され，キーワードw55に興味があるユーザu50 およびu51には，データ50が送信される．このパブリッシュ/ サブスクライブモデルにおいて，ユーザの興味に合うデータを全て配信すると，あるユーザは膨大な量のデータを受信し，またあるユーザはデータをほとんど受信しないという状況が生じる可能性がある．そのため，ユーザにとって有用な上位k個のデータを検索するTop-k検索が有用である[6]．また，このような環境ではデータの生成は頻繁に行われるため，あるユーザに対する上位k個のデータは頻繁に変化する．本研究では，パブリッシュ/サブスクライブモデルで生成されたデータから，ユーザにとって有用な上位k個のデータをモニタリングする問題に取り組む．このTop-kクエリでは，PoI の位置，指定したキーワードとの一致度，およびデータを生成したPoIとのソーシャル関係からデータのスコアを計算する．このTop-kクエリの解はユーザごとに異なるため，全てのユーザに対して評価を行う必要がある．しかし，ユーザが多く存在している場合，新しく生成されたデータが上位k個に含まれるデータであるかどうかを全てのユーザ(Top-kクエリ)に対して計算する単純な方法は，多大な時間がかかってしまう．これは，各ユーザに対する上位k個のデータを高速に更新できず，リアルタイム性を保証することが難しい．この問題を解決するため，クエリを四分木[12]により管理し，生成されたデータが上位k個となり得るクエリにのみアクセスするアルゴリズムを提案する．四分木の各ノードには，そのノードで管理されているクエリを集約した情報を保存する．そして，ノードに保存された情報から，生成されたデータが上位k個のデータとなり得ない部分木を枝狩りし，アクセスするクエリの数を削減する．これにより，データが生成されたとき，各ユーザに対する上位k個のデータを高速に更新できる．その結果，単純なアルゴリズムよりもアクセスするクエリの数を削減しつつ，正しい解に更新できる．実データを用いた実験の結果から，提案アルゴリズムの有効性を確認した．以下では，2章で本稿の問題を定義する．3章で提案アルゴリズムについて説明し，4章で実データを用いた実験の結果を示す．そして，5章で関連研究について述べ，最後に6章で本稿をまとめる．

2. 問題定義

PoIの集合をP，全てのPoIが生成する全てのデータの集合をO，発行された全てのクエリの集合をQとする． 2. 1 データモデルあるPoIが生成するデータo∈ Oは，oのid(o.id)，oを生成

したPoIのid (o.pid)，データの位置情報(o.loc)，およびキー

ワード集合(o.key)を保持している．o.locはoを生成したPoI

の位置とし，PoIの位置情報は緯度と経度によって表される2 次元平面上の点とする．本研究では，データのキーワード集合の更新はないものとする． 2. 2 Top-kモニタリングあるユーザuが発行するクエリqu∈ Qは，quのid(qu.id)， uが指定する位置情報(qu.loc)，1つ以上の任意の数のキーワー 𝑢0 𝑢1 𝑢2 𝑢3 𝑢4 𝑢5 𝑢6 𝑢7 𝑝5 𝑝4 𝑝3 𝑝2 𝑝1 𝑝0 : ユーザ : PoI 図3:ソーシャルグラフドの集合(qu.key)，および上位何個のデータを要求するかを指定する変数(qu.k)を保持している．クエリquにおけるデータ oのスコアs(qu, o)は，式(1)に従って計算され，スコアが小さいほど優れているものとする．

s(qu, o) = dist(qu, o) + key(qu, o) + socio(qu, o) (1)

以下，dist(qu, o)，key(qu, o)，およびsocio(qu, o)を説明する． dist(qu, o)は，式(2)により，クエリとデータとのユークリッ

ド距離に基づいて計算される．

dist(qu, o) =

√

(qu.locx− o.locx)2+ (qu.locy− o.locy)2 M AXloc (2) MAXlocはユーザとPoIが存在しうる領域の最大距離であり，これによりスコアを[0, 1]の値に正規化している． key(qu, o)は，式(3)により，クエリのキーワードとデータのキーワードの一致度をF値を用いて計算し，その一致度を1 から減算することにより計算される． key(qu, o) = 1− 2|qu.key∩ o.key| |qu.key| + |o.key| (3) 例えば，qu.key ={w1，w2}で，o.key ={w2, w3, w4}であるとき，key(qu, o) = 1−2₂₊₃×1 = 0.6となる． socio(qu, o)はクエリを発行したユーザとデータを生成した PoIとのソーシャル関係のスコアを1から減算することにより計算される．今回想定する環境として，ユーザはPoIにFacebook における“いいね”のように，興味のあるPoIに対してソーシャル関係を持つ．この関係は，ソーシャルグラフを用いて，図3 のように表現できる．丸がユーザ，四角がPoIを表し，ソーシャル関係はグラフにおける辺として表現できる．ここで，ソーシャルグラフの辺の集合をEとする．また，eu,pi をユーザu とPoI pi間の辺とする．本研究では，ユーザとPoIの関係を値化し，ソーシャルスコアを計算する．これは，式(4)により計算される． socio(qu, o) =    0 (∃eu,p∈ E) 1− max2|Pu∩Pu′|

|Pu|+|Pu′| (∄eu,p∈ E)

(3)

ここで，pはoを生成したPoIである．また，Pu = {∀p′ ∈ P|∃eu,p′ ∈ E} であり，Pu′ = {∀p′ ∈ P |(∃eu′,p ∈ E) ∧

(∃eu′,p′ ∈ E)}である．つまり，∄eu,p ∈ E である場合，1

から減算されている値は，pについて，_∃eu′,p∈ Eであるユーザu′とuとのPoI間の辺の一致度の最大値である．例として，図3におけるu0とp0およびu1とp4のソーシャルスコアを考える．u0とp0 は∃eu,p ∈ Eであるため，ソーシャルスコアは0である．次に，u1とp4 は∄eu,p ∈ Eである．p4と∃eu,p ∈ Eであるユーザはu2，u3，u4 およびu6 であるため，それぞれのユーザとのPoI間の辺の一致度を計算す

る．u1と∃eu,p∈ EであるPoIはp1およびp2であり，u2と

∃eu,p∈ EであるPoIはp1，p2，およびp4であるため，u1と

u2 とのPoI間の辺の一致度は，2₂₊₃×2 = 0.8となる．同様にして，u3，u4，およびu6についても一致度を計算すると，u1と u3との一致度は0，u1とu4との一致度は0.4，また，u1とu6 との一致度は0となる．よって，u1とp4のソーシャルスコアは1− max{0.8, 0, 0.4, 0} = 0.2となる．ここで，実際の環境ではソーシャル関係の更新が考えられる．この更新が起きるとsocio(qu, o)が変化する可能性がある．しかし，本研究ではソーシャル関係の更新は考えないものとし，更新が起きた場合においても既に計算済みのsocio(qu, o)はその値を利用するといった方針をとる． 2. 3 ベースラインアルゴリズムベースラインとなるアルゴリズムは，データが生成された際，全てのクエリにアクセスし，データのスコアを計算する．また，クエリが管理しているk番目のデータのスコアと比較し，新たに生成されたデータが，そのクエリにおいてTop-kデータになるかを計算する．クエリが管理しているk番目のデータのスコアよりも新たに生成されたデータのスコアの方が小さければ，生成されたデータとk番目のデータを置き換える．このアルゴリズムでは，Top-kデータが更新されないクエリにもアクセスし，データのスコアを計算する．そのため，クエリが大量に存在している場合，解の更新に多大な時間がかかってしまう．これは，各クエリの上位k個のデータを高速に更新できず，リアルタイム性を保証することが難しい．そこで，アクセスするクエリの数を削減しつつ，かつ，正確に解を更新するアルゴリズムを提案する．

3. 提案アルゴリズム

ベースラインアルゴリズムでは，データが生成された際，全てのクエリにアクセスするため，解の更新に多大な時間がかかる．しかし，データが新たに生成されたとき，位置およびキーワードのスコアの計算は生成されたデータに依存し，異なるPoI から生成されたデータであっても，PoI同士の位置が近く，似たキーワード集合を持つデータであれば，位置およびキーワードのスコアは近い値となる．また，ソーシャルスコアはユーザとPoIの関係のみに依存し，同じPoIから生成されたデータに対するソーシャルスコアはデータごとに変化しない．そこで，クエリの位置情報に基づいて，クエリを四分木で管理し，各ノードにはそのノードに含まれるクエリのid，キー NW NE SW SE (a) 1 2 13 14 4 15 16 𝑞0 𝑞1 𝑞3 𝑞2 : クエリ (b) 1 2 4 16 15 14 13 NW NE SW SE 3 (c) 図4:四分木の表現方法ワード集合，およびk番目のデータのスコアを集約した情報を保存する．四分木の構築の際，分割が終了したノードに対して，ノードのid，そのノードに含まれるクエリのid，および根ノードからそのノードまでの経路を表す数字列をノードリスト(LN) に保存する．また，四分木が構築されると，各PoI piに対応するソーシャルスコアリスト(Liss)を作成する．Lissは，LN に含まれるノードごとに，ノードidおよびそのノードに含まれるクエリのソーシャルスコアの最小値を保存したものである．データが生成されると，データを生成したPoIのLssとLNを組み合わせて，どのクエリにアクセスすべきかをチェックするために用いるテーブルTを作成する．そして，四分木の根ノードから順に，ノードに保存された情報とデータの位置情報およびキーワード集合から，生成されたデータが上位k個となり得るためのソーシャルスコアの閾値を計算する．Tから求められるノードのソーシャルスコアをこの閾値と比較することにより，生成されたデータが上位k個となり得ない部分木を枝狩りする．これにより，アクセスするクエリの数を削減できる．まず，3.1節において，クエリを管理する四分木の構築方法を紹介する．次に，3.2節において，各PoIに対応するLssの作成方法を紹介する．最後に，3.3節において，データが生成された時，クエリが管理している上位k個のデータを更新するアルゴリズムを紹介する． 3. 1 四分木の構築本研究の目的は，新たなデータが生成された際，クエリが管理している上位k個のデータが更新されることの無いクエリにアクセスする数を削減することにより，解の更新の高速化をはかることである．そこで，クエリを四分木を用いて管理する．四分木は，各内部ノードが4個までの子ノードを持つ木構造である．さらに，線形四分木を用いることにより，各ノードに対し，根ノードから自身のノードまでの経路を計算できる．2次元平面で四分木のノードの分割を表現するため，図4のように表現する．図4aに示すように，ノードを分割した際，分割されたノードはそれぞれ，NW，NE，SW，およびSEと名付けられるとする．例えば，図4bのように，4つのクエリが存在し，領域が分割されたとする．この場合，四分木の構造は，図4c のような木構造をとっている．図4cに示すように，本稿では，葉ノードと中継ノードを表現するために四角と丸を用い，クエリが含まれる葉ノードは黒四角とする．ここから，提案アルゴリズムにおける四分木の構築方法を紹

(4)

1 2 13 14 4 15 16 𝑞0 {𝑤0, 𝑤1} 𝑞1 {𝑤1, 𝑤2} 𝑞2 {𝑤1, 𝑤3} 𝑞3 {𝑤2} 𝑞4{𝑤0, 𝑤2} 𝑞5 {𝑤0} 𝑞6 {𝑤2, 𝑤3, 𝑤4} 𝑞7{𝑤0, 𝑤1} 1 2 3 4 13 0 14 15 16 (6,3)(7,3) 𝑤0, 𝑤1, 𝑤2, 𝑤3, 𝑤4 (3,3)(4,3)(5,3) 𝑤0, 𝑤2 (a) 図 3 に基づく四分木ノードid クエリid 数字列 1 0,1 0 2 2 1 13 3 02 14 4 12 16 5 32 4 6,7 3 (b) LN 図5:四分木の構築(m = 2)およびLN 介する．四分木を構築する際，クエリがどのノードに含まれるかはクエリの位置情報のみに依存する．まず，全てのPoIが存在している領域を根ノードとする．本研究におけるクエリは，全てのPoIが存在している領域内の任意の点を検索点として用いるため，全てのクエリが根ノードに含まれる．次に変数mを用意し，ノードに含まれるクエリの数がm個を超える場合は，そのノードを分割し，クエリの位置情報に基づいて各ノードにクエリを振り分ける．分割されたノード内のクエリの数がm個を超えていれば同じ操作を繰り返し行い，あるノードに含まれるクエリの数がm個以下になるようにする．図3におけるユーザが，自身の現在地を検索点とし，何らかのキーワードを指定したクエリqを発行したと仮定する．m = 2の場合，図5に示す四分木が構築される．各ノードには，そのノードに含まれるクエリのid，キーワードの集合，およびクエリが管理しているk番目のデータのスコアを保存する．ここで，クエリqが管理するk番目のデータのスコアをq.scorekと表し，その初期値は3とする．データの生成によりクエリが管理しているk番目のデータが更新されると，そのクエリの情報を持つ全てのノードの情報が更新される．図5では，クエリのidおよびそのクエリのq.scorekを（id，q.scorek）と表している．ノード4には，クエリq6およびq7が含まれているため，それらのid，k番目のデータのスコア，およびキーワードの集合が保存されている．ノード3には，自身の子ノードであるノード13，14，15，および16に含まれるクエリq3，q4，およびq5のid，k番目のデータのスコア，およびキーワードの集合が保存されている．四分木が構築される際，ノードに含まれるクエリの数がm個以下となったノードは，ノードのid，そのノードに含まれるクノードid ソーシャル_スコア 1 0 2 0.33 13 0.5 14 0 16 0 4 0.2 (a) p0の L0ss ノードid ソーシャルスコア 1 0.6 14 0.67 16 0 4 0 (b) p3の L3ss 図6:ソーシャルスコアリストの例エリのid，および根ノードからそのノードまでの経路を表す数字列(ds)をノードリスト(LN)に保存する．根ノードからそのノードまでの経路を表す数字列は，ノードidを用いて計算し，その結果を保存する．線形四分木では，自身のノードidから 1を引いたものを4で除算した商が親ノードのノードidとなり，余りが0ならば自身は親ノードのNWというように，余りによって自身は親ノードのNW，NE，SW，およびSEのいずれかであることが分かる．この計算を繰り返し行うことにより順に求められた余りを4進数の数字列として保存する．例えば，ノード14では余りが1，2という順に求まるため，12という数字列を保存する．四分木の構築が完了すると，LNには，クエリが含まれる全ての葉ノード(図4(c)における黒四角)のノードid，そのノードに含まれるクエリのid，および経路を表す数字列が保存されている．図5において，ノード15にはクエリが含まれていないため，LNを作成する際，ノード15は存在していないものとして扱う． 3. 2 ソーシャルスコアリスト次に，各PoI piに対応するソーシャルスコアリストLiss を作成する．これは，LNに保存された各ノードに対して，ノードidおよびそのノードに含まれるクエリのソーシャルスコアの中の最小値を保存したものである．具体的には，ノードに含まれている全てのクエリに対して，各PoIとのソーシャルスコアを計算する．そして，計算したソーシャルスコアの中で最小のものを，そのノードのソーシャルスコアとしてLissに保存する．また，ソーシャルスコアはPoIごとに異なるためPoIごとにLssを作成する．しかし，各Lssに全てのノードのソーシャルスコアを保持させる場合，管理コストが膨大になってしまうため，ソーシャルスコアが1となるノードのノードidおよびソーシャルスコアは保存しない．図3および図5をもとにp0およびp3に対応するLissを作成すると，図6のようになる．例えば，ノード1にはクエリ q0およびq1が含まれており，p0のそれぞれのクエリに対するソーシャルスコアは0および0.5であるため，L0ssのノード1 のソーシャルスコアは0となる．また，p3のq2およびq3に対するソーシャルスコアは1であるため，L3 ssはノード2およびノード13のノードidおよびソーシャルスコアを保存しない． 3. 3 Top-kデータの更新アルゴリズム最後に，データが生成された時，クエリが管理している上位

(5)

Algorithm 1:CreatingT

Input: O′//A set of newly generated data

1 for∀o ∈ O′do

2 T← ϕ

3 last← the size of LN

4 ssr← 1

5 j← 1

6 for i = 1tolast do

7 ss← 1

8 if LN[i].nid = Lo.pidSS [j].nid then

9 ss← Lo.pid_SS [j].ss

10 j← j + 1

11 if ssr> ss then

12 ssr← ss

13 T_{← T ∪ < L}N[i].nid, ss, LN[i].ds >

14 NodeCheck(T,ssr,root-node,1,o,1,last)

k個のデータを更新するアルゴリズムを説明する． T の作成．新しくデータが生成されると，LN，データを生成したPoIのLss，および四分木を用いて，クエリが管理している上位k個のデータが更新される可能性があるクエリのみにアクセスするためのチェックを行う．アルゴリズム1は，生成されたデータがどのクエリにアクセスすべきかをチェックするために用いるテーブルT を作成するアルゴリズムを示している．T はデータを生成したPoIのLssとLNを組み合わせて作成し， LNに保存された全てのノードに対して，ノードid，ノードのソーシャルスコア，および経路を表す数字列を保存する．あるノードのソーシャルスコアを得る際，データを生成したPoIの Lssにそのノードが含まれている場合はLssに保存されているソーシャルスコアを，含まれていない場合は1を，そのノードのソーシャルスコアとする．(7-10行)．同時に，T に保存される最小のソーシャルスコアを計算し，根ノードのソーシャルスコアとする．ノードのチェック．T が作成され，根ノードのソーシャルスコアが計算されると，NodeCheck(アルゴリズム2)を用いて，根ノードから順に，クエリにアクセスすべきかどうかを判断していく．アクセスすべきかどうかの判断は，ノードに保存された情報とデータの位置情報およびキーワード集合から計算された，生成されたデータが上位k個となり得るためのソーシャルスコアの閾値とノードのソーシャルスコアとの比較により行われる．ノードのソーシャルスコアが閾値よりも大きい場合，チェック中のノードに含まれるクエリに対して新しく生成されたデータが上位k個のデータとなる可能性が無いため，チェックを終了しクエリにアクセスしない．四分木が構築される段階では，各ノードのソーシャルスコアの閾値は₋₁に初期化しておく．以下では，あるノードにアクセスした際の具体的な処理について説明する．まず，初めてアクセスしたノードは閾値が−1であるため，閾値を計算する(1行)．あるデータoに対するノードnの閾値 thresholdは式(5)で計算される．

Algorithm 2:NodeCheck(T,ss,node,depth,o,f irst,last) Input: T , ss, node, depth, o, f irst, last

1 Calculate threshold

2 if threshold >_{= ss then}

3 if f irst = last //node is leaf-node then

4 for∀q ∈ node.Q do

5 ResultUpdate(q,o,T,f irst)

6 else

7 for j = f irsttolast do

8 if depth-th digit of T [j].ds = 0 then 9 countN W ← countN W + 1

10 if ssN W > T [j].ss then

11 ssN W ← T [j].ss

12 if depth-th digit of T [j].ds = 1 then

13 countN E← countN E+ 1

14 if ssN E> T [j].ss then

15 ssN E← T [j].ss

16 if depth-th digit of T [j].ds = 2 then 17 countSW ← countSW+ 1

18 if ssSW > T [j].ss then

19 ssSW ← T [j].ss

20 if depth-th digit of T [j].ds = 3 then

21 countSE← countSE+ 1

22 if ssSE> T [j].ss then

23 ssSE← T [j].ss

24 depth← depth + 1

25 if countN W > 0 then

26 NodeCheck(T,ssN W,NW,depth,o,f irst,f irst + countN W− 1)

27 f irst← first + countN W

28 if countN E> 0 then

29 NodeCheck(T,ssN E,NE,depth,o,f irst,f irst + countN E− 1)

30 f irst← first + countN E

31 if countSW > 0 then

32 NodeCheck(T,ssSW,SW,depth,o,f irst,f irst + countSW− 1)

33 f irst_{← first + count}SW

34 if countSE> 0 then

35 NodeCheck(T,ssSE,SE,depth,o,f irst,f irst + countSE− 1)

threshold = scoremax− dist(n, o) − key(n, o) (5)

ここで，scoremax は，ノード nに含まれるクエリのうち q.scorek が最大のものである．dist(n, o)は，データの位置

とノードnの間の最小距離をMAXlocで割ったものである．

ただし，データの位置がノードnの範囲内に含まれる場合は

dist(n, o) = 0である．key(n, o)は，key(qu, o)を計算する場

合と異なり，式(6)によって計算される．

key(n, o) = 1− 2|n.key ∩ o.key|

|n.key ∩ o.key| + |o.key| (6)

ここで，n.keyはノードnが保持しているキーワード集合であ

(6)

データが持つキーワードのみをnが保持していると仮定して，そのキーワードのみで一致度を計算する．

上記により計算されるdist(n, o)およびkey(n, o)は，チェック中のノードに含まれる全てのクエリquにおけるdist(qu, o)

およびkey(qu, o)が取り得る最小値となるため，あるクエリqu′

のdist(qu′, o)およびkey(qu′, o)がdist(n, o)およびkey(n, o)

より小さくなることはない．また，解の更新が起こるためには

クエリのk番目のデータのスコアより，新しく発生したデータ

のスコアが小さくなければならない．そのため，ノードに保存されたq.scorekの最大値からdist(n, o)およびkey(n, o)を引

くことにより得られた閾値は，チェック中のノードに含まれるクエリにおいて，解の更新が起きるためのソーシャルスコアの上界値であり，そのノードのソーシャルスコアが閾値よりも大きい場合，解の更新は起こりえない．例えば，図5において，q6.scorek= 1.2およびq7.scorek= 0.8であるとき，図3におけるp0がデータoを生成したとし， o.key ={w1，w2，w5}とする．この場合，図5におけるノード 4をチェックしたとする．ノード4が保存しているn.key ={w0 ，w1，w2，w3，w4}とo.key ={w1，w2，w5}との共通部分はw1 およびw2である．このとき，ノード4がw1およびw2のみを保持していると仮定して，それらのキーワードとデータoの持つキーワードの一致度からノード4におけるkey(·, o)を計算する．この場合，key(·, o) = 1 −2×2 2+3 = 0.2となる．また， PoI p0とノード4の距離のスコアがdist(n, o) = 0.4であるとする．このとき，新しく生成されたデータに対するノード4の閾値は，max{1.2，0.8} − 0.4 − 0.2 = 0.6となる．閾値が計算されると，その閾値とチェック中のノードのソーシャルスコアが比較される(2行)．閾値の方が小さい場合は，現在チェックしているノードに含まれるクエリにおいて，新しく生成されたデータが上位k個のデータとなる可能性が無いため，自身を根とする部分木のチェックを終了し，チェックが終了していないノードのチェックに移る．閾値の方が大きければ，子ノードをチェックしていく．まず，T に含まれる葉ノードであり，チェック中のノードnを根とする部分木に含まれる葉ノードが，nのNW，NE，SW，およびSEのどのノードの経路上に存在するか計算する．ある葉ノードがn′の経路上に存在するとは，nからその葉ノードにアクセスする際に，n′が中継ノードであることを意味している．この計算は数字列を用いて行い，子ノードの深さ(depth)の桁を参照することで計算できる．同時に，nの子ノード(NW，NE，SW，およびSE)のソーシャルスコアを計算する(7-23行)．そして，それらのうち，Tに含まれる葉ノードである，もしくは子孫にTに含まれる葉ノードを 1つ以上含むノードに対して，NWから順に同様のチェックを行っていく(25-35行)．チェックしているノードが葉ノードの場合，閾値の方が大きければ，新しいデータがクエリの上位k個のデータとなる可能性があるため，解の更新を行う(3-5行)．先ほどの例の場合，ノード4は葉ノードであり，図6よりノード4はL0ssに含まれるため，計算された閾値(0.6)とノード4のソーシャルスコア(0.2)を比較すると，閾値の方が大きい．そのため，ノード4に含まれる全てのクエリに対して解の

Algorithm 3:ResultUpdate(q,o,T,f irst) Input: q, o, T , f irst

1 Calculate s(q, o)

2 if s(q, o) < q.scorekthen

3 Update top-k data of q

4 N← A set of nodes that are calculated by T [first].ds

5 for∀n ∈ N do 6 Update q.scorek 表1:データセット Yelp Brightkite ユーザの数 366,715 50,687 PoI の数 60,785 772,631 チェックイン 1,521,160 1,072,965 更新を行う．解の更新．葉ノードにおいて解の更新が必要であると判断されると，ResultUpdate(アルゴリズム3)を用いて，そのノードに含まれる全てのクエリに対して，解の更新を行う．まず，データのスコアを計算し，クエリのk番目のデータのスコアと比較する．新たに生成されたデータのスコアの方が小さければ，生成されたデータとk番目のデータを置き換える．提案アルゴリズムでは，Top-kデータの置き換えが実行されると，四分木に保存されている情報を更新する必要がある．置き換えが実行されたクエリを含むノードは，Tに保存された現在の葉ノードの数字列から計算できる．計算で得られたノードに対してTop-kデータの置き換えが実行されたクエリのk番目のデータのスコアの情報を更新する(5-6行)．アクセスが必要な全てのクエリに対して解の更新が終了すると，一つのデータに対する処理が終了し，四分木の各ノードの閾値は初期値にリセットされる．これを新しく生成された全てのデータに対して実行する．提案アルゴリズムでは，与えられたデータが，あるクエリにおける上位k個のものになるかを，スコアの上界値を用いて計算している．四分木によりクエリを管理することにより，アクセスするクエリの数を削減でき，高速に解の更新を行える．

4. 評価実験

本章では，ベースラインアルゴリズムおよび提案アルゴリズムの性能評価のために行った実験の結果を紹介する． 4. 1 セッティング

本実験は，Windows 7，3.47GHz Intel Xeon CPU，および

192GB RAMを搭載した計算機で行い，全てのアルゴリズムは C++で実装した．データセット．本実験では，2つの実データ（Yelp [3]および Brightkite [1]）を使用した．表1にデータセットの詳細を示す．それぞれのデータセットにおいて，PoIは位置情報を保持しており，ユーザとPoIのソーシャル関係はチェックイン情報を用いた．それぞれのデータセットはキーワードに関する情報を含ん

(7)

表2:パラメータの設定パラメータ値（デフォルト）各ノードに含まれる 5∼30 クエリの数の最大値，m Top-k の最大値，kmax 5∼30（10） 一度に発生するデータの数，d 100∼1,000（100） クエリの数，e 50,000∼350,000（50,000）(Yelp) 5,000∼50,000（10,000）(Brightkite) 2.4 2.6 2.8 3 5 10 15 20 25 30 更新時間 [sec] m(Yelp) 提案 (a) Yelp 0.25 0.3 0.35 5 10 15 20 25 30 更新時間 [sec] m(Brightkite) 提案 (b) Brightkite 図7: mの影響でいないため，あるデータoのo.keyとして，Yelpのレビューから得られた1∼5個程度のキーワードを一つのキーワードセットとした．このようにして作成した60,634個のキーワードセットのうち，いずれかを各データのキーワードとして用いた．パラメータ．本実験で用いたパラメータを表2に示す．mのデフォルトの値は，各データセットにおいて最初に最適な値を求め，その値を使用した．ユーザは一人ひとつのクエリを発行するものとし，qu.locは各データセットにおいて全てのPoIが存在する領域内の任意の点とした．qu.kは1からkmaxの間でランダムな値を選び，qu.keyはキーワードセットのいずれかを用いた． 4. 2 評価結果本実験では，各アルゴリズムにおける更新時間：(1度に発生する全てのデータに対して解の更新が完了するまでの平均時間 [sec])の結果を示す． mの影響．図7にmを変えたときの結果を示す．mが小さいと，1つのノードに含まれるクエリの数が少なくなり四分木の高さが高くなる．四分木の高さが高くなると，閾値を計算して比較を行う回数が多くなるため，更新時間が長くなる．mが大きくなると四分木の高さが低くなり更新時間は短くなるが，1 つのノードに含まれるクエリの数が多くなり，ノードで計算される閾値が大きくなる．閾値が大きくなると枝狩りが起きにくくなり，アクセスするクエリの数を削減できないため，mがある値よりも大きくなると再び更新時間が長くなる．以降，Yelp， Brightkiteともにm = 10とした． kmaxの影響．図8にkmaxを変えたときの結果を示す．まず，ベースラインアルゴリズムに比べて提案アルゴリズムの方が高速に解を更新している．また，ベースラインアルゴリズムは，全てのクエリに対してスコアを計算するため，kmaxによらず一定時間で解を更新している．一方，kmaxが大きくなると，よ 0 5 10 15 20 5 10 15 20 25 30 更新時間 [sec] (Yelp) 𝑘𝑚𝑎𝑥 ベースライン提案 (a) Yelp 0 0.5 1 1.5 5 10 15 20 25 30 更新時間 [sec] (Brightkite) 𝑘𝑚𝑎𝑥 ベースライン提案 (b) Brightkite 図8: kmaxの影響 0 50 100 150 100 300 500 700 900 更新時間 [sec] d(Yelp) ベースライン提案 (a) Yelp 0 5 10 15 100 300 500 700 900 更新時間 [sec] d(Brightkite) ベースライン提案 (b) Brightkite 図9: dの影響 0 30 60 90 120 50 100 150 200 250 300 350 更新時間 [sec] e(Yelp)[K] ベースライン提案 (a) Yelp 0 2 4 6 5 10 15 20 25 30 35 40 45 50 更新時間 [sec] e(Brightkite)[K] 千ベースライン提案 (b) Brightkite 図10: eの影響りスコアの高いデータがTop-kデータとなるため，提案アルゴリズムではノードで計算される閾値が大きくなる．そのため，枝狩りが起きにくくなり，更新時間が長くなる． dの影響．図9にdを変えたときの結果を示す．ベースラインアルゴリズムに比べて提案アルゴリズムの方が高速に解を更新している．また，提案アルゴリズムでは，解の更新が起こり得ないクエリにはアクセスしないため，ベースラインアルゴリズムに比べて１つのデータに対する更新時間が短い．そのため，一度に発生するデータの数が多くなると，どちらのアルゴリズムでも更新時間が増加するが，一度に発生するデータの数が多いほど，提案アルゴリズムとベースラインアルゴリズムの更新時間の差が大きくなる． eの影響．図10にeを変えたときの結果を示す．ベースラインアルゴリズムに比べて提案アルゴリズムの方が高速に解を更新している．また，クエリの数が多くなると解の更新が起こりえないクエリも多くなり，提案アルゴリズムでは，アクセスしないクエリが多くなる．そのため，クエリの数が多くなると，どちらのアルゴリズムでも更新時間が増加するが，提案アルゴリズムはベースラインアルゴリズムよりも増加率が小さくなる．

(8)

これらの結果から，提案したアルゴリズムが効果的であることが示される．

5.

6. 終わりに

PoI(Point of Interest)からのパブリッシュ/サブスクライブモデルに基づいたデータの発信，および位置情報サービスやソーシャルネットワークサービスの普及により，位置やキーワード，ソーシャル関係を用いた検索への関心が高まっている．本稿では，パブリッシュ/サブスクライブモデルで生成されたデータの中から，位置，キーワード，およびソーシャル関係に基づき，ユーザにとって有用な上位k個のデータをモニタリングする問題に取り組んだ．提案アルゴリズムでは，クエリを四分木により管理し，発生したデータが上位k個となり得るクエリにのみアクセスすることにより，リアルタイムモニタリングを実現している．評価実験の結果から，提案アルゴリズムの有効性を確認した．本稿では，データの発生にのみ着目したが，データの削除が起きるアプリケーションも存在する．そのため，データの削除および2. 2節で述べたソーシャル関係の更新への対応が今後の課題としてあげられる．謝辞．本研究の一部は，文部科学省科学研究費補助金・基盤研究 (A)(26240013)およびJST国際科学技術共同研究推進事業（戦略的国際共同研究プログラム）の研究助成によるものである．ここに記して謝意を表す．文献

[1] Brightkite dataset. http://snap.stanford.edu/data/

loc-brightkite.html.

[2] Facebook.https://www.facebook.com/.

[3] Yelp academic dataset. http://www.yelp.com/dataset_

challenge/.

[4] N. Armenatzoglou, S. Papadopoulos, and D. Papadias. A general

framework for geo-social query processing. PVLDB, 6(10):913–924, 2013.

[5] L. Chen, G. Cong, and X. Cao. An efficient query indexing

mech-anism for filtering geo-textual data. In SIGMOD, pages 749–760, 2013.

[6] L. Chen, G. Cong, X. Cao, and K.-L. Tan. Temporal spatial-keyword

top-k publish/subscribe. In ICDE, pages 255–266, 2015.

[7] G. J. Fakas. Geo-social keyword search. In SSTD, pages 431–449,

2015.

[8] G. Li, Y. Wang, T. Wang, and J. Feng. Location-aware

pub-lish/subscribe. In SIGKDD, pages 802–810, 2013.

[9] Z. Li, K. C. Lee, B. Zheng, W.-C. Lee, D. Lee, and X. Wang. Ir-tree:

An efficient index for geographic document search. IEEE TKDE, pages 585–599, 2011.

[10] X. Wang, Y. Zhang, W. Zhang, X. Lin, and W. Wang. Ap-tree:

Ef-ficiently support continuous spatial-keyword queries over stream. In ICDE, pages 1107–1118, 2015.

[11] D. Wu, Y. Li, B. Choi, and J. Xu. Social-aware top-k spatial keyword

search. In MDM, pages 235–244, 2014.

[12] C. Zhang, Y. Zhang, W. Zhang, and X. Lin. Inverted linear quadtree:

Efficient top k spatial keyword search. In ICDE, pages 901–912, 2013.

位置、キーワードおよびソーシャル関係に基づくTop-kパブリッシュ/サブスクライブ

DEIM Forum 2016 D3-3