メトリック空間における最近傍ペア探索アルゴリズムの高速化
2
0
0
全文
(2) 情報処理学会第 73 回全国大会. (a) Nasa. (b) Corel Image Datasets. (c) Color Histogram. 図 2: Computational Cost. 合を Si = {o|o ∈ S ∧ ti ≤ d(o, p) < ti+1 } と定義する.. トグラムデータ,68, 040 件),そして Color Histogram. まず,オブジェクト集合 X と Y それぞれから,. (112 次元のヒストグラムデータ,112, 544 件)の 3 つ. Refo,S 6= nil ∧ Refo,S > u (S = X, Y ) を満たすオ ブジェクトをすべて除く.. のデータセットを使用した.Corel Image Datasets は. 次に,分割統治の事前計算を行う.まず,X からラ. X から除く.そして,p から X と Y に含まれる各オ. brary で提供されている.いずれもユークリッド距離を 類似度とした.実験では,AMP(提案手法),AMP in reverse order(歪度の値をもとにした多分割を AMP. ブジェクトまでの距離を計算する.p から各オブジェ. と逆順にした手法),Binary partitioning(2 分割の. クトまでの距離の最小値,最大値,平均値,歪度をそ. 手法 ),そして Nested Loops(Naive な手法)の 4 つ. れぞれ dmin ,dmax ,dmean ,s とする.歪度は 3 次の. の手法を実装した.1 から 100, 000 の最近傍ペアを探. モーメントである.d(oi , p) < u (oi ∈ Y )(X = Y の. 索する問い合わせを 500 回実行し,距離計算回数の平. ときは doi ,p < u (oi ∈ X))を満たすオブジェクトの. 均値を求めた.. ペア (oi , p) を見つけたら,A と u を更新する. そして,分割・統治ステップをはじめる.i 番目の分割. Nested Loops の実験結果を 100%としたときの結果 を出力したものが図 2 である.提案手法は最も距離計. 距離を ti とする.s < 0 の Negative skewness のとき,. 算を削減できている.また,2 分割手法と比べると,多. 初期値 t0 は dmin とし,ti+1 = ti + u とする.ただし,. 分割のほうが性能が良い.これは,分割のステップの. t1 に限り t1 > dmean のときは t1 = dmean とする.分. たびにオブジェクト集合のサイズだけ Pivot との距離. 割ステップとして,Xi と Yi に対して,AMP(Xi , Yi ). の計算が発生するが,多分割にすることで分割ステッ. (X = Y のときは AMP(Xi ))を実行する.統治ス. プの回数を低減できたことによるものだと思われる.. ンダムにオブジェクトを 1 つ選び,Pivot p とし,p を. 0 テップでは,Xi−1 0 u},Xi = {o|o ∈. = {o|o ∈ Xi−1 ∧ ti − d(p, o) < Xi ∧ d(p, o) − ti < u} の新た な部分集合をつくる.オブジェクトの参照距離は, 0 0 ∀o ∈ Xi−1 , Refo,Xi−1 = min {Refo,X , ti − d(p, o)}, ∀o ∈ Xi0 , Refo,Xi0 = min {Refo,X , d(p, o) − ti } とする. 0 同様に,Yi−1 と Yi0 を作る.そして,X 6= Y のとき. 0 0 は AMP(Xi−1 , Yi0 ) と AMP(Xi0 , Yi−1 ) を,X = Y の. UCI KDD Archive で,それ以外は Metric Space Li-. 4. まとめ 我々は,適応型空間多分割による分割統治法の k 最. 近傍ペア探索手法,AMP を提案した.3 つの実デー タを使った実験から,距離計算コストを効果的に削減 できることを確認した.今後は人工データを使って詳 細に評価したい.. 0 ときは AMP(Xi−1 , Xi0 ) を実行する.. 参考文献. s ≥ 0 の Positive skewness のときは,t0 = dmax , ti+1 = ti − u,t1 に限り t1 < dmean のときは t1 =. [1] R.Paredes, et al., Solving similarity joins and range queries in metric spaces with the list of. dmean として,p から距離の離れたオブジェクトから 順に分割・統治のステップを実行する. 3. 評価実験. twin clusters. J. of Discrete Algorithms, 2009. [2] E.H.Jacox, et al., Metric space similarity joins, ACM Trans. Database Syst., 2008.. 実験には,Nasa(20 次元のヒストグラムデータ,. 40, 150 件),Corel Image Datasets(32 次元の画像ヒス. 1-508. Copyright 2011 Information Processing Society of Japan. All Rights Reserved..
(3)
図
関連したドキュメント
Global Optimization by Generalized Random Tunneling Algorithm 3rd Report: Search of some local minima by branching Satoshi KITAYAMA and Koetsu YAMAZAKI Department of Human &
問題の中心は、いわゆるインド = ヨーロッパ語族 のインド = アーリヤ、あるいはインド = イラン、さ らにインド =
自ら将来の課題を探究し,その課題に対して 幅広い視野から柔軟かつ総合的に判断を下す 能力 (課題探究能力)
この数日前に、K児の母から「最近、家でも参観曰の様子を見ていても、あまり話をし
TCPA Time to Closest Point of Approach の略称.
原子炉圧力は、 RCIC、 HPCI が停止するまでの間は、 SRV 作動圧力近傍で高圧状態に維持 される。 HPCI 停止後の
最近一年間の幹の半径の生長ヰま、枝葉の生長量
断するだけではなく︑遺言者の真意を探求すべきものであ