• 検索結果がありません。

多様体学習と非線形次元縮約

N/A
N/A
Protected

Academic year: 2021

シェア "多様体学習と非線形次元縮約"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

多様体学習と非線形次元縮約

Manifold Learning and Nonlinear Dimension Reduction

西森 康則

産業技術総合研究所 脳神経情報研究部門

Neuroscience Research Institute, National Institute of Advanced Industrial Science and

Technology (AIST)

Abstract: We review algorithms and theory of manifold learning in machine learning.

1

はじめに

データの次元縮約は、パターン認識における特徴抽 出などの前処理として、また、機械学習における教師 無き学習や、データマイニングにおける可視化などと 関連して様々な領域で用いられている操作である。し かしながら、通常よく使われる主成分分析などの線形 の次元縮約手法は自ずから適用限界があり1、近年、高 次元のユークリッド空間の中で低次元多様体の周囲に 集中して散布しているとみなせるデータに対して、そ の多様体構造を利用した非線形次元縮約法が、多様体 学習 (manifold learning) という名の下に研究されてい る。粗く述べると、機械学習における多様体学習とは、 Rn内の d 次元部分多様体 M からサンプルされた N 個のデータ Ω = (x1, x2, . . . , xN), xi ∈ Rnが与えられ た時、それらの点を M 内の隣接関係をできるだけ保 存するように低次元空間Rd(d≪ n) に写像することを 指す。 xi7→ yi= (f1(xi), . . . , fd(xi)) ∈ Rd より狭義には、M が、スイスロールに代表されるよう なRdの凸部分集合 Θ から等長的にRnに埋め込まれ た (ψ : Θ → M) 部分多様体 [25]、あるいは Rdの開 連結部分集合 Θ から局所等長的にRnに埋め込まれた 部分多様体 [9] のように、Θ でパラメータ表示された 多様体の時、サンプル xi(i = 1, . . . , N )のパラメータ ψ−1(xi)を、Rdの等長変換分の不定性を除いて求める ことである。(3 節で触れる) 90年代にも局所 PCA や画像多様体などの、多様体学習 に関連した研究は単発的に発表されていたが、機械学習 連絡先:産業技術総合研究所 脳神経情報研究部門       〒 305-8568 茨城県つくば市梅園 1-1-1 つくば中央第 2        E-mail: [email protected] 1ただし、多様体の次元が入れ物の次元に比べて充分低次元で、曲 がり具合も穏やかな場合は、線形写像(ランダム射影)でも、充分 測地的距離を保存した次元縮約が高確率でできる、という結果があ る。[1] の分野でこの問題が活発に研究されるようになったの は、2000 年にサイエンス誌で 2 つの論文が掲載されて からだと思われる。そこで発表された手法 (Isomap と LLE(局所線形埋め込み)) が脚光を浴びたのは、解法が (一般化)固有値問題に還元されるため、局所最適解に 陥ることを回避できるという点や、カーネル PCA の一 種として理解できるため機械学習のトレンドにうまく 適合したことがあげられるだろう。本稿では、Isomap や LLE を含む、固有ベクトルを用いた埋め込み型の多 様体学習のアルゴリズム (それらは [5] でスペクトル埋 め込みと呼ばれている) についてレビューを行う。その 他の手法、例えば隠れ変数を用いた確率モデルを使う 手法については触れない。以下、第 2 節で代表的な埋 め込み型の多様体学習のアルゴリズムを簡潔に紹介す る。第 3 節でアルゴリズムが実際に元の多様体の座標 を復元しているか、に関わる理論研究を紹介する。第 4節で応用例を示す。第 5 節で今後の問題について述 べる。

2

スペクトル埋め込み型の多様体学

習のアルゴリズム

スペクトル埋め込みのクラスに属する多様体学習の アルゴリズムには、Isomap, LLE, ラプラシアン固有 マップ [2]、ヘシアン固有マップ [9]、スペクトルクラス タリング、拡散マップ (diffusion maps)[8] 等がある。以 下で Isomap, LLE, ラプラシアン固有マップ、拡散マッ プの各アルゴリズムを簡潔にまとめる。いずれも固有 値問題を解いて、固有ベクトルを並べたデータをもと に写像を作るのが特徴である。これらのアルゴリズム は、まず前処理として、データの多様体に関する情報 を近傍グラフに変換する。データの各点がグラフの頂 点に対応し、各頂点は近傍に含まれる頂点とのみ辺で 結ばれる。多くは ϵ 近傍や、k 最近傍を選ぶ。その後に 以下の手続きによって非線形次元縮約を行う。 人工知能学会研究会資料 SIG-DMSM-A903-18 (03/30) 115

(2)

1. Isomap • M 上の任意の 2 点 xi, xjの測地的距離の近 似値として、近傍グラフ上の xi, xjの最短 経路長 dijをダイクストラ法などによって求 める。 • dijを用いて多次元尺度構成法 (MDS) によ り、xiを yiにマップする。 2. LLE • xi∈ Rnを xiの近傍 Uiに含まれる点の線形 結合で “近似的”に表したい。xi≈N j=1Wijxj ここで j /∈ Uiなら Wij = 0とする。Wij を ∑j∈UiWij = 1という制約化で||xi j∈UiWijxj|| 2を最小化する事によって求 める。 • 上で得られた各近傍 Ui内の線形の隣接関係 を、次元縮約後もできるだけ保ちたい。そ こで、∑Ni=1||yi−j∈UiWijyj|| 2を最小化 する。この解は (I− W )⊤(I− W ) の固有ベ クトルを固有値の2番目に小さいもの v1か ら (d + 1) 番目 vdまで抽出することで得ら れる。(最小固有値に対応する固有ベクトル は定ベクトルなので省く)V = (v1, . . . , vd) • xiを yi = Vi⊤ ∈ Rdにマップする。ここに Viは V の第 i 行ベクトル。 3. ラプラシアン固有マップ • 近傍グラフの各辺 xixjに重み Wij = 1、あ るいは exp(−||xi− xj||2/σ)を割り当てる。 • 多様体のラプラス作用素のグラフにおける 類似物であるグラフラプラシアン L = D− W (Dii = ∑n j=1Wij, Dij = 0(i ̸= j)) を導 入し、グラフラプラシアンの固有ベクトル (正確には Lv = λDv の解) を、固有値の2 番目に小さいもの v1から (d + 1) 番目 vdま で抽出する。(最小固有値に対応する固有ベ クトルは定ベクトルなので省く)以下 LLE と同様。 4. 拡散マップ • 近傍グラフの各辺 xixjに重み Wij ≥ 0, Wij = Wjiを割り当てる。これを正規化して N×N の推移確率行列 P を作る。 Pij = p1(xi, xj) = Wij/Dii pt(xi, xj)は P で表現されるグラフ上のラン ダムウォークによって xiを出発して t ステッ プ後に xjに到達する確率を表すとする。推 移行列の性質から pt(xi, xj)は t→ ∞ で定 常分布 ϕ0(xj)に収束する。この時、点 xi, xj の拡散距離を Dt(xi, xj)2= ∑N k=1(pt(xi, xk) pt(xj, xk))20(xk)で定義する。 • P の固有値及び固有ベクトルを P ψi = λiψi, 1 =0| ≥ |λ1| ≥ . . . ≥ |λN−1| ≥ 0 とする。 この時 D2 t(xi, xj) = ∑N k=1λ 2t k(ψk(xi)− ψk(xj))2 が成り立つ。|λi| ≤ 1 であるから、N より 小さい適当な次元 d(t) までの固有ベクトル をとって yi= Ψt(xi) = (λt1ψ1(xi), . . . , λtd(t)ψd(t)(xi)) と次元縮約する。この時 ||yi− yj||2≈ Dt2(xi, xj)が成り立つ。 Isomap、LLE、ラプラシアン固有マップ、スペクトル クラスタリング等はデータに依存したカーネルを使っ たカーネル PCA と解釈できることが、[5, 12] で示さ れている。[5] では、さらにナイストレム (Nystr¨om)拡 張を援用することによって、未知サンプルを再学習す ることなく埋め込む方法についても論じている。

3

理論解析

統計的学習理論の汎化性能の解析と同様に、多様体 学習の有効性が理論的に正当化されるには、サンプル 数を十分大きくした極限で、背景にある多様体の情報 が復元されるという議論がなされるべきである。“多様 体”、“学習”という名前が付いているものの、実際に多 様体学習のアルゴリズムでこのことを示している論文 はまだあまりない。 Isomapでは多様体 M 上の 2 点 x, y 間の測地的距離 dM(x, y)の近似として、近傍グラフ G 上の最短経路長 dG(x, y)が使われたが、M がRd内の凸集合からRn に等長的に埋め込まれた部分多様体 (ψ : Θ→ M) で、 M からある条件を満たす確率分布に従ってデータが サンプルされた時、漸近的に dG(x, y)が dM(x, y)に 収束することが Bernstein 等により示されている。[7] 従って、Isomap は漸近的には xi(i = 1, . . . , N )の座標 ψ−1(xi)(i = 1, . . . , N )を、Rdの等長変換分の不定性 を除いて復元しているといってよい。 一方 Donoho 等 [9] は、Rd の開連結部分集合 Θ から局 所等長的にRnに埋め込まれた部分多様体の時、M 上の 汎関数H =M||Hf(m)||2Fdxの零空間が、M の局所座 標 ψ−1(xi)(i = 1, . . . , N )を、Rdの等長変換分の不定性 を除いて与えることを示した。(Hf(m)は f : M → R のヘシアン) この汎関数をサンプル値を使って近似的に 求め、その零空間を求めることによりサンプル点の次 元縮約を与える方法がヘシアン固有マップである。し かしながら、Bernstein 等の結果のような、サンプル数 116

(3)

を大きくしていった時に、ヘシアンの推定値が M のヘ シアンに収束するか、といった議論はなされていない ようである。 最後にラプラシアン固有マップに関連してであるが、 ユークリッド空間内のリーマン部分多様体とその上の 確率測度が与えられた時、サンプル点が無限に増えて いく極限で、サンプルから作った近傍グラフのグラフラ プラシアンの固有ベクトルが、元の多様体のラプラシ アン (ラプラス作用素) の固有関数へ収束するか?とい う問題が幾つかのグループで論じられている。[4, 8, 13] ここで、機械学習の研究者にはほとんど知られていな いが、リーマン多様体のラプラシアンに関する定理と して B`erard等 [6] による以下のものがあることに注意 する。 n次元の閉リーマン多様体 M と M のラプラシアンの 固有関数の正規基底が一つ{φj(x)}j≥1与えられたと き、次で定まる写像は任意の t≥ 0 に対して M から l2 への埋め込みを与える。 ψt: M→ l2(t≥ 0) (1) x→√2 (4π)n/4t(n+2)/4 { e−λjt/2φ j(x) } j≥1 (2) さらに l2の標準計量を can と書くと、t が 0 に近づく 極限で (ψt)canは漸近的に M のリーマン計量 g に収

束する。(ψt)∗can= g + t/3(1/2Scalg·g −Ricg) + O(t2)

ここに Scalg, Ricg は各々M のスカラー曲率、リッチ・ テンソル。 Jones等 [14] はこの定理を精緻化して、閉多様体 M のラプラシアンの固有関数(の定数倍)を、(最小固有 値の 0 を除いて) 小さい固有値に対応するものから n 個 並べることによって、M の任意の点の近傍で局所座標 を構成できることを示した。従って、グラフラプラシ アンの固有ベクトルが、多様体のラプラシアンの固有 関数に (ある条件の下で) 収束することを示す Belkin[4] 等の結果と併せると、ラプラシアン固有マップが、漸 近的には元の多様体の局所座標を構成することがほぼ 示せる。(しかし厳密な証明はまだ与えられていないと 思われる)

4

応用

多様体学習は機械学習の中ではカーネル法、距離学 習、クラスタリング、半教師あり学習 [3]、転移学習と 密接に関連している。他分野への応用としては、コン ピュータ・ビジョンの分野で最も多く使われている印 象を受ける。例えば同一人物の顔が受ける変化は低次 元の自由度を持つと考えられるから、それらはまとめ て一つの多様体(articulation manifold)[10] をなして いると考えられる。モーション・キャプチャー・データ なども同様なものとみなせるだろう。[11] 同様に、背 後にある少数自由度のものに制御されて生成される運 動やスピーチなどのデータには多様体学習が使える可 能性がある。[16, 21] また、多様体学習はグラフの埋め込みにも使うことが できるが、多様体学習とグラフ埋め込みの動機は微妙 に異なるので、可視化などに適したグラフに特化した 埋め込み方法が色々研究されている。[22] その他に非 線形独立成分分析 [23]、マルコフ決定過程 [18]、ニュー ロンのスパイクデータ解析 [24]、分子構造の解析等に も多様体学習は使われている。無論、多様体学習の応 用例は既に莫大にあり、これらの例は全く網羅的なも のではない。

5

今後の課題

グラフラプラシアンの収束性の議論は多分に技術的 であるが、他に理論的に解決すべき問題としては例え ば多様体の次元の推定があるだろう。[17] さらに、一 つのチャートでは覆えない多様体の複数のチャートを 求める問題や、多様体のトポロジーをサンプルから学 習する問題 [19] はまだ充分研究されていない。これら は今後の課題であろう。また、単独の多様体だけでな く、複数の多様体を扱う問題、特に交差した、次元の 異なる複数の多様体からサンプルされたデータの学習 (多様体クラスタリング) も重要な問題だと思われる。 本稿では触れなかったが、もちろん確率モデルを用い る方法も強力であり、問題によって埋め込み型の方法 と相補的に用いられるべきであろう。

参考文献

[1] R G. Baraniuk, and M B. Wakin: Random Pro-jections of Smooth Manifolds, Foundations of

Computational Mathematics, Volume. 9, No. 1,

pp.51-77  (2009)

[2] M. Belkin, and P. Niyogi: Laplacian Eigenmaps for Dimensionality Reduction and Data Repre-sentation, Neural Computation, Vol. 15, No.6, pp. 1373–1396 (2003)

[3] M. Belkin, and P. Niyogi: Semi-Supervised Learning on Riemannian Manifolds, Machine

Learning, Vol. 56, No. 1, pp. 209–239 (2004年) [4] M. Belkin, and P. Niyogi: Convergence of

Lapla-cian Eigenmaps, preprint, (2008)

(4)

[5] Y. Bengio, O. Delalleau, N. Le Roux, J-F. Paiement, P. Vincent, M. Ouimet: Learn-ing Eigenfunctions Links Spectral EmbeddLearn-ing and Kernel PCA, Neural Computation, Vol. 16, No. 10, pp. 2197–2219 (2004)

[6] B. B`erard, G. Besson and S. Gallot: Embedding Riemannian manifolds by their heat kernel,

Ge-ometric And Functional Analysis, Vol. 4, No. 4,

pp. 374–398 (1994)

[7] M. Bernstein, V de Silva, JC. Langford, and JB. Tenenbaum: Graph approximations to geodesics on embedded manifolds, preprint

[8] R. Coifman, and S. Lafon: Diffusion maps

Ap-plied and Computational Harmonic Analysis ,

Vol. 21, pp. 5–30 (2006)

[9] D L. Donoho, and C Grimes: Hessian eigen-maps: Locally linear embedding techniques for high-dimensional data, Proceedings of National

Academy of Science, Vol. 100, No. 10, pp.

5591-5596 (2009)

[10] D L. Donoho, and C Grimes: Image Manifolds which are Isometric to Euclidean Space,

Jour-nal of Mathematical Imaging and Vision, Vol. 23,

No. 1, pp. 5–24 (2009)

[11] A. Elgammal, and C-S Lee: Inferring 3D Body Pose from Silhouettes Using Activity Manifold Learning, Proc. of CVPR’04, Vol. 2, pp. 681-688 (2004)

[12] J. Ham, D D. Lee, S. Mika, and B. Scholkopf: A kernel view of the dimensionality reduction of manifolds, Proceedings of International

Confer-ence on Machine Learning pp. 47–54 (2004)

[13] M. Hein, J.-Y Audibert, and U. von Luxburg: From Graphs to Manifolds - Weak and Strong Pointwise Consistency of Graph Laplacians,

Lec-ture Notes in Computer Science, Vol. 3559,

pp. 1611–3349 (2005)

[14] P. Jones, M. Maggioni, and R. Schul: Universal local parametrizations via heat kernels and eigen-functions of the Laplacian, arXiv:0709.1975.

[15] ND. Lawrence: Gaussian Process Latent Vari-able Models for. Visualisation of High Dimen-sional Data, Advances in NIPS 16, pp. 329–336 (2004)

[16] J. Lee, and S-Y. Lee: Learning the Dynamical System Behind Sensory Data, to appear in

Neu-ral Computation

[17] E. Levina, and PJ. Bickel: Maximum Likelihood Estimation of Intrinsic Dimension, Advances in

NIPS 17, pp. 777–784 (2005)

[18] S Mahadevan, and M. Maggioni: Proto-value Functions: A Laplacian Framework for Learning Representation and Control in Markov Decision Processes, The Journal of Machine Learning

Re-search, Vol. 8, pp. 2169–2231 (2007)

[19] P. Niyogi, S. Smale, and S. Weinberger: Find-ing the Homology of Submanifolds with High Confidence from Random Samples, Discrete and

Computational Geometry, Vol. 39, No.,pp. 1–23

(2009)

[20] S. Roweis and S. Saul: Nonlinear Dimensional-ity Reduction by Locally Linear Embedding,

Sci-ence, Vol. 290, No. 5500, pp. 2323–2326 (2000)

[21] A. Safonova, J K. Hodgins, Synthesizing Physically Realistic Human Motion in Low-dimensional, Behavior-specific spaces, ACM Transactions on Graphics, Vol. 23, No. 3 (2004)

[22] B. Shaw, and T. Jebara: Structure Preserving Embedding, Proc. of ICML (2009)

[23] A. Singer,and R R. Coifman: Non-linear inde-pendent component analysis with diffusion maps, Applied and Computational Harmonic Analy-sis,Vol. 25, No. 2, pp. 226–239 (2008)

[24] M. Stopfer, V. Jayaraman1, and G. Laurent: In-tensity versus Identity Coding in an Olfactory System, Neuron, Vol. 39, No. 6, pp. 991-1004 (2003)

[25] J. Tenenbaum, V. de Silva, and L. Langford:

Sci-ence, Vol. 290, No. 5500, pp. 2319–2323 (2000)

参照

関連したドキュメント

[r]

In this section we prove reflection theorems for locally compact linearly ordered spaces and i-weight. We begin with several lemmas that build toward the main result. We determine

Nov, this definition includ.ing the fact that new stages on fundamental configuration begin at the rows 23 imply, no matter what the starting configuration is, the new stages

[r]

A major challenge involved in orbit design within the context of the circular restricted three-body problem CR3BP is the organization of the vast set of options that is available

Let φ be a semiflow of holomorphic maps of a bounded domain D in a complex Banach space. The general question arises under which conditions the existence of a periodic orbit of

† Institute of Computer Science, Czech Academy of Sciences, Prague, and School of Business Administration, Anglo-American University, Prague, Czech

Taking care of all above mentioned dates we want to create a discrete model of the evolution in time of the forest.. We denote by x 0 1 , x 0 2 and x 0 3 the initial number of