再生核ヒルベルト空間と統計的学習
福水健次
情報・システム研究機構 統計数理研究所
はじめに
正定値カーネルないしは再生核ヒルベルト空間を用 いた統計的学習の方法論は、サポートベクターマシン の成功以降、急速に発展した分野である。この方法 論では、再生核ヒルベルト空間(関数空間の持つ再生 性を利用して、データの(一般には非線形な)関数を 推定する。このとき、再生性から、学習に使うデータ を再生核ヒルベルト空間に写像した関数データを解析 することになる。このような方法論に基づいて、マー ジン最大化判別、 判別分析、主成分分析、正準 相関分析などの線形手法が非線形化される。 以下では、このような再生核ヒルベルト空間を用い るデータ解析の例として、筆者らが研究している,回 帰問題の次元削減/特徴抽出に関する方法を紹介する。正定値カーネルと再生核ヒルベル
ト空間
集合 上の正定値カーネルとは、 の対称な関 数 !で、任意の に対し、対称行 列! ! が半正定値になるものとして定義される。 集合 上の正定値カーネル に対し、 上の関数か らなるヒルベルト空間 が存在して、 ! の形の元は で稠密であり、再生性と呼ばれる性質 !"! ! を満たす。ここでは の内積である。統計的学 習への応用では再生性が重要となる。再生核ヒルベル ト空間の基本的な性質は#に詳しい。 連絡先:統計数理研究所 〒 東京都港区南麻布条件付き独立性の特徴づけ
上の正定値カーネルを適切に選ぶと、再生核ヒルベ ルト空間は 上の関数の十分豊かなクラスを表すこと ができる。例えば、 をÊ またはÊ 上のコンパク ト集合とするとき、 上で !"$! ( %)という正定値カーネル!ガウスカーネルによ り定まる再生核ヒルベルト空間は、 ! ( 上のコ ンパクトサポートを持つ連続関数全体)のなかで一様 ノルムのもと稠密であることが知られている。 この関数族の豊かさを使うと,確率変数の独立性や 条件付独立性の特徴づけに再生核ヒルベルト空間を用 いることが可能である。 をそれぞれ " Ê "Ê に値をとる確率変数とし, 上のガウス カーネル再生核ヒルベルト空間を とすると き、 と が独立であることと & !! "% ! が任意の に対して成立することは同 値である。このことは、十分豊かな関数族に対して非 線形相関が0であるならば、その2つの確率変数が独 立であることを意味している。 !式の共分散は に関して連続な双線形写像で あるので, & !! "' !# を満たす有界線形作用素 ' ( を定義す ることが可能である。これは相互共分散作用素と呼ば れる。 相互共分散作用素を用いると、条件付き分散)! を表すことができる。いま、 は Ê のコンパクト 集合でガウスカーネルを用いると仮定すると、任意の に対して )! "'が成立する。ここで ' "' ' ' ' であり、これを条件付共分散作用素と呼ぶことにする。 いま、Ê " と、部分空間 の直 交直和で表され、それに応じて "!と分解さ れるとする。 上のガウスカーネルに対する再生核 ヒルベルト空間を をすると、条件付分散に関して )! )! が常に成り立つのは明らか、すなわち ' ' である。さらに、緩やかな条件のもと、 ' "' !* であることと とが同値となる!*。!*式は、 から に情報を減 らしても、 の推定が劣化しないことを意味しており、 再生核ヒルベルト空間による条件付独立性の特徴づけ を与える。