1
再生核ヒルベルト空間を
用いた非線形データ解析法
情報・システム研究機構 統計数理研究所
(兼)総合研究大学院大学
福水 健次
2
Outline
イントロダクション
正定値カーネルと再生核ヒルベルト空間
正定値カーネルによるデータ解析 ~ カーネル法 ~
独立性、条件付独立性と再生核ヒルベルト空間
カーネル正準相関分析の統計的性質
おわりに -
3
イントロダクション
線形のデータ解析
古典的なデータ解析 データの行列表現
⇒ 線形の処理 (主成分分析,正準相関分析,線形回帰...)
⎟⎟
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜⎜
⎜
⎝
⎛
=
N m N
m m
X X
X X
X X
X
"
#
#
"
"
1
2 2
1
1 1
1
m
次元
N点のデータ ∈ R
N×m4
線形データ解析の例
線形回帰分析
線形識別(2クラス)
問題
データを説明するのに最適な 超平面
y = aTx + bを求めよ
X Y
問題
赤: クラス1に属するデータ 青: クラス2に属するデータ 2クラスを識別するのに最適な
超平面
aTx + b = 0を求めよ
5
線形回帰の解
最適性の基準設定
Æ最小2乗誤差
このとき、2乗誤差
=
線形なデータ解析を支えるもの
内積(相関)の計算 + 線形代数 + α
線形で十分か?
∑
iN= i − T ia
X a
1Y min 2
[
YTY YT Xa aT XT Xa]
a −2 +
min
( X X ) X Y
a ˆ =
T −1 T(簡単のため
b省略)
Y X X
X X Y Y
Y
T−
T(
T)
−1 T6
非線形データ解析の重要性
-6 -4 -2 0 2 4 6
-6 -4 -2 0 2 4 6
線形識別不能
0 5
10 15
20 0 5
10 15
20 -15
-10 -5 0 5 10 15
線形識別可能
) 2
, , ( ) , ,
( z
1z
2z
3= x
12x
22x
1x
27
カーネル法の概略
高次元空間への写像を構成する方法論
データを高次元のヒルベルト空間(一般には無限次元)へ写像し、
解析しやすいデータに変換する。
カーネル法:
H
内のデータに変換した後で線形の手法を用いる
H
として再生核ヒルベルト空間を用いる
xi Φ(xi) zi
Ω
→ H Ω
Φ :
変換写像
Ω
: もとのデータの空間
H
: 高次元ベクトル空間
8
正定値カーネルと再生核ヒルベルト空間
9
正定値カーネル
正定値カーネル
Ω
:集合.
k(x,y)
が
Ω上の正定値カーネルであるとは,次の2つを満たすことをいう
1.(対称性)
k(x,y) = k(y,x)2.(正定値性) 任意の自然数
nと,任意の
Ωの点
x1, …, xnに対し,
が(半)正定値.すなわち,任意の実数
c1,…, cnに対し,
対称行列 のことを,グラム行列と呼ぶ
0 ) ,
1 (
, ≥
∑
= nj
i cicjk xi xj
(
k(xi,xj))
in,j=1→ R Ω
× Ω : k
(
k(xi, xj))
in,j=1⎟⎟
⎟
⎠
⎞
⎜⎜
⎜
⎝
⎛
=
) , ( )
, (
) , ( )
, (
1
1 1
1
n n n
n
x x k x
x k
x x k x
x k
"
#
%
#
"
n
×
n行列
10
正定値カーネルの例
多項式カーネル
ガウスカーネル
Fourier
カーネル
(複素数値)
d T y c x
y x
k( , ) = ( + )
Rm
=
Ω
(
d
:自然数,
c ≥ 0)
⎟⎠
⎜ ⎞
⎝
⎛− −
= 12 2
exp )
,
(x y y x
k σ
Rm
=
Ω
(
σ > 0)
Rm
=
Ω k(x, y) = e −1ωT(x−y) (
ω
∈Rm)
11
再生核ヒルベルト空間
集合
Ω上の関数を要素に持つヒルベルト空間
Hが
再生核ヒルベルト空間(reproducing kernel Hilbert space, RKHS
) であるとは,
任意の
x∈
Ωに対して
φx∈
Hがあって,任意の
f∈
Hに対し
が成り立つことをいう.
φx
のことを再生核という.
) (
, f x
f φx =
12
正定値カーネルと再生核ヒルベルト空間
定理
k(x,y) :
集合
Ω上の正定値カーネル
Ω
上の関数からなるヒルベルト空間
Hkが一意に存在して,
次の3つを満たす
(1)(2)
有限和 の形の関数全体は
Hkの中で稠密
(3)(再生性)
注)
k(・
, x)・・・
xを固定した
1変数関数
x k
k(⋅, )∈H ( x
∈
Ωは任意に固定
)∑
= ⋅= ni cik xi f 1 ( , )
) , ( , )
(x f k x
f = ⋅
∀
f∈
Hk, x∈
Ω13
正定値カーネルと RKHS
正定値カーネル ⇒
RKHS正定値カーネル
k(x,y)により定まる
Hkは再生核を持つ
(定理の
(3))
RKHS
⇒ 正定値カーネル: 再生核
φxは正定値カーネルを定める
) , ( x
x = k ⋅ φ
正定値カーネル 再生核ヒルベルト空間
) (, f x
f x =
⇒ φ
) ( )
,
(y x y
k =φx
⇒
∑
∑
∑
∑
= = = = = nj= j xn
i i x
n j
i i j x x
n j
i, 1cicjk(xi,xj) , 1c c φ i ,φ j 1cφ i , 1c φ j ,
0
2
1 ≥
=
∑
= ni ciφxi y
x
x y
x y
k( , ) =φ ( ) = φ ,φ (
対称性もわかる)
(
正定値性
)と定義
14
正定値カーネルによるデータ解析
15
カーネルによるデータ変換
データの非線形変換
データの空間 再生核ヒルベルト空間
= 特徴空間(feature space)
内積計算:
特徴空間における線形アルゴリズム
Æ
データの空間での非線形アルゴリズム
xi Φ Hk
Ω xj
,
xi
φ
xj
φ x
xk x
x 6 Φ ( ) = ( ⋅ , ) = φ
(
Data space)
カーネル
PCA,カーネル
CCA, SVM,プライン平滑化
etc) , ( )
, ( ), , ( )
( ),
(x Φ y = k ⋅ x k ⋅ y = k x y
Φ
・・・
カーネルトリック16
カーネル法の例 – カーネル CCA –
正準相関分析( canonical correlation analysis, CCA )
2つの確率ベクトル
X, Yに対して、相関が最大となる方向を見つける
データ
X1, …, XN; Y1, …, YNに対して
b C b a C
a
b C a
YY T XX
T
T XY T
b a
n
m ˆ ˆ
max ˆ
R R
∈∈
(
a Xa X bbYY)
aTCaXXCa bbTCYYbT XY T
b T a
T
T T
b a
n m n
m
R R R
R
∈
∈
∈
∈ = max
] Var[
] Var[
] ,
max Cov[ 1/2
( )( )
∑
= −∑
= −∑
== N iN i N Nj j i N Nj j T
XY X X Y Y
Cˆ 1 1 1 1 1 1
ただし
] ]) [ ])(
[
[( T
YX E Y E Y X E X
C = − −
17
カーネル CCA
ΩX , ΩY
上の正定値カーネル
kX , kY.X
1, …, X
Nφ
X1, …, φ
XNY
1, …, Y
Nφ
Y1, …, φ
YN∈ H
X∈ H
Y( , ),
X
i
k
XX
iφ = ⋅ ( , )
Y
i
k
YY
iφ = ⋅ ,
) ,
( )
,
~ (
1
1
∑
=⋅
−
⋅
=
X i N Nj X jX
i
k X k X
φ =
Y⋅
i−
N∑
Nj= Y⋅
jY
i
k ( , Y )
1 1k ( , Y ) φ ~
∑
∑
∑
=
=
=
∈∈ N iN iX + N N iN iY + N
N i
Y i X
N i
H g
H f
Y Y X X
Y X
Y
X f f g g
g f
1
2 2 1
1
2 2 1
1 1
, ~ , ~
, ~ , ~
max
H H H H
H H
ε φ
ε φ
φ φ
変換
とおいて関数データに対する
CCAを書き下すと
18
グラム行列による表現
{ }
1Span iX N
f
φ
i∈ = g ∈Span
{ } φ
iY iN=11
,
N X
i i i
f = ∑
=a φ g = ∑
iN=1b
i iφ
Y2
, 1 1
1 1
1 , 1
( , ) ( , )
( , ) ( , )
N
X ij i j N a i a
N N
a j a b
a a b
N N
K k X X k X X
k X X K X X
=
= =
= −
− +
∑
∑ ∑
で十分
により表すと
(
2) (
2)
max
N NT
X Y
T T
a X N X Y N Y
b
a K K b
a K N ε K a b K N ε K b
∈
∈R
+ +
R
ただし
Æ
固有値問題として解ける
19
-1 -0.5 0 0.5 1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
f(x)
-1 -0.5 0 0.5 1
-0.35 -0.3 -0.25 -0.2 -0.15 -0.1 -0.05 0
g(y)
-1 -0.5 0 0.5 1
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
-0.35 -0.3 -0.25 -0.2 -0.15 -0.1 -0.05 0
y
x
y x
f(x) g(y)
Gaussian kernel is used.
) /
~ ||
||
exp( − z − z
2σ
220
データ解析と関数空間
関数空間内での線形データ解析
線形データ解析のために必要な性質
内積(相関)の計算
Æヒルベルト空間
「関数の値」が決まる
Å処理結果の利用
定理: 集合
Ω上の関数を要素に持つヒルベルト空間
Hに対し、
任意の
x∈
Ωに対して
が連続汎関数であるとき、
Hは再生核ヒルベルト空間である
RKHS
は、データ解析を行うのに自然な関数空間
c.f. L2空間
) (x f f
,
H → R 6
21
RKHS を使う利点
数理的な観点から
k
が
Cr級ならば
Hkに属する関数は
Cr級
EP[k(X,X)] <
∞ ならば
Hk⊆
L2(P)かつ包含写像は連続
情報処理的観点から
関数空間での内積計算が容易
従来の線形手法の非線形拡張が容易: 相関行列
Æグラム行列
非ベクトルデータの処理
もとのデータ空間はベクトル空間でなくてもよい
Æ
グラフデータ、ツリーデータ、ヒストグラムなどの処理
∑
∑
⋅ = ⋅= iaik Xi g jbjk X j
f ( , ), ( , ) f , g =
∑
ijaibjk(Xi, X j)22
独立性、条件付独立性と
再生核ヒルベルト空間
23
独立性と RKHS
特性関数による独立性の特徴づけ(確率論の復習)
確率ベクトル
Xと
Yが独立
[ ] [ ] [
Y Y]
X X
Y X
XY
T T
T
T e E e E e
e
E −1ω −1η = −1ω −1η
⇔ for all ω and η.
は様々な関数による非線形相関を調べるテスト関数
y
x T
T
e
e
−1ω,
−1η[
,]
0Cov 1 1 =
⇔ e −ωTX e −ηTY for all ω and η.
24
RKHS による独立性の特徴づけ
HX, HY
: 可測空間
ΩX, ΩY上の
RKHS(有界で可測な正定値カーネル)
X
:
ΩX上に値を持つ確率変数
, Y:
ΩY上に値を持つ確率変数
Xと
Yが独立
という特徴づけは可能か?
確率決定的
H
: 可測空間
(Ω, Β)上の有界で可測な正定値カーネルによる
RKHS Π: (Ω, Β)上の確率測度全体
H
が確率決定的であるとは
が単射であることをいう。
[
f (X )g(Y)]
E[
f (X )] [
E g(Y)]
EXY = X Y
⇔ for all f ∈H X , g∈HY
)]) (
[ (
*
,
X f E f
P 6 6
P→ H
Π
25
定理1
直積 (
kXkYで定まる
RKHS)が確率決定的であるとき、
X
と
Yが独立
定理2(
Bach and Jordan, 2002)
(Rm, Bm)
に対して、ガウス
RBFカーネル
は確率決定的である。
独立成分分析への応用
独立な
m個の確率変数の線形変換像から、もとの確率変数を復元
[
f (X )g(Y)]
E[
f (X )] [
E g(Y)]
EXY = X Y
⇔
for all f ∈H X , g∈HY
2
( , ) exp z 2z k z z
σ
⎛ − ⎞
= ⎜⎜⎝− ⎟⎟⎠
X ⊗ Y
H H
26
相互共分散作用素
相互共分散作用素の定義
X , Y:
可測空間
ΩX , ΩYに値をとる確率変数
HX , HY : ΩX , ΩY
上の
RKHS(有界で可測な正定値カーネル)
有界作用素 を次式により定義することができる。
系3
Y X
YX H → H
Σ :
)]
( [ )]
( [ )]
( ) ( [
, f E f X g Y E f X E g Y
g YX XY X Y
Y
−
=
Σ H
for all f ∈H X , g ∈HY
(
= Cov[ f (X),g(Y)])
HX , HY :
ガウスカーネルによる
RKHSYX = O Σ
X
と
Yが独立
⇔c.f. aTCYXb = Cov[aT X ,bTY]
27
条件付共分散作用素
共分散作用素の分解
相互共分散作用素 は以下のように分解できる
ただし
VYXは有界作用素、
||VYX ||≦
1かつ
条件付共分散作用素
Y X
YX H → H
Σ :
1/ 2 1/ 2 YX YY
V
YX XXΣ = Σ Σ
( YX ) ( YY ), ( YX ) ( XX ) R V = R Σ N V = N Σ
2 / 1 2
/ 1
|X YY YY YX XY YY
YY
≡ Σ − Σ V V Σ
Σ ( = Σ
YY− Σ
YXΣ
−1XXΣ
XY)
28
条件付独立性と RKHS
条件付共分散作用素と2乗誤差
定理4
c.f.
線形回帰の2乗誤差
条件付分散による表現
定理5
(1)任意の
g∈
HYに対して
(2)は
L2(PX)で稠密
YY XX
YY YY
T b YX
a
C C
C C
b X
a Y
m
E
1 2
,
| ) (
|
min
−∈
∈
− + = −
R R
) ( ]
| ) (
[g Y X L2 PX
E = ⋅ ∈
⊕ R H X
[
Var[ ( ) | ]]
, | g E g Y X
g YY X X
Y
=
Σ H
2
| inf ( ( ) [ ( )]) ( ( ) [ ( )])
, g E g Y E g Y f X E f X
g XY
X f YY
Y X
−
−
−
= Σ H ∈H
29
条件付独立性の特徴付け
確率変数
Y, U, Vに対し、
の特徴づけを考える。
定理6(
Fukumizu et al. 2004)
U, V, Y:
可測空間
ΩU , ΩV , ΩYに値をとる確率変数
HU, HV, HY : ΩU , ΩV , ΩY
上の
RKHS(有界で可測なカーネルによる)
X = (U,V),
(直積)
HX, HU
は定理5の
(1), (2)を満たすとする。このとき、
さらに
HYが確率決定的であるならば
V U
X H H
H = ⊗
U V
Y ⊥ |
あるいは同値な条件
(X = (U,V))X YY U
YY|
≥ Σ
|Σ (≧は自己共役作用素の半順序)
U X
X
Y
YY U
YY|
= Σ
|⇔ ⊥ |
Σ
U X Y ⊥ |
30
条件付共分散作用素による次元削減
回帰問題における次元削減
回帰問題: 確率変数
Yが
Xにどう依存するかを調べる を推定する
回帰問題における次元削減
X:
m次元確率ベクトル
を満たす
m×
d(
d < m)行列
Bを求める。回帰の低次元表現。
RKHS を用いた解法
)
| (Y X p
( | ) ( |
T)
p Y X = p Y B X ( ⇔ Y ⊥ X | B
TX )
[
YY B X]
B
Tr
| Tmin Σ カーネル次元削減法
(
Fukumizu et al. 2004)
31
カーネル CCA の統計的性質
32
統計的推測
統計的推測の原理
データの背後には、それを発生させる確率分布がある
有限個のデータを用いて、その確率分布あるいはそれから決まる量を 推測する
カーネル法の統計的推測としての見方
データの変換ではなく、確率変数の変換
Æ RKHSに値をとる確率変数
から決まる量(関数)を、有限個のデータから推測する
統計的推測法の妥当性
一致性: 有限データからの推定量が、確率分布から決まる真の量に 収束するか?
) ,
( X
k ⋅ )
,
( X
k ⋅
33
カーネル CCA の作用素による表現
期待値によるカーネル CCA
最適解
ξ∗, ζ∗ :
の最大特異値に対する単位固有ベクトル
,
max ,
YXf g
g Σ f
subj. tof , Σ
XXf = 1, g , Σ
YYg = 1
1/ 2
* *
1/ 2
* *
XX YY
f g
ξ ζ
−
−
⎧ = Σ
⎪ ⎨
⎪⎩ = Σ
2 / 1 2
/
1 −
−
Σ Σ
Σ
=
YY YX XXV
YX34
有限サンプルに対するカーネル CCA
経験相互共分散作用素
カーネル
CCA
解
:
( ) 1 1 1
1 1 1
, ˆ
YXN N iN(
i) ( )
i N iN(
i)
N iN( )
ig Σ f = ∑
=f X g Y − ∑
=f X ∑
=g Y
( ) ,
max , ˆYXN
f g
g Σ f subj. to
f , ( Σ ˆ
(XXN)+ ε
NI f ) = 1,
( ˆ
( ))
,
YYN N1,
g Σ + ε I g = ˆ
N, ˆ
Nξ ζ V ˆ
YX(N): = Σ ( ˆ
YY(N)+ ε
NI )
−1/ 2Σ ˆ
YX(N)( Σ ˆ
(XXN)+ ε
NI )
−1/ 2( ) 1/ 2
( ) 1/ 2
ˆ ( ˆ ) ˆ
ˆ ˆ
( )
ˆ
N
N XX N N
N
N YY N N
f I
g I
ε ξ
ε ζ
−
−
⎧ = Σ +
⎪ ⎨
= Σ +
⎪⎩
の最大特異値に対する単位固有ベクトル
35
解の一致性(収束性)
あるいは
は成り立つか?
どのような関数空間のノルムのもとで収束するか?
収束するための正則化係数
εNの条件は?
*
*
, ˆ
ˆ f g g
f
N→
N→
*
*
, ˆ
ˆ ξ ζ ζ
ξ
N→
N→
36
カーネル CCA の一致性
Theorem 1
If V
YXis compact, and the regularization coefficient satisfies
then,
in probability as .
0,
1/ 3( )
N
N
NN
ε → ε → ∞ → ∞
ˆ ,
*1,
N X
ξ ξ →
H
ˆ ,
*1
N Y
ζ ζ →
H
N → ∞
Note: convergence of RKHS is very strong.
If the kernels are bounded, it is stronger than
the uniform norm.
37
Theorem 2
Suppose V
YXis compact, and the regularization coefficient satisfies
If ξ
*and ζ
*are included in R (Σ
XX) and R (Σ
YY), respectively, then
in probability as .
0,
1/ 3( ).
N
N
NN
ε → ε → ∞ → ∞
N → ∞
( ) ( )
2( )
ˆ [ ˆ ( )] [ ( )] 0
X
N X N X
L P
f − E f X − f − E f X →
( ) ( )
2( )
[ ( )] [ ( )] 0
ˆ ˆ
N Y N Y L PY
g − E g Y − g − E g Y →
38
証明の核になる命題
命題
Hilbert-Schmidt
ノルム
大数の法則
中心極限定理
上の命題は収束のオーダーに関する強い結果
) (
),
ˆ( ) −Σ = ( 1/2 → ∞
Σ Op N− N
YX HS N
YX
2 1
2
|| ||
||
|| A
HS= ∑
i∞=A ϕ
i( { ϕ
i}
i∞=1:
CONS)
∑
∑
iN= i i − N∑
iN= i N iN= i N1 1 f (X )g(Y ) 1 1 f (X ) 1 1g(Y ))]
( [ )]
( [ )]
( ) (
[ f X g Y E f X E g X
E −
→
f g
f
g,ΣˆYX(N) → ,ΣYX
(
ˆ)
( ), Σ( ) − Σ f = O N−1/2
g YXN YX p
39
おわりに
再生核ヒルベルト空間を用いたデータ解析
RKHS
: 関数の値が意味を持つヒルベルト空間
内積計算が容易
属する関数の連続性や微分可能性
ベクトルでないデータに対しても相関(内積)計算を可能にする
独立性、条件付独立性の特徴づけ
相互共分散作用素を用いた線形手法の非線形化
カーネル法の統計的性質
漸近的な性質、一致性
カーネル
CCAの一致性のための正則化係数の十分条件
40
参考文献
K. Fukumizu, F.R. Bach, and M.I. Jordan (2004)
Dimensionality reduction for supervised learning with reproducing kernel Hilbert spaces. Journal of Machine Learning Research.
5:73-99.
福水健次(
2003)「再生核ヒルベルト空間を用いた回帰問題における 次元削減法」 日本数学会2003年秋季大会予稿集
K. Fukumizu, F.R. Bach, and Arthur Gretton (2005) Consistency of kernel canonical correlation analysis.
ISM Research Memo 942.
K. Fukumizu, F.R. Bach, and M.I. Jordan (2005)
Consistency of kernel dimensionality reduction. In preparation.
URL: http://www.ism.ac.jp/~fukumizu/