• 検索結果がありません。

再生核ヒルベルト空間を

N/A
N/A
Protected

Academic year: 2021

シェア "再生核ヒルベルト空間を"

Copied!
40
0
0

読み込み中.... (全文を見る)

全文

(1)

1

再生核ヒルベルト空間を

用いた非線形データ解析法

情報・システム研究機構 統計数理研究所

(兼)総合研究大学院大学

福水 健次

(2)

2

Outline

„

イントロダクション

„

正定値カーネルと再生核ヒルベルト空間

„

正定値カーネルによるデータ解析 ~ カーネル法 ~

„

独立性、条件付独立性と再生核ヒルベルト空間

„

カーネル正準相関分析の統計的性質

„

おわりに -

(3)

3

イントロダクション

„

線形のデータ解析

…

古典的なデータ解析 データの行列表現

⇒ 線形の処理 (主成分分析,正準相関分析,線形回帰...)

⎟⎟

⎟⎟

⎜⎜

⎜⎜

=

N m N

m m

X X

X X

X X

X

"

#

#

"

"

1

2 2

1

1 1

1

m

次元

N

点のデータ ∈ R

N×m

(4)

4

„

線形データ解析の例

…

線形回帰分析

…

線形識別(2クラス)

問題

データを説明するのに最適な 超平面

y = aTx + b

を求めよ

X Y

問題

赤: クラス1に属するデータ 青: クラス2に属するデータ 2クラスを識別するのに最適な

超平面

aTx + b = 0

を求めよ

(5)

5 …

線形回帰の解

„

最適性の基準設定

Æ

最小2乗誤差

このとき、2乗誤差

=

…

線形なデータ解析を支えるもの

„

内積(相関)の計算 + 線形代数 + α

„

線形で十分か?

iN= iT i

a

X a

1Y min 2

[

YTY YT Xa aT XT Xa

]

a −2 +

min

( X X ) X Y

a ˆ =

T 1 T

(簡単のため

b

省略)

Y X X

X X Y Y

Y

T

T

(

T

)

1 T

(6)

6

„

非線形データ解析の重要性

-6 -4 -2 0 2 4 6

-6 -4 -2 0 2 4 6

線形識別不能

0 5

10 15

20 0 5

10 15

20 -15

-10 -5 0 5 10 15

線形識別可能

) 2

, , ( ) , ,

( z

1

z

2

z

3

= x

12

x

22

x

1

x

2

(7)

7

„

カーネル法の概略

…

高次元空間への写像を構成する方法論

データを高次元のヒルベルト空間(一般には無限次元)へ写像し、

解析しやすいデータに変換する。

…

カーネル法:

… H

内のデータに変換した後で線形の手法を用いる

… H

として再生核ヒルベルト空間を用いる

xi Φ(xi) zi

Ω

H Ω

Φ :

変換写像

Ω

: もとのデータの空間

H

: 高次元ベクトル空間

(8)

8

正定値カーネルと再生核ヒルベルト空間

(9)

9

正定値カーネル

„

正定値カーネル

Ω

:集合.

k(x,y)

Ω

上の正定値カーネルであるとは,次の2つを満たすことをいう

1.(対称性)

k(x,y) = k(y,x)

2.(正定値性) 任意の自然数

n

と,任意の

Ω

の点

x1, …, xn

に対し,

が(半)正定値.すなわち,任意の実数

c1,…, cn

に対し,

…

対称行列 のことを,グラム行列と呼ぶ

0 ) ,

1 (

,

= n

j

i cicjk xi xj

(

k(xi,xj)

)

in,j=1

R Ω

× Ω : k

(

k(xi, xj)

)

in,j=1

=

) , ( )

, (

) , ( )

, (

1

1 1

1

n n n

n

x x k x

x k

x x k x

x k

"

#

%

#

"

n

×

n

行列

(10)

10

„

正定値カーネルの例

…

多項式カーネル

…

ガウスカーネル

… Fourier

カーネル

(

複素数値)

d T y c x

y x

k( , ) = ( + )

Rm

=

Ω

d

:自然数,

c ≥ 0

= 12 2

exp )

,

(x y y x

k σ

Rm

=

Ω

σ > 0

Rm

=

Ω k(x, y) = e 1ωT(xy) (

ω

Rm

(11)

11

再生核ヒルベルト空間

…

集合

Ω

上の関数を要素に持つヒルベルト空間

H

再生核ヒルベルト空間(reproducing kernel Hilbert space, RKHS

) であるとは,

任意の

x

Ω

に対して

φx

H

があって,任意の

f

H

に対し

が成り立つことをいう.

… φx

のことを再生核という.

) (

, f x

f φx =

(12)

12

正定値カーネルと再生核ヒルベルト空間

„

定理

k(x,y) :

集合

Ω

上の正定値カーネル

Ω

上の関数からなるヒルベルト空間

Hk

が一意に存在して,

次の3つを満たす

(1)

(2)

有限和 の形の関数全体は

Hk

の中で稠密

(3)

(再生性)

注)

k(

, x)

・・・

x

を固定した

1

変数関数

x k

k(⋅, )∈H ( x

Ω

は任意に固定

)

=

= ni cik xi f 1 ( , )

) , ( , )

(x f k x

f = ⋅

f

Hk, x

Ω

(13)

13

„

正定値カーネルと RKHS

…

正定値カーネル ⇒

RKHS

正定値カーネル

k(x,y)

により定まる

Hk

は再生核を持つ

(

定理の

(3)

… RKHS

⇒ 正定値カーネル: 再生核

φx

は正定値カーネルを定める

…

) , ( x

x = k φ

正定値カーネル 再生核ヒルベルト空間

) (

, f x

f x =

⇒ φ

) ( )

,

(y x y

kx

= = = = = nj= j x

n

i i x

n j

i i j x x

n j

i, 1cicjk(xi,xj) , 1c c φ i ,φ j 1cφ i , 1c φ j ,

0

2

1

=

= n

i ciφxi y

x

x y

x y

k( , ) =φ ( ) = φ ,φ (

対称性もわかる)

(

正定値性

)

と定義

(14)

14

正定値カーネルによるデータ解析

(15)

15

„

カーネルによるデータ変換

…

データの非線形変換

データの空間 再生核ヒルベルト空間

= 特徴空間(feature space

…

内積計算:

…

特徴空間における線形アルゴリズム

Æ

データの空間での非線形アルゴリズム

xi Φ Hk

Ω x

,

xi

φ

xj

φ x

x

k x

x 6 Φ ( ) = ( ⋅ , ) = φ

Data space

カーネル

PCA,

カーネル

CCA, SVM

,プライン平滑化

etc

) , ( )

, ( ), , ( )

( ),

(x Φ y = k x k y = k x y

Φ

・・・

カーネルトリック

(16)

16

カーネル法の例 – カーネル CCA –

„

正準相関分析( canonical correlation analysis, CCA )

2つの確率ベクトル

X, Y

に対して、相関が最大となる方向を見つける

データ

X1, …, XN; Y1, …, YN

に対して

b C b a C

a

b C a

YY T XX

T

T XY T

b a

n

m ˆ ˆ

max ˆ

R R

(

a Xa X bbYY

)

aTCaXXCa bbTCYYb

T XY T

b T a

T

T T

b a

n m n

m

R R R

R

= max

] Var[

] Var[

] ,

max Cov[ 1/2

( )( )

=

=

=

= N iN i N Nj j i N Nj j T

XY X X Y Y

Cˆ 1 1 1 1 1 1

ただし

] ]) [ ])(

[

[( T

YX E Y E Y X E X

C = − −

(17)

17

„

カーネル CCA

ΩX , ΩY

上の正定値カーネル

kX , kY.

X

1

, …, X

N

φ

X1

, …, φ

XN

Y

1

, …, Y

N

φ

Y1

, …, φ

YN

H

X

H

Y

( , ),

X

i

k

X

X

i

φ = ⋅ ( , )

Y

i

k

Y

Y

i

φ = ⋅ ,

) ,

( )

,

~ (

1

1

=

=

X i N Nj X j

X

i

k X k X

φ =

Y

i

N

Nj= Y

j

Y

i

k ( , Y )

1 1

k ( , Y ) φ ~

=

=

=

N iN iX + N N iN iY + N

N i

Y i X

N i

H g

H f

Y Y X X

Y X

Y

X f f g g

g f

1

2 2 1

1

2 2 1

1 1

, ~ , ~

, ~ , ~

max

H H H H

H H

ε φ

ε φ

φ φ

変換

とおいて関数データに対する

CCA

を書き下すと

(18)

18

„

グラム行列による表現

{ }

1

Span iX N

f

φ

i

= g Span

{ } φ

iY iN=1

1

,

N X

i i i

f = ∑

=

a φ g =

iN=1

b

i i

φ

Y

2

, 1 1

1 1

1 , 1

( , ) ( , )

( , ) ( , )

N

X ij i j N a i a

N N

a j a b

a a b

N N

K k X X k X X

k X X K X X

=

= =

= −

− +

∑ ∑

で十分

により表すと

(

2

) (

2

)

max

N N

T

X Y

T T

a X N X Y N Y

b

a K K b

a K N ε K a b K N ε K b

R

+ +

R

ただし

Æ

固有値問題として解ける

(19)

19

-1 -0.5 0 0.5 1

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

f(x)

-1 -0.5 0 0.5 1

-0.35 -0.3 -0.25 -0.2 -0.15 -0.1 -0.05 0

g(y)

-1 -0.5 0 0.5 1

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

-0.35 -0.3 -0.25 -0.2 -0.15 -0.1 -0.05 0

y

x

y x

f(x) g(y)

Gaussian kernel is used.

) /

~ ||

||

exp( − zz

2

σ

2

(20)

20

データ解析と関数空間

„

関数空間内での線形データ解析

…

線形データ解析のために必要な性質

„

内積(相関)の計算

Æ

ヒルベルト空間

„

「関数の値」が決まる

Å

処理結果の利用

…

定理: 集合

Ω

上の関数を要素に持つヒルベルト空間

H

に対し、

任意の

x

Ω

に対して

が連続汎関数であるとき、

H

は再生核ヒルベルト空間である

… RKHS

は、データ解析を行うのに自然な関数空間

c.f. L2

空間

) (x f f

,

HR 6

(21)

21

„

RKHS を使う利点

…

数理的な観点から

„ k

Cr

級ならば

Hk

に属する関数は

Cr

„ EP[k(X,X)] <

∞ ならば

Hk

L2(P)

かつ包含写像は連続

…

情報処理的観点から

„

関数空間での内積計算が容易

„

従来の線形手法の非線形拡張が容易: 相関行列

Æ

グラム行列

„

非ベクトルデータの処理

もとのデータ空間はベクトル空間でなくてもよい

Æ

グラフデータ、ツリーデータ、ヒストグラムなどの処理

=

= iaik Xi g jbjk X j

f ( , ), ( , ) f , g =

ijaibjk(Xi, X j)

(22)

22

独立性、条件付独立性と

再生核ヒルベルト空間

(23)

23

独立性と RKHS

„

特性関数による独立性の特徴づけ(確率論の復習)

確率ベクトル

X

Y

が独立

[ ] [ ] [

Y Y

]

X X

Y X

XY

T T

T

T e E e E e

e

E 1ω 1η = 1ω 1η

for all ω and η.

は様々な関数による非線形相関を調べるテスト関数

y

x T

T

e

e

1ω

,

1η

[

,

]

0

Cov 1 1 =

e ωTX e ηTY for all ω and η.

(24)

24

„

RKHS による独立性の特徴づけ

HX, HY

: 可測空間

ΩX, ΩY

上の

RKHS

(有界で可測な正定値カーネル)

X

ΩX

上に値を持つ確率変数

, Y

ΩY

上に値を持つ確率変数

X

Y

が独立

という特徴づけは可能か?

…

確率決定的

H

: 可測空間

(Ω, Β)

上の有界で可測な正定値カーネルによる

RKHS Π: (Ω, Β)

上の確率測度全体

H

が確率決定的であるとは

が単射であることをいう。

[

f (X )g(Y)

]

E

[

f (X )

] [

E g(Y)

]

EXY = X Y

for all f H X , gHY

)]) (

[ (

*

,

X f E f

P 6 6

P

H

Π

(25)

25

定理1

直積 (

kXkY

で定まる

RKHS)

が確率決定的であるとき、

X

Y

が独立

定理2(

Bach and Jordan, 2002

(Rm, Bm)

に対して、ガウス

RBF

カーネル

は確率決定的である。

…

独立成分分析への応用

独立な

m

個の確率変数の線形変換像から、もとの確率変数を復元

[

f (X )g(Y)

]

E

[

f (X )

] [

E g(Y)

]

EXY = X Y

for all f H X , gHY

2

( , ) exp z 2z k z z

σ

⎛ − ⎞

= ⎜⎜⎝− ⎟⎟⎠

XY

H H

(26)

26

相互共分散作用素

„

相互共分散作用素の定義

X , Y:

可測空間

ΩX , ΩY

に値をとる確率変数

HX , HY : ΩX , ΩY

上の

RKHS

(有界で可測な正定値カーネル)

有界作用素 を次式により定義することができる。

系3

Y X

YX H H

Σ :

)]

( [ )]

( [ )]

( ) ( [

, f E f X g Y E f X E g Y

g YX XY X Y

Y

=

Σ H

for all f H X , g HY

(

= Cov[ f (X),g(Y)]

)

HX , HY :

ガウスカーネルによる

RKHS

YX = O Σ

X

Y

が独立

c.f. aTCYXb = Cov[aT X ,bTY]

(27)

27

条件付共分散作用素

„

共分散作用素の分解

相互共分散作用素 は以下のように分解できる

ただし

VYX

は有界作用素、

||VYX ||

1

かつ

„

条件付共分散作用素

Y X

YX H H

Σ :

1/ 2 1/ 2 YX YY

V

YX XX

Σ = Σ Σ

( YX ) ( YY ), ( YX ) ( XX ) R V = R Σ N V = N Σ

2 / 1 2

/ 1

|X YY YY YX XY YY

YY

≡ Σ − Σ V V Σ

Σ ( = Σ

YY

Σ

YX

Σ

−1XX

Σ

XY

)

(28)

28

条件付独立性と RKHS

„

条件付共分散作用素と2乗誤差

定理4

c.f.

線形回帰の2乗誤差

„

条件付分散による表現

定理5

(1)

任意の

g

HY

に対して

(2)

L2(PX)

で稠密

YY XX

YY YY

T b YX

a

C C

C C

b X

a Y

m

E

1 2

,

| ) (

|

min

− + = −

R R

) ( ]

| ) (

[g Y X L2 PX

E = ⋅ ∈

R H X

[

Var[ ( ) | ]

]

, | g E g Y X

g YY X X

Y

=

Σ H

2

| inf ( ( ) [ ( )]) ( ( ) [ ( )])

, g E g Y E g Y f X E f X

g XY

X f YY

Y X

= Σ H ∈H

(29)

29

„

条件付独立性の特徴付け

確率変数

Y, U, V

に対し、

の特徴づけを考える。

定理6(

Fukumizu et al. 2004

U, V, Y:

可測空間

ΩU , ΩV , ΩY

に値をとる確率変数

HU, HV, HY : ΩU , ΩV , ΩY

上の

RKHS

(有界で可測なカーネルによる)

X = (U,V),

(直積)

HX, HU

は定理5の

(1), (2)

を満たすとする。このとき、

さらに

HY

が確率決定的であるならば

V U

X H H

H =

U V

Y ⊥ |

あるいは同値な条件

(X = (U,V))

X YY U

YY|

≥ Σ

|

Σ (≧は自己共役作用素の半順序)

U X

X

Y

YY U

YY|

= Σ

|

⇔ ⊥ |

Σ

U X Y ⊥ |

(30)

30

条件付共分散作用素による次元削減

„

回帰問題における次元削減

…

回帰問題: 確率変数

Y

X

にどう依存するかを調べる を推定する

…

回帰問題における次元削減

X

m

次元確率ベクトル

を満たす

m

×

d

d < m

)行列

B

を求める。回帰の低次元表現。

„

RKHS を用いた解法

)

| (Y X p

( | ) ( |

T

)

p Y X = p Y B X ( ⇔ YX | B

T

X )

[

YY B X

]

B

Tr

| T

min Σ カーネル次元削減法

Fukumizu et al. 2004

(31)

31

カーネル CCA の統計的性質

(32)

32

統計的推測

„

統計的推測の原理

…

データの背後には、それを発生させる確率分布がある

…

有限個のデータを用いて、その確率分布あるいはそれから決まる量を 推測する

„

カーネル法の統計的推測としての見方

…

データの変換ではなく、確率変数の変換

Æ RKHS

に値をとる確率変数

…

から決まる量(関数)を、有限個のデータから推測する

„

統計的推測法の妥当性

…

一致性: 有限データからの推定量が、確率分布から決まる真の量に 収束するか?

) ,

( X

k ⋅ )

,

( X

k

(33)

33

カーネル CCA の作用素による表現

„

期待値によるカーネル CCA

„

最適解

ξ, ζ :

の最大特異値に対する単位固有ベクトル

,

max ,

YX

f g

g Σ f

subj. to

f , Σ

XX

f = 1, g , Σ

YY

g = 1

1/ 2

* *

1/ 2

* *

XX YY

f g

ξ ζ

⎧ = Σ

⎪ ⎨

⎪⎩ = Σ

2 / 1 2

/

1

Σ Σ

Σ

=

YY YX XX

V

YX

(34)

34

„

有限サンプルに対するカーネル CCA

…

経験相互共分散作用素

…

カーネル

CCA

…

( ) 1 1 1

1 1 1

, ˆ

YXN N iN

(

i

) ( )

i N iN

(

i

)

N iN

( )

i

g Σ f = ∑

=

f X g Y − ∑

=

f X

=

g Y

( ) ,

max , ˆYXN

f g

g Σ f subj. to

f , ( Σ ˆ

(XXN)

+ ε

N

I f ) = 1,

( ˆ

( )

)

,

YYN N

1,

g Σ + ε I g = ˆ

N

, ˆ

N

ξ ζ V ˆ

YX(N)

: = Σ ( ˆ

YY(N)

+ ε

N

I )

1/ 2

Σ ˆ

YX(N)

( Σ ˆ

(XXN)

+ ε

N

I )

1/ 2

( ) 1/ 2

( ) 1/ 2

ˆ ( ˆ ) ˆ

ˆ ˆ

( )

ˆ

N

N XX N N

N

N YY N N

f I

g I

ε ξ

ε ζ

⎧ = Σ +

⎪ ⎨

= Σ +

⎪⎩

の最大特異値に対する単位固有ベクトル

(35)

35

„

解の一致性(収束性)

…

あるいは

は成り立つか?

…

どのような関数空間のノルムのもとで収束するか?

…

収束するための正則化係数

εN

の条件は?

*

*

, ˆ

ˆ f g g

f

N

N

*

*

, ˆ

ˆ ξ ζ ζ

ξ

N

N

(36)

36

カーネル CCA の一致性

Theorem 1

If V

YX

is compact, and the regularization coefficient satisfies

then,

in probability as .

0,

1/ 3

( )

N

N

N

N

ε → ε → ∞ → ∞

ˆ ,

*

1,

N X

ξ ξ →

H

ˆ ,

*

1

N Y

ζ ζ →

H

N → ∞

Note: convergence of RKHS is very strong.

If the kernels are bounded, it is stronger than

the uniform norm.

(37)

37

Theorem 2

Suppose V

YX

is compact, and the regularization coefficient satisfies

If ξ

*

and ζ

*

are included in R

XX

) and R

YY

), respectively, then

in probability as .

0,

1/ 3

( ).

N

N

N

N

ε → ε → ∞ → ∞

N → ∞

( ) ( )

2( )

ˆ [ ˆ ( )] [ ( )] 0

X

N X N X

L P

fE f XfE f X

( ) ( )

2( )

[ ( )] [ ( )] 0

ˆ ˆ

N Y N Y L PY

gE g YgE g Y

(38)

38

„

証明の核になる命題

命題

… Hilbert-Schmidt

ノルム

…

大数の法則

…

中心極限定理

…

上の命題は収束のオーダーに関する強い結果

) (

),

ˆ( ) −Σ = ( 1/2 → ∞

Σ Op N N

YX HS N

YX

2 1

2

|| ||

||

|| A

HS

= ∑

i=

A ϕ

i

( { ϕ

i

}

i=1

CONS

iN= i iN

iN= i N iN= i N1 1 f (X )g(Y ) 1 1 f (X ) 1 1g(Y )

)]

( [ )]

( [ )]

( ) (

[ f X g Y E f X E g X

E

f g

f

g,ΣˆYX(N) → ,ΣYX

(

ˆ

)

( )

, Σ( ) − Σ f = O N1/2

g YXN YX p

(39)

39

おわりに

„

再生核ヒルベルト空間を用いたデータ解析

… RKHS

: 関数の値が意味を持つヒルベルト空間

…

内積計算が容易

…

属する関数の連続性や微分可能性

…

ベクトルでないデータに対しても相関(内積)計算を可能にする

„

独立性、条件付独立性の特徴づけ

…

相互共分散作用素を用いた線形手法の非線形化

„

カーネル法の統計的性質

…

漸近的な性質、一致性

…

カーネル

CCA

の一致性のための正則化係数の十分条件

(40)

40

„

参考文献

… K. Fukumizu, F.R. Bach, and M.I. Jordan (2004)

Dimensionality reduction for supervised learning with reproducing kernel Hilbert spaces. Journal of Machine Learning Research.

5:73-99.

…

福水健次(

2003

)「再生核ヒルベルト空間を用いた回帰問題における 次元削減法」 日本数学会2003年秋季大会予稿集

… K. Fukumizu, F.R. Bach, and Arthur Gretton (2005) Consistency of kernel canonical correlation analysis.

ISM Research Memo 942.

… K. Fukumizu, F.R. Bach, and M.I. Jordan (2005)

Consistency of kernel dimensionality reduction. In preparation.

URL: http://www.ism.ac.jp/~fukumizu/

参照

関連したドキュメント

Regarding of data analysis, one-way ANOVA, Scheffe post-hoc tests, independent samples t-tests, multiple regression analysis, and canonical correlation analysis were computed

Using the spatio-temporal correlation analysis of velocity fluctuations, we evaluated the convective velocity and the spatial and temporal scale of the coherent turbulence..

その他のタイトル Orthogonalized contribution vectors in cross‑modal multivariate analysis ; An

Estimation of relationships between chemical substructures and antibiotic resistance-related gene expression in bacteria: Adapting a canonical correlation analysis

Tajima, Grothendieck duality and $Hermi\theta e$ -Jacobi formula, Finite. or Infinite Dimensional Complex Analysis, Lecture

space $H_{K}$ admitting a reproducing kernel $K(p, q)$ on a set $E$ into a

The Bergman kernel and biholomorphic mappings of pseudoconvex domains, Invent. $L^{2}$ estimates and existence theorems

柳研二郎 (山口大工) 1 はじめに 通信における数学的理論は 1948 年シャノンによって創設され