Nonparametric Kernel Bayes Smoothing on State Space

(1)

科学研究費補助金新学術領域研究「スパースモデリングの深化と高次元データ駆動科学の創成」 2015年度公開シンポジウム

Nonparametric Kernel Bayes Smoothing on State Space Models

西山悠

1

電気通信大学大学院情報システム学研究科

(C01-2セミパラメトリックベイズ班)

1 はじめに

特徴空間でベイズ推論を行うカーネルベイズ推論が構築されている．カーネルベイズ推論に基づく状態空

間モデルのフィルタリングアルゴリズムが提案されている[1]．今年度，新しくカーネルベイズ推論に基づく状態空間モデルのスムージングアルゴリズムを開発したので，この結果を報告する．本稿は，論文[2]の結果を一部紹介するものである．詳細は論文を参照されたい．状態空間モデルの状態集合と観測集合をそ

れぞれX,Zとする．X,Zは, ユークリッド空間の部分集合X ⊆Rd, Z ⊆Rd

′

とは限らない. グラフ, 画像など構造データの集合でも良い．上記のフィルタリング・スムージングアルゴリズムは，状態空間モデル

の状態遷移過程x(t)7→x(t+1)，観測過程x(t)7→z(t)に数理モデルを仮定せず,代わりにそれらの教師ありデータ(状態遷移データ ( ˜X_i,X˜_i′)l_i₌₁，観測過程データ(X_i, Z_i)n_i₌₁)とデータ間の類似度(状態集合X上の正定値カーネルkX,観測集合Z上の正定値カーネルkZ)の情報を入力として，データ駆動型でノンパラメトリックにフィルタリングとスムージングの結果を出力するものである．特に状態集合and/or観測集合が構造データの場合や，複雑な遷移過程，観測過程を有する状態空間モデルの場合にアルゴリズムの有効性

が期待される．

2 状態空間モデルの設定

カーネルベイズ推論では確率分布P の代わりに確率分布の特徴空間(再生核ヒルベルト空間H)での表現としてカーネル平均m_P ∈ Hを推定する. カーネル平均m_P はデータxの特徴量k(·, x)の期待値

mP(·) :=EX∼P[k(·, X)]∈ Hで定義される．特性的カーネルと呼ばれるあるクラスの正定値カーネルを用いた場合，m_P はP を一意に定め,m_P の推定はPを推定したことと等しいと言える．状態空間モデルにおけるノンパラメトリックカーネルベイズ推論の設定を述べる．

• 状態遷移: 状態x∈ X から次状態x′ ∈ X へ遷移する条件付き確率PX′_|X のカーネル平均m_P

X ′ |X を

教師ありデータ{( ˜X_i,X˜_i′)}l_i₌₁から，関数値-カーネルリッジ回帰の要領で，ノンパラメトリック学習を行う. ここで，状態間x,x˜∈ X の類似度kX(x,x˜) (正定値カーネルkX)を定義する．

• 観測過程: 同様に，状態x ∈ X で観測値z ∈ Zが観測される条件付き確率PZ|X のカーネル平均

mPZ|Xを教師ありデータ{(Xi, Zi)} n

i=1から，関数値-カーネルリッジ回帰の要領で，ノンパラメトリック学習を行う. ここで，観測値間z,z˜∈ Zの類似度kZ(z,z˜) (正定値カーネルkZ)を定義する．上記ノンパラメトリック学習には状態遷移データを訓練データに使う．ただし, テストや予測の際には,観測値系列z_1:_T のみから状態変数を推定し，フィルタリングとスムージングを計算する．状態遷移データを

訓練データに使えた方が予測精度は上がることが期待される．

3 カーネルベイズスムージング

カーネルベイズフィルタ[1]では観測値系列z_1:_tが与えられたもとでフィルタ分布p(x_t|z_1:_t)のカーネル平均

mXt|z1:t を推定する．カーネルベイズスムージングでは観測値系列z1:T が与えられたもとで過去の状態分

布p(x_t|z_1:_T), (t < T)のカーネル平均m_Xt_|_z

1:T を推定する．これらのカーネル平均は，以下のようにデー

タ上の時刻tに依存する重みベクトルα(t)∈Rn,w(t)∈Rlで推定される．

ˆ

mXt|z1:t := n

∑

i=1

α(it)kX(·, Xi), (1≤t≤T), mˆXt|z1:T := l

∑

i=1

w(it)kX(·,X˜i), (1≤t≤T−1).

1_{E-mail: ynishiyam@gmail.com}

(2)

Filtering Smoothing

Figure 1: カーネルベイズフィルタ&カーネルベイズスムージング

重みベクトルα(t),w(t)は非負とは限らない．図1は, フィルタリングとスムージングの概念図である．左上図はカーネルベイズフィルタの更新の様子を表し, ztの逐次的な観測とともに，重みベクトルα(t)が逐次的に更新される．α(t)7→α(t+1)の更新式は，論文[1]で与えられている．α(t+1)の更新は，学習データに依存するグラム行列を用いた行列の積で与えられる．左下図はカーネルベイズスムージングの更新の様

子を表したものである．重みベクトルの更新w(t+1)7→w(t)は，重みベクトルα(T)を初期値として後ろ向きに更新される．重みベクトルw(t)の更新もカーネルベイズフィルタと同様，学習データに依存する行列

の積で行われる．右図は,ある時刻tでの推定されたフィルタリングとスムージングカーネル平均のスナップショットである．X 上のシアン曲線の関数は，カーネル平均(再生核ヒルベルト空間の元)を表している. 確率密度関数を表していないことに注意されたい．通常の確率分布自身を更新する様々なフィルタリング・

スムージングアルゴリズムとは異なり，カーネルベイズフィルタ・スムージングは，特徴空間でベイズ推論

を行うもので，特徴空間の元を時間更新していく．

4 カーネルベイズスムージング詳細

カーネルベイズスムージングの後ろ向き更新式w(t+1)7→w(t)の概要を述べる．スムージングカーネル平均はある適当な条件下で以下の漸化式を満たす．

mXt|z1:T(x) =

⟨

mXt|(·),z1:t(x), mXt+1|z1:T

⟩

HX, x∈ X, (1≤t≤T−1),

ここでm_Xt_|₍_·₎_,z

1:t(x)は実数値mXt|xt+1,z1:t(x)のxt+1についての関数である．カーネル平均mXt|xt+1,z1:t

は事前カーネル平均をフィルタリングカーネル平均m_Xt_|_z

1:t,観測値をxt+1とする事後カーネル平均[1]で

推定される．このカーネルベイズ則推定量をmˆ_Xt_|_xt

+1,z1:t= l

∑

i=1

γ(t,xt+1)

i kX(·,X˜i)とする．カーネルベイズ

スムージングの後ろ向き更新式w(t+1)7→w(t)は以下の行列計算で与えられる．

w(T−1)= Γ(T−1)α(T), w(t)= Γ(t)w(t+1), (1≤t≤T−2),

ここで行列Γ(T−1)∈Rl×n, Γ(t)∈Rl×lは,以下の事後カーネル平均の重み行列である．

Γ(T−1):= (γ(T−1,X1)_{, . . . , γ}(T−1,Xn)₎_, _Γ(t)_{:= (}_γ(t,X˜1)_{, . . . , γ}(t,Xl˜)₎_.

行列の積w(t)= ( ∏t

i=T−1Γ(

i)₎_α(T)

により時刻tのスムージングカーネル平均の重みベクトルw(t)が計算

される．訓練サンプル数がn=lの典型的では,カーネルベイズフィルタの計算量はO(n3)である．カーネルベイズスムージングの計算量も同じオーダO(l3)である. グラム行列の不完全コレスキー分解など低ランク近似を使って，これらの計算量は削減可能である.

References

[1] K. Fukumizu and L. Song and A. Gretton: Kernel Bayes’ Rule: Bayesian Inference with Positive Definite Kernels, JMLR2013.

[2] Y. Nishiyama, A. H. Afsharinejad, S. Naruse, B. Boots and L. Song: The Nonparametric Kernel Bayes’ Smoother, AISTATS2016 (to appear).