科学研究費補助金新学術領域研究「スパースモデリングの深化と高次元データ駆動科学の創成」 2015年度公開シンポジウム
Nonparametric Kernel Bayes Smoothing on State Space Models
西山悠
1電気通信大学大学院情報システム学研究科
(C01-2セミパラメトリックベイズ班)
1
はじめに
特徴空間でベイズ推論を行うカーネルベイズ推論が構築されている.カーネルベイズ推論に基づく状態空
間モデルのフィルタリングアルゴリズムが提案されている[1].今年度,新しくカーネルベイズ推論に基づ く状態空間モデルのスムージングアルゴリズムを開発したので,この結果を報告する.本稿は,論文[2]の 結果を一部紹介するものである.詳細は論文を参照されたい.状態空間モデルの状態集合と観測集合をそ
れぞれX,Zとする.X,Zは, ユークリッド空間の部分集合X ⊆Rd, Z ⊆Rd
′
とは限らない. グラフ, 画 像など構造データの集合でも良い.上記のフィルタリング・スムージングアルゴリズムは,状態空間モデル
の状態遷移過程x(t)7→x(t+1),観測過程x(t)7→z(t)に数理モデルを仮定せず,代わりにそれらの教師あり データ(状態遷移データ ( ˜Xi,X˜i′)li=1,観測過程データ(Xi, Zi)ni=1)とデータ間の類似度(状態集合X上の 正定値カーネルkX,観測集合Z上の正定値カーネルkZ)の情報を入力として,データ駆動型でノンパラメ トリックにフィルタリングとスムージングの結果を出力するものである.特に状態集合and/or観測集合が 構造データの場合や,複雑な遷移過程,観測過程を有する状態空間モデルの場合にアルゴリズムの有効性
が期待される.
2
状態空間モデルの設定
カーネルベイズ推論では確率分布P の代わりに確率分布の特徴空間(再生核ヒルベルト空間H)での表 現 と し て カ ー ネ ル 平 均mP ∈ Hを 推 定 す る. カ ー ネ ル 平 均mP は デ ー タxの 特 徴 量k(·, x)の 期 待 値
mP(·) :=EX∼P[k(·, X)]∈ Hで定義される.特性的カーネルと呼ばれるあるクラスの正定値カーネルを用 いた場合,mP はP を一意に定め,mP の推定はPを推定したことと等しいと言える.状態空間モデルに おけるノンパラメトリックカーネルベイズ推論の設定を述べる.
• 状態遷移: 状態x∈ X から次状態x′ ∈ X へ遷移する条件付き確率PX′|X のカーネル平均mP
X ′ |X を
教師ありデータ{( ˜Xi,X˜i′)}li=1から,関数値-カーネルリッジ回帰の要領で,ノンパラメトリック学習 を行う. ここで,状態間x,x˜∈ X の類似度kX(x,x˜) (正定値カーネルkX)を定義する.
• 観測過程: 同様に,状態x ∈ X で観測値z ∈ Zが観測される条件付き確率PZ|X のカーネル平均
mPZ|Xを教師ありデータ{(Xi, Zi)} n
i=1から,関数値-カーネルリッジ回帰の要領で,ノンパラメトリッ ク学習を行う. ここで,観測値間z,z˜∈ Zの類似度kZ(z,z˜) (正定値カーネルkZ)を定義する. 上記ノンパラメトリック学習には状態遷移データを訓練データに使う.ただし, テストや予測の際には,観 測値系列z1:T のみから状態変数を推定し,フィルタリングとスムージングを計算する.状態遷移データを
訓練データに使えた方が予測精度は上がることが期待される.
3
カーネルベイズスムージング
カーネルベイズフィルタ[1]では観測値系列z1:tが与えられたもとでフィルタ分布p(xt|z1:t)のカーネル平均
mXt|z1:t を推定する.カーネルベイズスムージングでは観測値系列z1:T が与えられたもとで過去の状態分
布p(xt|z1:T), (t < T)のカーネル平均mXt|z
1:T を推定する.これらのカーネル平均は,以下のようにデー
タ上の時刻tに依存する重みベクトルα(t)∈Rn,w(t)∈Rlで推定される.
ˆ
mXt|z1:t := n
∑
i=1
α(it)kX(·, Xi), (1≤t≤T), mˆXt|z1:T := l
∑
i=1
w(it)kX(·,X˜i), (1≤t≤T−1).
1E-mail: ynishiyam@gmail.com
Filtering Smoothing
Figure 1: カーネルベイズフィルタ&カーネルベイズスムージング
重みベクトルα(t),w(t)は非負とは限らない.図1は, フィルタリングとスムージングの概念図である.左 上図はカーネルベイズフィルタの更新の様子を表し, ztの逐次的な観測とともに,重みベクトルα(t)が逐 次的に更新される.α(t)7→α(t+1)の更新式は,論文[1]で与えられている.α(t+1)の更新は,学習データ に依存するグラム行列を用いた行列の積で与えられる.左下図はカーネルベイズスムージングの更新の様
子を表したものである.重みベクトルの更新w(t+1)7→w(t)は,重みベクトルα(T)を初期値として後ろ向 きに更新される.重みベクトルw(t)の更新もカーネルベイズフィルタと同様,学習データに依存する行列
の積で行われる.右図は,ある時刻tでの推定されたフィルタリングとスムージングカーネル平均のスナッ プショットである.X 上のシアン曲線の関数は,カーネル平均(再生核ヒルベルト空間の元)を表している. 確率密度関数を表していないことに注意されたい.通常の確率分布自身を更新する様々なフィルタリング・
スムージングアルゴリズムとは異なり,カーネルベイズフィルタ・スムージングは,特徴空間でベイズ推論
を行うもので,特徴空間の元を時間更新していく.
4
カーネルベイズスムージング詳細
カーネルベイズスムージングの後ろ向き更新式w(t+1)7→w(t)の概要を述べる.スムージングカーネル平均 はある適当な条件下で以下の漸化式を満たす.
mXt|z1:T(x) =
⟨
mXt|(·),z1:t(x), mXt+1|z1:T
⟩
HX, x∈ X, (1≤t≤T−1),
ここでmXt|(·),z
1:t(x)は実数値mXt|xt+1,z1:t(x)のxt+1についての関数である.カーネル平均mXt|xt+1,z1:t
は事前カーネル平均をフィルタリングカーネル平均mXt|z
1:t,観測値をxt+1とする事後カーネル平均[1]で
推定される.このカーネルベイズ則推定量をmˆXt|xt
+1,z1:t= l
∑
i=1
γ(t,xt+1)
i kX(·,X˜i)とする.カーネルベイズ
スムージングの後ろ向き更新式w(t+1)7→w(t)は以下の行列計算で与えられる.
w(T−1)= Γ(T−1)α(T), w(t)= Γ(t)w(t+1), (1≤t≤T−2),
ここで行列Γ(T−1)∈Rl×n, Γ(t)∈Rl×lは,以下の事後カーネル平均の重み行列である.
Γ(T−1):= (γ(T−1,X1), . . . , γ(T−1,Xn)), Γ(t):= (γ(t,X˜1), . . . , γ(t,Xl˜)).
行列の積w(t)= ( ∏t
i=T−1Γ(
i))α(T)
により時刻tのスムージングカーネル平均の重みベクトルw(t)が計算
される.訓練サンプル数がn=lの典型的では,カーネルベイズフィルタの計算量はO(n3)である.カーネ ルベイズスムージングの計算量も同じオーダO(l3)である. グラム行列の不完全コレスキー分解など低ラン ク近似を使って,これらの計算量は削減可能である.
References
[1] K. Fukumizu and L. Song and A. Gretton: Kernel Bayes’ Rule: Bayesian Inference with Positive Definite Kernels, JMLR2013.
[2] Y. Nishiyama, A. H. Afsharinejad, S. Naruse, B. Boots and L. Song: The Nonparametric Kernel Bayes’ Smoother, AISTATS2016 (to appear).