• 検索結果がありません。

Nonparametric Kernel Bayes Smoothing on State Space

N/A
N/A
Protected

Academic year: 2018

シェア "Nonparametric Kernel Bayes Smoothing on State Space"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

科学研究費補助金新学術領域研究「スパースモデリングの深化と高次元データ駆動科学の創成」 2015年度公開シンポジウム

Nonparametric Kernel Bayes Smoothing on State Space Models

西山悠

1

電気通信大学大学院情報システム学研究科

(C01-2セミパラメトリックベイズ班)

1

はじめに

特徴空間でベイズ推論を行うカーネルベイズ推論が構築されている.カーネルベイズ推論に基づく状態空

間モデルのフィルタリングアルゴリズムが提案されている[1].今年度,新しくカーネルベイズ推論に基づ く状態空間モデルのスムージングアルゴリズムを開発したので,この結果を報告する.本稿は,論文[2]の 結果を一部紹介するものである.詳細は論文を参照されたい.状態空間モデルの状態集合と観測集合をそ

れぞれX,Zとする.X,Zは, ユークリッド空間の部分集合X ⊆Rd, Z ⊆Rd

とは限らない. グラフ, 画 像など構造データの集合でも良い.上記のフィルタリング・スムージングアルゴリズムは,状態空間モデル

の状態遷移過程x(t)7→x(t+1),観測過程x(t)7→z(t)に数理モデルを仮定せず,代わりにそれらの教師あり データ(状態遷移データ ( ˜Xi,X˜i′)li=1,観測過程データ(Xi, Zi)ni=1)とデータ間の類似度(状態集合X上の 正定値カーネルkX,観測集合Z上の正定値カーネルkZ)の情報を入力として,データ駆動型でノンパラメ トリックにフィルタリングとスムージングの結果を出力するものである.特に状態集合and/or観測集合が 構造データの場合や,複雑な遷移過程,観測過程を有する状態空間モデルの場合にアルゴリズムの有効性

が期待される.

2

状態空間モデルの設定

カーネルベイズ推論では確率分布P の代わりに確率分布の特徴空間(再生核ヒルベルト空間H)での表 現 と し て カ ー ネ ル 平 均mP ∈ Hを 推 定 す る. カ ー ネ ル 平 均mP は デ ー タxの 特 徴 量k(·, x)の 期 待 値

mP(·) :=EX∼P[k(·, X)]∈ Hで定義される.特性的カーネルと呼ばれるあるクラスの正定値カーネルを用 いた場合,mP はP を一意に定め,mP の推定はPを推定したことと等しいと言える.状態空間モデルに おけるノンパラメトリックカーネルベイズ推論の設定を述べる.

• 状態遷移: 状態x∈ X から次状態x′ ∈ X へ遷移する条件付き確率PX′|X のカーネル平均mP

X ′ |X を

教師ありデータ{( ˜Xi,X˜i′)}li=1から,関数値-カーネルリッジ回帰の要領で,ノンパラメトリック学習 を行う. ここで,状態間x,x˜∈ X の類似度kX(x,x˜) (正定値カーネルkX)を定義する.

• 観測過程: 同様に,状態x ∈ X で観測値z ∈ Zが観測される条件付き確率PZ|X のカーネル平均

mPZ|Xを教師ありデータ{(Xi, Zi)} n

i=1から,関数値-カーネルリッジ回帰の要領で,ノンパラメトリッ ク学習を行う. ここで,観測値間z,z˜∈ Zの類似度kZ(z,z˜) (正定値カーネルkZ)を定義する. 上記ノンパラメトリック学習には状態遷移データを訓練データに使う.ただし, テストや予測の際には,観 測値系列z1:T のみから状態変数を推定し,フィルタリングとスムージングを計算する.状態遷移データを

訓練データに使えた方が予測精度は上がることが期待される.

3

カーネルベイズスムージング

カーネルベイズフィルタ[1]では観測値系列z1:tが与えられたもとでフィルタ分布p(xt|z1:t)のカーネル平均

mXt|z1:t を推定する.カーネルベイズスムージングでは観測値系列z1:T が与えられたもとで過去の状態分

布p(xt|z1:T), (t < T)のカーネル平均mXt|z

1:T を推定する.これらのカーネル平均は,以下のようにデー

タ上の時刻tに依存する重みベクトルα(t)∈Rn,w(t)∈Rlで推定される.

ˆ

mXt|z1:t := n

i=1

α(it)kX(·, Xi), (1≤t≤T), mˆXt|z1:T := l

i=1

w(it)kX(·,X˜i), (1≤t≤T−1).

1E-mail: ynishiyam@gmail.com

(2)

Filtering Smoothing

Figure 1: カーネルベイズフィルタ&カーネルベイズスムージング

重みベクトルα(t),w(t)は非負とは限らない.図1は, フィルタリングとスムージングの概念図である.左 上図はカーネルベイズフィルタの更新の様子を表し, ztの逐次的な観測とともに,重みベクトルα(t)が逐 次的に更新される.α(t)7→α(t+1)の更新式は,論文[1]で与えられている.α(t+1)の更新は,学習データ に依存するグラム行列を用いた行列の積で与えられる.左下図はカーネルベイズスムージングの更新の様

子を表したものである.重みベクトルの更新w(t+1)7→w(t)は,重みベクトルα(T)を初期値として後ろ向 きに更新される.重みベクトルw(t)の更新もカーネルベイズフィルタと同様,学習データに依存する行列

の積で行われる.右図は,ある時刻tでの推定されたフィルタリングとスムージングカーネル平均のスナッ プショットである.X 上のシアン曲線の関数は,カーネル平均(再生核ヒルベルト空間の元)を表している. 確率密度関数を表していないことに注意されたい.通常の確率分布自身を更新する様々なフィルタリング・

スムージングアルゴリズムとは異なり,カーネルベイズフィルタ・スムージングは,特徴空間でベイズ推論

を行うもので,特徴空間の元を時間更新していく.

4

カーネルベイズスムージング詳細

カーネルベイズスムージングの後ろ向き更新式w(t+1)7→w(t)の概要を述べる.スムージングカーネル平均 はある適当な条件下で以下の漸化式を満たす.

mXt|z1:T(x) =

mXt|(·),z1:t(x), mXt+1|z1:T

HX, x∈ X, (1≤t≤T−1),

ここでmXt|(·),z

1:t(x)は実数値mXt|xt+1,z1:t(x)のxt+1についての関数である.カーネル平均mXt|xt+1,z1:t

は事前カーネル平均をフィルタリングカーネル平均mXt|z

1:t,観測値をxt+1とする事後カーネル平均[1]で

推定される.このカーネルベイズ則推定量をmˆXt|xt

+1,z1:t= l

i=1

γ(t,xt+1)

i kX(·,X˜i)とする.カーネルベイズ

スムージングの後ろ向き更新式w(t+1)7→w(t)は以下の行列計算で与えられる.

w(T−1)= Γ(T−1)α(T), w(t)= Γ(t)w(t+1), (1≤t≤T−2),

ここで行列Γ(T−1)∈Rl×n, Γ(t)∈Rl×lは,以下の事後カーネル平均の重み行列である.

Γ(T−1):= (γ(T−1,X1), . . . , γ(T−1,Xn)), Γ(t):= (γ(t,X˜1), . . . , γ(t,Xl˜)).

行列の積w(t)= ( ∏t

i=T−1Γ(

i))α(T)

により時刻tのスムージングカーネル平均の重みベクトルw(t)が計算

される.訓練サンプル数がn=lの典型的では,カーネルベイズフィルタの計算量はO(n3)である.カーネ ルベイズスムージングの計算量も同じオーダO(l3)である. グラム行列の不完全コレスキー分解など低ラン ク近似を使って,これらの計算量は削減可能である.

References

[1] K. Fukumizu and L. Song and A. Gretton: Kernel Bayes’ Rule: Bayesian Inference with Positive Definite Kernels, JMLR2013.

[2] Y. Nishiyama, A. H. Afsharinejad, S. Naruse, B. Boots and L. Song: The Nonparametric Kernel Bayes’ Smoother, AISTATS2016 (to appear).

参照

関連したドキュメント

In this paper, we use the reproducing kernel Hilbert space method (RKHSM) for solving a boundary value problem for the second order Bratu’s differential equation.. Convergence

In particular, Proposition 2.1 tells you the size of a maximal collection of disjoint separating curves on S , as there is always a subgroup of rank rkK = rkI generated by Dehn

Since the data measurement work in the Lamb wave-based damage detection is not time consuming, it is reasonable that the density function should be estimated by using robust

BOUNDARY INVARIANTS AND THE BERGMAN KERNEL 153 defining function r = r F , which was constructed in [F2] as a smooth approx- imate solution to the (complex) Monge-Amp` ere

Abstract. Recently, the Riemann problem in the interior domain of a smooth Jordan curve was solved by transforming its boundary condition to a Fredholm integral equation of the

In Section 4, we establish parabolic Harnack principle and the two-sided estimates for Green functions of the finite range jump processes as well as H¨ older continuity of

Keywords and phrases: symmetric jump process, metric measure space, heat kernel estimate, stability, Dirichlet form, cut-o↵ Sobolev inequality, capacity, Faber-Krahn inequality,

In this paper, the Bayes estimates are obtained under the linear exponential (LINEX) loss, general entropy and squared error loss function using Lindley’s approximation technique