２．確率とビリーフ(2)

(1)

２．確率とビリーフ(2)

植野真臣電気通信大学

大学院情報システム学研究科

1６．ベイズ原理

定義15 (事後分布)

X =(,⋯ , )が独立同一分布(| )に従うn 個の確率変数とする．n 個の確率変数に対応したデータ = (,⋯^,)が得られたとき，

= ( ) ∏ ( | ) ( ) ∏ ( | ) を事後分布事後分布事後分布事後分布（posterior distribution）と呼び，

( )を事前分布事前分布事前分布（prior distribution）と呼ぶ．事前分布

事後分布最大化推定量

定義16 (MAP推定値)

データx を所与として，以下の事後分布最大となるパラメータを求めるとき，

= arg : ∈ をベイズ推定値（Bayesian estimator）または，

事後事後事後

事後分布最大化推定値分布最大化推定値分布最大化推定値分布最大化推定値（maximum a posterior estimator，

MAP 推定値）と呼ぶ．

Note：ベイズ推定は，すべての確率空間で成り立つわけではない．パラメータの事前確率が確率の公理を満たすときにのみ成立する．

ベイズ推定の一致性

定義17 (EAP 推定値)

データx を所与として，以下の事後分布によるパラメータの期待値を求めるとき，

= ( { : ∈ })

を期待事後推定値（expected a posterior estimator , EAP 推定値）と呼ぶ．

ベイズ推定値も強一致性をもつ．

定理11 (ベイズ推定の一致性)

ベイズ推定において推定値が真のパラメータ ∗の強一致推定値となるような事前分布が設定できる．

また，ベイズ推定値も漸近的正規性をもち，誤差を計算できる．

定理12 (ベイズ推定の漸近正規性)

事後確率密度関数が正則条件（regular condition）の下で微分可能のとき，

ベイズ推定値が漸近分散$( ^∗)^%をもつ漸近正規推定値となる事前分布を設定できる．

１７．無情報事前分布

1.8.1 ジェフリーズの事前分布 事後分布

= ( ) ∏ ( | ) ( ) ∏ ( | )

を求めるための事前分布( )の設定について，どのように設定するかが問題となる．通常，データを採取するまで，われわれはデータについての情報をもたない．

そのために，( )は無知を表す分布でなくてはならない．

このような無知を示す事前分布を無情報事前分布無情報事前分布無情報事前分布（non–informative 無情報事前分布 prior distribution）と呼ぶ．無知の状態を示す事前分布の選択のルールとして，Jeffreys（1961）は，つぎの二つの提案をしている．

まず，一つの母数について考えると，

1.母数について， ∈ (−∞, ∞)のみの情報があるとき，事前分布は一様分布となる．

( ) ∝ *+,-.

2. 母数について， ∈ (0, ∞)のみの情報があるとき，の対数が一様であるような事前分布を考える．すなわち，(log ) ∝ *+,-.であるから，

変数変換すれば，

( ) ∝1

ルール1 を選択する場合，事後分布= 尤度となるが， ≠ 1_%4⁴ となり，事前分布は確率の公理を満たさない．このような事前分布をimproper prior distribution と呼ぶ．

しかし，このimproper prior distribution は，ベイズ統計学の整合性を壊すという意味で，議論を招いた．

そこで，閉区間に局所的一様分布を考えるprinciple of stable estimation（Edwards et al.1963）が提案されている．例えば， ∈ [, 6]であれば， =_8%9となり， = 1_%4⁴ と確率の公理を満たす．

また，確率変数の定義を満たしたところで，この一様分布の事前分布には問題がある．

例えば， ∈ [, 6]では， = *+,-.であるが，: = ^;としても，ジェフリーズのルールに従えば，

: = *+,-.となる．しかし，変数変換すれば，そのようにならないことがわかる．このようなことを考

慮して，Box and Tiao（1973）は，ある母数<の尤度が，データが変わってもその形状は変わらず，その位置のみを変更させるとき，その母数をデータ移動型母数と呼んだ

(2)

以下は，データ移動型母数を見出す方法である．対数尤度=(<|)は，最尤推定値<のまわりでテイラー展開すると，

=(<|)== < −_>< − <^>(−^?^@^A(B|C)_?B@ )BD

いま，x のデータ発生モデルが指数形分布族であることを仮定してE(<)とおく．これは，(−^?A(B|C)_?B@)BDが<のみの関数を仮定するのと同値である．

と<が1 対1 変換であるとき E < = (−1

,F^>=(<|) F<^> )BBD= −1

,F^>= <

F ^> _GGDF F<_GGD

>

= E F F<_GGD

>

このとき，

F<F _GGD∝ E^{% >}^H( )

となるように変換<を選べば，E <は定数となり，尤度は< − <^>の関数となる．すなわち，<に関して近似的データ移動型となる．このとき，無情報事前分布は

( ) ∝F F<_GGD∝ E^{% >}^H( ) となる．

また，指数型分布の仮定を抜いた場合，

F<F _GGD∝ $^{% >}^H( )

となる．$( )はフィッシャー情報量を示す．

すなわち，母数の事前分布は，フィッシャー情報量$( ) に比例させるというルールである．これが，ジェフリーズが提唱した母数の変換の不変性から導いた分布に一致するので，

ジェフリーズの事前分布と呼ばれる．

データ情報最大化事前分布

データ情報最大化事前分布Zellner（1971）は，

データのもつ情報と比較して，事前情報のもつ情報を最小にするような分布を無情報事前分布としている．

情報を情報理論の枠組みで定義すると，事前分布における情報量と事後分布における情報量との差として伝達情報量で定義できる．

すなわち，

I = − J log + J J | log |

C

を最大化させる事前分布を，データ情報最大化事前分布（maximum data information distribution）と呼ぶ．

自然共役事前分布

ベイズ統計の中で最も一般的で，ベイズ的な有効性を発揮できると考えられるのが，この自然共役事前分布である．

これまでの事前分布では，データを得る前の事前分布とデータを得た後の事後分布は，分布の形状が変化する．

しかし，データの有無にかかわらず，分布の形状は同一のほうが自然であろう．

そこで，事前分布と事後分布が同一の分布族に属するとき，

その事前分布を自然共役事前分布（natural conjugate prior distribution）と呼ぶ．

ここでは，特にこの自然共役事前分布を中心にベイズ的推論を行うようにする．

自然共役事前分布を用いた推定例

例7 (二項分布)

(| , ,) = , ^C(1 − )^%C コインを投げてn 回中x 回表が出たときの確率をベイズ推定しよう．

尤度関数は，,

^C(1 − )^%Cであり，

二項分布の自然共役事前分布は，以下のベータ分布（Beta(α, β)）である．

L, M =N(L + M)

N(L)N(M) ^O%(1 − )^P%

事後分布は，

,, , L, M = N(n + L + M)

N( + L)N(n − + M) ^CRO%(1 − )^%CRP%

とやはりベータ分布となる．対数をとり，以下の対数事後分布を最大化すればよい．

log ,, , L, M

= log N(n + L + M)

N( + L)N(n − + M) + ( + L − 1)log + (, − + M

− 1) log(1 − )

(3)

以下の対数事後分布を最大化すればよい．

log ,, , L, M

= log N(n + L + M)

N( + L)N(n − + M) + ( + L − 1)log + (, − + M

− 1) log(1 − )

? STU V ,, , L, M

?G = 0のとき，対数事後分布は最大となるので，

F log ,, , L, M

F =( + L − 1)− , − + M − 1 1 −

= + L − 1 − − L + − , + − M + (1 − )

= + L − 1 − (, + L + M − 2) (1 − ) = 0

(1 − ) ≠ 0とすると

= + L − 1 , + L + M − 2

がベイズ推定値となる．さて，α, β は事前分布のパラメータであるが，

これをハイパーパラメータ（hyper parameter）と呼ぶ．このハイパーパラメータによって，事前分布はさまざまな形状をとる（図）．

例えば，事前分布が一様となる場合（Beta(1, 1)）の推定値は，

= ,

となり，最尤解に一致する．

0.2 0.4 0.6 0.8 1

1 2 3 4 5

α=1/2 α=1

α=-1/log+1/2

例題

例8 (正規分布)

P X, Y^> = 1

2ZYexp {−(− X)^>

2Y^> } (,⋯^,)を得たときのX, Y^>を求めよう．

尤度は，

^ = _ 1

2ZYexp −− X^>

2Y^> = 1 2ZY

exp − `− X^>

2Y^>

このとき，自然共役事前分布は，

p X = a X_;, Y;>, p(Y^>) = b^%>c;, d;, (逆カイ二乗分布) すなわち，事前分布はこれらの積の形で以下のように表される．

p X, Y^>= X Y^> Y^>

∝ Y^>

,;

%>

exp −,;X − X;>

2Y^> Y^{> %}>e^f%exp −d; 2Y^>

= Y^{> %}>(e^fR)%exp −d;+ ,;X − X;>

2Y^>

ここで，,;, X;, c;, d;はハイパーパラメータであり，,;= c;+ 1という関係にある．

一方，これを尤度に掛け合わせて事後分布を導くのであるが，計算の簡便さのために，以下のように尤度を変形させる．

^ = 1 2ZY

exp − `− X^>

2Y^>

ここで指数部分exp − ∑^C^h_>j^%i@^@を三平方の定理により，推定平均̅を介して，以下のように分解する．

` − X^>

2Y^>

= `− ̅^>

2Y^> + ̅ − X^>

2Y^>

これより，尤度L は，

^ = 1 2ZY

exp − ` − X^>

2Y^>

= 1

2ZY

exp − `− ̅^>

2Y^>

exp −, ̅ − X^>

2Y^>

= 1

2ZY

exp −l^>+ , X − ̅^>

2Y^>

ただし，ここで，

̅ =1 , `

, l^>= ` − ̅^>

と書き換えられる．

さて，この尤度L と先の事前分布を掛け合わせることによって，以下のような事後分布が得られる．

ここで，c_;= ,_;−1とおいて，

X, Y^> ∝ ^ ×p X, Y^>

= 1

2ZY

exp −l^>+ , X − ̅^>

2Y^>

× Y> %>(e^fR)%exp −d;+ ,;X − X;>

2Y^>

∝ Y^{> %}>(R^f)%exp −d_;+ l^>+,_;X − X_;^>+, X − ̅^>

2Y^>

さらに，指数部分のうち，d_;+ l^>以外の部分に，平方完成を行うと，結局，

X, Y^> ∝ Y^{> %}>(R^f)%exp −d∗+(,;+,) X − X∗>

2Y^>

ただし，

d_∗= d_;+ l^>+,;, ̅ − X;>

,_;+ , , X_∗=,;X;+ ,̅

,_;+ , となる．

この事後分布もまた，正規分布と逆カイ二乗分布の積となり，

a × b^%>,_;+ ,, X_∗, c_;+ ,, d_∗ と略記する．

さて，これらの事後分布は，μ とY^>の同時事後確率分布であることがわかる.

(4)

このように，複数のパラメータを同時に最大化させる場合，つぎのような周辺化（marginalization）を行い，個々のパラメータの分布を導く．

このような分布を周辺事後分布（marginal posterior distribution）と呼ぶ．

すなわち，パラメータμ についての周辺事後分布は以下のようにして求められる．

X = J X, Y⁴ ^> Y^>Y^>

;

∝N c^∗+ 1 2 c∗Zd∗

,∗ N c2^∗ 1 +X − X∗>

X∗

%>(e^∗R)

≡ .(c∗, X∗, d∗/,∗) このようにμ の周辺事後分布は，t 分布.(c∗, X∗, d∗/,∗)に従うことがわかる．

また，パラメータY^>についての周辺事後分布も同様にして，以下のように求められる．

Y^>| = J X, Y⁴ ^> X X

;

∝ d∗ e∗

>

2^e>^∗N c2^∗

Y^{> %}^e> %^∗ exp −d∗ 2Y^>

≡ b^%> c∗, d∗ となり，Y^>の周辺事後分布は，逆カイ二乗分布b^%> c∗, d∗に従うことがわかる．

また，事後確率最大化によるベイズ推定値は，t 分布のモードがX∗であることより，

μ の推定値は，

Xp =,;X;+ ,̅

,;+ ,

となり，Y^>のベイズ推定値は，逆カイ二乗分布のモードが ^q^∗

e∗%>であることより，

Y^>の推定値は，

Yr =^> d;+ l^>+ ,^;,(̅ − X;)^>

,;+ , c∗− 2 となる.

１８．予測分布

データやモデルを用いて推論を行う重要な目的の一つに，未知の事象の予測が挙げられる．

この予測問題のためには，最もよく用いられるのは，

(s| )

で示されるplug–in distribution と呼ばれる分布である．しかし，は推定値であるためにそのサンプルのとり方によってこの分布は大きく変化する．ベイズ的アプローチでは，こののばらつき（の事後分布）を考慮し，以下のように予測分布を定義する．

定義18

モデルm から発生されるデータにより，未知の変数sの分布を予測するとき，

以下の分布を予測分布（predictive distribution）と呼ぶ．

s , = J (s| , ) ,

例9 (二項分布) ベータ分布を事前分布とした二項分布の予測分布は，以下のようになる．

s = J (s| )

= J ,

s ^t(1 − )^%t

N(n + L + M)

N( + L)N(, − + M) × ^CRO%(1 − )^%CRP%

∝ ,

s N s + 1 N , − s + 1

N , + 2 N + L , − + M N , + L + M

= ,!

s! , − s !N s + 1 N , − s + 1

N , + 2 N + L , − + M N , + L + M 特に，α, β が整数のとき

s ∝ ,!

s! , − s !s! , − s !

(, + 1)! + L − 1 ! , − + M − 1 ! , + L + M − 1 !

例10 (正規分布) 事前分布をN X,Y^>分布

p X, Y^>= X Y^> Y^>

∝^j^@_f^%

w@

exp −^f^i%i_>j@^{f @} Y^{> %}^w^@^e^f^%exp −_>j^q^f@

= Y^{> %}>(e^fR)%exp −d;+ ,;X − X;>

2Y^>

とすると，事後分布は

X, Y^> ∝ Y^{> %}>(R^f)%exp −d∗+(,;+,) X − X∗>

2Y^>

である．ただし，

d∗= d;+ l^>+,;, ̅ − X;>

,;+ , , X∗=,;X;+ ,̅

,;+ , となる．予測分布は

R = J J RX, Y^> X, Y^>,⋯, XY^>

ここで，

RX, Y^>∝ (Y^>)^%exp −R− X^>

2Y^>

より，

R = J J RX, Y^> X, Y^>,⋯^,XY^>

∝ J J Y^{> %}^eR^{> %>}exp −(R−X)^>+ l^>+ , X − ̅^>

2Y^> XY^>

= J J Y^{> %}^eR^{> %>}exp x− 1

2Y^>y , + 1 X − X̅^>+ l^>

+ ,

, + 1 ^R− ̅^>z{ XY^>

∝ J Y^{> %}^eR^{> %>}exp − 1 2Y^> l^>+ ,

, + 1 ^R− ̅^> Y^>

∝ l^>+ ,

, + 1 ^R− ̅^>^%eR^>

(5)

∝ 1 + R− ̅ , + 1

,c l^>

>/c

%eR>

ただし,ここで

X̅ =,̅ + R

, + 1 ここで,

. = R− ̅ , + 1

,c l^>

とおくとき,tは自由度cのt分布に従う.

1.8. データから統計モデルを選択

統計モデルのパラメータ（母数）をデータから推定するには，尤度最大化により漸近的一致性が得られた．

ひとつのデータに対して，複数のモデルから度のモデルが一番よいかを決定するときに，尤度最大化は使えるのであろうか？

答えはNOである．尤度は「モデルのデータへのあてはまり」を示しており，モデルはパラメータ数を多くすればするほどあてはまりがよくなるので結果として，複雑なモデルを選ぶだけである．これをオーバーフィッティングと呼ぶ．

パラメータ推定に対して，モデル選択は一つ上の階層の学習であり，このとき推定されるパラメータを周辺化した周辺尤度がモデル選択に用いられる．

1.9 周辺尤度

モデルの候補が複数ある場合に，

データx からモデルmを選択することをモデル選択（model selection）

と呼ぶ．

ベイズ統計では，一般的に，モデル選択のために以下の周辺尤度を最大にするモデルを選択する．

定義19

データxを所与としたモデルmの尤度を周辺化して周辺尤度（marginal likelihood），ML と呼ぶ．．．．

= J (| , )

ベイジアンネットワークの構造を学習するために，周辺尤度を最大にする構造を選択すればよい．

1.10 予測分布情報量基準

m*^{を真のモデル}, xをデータ，~Rを予測データとする。

∑Cw(~R|x, m*)log ^{V( C}^w|x, m)

V( Cw|x, m∗)

=∑Cw(~R|x, m*)log ( ~R|x, m) –

∑_C_w(_~R|x, m*)log ( _~R|x, m∗) ここで

∑Cw(~R|x, m*)log ( ~R|x, m∗) は定数なので

∑_C_w(_~R|x, m*)log ( _~R|x, m) を最大化するmを求めればよい。

ただし、( ~R|x, m∗)≈ ∑ ( ~R|x, m)p(m |x)

周辺尤度

データ数が大きい時のみに一致性がある。

予測分布情報量基準

データ数が少ない時にもよく予測する。