• 検索結果がありません。

Bayes 推定

ドキュメント内 mathematical statistics v4 (ページ 99-103)

Theorem 3.6. T =T(X)をθに対する(ベクトル値の)十分統計量とする.このとき,X を与えたときのθの事後分布は,Tを与えたときのθの事後分布に等しい.

Proof. pnθ が確率関数の場合に定理を証明する.因子分解定理より,pnθ(x) =gθ(T(x))h(x) と表せるから,

e mπ(t) =

gθ(t)π(θ)dθ とおくと,Xを与えたときのθの事後分布は

π(θ|X) = gθ(T)h(X)π(θ)

h(X)meπ(T) = gθ(T)π(θ) e mπ(T) となる.一方,

P(T =t|θ) =gθ(t) ∑

x:T(x)=t

h(x)

| {z }

=eh(t)

であるから,T を与えたときのθの事後分布は gθ(T)eh(T)π(θ)

∫ gϑ(T)eh(T)π(ϑ)dϑ = gθ(T)π(T) e mπ(T) である.

以下,2乗損失関数L(θ, d) = (d−g(θ))2を考える.ここで,g: Θ→RをE[g(θ)2]<∞ をみたす関数とする.このとき,条件付きリスクは

rx(π, d) =

Θ

(d−g(θ))2π(θ|x)dθ であって,これを最小化するdは条件付き期待値

δπ(x) =

g(θ)π(θ|x)dθ である.よって,Bayes推定量は

δπ(X) =

g(θ)π(θ|X)dθ (**)

である.(**)をg(θ)の 事後平均 (posterior mean)と呼ぶ.十分統計量T が存在すれば,

δπ(X) =E[g(θ)|T] である.

Example 3.17. θ∈(0,1), α, β >0に対して,

X1, . . . , Xn|θ∼Bin(1, θ) i.i.d.

θ∼Be(α, β) とする.T =∑n

i=1Xiはθに対する十分統計量である.このとき,(T, θ)の同時分布は π(t, θ) =

(n t )

θt(1−θ)nt× 1

Be(α, β)θα1(1−θ)β1 であるから,

π(θ|t)∝θt+α1(1−θ)nt+β1 である.よって,

θ|T ∼Be(T+α, n−T +β) であるから,θの事後平均は

θbα,β= T +α n+α+β である.

Example 3.18. µ, ξ∈R, σ2, τ2 >0に対して,

X1, . . . , Xn|θ∼N(µ, σ2) i.i.d.

µ∼N(ξ, τ2)

とし,σ2は既知とする.T =Xはµに対する十分統計量である.(T, µ)の同時密度は π(t, µ) =

√n 2πστ exp

{

−1

2{n(t−µ)22+ (µ−ξ)22} }

である.ここで,

n(t−µ)22+ (µ−ξ)22 =(

n/σ2+ 1/τ2)(

µ−nt/σ2+ξ/τ2 n/σ2+ 1/τ2

)2

+ (tの関数) であるから,

µ|T ∼N

(nT /σ2+ξ/τ2 n/σ2+ 1/τ2 ,(

n/σ2+ 1/τ2)1) . 従って,事後平均は

b

µξ,τ2 = nX/σ2+ξ/τ2 n/σ2+ 1/τ2 である.

Example 3.19. ∑k

j=1θj = 1をみたすθ1, . . . , θk>0とα1, . . . , αk>0に対して,

X= (X1, . . . , Xk) |(θ1, . . . , θk) ∼M n(n, θ1, . . . .θk) (θ1, . . . , θk) ∼Di(α1, . . . , αk)

とする.ここで,Di(α1, . . . , αk)はパラメータ α1, . . . , αk をもつDirichlet分布である.

Dirichlet分布の定義から,(θ1, . . . , θk) ∼Di(α1, . . . , αk)のとき,∑k

j=1θj = 1という制 約は自動的にみたされる.いま,(θ1, . . . , θk)は密度関数をもたないが,(θ1, . . . , θk1)は 密度関数をもっていて,それは

π(θ1., . . . , θk1)∝

k1 j=1

θjαj1

1−

k1

j=1

θj

αk1

で与えられる.θ1, . . . , θk1はθj >0 (j= 1, . . . , k−1),∑k1

j=1θj <1に制約されている.

よって,X, θ1, . . . , θk1の同時分布は

π(x, θ1, . . . , θk1)∝

k1 j=1

θxjjj1

1−

k1

j=1

θj

xkk1

であって,これとθk= 1−∑k1

j=1θj という制約から,

1, . . . , θk)|X ∼Di(X11, . . . , Xkk) を得る.よって,各θjの事後平均は

θbj = Xjj n+∑k

i=1αi である.

上の例のように,事前分布と事後分布が同じ分布族に入る事前分布を,共役事前分布 (con-jugate prior distribution)という.また,事前分布に現れるパラメータを ハイパーパラメータ

(hyper parameter)と呼ぶ.上の2つの例で,事後平均は不偏になってない.一般に事後

平均は不偏にならない.

Theorem 3.7. X |θ∼ pnθ, θ ∼πとし,g: Θ →RをE[g(θ)2]<∞をみたす関数とす る.さらに,g(θ)の事後平均δπ(X) =E[g(θ)|X]は不偏になっているとする:

E[δπ(X)|θ] =g(θ)∀θ∈Θ.

このとき,(X, θ)の同時分布について,P(δπ(X) =g(θ)) = 1となる.

Proof. δπのBayesリスクはXを条件付けして,

r(π, δπ) =E[(δπ(X)−g(θ))2] =E[(E[g(θ)|X]−g(θ))2] =E[g(θ)2]−E[δπ(X)2] と計算できる.一方,δπ(X)が不偏なら,θを条件付けして,

r(π, δπ) =E[E[δπ(X)2 |θ]−g(θ)2] =E[δπ(X)2]−E[g(θ)2]

とも計算できる.よって,r(π, δπ) =−r(π, δπ)であるから,r(π, δπ) = 0を得る.これか ら,P(δπ(X) =g(θ)) = 1を得る.

なお,Bayes推定において,パラメータが本当に確率的であることを信じる必要はなく

て,本当はパラメータには真値があるが,単に推定量を得るための手段として(*)という 設定を考えている,と解釈するほうが生産的である21

Bayes推定量はMLEと同様によい漸近的な性質をもつ.簡単のため,k = 1として,

θ=θ0を真値とする.このとき,いくつかの正則条件のもとで,θの事後平均θbπは,MLE θbと次の意味で漸近的に同等であることが示せる:

√n(bθπ−θ)b →P 0, n→ ∞.

従って,√n(bθπ−θ0)→d N(0,1/I(θ0))となる.この結果は,事前密度πが∫

θ2π(θ)dθ <∞ をみたしていて,真値θ =θ0の近傍で連続かつ正の確率をもつ限り,その選び方にはよ らず成り立つ.そのほかに,Bayes推定量は決定理論的な意味からも望ましい性質をもつ (後述).

Remark 3.9. 事後平均が陽に求められる場合はむしろまれであり,多くの場合,事後分 布に近似的に従う乱数を発生させて,積分を数値的に近似する.事後分布に近似的に従う 乱数を発生させる有効な手段として,マルコフチェイン・モンテカルロ法(MCMC)と呼ば れる手法がある.MCMCとそのBayes統計への応用に関しては,Gamerman and Lopes (2006)やRobert and Casella (2004)が詳しい (前者の方が入門的である).Bayes統計そ のものに関しては,Robert (2007)が詳しい.

ドキュメント内 mathematical statistics v4 (ページ 99-103)