Bayes 推定 - mathematical statistics v4

Theorem 3.6. T =T(X)をθに対する(ベクトル値の)十分統計量とする．このとき，X を与えたときのθの事後分布は，Tを与えたときのθの事後分布に等しい．

Proof. pⁿ_θ が確率関数の場合に定理を証明する．因子分解定理より，pⁿ_θ(x) =g_θ(T(x))h(x) と表せるから，

e m_π(t) =

∫

g_θ(t)π(θ)dθ とおくと，Xを与えたときのθの事後分布は

π(θ|X) = g_θ(T)h(X)π(θ)

h(X)me_π(T) = g_θ(T)π(θ) e m_π(T) となる．一方，

P(T =t|θ) =g_θ(t) ∑

x:T(x)=t

h(x)

| {z }

=eh(t)

であるから，T を与えたときのθの事後分布は g_θ(T)eh(T)π(θ)

∫ g_ϑ(T)eh(T)π(ϑ)dϑ = g_θ(T)π(T) e mπ(T) である．

以下，2乗損失関数L(θ, d) = (d−g(θ))²を考える．ここで，g: Θ→RをE[g(θ)²]<∞ をみたす関数とする．このとき，条件付きリスクは

rx(π, d) =

∫

(d−g(θ))²π(θ|x)dθ であって，これを最小化するdは条件付き期待値

δ^π(x) =

∫

g(θ)π(θ|x)dθ である．よって，Bayes推定量は

δ^π(X) =

∫

g(θ)π(θ|X)dθ (**)

である．(**)をg(θ)の事後平均 (posterior mean)と呼ぶ．十分統計量T が存在すれば，

δ^π(X) =E[g(θ)|T] である．

Example 3.17. θ∈(0,1), α, β >0に対して，

X1, . . . , Xn|θ∼Bin(1, θ) i.i.d.

θ∼Be(α, β) とする．T =∑n

i=1X_iはθに対する十分統計量である．このとき，(T, θ)の同時分布は π(t, θ) =

(n t )

θ^t(1−θ)ⁿ⁻^t× 1

Be(α, β)θ^α⁻¹(1−θ)^β⁻¹ であるから，

π(θ|t)∝θ^t+α⁻¹(1−θ)ⁿ⁻^t+β⁻¹ である．よって，

θ|T ∼Be(T+α, n−T +β) であるから，θの事後平均は

θb^α,β= T +α n+α+β である．

Example 3.18. µ, ξ∈R, σ², τ² >0に対して，

X₁, . . . , X_n|θ∼N(µ, σ²) i.i.d.

µ∼N(ξ, τ²)

とし，σ²は既知とする．T =Xはµに対する十分統計量である．(T, µ)の同時密度は π(t, µ) =

√n 2πστ exp

{

−1

2{n(t−µ)²/σ²+ (µ−ξ)²/τ²} }

である．ここで，

n(t−µ)²/σ²+ (µ−ξ)²/τ² =(

n/σ²+ 1/τ²)(

µ−nt/σ²+ξ/τ² n/σ²+ 1/τ²

+ (tの関数) であるから，

µ|T ∼N

(nT /σ²+ξ/τ² n/σ²+ 1/τ² ,(

n/σ²+ 1/τ²)₋1) . 従って，事後平均は

µ^ξ,τ² = nX/σ²+ξ/τ² n/σ²+ 1/τ² である．

Example 3.19. ∑k

j=1θ_j = 1をみたすθ₁, . . . , θ_k>0とα₁, . . . , α_k>0に対して，

X= (X₁, . . . , X_k)^′ |(θ₁, . . . , θ_k)^′ ∼M n(n, θ₁, . . . .θ_k) (θ₁, . . . , θ_k)^′ ∼Di(α₁, . . . , α_k)

とする．ここで，Di(α1, . . . , α_k)はパラメータ α1, . . . , α_k をもつDirichlet分布である．

Dirichlet分布の定義から，(θ₁, . . . , θ_k)^′ ∼Di(α₁, . . . , α_k)のとき，∑k

j=1θ_j = 1という制約は自動的にみたされる．いま，(θ₁, . . . , θ_k)^′は密度関数をもたないが，(θ₁, . . . , θ_k₋₁)^′は密度関数をもっていて，それは

π(θ₁., . . . , θ_k₋₁)∝





k∏−1 j=1

θ_j^α^j⁻¹







1−

k−1

∑

j=1

θ_j





α_k−1

で与えられる．θ₁, . . . , θ_k₋₁はθ_j >0 (j= 1, . . . , k−1),∑k−1

j=1θ_j <1に制約されている．

よって，X, θ₁, . . . , θ_k₋₁の同時分布は

π(x, θ1, . . . , θ_k₋₁)∝





k∏−1 j=1

θ^x_j^j^+α^j⁻¹







1−

k−1

∑

j=1

θj





xk+αk−1

であって，これとθ_k= 1−∑k−1

j=1θj という制約から，

(θ₁, . . . , θ_k)^′|X ∼Di(X₁+α₁, . . . , X_k+α_k) を得る．よって，各θ_jの事後平均は

θb_j = X_j +α_j n+∑k

i=1α_i である．

上の例のように，事前分布と事後分布が同じ分布族に入る事前分布を，共役事前分布 (con-jugate prior distribution)という．また，事前分布に現れるパラメータをハイパーパラメータ

(hyper parameter)と呼ぶ．上の2つの例で，事後平均は不偏になってない．一般に事後

平均は不偏にならない．

Theorem 3.7. X |θ∼ pⁿ_θ, θ ∼πとし，g: Θ →RをE[g(θ)²]<∞^{をみたす関数とす} る．さらに，g(θ)の事後平均δ^π(X) =E[g(θ)|X]は不偏になっているとする：

E[δ^π(X)|θ] =g(θ)∀θ∈Θ.

このとき，(X, θ)の同時分布について，P(δ^π(X) =g(θ)) = 1となる．

Proof. δ^πのBayesリスクはXを条件付けして，

r(π, δ^π) =E[(δ^π(X)−g(θ))²] =E[(E[g(θ)|X]−g(θ))²] =E[g(θ)²]−E[δ^π(X)²] と計算できる．一方，δ^π(X)が不偏なら，θを条件付けして，

r(π, δ^π) =E[E[δ^π(X)² |θ]−g(θ)²] =E[δ^π(X)²]−E[g(θ)²]

とも計算できる．よって，r(π, δ^π) =−r(π, δ^π)であるから，r(π, δ^π) = 0を得る．これから，P(δ^π(X) =g(θ)) = 1を得る．

なお，Bayes推定において，パラメータが本当に確率的であることを信じる必要はなく

て，本当はパラメータには真値があるが，単に推定量を得るための手段として(*)という設定を考えている，と解釈するほうが生産的である²¹．

Bayes推定量はMLEと同様によい漸近的な性質をもつ．簡単のため，k = 1として，

θ=θ0を真値とする．このとき，いくつかの正則条件のもとで，θの事後平均θb^πは，MLE θbと次の意味で漸近的に同等であることが示せる：

√n(bθ^π−θ)b →^P 0, n→ ∞.

従って，√n(bθ^π−θ₀)→^d N(0,1/I(θ₀))となる．この結果は，事前密度πが∫

θ²π(θ)dθ <∞ をみたしていて，真値θ =θ₀の近傍で連続かつ正の確率をもつ限り，その選び方にはよらず成り立つ．そのほかに，Bayes推定量は決定理論的な意味からも望ましい性質をもつ (後述)．

Remark 3.9. 事後平均が陽に求められる場合はむしろまれであり，多くの場合，事後分布に近似的に従う乱数を発生させて，積分を数値的に近似する．事後分布に近似的に従う乱数を発生させる有効な手段として，マルコフチェイン・モンテカルロ法(MCMC)と呼ばれる手法がある．MCMCとそのBayes統計への応用に関しては，Gamerman and Lopes (2006)やRobert and Casella (2004)が詳しい (前者の方が入門的である)．Bayes統計そのものに関しては，Robert (2007)が詳しい．

ドキュメント内 mathematical statistics v4 (ページ 99-103)