Theorem 3.6. T =T(X)をθに対する(ベクトル値の)十分統計量とする.このとき,X を与えたときのθの事後分布は,Tを与えたときのθの事後分布に等しい.
Proof. pnθ が確率関数の場合に定理を証明する.因子分解定理より,pnθ(x) =gθ(T(x))h(x) と表せるから,
e mπ(t) =
∫
gθ(t)π(θ)dθ とおくと,Xを与えたときのθの事後分布は
π(θ|X) = gθ(T)h(X)π(θ)
h(X)meπ(T) = gθ(T)π(θ) e mπ(T) となる.一方,
P(T =t|θ) =gθ(t) ∑
x:T(x)=t
h(x)
| {z }
=eh(t)
であるから,T を与えたときのθの事後分布は gθ(T)eh(T)π(θ)
∫ gϑ(T)eh(T)π(ϑ)dϑ = gθ(T)π(T) e mπ(T) である.
以下,2乗損失関数L(θ, d) = (d−g(θ))2を考える.ここで,g: Θ→RをE[g(θ)2]<∞ をみたす関数とする.このとき,条件付きリスクは
rx(π, d) =
∫
Θ
(d−g(θ))2π(θ|x)dθ であって,これを最小化するdは条件付き期待値
δπ(x) =
∫
g(θ)π(θ|x)dθ である.よって,Bayes推定量は
δπ(X) =
∫
g(θ)π(θ|X)dθ (**)
である.(**)をg(θ)の 事後平均 (posterior mean)と呼ぶ.十分統計量T が存在すれば,
δπ(X) =E[g(θ)|T] である.
Example 3.17. θ∈(0,1), α, β >0に対して,
X1, . . . , Xn|θ∼Bin(1, θ) i.i.d.
θ∼Be(α, β) とする.T =∑n
i=1Xiはθに対する十分統計量である.このとき,(T, θ)の同時分布は π(t, θ) =
(n t )
θt(1−θ)n−t× 1
Be(α, β)θα−1(1−θ)β−1 であるから,
π(θ|t)∝θt+α−1(1−θ)n−t+β−1 である.よって,
θ|T ∼Be(T+α, n−T +β) であるから,θの事後平均は
θbα,β= T +α n+α+β である.
Example 3.18. µ, ξ∈R, σ2, τ2 >0に対して,
X1, . . . , Xn|θ∼N(µ, σ2) i.i.d.
µ∼N(ξ, τ2)
とし,σ2は既知とする.T =Xはµに対する十分統計量である.(T, µ)の同時密度は π(t, µ) =
√n 2πστ exp
{
−1
2{n(t−µ)2/σ2+ (µ−ξ)2/τ2} }
である.ここで,
n(t−µ)2/σ2+ (µ−ξ)2/τ2 =(
n/σ2+ 1/τ2)(
µ−nt/σ2+ξ/τ2 n/σ2+ 1/τ2
)2
+ (tの関数) であるから,
µ|T ∼N
(nT /σ2+ξ/τ2 n/σ2+ 1/τ2 ,(
n/σ2+ 1/τ2)−1) . 従って,事後平均は
b
µξ,τ2 = nX/σ2+ξ/τ2 n/σ2+ 1/τ2 である.
Example 3.19. ∑k
j=1θj = 1をみたすθ1, . . . , θk>0とα1, . . . , αk>0に対して,
X= (X1, . . . , Xk)′ |(θ1, . . . , θk)′ ∼M n(n, θ1, . . . .θk) (θ1, . . . , θk)′ ∼Di(α1, . . . , αk)
とする.ここで,Di(α1, . . . , αk)はパラメータ α1, . . . , αk をもつDirichlet分布である.
Dirichlet分布の定義から,(θ1, . . . , θk)′ ∼Di(α1, . . . , αk)のとき,∑k
j=1θj = 1という制 約は自動的にみたされる.いま,(θ1, . . . , θk)′は密度関数をもたないが,(θ1, . . . , θk−1)′は 密度関数をもっていて,それは
π(θ1., . . . , θk−1)∝
k∏−1 j=1
θjαj−1
1−
k−1
∑
j=1
θj
αk−1
で与えられる.θ1, . . . , θk−1はθj >0 (j= 1, . . . , k−1),∑k−1
j=1θj <1に制約されている.
よって,X, θ1, . . . , θk−1の同時分布は
π(x, θ1, . . . , θk−1)∝
k∏−1 j=1
θxjj+αj−1
1−
k−1
∑
j=1
θj
xk+αk−1
であって,これとθk= 1−∑k−1
j=1θj という制約から,
(θ1, . . . , θk)′|X ∼Di(X1+α1, . . . , Xk+αk) を得る.よって,各θjの事後平均は
θbj = Xj +αj n+∑k
i=1αi である.
上の例のように,事前分布と事後分布が同じ分布族に入る事前分布を,共役事前分布 (con-jugate prior distribution)という.また,事前分布に現れるパラメータを ハイパーパラメータ
(hyper parameter)と呼ぶ.上の2つの例で,事後平均は不偏になってない.一般に事後
平均は不偏にならない.
Theorem 3.7. X |θ∼ pnθ, θ ∼πとし,g: Θ →RをE[g(θ)2]<∞をみたす関数とす る.さらに,g(θ)の事後平均δπ(X) =E[g(θ)|X]は不偏になっているとする:
E[δπ(X)|θ] =g(θ)∀θ∈Θ.
このとき,(X, θ)の同時分布について,P(δπ(X) =g(θ)) = 1となる.
Proof. δπのBayesリスクはXを条件付けして,
r(π, δπ) =E[(δπ(X)−g(θ))2] =E[(E[g(θ)|X]−g(θ))2] =E[g(θ)2]−E[δπ(X)2] と計算できる.一方,δπ(X)が不偏なら,θを条件付けして,
r(π, δπ) =E[E[δπ(X)2 |θ]−g(θ)2] =E[δπ(X)2]−E[g(θ)2]
とも計算できる.よって,r(π, δπ) =−r(π, δπ)であるから,r(π, δπ) = 0を得る.これか ら,P(δπ(X) =g(θ)) = 1を得る.
なお,Bayes推定において,パラメータが本当に確率的であることを信じる必要はなく
て,本当はパラメータには真値があるが,単に推定量を得るための手段として(*)という 設定を考えている,と解釈するほうが生産的である21.
Bayes推定量はMLEと同様によい漸近的な性質をもつ.簡単のため,k = 1として,
θ=θ0を真値とする.このとき,いくつかの正則条件のもとで,θの事後平均θbπは,MLE θbと次の意味で漸近的に同等であることが示せる:
√n(bθπ−θ)b →P 0, n→ ∞.
従って,√n(bθπ−θ0)→d N(0,1/I(θ0))となる.この結果は,事前密度πが∫
θ2π(θ)dθ <∞ をみたしていて,真値θ =θ0の近傍で連続かつ正の確率をもつ限り,その選び方にはよ らず成り立つ.そのほかに,Bayes推定量は決定理論的な意味からも望ましい性質をもつ (後述).
Remark 3.9. 事後平均が陽に求められる場合はむしろまれであり,多くの場合,事後分 布に近似的に従う乱数を発生させて,積分を数値的に近似する.事後分布に近似的に従う 乱数を発生させる有効な手段として,マルコフチェイン・モンテカルロ法(MCMC)と呼ば れる手法がある.MCMCとそのBayes統計への応用に関しては,Gamerman and Lopes (2006)やRobert and Casella (2004)が詳しい (前者の方が入門的である).Bayes統計そ のものに関しては,Robert (2007)が詳しい.