PDF Teaching Kengo Kato

(1)

Dirichlet 過程とその応用

¹

加藤賢悟²

このノートは2008年度に行われた大森先生の演習(Chen et al. (2000)の輪読)の発表資料として作成したものを，加筆・修正したものである³．Dirichlet過程は確率測度に対する事前分布としてFerguson (1973)により導入された．数学的には，Dirichlet過程は確率測度の空間に値をとる確率変数であり，その構成は自明でない．本ノートの主要な目的

は，Dirichlet過程の構成をある程度詳細に解説することである．予備知識はBillingsley

(1999)のChapter 1の内容を理解していれば問題ない．また，Dirichelt過程のベイズ統計への応用例も少し解説しているが，より包括的な解説はGhosh and Ramamoothi (2003) などを参照することを勧める．なお，S. GhosalとA. van der Vaartによる“Theory of Nonparametric Bayesian Inference”なるタイトルの本が刊行予定であることが数年前から予告されているが，まだ出版されていないようである．作成当時から内容を本質的にはアップデートしていないので，特に応用部分はoutdatedになっている可能性もある．

1 Dirichlet 過程

(Ω, F, P)を確率空間とする．位相空間_Uに対して，_B(U)を_U のBorel σ-fieldとする．写像_{X : Ω → U} が_U-値確率変数 (U-valued r.v.)^{であるとは，}^X^がF/B(U)^{可測である} こと，すなわち，X⁻¹(B) ∈ F ∀B ∈ B(U)^{となることを言う．}R-valued r.v.のことを単にr.v.と言う．確率測度をp.m.と省略する．可積分なr.v. Xと可測集合_{A ∈ F}に対して，E[X, A] = E[X1_A] =^∫_AXdPと書く．次のDynkinのπ-λ定理は以下しばしば用いるので，ここで述べておく．空でない集合_X の部分集合族_Pがπシステムであるとは，

A, B ∈ P^なら，A ∩ B ∈ P となることを言う．次に_X の部分集合族_Lがλシステムで

あるとは，次の条件(i)-(iii)をみたすことを言う：(i) X ∈ L, (ii) A, B ∈ L, A ⊂ B^なら， B \ A ∈ L, (iii) An↑ A, An∈ L^なら，A ∈ L^．

Theorem 1 (π-λ定理_{). P}をπシステムとし，_Lを_Pを含むλシステムとする：_{L ⊃ P}．このとき，_{σ(P) ⊂ L}である．

証明は標準的な確率論の教科書を参照せよ．例えば，Durrett (2010, Appendix)にある．

1.1 Dirichlet分布

Ga(α, β)をシェイプパラメータ_{α ≥ 0}，逆スケールパラメータβ > 0をもつガンマ分布とする．ただし，Ga(0, β)は0に退化した分布である．α > 0のとき，Ga(α, β)はLebesgue 測度に関して密度関数

x^α−1^e

−βx_βα

Γ(α) ^{, x > 0} をもつ．Γ(α)はガンマ関数である：

Γ(α) =

∫ ∞ 0

x^α−1e^−xdx.

Definition 1. α₁, . . . , α_k _{≥ 0}の少なくとも1つは正であるとし，Z₁, . . . , Z_kを独立な r.v.’sであって，Zj _{∼ Ga(α}j, 1)とする．いま，

Y_j = _∑_k^Z^j

i=1^Zⁱ

, j = 1, . . . , k

とおいたとき，(Y₁, . . . , Y_k)の同時分布をパラメータ(α₁, . . . , α_k)をもつDirichlet分布と呼び，Di(α₁, . . . , α_k)と表す．

以下，Di(α₁, . . . , α_k)の分布関数を

D(y₁, . . . , y_k_{| α}₁, . . . , α_k_{) = P{Y}₁ _{≤ y}₁, . . . , Y_k _{≤ y}_k_} と書く．まず，Dirichlet分布の性質をいくつかまとめておく．

(3)

(1) Y₁+ · · · + Yk^{= 1}であるから，Dirichlet分布Di(α₁, . . . , α_k)はk次元Lebesgue測度に関して特異である．

(2) α_j > 0, 1 ≤ ∀j ≤ k^なら，^(Y1, . . . , Y_k−1)の分布は_{(k − 1)}次元Lebesgue測度に関して絶対連続であり，その密度関数は

f (y₁, . . . , y_k−1_{| α}₁, . . . , α_k)

= ^Γ(α¹+ · · · + αk⁾

Γ(α1) · · · Γ(αk⁾





k−1_∏ j=1

y^α_j^j⁻¹







1 −

k−1∑

j=1

y_j





αk−1

1_S(y₁, . . . , y_k−1) で与えられる．ただし，Sは

S = {(y¹, . . . , y_k−1) : yj > 0 (j = 1, . . . , k − 1), y¹+ · · · + yk−1< 1} である．

(3) r₁, . . . , r_ℓを0 < r₁ < · · · < rℓ^{= k}なる整数とすると，





r1

∑

i=1

Yi, . . . ,

rℓ

∑

i=r_ℓ−1+1

Yi



 ∼ Di





r1

∑

i=1

αi, . . . ,

rℓ

∑

i=r_ℓ−1+1

αi



 .

特に，各Y_jの周辺分布はBe(α_j,^∑_i̸=jα_i)である． (4) 次の等式が成り立つ：

E[Y_j_{, {Y}₁ _{≤ y}₁, . . . , Y_k_{≤ y}_k_{}] =} _∑_k^α^j

i=1^αⁱ

D(y₁, . . . , y_k_{| α}^(j)₁ , . . . , α^(j)_k ), j = 1, . . . , k. ただし，

α^(j)_i =





α_i _{if i ̸= j} α_j + 1 if i = j である．

1.2 Dirichlet過程の定義

以下，_Xは常にPoland空間(すなわち，完備かつ可分な距離空間)と仮定し，_Aを_Xの

Borel σ-fieldとする：_{A = B(X )}．_A×Ωから[0, 1]への写像Pに対して，{P (A, ·) : A ∈ A} が[0, 1]に値をとる確率過程であるとは，各_{A ∈ A}に対して，P (A) = P (A, ·)^が^{[0, 1]-} valued r.v.であること,すなわち，

ω 7→ P (A, ω), Ω → [0, 1]

がF/B([0, 1])可測であることを言う．_{ω ∈ Ω}を固定したとき，Aの関数A 7→ P (A, ω)^を Pのパスと呼ぶ．集合族_{B1, . . . , B_k_}が_X の可測分割であるとは，B₁, . . . , B_kが排反な_A可測集合であって，B₁∪ · · · ∪ Bk= X ^{となることを言う．}

(4)

Definition 2. αを0 < α(X ) < ∞^なる(X , A)上の測度とする．このとき，[0, 1]に値をとる確率過程P = {P (A, ·) : A ∈ A}^が次の⁽ⁱ⁾^と⁽ⁱⁱ⁾^{の条件をみたすとき，}^P^{をパラメー} タαをもつDirichlet過程と呼ぶ：

(i) X ^{のあらゆる可測分割}{B¹, . . . , B_k_}に対して，

(P (B1), . . . , P (B_k)) ∼ Di(α(B¹), . . . , α(B_k)).

(ii) 各_{ω ∈ Ω}に対して，P のパスA 7→ P (A, ω), A → [0, 1]^は(X , A)^上の^p.m.^になる．ひとまずDirichlet過程P の存在は認める(あとで証明する)．いま，_{M = M (X )}を (X , A)^上の^p.m.’s^{の全体とし，}^Mに弱収束位相を入れると，MはPoland空間になる．各 ω ∈ Ω^{に対して，パス}A 7→ P (A, ω)^は(X , A)^上の^p.m.^{であるから，}

P : ω 7→ P (·, ω)

はΩからMへの写像とみなせる．M のBorel σ-fieldを_Mとおく：_{M = B(M).} Lemma 1. 各_{A ∈ A}に対して，Aへの射影を

π_A: x 7→ x(A), M → [0, 1]

と定義すると，_MはすべてのπA_{, A ∈ A}が可測になるM上の最小なσ-fieldに一致する： M = σ({π⁻¹A (B) : A ∈ A, B ∈ B([0, 1])}). (∗) Proof. 右辺を_Mcとおく．まず，_Mc _{⊂ M}を示す．_{A ⊂ X} を開集合とし，µn, µ ∈ M(X ) をµ_n_{→ µ}^w とすると，Portmanteau定理より，

lim inf

n ^π^A^(µⁿ) = lim inf

n ^µⁿ(A) ≥ µ(A) = πA^(µ).

よって，πAは下半連続であるから，_M可測である．いま，開集合全体はπシステムであ

り，_{µ 7→ π}A^(µ)が_M可測になる_{A ∈ A}の全体は開集合全体を含むλシステムであるか

ら，π-λ定理より，各_{A ∈ A}に対してπ_Aは_M可測である．従って，_Mc⊂ M^を得る．

次に，_{M ⊂ M}cを示す．Mの可分性より，_X上の任意の有界連続関数_{f : X → R}に対し

て，_{M ∋ µ 7→}^∫ f dµが_Mc可測であることを示せばよい．しかし，積分の構成から，適当

な単関数列f_nが存在して，lim_n^∫ f_ndµ =^∫f dµ (∀µ ∈ M)^{となるから，}^f^{が単関数のとき} µ 7→^∫ ^{f dµ}^がMc可測であることを示せばよい．ところで，f =^∑_i=1^m a_i1_A_i, a₁, . . . , a_m_∈ R_{, A}₁, . . . , Am _{∈ A}の形の単関数に対して，^∫ f dµ = ^∑^m_i=1aiπ_A_i(µ) であるから，_{µ 7→}

∫ f dµは_Mc可測である．よって，_{M ⊂ M}cを得る．以上より，補題が示された．この補題より，写像_{Q : Ω → M}に対して，

QがM -valued r.v. (すなわち，_F/M可測_{) ⇔} 各Q(A)がr.v.

(5)

が成り立つ．特にDirichlet過程PはM -valued r.v.である．M -valued r.v.をランダムなp.m. とも言う．A₁, . . . , A_m _{∈ A}に対して，(P (A₁), . . . , P (A_m))の分布をP の有限次元分布と呼ぶ．いま_(∗)とπ-λ定理より，_M上に定義されるPの分布(像測度_{) P ◦ P}⁻¹は，P の有限次元分布たちによって一意に決まる．Dirichlet過程の条件(i)と(ii)はPの有限次元分布たちを一意に決めるから，次の定理を得る．

Theorem 2. Dirichlet過程は_M上に一意な分布を定める．

Lemma 2. Q, RをM -valued r.v.’sとする．このとき，M -valued r.v.’sとしてQ = R a.s. であるための必要十分条件は，各_{A ∈ A}に対して，Q(A) = R(A) a.s.となることである． Remark 1. 前者は^P{Q(A) = R(A), ∀A ∈ A} = 1の意味であって，後者は^P_{{Q(A) =}

R(A)} = 1 (∀A ∈ A)の意味である．確率過程の用語を用いると，{Q(A) : A ∈ A}^と

{R(A) : A ∈ A}^{が互いの修正}(modification)になっているならば，それらは区別できな

い(indistinguishable)ことを意味している．

Proof. 必要性は明らかなので，十分性を示す．_X は可分であるから，_Aを生成する可算

なπシステム _Cが存在する(例えば後で現れる_A0 をとればよい)．ここで，Ω0 _{= {ω :}

Q(A, ω) = R(A, ω), ∀A ∈ C}^{とおくと，}C^{は可算であるから，}^Ω0∈ F, P(Ω0^{) = 1}である. またπ-λ定理より，_{ω ∈ Ω}0に対して，Q(A, ω) = R(A, ω) ∀A ∈ A^{となるから，補題が示} された．

1.3 Dirichlet過程の性質

本節はDirichlet過程の基本的な性質を考察する．

Proposition 1. PをパラメータαをもつDirichlet過程とすると，任意の_{A ∈ A}に対して，^E[P (A)] = α(A)/α(X )^{となる．特に，}α(A) = 0, A ∈ A^なら，P (A) = 0 a.s.である． Proof. P (A) ∼ Be(α(A), α(A^c⁾⁾^{より明らか．}

Definition 3. PをパラメータαをもつDirichlet過程とする．X -valued r.v.’s X1, . . . , X_n がP からのサイズnの標本であるとは，Pを条件付けたときX₁, . . . , X_n_{∼ P i.i.d.}となることを言う．このとき，

X₁, . . . , X_n| P ∼ P i.i.d.

と書く．_{n = ∞}のときも同様に定義する．

Remark 2. Pを条件付けたときX₁, X₂, · · · ∼ P i.i.d.^となるX -valued r.v.’s X1^{, X}2^{, . . .}

が存在するかどうかは必ずしも自明ではないが，Dirichlet過程の存在を認めると，次のように示すことができる．X = (X₁, X₂, . . . )とPの同時分布の存在を示せばよい．いま， P_ω _{= P (·, ω)}と書いて，_A^⊗N_{⊗ M}上のp.m. µを

µ(A × E) =

∫

P_ω^⊗N(A)1_{P_•_∈E}(ω)dP(ω), A ∈ A^⊗N, E ∈ M

(6)

から定義すれば，µはXとP の同時分布を与える．

Proposition 2. PをパラメータαをもつDirichlet過程とし，XをPからのサイズ1の標本とする．このとき，あらゆる_{A ∈ A}に対して，^P{X ∈ A} = α(A)/α(X )^となる^. Proof. 定義より，^P{X ∈ A | P } = P (A) a.s.^{であるから，}

P{X ∈ A} = E[P{X ∈ A | P }] = E[P (A)] = α(A)/α(X ) を得る．

Proposition 3. PをパラメータαをもつDirichlet過程とし，XをPからのサイズ1の標本とする．このとき，あらゆる_{A ∈ A}と，_X のあらゆる可測分割_{B1, . . . , B_k_}に対して，

P{X ∈ A, P (B1) ≤ y1, . . . , P (B_k_{) ≤ y}_k_{} =}

∑k j=1

α(Bj_{∩ A)}

α(X ) ^D(y¹, . . . , y_k_{| α}^(j)₁ , . . . , α^(j)_k ) が成り立つ．ただし，

α^(j)_i =





α(B_i) _{if i ̸= j} α(Bj) + 1 if i = j である．

Proof. Bj,1= Bj_{∩ A, B}j,0 = Bj _{∩ A}^cとおく．また，Yj,ν = P (Bj,ν)とおく．このとき， P_{{X ∈ A | Y}_j,ν, j = 1, . . . , k, ν = 0, 1}

=

∑k j=1

P {X ∈ Bj,1| Yn,ν, j = 1, . . . , k, ν = 0, 1} =

∑k j=1

Y_j,1 a.s.

であるから，Dirichlet分布の性質(4)より， P_{{X ∈ A, Y}_j,ν _{≤ y}_j,ν, j = 1, . . . , k, ν = 0, 1}

= E





∑k j=1

Yj,1_{, {Y}i,ν _{≤ y}i,ν, i = 1, . . . , k, ν = 0, 1}



 =

∑k j=1

α(B_j,1)

α(X ) ^{D(y | α}

(j)₎

を得る．ただし，y= (y_1,0, . . . , y_k,0, y_1,1, . . . , y_k,1), α^(j)= (α^(j)_1,0, . . . , α^(j)_k,0, α^(j)_1,1, . . . , α^(j)_k,1)，

α^(j)_i,ν =





α(B_i,ν), _{if i ̸= j,} α(Bj,ν) + 1, if i = j

である．あとは，P (B_j) = Y_j,0+ Y_j,1 a.s.とDirichlet分布の性質(3)から結論を得る．

(7)

x ∈ X ^{に対して，}^δxをxのDirac測度とする：δ_x(A) = 1_A(x)．次の定理はベイズ統計において重要な意味をもつ．

Theorem 3. P をパラメータαをもつDirichlet過程とし，X₁, . . . , X_nをPからのサイズnの標本とする．このとき，X₁, . . . , X_nを与えたときのPの条件付き分布は，パラメータα +^∑ⁿ_i=1δ_X_iをもつDirichlet過程になる．

Proof. n = 1のときに定理を示せば十分である．_{B1, . . . , B_k_}を_Xの可測分割とする．X を与えたときの(P (B₁), . . . , P (B_k))の条件付き分布がDirichlet分布

Di(α(B₁) + δ_X(B₁), . . . , α(B_k) + δ_X(B_k)) に一致することを示せばよい．そのためには，各_{A ∈ A}に対して，

P{X ∈ A, P (B1) ≤ y1, . . . , P (B_k_{) ≤ y}_k_}

= E[D(y1, . . . , y_k_{| α(B}1) + δ_X(B1), . . . , α(B_k) + δ_X(B_k)), {X ∈ A}] を示せばよいが，

RHS =

∫

A

D(y1, . . . , y_k_{| α(B}1) + δx(B1), . . . , α(B_k) + δx(B_k))dα(x)/α(X )

=

∑k j=1

∫

Bj∩A

D(y₁, . . . , y_k_{| α}^(j)₁ , . . . , α^(j)_k )dα(x)/α(X )

=

∑k j=1

α(Bj _{∩ A)}

α(X ) ^D(y¹, . . . , y_k_{| α}^(j)₁ , . . . , α^(j)_k ) = LHS であるから，定理の結論を得る．

Theorem 4. PをパラメータαをもつDirichlet過程とし，X₁, X₂, · · · | P ∼ P i.i.d.^とする．このとき，

X₁ ∼ α(·)/α(X ),

Xn+1 _{| X}1, . . . , Xn_{∼ α}n_(·)/αn(X ), n = 1, 2, . . . ここで，α_n= α +^∑ⁿ_i=1δ_X_iである．

Remark 3. 逆に，Blackwell and MacQueen (1973)はこの関係からDirichlet過程が構成できることを示した(後述)．

Proof.

P_{X_n+1 _{∈ A | X}₁, . . . , Xn_{} = E[P{X}n+1_{∈ A | P, X}1, . . . , Xn_{} | X}1, . . . , Xn]

= P{P (A) | X1, . . . , X_n_{} = α}_n(A)/α_n_{(X ).}

(8)

最後の等式は，

P (A) | X1, . . . , X_n_{∼ Be(α}_n(A), α_n(A^c)) より従う．

Remark 4. X₁, . . . , X_nの順序を入れ替えても同時分布は変わらないから， X_i _{| X}₁, . . . , X_i−1, X_i+1, . . . , X_n_∼ ¹

n − 1 + α0

∑

j̸=i

δ_X_j_{(·) +} ^α⁰

n − 1 + α0^G(·)

が成り立つ．ただし，α₀= α(X ), G(·) = α(·)/α0である．

Example 1. X1, . . . , Xn_{∼ P} とし，有界可測関数_{g : X → R}に対して，分布Pの汎関数

∫ gdP

の推定を考える．分布Pの事前分布にDirichlet過程を用いると，^∫ gdP の事後平均は

E [∫

gdP

X¹, . . . , Xn

]

= pn

∫

g(x)dα(x)/α(X ) + (1 − pⁿ⁾

∑n i=1

g(Xi) で与えられる．ただし，p_n= α(X )/(α(X ) + n)^である．

1.4 Dirichlet過程の構成

与えられたパラメータαをもつDirichlet過程の存在は自明ではない．以下，本質的に Ferguson (1973, Section 3)の議論にもとづいて，Dirichlet過程を構成してみよう．αを 0 < α(X ) < ∞^なる(X , A)^{上の測度とし，それを}¹つ固定する．おおまかな方針としては，最初にDirichlet過程と同じ有限次元分布たちをもつ確率過程Q = {Q(A) : A ∈ A} を構成し，次にQがσ-additiveなパスをもつバージョンをもつことを示す．

[0, 1]Âを_Aから[0, 1]への関数全体とし，_BFÂをすべての_{A ∈ A}に対して射影 x 7→ x(A), [0, 1]Â → [0, 1]

が可測になる[0, 1]Â上の最小なσ-fieldとする．このとき，写像Q : Ω → [0, 1]Â^{に対して，} Qが[0, 1]Â-valued r.v. (すなわち，_F/BFÂ可測_{) ⇔} 各Q(A)がr.v.

である．Qを[0, 1]Â-valued r.v.としたとき，A₁, . . . , A_m_{∈ A}に対して，(Q(A₁), . . . , Q(A_m)) の分布をQの有限次元分布と呼ぶ．_BFÂ上に定義されるQの分布は，Qの有限次元分布たちによって一意に決まる．[0, 1]Â-valued r.v.’s Q, Rに対して，QとRがお互いのバージョンであるとは，QとRが[0, 1]Â-valued r.v.’sとして同じ分布をもつこと,すなわち，QがRと同じ有限次元分布たちをもつことを言う．

いま，問題を一般化して，次の設定を考える．

(9)

(i) X ^{のあらゆる可測分割}{B1, . . . , B_k_}に対して，(Q(B₁), . . . , Q(B_k))の同時分布が与えられているとする．特に，Q(X ) = 1 a.s.^とする．

(ii) A₁, . . . , A_m _{∈ A}に対しては，(Q(A₁), . . . , Q(A_m))の同時分布を次のように構成する：_{A ∈ A}に対して，A⁰= A^c, A¹= Aと書く．ν_j ∈ {0, 1}, j = 1, . . . , m^{に対して，} B_ν₁_···ν_k _{= ∩}^m_j=1A^ν_j^jとおくと，集合族

{B^ν1···νm ^{: ν}j ∈ {0, 1}, j = 1, . . . , m} は_X の可測分割を与える．このとき，各A_jがA_j =^∪_ν

j=1^B^ν1···νmと書けることに注意して，(Q(A₁), . . . , Q(A_m))の同時分布を

(Q(A₁), . . . , Q(A_m))=^d

(∑

ν1=1

Q(B_ν₁_···ν_m), . . . , ^∑

νm=1

Q(B_ν₁_···ν_m) )

と決める．

Theorem 5. 次の整合性条件を仮定する：_Xのあらゆる可測分割_{B1, . . . , B_k_{}, {B}₁^′, . . . , B_k^′′_}

に対して，_{B₁^′, . . . , B_k^′′_}が_{B1, . . . , B_k_}の細分なら，すなわち，適当に添え字を入れ替えたあとに，B₁=^∪^r_i=1¹ B_i^′, . . . , B_k=^∪^k_i=r^′

k−1⁺¹^B

i′^{と書けるなら，}

(Q(B₁), . . . , Q(B_k))=^d





r1

∑

i=1

Q(B_i^′), . . . ,

k^′

∑

i=r_k−1+1

Q(B_i^′)





が成り立つ．このとき，(i)と(ii)から決まる有限次元分布たちをもつ[0, 1]^A-valued r.v. Qが存在する．

Proof. 1 = Q(X )= Q(X ) + Q(∅) = 1 + Q(∅)^d ^より，Q(∅) = 0 a.s.に注意すると，(i)と (ii)から決まる有限次元分布たちはwell-definedである．次にこのようにして決まる有限次元分布たちは整合的なので，Kolmogorovの拡張定理より，定理の結論を得る．

この定理をDirichlet過程の有限次元分布たちに適用して，次の補題を得る．

Lemma 3. 次をみたす[0, 1]^A-valued r.v. Qが存在する：Qの各有限次元分布は，パラ

メータαをもつDirichlet過程のそれと等しい．

Proof. Dirichlet分布の性質から，Dirichlet過程の有限次元分布たちは整合性条件をみたす．ゆえに，Theorem 5より補題の結論を得る．

Lemma 3の[0, 1]^A-valued r.v. Qを，パラメータαをもつ法則の意味のDirichlet過程と呼ぶことにする．法則の意味のDirichlet過程は次の性質をみたす．

Lemma 4. Qをパラメータαをもつ法則の意味のDirichlet過程とする．

(10)

(i) A, B ∈ A^{が排反なら，}Q(A ∪ B) = Q(A) + Q(B) a.s. (ii) An_{↓ ∅, A}n_{∈ A ⇒ Q(A}n_{) ↓ 0 a.s.}

Proof. (i). (Q(A ∪ B), Q(A) + Q(B))= (Q(A) + Q(B), Q(A) + Q(B))^d より， P{Q(A ∪ B) = Q(A) + Q(B)} = 1.

(ii). A_n_{↓ ∅}なら，α(A_n_{) ↓ 0}であるから，適当な部分列_{nk}^{が存在して，}^∑^∞k=1^α(Aⁿ^k^{) <}

∞となる．このとき，任意のε > 0に対して，

∑∞ k=1

P_{Q(A_n_k) > ε} ≤ ε⁻¹

∑∞ k=1

E_[Q(A_n_k_{)] = ε}⁻¹_{α(X )}⁻¹

∑∞ k=1

α(Ank) < ∞

であるから，Borel-Cantelliの補題より，^P_{Q(Ank) > ε i.o.} = 0^となる．^{ε > 0}^は任意だったから，lim_kQ(A_n_k) = 0 a.s.を得る．また，Q(A_n)はa.s.に減少列であるから， Q(A_n_{) ↓ 0 a.s.}を得る．

Remark 5. Lemma 4は法則の意味のDirichlet過程がa.s.にσ-additiveになることを保証しているわけではない．これは，除外集合が集合列Anに依存するからである．

X^は^Poland空間と仮定していたことを思い出す．_{x ∈ X}を中心とする半径r > 0の開球をB(x, r)と書く．_{x1^{, x}2, . . . }^をX^{の可算稠密集合とし，}

A⁰⁰= {B(xⁱ, r) : i = 1, 2, . . . ; r ∈ Q^>0} ∪ {∅}

とおくと，_A00は_X の可算基を与える．このとき，_A0を_A00を含む最小のfieldとする．すなわち，_A^′₀_{= {}^∩^m_j=1Bj : Bj or B^c_j _{∈ A}00, j = 1, . . . , m, m ∈ N}^{とおくと，}A⁰^は

A0⁼





∪m j=1

A_j : A₁, . . . , A_m _{∈ A}^′₀_{, m ∈ N}





と表せる．_A0は可算であり，_X のBorel σ-field A^{を生成する：}σ(A0) = A.

Lemma 5. (Harris, 1968, Lemma 6.1) 次の性質をみたす可算個の集合列_{Am,n_}^∞_n=1_⊂

A0, m = 1, 2, . . . が存在する：各m = 1, 2, . . . に対して，A_m,1 _{⊃ A}_m,2 ⊃ · · · ↓ ∅^であって，_A0上の任意の有限加法的確率µに対して，lim_nµ(A_m,n) = 0, ∀m = 1, 2, . . . ^なら， µは_A0上でσ-additiveになる．

Proof. A0 = {D1^{, D}2, . . . }^{とする．各}k, ℓ ∈ Nに対して，次をみたす集合列_{B_k,j^ℓ _}^∞_j=1_⊂ A0を構成できる：D_ℓ =^∪^∞_j=1B_k,j^ℓ , B^ℓ_k,j _{⊂ D}_ℓ, diam(B_k,j^ℓ ) < 1/k. このとき，集合列たち



^D^ℓ^\

∪n j=1

B_k,j^ℓ





∞

n=1

, k, ℓ ∈ N

(11)

を_{Am,n}^∞n=1, m = 1, 2, . . . とラベルする．このようにして構成した集合列たちが補題の条件をみたすことを確認する．µを_A0上の有限加法的確率とし，lim_nµ(A_m,n) = 0, ∀m = 1, 2, . . . をみたすとする．このとき，仮にµが_A0上でσ-additiveでないならば，D_ℓ_i _↓

∅, D_ℓ_i _{∈ A}₀, lim inf_iµ(D_ℓ_i) =: α > 0をみたす集合列が存在する．いま，各iに対して， niを十分大きく選べば，

µ



D_ℓ_i_\

ni

∪

j=1

B_i,j^ℓⁱ



 ≤ α2⁻ⁱ⁻¹

とできる．そこで，

E_i,j = B^ℓ_i,jⁱ, F_i =

ni

∪

j=1

E_i,j, G_i =

ni

∪

j=1

E_i,j とおくと，F_i _{⊂ G}_i _{⊂ D}_ℓ_iとなる. ところで，

D_ℓ_i _⊂





∩i j=1

Fj



^∪





∪i j=1

(D_ℓ_j _{\ F}j)





と，µが有限加法的であることから，

µ





∩i j=1

Fj



 ≥ µ(Dℓi) − µ





∪i j=1

(D_ℓ_j _{\ F}j)



 ≥ α − α/2 = α/2

となる．よって，各iに対して，閉集合G1∩ · · · ∩ Gⁱ^{は空でないから，}^E^1,1, . . . , E1,n1^の

うちどれか1つ(それをH1とおく)は次の性質をみたす：各nに対してH1_{∩ G}2∩ · · · ∩ Gⁿ は空でない．同様の操作を繰り返せば，H_i _{∈ {E}_i,1, . . . , E_i,n_i}, i = 1, 2, . . . ^を，各ⁿ^に対して，H₁∩ · · · ∩ Hnが空でないように選ぶことができる．このとき，diam(H_n_{) ≤ 1/n}と X ^{の完備性より，}^∩n^D^ℓⁿ ⊃^∩n^Hⁿ̸= ∅であるが，これは矛盾．

Remark 6. µは有限加法的なので，それがσ-additiveになるためには，あらゆるB_n _↓

∅, B_n_{∈ A}₀に対して，lim_nµ(B_n) = 0となることが必要十分である．そのような集合列B_n の選び方は一般に非可算無限個あるが，µが_A0上でσ-additiveであることを確認するには， (µに依存しない)可算個の集合列_{Am,n}^∞n=1, m = 1, 2, . . . に対して，lim_nµ(A_m,n) = 0 を確認すればよい．

Theorem 6. パラメータαをもつDirichlet過程は存在する． Proof. 法則の意味のDirichlet過程Qを1つ決める．いま，

Ω₀ =^{ω ∈ Ω : Q(X , ω) = 1,

Q(A ∪ B, ω) = Q(A, ω) + Q(B, ω), ∀A, B ∈ A0^,

limn ^Q(A^n,m, ω) = 0, ∀m = 1, 2, . . .^}

(12)

とおくと，_A0は可算であるから，Ω₀ _{∈ F, P(Ω}₀) = 1である. このとき，Lemma 5より，各_{ω ∈ Ω}0に対して，_{Q(·, ω)}は_A0上でσ-additiveになるから，Carath´eodoryの拡張定理より，_{Q(·, ω)}は_σ(A0) = A^{上の一意な}p.m. P (·, ω)^{に拡張できる．}^x0 ∈ X ^{を任意に選} び，それを1つ固定する．_{ω ∈ Ω}^c₀に対しては，P (·, ω) = δx0 ^{と決めておけば，各}ω ∈ Ω に対して，_{P (·, ω)}はp.m.になる．次に，各_{A ∈ A}に対して，ω 7→ P (A, ω)^{が可測にな} ることを確認する．L = {A ∈ A : ω 7→ P (A, ω) ^は可測} ^{とおくと，}L^はA0を含むλシステムである．_A0はπシステムであるから，π-λ定理より，_{L ⊃ σ(A}0) = A, ^{すなわち，}

L = A^{を得る．あとは}^P ^が^Qのバージョンになっていることを確認すればよい．_A00は

Xの可算基であるから，あらゆる開集合_{A ⊂ X}に対して，A_n_{↑ A}となる集合列A_n_{∈ A}₀ を選べる．このとき，各_{ω ∈ Ω}0に対して，P (A, ω) = lim_nP (A_n, ω) = lim_nQ(A_n, ω) が成り立つ. 一方，Q(An) ↑ Q(A) a.s.^{であるから，}A ⊂ X^{が開集合のときは}P (A) = Q(A) a.s.が成り立つ．次に，集合族{A ∈ A : P (A) = Q(A) a.s.}^{は開集合全体を含む}^λ^システムであるから，あらゆる_{A ∈ A}に対して，P (A) = Q(A) a.s.を得る．これはPがQのバージョンになっていることを意味する．

Remark 7. 正確には，Ferguson (1973)のSection 3は法則の意味のDirichlet過程しか構成していない．しかしあとで紹介するようにFerguson (1973)はSection 4において，全く別の方法を用いてDirichlet過程をランダムな離散確率測度として明示的に構成した．ただし，Ferguson (1973)では“ランダムな確率測度”の意味が曖昧なため，そもそもDirichlet 過程の定義がわかりにくくなっている．本ノートで用いた“法則の意味のDirichlet過程” という用語は，L´evy過程の文献から借りた(佐藤 (1991)を参照)．

(13)

2 Dirichlet 過程のそのほかの構成法

Dirichlet過程はランダムな離散確率測度として明示的に構成できる．そのような構成法

を紹介することが本節の目的である．具体的には，Sethuraman (1994), Ferguson (1973, Section 4)，およびBlackwell and MacQueen (1973)の方法を証明付きで紹介する．なお，本節を書くにあたり，Pitmanによるレビュー論文(Pitman, 1996)を参考にした．以下， αを0 < α(X ) < ∞^なる(X , A)^{上の測度とする．}

2.1 Sethuraman (1994)の構成

Dirichlet過程の最も簡単な構成法はSethuraman (1994)によるものである．θ₁, θ₂_{, · · · ∼} Be(1, α(X )) i.i.d.^とし，^P1 ^{= θ}1^{, P}n^{= θ}n^∏ⁿ_i=1(1 − θi), n ≥ 2^とおく．

Lemma 6. ^∑ⁿ_i=1P_i_{= 1 −}^∏ⁿ_i=1_{(1 − θ}_i_{) → 1 a.s.}

Proof. ^∏ⁿ_i=1_(1−θi_{) = exp{}^∑ⁿ_i=1_log(1−θi_)}であって，大数の強法則より，n⁻¹^∑ⁿ_i=1_log(1− θ_i) → E[log(1 − θ1)] < 0 a.s.であるから，^∑ⁿ_i=1_{log(1 − θ}i) → −∞ a.s. ^{となる．よって，}

∏_n

i=1(1 − θi) → 0 a.s.^を得る．

Y1, Y2, · · · ∼ α(·)/α(X ) i.i.d.^を^θ¹^{, θ}²^{, . . .} ^と独立な^r.v.’sとし，ランダムな離散確率測度P を

P :=

∑∞ i=1

P_iδ_Y_i _(∗2)

と定義する．

Theorem 7. (Sethuraman, 1994, Theorem 3.4) (∗2)から定義されるランダムな離散確率測度Pは，パラメータαをもつDirichlet過程である．

Theorem 7の証明は全く初等的である．まず，補題を3つ準備する．

Lemma 7. (α₁, . . . , α_k), (β₁, . . . , β_k_{) ∈ R}^k₊_{\ {0}}とし，

U ∼ Di(α¹, . . . , α_k), V ∼ Di(β¹, . . . , β_k)

は独立とする．また，W ∼ Be(a, b)^を^{(U, V )}^と独立な^r.v.^{とする．ただし，}^{a =}^∑^kj=1^α^j^{, b =}

∑k

j=1^β^j^{である．このとき，}W U + (1 − W )V ∼ Di(α1^{+ β}1, . . . , α_k+ β_k)．

Proof. Z₁, . . . , Z_k, Z_k+1, . . . , Z_2kを独立なr.v.’sとし，それぞれZ_j _{∼ Ga(α}_j, 1), Z_k+j _∼ Ga(β_j, 1), j = 1, . . . , kとする．このとき，

(U, V, W )=^d

( Z₁

∑_k

j=1^Z^j

, . . . ,_∑_k^Z^k

j=1^Z^j

,_∑_k^Z^k+1

j=1^Z^k+j

, . . . ,_∑_k^Z^2k

j=1^Z^k+j

,

∑k j=1^Z^j

∑_2k

ℓ=1^Z^ℓ

)

(14)

であるから，

U W + (1 − W )V ⁼^d

(Z₁+ Z_k+1

∑_2k

j=1^Z^j

, . . . ,^Z_∑^k_2k^{+ Z}^2k

j=1^Z^j

)

∼ Di(α1^{+ β}1, . . . , α_k+ β_k)

を得る．

Lemma 8. (α₁, . . . , α_k_{) ∈ R}^k₊_{\ {0}}とし，a =^∑^k_i=1α_kとおく．このとき，

∑k j=1

(α_j/a)Di(α^(j)₁ , . . . , α^(j)_k ) = Di(α₁, . . . , α_k).

ただし，

α_i^(j)=





α_i _{if i ̸= j} α_j+ 1 if i = j である．

Proof. α_j > 0, 1 ≤ ∀j ≤ kのとき補題を示せば十分である．

(Y1, . . . , Yk_{) ∼}

∑k j=1

(αj/a)Di(α^(j)₁ , . . . , α^(j)_k )

とすれば，(Y₁, . . . , Y_k−1)の密度関数は

∑k j=1

a_j a

Γ(a + 1)

∏_k

i=1^Γ(α (j) i ⁾

| {z }

=(a/αj)Γ(a)/^∏^k_i=1Γ(αi)

(_k−1

∏

i=1

y^α

(j) i ⁻¹

i

) ( 1 −

k−1∑

i=1

yi

)α^(j)_k −1

= _∏_k^Γ(a)

i=1^Γ(αⁱ⁾

(_k−1

∏

i=1

y_i^αⁱ⁻¹ ) (

1 −

∑k−1 i=1

y_i )αk−1

(y₁+ · · · + yk−1+ 1 − y1− · · · − yk−1⁾

| {z }

=1

である．よって，補題の結論を得る．

Lemma 9. W を_{(−1, 1)}に値をとるr.v.とし，U を確率ベクトルとする．また，V はU と同じ次元の確率ベクトルとし，(W, U )とは独立であって，

V = U + W V^d _(∗3)

をみたすとする．このとき，V の分布は_(∗3)から一意に決まる．

(15)

Proof. V, V^′をともに_(∗3)をみたすr.v.’sとする．(W_n, U_n)を(W, U )の独立なコピーとし， (V, V^′)と独立とする．V₁ = V, V₁^′ = V^′とし，あとは帰納的に，V_n+1= U_n+W_nV_n, V_n+1^′ = U_n+ W_nV_n^′と定義する．このとき，V_n= V, V^d _n^′ = V^d ^′である．しかし，

|Vn+1− Vn+1^′ | = |Wn||Vn− Vn^′| = ( _n

∏

i=1

|Wi| )

|V − V^′| → 0 a.s.

であるから，V = V^d ^′を得る．

Proof of Theorem 7. まずPの定義より，

P = θ^d ₁δ_Y₁_{+ (1 − θ}₁)P^′

である．ただし，P^′は(θ₁, Y₁)と独立であって，Pと同じ分布をもつランダムなp.m.である．よって，_X の可測分割_{B1, . . . , B_k_}に対して，

(P (B₁), . . . , P (B_k))= θ^d ₁(δ_Y₁(B₁), . . . , δ_Y₁(B_k)) + (1 − θ1^)(P^′^(B1), . . . , P^′(B_k)) が成り立つ．すなわち，W = θ^d ₁, U = (δ^d _Y₁(B₁), . . . , δ_Y₁(B_k)), V = (P (B^d ₁), . . . , P (B_k))とし，U, V, Wを独立とすると，V = W U +(1−W )V^d ^{となる．これをみたす}^V ^{の分布は一意で} あるから，_{V ∼ Di(α(B}1), . . . , α(B_k))に対して，W U +(1−W )V ∼ Di(α(B1), . . . , α(B_k)) となることを示せば十分である．

V ∼ Di(α(B1), . . . , α(B_k))とする．α_j = α(B_j), a = α(X ) =^∑^kj=1^α^j^とおき，^e^j ∈ R^k をj番目の座標が1の単位ベクトルとする．ここで，Di(e_j) = δe_j より，U = e_j が与えられたとき，W U + (1 − W )V ^{の条件付き分布は}^Di(α^(j)1 , . . . , α^(j)_k )に等しい．さらに， P_{{U = e}_j_{} = P{Y}₁ _{∈ B}_j_{} = α}_j_/a_より，

W U + (1 − W )V ∼

∑k j=1

(α_j/a)Di(α^(j)₁ , . . . , α^(j)_k ) = Di(α₁, . . . , α_k)

を得る．以上より，定理が示された．

2.2 Ferguson (1973, Section 4)の方法

FergusonはDirichlet過程を導入した論文において，その構成法として，Kolmogorovの拡張定理に基づく抽象的な方法(これはすでに示した)と，以下に紹介する明示的な方法を考察した．確率過程_{Zt: t ≥ 0}^が⁽^標準^)Gamma過程であるとは，以下の(i)–(iv)が成り立つことを言う：

(i) Z₀ = 0 a.s.

(ii) Z_tは独立増分をもつ．

(16)

(iii) Z_t₂_{− Z}_t₁ _{∼ Ga(t}₂_{− t}₁, 1) for 0 ≤ t1 ^{< t}2^.

(iv) a.s.にパス_{t 7→ Z}tは右連続かつ単調非減少．

標準Gamma過程Z_tはジャンプ項だけからなるL´evy過程である．L´evy過程に関しては，

佐藤 (1991)が詳しい．λ > 0を1つ固定して，Z_tの_{t ∈ (0, λ)}でのジャンプを大きい順に並べたものをΓ₍₁₎ _{≥ Γ}₍₂₎ ≥ · · · > 0 ^とする．^P(i) ^{= Γ}(i)^/Zλ^とおき，^P(1)^{, P}(2)^{, . . .} ^の

同時分布をパラメータλをもつPoisson Dirichlet分布と呼び，P D(λ)と表す．ここで，

∑_∞

i=1^P(i)^{= 1 a.s.}^である．

Theorem 8. (Ferguson, 1973, Theorem 1) P₍₁₎ _{≥ P}₍₂₎ ≥ · · · > 0^をP D(α(X ))^に従う r.v.’sとし，Y1, Y2, · · · ∼ α(·)/α(X ) i.i.d.^を^P(1)^{, P}(2)^{, . . .} と独立なr.v.’sとする．このとき，

P :=

∑∞ i=1

P_(i)δ_Y_i

はパラメータαをもつDirichlet過程である．

この定理は，Sethuramanの構成と，Poisson Dirichlet分布の次の特徴づけ(ii)から従う： Theorem 9 (Poisson-Dirichlet分布の特徴づけ). λ > 0とする．

(i) (Kingman, 1975) (P₁ⁿ, . . . , P_nⁿ) ∼ Di(λ/n, . . . , λ/n)とし，その順序統計量をP₍₁₎ⁿ _≥

· · · ≥ P_(n)ⁿ ^{とおくと，}n → ∞^のとき，

(P₍₁₎ⁿ , . . . , P_(n)ⁿ , 0, . . . )→ P D(λ) in R^d ^N^. すなわち，左辺の各有限次元分布は右辺のそれに弱収束する．

(ii) (McCloskey, 1965; Donnelly and Joyce, 1989; Perman et al., 1992) θ₁, θ₂_{, · · · ∼} Be(1, λ) i.i.d.とし，P₁ = θ₁, P_n = θ_n^∏ⁿ⁻¹_i=1_{(1 − θ}_i_{), n ≥ 2}とおく．このとき， P₁, P₂, . . . を大きい順に並べ換えたP₍₁₎ _{≥ P}₍₂₎≥ · · · > 0^{の従う同時分布は}^{P D(λ)} に等しい．

Remark 8. (ii)の(P₁, P₂, . . . )が従う分布のことを，パラメータλをもつGEM分布と呼ぶ．GEMはGriffiths-Engen-McCloskeyの頭文字から来ている．Poisson Dirichlet分布の拡張は，Pitman and Yor (1997)を参照せよ．

Remark 9. PD分布は数論，組合せ論，集団遺伝学においても現れる．Pitman (1996)

の参考文献を参照せよ．例えば，Billingsley (1972)は，1からnまでの自然数をランダムに選んだとき，その素因数を大きい順に並べた確率変数列の，_{n → ∞}としたときの極限分布にPD分布が現れることを証明した．Billingsley (1999, Section 1.4)も参照せよ．

(17)

Proof of Theorem 9 (i). (i)の証明は初等的である．α_n= λ/nとおく．Z_tを標準Gamma 過程とし，Z_tの_{t ∈ (0, λ)}でのジャンプを大きい順に並べたものをΓ₍₁₎ _{≥ Γ}₍₂₎ ≥ · · · > 0 とする．Dirichlet分布の定義より，P_iⁿ = (Z_iα_n _{− Z}_(i−1)α_n)/Z_λ, i = 1, . . . , n とおくと， (P₁ⁿ, . . . , P_nⁿ_{) ∼ Di(α}_n, . . . , α_n)である．従って，P₁ⁿ, . . . , P_nⁿを大きい順に並べ換えたものをP₍₁₎ⁿ ≥ · · · ≥ P_(n)ⁿ ^として，^limⁿ^P_(i)ⁿ ^{= Γ}(i)^/Zλ ^a.s. ^{を示せば十分である．}

以下，Z_tのサンプルパスを1つ固定して，サイズΓ_(i)のジャンプが起こる時点をt_iとする．任意の正整数Nに対して，nを十分大きくとると，t_i (i = 1, . . . , N )はそれぞれ相異なる区間_{[(j − 1)α}n^{, jα}n] (j = 1, . . . , n)に含まれる．よって，P_(i)ⁿ の定義よりP_(i)ⁿ _{≥ Γ}_(i)/Z_λ となるから，lim inf_nP_(i)ⁿ _{≥ Γ}_(i)/Z_λを得る．あとはFatouの補題より，

lim sup

n

P_(i)ⁿ = lim sup

n



1 −^∑

j̸=i

P_(j)ⁿ



 ≤ 1 −^∑

j̸=i

lim inf

n ^P

(j)n ≤ 1 −^∑

j̸=i

Γ_(j)/Z_λ = Γ_(i)/Z_λ.

Nは任意だったから，(i)の結論を得る． (ii)の証明の前に，いくつか準備をする．

∆ = {

x = (x1, x2, . . . ) : xi≥ 0 (∀i ≥ 1),

∑∞ i=1

xi = 1 }

とおいて，∆に^R^Nの相対位相を入れる(R^Nには直積位相を入れる)．

∆ = ^∩

ε∈Q>0

∪

k>1/ε

{

x = (x₁, x₂, . . . ) : x₁, . . . , x_k≥ 0, 1 − ε ≤

∑k i=1

x_i _{≤ 1} }

より，∆は^R^NのBorel集合である．

まず，∆から∆へのランキング関数 ρを定義する．各x = (x₁, x₂, . . . ) ∈ ∆^に対して xm → 0 (m → ∞)^より，^x¹^{, x}²^{, . . .} の最大値が存在する．タイがある場合は添え字の一番小さいものを選ぶとして，それをx₍₁₎とおく．同様の操作を_{x1^{, x}2, . . . } \ {x(1)}^に適用して，二番目に大きい値x₍₂₎を得る．この操作を繰り返して，x₍₁₎ _{≥ x}₍₂₎ _{≥ · · ·} を得る．このとき，写像

ρ : (x₁, x₂, . . . ) 7→ (x(1)^{, x}(2), . . . ), ∆ → ∆ をランキング関数と呼ぶ．

Lemma 10. _{ρ : ∆ → ∆}は連続である．

Proof. xⁿ_{, x ∈ ∆, x}ⁿ _{→ x}とする．ρ(xⁿ_{) → ρ(x)}を示す．ρは座標置換に関して不変であるから，x₁ _{≥ x}₂ _{≥ · · ·} と仮定してよい．ここで，^∑^∞_i=1xⁿ_i = ^∑^∞_i=1x_i = 1より，

∑

i^(xⁱ− xⁿi⁾⁻⁼

∑

i^(xⁱ− xⁿi⁾⁺^{であるから，}

∑

i|xi− xⁿi| = 2^∑i^(xⁱ− xⁿi⁾⁺^{である．さら}

に，(x_i_−xⁿ_i)⁺_{≤ x}_iであるから，DCTより，^∑_i(x_i_−xⁿ_i)⁺ _{→ 0,}すなわち，^∑_i_|xi−xⁿi| → 0 を得る．また，これから，max_i_|x_i_{− x}ⁿ_i_{| → 0}も従う．

PDF Teaching Kengo Kato

Dirichlet 過程とその応用

目 次

1 Dirichlet 過程

2 Dirichlet 過程のそのほかの構成法

目次