Dirichlet 過程とその応用
1加藤賢悟2
このノートは2008年度に行われた大森先生の演習(Chen et al. (2000)の輪読)の発表 資料として作成したものを,加筆・修正したものである3.Dirichlet過程は確率測度に対 する事前分布としてFerguson (1973)により導入された.数学的には,Dirichlet過程は確 率測度の空間に値をとる確率変数であり,その構成は自明でない.本ノートの主要な目的
は,Dirichlet過程の構成をある程度詳細に解説することである.予備知識はBillingsley
(1999)のChapter 1の内容を理解していれば問題ない.また,Dirichelt過程のベイズ統計 への応用例も少し解説しているが,より包括的な解説はGhosh and Ramamoothi (2003) などを参照することを勧める.なお,S. GhosalとA. van der Vaartによる“Theory of Nonparametric Bayesian Inference”なるタイトルの本が刊行予定であることが数年前か ら予告されているが,まだ出版されていないようである.作成当時から内容を本質的には アップデートしていないので,特に応用部分はoutdatedになっている可能性もある.
目 次
1 Dirichlet過程 2
1.1 Dirichlet分布 . . . 2
1.2 Dirichlet過程の定義 . . . 3
1.3 Dirichlet過程の性質 . . . 5
1.4 Dirichlet過程の構成 . . . 8
2 Dirichlet過程のそのほかの構成法 13 2.1 Sethuraman (1994)の構成 . . . 13
2.2 Ferguson (1973, Section 4)の方法 . . . 15
2.3 Blackwell and MacQueen (1973)の方法 . . . 20
3 Dirichlet過程の応用 25 3.1 混合Dirichlet過程 . . . 25
3.2 Dirichlet過程混合モデル . . . 26
3.3 Dirichlet過程の近似 . . . 30
1First version: 2008年12月. This version: 2015年7月20日.
2東京大学大学院経済学研究科.E-mail: kkato@e.-tokyo.ac.jp.
3細かい計算はちゃんとチェックしていないので,あまり信用しないで下さい.
1 Dirichlet 過程
(Ω, F, P)を確率空間とする.位相空間Uに対して,B(U)をU のBorel σ-fieldとする. 写像X : Ω → U がU-値確率変数 (U-valued r.v.)であるとは,XがF/B(U)可測である こと,すなわち,X−1(B) ∈ F ∀B ∈ B(U)となることを言う.R-valued r.v.のことを単 にr.v.と言う.確率測度をp.m.と省略する.可積分なr.v. Xと可測集合A ∈ Fに対し て,E[X, A] = E[X1A] =∫AXdPと書く.次のDynkinのπ-λ定理 は以下しばしば用い るので,ここで述べておく.空でない集合X の部分集合族Pがπシステム であるとは,
A, B ∈ Pなら,A ∩ B ∈ P となることを言う.次にX の部分集合族Lがλシステム で
あるとは,次の条件(i)-(iii)をみたすことを言う:(i) X ∈ L, (ii) A, B ∈ L, A ⊂ Bなら, B \ A ∈ L, (iii) An↑ A, An∈ Lなら,A ∈ L.
Theorem 1 (π-λ定理). Pをπシステムとし,LをPを含むλシステムとする:L ⊃ P. このとき,σ(P) ⊂ Lである.
証明は標準的な確率論の教科書を参照せよ.例えば,Durrett (2010, Appendix)にある.
1.1 Dirichlet分布
Ga(α, β)をシェイプパラメータα ≥ 0,逆スケールパラメータβ > 0をもつガンマ分布と する.ただし,Ga(0, β)は0に退化した分布である.α > 0のとき,Ga(α, β)はLebesgue 測度に関して密度関数
xα−1e
−βxβα
Γ(α) , x > 0 をもつ.Γ(α)はガンマ関数である:
Γ(α) =
∫ ∞ 0
xα−1e−xdx.
Definition 1. α1, . . . , αk ≥ 0の少なくとも1つは正であるとし,Z1, . . . , Zkを独立な r.v.’sであって,Zj ∼ Ga(αj, 1)とする.いま,
Yj = ∑kZj
i=1Zi
, j = 1, . . . , k
とおいたとき,(Y1, . . . , Yk)の同時分布をパラメータ(α1, . . . , αk)をもつDirichlet分布 と 呼び,Di(α1, . . . , αk)と表す.
以下,Di(α1, . . . , αk)の分布関数を
D(y1, . . . , yk| α1, . . . , αk) = P{Y1 ≤ y1, . . . , Yk ≤ yk} と書く.まず,Dirichlet分布の性質をいくつかまとめておく.
(1) Y1+ · · · + Yk= 1であるから,Dirichlet分布Di(α1, . . . , αk)はk次元Lebesgue測 度に関して特異である.
(2) αj > 0, 1 ≤ ∀j ≤ kなら,(Y1, . . . , Yk−1)の分布は(k − 1)次元Lebesgue測度に関し て絶対連続であり,その密度関数は
f (y1, . . . , yk−1| α1, . . . , αk)
= Γ(α1+ · · · + αk)
Γ(α1) · · · Γ(αk)
k−1∏ j=1
yαjj−1
1 −
k−1∑
j=1
yj
αk−1
1S(y1, . . . , yk−1) で与えられる.ただし,Sは
S = {(y1, . . . , yk−1) : yj > 0 (j = 1, . . . , k − 1), y1+ · · · + yk−1< 1} である.
(3) r1, . . . , rℓを0 < r1 < · · · < rℓ= kなる整数とすると,
r1
∑
i=1
Yi, . . . ,
rℓ
∑
i=rℓ−1+1
Yi
∼ Di
r1
∑
i=1
αi, . . . ,
rℓ
∑
i=rℓ−1+1
αi
.
特に,各Yjの周辺分布はBe(αj,∑i̸=jαi)である. (4) 次の等式が成り立つ:
E[Yj, {Y1 ≤ y1, . . . , Yk≤ yk}] = ∑kαj
i=1αi
D(y1, . . . , yk| α(j)1 , . . . , α(j)k ), j = 1, . . . , k. ただし,
α(j)i =
αi if i ̸= j αj + 1 if i = j である.
1.2 Dirichlet過程の定義
以下,Xは常にPoland空間(すなわち,完備かつ可分な距離空間)と仮定し,AをXの
Borel σ-fieldとする:A = B(X ).A×Ωから[0, 1]への写像Pに対して,{P (A, ·) : A ∈ A} が[0, 1]に値をとる確率過程であるとは,各A ∈ Aに対して,P (A) = P (A, ·)が[0, 1]- valued r.v.であること,すなわち,
ω 7→ P (A, ω), Ω → [0, 1]
がF/B([0, 1])可測であることを言う.ω ∈ Ωを固定したとき,Aの関数A 7→ P (A, ω)を Pの パス と呼ぶ.集合族{B1, . . . , Bk}がX の 可測分割 であるとは,B1, . . . , Bkが排反 なA可測集合であって,B1∪ · · · ∪ Bk= X となることを言う.
Definition 2. αを0 < α(X ) < ∞なる(X , A)上の測度とする.このとき,[0, 1]に値を とる確率過程P = {P (A, ·) : A ∈ A}が次の(i)と(ii)の条件をみたすとき,Pをパラメー タαをもつDirichlet過程 と呼ぶ:
(i) X のあらゆる可測分割{B1, . . . , Bk}に対して,
(P (B1), . . . , P (Bk)) ∼ Di(α(B1), . . . , α(Bk)).
(ii) 各ω ∈ Ωに対して,P のパスA 7→ P (A, ω), A → [0, 1]は(X , A)上のp.m.になる. ひとまずDirichlet過程P の存在は認める(あとで証明する).いま,M = M (X )を (X , A)上のp.m.’sの全体とし,Mに弱収束位相を入れると,MはPoland空間になる.各 ω ∈ Ωに対して,パスA 7→ P (A, ω)は(X , A)上のp.m.であるから,
P : ω 7→ P (·, ω)
はΩからMへの写像とみなせる.M のBorel σ-fieldをMとおく:M = B(M). Lemma 1. 各A ∈ Aに対して,Aへの射影を
πA: x 7→ x(A), M → [0, 1]
と定義すると,MはすべてのπA, A ∈ Aが可測になるM上の最小なσ-fieldに一致する: M = σ({π−1A (B) : A ∈ A, B ∈ B([0, 1])}). (∗) Proof. 右辺をMcとおく.まず,Mc ⊂ Mを示す.A ⊂ X を開集合とし,µn, µ ∈ M(X ) をµn→ µw とすると,Portmanteau定理より,
lim inf
n πA(µn) = lim inf
n µn(A) ≥ µ(A) = πA(µ).
よって,πAは下半連続であるから,M可測である.いま,開集合全体はπシステムであ
り,µ 7→ πA(µ)がM可測になるA ∈ Aの全体は開集合全体を含むλシステムであるか
ら,π-λ定理より,各A ∈ Aに対してπAはM可測である.従って,Mc⊂ Mを得る.
次に,M ⊂ Mcを示す.Mの可分性より,X上の任意の有界連続関数f : X → Rに対し
て,M ∋ µ 7→∫ f dµがMc可測であることを示せばよい.しかし,積分の構成から,適当
な単関数列fnが存在して,limn∫ fndµ =∫f dµ (∀µ ∈ M)となるから,fが単関数のとき µ 7→∫ f dµがMc可測であることを示せばよい.ところで,f =∑i=1m ai1Ai, a1, . . . , am∈ R, A1, . . . , Am ∈ Aの形の単関数に対して,∫ f dµ = ∑mi=1aiπAi(µ) であるから,µ 7→
∫ f dµはMc可測である.よって,M ⊂ Mcを得る.以上より,補題が示された. この補題より,写像Q : Ω → Mに対して,
QがM -valued r.v. (すなわち,F/M可測) ⇔ 各Q(A)がr.v.
が成り立つ.特にDirichlet過程PはM -valued r.v.である.M -valued r.v.を ランダムなp.m. とも言う.A1, . . . , Am ∈ Aに対して,(P (A1), . . . , P (Am))の分布をP の 有限次元分布 と呼ぶ.いま(∗)とπ-λ定理より,M上に定義されるPの分布(像測度) P ◦ P−1は,P の有限次元分布たちによって一意に決まる.Dirichlet過程の条件(i)と(ii)はPの有限次 元分布たちを一意に決めるから,次の定理を得る.
Theorem 2. Dirichlet過程はM上に一意な分布を定める.
Lemma 2. Q, RをM -valued r.v.’sとする.このとき,M -valued r.v.’sとしてQ = R a.s. であるための必要十分条件は,各A ∈ Aに対して,Q(A) = R(A) a.s.となることである. Remark 1. 前者はP{Q(A) = R(A), ∀A ∈ A} = 1の意味であって,後者はP{Q(A) =
R(A)} = 1 (∀A ∈ A)の意味である.確率過程の用語を用いると,{Q(A) : A ∈ A}と
{R(A) : A ∈ A}が互いの修正(modification)になっているならば,それらは区別できな
い(indistinguishable)ことを意味している.
Proof. 必要性は明らかなので,十分性を示す.X は可分であるから,Aを生成する可算
なπシステム Cが存在する(例えば後で現れるA0 をとればよい).ここで,Ω0 = {ω :
Q(A, ω) = R(A, ω), ∀A ∈ C}とおくと,Cは可算であるから,Ω0∈ F, P(Ω0) = 1である. またπ-λ定理より,ω ∈ Ω0に対して,Q(A, ω) = R(A, ω) ∀A ∈ Aとなるから,補題が示 された.
1.3 Dirichlet過程の性質
本節はDirichlet過程の基本的な性質を考察する.
Proposition 1. PをパラメータαをもつDirichlet過程とすると,任意のA ∈ Aに対し て,E[P (A)] = α(A)/α(X )となる.特に,α(A) = 0, A ∈ Aなら,P (A) = 0 a.s.である. Proof. P (A) ∼ Be(α(A), α(Ac))より明らか.
Definition 3. PをパラメータαをもつDirichlet過程とする.X -valued r.v.’s X1, . . . , Xn がP からのサイズnの標本 であるとは,Pを条件付けたときX1, . . . , Xn∼ P i.i.d.とな ることを言う.このとき,
X1, . . . , Xn| P ∼ P i.i.d.
と書く.n = ∞のときも同様に定義する.
Remark 2. Pを条件付けたときX1, X2, · · · ∼ P i.i.d.となるX -valued r.v.’s X1, X2, . . .
が存在するかどうかは必ずしも自明ではないが,Dirichlet過程の存在を認めると,次の ように示すことができる.X = (X1, X2, . . . )とPの同時分布の存在を示せばよい.いま, Pω = P (·, ω)と書いて,A⊗N⊗ M上のp.m. µを
µ(A × E) =
∫
Pω⊗N(A)1{P•∈E}(ω)dP(ω), A ∈ A⊗N, E ∈ M
から定義すれば,µはXとP の同時分布を与える.
Proposition 2. PをパラメータαをもつDirichlet過程とし,XをPからのサイズ1の 標本とする.このとき,あらゆるA ∈ Aに対して,P{X ∈ A} = α(A)/α(X )となる. Proof. 定義より,P{X ∈ A | P } = P (A) a.s.であるから,
P{X ∈ A} = E[P{X ∈ A | P }] = E[P (A)] = α(A)/α(X ) を得る.
Proposition 3. PをパラメータαをもつDirichlet過程とし,XをPからのサイズ1の 標本とする.このとき,あらゆるA ∈ Aと,X のあらゆる可測分割{B1, . . . , Bk}に対 して,
P{X ∈ A, P (B1) ≤ y1, . . . , P (Bk) ≤ yk} =
∑k j=1
α(Bj∩ A)
α(X ) D(y1, . . . , yk| α(j)1 , . . . , α(j)k ) が成り立つ.ただし,
α(j)i =
α(Bi) if i ̸= j α(Bj) + 1 if i = j である.
Proof. Bj,1= Bj∩ A, Bj,0 = Bj ∩ Acとおく.また,Yj,ν = P (Bj,ν)とおく.このとき, P{X ∈ A | Yj,ν, j = 1, . . . , k, ν = 0, 1}
=
∑k j=1
P {X ∈ Bj,1| Yn,ν, j = 1, . . . , k, ν = 0, 1} =
∑k j=1
Yj,1 a.s.
であるから,Dirichlet分布の性質(4)より, P{X ∈ A, Yj,ν ≤ yj,ν, j = 1, . . . , k, ν = 0, 1}
= E
∑k j=1
Yj,1, {Yi,ν ≤ yi,ν, i = 1, . . . , k, ν = 0, 1}
=
∑k j=1
α(Bj,1)
α(X ) D(y | α
(j))
を得る.ただし,y= (y1,0, . . . , yk,0, y1,1, . . . , yk,1), α(j)= (α(j)1,0, . . . , α(j)k,0, α(j)1,1, . . . , α(j)k,1),
α(j)i,ν =
α(Bi,ν), if i ̸= j, α(Bj,ν) + 1, if i = j
である.あとは,P (Bj) = Yj,0+ Yj,1 a.s.とDirichlet分布の性質(3)から結論を得る.
x ∈ X に対して,δxをxのDirac測度とする:δx(A) = 1A(x).次の定理はベイズ統計 において重要な意味をもつ.
Theorem 3. P をパラメータαをもつDirichlet過程とし,X1, . . . , XnをPからのサイ ズnの標本とする.このとき,X1, . . . , Xnを与えたときのPの条件付き分布は,パラメー タα +∑ni=1δXiをもつDirichlet過程になる.
Proof. n = 1のときに定理を示せば十分である.{B1, . . . , Bk}をXの可測分割とする.X を与えたときの(P (B1), . . . , P (Bk))の条件付き分布がDirichlet分布
Di(α(B1) + δX(B1), . . . , α(Bk) + δX(Bk)) に一致することを示せばよい.そのためには,各A ∈ Aに対して,
P{X ∈ A, P (B1) ≤ y1, . . . , P (Bk) ≤ yk}
= E[D(y1, . . . , yk| α(B1) + δX(B1), . . . , α(Bk) + δX(Bk)), {X ∈ A}] を示せばよいが,
RHS =
∫
A
D(y1, . . . , yk| α(B1) + δx(B1), . . . , α(Bk) + δx(Bk))dα(x)/α(X )
=
∑k j=1
∫
Bj∩A
D(y1, . . . , yk| α(j)1 , . . . , α(j)k )dα(x)/α(X )
=
∑k j=1
α(Bj ∩ A)
α(X ) D(y1, . . . , yk| α(j)1 , . . . , α(j)k ) = LHS であるから,定理の結論を得る.
Theorem 4. PをパラメータαをもつDirichlet過程とし,X1, X2, · · · | P ∼ P i.i.d.と する.このとき,
X1 ∼ α(·)/α(X ),
Xn+1 | X1, . . . , Xn∼ αn(·)/αn(X ), n = 1, 2, . . . ここで,αn= α +∑ni=1δXiである.
Remark 3. 逆に,Blackwell and MacQueen (1973)はこの関係からDirichlet過程が構 成できることを示した(後述).
Proof.
P{Xn+1 ∈ A | X1, . . . , Xn} = E[P{Xn+1∈ A | P, X1, . . . , Xn} | X1, . . . , Xn]
= P{P (A) | X1, . . . , Xn} = αn(A)/αn(X ).
最後の等式は,
P (A) | X1, . . . , Xn∼ Be(αn(A), αn(Ac)) より従う.
Remark 4. X1, . . . , Xnの順序を入れ替えても同時分布は変わらないから, Xi | X1, . . . , Xi−1, Xi+1, . . . , Xn∼ 1
n − 1 + α0
∑
j̸=i
δXj(·) + α0
n − 1 + α0G(·)
が成り立つ.ただし,α0= α(X ), G(·) = α(·)/α0である.
Example 1. X1, . . . , Xn∼ P とし,有界可測関数g : X → Rに対して,分布Pの汎関数
∫ gdP
の推定を考える.分布Pの事前分布にDirichlet過程を用いると,∫ gdP の事後平均は
E [∫
gdP
X1, . . . , Xn
]
= pn
∫
g(x)dα(x)/α(X ) + (1 − pn)
∑n i=1
g(Xi) で与えられる.ただし,pn= α(X )/(α(X ) + n)である.
1.4 Dirichlet過程の構成
与えられたパラメータαをもつDirichlet過程の存在は自明ではない.以下,本質的に Ferguson (1973, Section 3)の議論にもとづいて,Dirichlet過程を構成してみよう.αを 0 < α(X ) < ∞なる(X , A)上の測度とし,それを1つ固定する.おおまかな方針として は,最初にDirichlet過程と同じ有限次元分布たちをもつ確率過程Q = {Q(A) : A ∈ A} を構成し,次にQがσ-additiveなパスをもつバージョンをもつことを示す.
[0, 1]AをAから[0, 1]への関数全体とし,BFAをすべてのA ∈ Aに対して射影 x 7→ x(A), [0, 1]A → [0, 1]
が可測になる[0, 1]A上の最小なσ-fieldとする.このとき,写像Q : Ω → [0, 1]Aに対して, Qが[0, 1]A-valued r.v. (すなわち,F/BFA可測) ⇔ 各Q(A)がr.v.
である.Qを[0, 1]A-valued r.v.としたとき,A1, . . . , Am∈ Aに対して,(Q(A1), . . . , Q(Am)) の分布をQの有限次元分布と呼ぶ.BFA上に定義されるQの分布は,Qの有限次元分 布たちによって一意に決まる.[0, 1]A-valued r.v.’s Q, Rに対して,QとRがお互いの バージョン であるとは,QとRが[0, 1]A-valued r.v.’sとして同じ分布をもつこと,すなわ ち,QがRと同じ有限次元分布たちをもつことを言う.
いま,問題を一般化して,次の設定を考える.
(i) X のあらゆる可測分割{B1, . . . , Bk}に対して,(Q(B1), . . . , Q(Bk))の同時分布が与 えられているとする.特に,Q(X ) = 1 a.s.とする.
(ii) A1, . . . , Am ∈ Aに対しては,(Q(A1), . . . , Q(Am))の同時分布を次のように構成す る:A ∈ Aに対して,A0= Ac, A1= Aと書く.νj ∈ {0, 1}, j = 1, . . . , mに対して, Bν1···νk = ∩mj=1Aνjjとおくと,集合族
{Bν1···νm : νj ∈ {0, 1}, j = 1, . . . , m} はX の可測分割を与える.このとき,各AjがAj =∪ν
j=1Bν1···νmと書けることに 注意して,(Q(A1), . . . , Q(Am))の同時分布を
(Q(A1), . . . , Q(Am))=d
(∑
ν1=1
Q(Bν1···νm), . . . , ∑
νm=1
Q(Bν1···νm) )
と決める.
Theorem 5. 次の整合性条件を仮定する:Xのあらゆる可測分割{B1, . . . , Bk}, {B1′, . . . , Bk′′}
に対して,{B1′, . . . , Bk′′}が{B1, . . . , Bk}の細分なら,すなわち,適当に添え字を入れ替 えたあとに,B1=∪ri=11 Bi′, . . . , Bk=∪ki=r′
k−1+1B
i′と書けるなら,
(Q(B1), . . . , Q(Bk))=d
r1
∑
i=1
Q(Bi′), . . . ,
k′
∑
i=rk−1+1
Q(Bi′)
が成り立つ.このとき,(i)と(ii)から決まる有限次元分布たちをもつ[0, 1]A-valued r.v. Qが存在する.
Proof. 1 = Q(X )= Q(X ) + Q(∅) = 1 + Q(∅)d より,Q(∅) = 0 a.s.に注意すると,(i)と (ii)から決まる有限次元分布たちはwell-definedである.次にこのようにして決まる有限 次元分布たちは整合的なので,Kolmogorovの拡張定理より,定理の結論を得る.
この定理をDirichlet過程の有限次元分布たちに適用して,次の補題を得る.
Lemma 3. 次をみたす[0, 1]A-valued r.v. Qが存在する:Qの各有限次元分布は,パラ
メータαをもつDirichlet過程のそれと等しい.
Proof. Dirichlet分布の性質から,Dirichlet過程の有限次元分布たちは整合性条件をみた す.ゆえに,Theorem 5より補題の結論を得る.
Lemma 3の[0, 1]A-valued r.v. Qを,パラメータαをもつ 法則の意味のDirichlet過程 と呼ぶことにする.法則の意味のDirichlet過程は次の性質をみたす.
Lemma 4. Qをパラメータαをもつ法則の意味のDirichlet過程とする.
(i) A, B ∈ Aが排反なら,Q(A ∪ B) = Q(A) + Q(B) a.s. (ii) An↓ ∅, An∈ A ⇒ Q(An) ↓ 0 a.s.
Proof. (i). (Q(A ∪ B), Q(A) + Q(B))= (Q(A) + Q(B), Q(A) + Q(B))d より, P{Q(A ∪ B) = Q(A) + Q(B)} = 1.
(ii). An↓ ∅なら,α(An) ↓ 0であるから,適当な部分列{nk}が存在して,∑∞k=1α(Ank) <
∞となる.このとき,任意のε > 0に対して,
∑∞ k=1
P{Q(Ank) > ε} ≤ ε−1
∑∞ k=1
E[Q(Ank)] = ε−1α(X )−1
∑∞ k=1
α(Ank) < ∞
であるから,Borel-Cantelliの補題より,P{Q(Ank) > ε i.o.} = 0となる.ε > 0は任 意だったから,limkQ(Ank) = 0 a.s.を得る.また,Q(An)はa.s.に減少列であるから, Q(An) ↓ 0 a.s.を得る.
Remark 5. Lemma 4は法則の意味のDirichlet過程がa.s.にσ-additiveになることを保 証しているわけでは ない.これは,除外集合が集合列Anに依存するからである.
XはPoland空間と仮定していたことを思い出す.x ∈ Xを中心とする半径r > 0の開 球をB(x, r)と書く.{x1, x2, . . . }をXの可算稠密集合とし,
A00= {B(xi, r) : i = 1, 2, . . . ; r ∈ Q>0} ∪ {∅}
とおくと,A00はX の可算基を与える.このとき,A0をA00を含む最小のfieldとする. すなわち,A′0= {∩mj=1Bj : Bj or Bcj ∈ A00, j = 1, . . . , m, m ∈ N}とおくと,A0は
A0=
∪m j=1
Aj : A1, . . . , Am ∈ A′0, m ∈ N
と表せる.A0は可算であり,X のBorel σ-field Aを生成する:σ(A0) = A.
Lemma 5. (Harris, 1968, Lemma 6.1) 次の性質をみたす 可算個の 集合列{Am,n}∞n=1⊂
A0, m = 1, 2, . . . が存在する: 各m = 1, 2, . . . に対して,Am,1 ⊃ Am,2 ⊃ · · · ↓ ∅であっ て,A0上の任意の 有限加法的 確率µに対して,limnµ(Am,n) = 0, ∀m = 1, 2, . . . なら, µはA0上でσ-additiveになる.
Proof. A0 = {D1, D2, . . . }とする.各k, ℓ ∈ Nに対して,次をみたす集合列{Bk,jℓ }∞j=1⊂ A0を構成できる:Dℓ =∪∞j=1Bk,jℓ , Bℓk,j ⊂ Dℓ, diam(Bk,jℓ ) < 1/k. このとき,集合列たち
Dℓ\
∪n j=1
Bk,jℓ
∞
n=1
, k, ℓ ∈ N
を{Am,n}∞n=1, m = 1, 2, . . . とラベルする.このようにして構成した集合列たちが補題の 条件をみたすことを確認する.µをA0上の有限加法的確率とし,limnµ(Am,n) = 0, ∀m = 1, 2, . . . をみたすとする.このとき,仮にµがA0上でσ-additiveでないならば,Dℓi ↓
∅, Dℓi ∈ A0, lim infiµ(Dℓi) =: α > 0をみたす集合列が存在する.いま,各iに対して, niを十分大きく選べば,
µ
Dℓi\
ni
∪
j=1
Bi,jℓi
≤ α2−i−1
とできる.そこで,
Ei,j = Bℓi,ji, Fi =
ni
∪
j=1
Ei,j, Gi =
ni
∪
j=1
Ei,j とおくと,Fi ⊂ Gi ⊂ Dℓiとなる. ところで,
Dℓi ⊂
∩i j=1
Fj
∪
∪i j=1
(Dℓj \ Fj)
と,µが有限加法的であることから,
µ
∩i j=1
Fj
≥ µ(Dℓi) − µ
∪i j=1
(Dℓj \ Fj)
≥ α − α/2 = α/2
となる.よって,各iに対して,閉集合G1∩ · · · ∩ Giは空でないから,E1,1, . . . , E1,n1の
うちどれか1つ(それをH1とおく)は次の性質をみたす:各nに対してH1∩ G2∩ · · · ∩ Gn は空でない.同様の操作を繰り返せば,Hi ∈ {Ei,1, . . . , Ei,ni}, i = 1, 2, . . . を,各nに対 して,H1∩ · · · ∩ Hnが空でないように選ぶことができる.このとき,diam(Hn) ≤ 1/nと X の完備性より,∩nDℓn ⊃∩nHn̸= ∅であるが,これは矛盾.
Remark 6. µは有限加法的なので,それがσ-additiveになるためには,あらゆるBn ↓
∅, Bn∈ A0に対して,limnµ(Bn) = 0となることが必要十分である.そのような集合列Bn の選び方は一般に非可算無限個あるが,µがA0上でσ-additiveであることを確認するには, (µに依存しない)可算個の集合列{Am,n}∞n=1, m = 1, 2, . . . に対して,limnµ(Am,n) = 0 を確認すればよい.
Theorem 6. パラメータαをもつDirichlet過程は存在する. Proof. 法則の意味のDirichlet過程Qを1つ決める.いま,
Ω0 ={ω ∈ Ω : Q(X , ω) = 1,
Q(A ∪ B, ω) = Q(A, ω) + Q(B, ω), ∀A, B ∈ A0,
limn Q(An,m, ω) = 0, ∀m = 1, 2, . . .}
とおくと,A0は可算であるから,Ω0 ∈ F, P(Ω0) = 1である. このとき,Lemma 5より, 各ω ∈ Ω0に対して,Q(·, ω)はA0上でσ-additiveになるから,Carath´eodoryの拡張定理 より,Q(·, ω)はσ(A0) = A上の一意なp.m. P (·, ω)に拡張できる.x0 ∈ X を任意に選 び,それを1つ固定する.ω ∈ Ωc0に対しては,P (·, ω) = δx0 と決めておけば,各ω ∈ Ω に対して,P (·, ω)はp.m.になる.次に,各A ∈ Aに対して,ω 7→ P (A, ω)が可測にな ることを確認する.L = {A ∈ A : ω 7→ P (A, ω) は可測} とおくと,LはA0を含むλシ ステムである.A0はπシステムであるから,π-λ定理より,L ⊃ σ(A0) = A, すなわち,
L = Aを得る.あとはP がQのバージョンになっていることを確認すればよい.A00は
Xの可算基であるから,あらゆる開集合A ⊂ Xに対して,An↑ Aとなる集合列An∈ A0 を選べる.このとき,各ω ∈ Ω0に対して,P (A, ω) = limnP (An, ω) = limnQ(An, ω) が 成り立つ. 一方,Q(An) ↑ Q(A) a.s.であるから,A ⊂ Xが開集合のときはP (A) = Q(A) a.s.が成り立つ.次に,集合族{A ∈ A : P (A) = Q(A) a.s.}は開集合全体を含むλシス テムであるから,あらゆるA ∈ Aに対して,P (A) = Q(A) a.s.を得る.これはPがQの バージョンになっていることを意味する.
Remark 7. 正確には,Ferguson (1973)のSection 3は法則の意味のDirichlet過程しか構 成していない.しかしあとで紹介するようにFerguson (1973)はSection 4において,全く 別の方法を用いてDirichlet過程をランダムな離散確率測度として明示的に構成した.ただ し,Ferguson (1973)では“ランダムな確率測度”の意味が曖昧なため,そもそもDirichlet 過程の定義がわかりにくくなっている.本ノートで用いた“法則の意味のDirichlet過程” という用語は,L´evy過程の文献から借りた(佐藤 (1991)を参照).
2 Dirichlet 過程のそのほかの構成法
Dirichlet過程はランダムな離散確率測度として明示的に構成できる.そのような構成法
を紹介することが本節の目的である.具体的には,Sethuraman (1994), Ferguson (1973, Section 4),およびBlackwell and MacQueen (1973)の方法を証明付きで紹介する.なお, 本節を書くにあたり,Pitmanによるレビュー論文(Pitman, 1996)を参考にした.以下, αを0 < α(X ) < ∞なる(X , A)上の測度とする.
2.1 Sethuraman (1994)の構成
Dirichlet過程の最も簡単な構成法はSethuraman (1994)によるものである.θ1, θ2, · · · ∼ Be(1, α(X )) i.i.d.とし,P1 = θ1, Pn= θn∏ni=1(1 − θi), n ≥ 2とおく.
Lemma 6. ∑ni=1Pi= 1 −∏ni=1(1 − θi) → 1 a.s.
Proof. ∏ni=1(1−θi) = exp{∑ni=1log(1−θi)}であって,大数の強法則より,n−1∑ni=1log(1− θi) → E[log(1 − θ1)] < 0 a.s.であるから,∑ni=1log(1 − θi) → −∞ a.s. となる.よって,
∏n
i=1(1 − θi) → 0 a.s.を得る.
Y1, Y2, · · · ∼ α(·)/α(X ) i.i.d.をθ1, θ2, . . . と独立なr.v.’sとし,ランダムな離散確率測 度P を
P :=
∑∞ i=1
PiδYi (∗2)
と定義する.
Theorem 7. (Sethuraman, 1994, Theorem 3.4) (∗2)から定義されるランダムな離散確 率測度Pは,パラメータαをもつDirichlet過程である.
Theorem 7の証明は全く初等的である.まず,補題を3つ準備する.
Lemma 7. (α1, . . . , αk), (β1, . . . , βk) ∈ Rk+\ {0}とし,
U ∼ Di(α1, . . . , αk), V ∼ Di(β1, . . . , βk)
は独立とする.また,W ∼ Be(a, b)を(U, V )と独立なr.v.とする.ただし,a =∑kj=1αj, b =
∑k
j=1βjである.このとき,W U + (1 − W )V ∼ Di(α1+ β1, . . . , αk+ βk).
Proof. Z1, . . . , Zk, Zk+1, . . . , Z2kを独立なr.v.’sとし,それぞれZj ∼ Ga(αj, 1), Zk+j ∼ Ga(βj, 1), j = 1, . . . , kとする.このとき,
(U, V, W )=d
( Z1
∑k
j=1Zj
, . . . ,∑kZk
j=1Zj
,∑kZk+1
j=1Zk+j
, . . . ,∑kZ2k
j=1Zk+j
,
∑k j=1Zj
∑2k
ℓ=1Zℓ
)
であるから,
U W + (1 − W )V =d
(Z1+ Zk+1
∑2k
j=1Zj
, . . . ,Z∑k2k+ Z2k
j=1Zj
)
∼ Di(α1+ β1, . . . , αk+ βk)
を得る.
Lemma 8. (α1, . . . , αk) ∈ Rk+\ {0}とし,a =∑ki=1αkとおく.このとき,
∑k j=1
(αj/a)Di(α(j)1 , . . . , α(j)k ) = Di(α1, . . . , αk).
ただし,
αi(j)=
αi if i ̸= j αj+ 1 if i = j である.
Proof. αj > 0, 1 ≤ ∀j ≤ kのとき補題を示せば十分である.
(Y1, . . . , Yk) ∼
∑k j=1
(αj/a)Di(α(j)1 , . . . , α(j)k )
とすれば,(Y1, . . . , Yk−1)の密度関数は
∑k j=1
aj a
Γ(a + 1)
∏k
i=1Γ(α (j) i )
| {z }
=(a/αj)Γ(a)/∏ki=1Γ(αi)
(k−1
∏
i=1
yα
(j) i −1
i
) ( 1 −
k−1∑
i=1
yi
)α(j)k −1
= ∏kΓ(a)
i=1Γ(αi)
(k−1
∏
i=1
yiαi−1 ) (
1 −
∑k−1 i=1
yi )αk−1
(y1+ · · · + yk−1+ 1 − y1− · · · − yk−1)
| {z }
=1
である.よって,補題の結論を得る.
Lemma 9. W を(−1, 1)に値をとるr.v.とし,U を確率ベクトルとする.また,V はU と同じ次元の確率ベクトルとし,(W, U )とは独立であって,
V = U + W Vd (∗3)
をみたすとする.このとき,V の分布は(∗3)から一意に決まる.
Proof. V, V′をともに(∗3)をみたすr.v.’sとする.(Wn, Un)を(W, U )の独立なコピーとし, (V, V′)と独立とする.V1 = V, V1′ = V′とし,あとは帰納的に,Vn+1= Un+WnVn, Vn+1′ = Un+ WnVn′と定義する.このとき,Vn= V, Vd n′ = Vd ′である.しかし,
|Vn+1− Vn+1′ | = |Wn||Vn− Vn′| = ( n
∏
i=1
|Wi| )
|V − V′| → 0 a.s.
であるから,V = Vd ′を得る.
Proof of Theorem 7. まずPの定義より,
P = θd 1δY1+ (1 − θ1)P′
である.ただし,P′は(θ1, Y1)と独立であって,Pと同じ分布をもつランダムなp.m.で ある.よって,X の可測分割{B1, . . . , Bk}に対して,
(P (B1), . . . , P (Bk))= θd 1(δY1(B1), . . . , δY1(Bk)) + (1 − θ1)(P′(B1), . . . , P′(Bk)) が成り立つ.すなわち,W = θd 1, U = (δd Y1(B1), . . . , δY1(Bk)), V = (P (Bd 1), . . . , P (Bk))と し,U, V, Wを独立とすると,V = W U +(1−W )Vd となる.これをみたすV の分布は一意で あるから,V ∼ Di(α(B1), . . . , α(Bk))に対して,W U +(1−W )V ∼ Di(α(B1), . . . , α(Bk)) となることを示せば十分である.
V ∼ Di(α(B1), . . . , α(Bk))とする.αj = α(Bj), a = α(X ) =∑kj=1αjとおき,ej ∈ Rk をj番目の座標が1の単位ベクトルとする.ここで,Di(ej) = δej より,U = ej が与 えられたとき,W U + (1 − W )V の条件付き分布はDi(α(j)1 , . . . , α(j)k )に等しい.さらに, P{U = ej} = P{Y1 ∈ Bj} = αj/aより,
W U + (1 − W )V ∼
∑k j=1
(αj/a)Di(α(j)1 , . . . , α(j)k ) = Di(α1, . . . , αk)
を得る.以上より,定理が示された.
2.2 Ferguson (1973, Section 4)の方法
FergusonはDirichlet過程を導入した論文において,その構成法として,Kolmogorovの 拡張定理に基づく抽象的な方法(これはすでに示した)と,以下に紹介する明示的な方法を 考察した.確率過程{Zt: t ≥ 0}が(標準)Gamma過程 であるとは,以下の(i)–(iv)が成 り立つことを言う:
(i) Z0 = 0 a.s.
(ii) Ztは独立増分をもつ.
(iii) Zt2− Zt1 ∼ Ga(t2− t1, 1) for 0 ≤ t1 < t2.
(iv) a.s.にパスt 7→ Ztは右連続かつ単調非減少.
標準Gamma過程Ztはジャンプ項だけからなるL´evy過程である.L´evy過程に関しては,
佐藤 (1991)が詳しい.λ > 0を1つ固定して,Ztのt ∈ (0, λ)でのジャンプを大きい順 に並べたものをΓ(1) ≥ Γ(2) ≥ · · · > 0 とする.P(i) = Γ(i)/Zλとおき,P(1), P(2), . . . の
同時分布をパラメータλをもつPoisson Dirichlet分布 と呼び,P D(λ)と表す.ここで,
∑∞
i=1P(i)= 1 a.s.である.
Theorem 8. (Ferguson, 1973, Theorem 1) P(1) ≥ P(2) ≥ · · · > 0をP D(α(X ))に従う r.v.’sとし,Y1, Y2, · · · ∼ α(·)/α(X ) i.i.d.をP(1), P(2), . . . と独立なr.v.’sとする.このとき,
P :=
∑∞ i=1
P(i)δYi
はパラメータαをもつDirichlet過程である.
この定理は,Sethuramanの構成と,Poisson Dirichlet分布の次の特徴づけ(ii)から従う: Theorem 9 (Poisson-Dirichlet分布の特徴づけ). λ > 0とする.
(i) (Kingman, 1975) (P1n, . . . , Pnn) ∼ Di(λ/n, . . . , λ/n)とし,その順序統計量をP(1)n ≥
· · · ≥ P(n)n とおくと,n → ∞のとき,
(P(1)n , . . . , P(n)n , 0, . . . )→ P D(λ) in Rd N. すなわち,左辺の各有限次元分布は右辺のそれに弱収束する.
(ii) (McCloskey, 1965; Donnelly and Joyce, 1989; Perman et al., 1992) θ1, θ2, · · · ∼ Be(1, λ) i.i.d.とし,P1 = θ1, Pn = θn∏n−1i=1(1 − θi), n ≥ 2とおく.このとき, P1, P2, . . . を大きい順に並べ換えたP(1) ≥ P(2)≥ · · · > 0の従う同時分布はP D(λ) に等しい.
Remark 8. (ii)の(P1, P2, . . . )が従う分布のことを,パラメータλをもつGEM分布 と 呼ぶ.GEMはGriffiths-Engen-McCloskeyの頭文字から来ている.Poisson Dirichlet分布 の拡張は,Pitman and Yor (1997)を参照せよ.
Remark 9. PD分布は数論,組合せ論,集団遺伝学においても現れる.Pitman (1996)
の参考文献を参照せよ.例えば,Billingsley (1972)は,1からnまでの自然数をランダム に選んだとき,その素因数を大きい順に並べた確率変数列の,n → ∞としたときの極限 分布にPD分布が現れることを証明した.Billingsley (1999, Section 1.4)も参照せよ.
Proof of Theorem 9 (i). (i)の証明は初等的である.αn= λ/nとおく.Ztを標準Gamma 過程とし,Ztのt ∈ (0, λ)でのジャンプを大きい順に並べたものをΓ(1) ≥ Γ(2) ≥ · · · > 0 とする.Dirichlet分布の定義より,Pin = (Ziαn − Z(i−1)αn)/Zλ, i = 1, . . . , n とおくと, (P1n, . . . , Pnn) ∼ Di(αn, . . . , αn)である.従って,P1n, . . . , Pnnを大きい順に並べ換えたも のをP(1)n ≥ · · · ≥ P(n)n として,limnP(i)n = Γ(i)/Zλ a.s. を示せば十分である.
以下,Ztのサンプルパスを1つ固定して,サイズΓ(i)のジャンプが起こる時点をtiとす る.任意の正整数Nに対して,nを十分大きくとると,ti (i = 1, . . . , N )はそれぞれ相異な る区間[(j − 1)αn, jαn] (j = 1, . . . , n)に含まれる.よって,P(i)n の定義よりP(i)n ≥ Γ(i)/Zλ となるから,lim infnP(i)n ≥ Γ(i)/Zλを得る.あとはFatouの補題より,
lim sup
n
P(i)n = lim sup
n
1 −∑
j̸=i
P(j)n
≤ 1 −∑
j̸=i
lim inf
n P
(j)n ≤ 1 −∑
j̸=i
Γ(j)/Zλ = Γ(i)/Zλ.
Nは任意だったから,(i)の結論を得る. (ii)の証明の前に,いくつか準備をする.
∆ = {
x = (x1, x2, . . . ) : xi≥ 0 (∀i ≥ 1),
∑∞ i=1
xi = 1 }
とおいて,∆にRNの相対位相を入れる(RNには直積位相を入れる).
∆ = ∩
ε∈Q>0
∪
k>1/ε
{
x = (x1, x2, . . . ) : x1, . . . , xk≥ 0, 1 − ε ≤
∑k i=1
xi ≤ 1 }
より,∆はRNのBorel集合である.
まず,∆から∆への ランキング関数 ρを定義する.各x = (x1, x2, . . . ) ∈ ∆に対して xm → 0 (m → ∞)より,x1, x2, . . . の最大値が存在する.タイがある場合は添え字の一番 小さいものを選ぶとして,それをx(1)とおく.同様の操作を{x1, x2, . . . } \ {x(1)}に適用 して,二番目に大きい値x(2)を得る.この操作を繰り返して,x(1) ≥ x(2) ≥ · · · を得る. このとき,写像
ρ : (x1, x2, . . . ) 7→ (x(1), x(2), . . . ), ∆ → ∆ をランキング関数と呼ぶ.
Lemma 10. ρ : ∆ → ∆は連続である.
Proof. xn, x ∈ ∆, xn → xとする.ρ(xn) → ρ(x)を示す.ρは座標置換に関して不変 であるから,x1 ≥ x2 ≥ · · · と仮定してよい.ここで,∑∞i=1xni = ∑∞i=1xi = 1より,
∑
i(xi− xni)−=
∑
i(xi− xni)+であるから,
∑
i|xi− xni| = 2∑i(xi− xni)+である.さら
に,(xi−xni)+≤ xiであるから,DCTより,∑i(xi−xni)+ → 0,すなわち,∑i|xi−xni| → 0 を得る.また,これから,maxi|xi− xni| → 0も従う.