• 検索結果がありません。

PDF Teaching Kengo Kato

N/A
N/A
Protected

Academic year: 2018

シェア "PDF Teaching Kengo Kato"

Copied!
34
0
0

読み込み中.... (全文を見る)

全文

(1)

Dirichlet 過程とその応用

1

加藤賢悟2

このノートは2008年度に行われた大森先生の演習(Chen et al. (2000)の輪読)の発表 資料として作成したものを,加筆・修正したものである3.Dirichlet過程は確率測度に対 する事前分布としてFerguson (1973)により導入された.数学的には,Dirichlet過程は確 率測度の空間に値をとる確率変数であり,その構成は自明でない.本ノートの主要な目的

は,Dirichlet過程の構成をある程度詳細に解説することである.予備知識はBillingsley

(1999)のChapter 1の内容を理解していれば問題ない.また,Dirichelt過程のベイズ統計 への応用例も少し解説しているが,より包括的な解説はGhosh and Ramamoothi (2003) などを参照することを勧める.なお,S. GhosalとA. van der Vaartによる“Theory of Nonparametric Bayesian Inference”なるタイトルの本が刊行予定であることが数年前か ら予告されているが,まだ出版されていないようである.作成当時から内容を本質的には アップデートしていないので,特に応用部分はoutdatedになっている可能性もある.

目 次

1 Dirichlet過程 2

1.1 Dirichlet分布 . . . 2

1.2 Dirichlet過程の定義 . . . 3

1.3 Dirichlet過程の性質 . . . 5

1.4 Dirichlet過程の構成 . . . 8

2 Dirichlet過程のそのほかの構成法 13 2.1 Sethuraman (1994)の構成 . . . 13

2.2 Ferguson (1973, Section 4)の方法 . . . 15

2.3 Blackwell and MacQueen (1973)の方法 . . . 20

3 Dirichlet過程の応用 25 3.1 混合Dirichlet過程 . . . 25

3.2 Dirichlet過程混合モデル . . . 26

3.3 Dirichlet過程の近似 . . . 30

1First version: 200812. This version: 2015720.

2東京大学大学院経済学研究科.E-mail: kkato@e.-tokyo.ac.jp.

3細かい計算はちゃんとチェックしていないので,あまり信用しないで下さい.

(2)

1 Dirichlet 過程

(Ω, F, P)を確率空間とする.位相空間Uに対して,B(U)U のBorel σ-fieldとする. 写像X : Ω → UU-値確率変数 (U-valued r.v.)であるとは,XF/B(U)可測である こと,すなわち,X−1(B) ∈ F ∀B ∈ B(U)となることを言う.R-valued r.v.のことを単 にr.v.と言う.確率測度をp.m.と省略する.可積分なr.v. Xと可測集合A ∈ Fに対し て,E[X, A] = E[X1A] =AXdPと書く.次のDynkinのπ-λ定理 は以下しばしば用い るので,ここで述べておく.空でない集合X の部分集合族Pがπシステム であるとは,

A, B ∈ Pなら,A ∩ B ∈ P となることを言う.次にX の部分集合族Lがλシステム で

あるとは,次の条件(i)-(iii)をみたすことを言う:(i) X ∈ L, (ii) A, B ∈ L, A ⊂ Bなら, B \ A ∈ L, (iii) An↑ A, An∈ Lなら,A ∈ L

Theorem 1 (π-λ定理). Pをπシステムとし,LPを含むλシステムとする:L ⊃ P. このとき,σ(P) ⊂ Lである.

証明は標準的な確率論の教科書を参照せよ.例えば,Durrett (2010, Appendix)にある.

1.1 Dirichlet分布

Ga(α, β)をシェイプパラメータα ≥ 0,逆スケールパラメータβ > 0をもつガンマ分布と する.ただし,Ga(0, β)は0に退化した分布である.α > 0のとき,Ga(α, β)はLebesgue 測度に関して密度関数

xα−1e

−βxβα

Γ(α) , x > 0 をもつ.Γ(α)はガンマ関数である:

Γ(α) =

0

xα−1e−xdx.

Definition 1. α1, . . . , αk ≥ 0の少なくとも1つは正であるとし,Z1, . . . , Zkを独立な r.v.’sであって,Zj ∼ Ga(αj, 1)とする.いま,

Yj = kZj

i=1Zi

, j = 1, . . . , k

とおいたとき,(Y1, . . . , Yk)の同時分布をパラメータ(α1, . . . , αk)をもつDirichlet分布 と 呼び,Di(α1, . . . , αk)と表す.

以下,Di(α1, . . . , αk)の分布関数を

D(y1, . . . , yk| α1, . . . , αk) = P{Y1 ≤ y1, . . . , Yk ≤ yk} と書く.まず,Dirichlet分布の性質をいくつかまとめておく.

(3)

(1) Y1+ · · · + Yk= 1であるから,Dirichlet分布Di(α1, . . . , αk)はk次元Lebesgue測 度に関して特異である.

(2) αj > 0, 1 ≤ ∀j ≤ kなら,(Y1, . . . , Yk−1)の分布は(k − 1)次元Lebesgue測度に関し て絶対連続であり,その密度関数は

f (y1, . . . , yk−1| α1, . . . , αk)

= Γ(α1+ · · · + αk)

Γ(α1) · · · Γ(αk)

k−1 j=1

yαjj−1

1 −

k−1

j=1

yj

αk−1

1S(y1, . . . , yk−1) で与えられる.ただし,Sは

S = {(y1, . . . , yk−1) : yj > 0 (j = 1, . . . , k − 1), y1+ · · · + yk−1< 1} である.

(3) r1, . . . , rを0 < r1 < · · · < r= kなる整数とすると,

r1

i=1

Yi, . . . ,

r

i=rℓ−1+1

Yi

 ∼ Di

r1

i=1

αi, . . . ,

r

i=rℓ−1+1

αi

 .

特に,各Yjの周辺分布はBe(αj,i̸=jαi)である. (4) 次の等式が成り立つ:

E[Yj, {Y1 ≤ y1, . . . , Yk≤ yk}] = kαj

i=1αi

D(y1, . . . , yk| α(j)1 , . . . , α(j)k ), j = 1, . . . , k. ただし,

α(j)i =



αi if i ̸= j αj + 1 if i = j である.

1.2 Dirichlet過程の定義

以下,Xは常にPoland空間(すなわち,完備かつ可分な距離空間)と仮定し,AX

Borel σ-fieldとする:A = B(X )A×Ωから[0, 1]への写像Pに対して,{P (A, ·) : A ∈ A} が[0, 1]に値をとる確率過程であるとは,各A ∈ Aに対して,P (A) = P (A, ·)[0, 1]- valued r.v.であること,すなわち,

ω 7→ P (A, ω), Ω → [0, 1]

がF/B([0, 1])可測であることを言う.ω ∈ Ωを固定したとき,Aの関数A 7→ P (A, ω) Pの パス と呼ぶ.集合族{B1, . . . , Bk}X の 可測分割 であるとは,B1, . . . , Bkが排反 なA可測集合であって,B1∪ · · · ∪ Bk= X となることを言う.

(4)

Definition 2. αを0 < α(X ) < ∞なる(X , A)上の測度とする.このとき,[0, 1]に値を とる確率過程P = {P (A, ·) : A ∈ A}が次の(i)(ii)の条件をみたすとき,Pをパラメー タαをもつDirichlet過程 と呼ぶ:

(i) X のあらゆる可測分割{B1, . . . , Bk}に対して,

(P (B1), . . . , P (Bk)) ∼ Di(α(B1), . . . , α(Bk)).

(ii) 各ω ∈ Ωに対して,P のパスA 7→ P (A, ω), A → [0, 1](X , A)上のp.m.になる. ひとまずDirichlet過程P の存在は認める(あとで証明する).いま,M = M (X )を (X , A)上のp.m.’sの全体とし,Mに弱収束位相を入れると,MはPoland空間になる.各 ω ∈ Ωに対して,パスA 7→ P (A, ω)(X , A)上のp.m.であるから,

P : ω 7→ P (·, ω)

はΩからMへの写像とみなせる.M のBorel σ-fieldをMとおく:M = B(M). Lemma 1. 各A ∈ Aに対して,Aへの射影を

πA: x 7→ x(A), M → [0, 1]

と定義すると,MはすべてのπA, A ∈ Aが可測になるM上の最小なσ-fieldに一致する: M = σ({π−1A (B) : A ∈ A, B ∈ B([0, 1])}). (∗) Proof. 右辺をMcとおく.まず,Mc ⊂ Mを示す.A ⊂ X を開集合とし,µn, µ ∈ M(X ) をµn→ µw とすると,Portmanteau定理より,

lim inf

n πAn) = lim inf

n µn(A) ≥ µ(A) = πA(µ).

よって,πAは下半連続であるから,M可測である.いま,開集合全体はπシステムであ

り,µ 7→ πA(µ)M可測になるA ∈ Aの全体は開集合全体を含むλシステムであるか

ら,π-λ定理より,各A ∈ Aに対してπAM可測である.従って,Mc⊂ Mを得る.

次に,M ⊂ Mcを示す.Mの可分性より,X上の任意の有界連続関数f : X → Rに対し

て,M ∋ µ 7→ f dµがMc可測であることを示せばよい.しかし,積分の構成から,適当

な単関数列fnが存在して,limn fndµ =f dµ (∀µ ∈ M)となるから,fが単関数のとき µ 7→ f dµMc可測であることを示せばよい.ところで,f =i=1m ai1Ai, a1, . . . , am R, A1, . . . , Am ∈ Aの形の単関数に対して, f dµ = mi=1aiπAi(µ) であるから,µ 7→

∫ f dµはMc可測である.よって,M ⊂ Mcを得る.以上より,補題が示された. この補題より,写像Q : Ω → Mに対して,

QがM -valued r.v. (すなわち,F/M可測) ⇔ 各Q(A)がr.v.

(5)

が成り立つ.特にDirichlet過程PはM -valued r.v.である.M -valued r.v.を ランダムなp.m. とも言う.A1, . . . , Am ∈ Aに対して,(P (A1), . . . , P (Am))の分布をP の 有限次元分布 と呼ぶ.いま(∗)とπ-λ定理より,M上に定義されるPの分布(像測度) P ◦ P−1は,P の有限次元分布たちによって一意に決まる.Dirichlet過程の条件(i)と(ii)はPの有限次 元分布たちを一意に決めるから,次の定理を得る.

Theorem 2. Dirichlet過程はM上に一意な分布を定める.

Lemma 2. Q, RをM -valued r.v.’sとする.このとき,M -valued r.v.’sとしてQ = R a.s. であるための必要十分条件は,各A ∈ Aに対して,Q(A) = R(A) a.s.となることである. Remark 1. 前者はP{Q(A) = R(A), ∀A ∈ A} = 1の意味であって,後者はP{Q(A) =

R(A)} = 1 (∀A ∈ A)の意味である.確率過程の用語を用いると,{Q(A) : A ∈ A}

{R(A) : A ∈ A}が互いの修正(modification)になっているならば,それらは区別できな

い(indistinguishable)ことを意味している.

Proof. 必要性は明らかなので,十分性を示す.X は可分であるから,Aを生成する可算

なπシステム Cが存在する(例えば後で現れるA0 をとればよい).ここで,Ω0 = {ω :

Q(A, ω) = R(A, ω), ∀A ∈ C}とおくと,Cは可算であるから,0∈ F, P(Ω0) = 1である. またπ-λ定理より,ω ∈ Ω0に対して,Q(A, ω) = R(A, ω) ∀A ∈ Aとなるから,補題が示 された.

1.3 Dirichlet過程の性質

本節はDirichlet過程の基本的な性質を考察する.

Proposition 1. PをパラメータαをもつDirichlet過程とすると,任意のA ∈ Aに対し て,E[P (A)] = α(A)/α(X )となる.特に,α(A) = 0, A ∈ Aなら,P (A) = 0 a.s.である. Proof. P (A) ∼ Be(α(A), α(Ac))より明らか.

Definition 3. PをパラメータαをもつDirichlet過程とする.X -valued r.v.’s X1, . . . , Xn がP からのサイズnの標本 であるとは,Pを条件付けたときX1, . . . , Xn∼ P i.i.d.とな ることを言う.このとき,

X1, . . . , Xn| P ∼ P i.i.d.

と書く.n = ∞のときも同様に定義する.

Remark 2. Pを条件付けたときX1, X2, · · · ∼ P i.i.d.となるX -valued r.v.’s X1, X2, . . .

が存在するかどうかは必ずしも自明ではないが,Dirichlet過程の存在を認めると,次の ように示すことができる.X = (X1, X2, . . . )とPの同時分布の存在を示せばよい.いま, Pω = P (·, ω)と書いて,A⊗N⊗ M上のp.m. µを

µ(A × E) =

Pω⊗N(A)1{P∈E}(ω)dP(ω), A ∈ A⊗N, E ∈ M

(6)

から定義すれば,µはXとP の同時分布を与える.

Proposition 2. PをパラメータαをもつDirichlet過程とし,XをPからのサイズ1の 標本とする.このとき,あらゆるA ∈ Aに対して,P{X ∈ A} = α(A)/α(X )となる. Proof. 定義より,P{X ∈ A | P } = P (A) a.s.であるから,

P{X ∈ A} = E[P{X ∈ A | P }] = E[P (A)] = α(A)/α(X ) を得る.

Proposition 3. PをパラメータαをもつDirichlet過程とし,XをPからのサイズ1の 標本とする.このとき,あらゆるA ∈ Aと,X のあらゆる可測分割{B1, . . . , Bk}に対 して,

P{X ∈ A, P (B1) ≤ y1, . . . , P (Bk) ≤ yk} =

k j=1

α(Bj∩ A)

α(X ) D(y1, . . . , yk| α(j)1 , . . . , α(j)k ) が成り立つ.ただし,

α(j)i =



α(Bi) if i ̸= j α(Bj) + 1 if i = j である.

Proof. Bj,1= Bj∩ A, Bj,0 = Bj ∩ Acとおく.また,Yj,ν = P (Bj,ν)とおく.このとき, P{X ∈ A | Yj,ν, j = 1, . . . , k, ν = 0, 1}

=

k j=1

P {X ∈ Bj,1| Yn,ν, j = 1, . . . , k, ν = 0, 1} =

k j=1

Yj,1 a.s.

であるから,Dirichlet分布の性質(4)より, P{X ∈ A, Yj,ν ≤ yj,ν, j = 1, . . . , k, ν = 0, 1}

= E

k j=1

Yj,1, {Yi,ν ≤ yi,ν, i = 1, . . . , k, ν = 0, 1}

 =

k j=1

α(Bj,1)

α(X ) D(y | α

(j))

を得る.ただし,y= (y1,0, . . . , yk,0, y1,1, . . . , yk,1), α(j)= (α(j)1,0, . . . , α(j)k,0, α(j)1,1, . . . , α(j)k,1),

α(j)i,ν =



α(Bi,ν), if i ̸= j, α(Bj,ν) + 1, if i = j

である.あとは,P (Bj) = Yj,0+ Yj,1 a.s.とDirichlet分布の性質(3)から結論を得る.

(7)

x ∈ X に対して,δxをxのDirac測度とする:δx(A) = 1A(x).次の定理はベイズ統計 において重要な意味をもつ.

Theorem 3. P をパラメータαをもつDirichlet過程とし,X1, . . . , XnをPからのサイ ズnの標本とする.このとき,X1, . . . , Xnを与えたときのPの条件付き分布は,パラメー タα +ni=1δXiをもつDirichlet過程になる.

Proof. n = 1のときに定理を示せば十分である.{B1, . . . , Bk}Xの可測分割とする.X を与えたときの(P (B1), . . . , P (Bk))の条件付き分布がDirichlet分布

Di(α(B1) + δX(B1), . . . , α(Bk) + δX(Bk)) に一致することを示せばよい.そのためには,各A ∈ Aに対して,

P{X ∈ A, P (B1) ≤ y1, . . . , P (Bk) ≤ yk}

= E[D(y1, . . . , yk| α(B1) + δX(B1), . . . , α(Bk) + δX(Bk)), {X ∈ A}] を示せばよいが,

RHS =

A

D(y1, . . . , yk| α(B1) + δx(B1), . . . , α(Bk) + δx(Bk))dα(x)/α(X )

=

k j=1

Bj∩A

D(y1, . . . , yk| α(j)1 , . . . , α(j)k )dα(x)/α(X )

=

k j=1

α(Bj ∩ A)

α(X ) D(y1, . . . , yk| α(j)1 , . . . , α(j)k ) = LHS であるから,定理の結論を得る.

Theorem 4. PをパラメータαをもつDirichlet過程とし,X1, X2, · · · | P ∼ P i.i.d. する.このとき,

X1 ∼ α(·)/α(X ),

Xn+1 | X1, . . . , Xn∼ αn(·)/αn(X ), n = 1, 2, . . . ここで,αn= α +ni=1δXiである.

Remark 3. 逆に,Blackwell and MacQueen (1973)はこの関係からDirichlet過程が構 成できることを示した(後述).

Proof.

P{Xn+1 ∈ A | X1, . . . , Xn} = E[P{Xn+1∈ A | P, X1, . . . , Xn} | X1, . . . , Xn]

= P{P (A) | X1, . . . , Xn} = αn(A)/αn(X ).

(8)

最後の等式は,

P (A) | X1, . . . , Xn∼ Be(αn(A), αn(Ac)) より従う.

Remark 4. X1, . . . , Xnの順序を入れ替えても同時分布は変わらないから, Xi | X1, . . . , Xi−1, Xi+1, . . . , Xn 1

n − 1 + α0

j̸=i

δXj(·) + α0

n − 1 + α0G(·)

が成り立つ.ただし,α0= α(X ), G(·) = α(·)/α0である.

Example 1. X1, . . . , Xn∼ P とし,有界可測関数g : X → Rに対して,分布Pの汎関数

∫ gdP

の推定を考える.分布Pの事前分布にDirichlet過程を用いると, gdP の事後平均は

E [∫

gdP

X1, . . . , Xn

]

= pn

g(x)dα(x)/α(X ) + (1 − pn)

n i=1

g(Xi) で与えられる.ただし,pn= α(X )/(α(X ) + n)である.

1.4 Dirichlet過程の構成

与えられたパラメータαをもつDirichlet過程の存在は自明ではない.以下,本質的に Ferguson (1973, Section 3)の議論にもとづいて,Dirichlet過程を構成してみよう.αを 0 < α(X ) < ∞なる(X , A)上の測度とし,それを1つ固定する.おおまかな方針として は,最初にDirichlet過程と同じ有限次元分布たちをもつ確率過程Q = {Q(A) : A ∈ A} を構成し,次にQがσ-additiveなパスをもつバージョンをもつことを示す.

[0, 1]AAから[0, 1]への関数全体とし,BFAをすべてのA ∈ Aに対して射影 x 7→ x(A), [0, 1]A → [0, 1]

が可測になる[0, 1]A上の最小なσ-fieldとする.このとき,写像Q : Ω → [0, 1]Aに対して, Qが[0, 1]A-valued r.v. (すなわち,F/BFA可測) ⇔ 各Q(A)がr.v.

である.Qを[0, 1]A-valued r.v.としたとき,A1, . . . , Am∈ Aに対して,(Q(A1), . . . , Q(Am)) の分布をQの有限次元分布と呼ぶ.BFA上に定義されるQの分布は,Qの有限次元分 布たちによって一意に決まる.[0, 1]A-valued r.v.’s Q, Rに対して,QとRがお互いの バージョン であるとは,QとRが[0, 1]A-valued r.v.’sとして同じ分布をもつこと,すなわ ち,QがRと同じ有限次元分布たちをもつことを言う.

いま,問題を一般化して,次の設定を考える.

(9)

(i) X のあらゆる可測分割{B1, . . . , Bk}に対して,(Q(B1), . . . , Q(Bk))の同時分布が与 えられているとする.特に,Q(X ) = 1 a.s.とする.

(ii) A1, . . . , Am ∈ Aに対しては,(Q(A1), . . . , Q(Am))の同時分布を次のように構成す る:A ∈ Aに対して,A0= Ac, A1= Aと書く.νj ∈ {0, 1}, j = 1, . . . , mに対して, Bν1···νk = ∩mj=1Aνjjとおくと,集合族

{Bν1···νm : νj ∈ {0, 1}, j = 1, . . . , m} はX の可測分割を与える.このとき,各AjがAj =ν

j=1Bν1···νmと書けることに 注意して,(Q(A1), . . . , Q(Am))の同時分布を

(Q(A1), . . . , Q(Am))=d

(∑

ν1=1

Q(Bν1···νm), . . . ,

νm=1

Q(Bν1···νm) )

と決める.

Theorem 5. 次の整合性条件を仮定する:Xのあらゆる可測分割{B1, . . . , Bk}, {B1, . . . , Bk}

に対して,{B1, . . . , Bk}{B1, . . . , Bk}の細分なら,すなわち,適当に添え字を入れ替 えたあとに,B1=ri=11 Bi, . . . , Bk=ki=r

k−1+1B

iと書けるなら,

(Q(B1), . . . , Q(Bk))=d

r1

i=1

Q(Bi), . . . ,

k

i=rk−1+1

Q(Bi)

が成り立つ.このとき,(i)と(ii)から決まる有限次元分布たちをもつ[0, 1]A-valued r.v. Qが存在する.

Proof. 1 = Q(X )= Q(X ) + Q(∅) = 1 + Q(∅)d より,Q(∅) = 0 a.s.に注意すると,(i)と (ii)から決まる有限次元分布たちはwell-definedである.次にこのようにして決まる有限 次元分布たちは整合的なので,Kolmogorovの拡張定理より,定理の結論を得る.

この定理をDirichlet過程の有限次元分布たちに適用して,次の補題を得る.

Lemma 3. 次をみたす[0, 1]A-valued r.v. Qが存在する:Qの各有限次元分布は,パラ

メータαをもつDirichlet過程のそれと等しい.

Proof. Dirichlet分布の性質から,Dirichlet過程の有限次元分布たちは整合性条件をみた す.ゆえに,Theorem 5より補題の結論を得る.

Lemma 3の[0, 1]A-valued r.v. Qを,パラメータαをもつ 法則の意味のDirichlet過程 と呼ぶことにする.法則の意味のDirichlet過程は次の性質をみたす.

Lemma 4. Qをパラメータαをもつ法則の意味のDirichlet過程とする.

(10)

(i) A, B ∈ Aが排反なら,Q(A ∪ B) = Q(A) + Q(B) a.s. (ii) An↓ ∅, An∈ A ⇒ Q(An) ↓ 0 a.s.

Proof. (i). (Q(A ∪ B), Q(A) + Q(B))= (Q(A) + Q(B), Q(A) + Q(B))d より, P{Q(A ∪ B) = Q(A) + Q(B)} = 1.

(ii). An↓ ∅なら,α(An) ↓ 0であるから,適当な部分列{nk}が存在して,k=1α(Ank) <

∞となる.このとき,任意のε > 0に対して,

k=1

P{Q(Ank) > ε} ≤ ε−1

k=1

E[Q(Ank)] = ε−1α(X )−1

k=1

α(Ank) < ∞

であるから,Borel-Cantelliの補題より,P{Q(Ank) > ε i.o.} = 0となる.ε > 0は任 意だったから,limkQ(Ank) = 0 a.s.を得る.また,Q(An)はa.s.に減少列であるから, Q(An) ↓ 0 a.s.を得る.

Remark 5. Lemma 4は法則の意味のDirichlet過程がa.s.にσ-additiveになることを保 証しているわけでは ない.これは,除外集合が集合列Anに依存するからである.

XPoland空間と仮定していたことを思い出す.x ∈ Xを中心とする半径r > 0の開 球をB(x, r)と書く.{x1, x2, . . . }Xの可算稠密集合とし,

A00= {B(xi, r) : i = 1, 2, . . . ; r ∈ Q>0} ∪ {∅}

とおくと,A00X の可算基を与える.このとき,A0A00を含む最小のfieldとする. すなわち,A0= {mj=1Bj : Bj or Bcj ∈ A00, j = 1, . . . , m, m ∈ N}とおくと,A0

A0=



m j=1

Aj : A1, . . . , Am ∈ A0, m ∈ N



と表せる.A0は可算であり,X のBorel σ-field Aを生成する:σ(A0) = A.

Lemma 5. (Harris, 1968, Lemma 6.1) 次の性質をみたす 可算個の 集合列{Am,n}n=1

A0, m = 1, 2, . . . が存在する: 各m = 1, 2, . . . に対して,Am,1 ⊃ Am,2 ⊃ · · · ↓ ∅であっ て,A0上の任意の 有限加法的 確率µに対して,limnµ(Am,n) = 0, ∀m = 1, 2, . . . なら, µはA0上でσ-additiveになる.

Proof. A0 = {D1, D2, . . . }とする.各k, ℓ ∈ Nに対して,次をみたす集合列{Bk,j }j=1 A0を構成できる:D =j=1Bk,j , Bk,j ⊂ D, diam(Bk,j ) < 1/k. このとき,集合列たち



D\

n j=1

Bk,j



n=1

, k, ℓ ∈ N

(11)

{Am,n}n=1, m = 1, 2, . . . とラベルする.このようにして構成した集合列たちが補題の 条件をみたすことを確認する.µをA0上の有限加法的確率とし,limnµ(Am,n) = 0, ∀m = 1, 2, . . . をみたすとする.このとき,仮にµがA0上でσ-additiveでないならば,Di

∅, Di ∈ A0, lim infiµ(Di) =: α > 0をみたす集合列が存在する.いま,各iに対して, niを十分大きく選べば,

µ

Di\

ni

j=1

Bi,ji

 ≤ α2−i−1

とできる.そこで,

Ei,j = Bi,ji, Fi =

ni

j=1

Ei,j, Gi =

ni

j=1

Ei,j とおくと,Fi ⊂ Gi ⊂ Diとなる. ところで,

Di

i j=1

Fj

i j=1

(Dj \ Fj)

と,µが有限加法的であることから,

µ

i j=1

Fj

 ≥ µ(Di) − µ

i j=1

(Dj \ Fj)

 ≥ α − α/2 = α/2

となる.よって,各iに対して,閉集合G1∩ · · · ∩ Giは空でないから,E1,1, . . . , E1,n1

うちどれか1つ(それをH1とおく)は次の性質をみたす:各nに対してH1∩ G2∩ · · · ∩ Gn は空でない.同様の操作を繰り返せば,Hi ∈ {Ei,1, . . . , Ei,ni}, i = 1, 2, . . . を,各nに対 して,H1∩ · · · ∩ Hnが空でないように選ぶことができる.このとき,diam(Hn) ≤ 1/nと X の完備性より,nDnnHn̸= ∅であるが,これは矛盾.

Remark 6. µは有限加法的なので,それがσ-additiveになるためには,あらゆるBn

∅, Bn∈ A0に対して,limnµ(Bn) = 0となることが必要十分である.そのような集合列Bn の選び方は一般に非可算無限個あるが,µがA0上でσ-additiveであることを確認するには, (µに依存しない)可算個の集合列{Am,n}n=1, m = 1, 2, . . . に対して,limnµ(Am,n) = 0 を確認すればよい.

Theorem 6. パラメータαをもつDirichlet過程は存在する. Proof. 法則の意味のDirichlet過程Qを1つ決める.いま,

0 ={ω ∈ Ω : Q(X , ω) = 1,

Q(A ∪ B, ω) = Q(A, ω) + Q(B, ω), ∀A, B ∈ A0,

limn Q(An,m, ω) = 0, ∀m = 1, 2, . . .}

(12)

とおくと,A0は可算であるから,Ω0 ∈ F, P(Ω0) = 1である. このとき,Lemma 5より, 各ω ∈ Ω0に対して,Q(·, ω)A0上でσ-additiveになるから,Carath´eodoryの拡張定理 より,Q(·, ω)σ(A0) = A上の一意なp.m. P (·, ω)に拡張できる.x0 ∈ X を任意に選 び,それを1つ固定する.ω ∈ Ωc0に対しては,P (·, ω) = δx0 と決めておけば,各ω ∈ Ω に対して,P (·, ω)はp.m.になる.次に,各A ∈ Aに対して,ω 7→ P (A, ω)が可測にな ることを確認する.L = {A ∈ A : ω 7→ P (A, ω) は可測} とおくと,LA0を含むλシ ステムである.A0はπシステムであるから,π-λ定理より,L ⊃ σ(A0) = A, すなわち,

L = Aを得る.あとはP Qのバージョンになっていることを確認すればよい.A00

Xの可算基であるから,あらゆる開集合A ⊂ Xに対して,An↑ Aとなる集合列An∈ A0 を選べる.このとき,各ω ∈ Ω0に対して,P (A, ω) = limnP (An, ω) = limnQ(An, ω) が 成り立つ. 一方,Q(An) ↑ Q(A) a.s.であるから,A ⊂ Xが開集合のときはP (A) = Q(A) a.s.が成り立つ.次に,集合族{A ∈ A : P (A) = Q(A) a.s.}は開集合全体を含むλシス テムであるから,あらゆるA ∈ Aに対して,P (A) = Q(A) a.s.を得る.これはPがQの バージョンになっていることを意味する.

Remark 7. 正確には,Ferguson (1973)のSection 3は法則の意味のDirichlet過程しか構 成していない.しかしあとで紹介するようにFerguson (1973)はSection 4において,全く 別の方法を用いてDirichlet過程をランダムな離散確率測度として明示的に構成した.ただ し,Ferguson (1973)では“ランダムな確率測度”の意味が曖昧なため,そもそもDirichlet 過程の定義がわかりにくくなっている.本ノートで用いた“法則の意味のDirichlet過程” という用語は,L´evy過程の文献から借りた(佐藤 (1991)を参照).

(13)

2 Dirichlet 過程のそのほかの構成法

Dirichlet過程はランダムな離散確率測度として明示的に構成できる.そのような構成法

を紹介することが本節の目的である.具体的には,Sethuraman (1994), Ferguson (1973, Section 4),およびBlackwell and MacQueen (1973)の方法を証明付きで紹介する.なお, 本節を書くにあたり,Pitmanによるレビュー論文(Pitman, 1996)を参考にした.以下, αを0 < α(X ) < ∞なる(X , A)上の測度とする.

2.1 Sethuraman (1994)の構成

Dirichlet過程の最も簡単な構成法はSethuraman (1994)によるものである.θ1, θ2, · · · ∼ Be(1, α(X )) i.i.d.とし,P1 = θ1, Pn= θnni=1(1 − θi), n ≥ 2とおく.

Lemma 6. ni=1Pi= 1 −ni=1(1 − θi) → 1 a.s.

Proof. ni=1(1−θi) = exp{ni=1log(1−θi)}であって,大数の強法則より,n−1ni=1log(1− θi) → E[log(1 − θ1)] < 0 a.s.であるから,ni=1log(1 − θi) → −∞ a.s. となる.よって,

n

i=1(1 − θi) → 0 a.s.を得る.

Y1, Y2, · · · ∼ α(·)/α(X ) i.i.d.θ1, θ2, . . . と独立なr.v.’sとし,ランダムな離散確率測 度P を

P :=

i=1

PiδYi (∗2)

と定義する.

Theorem 7. (Sethuraman, 1994, Theorem 3.4) (∗2)から定義されるランダムな離散確 率測度Pは,パラメータαをもつDirichlet過程である.

Theorem 7の証明は全く初等的である.まず,補題を3つ準備する.

Lemma 7. (α1, . . . , αk), (β1, . . . , βk) ∈ Rk+\ {0}とし,

U ∼ Di(α1, . . . , αk), V ∼ Di(β1, . . . , βk)

は独立とする.また,W ∼ Be(a, b)(U, V )と独立なr.v.とする.ただし,a =kj=1αj, b =

k

j=1βjである.このとき,W U + (1 − W )V ∼ Di(α1+ β1, . . . , αk+ βk).

Proof. Z1, . . . , Zk, Zk+1, . . . , Z2kを独立なr.v.’sとし,それぞれZj ∼ Ga(αj, 1), Zk+j Ga(βj, 1), j = 1, . . . , kとする.このとき,

(U, V, W )=d

( Z1

k

j=1Zj

, . . . ,kZk

j=1Zj

,kZk+1

j=1Zk+j

, . . . ,kZ2k

j=1Zk+j

,

k j=1Zj

2k

ℓ=1Z

)

(14)

であるから,

U W + (1 − W )V =d

(Z1+ Zk+1

2k

j=1Zj

, . . . ,Zk2k+ Z2k

j=1Zj

)

∼ Di(α1+ β1, . . . , αk+ βk)

を得る.

Lemma 8. (α1, . . . , αk) ∈ Rk+\ {0}とし,a =ki=1αkとおく.このとき,

k j=1

j/a)Di(α(j)1 , . . . , α(j)k ) = Di(α1, . . . , αk).

ただし,

αi(j)=



αi if i ̸= j αj+ 1 if i = j である.

Proof. αj > 0, 1 ≤ ∀j ≤ kのとき補題を示せば十分である.

(Y1, . . . , Yk) ∼

k j=1

j/a)Di(α(j)1 , . . . , α(j)k )

とすれば,(Y1, . . . , Yk−1)の密度関数は

k j=1

aj a

Γ(a + 1)

k

i=1Γ(α (j) i )

| {z }

=(a/αj)Γ(a)/ki=1Γ(αi)

(k−1

i=1

yα

(j) i −1

i

) ( 1 −

k−1

i=1

yi

)α(j)k −1

= kΓ(a)

i=1Γ(αi)

(k−1

i=1

yiαi−1 ) (

1 −

k−1 i=1

yi )αk−1

(y1+ · · · + yk−1+ 1 − y1− · · · − yk−1)

| {z }

=1

である.よって,補題の結論を得る.

Lemma 9. W を(−1, 1)に値をとるr.v.とし,U を確率ベクトルとする.また,V はU と同じ次元の確率ベクトルとし,(W, U )とは独立であって,

V = U + W Vd (∗3)

をみたすとする.このとき,V の分布は(∗3)から一意に決まる.

(15)

Proof. V, Vをともに(∗3)をみたすr.v.’sとする.(Wn, Un)を(W, U )の独立なコピーとし, (V, V)と独立とする.V1 = V, V1 = Vとし,あとは帰納的に,Vn+1= Un+WnVn, Vn+1 = Un+ WnVnと定義する.このとき,Vn= V, Vd n = Vd である.しかし,

|Vn+1− Vn+1 | = |Wn||Vn− Vn| = ( n

i=1

|Wi| )

|V − V| → 0 a.s.

であるから,V = Vd を得る.

Proof of Theorem 7. まずPの定義より,

P = θd 1δY1+ (1 − θ1)P

である.ただし,Pは(θ1, Y1)と独立であって,Pと同じ分布をもつランダムなp.m.で ある.よって,X の可測分割{B1, . . . , Bk}に対して,

(P (B1), . . . , P (Bk))= θd 1Y1(B1), . . . , δY1(Bk)) + (1 − θ1)(P(B1), . . . , P(Bk)) が成り立つ.すなわち,W = θd 1, U = (δd Y1(B1), . . . , δY1(Bk)), V = (P (Bd 1), . . . , P (Bk))と し,U, V, Wを独立とすると,V = W U +(1−W )Vd となる.これをみたすV の分布は一意で あるから,V ∼ Di(α(B1), . . . , α(Bk))に対して,W U +(1−W )V ∼ Di(α(B1), . . . , α(Bk)) となることを示せば十分である.

V ∼ Di(α(B1), . . . , α(Bk))とする.αj = α(Bj), a = α(X ) =kj=1αjとおき,ej ∈ Rk をj番目の座標が1の単位ベクトルとする.ここで,Di(ej) = δej より,U = ej が与 えられたとき,W U + (1 − W )V の条件付き分布はDi(α(j)1 , . . . , α(j)k )に等しい.さらに, P{U = ej} = P{Y1 ∈ Bj} = αj/aより,

W U + (1 − W )V ∼

k j=1

j/a)Di(α(j)1 , . . . , α(j)k ) = Di(α1, . . . , αk)

を得る.以上より,定理が示された.

2.2 Ferguson (1973, Section 4)の方法

FergusonはDirichlet過程を導入した論文において,その構成法として,Kolmogorovの 拡張定理に基づく抽象的な方法(これはすでに示した)と,以下に紹介する明示的な方法を 考察した.確率過程{Zt: t ≥ 0}(標準)Gamma過程 であるとは,以下の(i)–(iv)が成 り立つことを言う:

(i) Z0 = 0 a.s.

(ii) Ztは独立増分をもつ.

(16)

(iii) Zt2− Zt1 ∼ Ga(t2− t1, 1) for 0 ≤ t1 < t2.

(iv) a.s.にパスt 7→ Ztは右連続かつ単調非減少.

標準Gamma過程Ztはジャンプ項だけからなるL´evy過程である.L´evy過程に関しては,

佐藤 (1991)が詳しい.λ > 0を1つ固定して,Ztt ∈ (0, λ)でのジャンプを大きい順 に並べたものをΓ(1) ≥ Γ(2) ≥ · · · > 0 とする.P(i) = Γ(i)/Zλとおき,P(1), P(2), . . .

同時分布をパラメータλをもつPoisson Dirichlet分布 と呼び,P D(λ)と表す.ここで,

i=1P(i)= 1 a.s.である.

Theorem 8. (Ferguson, 1973, Theorem 1) P(1) ≥ P(2) ≥ · · · > 0P D(α(X ))に従う r.v.’sとし,Y1, Y2, · · · ∼ α(·)/α(X ) i.i.d.P(1), P(2), . . . と独立なr.v.’sとする.このとき,

P :=

i=1

P(i)δYi

はパラメータαをもつDirichlet過程である.

この定理は,Sethuramanの構成と,Poisson Dirichlet分布の次の特徴づけ(ii)から従う: Theorem 9 (Poisson-Dirichlet分布の特徴づけ). λ > 0とする.

(i) (Kingman, 1975) (P1n, . . . , Pnn) ∼ Di(λ/n, . . . , λ/n)とし,その順序統計量をP(1)n

· · · ≥ P(n)n とおくと,n → ∞のとき,

(P(1)n , . . . , P(n)n , 0, . . . )→ P D(λ) in Rd N. すなわち,左辺の各有限次元分布は右辺のそれに弱収束する.

(ii) (McCloskey, 1965; Donnelly and Joyce, 1989; Perman et al., 1992) θ1, θ2, · · · ∼ Be(1, λ) i.i.d.とし,P1 = θ1, Pn = θnn−1i=1(1 − θi), n ≥ 2とおく.このとき, P1, P2, . . . を大きい順に並べ換えたP(1) ≥ P(2)≥ · · · > 0の従う同時分布はP D(λ) に等しい.

Remark 8. (ii)の(P1, P2, . . . )が従う分布のことを,パラメータλをもつGEM分布 と 呼ぶ.GEMはGriffiths-Engen-McCloskeyの頭文字から来ている.Poisson Dirichlet分布 の拡張は,Pitman and Yor (1997)を参照せよ.

Remark 9. PD分布は数論,組合せ論,集団遺伝学においても現れる.Pitman (1996)

の参考文献を参照せよ.例えば,Billingsley (1972)は,1からnまでの自然数をランダム に選んだとき,その素因数を大きい順に並べた確率変数列の,n → ∞としたときの極限 分布にPD分布が現れることを証明した.Billingsley (1999, Section 1.4)も参照せよ.

(17)

Proof of Theorem 9 (i). (i)の証明は初等的である.αn= λ/nとおく.Ztを標準Gamma 過程とし,Ztt ∈ (0, λ)でのジャンプを大きい順に並べたものをΓ(1) ≥ Γ(2) ≥ · · · > 0 とする.Dirichlet分布の定義より,Pin = (Zn − Z(i−1)αn)/Zλ, i = 1, . . . , n とおくと, (P1n, . . . , Pnn) ∼ Di(αn, . . . , αn)である.従って,P1n, . . . , Pnnを大きい順に並べ換えたも のをP(1)n ≥ · · · ≥ P(n)n として,limnP(i)n = Γ(i)/Zλ a.s. を示せば十分である.

以下,Ztのサンプルパスを1つ固定して,サイズΓ(i)のジャンプが起こる時点をtiとす る.任意の正整数Nに対して,nを十分大きくとると,ti (i = 1, . . . , N )はそれぞれ相異な る区間[(j − 1)αn, jαn] (j = 1, . . . , n)に含まれる.よって,P(i)n の定義よりP(i)n ≥ Γ(i)/Zλ となるから,lim infnP(i)n ≥ Γ(i)/Zλを得る.あとはFatouの補題より,

lim sup

n

P(i)n = lim sup

n

1 −

j̸=i

P(j)n

 ≤ 1 −

j̸=i

lim inf

n P

(j)n ≤ 1 −

j̸=i

Γ(j)/Zλ = Γ(i)/Zλ.

Nは任意だったから,(i)の結論を得る. (ii)の証明の前に,いくつか準備をする.

∆ = {

x = (x1, x2, . . . ) : xi≥ 0 (∀i ≥ 1),

i=1

xi = 1 }

とおいて,∆にRNの相対位相を入れる(RNには直積位相を入れる).

∆ =

ε∈Q>0

k>1/ε

{

x = (x1, x2, . . . ) : x1, . . . , xk≥ 0, 1 − ε ≤

k i=1

xi ≤ 1 }

より,∆はRNのBorel集合である.

まず,∆から∆への ランキング関数 ρを定義する.各x = (x1, x2, . . . ) ∈ ∆に対して xm → 0 (m → ∞)より,x1, x2, . . . の最大値が存在する.タイがある場合は添え字の一番 小さいものを選ぶとして,それをx(1)とおく.同様の操作を{x1, x2, . . . } \ {x(1)}に適用 して,二番目に大きい値x(2)を得る.この操作を繰り返して,x(1) ≥ x(2) ≥ · · · を得る. このとき,写像

ρ : (x1, x2, . . . ) 7→ (x(1), x(2), . . . ), ∆ → ∆ をランキング関数と呼ぶ.

Lemma 10. ρ : ∆ → ∆は連続である.

Proof. xn, x ∈ ∆, xn → xとする.ρ(xn) → ρ(x)を示す.ρは座標置換に関して不変 であるから,x1 ≥ x2 ≥ · · · と仮定してよい.ここで,i=1xni = i=1xi = 1より,

i(xi− xni)=

i(xi− xni)+であるから,

i|xi− xni| = 2i(xi− xni)+である.さら

に,(xi−xni)+≤ xiであるから,DCTより,i(xi−xni)+ → 0,すなわち,i|xi−xni| → 0 を得る.また,これから,maxi|xi− xni| → 0も従う.

参照

関連したドキュメント

 毒性の強いC1. tetaniは生物状試験でグルコース 分解陰性となるのがつねであるが,一面グルコース分

Bでは両者はだいたい似ているが、Aではだいぶ違っているのが分かるだろう。写真の度数分布と考え

ポケットの なかには ビスケットが ひとつ ポケットを たたくと ビスケットは ふたつ.

最愛の隣人・中国と、相互理解を深める友愛のこころ

(自分で感じられ得る[もの])という用例は注目に値する(脚注 24 ).接頭辞の sam は「正しい」と

「欲求とはけっしてある特定のモノへの欲求で はなくて、差異への欲求(社会的な意味への 欲望)であることを認めるなら、完全な満足な どというものは存在しない

参加者は自分が HLAB で感じたことをアラムナイに ぶつけたり、アラムナイは自分の体験を参加者に語っ たりと、両者にとって自分の