確率ベクトルに関する期待値 - mathematical statistics v4

X, Y が独立ならg(X), h(Y)も独立である．

より一般に，X₁, . . . , X_nが独立なr.v.’sで，E[|g_i(X_i)|]<∞ (i= 1, . . . , n)なら，

E[g(X₁)· · ·g(X_n)] =E[g(X₁)]· · ·E[g(X_n)]

となる．また，(可測)関数g_i :R→R(i= 1, . . . , n)に対して，g₁(X₁), . . . , g_n(X_n)も独立になる．以上の結果は，X₁, . . . , X_nが確率ベクトルであっても成り立つ．

Example 1.10 (混合分布). α₁, . . . , α_n ≥ 0を∑n

i=1α_i = 1をみたす定数とし，U を P(U = i) = α_i (i= 1, . . . , n)をみたすr.v.とする．さらに，F₁, . . . , F_nをR上のd.f.とし，各iに対してX_i ∼F_iとし，U は(X₁, . . . , X_n)^′と独立とする．このとき，

Y =











X1 if U = 1 X₂ if U = 2

...

X_n if U =n とおくと，

P(Y ≤y) =

∑n i=1

P(Y ≤y, U =i) =

∑n i=1

P(Xi≤x, U =i)

∑n i=1

P(X_i≤y)P(U =i) =

∑n i=1

α_iF_i(y)

となる．Y の分布をF₁, . . . , F_nの混合分布(mixture distribution)と呼び，α₁, . . . , α_nを混合比 (mixture weight)と呼ぶ．

各F_iが密度関数f_iをもつときは，Y は密度関数 fY(y) =

∑n i=1

αifi(y) をもつ．

共分散と相関

X, Y がE[X²]<∞, E[Y²]<∞^となるr,v,’sなら，

|XY| ≤(X²+Y²)/2

より，E[|XY|]<∞^{である．このとき，}

Cov(X, Y) =E[(X−E[X])(Y −E[Y])] =E[XY]−E[X]E[Y]

をXとY の共分散 (covariance)と呼ぶ．X = Y のときは，Cov(X, X) = Var(X)である．XとY が独立なときは，

E[XY] =E[X]E[Y]

であるから，Cov(X, Y) = 0である．ただし，Cov(X, Y) = 0でも，XとY が独立とは限らない(演習問題)．

Lemma 1.9 (Cauchy-Schwarzの不等式). E[X²]<∞, E[Y²]<∞^なら，

E[|XY|]≤√

E[X²]√ E[Y²].

Proof. X, Y ≥0の場合を考えればよい．定義より，

0≤E[(X−tY)²] =E[Y²]t²−2E[XY]t+E[X²]

であって，この不等式がすべてのtに対して成り立つ．E[Y²] = 0なら，−2E[XY]t+ E[X²]≥0であって，仮にE[XY]>0なら，t < E[X²]/(2E[XY])に対してこの不等式が成り立たない．よって，E[Y²] = 0ならE[XY] = 0である¹²．さらに，E[Y²]>0なら，

E[Y²]t²−2E[XY]t+E[X²] =E[Y²] (

t−E[XY] E[Y²]

+E[X²]−

((E[XY])² E[Y²]

)

であって，これがすべてのtに対して≥0であるから，

(E[XY])² ≤E[X²]E[Y²] である．

X, Y をE[X²] <∞, E[Y²]<∞^となるr.v.’sとし，Var(X) >0,Var(Y) >0とする．

このとき，

Corr(X, Y) = Cov(X, Y)

√Var(X)√

Var(Y) をXとY の相関(correlation)と呼ぶ．Schwarzの不等式より，

|Cov(X, Y)| ≤√

Var(X)√

Var(Y) だから，

−1≤Corr(X, Y)≤1 である．

12E[Y²] = 0ならP(Y = 0) = 1だから，P(XY = 0) = 1．よって，E[XY] = 0としてもよい．

Corr(X, Y)が定義できるとき，µ_X =E[X], µ_Y =E[Y], σ_X² = Var(X), σ²_Y = Var(Y),Xe = (X−µ_X)/σ_X,Ye = (Y −µ_Y)/σ_Y とおくと，Corr(X, Y) = 1なら，Cov(X,e Ye) = 1だから，Var(Xe−Ye) = Var(X)e −2 Cov(X,e Ye) + Var(Ye) = 0. よって，P(Xe =Ye) = 1を得る．同様にして，Corr(X, Y) =−1なら，P(Xe =−Ye) = 1である．

X₁, . . . , X_nをE[X_i²]<∞(1≤ ∀i≤n)なるr.v.’sとすると，b₁, . . . , b_n∈Rに対して，

Var ( _n

∑

i=1

biXi

)

∑n i=1

b²_i Var(Xi) + 2∑

i<j

bibjCov(Xi, Xj) である．X₁, . . . , X_nが独立なら，

Var ( _n

∑

i=1

X_i )

∑n i=1

Var(X_i) となる．

X= (X1, . . . , Xn)^′をn次元の確率ベクトルとする．このとき，

E[X] =



 E[X₁]

... E[X_n]





と定義する (右辺の期待値の存在は仮定する)．行列の期待値も同様に定義する．また，

E[X_i²]<∞ 1≤ ∀i≤nのとき，

Σ := Var(X) :=E[(X−E[X])(X−E[X])^′] = (Cov(Xi, Xj))1≤i,j≤n

をXの共分散行列と呼ぶ．共分散行列は明らかに対称である：Σ = Σ^′．次の補題の証明は演習問題とする．

Lemma 1.10. a= (a₁, . . . , a_m)^′∈R^mとm×n行列Bに対して，Y =a+BXとおく．

このとき，

E[Y] =a+BE[X], Var(Y) =BVar(X)B^′

である (それぞれの場合において，有限なE[X]とVar(X)の存在は仮定する)． b= (b₁, . . . , b_n)^′に対して，b^′Xの分散は

Var(b^′X) =b^′Σb

であって，Var(b^′X)≥0より，Σは半正定値対称行列である．また，a, b∈Rⁿに対して，

Cov(a^′X, b^′X) =a^′Σb である．

特性関数

n次元確率ベクトルX= (X1, . . . , Xn)^′に対して，その特性関数を φ(t) =E[

eⁱ^∑ⁿ^j=1^t^j^X^j]

=E[e^it^′^X], t= (t1, . . . , tn)^′∈Rⁿ と定義する．1次元のときと同様に，特性関数と分布は1対1に対応する．

Theorem 1.8. X, Y をn次元確率ベクトルとし，X ∼F, Y ∼Gとする．また，X, Y の特性関数をそれぞれφF, φGとおく．このとき，φF ≡φGならばF ≡Gである．

r.v.’sX1, . . . , Xnが独立なら，X = (X1, . . . , Xn)^′の特性関数φは φ(t) =E[

eⁱ^∑ⁿ^j=1^t^j^X^j]





∏n j=1

e^it^j^X^j



=

∏n j=1

E[e^it^j^X^j]

| {z }

=:φ_Xj(t_j)

∏n j=1

φ_X_j(t_j), t= (t₁, . . . , t_n)^′∈Rⁿ

をみたす．逆に，X = (X₁, . . . , X_n)^′が φ(t) =

∏n j=1

φ_X_j(t_j), ∀t= (t₁, . . . , t_n)^′∈Rⁿ (**) をみたすなら，右辺はX1, . . . , Xnが独立のときのXの特性関数に一致して，特性関数が分布を一意に決めることから，X1, . . . , Xnは独立であることがわかる．よって，次の系を得る．

Corollary 1.4. X = (X₁, . . . , X_n)^′の特性関数をφとおき，各X_jの特性関数をφ_X_jとおく．このとき，X₁, . . . , X_nが独立であるためには，(**)が成り立つことが必要十分である．

条件付き期待値

E[|g(X, Y)|]< ∞^のとき，X =xを与えたときのg(X, Y)の条件付き期待値 (condi-tional expectation)を

E[g(X, Y)|X =x] =





∑

yg(x, y)p_Y_|_X(y|x) 離散型のとき

∫ g(x, y)f_Y_|_X(y|x)dy 連続型のとき

と定義する．ここで，p_X(x)>0 orf_X(x)>0を仮定している．p_X(x) = 0 or f_X(x) = 0 のときは，E[g(X, Y)|X =x]の値は任意としておく．

E[g(X, Y)|X =x]のxにXを代入した値をE[g(X, Y)|X]と書く：

E[g(X, Y)|X] =E[g(X, Y)|X =x]|x=X.

E[g(X, Y)|X]はr.v.である．このとき，

E[E[g(X, Y)|X]] =

∫

{x:fX(x)>0}

E[g(X, Y)|X =x]f_X(x)dx

∫

{x:fX(x)>0}

∫

g(x, y)f_Y_|_X(y|x)f_X(x)

| {z }

=f(x,y)

dydx

となる．ここで，f_X(x) = 0なら“ほとんどすべての”y に対してf(x, y) = 0になるから (f が連続ならすべてのy に対してf(x, y) = 0になる)，そのようなx に対しては

∫ g(x, y)f(x, y)dy= 0になる．よって，

∫

{x:f_X(x)>0}

∫

g(x, y)f(x, y)dydx=

∫∫

g(x, y)f(x, y)dydx=E[g(X, Y)]

であるから，最終的に，

E[E[g(X, Y)|X]] =E[g(X, Y)]

を得る．これを期待値の繰り返し法則 (law of iterated expectations)と呼ぶ．

同様にして，(Borel集合)A⊂Rに対して，

E[E[g(X, Y)|X]I(X∈A)] =E[g(X, Y)I(X∈A)]

が成り立つ．X, Y が独立なら，f_Y_|_X(y|x) =f_Y(y)より，

E[g(X, Y)|X =x] =E[g(x, Y)], f_X(x)>0

である．つまり，X, Y が独立な場合は，X=xを与えたときの(X, Y)に関する条件付き期待値は，X=xを固定してY の周辺分布に関して期待値をとったものに等しい．

次に，(Borel集合) A⊂Rに対して，

P(Y ∈A|X=x) :=E[I(Y ∈A)|X=x]

と定義する．

また，p_X(x)>0 or f_X(x)>0なるxに対して，yの関数 F_Y_|_X(y|x) :=P(Y ≤y|X=x)

をX =xを与えたときのY の条件付き分布関数と呼ぶ．p_X(x) = 0 orf_X(x) = 0なら，

GをR上の任意のd.f.として，F_Y_|_X(y | x) = G(y)としておく．このように決めておくと，任意のx∈Rに対して，F_Y_|_X(y |x)はyの関数としてd.f.になる．そこで，

F_Y^←_|_X(u|x) =: inf{y∈R:F_Y_|_X(y|x)≥u}, u∈(0,1)

をX =xを与えたときのY の条件付き分位点関数と呼ぶ．Xが多次元の場合も，条件付き分布関数と条件付き分位点関数を同様に定義する．

条件付き分位点関数を使うと，多次元分布に従う確率ベクトルを独立な一様確率変数列から発生させることができる．(X₁, . . . , X_n)^′を離散型か連続型の確率ベクトルとし，同時 d.f.をF(x₁, . . . , x_n) =P(X₁ ≤x₁, . . . , X_n ≤x_n)とおく．ここで，F₁(x₁) =F_X₁(x₁)とし，k= 2, . . . , nに対して，F_k(x_k|x₁, . . . , x_k₋₁)を(X₁, . . . , X_k₋₁)^′= (x₁, . . . , x_k₋₁)^′を与えたときのX_kの条件付き分布関数とする．いま，U1, . . . , Unを独立にU(0,1)に従う r.v.’sとし，Y₁, . . . , Y_nを

Y₁=F₁^←(U₁),

Y_k=F_k^←(U_k|Y1, . . . , Y_k₋₁), k= 2, . . . , n

とおく．このとき，Y1∼FX1であって，Y1 =y1を与えたとき，Y2は定義からF2(· |y1) に従う．よって，(Y₁, Y₂)の同時分布は

P(Y₁≤y₁, Y₂≤y₂) =E[I(Y₁≤y₁)I(Y₂≤y₂)] =E[E[I(Y₂≤y₂)|Y₁]I(Y₁ ≤y)]

=E[F₂(y₂|Y₁)I(Y₁≤y₁)] =E[F₂(y₂ |X₁)I(X₁ ≤y₁)]

=E[E[I(X₂≤y₂)|X₁]I(X₁ ≤y)] =P(X₁ ≤y₁, X₂ ≤y₂)

だから，(X₁, X₂)のそれと等しい．同様の操作を続けて，(Y₁, . . . , Y_n)^′ ∼Fを得る．

ドキュメント内 mathematical statistics v4 (ページ 39-45)