確率ベクトル - mathematical statistics v4

行列Aに対して，A^′はAの転置を表す．特に断らない限り，これ以降ベクトルはすべて列ベクトルとする．ただし，x, y∈Rに対して，(x, y)^′といちいち書くのはわずらわしいので，(x, y)と書く．

r.v.’s X₁, . . . , X_nに対して，それらを並べたベクトルX = (X₁, . . . , X_n)^′ をn次元の確率ベクトル (random vector)と呼ぶ．このとき，x₁, . . . , x_n∈Rに対して，

F(x₁, . . . , x_n) =P(X₁≤x₁,· · · , X_n≤x_n) =P({X₁≤x₁} ∩ · · · ∩ {X_n≤x_n}) をXの同時分布関数(joint distribution function)と呼ぶ．また，各iに対して，Xiの分布を周辺分布(marginal distribution)と呼ぶ¹⁰．

10“同時”とか“周辺”とかは省略する場合も多い．

Remark 1.11. Rⁿの部分集合族{(−∞, x₁]× · · · ×(−∞, x_n] : −∞< x₁, . . . , x_n<∞}

の生成するσ加法族のことをRⁿのBorelσ加法族と呼び，Bⁿ^と書く．Bⁿ^{に属する集合}

をRⁿのBorel集合と呼ぶ．Xがn次元の確率ベクトルなら，任意のA ∈ Bⁿ^に対して

X⁻¹(A)∈ F ^{であって，}

µ(A) :=P(X⁻¹(A)), A∈ Bⁿ

と定めると，µは(Rⁿ,Bⁿ)上の確率測度になる．µのことをXの分布と呼ぶ．Xの分布はd.f.から一意に決まるので，1次元のときと同様にして，分布とd.f.を同一視する．また，Xがd.f. Fをもつことを，X ∼Fと書く．

以下，n= 2の場合を主に考えて，(X, Y)を2次元の確率ベクトルとする．

まず，X, Y が離散型の場合を考える．X, Y がそれぞれ，{x1, x2, . . .}^と{y1, y2, . . .}^に値をとるとき，(X, Y)は{(x_m, y_n) :m, n = 1,2, . . .}に値をとる．このとき，(X, Y)を離散型の確率ベクトルといって，

p(xm, yn) =P(X =xm, Y =yn) を同時確率関数と呼ぶ．形式的に，

p(x, y) = 0, (x, y)∈ {/ (x_m, y_n) :m, n= 1,2, . . .} と定義しておけば，

F(x, y) = ∑

u:u≤x

∑

v:v≤y

p(u, v)

と表せる．このように表せるd.f. Fを離散分布関数と呼ぶ．また，

p_X(x) :=P(X =x) =∑

P(X =x, Y =x) =∑

p(x, y) をXの周辺確率関数と呼ぶ．

p_X(x)>0なるxに対して，

p_Y_|_X(y|x) =P(Y =y|X=x) = P(X=x, Y =y)

P(X =x) = p(x, y) p_X(x) をX = xを与えたときのY の条件付き確率関数と呼ぶ．∑

yp_Y_|_X(y | x) = 1だから，

p_Y_|_X(y | x)はyの関数として確率関数になる．p_Y_|_X(· | x)を確率関数にもつ分布のことをX =xを与えたときのY の条件付き分布 (conditional distribution)と呼ぶ．なお，

p_X(x) = 0ならp(x, y) = 0だから，そのようなxに対してはp_Y_|_X(y |x)をどう選んでも，

p(x, y) =p_Y_|_X(y|x)p_X(x) ∀(x, y) が成り立つ．

次に，(X, Y)の同時d.f.が，適当な(可積分)関数f :R² →R₊を用いて，

F(x, y) =

∫ y

−∞

∫ x

−∞

f(u, v)dudv, (x, y)∈R²

と表せるとき，(X, Y)を連続型の確率ベクトルといって，fを同時(確率)密度関数と呼ぶ¹¹．このとき，F は絶対連続であるという．

同時密度関数fは ∫ _∞

−∞

∫ _∞

−∞

f(x, y)dxdy = 1 (*)

をみたす．逆に，与えられた関数f :R²→R₊が条件(*)をみたすなら，f を同時密度にもつ確率ベクトル(X, Y)が存在することが知られている．

(X, Y)が連続型のとき，Xの周辺分布は

F_X(x) =P(X≤x) =P(X ≤x, Y <∞) =F(x,∞) =

∫ x

−∞

{∫ _∞

−∞

f(u, y)dy }

du と表せるから，Xは連続型であって，その密度関数は

f_X(x) =

∫ _∞

−∞

f(x, y)dy と表せる．f_XをXの周辺密度関数と呼ぶ．

fX(x)>0なるxに対して，

f_Y_|_X(y|x) = f(x, y) f_X(x)

をX =xを与えたときのY の条件付き密度関数と呼ぶ．f_Y_|_X(y |x)はyの関数として確率密度関数であって，対応する分布をX=xを与えたときのY の条件付き分布と呼ぶ．

Remark 1.12. (X, Y)が同時密度f(x, y)をもつとき，密度関数に関する積分をLebesgue 積分とみなせば，A∈ B²^{に対して，}

P{(X, Y)∈A}=

∫∫

f(x, y)dxdy が成り立つ．本講義ではこの関係は認める．

r.v.’sの独立性を定義しよう．n個のr.v.’s X₁, . . . , X_nに対して，(X₁, . . . , X_n)^′の同時 d.f.をF(x1, . . . , xn)とおいて，各Xiの周辺d.f.をFX_i(xi)とおくと，

F(x₁, . . . , x_n) =F_X₁(x₁)· · ·F_X_n(x_n), ∀x₁, . . . , x_n∈R (**)

11重積分をRiemann積分の範囲でちゃんと扱おうとすると煩雑になるので，これ以降の議論においては，

積分がちゃんと定義できることは暗に仮定してしまっている．

が成り立つとき，X₁, . . . , X_nは独立であるという．明らかに，X₁, . . . , X_nが独立なら，

任意の1≤i₁ <· · ·< i_m≤nに対して，X_i₁, . . . , X_i_mも独立になる．

X₁, . . . , X_nが離散型の場合，それらが独立であることは，同時確率関数が周辺確率関数の積で表されることと同値である．すなわち，(X₁, . . . , X_n)^′の同時確率関数をp(x₁, . . . , x_n) = P(X1=x1, . . . , Xn=xn)とおいて，各Xiの周辺確率関数をpX_i(xi) =P(Xi =xi)とおくと，X₁, . . . , X_nが独立であることは，

p(x₁, . . . , x_n) =p_X₁(x₁)· · ·p_X_n(x_n), ∀x₁, . . . , x_n. (*3) となることと同値である．これを証明してみよう．(*3)が成り立つなら，X₁, . . . , X_nが独立なことは明らかである．そこで，逆をn= 2の場合に示そう(一般のnでも同様である)． X₁, X₂ が独立なら，P(X₁ ≤ x₁, X₂ ≤ x₂) = P(X₁ ≤ x₁)P(X₂ ≤ x₂)である．ここで，

所与のx₁に対して，x^m₁ ↑x₁となる数列x^m₁ をとると，P(X₁ ≤x^m₁ , X₂ ≤x₂) =P(X₁≤ x^m₁ )P(X₂ ≤x₂)より，P(X₁< x₁, X₂ ≤x₂) =P(X₁ < x₁)P(X₂≤x₂)となる．よって，

P(X1 =x1, X2 ≤x2) =P(X1≤x1, X2 ≤x2)−P(X1 < x1, X2≤x2)

={P(X₁ ≤x₁)−P(X₁ < x₁)}P(X₂ ≤x₂)

=P(X₁=x₁)P(X₂ ≤x₂) となる．同様の操作を続けて，

p(x₁, x₂) =P(X₁ =x₁, X₂ =x₂) =P(X₁=x₁)P(X₂ =x₂) =p_X₁(x₁)p_X₂(x₂) を得る．

次に各X_iが連続型の場合を考察する．一般に，各X_iが連続型であっても，それらを並べたベクトル(X₁, . . . , X_n)^′は連続型とは限らない．例えば，X ∼N(0,1), Y =−Xとすると，各X, Y は連続型だが，(X, Y)は集合S ={(x, y) :y=−x}^{に集中していて，}Sの

面積は0だから，(X, Y)は同時密度をもちえない．しかしながら，各Xiが連続型のとき，

その周辺密度関数をf_X_iとおくと，X1, . . . , Xnが独立であれば，(X1, . . . , Xn)^′は連続型であって，同時密度関数

f(x₁, . . . , x_n) =f_X₁(x₁)· · ·f_X_n(x_n), ∀x₁, . . . , x_n∈R (*4) をもつ．これは，

F_X₁(x₁)· · ·F_X_n(x_n) =

∫ x1

−∞

f_X₁(y₁)dy₁· · ·

∫ xn

−∞

f_X_n(y_n)dy_n

∫ xn

−∞· · ·

∫ x1

−∞

f_X₁(y₁)· · ·f_X_n(y_n)dy₁· · ·dy_n

と表せることから従う．逆に，(X₁, . . . , X_n)^′が(*4)を同時密度関数にもてば，X₁, . . . , X_n が独立になることは明らかである．

なお，確率ベクトルたちに対しても，独立性を同様に定義する．例えば，2次元の確率ベクトル(X₁, X₂)とr.v. X₃が独立であることは，

F(x₁, x₂, x₃) =F_(X₁_,X₂₎(x₁, x₂)

| {z }

=P(X1≤x1,X2≤x2)

F_X₃(x₃), ∀x₁, x₂, x₃ ∈R

が成り立つことと定義される．

X₁, . . . , X_nを独立なr.v.’sとすると，それらをグループ分けしたものも独立になる．例えば，X₁, X₂, X₃が独立なら，(X₁, X₂)とX₃も独立である．これは，X₁, X₂, X₃の独立性から，X₁, X₂が独立なので，F_(X₁_,X₂₎(x₁, x₂) =F_X₁(x₁)F_X₂(x₂)となるから，

F(x₁, x₂, x₃) =F_X₁(x₁)F_X₂(x₂)F_X₃(x₃) =F_(X₁_,X₂₎(x₁, x₂)F_X₃(x₃) となるためである．

ドキュメント内 mathematical statistics v4 (ページ 32-36)