行列Aに対して,A′はAの転置を表す.特に断らない限り,これ以降ベクトルはすべ て列ベクトルとする.ただし,x, y∈Rに対して,(x, y)′といちいち書くのはわずらわし いので,(x, y)と書く.
r.v.’s X1, . . . , Xnに対して,それらを並べたベクトルX = (X1, . . . , Xn)′ をn次元の 確率ベクトル (random vector)と呼ぶ.このとき,x1, . . . , xn∈Rに対して,
F(x1, . . . , xn) =P(X1≤x1,· · · , Xn≤xn) =P({X1≤x1} ∩ · · · ∩ {Xn≤xn}) をXの 同時分布関数(joint distribution function)と呼ぶ.また,各iに対して,Xiの分 布を 周辺分布(marginal distribution)と呼ぶ10.
10“同時”とか“周辺”とかは省略する場合も多い.
Remark 1.11. Rnの部分集合族{(−∞, x1]× · · · ×(−∞, xn] : −∞< x1, . . . , xn<∞}
の生成するσ加法族のことをRnのBorelσ加法族と呼び,Bnと書く.Bnに属する集合
をRnのBorel集合と呼ぶ.Xがn次元の確率ベクトルなら,任意のA ∈ Bnに対して
X−1(A)∈ F であって,
µ(A) :=P(X−1(A)), A∈ Bn
と定めると,µは(Rn,Bn)上の確率測度になる.µのことをXの分布と呼ぶ.Xの分布 はd.f.から一意に決まるので,1次元のときと同様にして,分布とd.f.を同一視する.ま た,Xがd.f. Fをもつことを,X ∼Fと書く.
以下,n= 2の場合を主に考えて,(X, Y)を2次元の確率ベクトルとする.
まず,X, Y が離散型の場合を考える.X, Y がそれぞれ,{x1, x2, . . .}と{y1, y2, . . .}に 値をとるとき,(X, Y)は{(xm, yn) :m, n = 1,2, . . .}に値をとる.このとき,(X, Y)を 離散型の確率ベクトルといって,
p(xm, yn) =P(X =xm, Y =yn) を 同時確率関数 と呼ぶ.形式的に,
p(x, y) = 0, (x, y)∈ {/ (xm, yn) :m, n= 1,2, . . .} と定義しておけば,
F(x, y) = ∑
u:u≤x
∑
v:v≤y
p(u, v)
と表せる.このように表せるd.f. Fを離散分布関数と呼ぶ.また,
pX(x) :=P(X =x) =∑
y
P(X =x, Y =x) =∑
y
p(x, y) をXの 周辺確率関数 と呼ぶ.
pX(x)>0なるxに対して,
pY|X(y|x) =P(Y =y|X=x) = P(X=x, Y =y)
P(X =x) = p(x, y) pX(x) をX = xを与えたときのY の 条件付き確率関数 と呼ぶ.∑
ypY|X(y | x) = 1だから,
pY|X(y | x)はyの関数として確率関数になる.pY|X(· | x)を確率関数にもつ分布のこ とをX =xを与えたときのY の 条件付き分布 (conditional distribution)と呼ぶ.なお,
pX(x) = 0ならp(x, y) = 0だから,そのようなxに対してはpY|X(y |x)をどう選んでも,
p(x, y) =pY|X(y|x)pX(x) ∀(x, y) が成り立つ.
次に,(X, Y)の同時d.f.が,適当な(可積分)関数f :R2 →R+を用いて,
F(x, y) =
∫ y
−∞
∫ x
−∞
f(u, v)dudv, (x, y)∈R2
と表せるとき,(X, Y)を連続型の確率ベクトルといって,fを 同時(確率)密度関数 と呼 ぶ11.このとき,F は 絶対連続 であるという.
同時密度関数fは ∫ ∞
−∞
∫ ∞
−∞
f(x, y)dxdy = 1 (*)
をみたす.逆に,与えられた関数f :R2→R+が条件(*)をみたすなら,f を同時密度に もつ確率ベクトル(X, Y)が存在することが知られている.
(X, Y)が連続型のとき,Xの周辺分布は
FX(x) =P(X≤x) =P(X ≤x, Y <∞) =F(x,∞) =
∫ x
−∞
{∫ ∞
−∞
f(u, y)dy }
du と表せるから,Xは連続型であって,その密度関数は
fX(x) =
∫ ∞
−∞
f(x, y)dy と表せる.fXをXの 周辺密度関数 と呼ぶ.
fX(x)>0なるxに対して,
fY|X(y|x) = f(x, y) fX(x)
をX =xを与えたときのY の 条件付き密度関数 と呼ぶ.fY|X(y |x)はyの関数として 確率密度関数であって,対応する分布をX=xを与えたときのY の条件付き分布と呼ぶ.
Remark 1.12. (X, Y)が同時密度f(x, y)をもつとき,密度関数に関する積分をLebesgue 積分とみなせば,A∈ B2に対して,
P{(X, Y)∈A}=
∫∫
A
f(x, y)dxdy が成り立つ.本講義ではこの関係は認める.
r.v.’sの独立性を定義しよう.n個のr.v.’s X1, . . . , Xnに対して,(X1, . . . , Xn)′の同時 d.f.をF(x1, . . . , xn)とおいて,各Xiの周辺d.f.をFXi(xi)とおくと,
F(x1, . . . , xn) =FX1(x1)· · ·FXn(xn), ∀x1, . . . , xn∈R (**)
11重積分をRiemann積分の範囲でちゃんと扱おうとすると煩雑になるので,これ以降の議論においては,
積分がちゃんと定義できることは暗に仮定してしまっている.
が成り立つとき,X1, . . . , Xnは 独立 であるという.明らかに,X1, . . . , Xnが独立なら,
任意の1≤i1 <· · ·< im≤nに対して,Xi1, . . . , Ximも独立になる.
X1, . . . , Xnが離散型の場合,それらが独立であることは,同時確率関数が周辺確率関数の 積で表されることと同値である.すなわち,(X1, . . . , Xn)′の同時確率関数をp(x1, . . . , xn) = P(X1=x1, . . . , Xn=xn)とおいて,各Xiの周辺確率関数をpXi(xi) =P(Xi =xi)とお くと,X1, . . . , Xnが独立であることは,
p(x1, . . . , xn) =pX1(x1)· · ·pXn(xn), ∀x1, . . . , xn. (*3) となることと同値である.これを証明してみよう.(*3)が成り立つなら,X1, . . . , Xnが独 立なことは明らかである.そこで,逆をn= 2の場合に示そう(一般のnでも同様である). X1, X2 が独立なら,P(X1 ≤ x1, X2 ≤ x2) = P(X1 ≤ x1)P(X2 ≤ x2)である.ここで,
所与のx1に対して,xm1 ↑x1となる数列xm1 をとると,P(X1 ≤xm1 , X2 ≤x2) =P(X1≤ xm1 )P(X2 ≤x2)より,P(X1< x1, X2 ≤x2) =P(X1 < x1)P(X2≤x2)となる.よって,
P(X1 =x1, X2 ≤x2) =P(X1≤x1, X2 ≤x2)−P(X1 < x1, X2≤x2)
={P(X1 ≤x1)−P(X1 < x1)}P(X2 ≤x2)
=P(X1=x1)P(X2 ≤x2) となる.同様の操作を続けて,
p(x1, x2) =P(X1 =x1, X2 =x2) =P(X1=x1)P(X2 =x2) =pX1(x1)pX2(x2) を得る.
次に各Xiが連続型の場合を考察する.一般に,各Xiが連続型であっても,それらを並 べたベクトル(X1, . . . , Xn)′は連続型とは限らない.例えば,X ∼N(0,1), Y =−Xとす ると,各X, Y は連続型だが,(X, Y)は集合S ={(x, y) :y=−x}に集中していて,Sの
面積は0だから,(X, Y)は同時密度をもちえない.しかしながら,各Xiが連続型のとき,
その周辺密度関数をfXiとおくと,X1, . . . , Xnが独立であれば,(X1, . . . , Xn)′は連続型 であって,同時密度関数
f(x1, . . . , xn) =fX1(x1)· · ·fXn(xn), ∀x1, . . . , xn∈R (*4) をもつ.これは,
FX1(x1)· · ·FXn(xn) =
∫ x1
−∞
fX1(y1)dy1· · ·
∫ xn
−∞
fXn(yn)dyn
=
∫ xn
−∞· · ·
∫ x1
−∞
fX1(y1)· · ·fXn(yn)dy1· · ·dyn
と表せることから従う.逆に,(X1, . . . , Xn)′が(*4)を同時密度関数にもてば,X1, . . . , Xn が独立になることは明らかである.
なお,確率ベクトルたちに対しても,独立性を同様に定義する.例えば,2次元の確率 ベクトル(X1, X2)とr.v. X3が独立であることは,
F(x1, x2, x3) =F(X1,X2)(x1, x2)
| {z }
=P(X1≤x1,X2≤x2)
FX3(x3), ∀x1, x2, x3 ∈R
が成り立つことと定義される.
X1, . . . , Xnを独立なr.v.’sとすると,それらをグループ分けしたものも独立になる.例 えば,X1, X2, X3が独立なら,(X1, X2)とX3も独立である.これは,X1, X2, X3の独立 性から,X1, X2が独立なので,F(X1,X2)(x1, x2) =FX1(x1)FX2(x2)となるから,
F(x1, x2, x3) =FX1(x1)FX2(x2)FX3(x3) =F(X1,X2)(x1, x2)FX3(x3) となるためである.