複数の確率変数とそれらの関数 - 統計学入門（2017年度）福地純一郎のページ introstat2017

2 3 4 5 6 7 8 9 10 11 12 Y の周辺確率分布

1 ₃₆¹ 0 0 0 0 0 0 0 0 0 0 ₃₆¹

2 0 ₃₆² ₃₆¹ 0 0 0 0 0 0 0 0 ₃₆³

3 0 0 ₃₆² ₃₆² ₃₆¹ 0 0 0 0 0 0 ₃₆⁵

4 0 0 0 ₃₆² ₃₆² ₃₆² ₃₆¹ 0 0 0 0 ₃₆⁷

5 0 0 0 0 ₃₆² ₃₆² ₃₆² ₃₆² ₃₆¹ 0 0 ₃₆⁹

6 0 0 0 0 0 ₃₆² ₃₆² ₃₆² ₃₆² ₃₆² ₃₆¹ ¹¹₃₆ Xの周辺確率分布 ₃₆¹ ₃₆² ₃₆³ ₃₆⁴ ₃₆⁵ ₃₆⁶ ₃₆⁵ ₃₆⁴ ₃₆³ ₃₆² ₃₆¹

6.1.1 連続型確率変数の場合 *

連続型確率変数の確率分布は確率密度関数を用いて表した. X, Y がともに連続型確率変数の場合には, 2変数関数 f(x, y) を用いて同時確率分布を表す. 任意の a, b, c, d (a < b, c < d) に対して, a ≤X ≤b かつ c≤Y ≤dである確率を, a ≤ X ≤ bとc≤Y ≤ dでできる長方形と関数f(x, y)でできる柱の体積で表すのである. このような関数f(x, y)を (X, Y)の同時確率密度関数という. 図6.1は同時確率密度関数f(x, y)の例であり、図6.2は,f(x, y)を0≤x≤1,

−1≤x≤0でできる長方形の上だけで図示したものである.

−3

−2

−1 0

1 2

3 y

−3

−2

−1 0

1 2

3 z

0.05 0.10 0.15

図 6.1: 同時確率密度関数 f(x, y) の例

−3

−2

−1 0

1 2

3 y

−3

−2

−1 0

1 2 z 3

0.00 0.05 0.10 0.15

図 6.2:

6.2 確率変数の独立性

XとY は確率変数であるとする．すべての定数a≤b, c≤dに対して

P(a≤X ≤b, c≤Y ≤d) =P(a≤X ≤b)×P(c≤Y ≤d) (6.1) が成り立つとき，確率変数Xと Y は独立であるという．

X と Y が独立であるとは,一方の確率変数がどんな値をとるかどうかが他方の確率変数の確率分布に影響しないことを意味する.

1試験範囲に入らない

離散型確率変数の独立性

2つの離散型確率変数 X,Y のとる値がそれぞれ,xi (i= 1,· · · , k),yj (j = 1,· · ·ℓ)であるとする. このとき

すべての i= 1,· · · , k,と j = 1,· · · , ℓ についてP(X =x_i, Y =y_j) =P(X =x_i)×P(Y =y_j) (6.2) が成り立つとき,X と Y は独立になる．

例 6.3. 例6.1, 6.2それぞれの場合に、XとY は独立かどうか答えよ.

連続型確率変数の独立性 *

2つの連続型確率変数 X,Y の確率密度関数がそれぞれ, f(x), g(y)であるとする. このとき, すべての x,y に対して, X, Y の同時確率密度関数f(x, y)について

f(x, y) = f(x)g(y) が成り立つとき,X と Y は独立になる．

6.3 期待値

g(x, y)を2変数の関数とする．離散型確率変数X, Y に対してg(X, Y)の期待値の求め方を考えよう．g(X, Y)も確率変数であるから，g(X, Y)の確率分布を求めて期待値の定義に従い計算できる．もう一つの方法は以下の公式を用いることである．

✓ ✏

公式： E[g(X, Y)] =

∑k

i=1

∑ℓ

j=1

g(xi, yj)p(xi, yj)

✒ ✑

6.4 複数の確率変数の和

独立な2つの確率変数については, 期待値と分散の簡潔な公式がある. 以下の性質は, 離散型の場合でも連続型の場合でも成り立つ.

✓ ✏

定理 6.1. 2つの確率変数 X, Y に対して

(1) E[X+Y] = E[X] + E[Y] (6.3)

が成り立つ. X と Y が独立ならば次が成り立つ.

(2) E[XY] = E[X]E[Y] (3) V[X+Y] = V[X] + V[Y]

✒ ✑

(1)が成り立つために X と Y の独立性は必要でないことに注意せよ.

定理6.1の証明

離散型確率変数の場合について証明する. (1)の証明 E[X+Y] =

∑k

i=1

∑ℓ

j=1

(xi+yj)p(xi, yj)

∑k

i=1

∑ℓ

j=1

xip(xi, yj) +

∑k

i=1

∑ℓ

j=1

yjp(xi, yj) =

∑k

i=1

∑ℓ

j=1

p(xi, yj) +

∑ℓ

j=1

∑k

i=1

p(xi, yj)

∑k

i=1

xip1(xi) +

∑ℓ

j=1

yjp2(yj) = E[X] + E[Y] (2)の証明

E[XY] =

∑k

i=1

∑ℓ

j=1

x_iy_jP(X =x_i, Y =y_j)

∑k

i=1

∑ℓ

j=1

xiyjP(X =xi)P(Y =yj) （X と Y の独立性から）

∑k

i=1

xiP(X =xi)

∑ℓ

j=1

yjP(Y =yj)

=E[X]E[Y] ✷ (3)の証明

V[X+Y] =E[

{(X+Y)−E(X+Y)}²]

= E[

{(X−E(X)) + (Y −E(Y))}²]

=E[

{X−E(X)}²]

+ 2E [{X−E(X)} {Y −E(Y)}] + E[

{X−E(X)}²]

=V[X] + V[Y] ✷

定理6.1を繰り返し用いればn 個の確率変数 X1, X2, . . . , Xnの和について以下が成り立つことがわかる．

E[X1+X2+· · ·+Xn] =E[X1] + E[X2] +· · ·+ E[Xn] (6.4) もしn個の確率変数X1, X2· · ·, Xn が独立ならば

V[X1 +X2+· · ·+Xn] =V[X1] + V[X2] +· · ·+ V[Xn] (6.5) が成り立つ.

例 6.4 (二項分布の平均と分散). 定理6.1を用いて、二項分布の平均と分散を求めることがで

きる. n回のベルヌーイ試行(成功の確率はp)を考え、第i回目の結果が成功であれば1失敗であれば0を取る確率変数をIiで表す. Iiの期待値と分散は以下のように求められる.

E[Ii] =1×P(Ii = 1) =p

V[Ii] =E[I_i²]−(E[Ii])² =p−p² =p(1−p) 次に、X = ∑n

i=1I_iと定義すると、Xは二項分布B(n, p)にしたがう. したがって(6.4)から E[X] =np, (6.5)からV[X] =np(1−p)が得られる.

X¯ = ¹_n∑n

i=1Xiを標本平均という. 上の結果と確率変数aX +bの期待値と分散の公式から, 以下を得る.

✓ ✏

標本平均の期待値と分散

n個の確率変数X₁, X₂· · · , X_n が独立で，それぞれの期待値と分散がµ，σ² であるとき，

E[ X]

=µ V[

=σ²

✒ n ✑

例 6.5. ある一つのリンゴの重さをバネばかりでn回計測するとする. 各計測値には測定誤差がともなうので確率変数と考え, X1, X2· · · , Xnで表し, E(Xi) = 60(g), V(Xi) = 1(g²)であるとする. すると, n個の測定値の標本平均Xの期待値は60(g), 分散は1/n(g²) である. 1つの測定値よりも複数測定して標本平均を用いた方が精度が高くなるのである.

6.5 確率変数の和の確率分布

確率変数の和の確率分布の例として，2つのサイコロの目の和の確率分布を求めてみる．一方のサイコロの目をX1, 他方のサイコロの目をX2とする.

1 2 3 4 5 6 1/6

さいころの目X1の確率分布

2 3 4 5 6 7 8 9 10 11 12 1/36

2個のさいころの目の和X1+X2の確率分布

複数のさいころ目の和の確率分布を調べてわかったように, 一般には複数の独立な確率変数の和の確率分布は,元の確率変数の確率分布とは異なる形状をしている. ところが,独立に正規分布にしたがう確率変数の和は,正規分布であることがわかっている. このような性質を正規分布の再生性²という．

2定理6.3は積分の計算によって証明できる．たとえば柳川尭著「統計数学」3章を見よ.

✓ ✏

定理 6.2 (正規分布の再生性). 二つの確率変数X1, X2 は独立であり，X1 は正規分布

N(µ1, σ₁²)にしたがい，X2は正規分布N(µ2, σ₂²)にしたがうとする．このとき X1+X2 ∼N(µ1+µ2, σ₁²+σ₂²)

が成り立つ．

✒ ✑

定理6.2を繰り返して用いれば,以下が成り立つ．

定理 6.3. n 個の確率変数X1, X2, . . . , Xn は互いに独立で, X_i ∼N(µ, σ²), i = 1,2, . . . , n

（つまり同一の平均, 分散の正規分布に従う）ならば,

∑n

i=1

Xi ∼N(

nµ, nσ²) が成り立つ.

独立に同一の正規分布に従う複数の確率変数の標本平均の確率分布については, 以下が成り

立つ．✓ ✏

定理 6.4. n 個の確率変数 X₁, X₂, . . . , X_n が互いに独立で, Xi ∼N(µ, σ²), i = 1,2, . . . , n

（つまり同一の平均, 分散の正規分布に従う）ならば, X¯ = 1

∑n

i=1

Xi ∼N (

µ, σ² n

)

が成り立つ.

✒ ✑

証明定理6.3から

∑n

i=1

X_i ∼N(

nµ, nσ²)

が成りたつ. ¯X =n⁻¹∑n

i=1Xiであるから、定理5.2から,結論が得られる. ✷ 定理6.4は統計分析で中心的役割を果たす．

例 6.6. ある一つのリンゴの重さをバネばかりでn回計測するとする. 各計測値には測定誤差がともなうので確率変数と考え, X1, X2· · · , Xnで表し, Xi ∼N(60, 1)であると仮定する. このとき, n個の測定値の標本平均Xについては

X¯ ∼N (

60, 1 n

)

である.標本平均の確率分布は, 1つの測定値の確率分布と比べると60(g)の回りにより集中している.

6.6 n が大きい場合の標本平均の性質

標本平均について, nが無限大に発散するときに成り立つ2つの重要な性質がある。6.4節の最後に述べたように, E[X] =µかつV[X] = σ²/nであり, 分散はn無限大に発散するときに0 に収束する. 実は, 以下の定理で述べる意味で Xはµに近づいていく。

✓ ✏

定理 6.5 (大数(たいすう)の法則). n個の確率変数 X1, X2· · · , Xn が独立で，それぞれの期待値は同一でµ, 分散も同一でσ²であるとする。このとき任意のε >0に対して

X−µ < ε)

→1, (n → ∞) が成り立つ.

✒ ✑

大数の法則は, nが大きくなるにしたがってXの分布がµに集中していくことを述べている。

次の定理はn が大きくなるにしたがって標本平均の確率分布が正規分布に近づいていくことを述べている. 標本平均の確率分布は分散が0に収束してしまうので,標本平均を標準化した変数の確率分布の極限を考える.

✓ ✏

定理 6.6 (中心極限定理). n個の確率変数 X1, X2· · · , Xn が独立で，それぞれの期待値が µ, 分散がσ²の同一の確率分布に従うとする. このとき

X−µ σ/√

の確率分布はn → ∞とすると, 標準正規分布N(0,1)に近づく. より正確に言えば, 任意の a < bに対して

P (

a≤ X−µ σ/√

n ≤b )

→Φ(b)−Φ(a), (n→ ∞)

が成り立つ. ただしΦ(x)は標準正規分布に従う確率変数Zを用いてΦ(x) = P(Z ≤ x)で定義され, 標準正規分布の分布関数と呼ばれる.

✒ ✑

例6.4で見たように,二項分布に従う確率変数は独立に同一の確率分布にしたがう確率変数の和で表される. したがって,中心極限定理によってnが大きいときに二項分布が正規分布で近似されることが分かる.

✓ ✏

定理 6.7 (ド・モアブル−ラプラスの定理). 確率変数Xが二項分布 B(n, p)にしたがうと

する．このとき n → ∞であれば

X−np

√np(1−p) の確率分布は標準正規分布N(0,1)に収束する．

✒ ✑

0.1 0.2 0.3

0 1 2 3 4 5 6

B(6,0.5)

0.1 0.2 0.3

0 1 2 3 4 5 6 7 8 9 10

B(10,0.5)

二項分布 B( n,¹₆)

の確率分布

図 6.3: n = 10

図 6.4: n = 100

ドキュメント内統計学入門（2017年度）福地純一郎のページ introstat2017 (ページ 45-53)