確率変数と確率分布 2018.04.10 •

(1)

確率変数と確率分布

2018.04.10

•

統計を含め、ランダムな事象を分析・制御するための科学が確率論

•

「理論上起こりうること」と「それらの確率」のリストアップ

(

確率分布

)

が確率論の基礎

1.

確率変数

(random variable)

確率変数

{

離散型

discrete type (飛び飛びの値)

連続型

continuous type (連続的な数の集合) 2.

離散型確率変数の例

(サイコロを１回振る場合)

理論上起こりうること確率変数

(X = x i ) 1 2 3 4 5 6

それらの確率確率分布

(Pr(X = x i ) ¹ ₆ ¹ ₆ ¹ ₆ ¹ ₆ ¹ ₆ ¹ ₆

• Pr(X = x i ) ≥ 0 (確率の値は非負)

• Σ Pr(X = x _i ) = 1 (全確率の和は 1) 3.

連続型確率変数の例

ルーレットの例

4.

確率密度関数

連続型確率変数

X

が、a

≤ X ≤ b

の値をとる確率を

Pr(a ≤ X ≤ b)

とする

Pr(a ≤ X ≤ b) = ∫ _b

a f (x)dx (x _min ≤ a ≤ b ≤ x _max ) f (x)

を確率密度関数

(probability density function)

という

f (x) ≥ 0

∫ _x

_max

x

min

f (x)dx = 1 5.

要約

離散型確率変数連続型確率変数確率のリストアップ確率分布

(

表

)

確率密度関数確率の非負性

Pr(X = x i ) ≥ 0 f (x) ≥ 0

全確率

Σ Pr(X = x i ) = 1 ∫ _x

_max

x

min

f (x)dx = 1 6.

期待値

(expectation)

と分散

(variance)

E(X ) =

 



∑ n

i=1 Pr(X = x i ) · x i (

離散型

)

∫ _x

_max

x

min

xf(x)dx (連続型)

上の例

E(X ) = 1 · ¹ ₆ + 2 · ¹ ₆ + 3 · ¹ ₆ + 4 · ¹ ₆ + 5 · ¹ ₆ + 6 · ¹ ₆ = 3.5 7.

期待値の公式

X

が確率変数のとき、Y

= a + bX

も確率変数

• E(Y ) = E(a +bX) = ∑ ⁿ

i=1 Pr(X = x _i )· (a +bx _i ) = a ∑ ⁿ

i=1 Pr(X = x _i )+b ∑ ⁿ

i=1 Pr(X = x _i )· x _i = a+b · E(X )

• E(Y ) = E(a + bX) = ∫

(a + bx)f (x)dx = a ∫

f (x)dx + b ∫

xf(x)dx = a + bE(X ) 8.

分散

(variance )

の定義

1

(2)

• V ar(X ) = E[(X − E(X)) ² ] = ∑ ⁿ

i=1 Pr(X = x _i ) · (x _i − E(X )) ² = · · · = E(X ² ) − (E(X )) ²

• V ar(X ) = E[(X − E(X)) ² ] = ∫

(x − E(X)) ² f (x)dx = · · · = ∫

x ² f (x)dx − (E(X )) ²

上の例

V ar(X ) = (1 −3.5) ² · ¹ ₆ + (2 −3.5) ² · ¹ ₆ + (3 − 3.5) ² · ¹ ₆ + (4 − 3.5) ² · ¹ ₆ + (5 − 3.5) ² · ¹ ₆ + (6 − 3.5) ² · ¹ ₆ = 2.9167 9.

標準偏差

(standard deviation)

√ V ar(X )

を標準偏差

(standard deviation)

という上の例：

√

2.9167 = 1.7078 10.

分散の公式

X

が確率変数のとき、Y

= a + bX

も確率変数

V ar(Y ) = V ar(a + bX) = b ² V ar(X)

11.

正規化の例

X

を確率変数とし、その期待値を

µ、分散を σ ² (σ

は標準偏差)とおく。

X

を正規化normalizeした確率変数を

Z

とおくと、

Z = ^X−µ _σ = _σ ¹ X − ^µ _σ

。このとき、E(Z) =

E( ¹ _σ X − ^µ _σ ) = ¹ _σ E(X) − ^µ _σ = 0

V ar(Z ) = V ar( _σ ¹ X − ^µ _σ ) = _σ ¹

2

V ar(X ) = ^σ _σ

²2

= 1

正規化すると、期待値は

0、分散は 1

となる。

12.

離散型確率分布の例

•

二項分布

B(n, p)

確率分布が

p _k = _n C _k p ^k (1 − p) ^n−k

（k

= 0, 1, 2, . . .

）で与えられる確率分布を二項分布(binomial distribution)という。

•

ポアソン分布確率分布が

p(k) = P (X = k) = e ^−λ λ ^k

k! (k = 0, 1, 2, · · · )

で与えられる確率分布をポアソン分布(Poison distribution)という。但し、λはパラメーターとする。

13.

連続型確率分布の例

•

一様分布

Unif (α, β)

•

正規分布

N (µ, σ ² )

X ˜N (µ, σ ² )

のとき、Pr(a < X < b) =

∫ _b

a f (x)dx f (x) = _σ ^√ ¹ _2π e ⁻

¹²

⁽

^x−µ^σ

⁾

²

(−∞ < x < +∞) E(X ) = µ

V ar(X ) = σ ²

•

カイ二乗分布

• F

分布

• t

分布

14.

正規分布の性質

• X ˜N (µ, σ ² )

ならば、

Y = a + bX˜N (a + bµ, b ² σ ² )

2

(3)

• X ˜N (µ, σ ² )

ならば、

Z = ^X−µ _σ ˜N(0, 1)

：標準正規分布

(standard normal distribution)

•

標準正規分布表

15.

二次元の確率分布

(X, Y )

をふたつの確率変数の組とする。

確率変数の組に対して確率を与えるものが結合分布。

実現値の組を

(x i , y i )

とすると、

Pr(X = x i , Y = y j )

で表す。

確率変数が連続型の場合には、確率密度関数

f (x, y)

で表す。

16.

離散型確率分布の場合

X \Y y 1 y 2 · · · y n

計

↓

x ₁ f (x ₁ , y ₁ ) f(x ₁ , y ₂ ) · · · f (x ₁ , y _n ) f ₁ (x ₁ ) x ₂ f (x ₂ , y ₂ ) f(x ₂ , y ₂ ) · · · f (x ₂ , y _n ) f ₁ (x ₂ )

... ... ... ... ... ...

x _m f (x _m , y ₁ ) f (x _m , y ₂ ) · · · f (x _m , y _n ) f ₁ (x _m )

計

→ f ₂ (y ₁ ) f ₂ (y ₂ ) · · · f ₂ (y _n )

• Pr(X = x _i , Y = y _j ) = f (x _i , y _j ) ≥ 0

• Σ _i Σ _j Pr(X = x _i , Y = y _j ) = 1

• E(X + Y ) = Σ i Σ j (x i + y j ) Pr(X = x i , Y = y j )

• E(XY ) = Σ _i Σ _j x _i y _j Pr(X = x _i , Y = y _j )

• (

同時確率分布

)P (X = x i , Y = y j ) = f (x i , y j )

• (周辺確率分布)P(X = x i ) = f 1 (x i ) = Σ ⁿ _j=1 f (x i , y j )

• (周辺確率分布)P(Y = y _j ) = f ₂ (y _j ) = Σ ^m _i=1 f (x _i , y _j )

• (

同時分布関数

)F(x, y) = P (X ≤ x, Y ≤ y) = Σ u≤x Σ v≤Y f (u, v)

• (X

と

Y

の独立性)f

(x _i , y _j ) = f ₁ (x _i )f ₂ (y _j )

• (条件つき確率)P (B|A) = ^P(B∩A) _P _(A)

より、

P(Y = y j |X = x i ) = ^f(x _f

₁

_(x

ⁱ

^,y

_i^j

₎ ⁾ 17.

連続型確率分布の場合

X

、Y は離散型確率変数であり、Xと

Y

の同時確率密度関数

(joint probability density function)

を

f (x, y)

とする。

• f (x, y) ≥ 0

• ∫ _+∞

−∞

∫ _+∞

−∞ f (x, y)dxdy = 1

は確率密度関数の定義から明か。

•

また、確率の計算は

P (a < X < b, c < Y < d) = ∫ _b

a

(∫ _d

c f (x, y)dy ) dx

•

領域が指定されているときには

P ((X, Y ) ∈ A) = ∫

A f (x, y)dxdy

などと書くこともある。

•

同時確率分布関数は

F (x, y) = P (X ≤ x, Y ≤ y) = ∫ _x

−∞

∫ _y

−∞ f (x, y)dydx

である。

3

(4)

•

同時分布関数から同時確率密度関数を求めるには

f (x, y) = _∂x∂y ^∂

²

F(x, y)

を使う。

•

周辺分布関数は

F ₁ (x) = P(X ≤ x) = ∫ _x

−∞

(∫ _+∞

−∞ f (x, v)dv ) dx F ₂ (y) = P (Y ≤ y) = ∫ _y

−∞

(∫ _+∞

−∞ f (u, y)du ) dy

などである。

•

周辺分布関数から周辺確率密度関数を求めるには

f 1 (x) = F ₁ ^′ (x) = ∫ _+∞

−∞ f (x, v)dv f ₂ (y) = F ₂ ^′ (y) = ∫ _+∞

−∞ f (u, y)du]

を使う。

18.

連続型確率変数の独立性

離散型確率変数

X

と

Y

とが独立であるとは、

P (X = x _i , Y = y _j ) = P (X = x _i )P(Y = y _j )

、が成り立つことであった。連続型確率変数の場合の独立性は、同時確率密度関数、周辺確率密度関数を用いて

f (x, y) = f 1 (x)f 2 (y)

と表される。また、同時分布関数、周辺分布関数で表すと

F (x, y) = F ₁ (x)F ₂ (y)

となる。

19.

連続型確率変数の条件つき確率

条件つき確率は

P(B|A) = ^P ^(B∩A) _P(A)

で定義されるが、連続型確率変数の場合、

X

が与えられたときの

Y

の条件つき確率密度関数は

f (y|x) = f (x, y) f ₁ (x)

4

確率変数と確率分布 2018.04.10 •

2018.04.10

•

•

(

)

1.

(random variable)

{

discrete type (飛び飛びの値)

continuous type (連続的な数の集合) 2.

(サイコロを１回振る場合)

(X = x i ) 1 2 3 4 5 6

(Pr(X = x i ) 1 6 1 6 1 6 1 6 1 6 1 6

• Pr(X = x i ) ≥ 0 (確率の値は非負)

• Σ Pr(X = x i ) = 1 (全確率の和は 1) 3.

4.

X

≤ X ≤ b

Pr(a ≤ X ≤ b)

Pr(a ≤ X ≤ b) = ∫ b

a f (x)dx (x min ≤ a ≤ b ≤ x max ) f (x)

(probability density function)

f (x) ≥ 0

∫ x

x

f (x)dx = 1 5.

(

)

Pr(X = x i ) ≥ 0 f (x) ≥ 0

Σ Pr(X = x i ) = 1 ∫ x

x

f (x)dx = 1 6.

(expectation)

(variance)

E(X ) =

 



∑ n

i=1 Pr(X = x i ) · x i (

)

∫ x

x

xf(x)dx (連続型)

E(X ) = 1 · 1 6 + 2 · 1 6 + 3 · 1 6 + 4 · 1 6 + 5 · 1 6 + 6 · 1 6 = 3.5 7.

X

= a + bX

• E(Y ) = E(a +bX) = ∑ n

i=1 Pr(X = x i )· (a +bx i ) = a ∑ n

i=1 Pr(X = x i )+b ∑ n

i=1 Pr(X = x i )· x i = a+b · E(X )

• E(Y ) = E(a + bX) = ∫

(a + bx)f (x)dx = a ∫

f (x)dx + b ∫

xf(x)dx = a + bE(X ) 8.

(variance )

1

• V ar(X ) = E[(X − E(X)) 2 ] = ∑ n

i=1 Pr(X = x i ) · (x i − E(X )) 2 = · · · = E(X 2 ) − (E(X )) 2

• V ar(X ) = E[(X − E(X)) 2 ] = ∫

(x − E(X)) 2 f (x)dx = · · · = ∫

x 2 f (x)dx − (E(X )) 2

V ar(X ) = (1 −3.5) 2 · 1 6 + (2 −3.5) 2 · 1 6 + (3 − 3.5) 2 · 1 6 + (4 − 3.5) 2 · 1 6 + (5 − 3.5) 2 · 1 6 + (6 − 3.5) 2 · 1 6 = 2.9167 9.

(standard deviation)

√ V ar(X )

(standard deviation)

√

2.9167 = 1.7078 10.

X

= a + bX

V ar(Y ) = V ar(a + bX) = b 2 V ar(X)

11.

X

µ、分散を σ 2 (σ

X

Z

Z = X−µ σ = σ 1 X − µ σ

E( 1 σ X − µ σ ) = 1 σ E(X) − µ σ = 0

V ar(Z ) = V ar( σ 1 X − µ σ ) = σ 1

V ar(X ) = σ σ

(Pr(X = x i ) ¹ ₆ ¹ ₆ ¹ ₆ ¹ ₆ ¹ ₆ ¹ ₆

• Σ Pr(X = x _i ) = 1 (全確率の和は 1) 3.

Pr(a ≤ X ≤ b) = ∫ _b

a f (x)dx (x _min ≤ a ≤ b ≤ x _max ) f (x)

∫ _x

Σ Pr(X = x i ) = 1 ∫ _x

∫ _x

E(X ) = 1 · ¹ ₆ + 2 · ¹ ₆ + 3 · ¹ ₆ + 4 · ¹ ₆ + 5 · ¹ ₆ + 6 · ¹ ₆ = 3.5 7.

• E(Y ) = E(a +bX) = ∑ ⁿ

i=1 Pr(X = x _i )· (a +bx _i ) = a ∑ ⁿ

i=1 Pr(X = x _i )+b ∑ ⁿ

i=1 Pr(X = x _i )· x _i = a+b · E(X )

• V ar(X ) = E[(X − E(X)) ² ] = ∑ ⁿ

i=1 Pr(X = x _i ) · (x _i − E(X )) ² = · · · = E(X ² ) − (E(X )) ²

• V ar(X ) = E[(X − E(X)) ² ] = ∫

(x − E(X)) ² f (x)dx = · · · = ∫

x ² f (x)dx − (E(X )) ²

V ar(X ) = (1 −3.5) ² · ¹ ₆ + (2 −3.5) ² · ¹ ₆ + (3 − 3.5) ² · ¹ ₆ + (4 − 3.5) ² · ¹ ₆ + (5 − 3.5) ² · ¹ ₆ + (6 − 3.5) ² · ¹ ₆ = 2.9167 9.

V ar(Y ) = V ar(a + bX) = b ² V ar(X)

µ、分散を σ ² (σ

Z = ^X−µ _σ = _σ ¹ X − ^µ _σ

E( ¹ _σ X − ^µ _σ ) = ¹ _σ E(X) − ^µ _σ = 0

V ar(Z ) = V ar( _σ ¹ X − ^µ _σ ) = _σ ¹

V ar(X ) = ^σ _σ

p _k = _n C _k p ^k (1 − p) ^n−k

p(k) = P (X = k) = e ^−λ λ ^k

N (µ, σ ² )

X ˜N (µ, σ ² )

∫ _b

a f (x)dx f (x) = _σ ^√ ¹ _2π e ⁻

⁽

⁾

V ar(X ) = σ ²

• X ˜N (µ, σ ² )

Y = a + bX˜N (a + bµ, b ² σ ² )

• X ˜N (µ, σ ² )

Z = ^X−µ _σ ˜N(0, 1)

x ₁ f (x ₁ , y ₁ ) f(x ₁ , y ₂ ) · · · f (x ₁ , y _n ) f ₁ (x ₁ ) x ₂ f (x ₂ , y ₂ ) f(x ₂ , y ₂ ) · · · f (x ₂ , y _n ) f ₁ (x ₂ )

x _m f (x _m , y ₁ ) f (x _m , y ₂ ) · · · f (x _m , y _n ) f ₁ (x _m )

→ f ₂ (y ₁ ) f ₂ (y ₂ ) · · · f ₂ (y _n )

• Pr(X = x _i , Y = y _j ) = f (x _i , y _j ) ≥ 0

• Σ _i Σ _j Pr(X = x _i , Y = y _j ) = 1

• E(XY ) = Σ _i Σ _j x _i y _j Pr(X = x _i , Y = y _j )

• (周辺確率分布)P(X = x i ) = f 1 (x i ) = Σ ⁿ _j=1 f (x i , y j )

• (周辺確率分布)P(Y = y _j ) = f ₂ (y _j ) = Σ ^m _i=1 f (x _i , y _j )

(x _i , y _j ) = f ₁ (x _i )f ₂ (y _j )

• (条件つき確率)P (B|A) = ^P(B∩A) _P _(A)

P(Y = y j |X = x i ) = ^f(x _f

_(x

^,y

₎ ⁾ 17.

• ∫ _+∞