資料置き場 hustat2017 20171027

(1)

統計学（第５週）：確率変数

高木真吾

北海道大学

http://sites.google.com/site/hustat2017/

October 27, 2017

(2)

２変数確率変数

例示

確率変数に関する条件付き確率

２変数確率変数の特性値

確率変数間の独立性まとめ

解答編

(3)

導入例：取り出される球のうち，赤と青の数

■ 例）壺の中に７個のボールが入っている

◆ 内訳：赤２球，青３球，白２球

■ 無作為に３個同時にとりだすとき，赤球の数を _X，青球の数を _Y

◆ ^{必然的に白球の数は} _{3 − X − Y}

■ ^{このとき，}

◆ _X ^{の取りうる値：} _{{0, 1, 2}}

◆ _Y ^{の取りうる値：} {0, 1, 2, 3}

■ その実現パターンは表の通り

(4)

導入例：取り出される球のうち，赤と青の数

Table 1: ^{２変数の確率分布表：} Pr[X = x, Y = y]

X / Y 0 1 2 3 _{Pr[X = •]}

2 2/35 3/35 0 0 5/35

1 2/35 12/35 6/35 0 20/35

0 0 3/35 6/35 1/35 10/35

Pr[Y = •] ^4/35 ^18/35 ^12/35 ^1/35 ¹

(5)

導入例：取り出される球のうち，赤と青の数

■ ^{同時確率分布（表）}^{：二つの確率変数} _X^，_Y がどのように実現するか上の表．

■ ^{周辺確率分布（表）}：他方の出方とは関係なく，一方の確率変数がどのよ

うな実現の仕方をするか

◆ _Y ^に注目：_X ^{の出方を無視し，}_{Pr[Y = 0]} ^は 0 + 2/35 + 2/35 = 4/35 と求められる．これらは表の下段．

◆ _X についても，表の左欄にまとめられている．

◆ ^{一般に，起きうる値が} _X^：_{x_i_}ⁿ_i=1^，_Y ^：_{y_j_}^m_j=1 ^{のとき，同時確率が} Pr[X = xi, Y = yj] などと与えられるとき，それぞれの周辺確率は Pr[X = xi] =

Xm j=1

Pr[X = xi, Y = yj], Pr[Y = yj] =

Xn i=1

Pr[X = xi, Y = yj]

(6)

導入例：取り出される球のうち，赤と青の数

Table 2: X ^{の周辺確率分布：} Pr[X = x]

X 0 1 2

Pr[X = •] ^5/35 ^20/35 ^10/35

Table 3: Y ^{の周辺確率分布：} Pr[Y = y]

Y 0 1 2 3

Pr[Y = •] ^4/35 ^18/35 ^12/35 ^1/35

(7)

確率変数に関する条件付き確率

■ ^{起きうる値が} _X^：_{x_i_}ⁿ_i=1^，_Y ^：_{y_j_}^m_j=1 ^{のとき，同時確率が}

Pr[X = xi, Y = yj] などと与えられているとする．

■ ^{二つの事象} _A^，_B ^{について，事象} _A が与えられた下での，事象 _B の条件付き確率

Pr[B|A] = ^{Pr[A ∩ B]} Pr[A]

■ ^事象 _A^：_X ^が _x_i ^{となる事象，}_B^：_Y ^が _y_j ^{となる事象，}_X ^が _x_i ^であるという条件の下で，_Y が _y_j となるという条件付き確率：

Pr[Y = yj_{|X = x}i] = ^{Pr[X = x}ⁱ^{, Y = y}^j^]

Pr[X = x_i] ⁽¹⁾

(8)

確率変数に関する条件付き確率

■ ^事象 _A^：_X ^が _x_i ^{となる事象，}_B^：_Y ^が _y_j ^{となる事象，}_X ^が _x_i ^であるという条件の下で，_Y が _y_j となるという条件付き確率：

Pr[Y = yj_{|X = x}i] = ^{Pr[X = x}ⁱ^{, Y = y}^j^] Pr[X = xi]

■ ^{乗法公式：}

Pr[X = x_i, Y = y_j] = Pr[Y = y_j_{|X = x}_i] × Pr[X = xⁱ^]

= Pr[X = x_i_{|Y = y}_j] × Pr[Y = yⁱ^]

(9)

条件付き期待値： E _{[Y |X]} （ _X が与えられた下での _Y の条

件付き期待値）

■ _X ^{がある特定の値} _x_i を取るという条件の下での条件付き期待値は，条件付き確率を用いて，

E_{[Y |X = x}_i_{] =}

Xm j=1

y_j _{· Pr[Y = y}_j_{|X = x}_i] (2)

と定期議され，E_{[Y |X = x}_i_] は _x_i という水準に依存している．

■ ^{（発展）一般に，}^E_{[Y |X]} ^は（_Y については和を取ることで消しているので）確率変数 _X の水準に依存する関数であり，それ自身が確率変数．

■ ^（発展） ^確率変数 ^E_{[Y |X]} ^{の確率分布は，}_X ^が _{x₁_{, x}₂, . . . , x_n_} ^の値を取りうることを考えて，

E_{[Y |X]} E_{[Y |X = x}₁_] E_{[Y |X = x}₂_] _{· · ·} E_{[Y |X = x}_n_]

(X) (x₁) (x₂) _{· · ·} (xn)

確率 _{Pr[X = x}₁_] _{Pr[X = x}₂_] _{· · ·} _{Pr[X = x}_n_]

(10)

条件付分布と条件付期待値

■ 練習問題１：下の地震に関するマグニチュード _X と最大震度 _Y の同時分布表を用いて，震度が４と知らされた場合のマグニチュードについての条件付分布と条件付期待値，およびマグニチュードが８と知らされた場合の震度に関する条件付分布と条件付期待値を求めてください．

Table 4: ^{マグニチュード} X ^{と最大震度} Y ^{の同時分布表}

X/Y 3 4 5 6 7 total

6 0.125 0.200 0.175 0.500

7 0.050 0.200 0.100 0.350

8 0.075 0.050 0.025 0.150

total 0.125 0.250 0.450 0.150 0.025 1.000

(11)

条件付分布および条件付期待値に関する計算例

■ ^震度５ _{(Y = 5)} と知らされた場合のマグニチュード _(X) に関する条件付

分布と条件付期待マグニチュード

◆ ^{条件付分布表の作成}

Table 5: ^{マグニチュード} X の条件付分布表（最大震度 _{Y = 5} ）

X 6 7 8 total

Pr[X = •|Y = 5] ^7/18 ^8/18 ^3/18 ¹

Pr[ X = 6 | Y = 5 ] = Pr[X = 6, Y = 5] Pr[Y = 5] ⁼

0.175 0.450 ⁼

7 18 Pr[ X = 7 | Y = 5 ] = ^0.200

0.450, Pr[ X = 8 | Y = 5 ] = ^0.075 0.450

(12)

条件付分布および条件付期待値に関する計算例

■ ^震度５ _{(Y = 5)} と知らされた場合のマグニチュード _(X) に関する条件付

分布と条件付期待マグニチュード

◆ ^{条件付期待値の計算} E[X | Y = 5] =

X8 x=6

x×Pr[X = x | Y = 5] = 6· ⁷

18^+7· 8

18^+8· 3 18 ⁼

122 18 つまり，最大震度が５であるとき，およそ起きうるマグニチュードの中心（条件付平均）は _6.8 程度と考えられる．

(13)

条件付分布および条件付期待値に関する計算例

■ ^{マグニチュード７} _{(X = 7)} と知らされた場合の最大震度 _{(Y )} に関する条件付分布と条件付期待最大震度

◆ ^{条件付分布表の作成}

Table 6: ^最大震度 Y の条件付分布表（マグニチュード _{X = 7} ）

Y 3 4 5 6 7 total

Pr[Y = •|X = 7] ⁰ ^1/7 ^4/7 ^2/7 ⁰ ¹

Pr[ Y = 4 | X = 7 ] = Pr[X = 7, Y = 4] Pr[X = 7] ⁼

0.050 0.350 ⁼

1 7 Pr[ Y = 5 | X = 7 ] = ^0.200

0.350, Pr[ Y = 6 | X = 7 ] = ^0.100 0.350

(14)

条件付分布および条件付期待値に関する計算例

■ ^{マグニチュード７} _{(X = 7)} と知らされた場合の最大震度 _{(Y )} に関する条件付分布と条件付期待最大震度

■ ^{条件付期待値の計算}

E[Y | X = 7] =

X7 y=3

y×Pr[Y = y | X = 7] = 3·⁰

7^+4· 1

7^+5· 4

7^+6· 2

7^+7· 0 7 ⁼

36 7 つまり，マグニチュードが ₇ であるとき，およそ起きうる最大震度の中心

（条件付平均）は _5.1 程度と考えられる．

(15)

２変数確率変数の特性値

２変数確率変数２変数確率変数の特性値

２変数確率変数の平均・分散など

確認

確認問題：平均・分散・標準偏差

相関と共分散

共分散・相関係数の性質

確認問題：相関と共分散

解答編

(16)

２変数確率変数の平均・分散など

■ ^性質１ _X^，_Y それぞれの平均・分散は周辺確率のみから求めることができる

■ ^性質２ ^{分散について，}

V[X] = E[(X − E[X])²^{] = E[X}²] − {E[X]}²

■ ^性質３二つの確率変数の和について，

E_{[X + Y ]} ₌ E[X] + E[Y ]

E[a + b · X + c · Y ] = a + b · E[X] + c · E[Y ]

■ ^性質４ ^E[XY ] = E[X · E[Y |X]]（この性質については今のところ理解しなくても良い）

(17)

２変数確率変数の平均・分散など

■ ^性質４ ^E[XY ] = E[X · E[Y |X]]

◆ ^ただし，^E_{[Y |X]} ^は，_X ^{が与えられた下での} _Y ^{の条件付き期待値と呼}

ばれ，

E_{[Y |X = x}_i_{] =}

Xm j=1

y_j _{· Pr[Y = y}_j_{|X = x}_i] (3)

であり，

E[X · E[Y |X]] =

Xn i=1

{ xⁱ · E[Y |X = xⁱ] } · Pr[X = xⁱ^] ⁽⁴⁾

と定義される．

(18)

２変数確率変数の期待値演算

■ ^確認１− ^１：^E_[X] ^{を求める．}

◆ ^{起きうる値が} _X^：_{x_i_}ⁿ_i=1^，_Y ^：_{y_j_}^m_j=1 ^{のとき，同時確率が} Pr[X = xi, Y = yj] などと与えられているとする．

◆ ^{期待値（平均）は，}^{『起きうる値} _× ^{その確率』なので} E_[X] ₌

Xn i=1

Xm j=1

xi _{· Pr[X = x}i, Y = yj]

=

Xn i=1

xi _·



 Xm j=1

Pr[X = xi, Y = yj]





=

Xn i=1

x_i _{· Pr[X = x}_i]

(19)

２変数確率変数の期待値演算

■ ^確認１− ^２：分散 ^V_[X] ^{を求める．}

◆ 分散は，散らばりの尺度で，「平均からの乖離の二乗」についての平均

V_[X] ₌ E[(X − E[X])²^]

=

Xn i=1

Xm j=1

(x_i _{− E[X])}² _{· Pr[X = x}_i, Y = y_j]

=

Xn i=1

(xi _{− E[X])}² _·



 Xm j=1

Pr[X = xi, Y = yj]





=

Xn i=1

(x_i _{− E[X])}² _{· Pr[X = x}_i]

(20)

２変数確率変数の期待値演算

■ ^確認２：

V[X] = E[(X −E[X])²^{] = E[X}²−2X·E[X]+{E[X]}²^{] = E[X}²]−2{E[X]}²

■ ^確認３：^E_{[X + Y ]} ^{を求める．}

◆ ^{期待値（平均）は，}^{『起きうる値} _× ^{その確率』なので}

E_{[X + Y ]} ₌

Xn i=1

Xm j=1

(xi + yj) · Pr[X = xⁱ^{, Y = y}^j^]

=

Xn i=1

Xm j=1

x_i _{· Pr[X = x}_i, Y = y_j]

+ Xn

i=1

Xm j=1

yj _{· Pr[X = x}i, Y = yj]

(21)

２変数確率変数の期待値演算

■ ^確認３：^E_{[X + Y ]} ^{を求める．}

E_{[X + Y ]} ₌

Xn i=1

Xm j=1

xi _{· Pr[X = x}i, Y = yj]

+ Xn

i=1

Xm j=1

y_j _{· Pr[X = x}_i, Y = y_j]

=

Xn i=1

xi _·



 Xm j=1

Pr[X = xi, Y = yj]





+ Xm j=1

y_j _·

Xn i=1

Pr[X = x_i, Y = y_j]

!

=

Xn i=1

x_i _{· Pr[X = x}_i] + Xm j=1

y_j _{· Pr[Y = y}_j] = E[X] + E[Y ]

(22)

２変数確率変数の期待値演算

■ ^確認４：^E[XY ] = E[X · E[Y |X]] ^{を求める．}

◆ ^{期待値（平均）は，}^{『起きうる値} _× ^{その確率』なので}

E_{[XY ]} ₌

Xn i=1

Xm j=1

(x_i _{· y}_j) · Pr[X = xⁱ^{, Y = y}^j^]

=

Xn i=1

Xm j=1

(xi _{· y}j) · Pr[Y = y^j|X = xⁱ] · Pr[X = xⁱ^]

=

Xn i=1

x_i _·



 Xm j=1

y_j _{· Pr[Y = y}_j_{|X = x}_i]



 _{· Pr[X = x}_i_]

=

Xn i=1

xi · E[Y |X = xⁱ] · Pr[X = xⁱ] = E[X · E[Y |X]]

(23)

確認問題：平均・分散・標準偏差

■ _Table ₁ を用いて以下の問いに答えてください．

◆ ^確率変数 _X^，_Y それぞれの平均と分散・標準偏差を求めてください．

◆ ^E[6 · X + 10 · Y ] ^{を求めてください．}

◆ ^E_{[XY ]} ^{を求めてください}

(24)

確認問題：平均・分散・標準偏差

■ ^解答

◆ ^E_{[X] = 6/7}^，^E_{[Y ] = 9/7} E_[X] ₌ _{0 ·} ¹⁰

35 ^{+ 1 ·} 20

35 ^{+ 2 ·} 5 35 ⁼

30 35 E_{[Y ]} ₌ _{0 ·} ⁴

35 ^{+ 1 ·} 18

35 ^{+ 2 ·} 12

35 ^{+ 3 ·} 1 35 ⁼

45 35

(25)

確認問題：平均・分散・標準偏差

■ ^解答

◆ ^V[X] = 20/49^，^V[Y ] = 24/49^． E_[X²_] ₌ ₀² _· ¹⁰

35 ^{+ 1}

2 · ²⁰

35 ^{+ 2}

2 · ⁵ 35 ⁼

40 35 E_[Y ²_] ₌ ₀² _· ⁴

35 ^{+ 1}

2 · ¹⁸

35 ^{+ 2}

2 · ¹²

35 ^{+ 3}

2 · ¹ 35 ⁼

75 35 V_[X] ₌ ⁴⁰

35 ⁻ 30 35 ^·

30 35 ⁼

500 1225 ⁼

20 49 V_{[Y ]} ₌ ⁷⁵

35 ⁻ 45 35 ^·

45 35 ⁼

600 1225 ⁼

24 49

(26)

確認問題：平均・分散・標準偏差

■ ^解答

◆ ^E[6 · X + 10 · Y ] ^{を求めてください．}⁽^答え：¹⁸⁾

E[6X + 10Y ] = 6 · E[X] + 10 · E[Y ] = 6 · 30 + 10 · 45

35 ^{= 18}

(27)

確認問題：平均・分散・標準偏差

■ ^解答

◆ ^E_{[XY ]} ^{を求めてください．}₍^答え：_30/35)

E_{[XY ]} ₌ _{(2)(0) ·} ²

35 ⁺ ^{(2)(1) ·} 3

35 ^{+ (2)(2) ·} 0

35 ^{+ (2)(3) ·} 0 35 + _{(1)(0) ·} ²

35 ⁺ ^{(1)(1) ·} 12

35 ⁺ ^{(1)(2) ·} 6

35 ^{+ (1)(3) ·} 0 35 + _{(0)(0) ·} ⁰

35 ^{+ (0)(1) ·} 3

35 ^{+ (0)(2) ·} 6

35 ^{+ (0)(3) ·} 1 35

= _{(1)(1) ·} ¹²

35 ^{+ (1)(2) ·} 6

35 ^{+ (2)(1) ·} 3 35

= ¹² 35 ⁺

12 35 ⁺

6 35 ⁼

30 35

(28)

相関と共分散

■ ^{１変数確率変数の特性}

◆ （起こりやすさの）中心を示す尺度：平均 E_[X]

◆ 中心からの散らばり具合を示す尺度：分散 V[X] = E[(X − E[X])]²

（標準偏差 _σ_X ₌

pV_[X]）

■ ^{２変数確率変数の関係}

◆ ^共分散 _σ_XY = cov(X, Y ) = E[ (X − E[X])(Y − E[Y ]) ]

符号それぞれの確率変数の起きやすさの中心 (E[X], E[Y ]) ^{から見て，}

(X − E[X], Y − E[Y ]) が同符号（異符号）の方向で実現しやすい

とき，共分散は正の値（負の値）をとる．

程度また中心から遠い点が実現する確率が高いほど共分散は大きくなる．

(29)

相関と共分散

■ ^{１変数確率変数の特性}

◆ （起こりやすさの）中心を示す尺度：平均 E_[X]

◆ 中心からの散らばり具合を示す尺度：分散 V[X] = E[(X − E[X])]²

（標準偏差 _σ_X ₌

pV_[X]）

■ ^{２変数確率変数の関係}

◆ ^相関係数 corr(X, Y ) = σ_XY /(σ_Xσ_Y )

■ ^{相関係数は} ₋₁ ^から ₁ ^{の間の値をとる．}

■ ₋₁ に近いほど (X − E[X], Y − E[Y ]) が互いに異符号で，負の傾きをもつ直線関係に近い．

■ ₁ に近いほど (X − E[X], Y − E[Y ]) が互いに同符号で，正の傾きをもつ直線関係に近い．

■ ₀ ^{に近いほど} (X − E[X], Y − E[Y ]) に直線関係がみられない．

(30)

共分散・相関係数の性質

■ ^性質５ ^共分散 ^E[ (X − E[X])(Y − E[Y ]) ] = E[XY ] − E[X]E[Y ]

■ ^性質６ ^V[X + Y ] = V[X] + V[Y ] + 2cov(X, Y ) ^{証明は下段}¹^．

1

分散の定義に従って，

V_{[X + Y ]} ₌ E[{(X + Y ) − E[X + Y ]}²]

= ^E[{(X − E[X]) + (Y − E[Y ])}²]

= ^E[(X − E[X])²] + E[(Y − E[Y ])²] + 2 · E[(X − E[X])(Y − E[Y ])]

= ^V[X] + V[Y ] + 2cov(X, Y )

(31)

確認問題：相関と共分散

Table 7: ^{相関係数が０}

X/Y -2 -1 0 1 2 _{Pr[X = •]}

2 .025 .025 .050

1 .050 .100 .050 .200

0 .150 .200 .150 .500

-1 .050 .100 .050 .200

-2 .025 .025 .050

Pr[Y = •] ^.000 ^.300 ^.400 ^.300 ^.000

(32)

図解：実現点と生じやすさ

-3 -2 -1 0 1 2 3

-3-2-10123

相関係数が０のケース

確率変数 X

(33)

確認問題：相関と共分散

■ ^E[X] = E[Y ] = 0,

E[X] = (−2) · 0.05 + (−1) · 0.2 + (0) · 0.5 + (1) · 0.2 + (2) · 0.05 = 0

■ ^V[X] = 0.8, V[Y ] = 0.6

V_[X] ₌ E_[X²_{] − {E[X]}}²

= ₍₋₂₎² · 0.05 + (−1)² · 0.2 + (0)² · 0.5 +(1)² · 0.2 + (2)² · 0.05 − 0²

= 0.8

(34)

確認問題：相関と共分散

■ ^E_{[XY ] = 0}^（_{Y = ±2} になる確率は０なので最初から除外して計算する）

E_{[XY ]}

= (2)(−1) · 0.025 + (2)(0) · 0.000 + (2)(1) · 0.025 + (1)(−1) · 0.050 + (1)(0) · 0.100 + (1)(1) · 0.050 + (0)(−1) · 0.150 + (0)(0) · 0.200 + (0)(1) · 0.150

+ (−1)(−1) · 0.050 + (−1)(0) · 0.100 + (−1)(1) · 0.050 + (−2)(−1) · 0.025 + (−2)(0) · 0.000 + (−2)(1) · 0.025

= 0

■ cov(X, Y ) = E[XY ] − E[X] · E[Y ] = 0 − 0 · 0 = 0

■ corr(X, Y ) = cov(X, Y )/^p^V[X] · V[Y ] = 0

(35)

図解：共分散と相関係数

Figure 1: ^{相関係数は０}

-3 -2 -1 0 1 2 3

-3-2-10123

相関係数が０のケース

確率変数 Y

確率変数 X

■ ^{相関係数は０}

■ ^{しかしながら} _X ^と _Y ^は『無関係』には見えない

■ 相関係数は線形関係の強さを示す尺度

(36)

確認問題：相関と共分散

Table 8: 負の相関係数：共分散小

X/Y -2 -1 0 1 2 _{Pr[X = •]}

2 .05 .05

1 .10 .10 .20

0 .15 .20 .15 .50

-1 .10 .10 .20

-2 .05 .05

Pr[Y = •] ^.00 ^.30 ^.40 ^.30 ^.00

(37)

図解：実現点と生じやすさ

-3 -2 -1 0 1 2 3

-3-2-10123

相関係数が負値：共分散は小

確率変数 Y

確率変数 X

(38)

図解：共分散と相関係数

Figure 2: ^{相関係数は負}

-3 -2 -1 0 1 2 3

-3-2-10123

確率変数 Y

確率変数 X

■ ^E[X] = E[Y ] = 0,

■ ^V[Y ] = 0.6,

■ ^V_{[X] = 0.8,}

■ ^E[XY ] = −0.40

■ cov(X, Y ) = −0.40^， corr(X, Y ) ≈ −0.577

◆ _X に大きな正値が実現なら，同時に起きる _Y は負値となる傾向

(39)

確認問題：相関と共分散

Table 9: 負の相関係数：共分散大

X/Y -2 -1 0 1 2 _{Pr[X = •]}

2 .05 .05

1 .02 .08 .10 .20

0 .15 .20 .15 .50

-1 .10 .08 .02 .20

-2 .05 .05

Pr[Y = •] ^.07 ^.23 ^.40 ^.23 ^.07

(40)

図解：実現点と生じやすさ

-3 -2 -1 0 1 2 3

-3-2-10123

相関係数が負値：共分散は大

確率変数 X

(41)

図解：共分散と相関係数

Figure 3: ^{相関係数は負}

-3 -2 -1 0 1 2 3

-3-2-10123

確率変数 Y

確率変数 X

■ ^E[X] = E[Y ] = 0,

■ ^V[Y ] =?, V[X] =?, E[XY ] =?

■ cov(X, Y ) =?, corr(X, Y ) ≈?

◆ _X に大きな正値が実現なら，同時に起きる _Y は負値となる傾向

◆ 先の例に比べて，中心（平均）からの乖離が大きいところでも実現する可能性

(42)

図解：共分散と相関係数

Figure 4: ^{相関係数は負} ^： ^{共分散は小}

-3 -2 -1 0 1 2 3

-3-2-10123

確率変数 Y

確率変数 X

Figure 5: ^{相関係数は負} ^： ^{共分散は大}

-3 -2 -1 0 1 2 3

-3-2-10123

確率変数 Y

確率変数 X

(43)

確率変数間の独立性

確率変数間の独立性確率変数同士の独立性

独立と相関独立と相関まとめ解答編

(44)

確率変数同士の独立性

■ ^確率変数 _X ^と _Y が独立：互いの実現の仕方が無関係

◆ _X ^が _x_i ^{となる事象と，}_Y ^が _y_j となる事象が独立であるということを用いて定義する．

■ ^{定義１：任意の} _(x_i_{, y}_j₎ ^{に対して，}

Pr[Y = y_j_{|X = x}_i] = Pr[Y = y_j]

■ ^{定義２：任意の} _(x_i_{, y}_j₎ ^{に対して，}

Pr[Y = yj, X = xi] = Pr[X = xi] · Pr[Y = y^j^]

(45)

Table 7 の場合

■ ^{定義１：任意の}

_(x

_i

_{, y}

_j

₎ ^{に対して，} _{Pr[Y = y}

_j

_{|X = x}

_i

] = Pr[Y = y

_j

]

Pr[Y = 0|X = 0] = Pr[Y = 0, X = 0]

Pr[X = 0] ⁼

0.2 0.5 ^{= 0.4}

Pr[Y = 0] = 0.4

Pr[Y = 1|X = −2] = Pr[Y = 1, X = −2]

Pr[X = −2] ⁼

0.025 0.05 ^{= 0.5}

Pr[Y = 1] = 0.3

◆

任意の点について条件付き確率と周辺確率が等しいとは言え

ない

(46)

Table 7 の場合

■ ^{定義２：任意の}

_(x

_i

_{, y}

_j

₎ ^{に対して，}

Pr[Y = y

j

, X = x

i

] = Pr[X = x

i

] · Pr[Y = y

^j

^]

Pr[Y = 0, X = 0] = 0.2

Pr[X = 0] = 0.5, Pr[Y = 0] = 0.4

Pr[Y = 1, X = −2] = 0.025

Pr[X = −2] = 0.05, Pr[Y = 1] = 0.3

◆

任意の点について「同時確率」と「周辺確率同士の積」が等し

いとは言えない

◆

^同様に _Table ₈ ^でも _X ^と _Y は独立でないことを示すことがで

きる．

(47)

確率変数同士の独立性

◆ ^性質７ _X ^と _Y ^{が独立であるとき，}^E[Y |X] = E[Y ]

■ 確認：_{Pr[Y = y}_j_{|X = x}_i] = Pr[Y = yj] ^{なので，どの} xi ^に対し

ても，

E_{[Y |X = x}_i_] ₌

Xm j=1

yj _{· Pr[Y = y}j_{|X = x}i]

=

Xm j=1

yj _{· Pr[Y = y}j]

= ^E[Y ]

(48)

確率変数同士の独立性

◆ ^性質８ _X ^と _Y ^{が独立であるとき，}^E[XY ] = E[X] · E[Y ]

■ 性質７：E[Y |X] = E[Y ] ^{を用いて，}

E[XY ] = E[X · E[Y |X]] = E[X · E[Y ]] = E[X] · E[Y ]

ただし，最後の等号は，E_{[Y ]} は確率変数ではない普通の数字であることを利用した．

(49)

独立と相関

■ ^確率変数 _X^，_Y ^{が独立であるとき，}

■ ^性質９共分散は０，相関係数も０（cov(X, Y ) = corr(X, Y ) = 0^）

■ ^確認

◆ ^{独立であるとき，}^E[XY ] = E[X] · E[Y ] ^{なので性質５より} cov(X, Y ) = E[XY ] − E[X] · E[Y ] = 0

(50)

独立と相関

■ ^確率変数 _X^，_Y ^{が独立であるとき，}

■ ^性質 ₁₀ ^V[a + b · X + c · Y ] = b² · V[X] + c² · V[Y ]

◆ ^一般に ^V[a + b · X + c · Y ] は以下のように共分散を用いて表現できる

V[a + b · X + c · Y ]

= E[{(a + b · X + c · Y ) − E[a + b · X + c · Y ]}²^]

= E[{b · (X − E[X]) + c · (Y − E[Y ])}²^]

= b² · E[(X − E[X])²^{] + c}² · E[(Y − E[Y ])²^] +2bc · E[(X − E[X])(Y − E[Y ])]

= b² _{· V[X] + c}² · V[Y ] + 2bc · cov(X, Y ) 性質９より，共分散が０なので性質 ₁₀ も成り立つ．

(51)

まとめ

まとめ（非常に重要）演習問題

演習問題演習問題演習問題演習問題解答編

(52)

まとめ（非常に重要）

二つの確率変数 _X₁_{, X}₂ を用いて，_{Y = β}₀ _{+ β}₁ _{· X}₁ _{+ β}₂ _{· X}₂ とする．

■ ^平均

E_{[Y ] = β}₀ _{+ β}₁ _{· E[X}₁_{] + β}₂ _{· E[X}₂_]

■ ^分散

V_{[Y ] = β}²

1 · V[X¹^{] + β}2² · V[X²^{] + 2β}¹^β² · cov(X¹^{, X}²⁾

■ ^{二つの確率変数} _X₁_{, X}₂ ^{が独立であるとき，}

V_{[Y ] = β}²

1 · V[X¹^{] + β}2² · V[X²^]

(53)

まとめ（非常に重要）

ｎ個の確率変数 _{X₁_{, X}₂, . . . , Xn_} ^{を用いて，以下の} Y ^{を定める．} Y = β₀ +

Xn i=1

βi _{· X}i

■ ^平均

E_{[Y ] = β}₀ ₊ Xn

i=1

βi _{· E[X}i]

■ ^分散

V_{[Y ] =}

Xn i=1

β_i² _{· V[X}_i] + 2

n−1X

i=1

Xn j=i+1

β_iβ_j _{· cov(X}_i, X_j)

■ ^{ｎ個の確率変数} _X₁_{, X}₂, . . . , X_n が互いに独立であるとき， V_{[Y ] =}

Xn i=1

β_i²^V[X_i]

(54)

まとめ（非常に重要）

■ 以上の結果はすべて離散型確率変数について説明してきた

■ 連続型確率変数についても性質１∼ １０が同様に成り立つ

◆ ただし，説明には同時密度関数に関する多重積分を利用する必要がありここでは省略する

◆ 参考図書か講義用ウェブサイト掲載資料を参照

(55)

演習問題

1. ある製品の年間故障発生率は ₂₅ ％とする．故障時給付額が ₄（万円）であるとすると，保険会社の給付額を _X として確率分布を求めてください．また公平な保険料（保険会社の利益は０）はいくらか．

2. 毎年，故障しなければ給付額０だが，初めて故障したとき給付される保険を考える（年間故障発生率は ₂₅ ％）．給付額は，１年目に故障すれば， 4/3⁰ = 4^（万円），二年目に初めて故障すれば ₄²_/3¹ _{≈ 5.3}（万円），．．．_k 年後に故障すれば ₄^k_/3^k−1（万円）となる．故障率は毎年一定で劣化はないものとし，故障しない限り永遠に使い続けられるものとする．

◆ ₄ ^{年目で終了する（}₄ 年目までに故障しなければそのまま給付なしで終了）の保険を考えたとき，保険料が ₄ 万円なら加入することが合理的か否かについて考えを述べてください．

◆ 故障するまで永遠に続く契約を考えるとき，この保険の公平な保険料

（加入時一括払い）はいくらと設定できるか．またあなたはその保険に加入したいか否かについても考えを述べてください．

(56)

演習問題

3. 一様分布，および指数分布に従う確率変数について，累積分布関数をそれぞれ求めてください．またそれぞれの確率変数の平均と分散を求めてください．

4. 離散型確率変数について以下の関係が成り立つことを示してください E[α + βX] = α + βE[X], V[α + βX] = β²^V[X]

Table 1 のような一般的な離散型確率分布にしたがう確率分布について示

してください

(57)

演習問題

5. Table 10 ^{を用いて，確率変数} X ^{の平均・分散を} µ_X^・σ_X² ^{，確率変数} Y ^についても _µ_Y ・_σ²

Y ^{とし，相関係数を} ^ρ^XY ^とする．

◆ _Z_X _{= (X − µ}_X_)/σ_X ^{とするとき，}^E_[Z_X_{] = 0} ^と ^V_[Z_X_{] = 1} ^となることを示してください．

◆ _Y ^{についても，}_Z_Y _{= (Y − µ}_Y _)/σ_Y ^{とするとき，} cov(Z_X, Z_Y ) = corr(Z_X, Z_Y ) = ρ_XY

ただし，_{cov(X, Y )} は _Z_X と _Z_Y の共分散，corr(X, Y ) ^は ZX ^と ZY

の相関係数を表す．

◆ _z_X,i _{= (x}_i _{− µ}_X_)/σ_X_{, z}_Y,j _{= (y}_j _{− µ}_Y _)/σ_Y ^{とするとき，}

2zX,izY,i _{≤ z}_X,i² + z_Y,i² ^および _−2zX,izY,i _{≤ z}_X,i² + z_Y,i² ^{がともに成り} 立つことを用いて，相関係数が絶対値にして１以下であること

（_|ρ_XY _{| ≤ 1}）を示してください．

◆ ^{相関係数が} ₁ ^または_-1 になるのはどのような条件が満たされる場合であるかを指摘してください．

(58)

演習問題

6. Table 11 ^{を用いて，確率変数} X,Y ^{が独立であるとき，}α, β, γ ^{が満たす条} 件を求めてください．

X/Y 2 4 6 _{Pr[X = •]}

2 α β γ

1 β γ α

0 γ α γ

Pr[Y = •]

Table 10: ^確率変数 X ^， Y ^の

同時分布表

X/Y y₁ y₂ _{· · ·} yj _{· · ·} y x₁ p₁₁ p₁₂ _{· · ·} p_1j _{· · ·} p x₂ p₂₁ p₂₂ _{· · ·} p_2j _{· · ·} p

... ^... ^... ^{. ..} ^... _{· · ·}

xi p_i1 p_i2 _{· · ·} pij _{· · ·} p ... ^... ^... ^{. ..} ^... _{· · ·}

xI p_I1 p_I2 _{· · ·} pIj _{· · ·} p

Table 11: ^確率変数 X ^， Y ^の同時

分布表

(59)

演習問題

7. 同時刻の二つの番組の視聴率を確率変数として表現するとき，その同時密度が次のように与えられたとする．二つの番組の視聴率は独立といえるか．

f (x, y) = 120 · xy(1 − x − y) (0 ≤ x ≤ 1, 0 ≤ y ≤ 1, x + y ≤ 1) ただし上記以外の点での密度の高さは０とする．

8. 75^ページの Table 15 を用いて，練習問題１に回答してください．

9. Table ?? ^{を用いて，確率変数} X,Y それぞれの平均・分散，および共分散・

相関係数を求めてください．さらに _X と _Y が独立であるか否かを示してください．

(60)

解答編

問題１問題２

問題３（第４週の宿題と同じ）

問題４問題５

問題６問題７

(61)

問題１

■ ^給付額を _X とすると，その確率分布は，

X 0 4

確率 _3/4 _1/4

■ このとき，期待給付額は E[X] = 0 · (3/4) + 4 · (1/4) = 1^{（万円）なので問} 題の意味で公平な保険金は１万円となる．

(62)

問題２

■ 初めて故障するまでかかる年数 _Y に関する確率分布は以下の通り

Y 1 2 3 4 _{· · ·} n

確率 _p _{p(1 − p)} _{p(1 − p)}² _{p(1 − p)}³ _{· · ·} _{p(1 − p)}ⁿ⁻¹ 給付金 _1/p _{1/p(1 − p)} _{1/p(1 − p)}² _{1/p(1 − p)}³ _{· · ·} _{1/p(1 − p)}ⁿ⁻

■ ^{本文の例では} _{p = 1/4} ^{に相当する．}

■ ₄ ^{年までの場合，}

Y 1 2 3 4

確率 _.2500 _.1875 _.1406 _.1055 4 5.3333 7.1111 9.4815

(63)

■ ^{うまくいけば（}₄ ^{年目に故障すれば）}₁₀ 万円近くもらえるが，期待給付金は

E_{[Y ] =} ¹

p^·p+

1

p(1 − p)^·p(1−p)+

1

p(1 − p)² ^·p(1−p)

2₊ ¹

p(1 − p)³^·p(1−p)

3 _{= 4}

3 ^{割以上の確率で給付} 0 であり，掛け金が４万円なら「公平な保険」かもしれないし，危険回避的な人なら喜んで購入する可能性も高い

■ 永続的に続く保証であるとき，期待給付額は E_{[Y ] =} ¹

p^·p+

1

p(1 − p)^·p(1−p)+

1

p(1 − p)²^·p(1−p)

2+· · ·+ ¹

p(1 − p)^k^·p(1−p)

3+· · · →

つまり公平な保険料を支払うには莫大な金額を支払わなければならない．

(64)

問題３（第４週の宿題と同じ）

■ ^一様分布_: ^{累積分布関数は，}

F (x) = Pr[X ≤ x] =

Z x a

1

b − a^{dt =}

1 b − a

x a

= ^{x − a} b − a 平均：

E_{[X] =} Z b

a

t · f(t)dt = Z b

a

t · ¹

b − a^{dt =}

1 2

t² b − a

^b

a

= ^{b + a} 2 分散_:

E_[X²_{] =} Z b

a

t² _{· f(t)dt =} Z b

a

t² _· ¹

b − a^{dt =}

1 3

t³ b − a

^b

a

= ^b

2 _{+ ab + a}2

3 V_{[X] = E[X}²_{] − {E[X]}}²^b

2 _{+ ab + a}2

3 ⁻

b² + 2ab + a²

4 ⁼

(b − a)² 12

(65)

■ ^指数分布_: ^{累積分布関数は，}

F (x) = Pr[X ≤ x] =

Z x

−∞

λe⁻^λtdt = _−e⁻^λt^x_−∞ _{= 1 − e}⁻^λx

平均（ヒント：部分積分の公式_, 積分の計算がわからないときは以下の問題は省略してよい）．

■ ^{密度関数：}_{f (x) = λe}⁻^λx_{, x ≥ 0}

E_[X] ₌

Z ^∞

0 ^{t · λe}

−_λt

dt =

Z ^∞

0

e⁻^λt_{dt −} _{t · e}⁻^λt^∞₀

=

−¹ λ^e

−_λt

^∞

0

− 0 = ¹ λ

二番目の等号は部分積分の公式を用いた²．

2

{t · e^−λt}^′ = e^−λt − t · λe^−λt

(66)

■ ^分散は _1/λ² ^になる．

V_[X] ₌ E_[X²_{] − {E[X]}}² ₌

Z ^∞

0

t² _{· λe}⁻^λt_{dt − λ}⁻²

= _{2 ·}

Z ^∞

0 ^{t · e}

−_λt

dt − ^t² · e⁻^λt^∞₀ − λ⁻²

= _{2 ·}

Z ^∞

0 ^{t · e}

−_λt

dt − 0 − λ⁻²

= ²

λ

Z ^∞

0

e⁻^λt ₋ ^2t λ ^{· e}

−_λt

^∞

0

− λ⁻² ⁼ ²

λ² ^{− λ}

−₂

= ¹ λ² 二行目と四行目³ の等号には部分積分を用いた．

3

{t² · e^−λt}^′ = 2t · e^−λt − t² · λe^−λt

2t ^′ 2

(67)

問題４

■ _K 種類の値を持つ離散型確率変数について考える

Table 12: 離散型確率変数の確率分布表

X x₁ x₂ _{· · ·} x_k _{· · ·} x_K 確率 _p₁ _p₂ _{· · ·} _p_k _{· · ·} _p_K

このとき，

E_{[α + βX]} ₌

XK k=1

(α + βxk_{) · p}k _{= α ·}

XK k=1

pk

| {z }

=1

+β · XK k=1

xk _{· p}k

| {z }

=E[X]

= α + β · E[X

V_{[α + βX]} ₌ E[{(α + βX) − E[α + βX]}²] = E[{β · (X − E[βX])}²^]

= β² · E[(X − E[βX])²^]

(68)

問題５

■ _z_X,i _{≡ (x}_i _{− µ}_X_)/σ_X ^{とすると，}

E_[Z_X_{] =}

XI i=1

XJ j=1

xi _{− µ}X

σX ^·p

ij ⁼

XI i=1

xi _{− µ}X

σX ^·

XJ j=1

p_ij

| {z } 周辺確率_:_p_i•

=

XI i=1

xi _{− µ}X

σX ^·p

i• ^{= 0}

分散については平均が０であることを用いて，

V_[Z_X_{] =}

XI i=1

XJ j=1

x_i _{− µ}_X σX

2

· p^ij ⁼ ¹ σ_X²

XI i=1

(x_i _{− µ}_X)² _{· p}_i•

| {z }

=V[X]=σX²

= 1

(69)

■ ^相関係数 _ρ_XY _{= cov}^{(X,Y )}

σXσY

について，

ρXY = ¹

σ_Xσ_Y

XI i=1

XJ j=1

(xi _{− µ}X)(yj _{− µ}Y _{) · p}ij

=

XI i=1

XJ j=1

xi _{− µ}X

σ_X

yj _{− µ}Y

σ_Y ^{· p}^ij

=

XI i=1

XJ j=1

zX,izY,j _{· p}ij

Z_X, Z_Y の平均・分散がそれぞれ０，１なので最後の等号の右辺は共分散であり，相関係数でもある．したがって

ρXY = cov(ZX, ZY ) = corr(ZX, ZY ).

(70)

■ _2z_X,i_z_Y,j _{≤ z}_X,i² _{+ z}_Y,j² ^は任意の _{i, j} の組み合わせについて成り立つので，非負の値 _p_ij を掛けて，総和を求めても不等号関係は変化しない．

Xn i=1

XJ j=1

2z_X,iz_Y,j _{· p}_ij _≤

Xn i=1

XJ j=1

(z_X,i² + z_Y,j² _{) · p}_ij

左辺は _X と _Y の相関係数 _ρ_XY であり，右辺は Xn

i=1

XJ j=1

(z_X,i² + z_Y,j² _{) · p}ij =

Xn i=1

z_X,i² _{· p}i•

| {z }

=V[Z^X]=1

+ XJ j=1

z_Y,j² _{· p}^•j

| {z }

=V[Z^Y ]=1

= 2

以上より _2ρ_XY _{≤ 2} すなわち _ρ_XY _{≤ 1} また，_−2z_X,i_z_Y,j _{≤ z}²

X,i ^{+ z}Y,j² ^から −2ρ^XY ≤ 2 ^{が導かれるため} ρXY _{≥ −1}^．

(71)

■ 上記不等式の等号が成り立つのは（相関係数が _±1 のとき）， zY,j _{= ±z}X,i _⇔

yj _{− µ}Y

σ_Y ^±

xi _{− µ}X

σ_X

という関係が任意の _{i, j} で成立する場合なので，すべての観測点の組み合わせ _(x_i_{, y}_j₎ が

y − µ^Y

σ_Y ^{= ±}

x − µ^X

σ_X ^{⇔ y = µ}^Y ^± σY

σ_X ^{· (x − µ}^X⁾

という直線に乗っている必要がある．逆にこの直線状であれば必ず _X と _Y の相関係数が _±1 となることから，_X と _Y の相関係数が _±1 となることと上記の直線状にすべての実現値が乗っていることは同値である．

(72)

問題６

■ ^{周辺確率：}

Pr[X = 0] = Pr[X = 1] Pr[X = 2] = α + β + γ Pr[Y = 2] = Pr[Y = 4] Pr[Y = 6] = α + β + γ

■ 同時確率＝周辺確率の積：

Pr[X = i, Y = j] = Pr[X = i] · Pr[Y = j]

⇔ α = (α + β + γ)² and β = (α + β + γ)² and γ = (α + β + γ)² ゆえに α = β = γ, α = (3α)² _{→ α = 1/9}

(73)

問題７

■ 二変数同時密度を用いて周辺密度を求めるには，同時密度から，一方の変数をその値域全体で積分することで消去する必要がある．確率変数 _X の周辺密度を求めるには，同時密度

f (x, y) = 120 · xy(1 − x − y) (0 ≤ x ≤ 1, 0 ≤ y ≤ 1, x + y ≤ 1) より，_X が _x の水準にあるとき，_Y の取りうる範囲が 0 ≤ y ≤ 1 − x ^となることを考慮して，

fX(x) =

Z 1−x 0

f (x, y)dy = ¹²⁰

2 ^{x(1 − x)y}

2 − ¹²⁰ 3 ^xy

3

1−x 0

= 20x(1−x)³

同様に _{Y = y} のとき，取りうる範囲が 0 ≤ x ≤ 1 − y fY (y) =

Z 1−y 0

f (x, y)dx = ¹²⁰

2 ^{y(1 − y)x}

2 − ¹²⁰ 3 ^yx

3

1−y 0

= 20y(1−y)³

(74)

■ ^{したがって} _X ^と _Y ^{が独立であるなら，}f (x, y) = fX_{(x) · f}Y (y) ^{という関係} が任意の値域で成立するが，

fX_{(x) · f}Y (y) = 400xy(1 − x)³(1 − y)³ 6= f(x, y) となり独立でないことが分かる

資料置き場 hustat2017 20171027

統計学（第５週） ： 確率変数

高木 真吾

北海道大学

http://sites.google.com/site/hustat2017/

２変数確率変数

導入例：取り出される球のうち，赤と青の数

導入例：取り出される球のうち，赤と青の数

Table 1: ２変数の確率分布表： Pr[X = x, Y = y]

導入例：取り出される球のうち，赤と青の数

導入例：取り出される球のうち，赤と青の数

Table 2: X の周辺確率分布： Pr[X = x]

Table 3: Y の周辺確率分布： Pr[Y = y]

確率変数に関する条件付き確率

確率変数に関する条件付き確率

条件付き期待値： E [Y |X] （ X が与えられた下での Y の条

件付き期待値）

条件付分布と条件付期待値

Table 4: マグニチュード X と最大震度 Y の同時分布表

条件付分布および条件付期待値に関する計算例

Table 5: マグニチュード X の条件付分布表（最大震度 Y = 5 ）

条件付分布および条件付期待値に関する計算例

条件付分布および条件付期待値に関する計算例

Table 6: 最大震度 Y の条件付分布表（マグニチュード X = 7 ）

条件付分布および条件付期待値に関する計算例

２変数確率変数の特性値

２変数確率変数の平均・分散など

２変数確率変数の平均・分散など

２変数確率変数の期待値演算

２変数確率変数の期待値演算

２変数確率変数の期待値演算

２変数確率変数の期待値演算

２変数確率変数の期待値演算

確認問題：平均・分散・標準偏差

確認問題：平均・分散・標準偏差

確認問題：平均・分散・標準偏差

確認問題：平均・分散・標準偏差

確認問題：平均・分散・標準偏差

相関と共分散

相関と共分散

共分散・相関係数の性質

確認問題：相関と共分散

Table 7: 相関係数が０

図解：実現点と生じやすさ

確認問題：相関と共分散

確認問題：相関と共分散

図解：共分散と相関係数

Figure 1: 相関係数は０

確認問題：相関と共分散

Table 8: 負の相関係数：共分散小

図解：実現点と生じやすさ

図解：共分散と相関係数

Figure 2: 相関係数は負

確認問題：相関と共分散

Table 9: 負の相関係数：共分散大

図解：実現点と生じやすさ

図解：共分散と相関係数

Figure 3: 相関係数は負

図解：共分散と相関係数

Figure 4: 相関係数は負 ： 共分散は小

Figure 5: 相関係数は負 ： 共分散は大

確率変数間の独立性

確率変数同士の独立性

Table 7 の場合

(x

, y

) に対して， Pr[Y = y

|X = x

] = Pr[Y = y

]

Pr[Y = 0|X = 0] = Pr[Y = 0, X = 0]

Pr[X = 0] =

0.2

0.5 = 0.4

Pr[Y = 0] = 0.4

Pr[Y = 1|X = −2] = Pr[Y = 1, X = −2]

Pr[X = −2] =

0.025

0.05 = 0.5

Pr[Y = 1] = 0.3

統計学（第５週）：確率変数

高木真吾

Table 1: ^{２変数の確率分布表：} Pr[X = x, Y = y]

Table 2: X ^{の周辺確率分布：} Pr[X = x]

Table 3: Y ^{の周辺確率分布：} Pr[Y = y]

条件付き期待値： E _{[Y |X]} （ _X が与えられた下での _Y の条

Table 4: ^{マグニチュード} X ^{と最大震度} Y ^{の同時分布表}

Table 5: ^{マグニチュード} X の条件付分布表（最大震度 _{Y = 5} ）

Table 6: ^最大震度 Y の条件付分布表（マグニチュード _{X = 7} ）

Table 7: ^{相関係数が０}

Figure 1: ^{相関係数は０}

Figure 2: ^{相関係数は負}

Figure 3: ^{相関係数は負}

Figure 4: ^{相関係数は負} ^： ^{共分散は小}

Figure 5: ^{相関係数は負} ^： ^{共分散は大}

_(x

_{, y}

₎ ^{に対して，} _{Pr[Y = y}

_{|X = x}

Pr[X = 0] ⁼

0.5 ^{= 0.4}

Pr[X = −2] ⁼

0.05 ^{= 0.5}

_(x

_{, y}

₎ ^{に対して，}

^]

^同様に _Table ₈ ^でも _X ^と _Y は独立でないことを示すことがで

Table 10: ^確率変数 X ^， Y ^の

Table 11: ^確率変数 X ^， Y ^の同時