• 検索結果がありません。

資料置き場 hustat2017 20171027hand supp

N/A
N/A
Protected

Academic year: 2018

シェア "資料置き場 hustat2017 20171027hand supp"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

統計学

第 5 週 多変数確率変数(補足)

高木 真吾

北海道大学

質問等は担当者( [email protected]) までご連絡ください

October 27, 2017

二変数確率変数

2

本日の内容

. . . 3

例示

. . . 4

確率変数に関する条件付き確率と条件付き期待値

. . . 5

2変数確率変数の特性値

6

2変数確率変数の平均・分散など

. . . 7

確認

. . . 8

相関と共分散

. . . 9

共分散・相関係数の性質

. . . 10

確認問題:相関と共分散

. . . 11

確率変数間の独立性

12

確率変数同士の独立性

. . . 13

独立と相関

. . . 14

まとめ

15

まとめ(非常に重要)

. . . 16

(2)

二変数確率変数 2 / 16

本日の内容

■ ここまで,実現値として,ひとつの値が観測される確率変数について考えてきた.

■ ここから,実現値として2つ以上の値が同時に観測される多次元確率変数について考える.

◆ その定義と性質1∼ 10を確認する

■ ここでは2変数連続型確率変数の場合について詳述し,「確率変数同士の独立性」の概念を導く

■ 一般論については簡単に触れるだけにとどめる.

統計学 第5回

– 3 / 16

導入例:二変数連続型確率変数

■ 二変数正規分布:パラメータρに応じて,実現パターンが変化する確率変数のペア(X, Y )について考える

◆ 同時密度関数:二つの確率変数XY の実現パターンに関する密度関数が次のような形で与えられる

(パラメータρ)とする. f (x, y; ρ) = 1

2π · (1 − ρ2)1/2exp



x

2− 2ρxy + y2 2(1 − ρ2)



ρ = 0, ±0.9 の場合を図示すると以下の通り(略)

この密度関数を用いて,例えば確率変数のペア(X, Y )が,Xについて区間(a, b)のどこか,Y に ついて区間(c, d)のどこかで実現するという事象の確率を以下のように表現する

Pr[ a < X < b, c < Y < d ] = Z d

c

Z b a

f (x, y; ρ)dxdy

つまり平面{a < x < b, c < y < d} と密度関数で囲まれる立体の体積が,この平面上の不どこかの 点が実現するという事象の確率に対応している.

◆ 周辺密度関数:他方の出方とは関係なく,一方の確率変数がどのような実現の仕方をするか f (x) =

Z

−∞

f (x, y; ρ)dy = √1exp



x

2

2



f (y) = Z

−∞

f (x, y; ρ)dx = 1exp



y

2

2



統計学 第5回

– 4 / 16

(3)

確率変数に関する条件付き確率と条件付き期待値

X,Y の実現値はそれぞれ区間(−∞, ∞),(−∞, ∞) の値を取りうるとする(つまりどのような (x, y) に対 しても,fX(x) > 0,fY(y) > 0となっている)a同時密度がf (x, y)と与えられているとする.

■ 二つの事象ABについて,事象Aが与えられた下での,事象Bの条件付き確率 Pr[B|A] =Pr[A ∩ B]

Pr[A]

事象AXxとなる事象,BY yとなる事象,X xであるという条件の下で,Yyとなると いう条件付き密度

b

: fY |X(y|x) = f (x, y)f

X(x) (1)

■ 乗法公式:

f (x, y) = fY |X(y|x) · fX(x) = fX|Y(x|y) · fY(y) (2)

■ 条件付き期待値:E[Y |X](X が与えられた下での Y の条件付き期待値)

Xがある特定の値xを取るという条件の下での条件付き期待値は,条件付き密度を用いて, E[Y |X = x] =

Z

−∞y · f

Y |X(y|x)dy (3)

と定義され,E[Y |X = x] は確率変数 X の(実現)水準 x に依存して変化する関数であることがわ かる.

◆ 一般に E[Y |X] は,Y については積分を取ることで消しているので)確率変数X の水準に依存する Xの関数であり,それ自身が確率変数となっている

c

◆ 確率変数 E[Y |X] は,X = x という水準の密度関数を持つので,その密度関数は X の密度関数である.

a

二変数正規分布の場合は,この想定に合致するが,一様分布の場合は[−1, 1]の区間に限定しなければならない.

b

任意のxに対して,条件付き密度が定義されるなら R

−∞fY |X(y|x)dy = 1となることは容易に確認できる.

c

一般に確率変数Xの関数g(X)もまた確率変数である.

統計学 第5回

– 5 / 16

2変数確率変数の特性値 6 / 16

2変数確率変数の平均・分散など

■ 性質1XY それぞれの平均・分散は周辺確率のみから求めることができる

■ 性質2分散について,V[X] = E[(X − E[X])2] = E[X2] − {E[X]}2

■ 性質3E[X + Y ] = E[X] + E[Y ] (E[a + b · X + c · Y ] = a + b · E[X] + c · E[Y ])

■ 性質4E[XY ] = E[X · E[Y |X]](この性質については今のところ理解しなくても良い)

(4)

2変数確率変数の期待値演算

■ 確認1− 1:E[X]を求める.

Xの取り得る値:(−∞, ∞),Y :(−∞, ∞) のとき,同時密度が f(x, y) などと与えられているとする.

◆ 期待値(平均)は,『起きうる値× その確率』なので E[X] =

Z

−∞

Z

−∞x · f(x, y)dxdy = Z

−∞x ·

Z

−∞

f (x, y)dy

 dx =

Z

−∞x · f X(x) dx

■ 確認1− 2:分散 V[X]を求める.

◆ 分散は,散らばりの尺度で,「平均からの乖離の二乗」についての平均X= E[X]とおく) V[X] = E[(X − E[X])2] =

Z

−∞

Z

−∞(x − µ

X)2· f(x, y)dydx

= Z

−∞(x − µ X)2·

Z

−∞

f (x, y)dy

 dx

= Z

−∞(x − µ

X)2fX(x) dx

■ 確認2:V[X] = E[(X − E[X])2] = E[X2− 2X · E[X] + {E[X]}2] = E[X2] − 2{E[X]}2

■ 確認3:E[X + Y ]を求める.

◆ 期待値(平均)は,『起きうる値× その確率』なので E[X + Y ] =

Z

−∞

Z

−∞(x + y) · f(x, y)dydx

= Z

−∞

Z

−∞x · f(x, y)dydx + Z

−∞

Z

−∞y · f(x, y)dydx

= Z

−∞x · f

X(x)dx + Z

−∞y · f

Y(y)dx = E[X] + E[Y ] 三番目の等号成立には,性質1を用いた.

■ 確認4:E[XY ] = E[X · E[Y |X]] を求める.

◆ 期待値(平均)は,『起きうる値× その確率』なので,定義より右辺の期待値は, E[X · E[Y |X]] =

Z

−∞x ·

Z

−∞y · f

Y |X(y|x)dy



fX(x)dx (4)

であり,左辺の期待値も以下のように書くことができる. E[XY ] =

Z

−∞

Z

−∞xy · f(x, y)dydx

= Z

−∞

Z

−∞x · y · f

Y |X(y|x) · fX(x)dydx

= Z

−∞x ·

Z

−∞y · f

Y |X(y|x)dy · fX(x)dydx

統計学 第5回

– 8 / 16

(5)

相関と共分散

■ 1変数確率変数の特性

◆ (起こりやすさの)中心を示す尺度:平均E[X]

◆ 中心からの散らばり具合を示す尺度:分散V[X] = E[(X − E[X])]2(標準偏差σX =pV[X]

■ 2変数確率変数の関係

◆ 共分散σXY = cov(X, Y ) = E[ (X − E[X])(Y − E[Y ]) ]

それぞれの確率変数の起きやすさの中心(E[X], E[Y ]) から見て,(X − E[X], Y − E[Y ]) が同符号

(異符号)の方向で実現しやすいとき,共分散は正の値(負の値)をとる.また中心から遠い点が 実現する確率が高いほど共分散は大きくなる.

◆ 相関係数corr(X, Y ) = σXY/(σXσY)

相関係数は−1 から 1 の間の値をとる.

−1 に近いほど (X − E[X], Y − E[Y ]) が互いに異符号で,負の傾きをもつ直線関係に近い.

1に近いほど(X − E[X], Y − E[Y ]) が互いに同符号で,正の傾きをもつ直線関係に近い.

0に近いほど(X − E[X], Y − E[Y ]) に直線関係がみられない.

統計学 第5回

– 9 / 16

共分散・相関係数の性質

■ 性質5共分散E[ (X − E[X])(Y − E[Y ]) ] = E[XY ] − E[X]E[Y ]

■ 性質6V[X + Y ] = V[X] + V[Y ] + 2cov(X, Y )証明は下段a

a

分散の定義に従って,

V[X + Y ] = E[{(X + Y ) − E[X + Y ]}2] = E[{(X − E[X]) + (Y − E[Y ])}2]

= E[(X − E[X])2] + E[(Y − E[Y ])2] + 2 · E[(X − E[X])(Y − E[Y ])] = V[X] + V[Y ] + 2cov(X, Y )

統計学 第5回

– 10 / 16

確認問題:相関と共分散

■ 二変量正規分布について,X = xのとき,Y の条件付き密度関数は fY |X(y|x) = f (x, y)f

X(x) =

1

p2π · (1 − ρ2)exp



−(y − ρ · x)2 2(1 − ρ2)



■ この条件付き密度を用いて,条件付き期待値は以下の通り. E[Y |X = x] =

Z

−∞y · f

Y |X(y|x)dy = ρ · x

■ 積の期待値は,

E[XY ] = E[X · E[Y |X] ] = E[X · (ρ · X) ] = E[ ρ · X2] Z

(6)

統計学 第5回

– 11 / 16

確率変数間の独立性 12 / 16

確率変数同士の独立性

■ 確率変数XY が独立:互いの実現の仕方が無関係

Xxiとなる事象と,Yyjとなる事象が独立であるということを用いて定義する.

定義1:任意の(x, y)に対して,fY |X(y|x) = fY(y)

■ 定義2:任意の(x, y)に対して,f (x, y) = fX(x) · fY(y)

■ 性質7XY が独立であるとき,E[Y |X = x] = E[Y ](x は任意の X の取りうる値)

■ 性質8XY が独立であるとき,E[XY ] = E[X] · E[Y ]

◆ 確認:fY |X(y|x) = fY(y)なので,どのxに対しても,

E[Y |X = x] = Z

−∞y · f

Y |X(y|x)dy = Z

−∞y · f

Y(y)dy = E[Y ]

したがって

E[XY ] = E[X · E[Y |X]] = E[X · E[Y ]] = E[X] · E[Y ]

ただし,最後の等号は,E[Y ]は確率変数ではない普通の数字であることを利用した.

統計学 第5回

– 13 / 16

独立と相関

■ 確率変数XY が独立であるとき,

■ 性質9共分散は0,相関係数も0(cov(X, Y ) = corr(X, Y ) = 0

■ 性質10 V[a + b· X + c · Y ] = b2· V[X] + c2· V[Y ]

確認

◆ 独立であるとき,E[XY ] = E[X] · E[Y ] なので cov(X, Y ) = 0.

◆ 一般に V[a + b · X + c · Y ] は以下のように共分散を用いて表現できる V[a + b · X + c · Y ] = E[{(a + b · X + c · Y ) − E[a + b · X + c · Y ]}2]

= E[{b · (X − E[X]) + c · (Y − E[Y ])}2]

= b2· E[(X − E[X])2] + c2· E[(Y − E[Y ])2] + 2bc · E[(X − E[X])(Y − E[Y ])]

= b2· V[X] + c2· V[Y ] + 2bc · cov(X, Y ) 性質9より,共分散が0なので性質10も成り立つ.

統計学 第5回

– 14 / 16

(7)

まとめ 15 / 16

まとめ(非常に重要)

二つの確率変数X1, X2を用いて,Y = β0+ β1· X1+ β2· X2 とする.

■ 平均

E[Y ] = β0+ β1· E[X1] + β2· E[X2]

■ 分散

V[Y ] = β12· V[X1] + β22· V[X2] + 2β1β2· cov(X1, X2)

■ 二つの確率変数X1, X2が独立であるとき, V[Y ] = β12· V[X1] + β22· V[X2]

一般に確率変数がn個の場合でも,上の結果は成立する

n個の確率変数{X1, X2, . . . , Xn} を用いて,以下の Y を定める. Y = β0+

n

X

i=1

βi· Xi

■ 平均

E[Y ] = β0+

n

X

i=1

βi· E[Xi]

■ 分散

V[Y ] =

n

X

i=1

βi2· V[Xi] + 2

n−1

X

i=1 n

X

j=i+1

βiβj· cov(Xi, Xj)

■ n個の確率変数X1, X2, . . . , Xnが互いに独立であるとき,

V[Y ] =

n

X

i=1

βi2V[Xi]

■ 以上の結果はすべて離散型確率変数について説明してきた

■ 連続型確率変数についても性質1∼ 10が同様に成り立つ

◆ ただし,説明には同時密度関数に関する多重積分を利用する必要がありここでは省略する

参照

関連したドキュメント

借受人は、第 18

据付確認 ※1 装置の据付位置を確認する。 実施計画のとおりである こと。. 性能 性能校正

スライド P.12 添付資料1 補足資料1.. 4 審査会合における指摘事項..

○関計画課長

 ・ ナンバープレートを破損、紛失したとき   ・ 住所、氏名、定置場等に変更があったとき  ・

添付資料 4.1.1 使用済燃料プールの水位低下と遮蔽水位に関する評価について 添付資料 4.1.2 「水遮蔽厚に対する貯蔵中の使用済燃料からの線量率」の算出について

添付資料 2.7.3 解析コード及び解析条件の不確かさの影響評価について (インターフェイスシステム LOCA).. 添付資料 2.7.4

優占動物プランクトン 優占植物プランクトン  LORENZENに準ずる方法  .  Jeffrey&amp;Humphreyの式 (mg/m