統計学 第4週 – 1 / 70
統計学: 確率変数
高木 真吾
北海道大学
October 20, 2017
確率変数
確率変数
確率変数 確率変数
離散型確率変数 離散型確率変数の例 連続型確率変数 連続型確率変数 連続型確率変数の例 累積分布関数
確率変数の特性 2変数確率変数 2変数確率変数の特 性値
確率変数
統計学 第4週 – 3 / 70
■
確率変数:偶然的要素を伴う現象を表現するための量的表現,
■
それが実現するまではどのような値をとるのかはわからない
■
ある値がどのような確率で実現するのかが定められている変量
◆
偶然的要素を伴う現象が量的変量として表現されることが多い
◆
ex. 電球が切れるまでの時間は どの程度 か?など
確率変数
■
確率変数のタイプ
◆
離散型確率変数:とりうる値が可算集合(いくつかの特定の点)
.確率関数による特徴づけ
■ 確率が一個一個の点について定義されている
■
各点ごとにその値の実現しやすさが確率関数として与えら
れる.
◆
連続型確率変数:とりうる値が非可算集合(ある区間のどこで
も).確率密度関数による特徴づけ■ 確率が(点ではなく)区間について定義されている
■
ある領域の実現しやすさが確率密度関数として与えられる.
離散型確率変数
統計学 第4週 – 5 / 70
■
離散型確率変数:確率が1個1個の点について定義
■
離散型確率変数の個々の点の起きやすさは,以下のような表で集約
Table 1: 離散型確率変数の確率分布表
X x1 x2 · · · xk · · · 確率 p1 p2 · · · pk · · ·
離散型確率変数
■
実現値:とりうる値を {x
1, x
2, x
3, . . .} と表記する.
■
とりうる値の要素数は有限個であっても,無限個であってもよい.
確率関数の定義 各点 x
k(k = 1, 2, . . .) について,
p
k≡ Pr[X = x
k] k = 1, 2, . . .
離散型確率変数
統計学 第4週 – 7 / 70
確率関数の性質 各点 x
kにおける確率関数の性質.
1. p
k≥ 0 , k = 1, 2, . . .
2. 実現値が x
1, x
2, . . . という形で無限個あるとき,
∞
X
k=1
p
k= 1
また実現値が x
1x
2, . . . , x
Kという形で有限個あるとき,
K
X
k=1
p
k= 1
離散型確率変数
■ 逆に,何らかの実数値の(可算)集合に対して,下の二つの性質を持つ確 率関数を与えたとき,そこに実現値をもつ離散型確率変数を定義したこと になる.
確率関数の性質 各点 xk における確率関数の性質. 1. pk ≥ 0 , k = 1, 2, . . .
2. 実現値が x1, x2, . . . という形で無限個あるとき,
∞
X
k=1
pk = 1
また実現値が x1x2, . . . , xK という形で有限個あるとき,
K
X
k=1
pk = 1
離散型確率変数の例
統計学 第4週 – 9 / 70
■ 例1)コインを2枚投げる試行を考える.
◆ 表が出ると1,裏が出ると0
◆ その合計を確率変数 X で表現する
このときの確率分布は次の表のようにまとめることができる.
Table 2: コイン投げの確率分布表
X 0 1 2
確率 1/4 1/2 1/4
離散型確率変数の例
■ 例2)販売されている宝くじの中から一枚を無作為にもらうという試行に ついて考える(宝くじを買う,とも言い換えられる).このくじは次のよ うな表のような当選確率を持っていることが公表されてる.つまりこのく じは当選賞金を実現値とする確率変数と考えることができ,その確率分布 は次の表のようにまとめることができる1.
Table 3: 宝くじの確率分布
名称 一等 二等 三等 四等 五等 六等 はずれ 賞金額 X 2億 1億 100 万 1 万 3 千 300 0
確率 1/107 2/107 1/106 1/105 1/102 1/10 0.8870
1
「一等のくじが出る」という事象と「確率変数 X が 2 億という実現値を持つ」と いう表現が関連付けられている.
連続型確率変数
統計学 第4週 – 11 / 70
■
連続型確率変数:確率が区間について定義されている
■
実現する値は { x | − ∞ < x < ∞ } のような区間のどこか一点.
確率密度関数: ある連続関数 f (x) を用いて,確率変数 X がある
区間 { x | a < x < b } のどこかで実現する確率を以下のように
表現できるとき,関数 f (x) を確率密度関数とよぶ.
Pr[a < X < b] =
Z
b af (x)dx
連続型確率変数
確率密度関数の性質:実現値は { x | − ∞ < x < ∞ } のような区間の
どこか
1. f (x) ≥ 0 , x ∈ (−∞, ∞) :任意の点において非負.
2. 確率変数 X が区間 { x | − ∞ < x < ∞ } のどこかで実現する
とき,
Z
∞−∞
f (x)dx = 1
また確率変数 X が区間 { x | α < x < β } のどこかでしか実現
しないとき,
Z
β αf (x)dx = 1
連続型確率変数
統計学 第4週 – 13 / 70
■
逆に,何らかの実数値の(非可算)集合に対して,上の二つの性質
を持つ密度関数を与えたとき,そこに実現値をもつ連続型確率変数
を定義したことになる.
1. f (x) ≥ 0 , x ∈ (−∞, ∞):任意の点において非負.
2. 確率変数 X が区間 { x | − ∞ < x < ∞ } のどこかで実現するとき, Z ∞
−∞
f (x)dx = 1
また確率変数 X が区間 { x | α < x < β } のどこかでしか実現しない とき,
Z β α
f (x)dx = 1
区間ごとにまとめた密度関数:ヒストグラム
dx
f (x)
x
1x
2x
3x
4■
曲線は密度関数
■
区間の幅: dx
■
そ れ ぞ れ の 区 間 ご と の 高 さ
(相対度数) : f (x)
■
それぞれの区間ごとの確率=
面積の大きさ: f (x)dx
■
x
1, x
2, x
3, x
4を含む区間
の確率:
f (x
1)dx+f (x
2)dx+f (x
3)dx+f (x
4)dx
幅 dx を小さくすると
統計学 第4週 – 15 / 70
dx
f (x)
x
1x
2x
3x
4■
次第に背後の曲線=密度関数
に近づいていく
幅 dx を極限まで小さくすると
dx
f (x)
x
1x
2x
3x
4■ ヒストグラムと密度関数を同一 視できる
■ このとき区間 (x1, x4) のどこか で実現する確率:対応する区間 の縦棒の和
X
x∈(x1,x4)
f (x)dx
幅 dx を極限まで小さくすると
統計学 第4週 – 17 / 70
dx
f (x)
x
4x
1x
2x
3■ ヒストグラムと密度関数を同一 視できる
■ dxが十分小さいとき,以下のよ うな積分表現
X
x∈(x1,x4)
f (x)dx dx→0−→
Z x4 x1
f (x)dx
■ 区間 (x1, x4) のどこかで実現す る確率
Pr[x1 ≤ X ≤ x4] =
Z x4 x1
f (x)dx
連続型確率変数の例
■
例 3 (一様分布) :確率変数 X は区間 (a, b) で均等な実現パターン
を考える
◆
密度関数: f (x) = 1/(b − a) for a < x < b, = 0 for x ≤ a, x ≥ b.
◆
確率:1. Pr[ a < X < b ] ,2. Pr[ a < X < (b + a)/2 ]
■
図示してみると左端が a ,右端が b で高さが 1/(b − a) の長方形
◆
1.の確率は定義から1であるが,面積を求めても1
◆
2.の確率は面積を求めると0.5である
連続型確率変数の例
統計学 第4週 – 19 / 70
■
例 4 (正規分布)正規分布に従う確率変数 X は,ある区間 (a, b)
で , どういう確率で実現するか
◆
確率1. Pr[ −2 < X < 0 ] ,2. Pr[ X > 2 ]
■
つまり図の面積で表現される.
-4 -2 0 2 4
0.00.10.20.30.4
正規分布に従う確率変数の密度関数
x
y1
密度関数による表現は後述.
連続型確率変数の例
■
例 5 (指数分布) ある正数 λ を用いて,確率変数 X の密度関数が
次の通りに与えられるものとする.
f (x) =
0 x ≤ 0
λe
−λxx > 0 e = 2.7182 . . .
このとき
Pr[a < X < b] =
Z
b aλe
−λxdx = h −e
−λxi
ba
= e
−λa
− e
−λbこの密度関数は上の性質を満たしていることも容易に確認できる.
22
この確率変数の取りうる範囲は [0, ∞) の区間である.密度関数の非負性は自明で あるし,
Z ∞
0
λe−λxdx = [ −e−λx ]∞0 = 0 − (−1) = 1
より積分して1という性質も満たされている.
無記憶性による指数分布の特徴づけ
統計学 第4週 – 21 / 70
■ 無記憶性:次の期間 x の間に起きることは,過去の履歴に関係なくいつも 同じ確率
◆ 何かイベントが生じるまでの時間 X
◆ ある時点 x0 を超えてから,次の x までにイベント発生する確率 Pr[ X ≤ x0 + x | X > x0 ]
◆ 無記憶性:上記確率が,単純に「x までの間に生じる確率と等しい Pr[ X ≤ x0 + x | X > x0 ] = Pr[ X ≤ x ]
■ 無記憶という特徴を持つ確率変数の分布関数は次の微分方程式を満たさな ければならない
dF (x)
dx = C · {1 − F (x)}, F (0) = 0, ⇒ 1 − F (x) = e−C·x.
累積分布関数
確率変数 累積分布関数
累積分布関数 確率変数の特性 2変数確率変数 2変数確率変数の特 性値
累積分布関数
統計学 第4週 – 23 / 70
■ 累積分布関数(cumulative distribution function; CDF)は次のように定義 される.
F (x) = Pr[X ≤ x] · · · 1
■ 例1(ベルヌーイ分布:つづき)このとき累積密度関数(CDF)は
F (x) =
0 x < 0 1/4 0 ≤ x < 1 3/4 1 ≤ x < 2
1 x ≥ 2
累積分布関数
■ 累積分布関数:F (x) = Pr[X ≤ x]
■ 例 3(一様分布:つづき)累積分布関数は, F (x) = Pr[X ≤ x] =
Z x a
1
b − adt =
■ 例 5(指数分布:つづき)累積分布関数は, F (x) = Pr[X ≤ x] =
Z x
−∞
λe−λtdt =
累積分布関数
統計学 第4週 – 25 / 70
■ 累積分布関数:F (x) = Pr[X ≤ x]
■ 例 3(一様分布:つづき)累積分布関数は, F (x) = Pr[X ≤ x] =
Z x a
1
b − adt =
1 b − a
x a
= x − a b − a
■ 例 5(指数分布:つづき)累積分布関数は, F (x) = Pr[X ≤ x] =
Z x
−∞
λe−λtdt = −e−λtx−∞ = 1 − e−λx
確率変数の特性
確率変数 累積分布関数 確率変数の特性 確率変数の特性 確率変数の特性 期待値演算 E[•] の 性質
確認
練習問題1
確率変数の基準化 確率変数の基準化の 例:偏差値と5段階 10 段階評価
5段階 10 段階評価 偏差値と5段階評価 偏差値と 10 段階評価 2変数確率変数 2変数確率変数の特 性値
確率変数の特性
統計学 第4週 – 27 / 70
■ データの特性を知るために「平均値」や「分散(標準偏差)値」を求めた.
■ 確率変数についてもその特性を知るために「期待値」演算を考える
■ 期待値の演算
◆ 『確率変数の取りうる値』に,その起きやすさである『確率』という ウェイトをかけてその総和を求めたもの.
■ 『どういう値が起きやすいか』の一つの表現.
確率変数の特性
■ 期待値の演算
◆ 『確率変数の取りうる値』に,その起きやすさである『確率』という ウェイトをかけてその総和を求めたもの.
■ 『どういう値が起きやすいか』の一つの表現.
◆ 確率変数 X そのものや,関数 g(•) によって変換した g(X) に対して 定義する
E[X] =
P∞
k=1 xk · pk 離散型確率変数
R ∞
−∞ x · f (x)dx 連続型確率変数 E[ g(X) ] =
P∞
k=1 g(xk) · pk 離散型確率変数
R ∞
−∞ g(x) · f (x)dx 連続型確率変数
■ g(X) = Xk: k 次の積率(モーメント)と呼ばれる.
確率変数の特性
統計学 第4週 – 29 / 70
■ 平均 E[X]:1次のモーメント
■ 分散 E[{X − E[X]}2]:2次の中心モーメント(平均からの乖離の二乗)
■ 離散型確率変数のモーメント(とりうる値:{x1, x2, x3 . . . , })
◆ 平均:E[X] = P∞j=1 xj · p(xj) ≡ µ
◆ 分散:V[X] = E[{X − E[X]}2] = P∞j=1(xj − µ)2 · p(xj)
◆ 標準偏差:ST D[X] = pV[X]
期待値演算 E [•] の性質
■ 以下の結果は離散型,連続型を問わず成り立つ性質である.
■ 任意の実数 α,β に対して,
E[ α + β · X ] = α + β · E[ X ] V[ α + β · X ] = β2 · V[ X ] ST D[α + β · X] = β · ST D[X]
V[ X ] = E[ X2 ] − { E[ X ] }2
ただし V[•] は,V[Y ] = E[ (Y − E[Y ])2 ] と定義される分散を表す演算で ある.
確認
統計学 第4週 – 31 / 70
■ 連続型確率変数の場合, E[α + β · X] =
Z ∞
−∞
(α + βx) · f (x)dx
= α ·
Z ∞
−∞
f (x)dx + β ·
Z ∞
−∞
x · f (x)dx
= α · 1 + βE[X] = α + βE[X] となる.離散型の場合は各自確認して欲しい.
確認
■ 分散についても
V[α + β · X] = E[ {α + βX − E[α + βX]}2 ]
= E[ {β · X − β · E[X]}2 ]
= E[ β2 · {X − E[X]}2 ]
= β2 · E[ {X − E[X]}2 ] = β2 · V[X] V[X] = E[ {X − E[X]}2 ]
= E[ X2 − 2X · E[X] + E[X]}2 ]
= E[ X2 ] − 2 · E[ X ] · E[X] + {E[X]}2
= E[ X2 ] − {E[X]}2
練習問題1
統計学 第4週 – 33 / 70
■ 例1(ベルヌーイ分布:つづき)
◆ 平均:E[X] = = ,
◆ 分散:V[X] = E[X2] − {E[X]}2 =
− =
練習問題1
■ 例1(ベルヌーイ分布:つづき)
平均:E[X] = 0 · 1
4 + 1 · 1
2 + 2 · 1
4 = 1 分散:V[X] = E[X2] − {E[X]}2 = 02 · 1
4 + 1
2 · 1
2 + 2
2 · 1
4 − 1
2 = 0.5
練習問題1
統計学 第4週 – 35 / 70
■ 例3(つづき)
◆ 平均:
E[X] = Z b
a
t·f (t)dt = Z b
a
t· 1
b − adt =
◆ 分散:
E[X2] = Z b
a
t2·f (t)dt = Z b
a
t2· 1
b − adt =
1 3
t3 b − a
b
a
= b
2 + ab + a2
3 V[X] = E[X2] − {E[X]}2 =
練習問題
■ 例3(一様分布:つづき)平均: E[X] =
Z b a
t · f (t)dt = Z b
a
t · 1
b − adt = [ 1 2
t2 b − a]
b a =
b + a 2 分散:
E[X2] = Z b
a
t2 · f (t)dt = Z b
a
t2 · 1
b − adt = [ 1 3
t3 b − a]
b a =
b2 + ab + a2 3
V[X] = E[X2] − {E[X]}2 = b
2 + ab + a2
3 −
b2 + 2ab + a2
4 =
(b − a)2 12
練習問題1
統計学 第4週 – 37 / 70
■ 例5:指数分布(つづき),積分の計算がわからないときは以下の問題は 省略してよい
1. 平均を求めてください(ヒント:部分積分の公式). E[X] =
Z ∞
0
x·f (x)dx =
Z ∞
0
x·λe−λxdx =
2. 分散は 1/λ2 になることを確認して下さい.
練習(手元資料未記載)
■ 例2(つづき)下の表を用いて,このくじの平均値を求めると 円と なる(このくじは 200 円).
◆ この宝くじの標準偏差の値はいくらになるか(約 80,632 円)
◆ このくじを「1 ドル=100 円のドル表示する」と平均,標準偏差は何ド ルか
ヒント:Y = X/100 として平均・標準偏差を計算する
練習問題2− 1
統計学 第4週 – 39 / 70
Table 4: 宝くじ:1千万本が1ユニット
賞金額 (円) あたり本数 確率
一等 200,000,000 1 0.00001%
前後賞 50,000,000 2 0.00002%
組違い 100,000 99 0.00099%
二等 100,000,000 2 0.00002%
... ... ... ...
年末ラッキー賞 10,000 30,000 0.30% あたり枚数 1,130,214 11.30214% はずれ枚数 8,869,786 88.6978600%
販売枚数 10,000,000 100.00000%
練習(手元資料未記載)
Table 5: 宝くじ:1千万本が1ユニット
賞金額 (円) 賞金額 × 確率
一等 200,000,000 20
前後賞 50,000,000 10
組違い 100,000 0.99
二等 100,000,000 20
... ... ...
年末ラッキー賞 10,000 30 あたり枚数
はずれ枚数
販売枚数 合計: 142.99 円
練習問題1
統計学 第4週 – 41 / 70
■ 例 5(指数分布:つづき)平均: E[X] =
Z ∞
0
x · f (x)dx
=
Z ∞
0
λx · e−λ·xdx
= −[x · e−λ·x]∞0 +
Z ∞
0
e−λ·xdx
= 1
λ
分散については各自確認してください(答え:1/λ2).
練習問題1 , 例 5 (指数分布:つづき)
■ 分散は 1/λ2 になる.
V[X] = E[X2] − {E[X]}2 =
Z ∞
0
t2 · λe−λtdt − λ−2
= 2 ·
Z ∞
0
t · e−λtdt − t2 · e−λt∞0 − λ−2
= 2 ·
Z ∞
0
t · e−λtdt − 0 − λ−2
= 2
λ
Z ∞
0
e−λt − 2t λ · e
−λt
∞
0
− λ−2 = 2
λ2 − λ
−2
= 1 λ2 二行目と四行目3 の等号には部分積分を用いた.
3
{t2 · e−λt}′ = 2t · e−λt − t2 · λe−λt
2t λ · e
−λt
′
= 2 λe
−λt − 2t · e−λt
確率変数の基準化
統計学 第4週 – 43 / 70
■ ある確率変数 X について考える.また新しい確率変数 Z を以下のように 定義する.
Z = µ + σ · X − E[X] pV[X]
■ もとの X がどのような平均と分散であったとしても,変換された確率変 数 Z について
E[Z] = µ, V[Z] = E[(Z − E[Z])2] = σ2 となる
■ 問題)上の結果を確認してください
■ 問題)試験受験者得点が正規分布に従うという条件のもとで,偏差値と5 段階評価,10段階評価の関係について考察を行ってください
確率変数の基準化の例:偏差値と5段階 10 段階評価
■ テストの得点 X が平均 µ と標準偏差 σ であり,受験者間で正規分布に 従っているとする.
■ 偏差値換算したときどのような偏差値にどの程度の人がいるか
■ 偏差値:平均 50,標準偏差 10 に基準化
Z = 50 + 10 · X − µ σ
◆ もとの X がどのような平均と分散であったとしても,偏差値 Z は平 均 50,標準偏差 10.
■ 正規分布に従うとき,以下の図のように散布することを確認できる
■ 問題)偏差値と5段階,10段階評価(相対評価)の関係は?
5段階 10 段階評価
統計学 第4週 – 45 / 70
■ 通常,5段階で相対評価を行うとき,それぞれの割合を 7% : 24% : 38% : 24% : 7%
■ 通常,10 段階で相対評価を行うとき,それぞれの割合を 3% : 4% : 9% : 15% : 19% :
19% : 15% : 9% : 4% : 3%
偏差値と5段階評価
0 20 40 60 80 100
0.000.010.020.030.040.05
正規分布(平均50,標準偏差10)
x
y
0.07 0.24
0.38 0.24
0.07
偏差値と5段階評価
統計学 第4週 – 47 / 70
Table 6:
偏差値 ∼ 35 35 ∼ 45 45 ∼ 55 55 ∼ 65 65 ∼ 確率 0.07 0.24 0.38 0.24 0.07
5段階 1 2 3 4 5
偏差値と 10 段階評価
0 20 40 60 80 100
0.000.010.020.030.040.05
正規分布(平均50,標準偏差10)
x
y
0.03 0.04 0.09 0.15 0.19 0.19 0.15 0.09 0.04 0.03
偏差値と 10 段階評価
統計学 第4週 – 49 / 70
Table 7:
偏差値 ∼ 30 30 ∼ 35 35 ∼ 40 40 ∼ 45 45 ∼ 50
確率 0.023 0.044 0.092 0.150 0.191
10 段階 1 2 3 4 5
偏差値 50 ∼ 55 55 ∼ 60 60 ∼ 65 65 ∼ 70 70 ∼
確率 0.191 0.150 0.092 0.044 0.023
5段階 6 7 8 9 10
2変数確率変数
確率変数 累積分布関数 確率変数の特性 2変数確率変数
例示
確率変数に関する条 件付き確率
2変数確率変数の特 性値
導入例:取り出される球のうち,赤と青の数
統計学 第4週 – 51 / 70
■ 例)壺の中に7個のボールが入っている
◆ 内訳:赤2球,青3球,白2球
■ 無作為に3個同時にとりだすとき,赤球の数を X,青球の数を Y
◆ 必然的に白球の数は 3 − X − Y
■ このとき,
◆ X の取りうる値: {0, 1, 2}
◆ Y の取りうる値: {0, 1, 2, 3}
■ その実現パターンは表の通り
導入例:取り出される球のうち,赤と青の数
Table 8: 2変数の確率分布表: Pr[X = x, Y = y]
X / Y 0 1 2 3 Pr[X = •]
2 2/35 3/35 0 0 5/35
1 2/35 12/35 6/35 0 20/35
0 0 3/35 6/35 1/35 10/35
Pr[Y = •] 4/35 18/35 12/35 1/35 1
導入例:取り出される球のうち,赤と青の数
統計学 第4週 – 53 / 70
■ 同時確率分布(表):二つの確率変数 X,Y がどのように実現するか上 の表.
■ 周辺確率分布(表):他方の出方とは関係なく,一方の確率変数がどのよ うな実現の仕方をするか
◆ Y に注目:X の出方を無視し,Pr[Y = 0] は 0 + 2/35 + 2/35 = 4/35 と求められる.これらは表の下段.
◆ X についても,表の左欄にまとめられている.
◆ 一般に,起きうる値が X:{xi}ni=1,Y :{yj}mj=1 のとき,同時確率が Pr[X = xi, Y = yj] などと与えられるとき,それぞれの周辺確率は Pr[X = xi] =
m
X
j=1
Pr[X = xi, Y = yj], Pr[Y = yj] =
n
X
i=1
Pr[X = xi, Y = yj]
導入例:取り出される球のうち,赤と青の数
Table 9: X の周辺確率分布: Pr[X = x]
X 0 1 2
Pr[X = •] 5/35 20/35 10/35
Table 10: Y の周辺確率分布: Pr[Y = y]
Y 0 1 2 3
Pr[Y = •] 4/35 18/35 12/35 1/35
確率変数に関する条件付き確率
統計学 第4週 – 55 / 70
■ 起きうる値が X:{xi}ni=1,Y :{yj}mj=1 のとき,同時確率が
Pr[X = xi, Y = yj] などと与えられているとする.
■ 二つの事象 A,B について,事象 A が与えられた下での,事象 B の条件 付き確率
Pr[B|A] = Pr[A ∩ B] Pr[A]
■ 事象 A:X が xi となる事象,B:Y が yj となる事象,X が xi であると いう条件の下で,Y が yj となるという条件付き確率:
Pr[Y = yj|X = xi] = Pr[X = xi, Y = yj]
Pr[X = xi] · · · 2
確率変数に関する条件付き確率
■ 事象 A:X が xi となる事象,B:Y が yj となる事象,X が xi であると いう条件の下で,Y が yj となるという条件付き確率:
Pr[Y = yj|X = xi] = Pr[X = xi, Y = yj] Pr[X = xi]
■ 乗法公式:
Pr[X = xi, Y = yj] = Pr[Y = yj|X = xi] × Pr[X = xi]
= Pr[X = xi|Y = yj] × Pr[Y = yi]
条件付き期待値: E [Y |X] ( X が与えられた下での Y の条
件付き期待値)
統計学 第4週 – 57 / 70
■ X がある特定の値 xi を取るという条件の下での条件付き期待値は,条件 付き確率を用いて,
E[Y |X = xi] =
m
X
j=1
yj · Pr[Y = yj|X = xi] · · · 3
と定期議され,E[Y |X = xi] は xi という水準に依存している.
■ 一般に,E[Y |X] は(Y については和を取ることで消しているので)確率
変数 X の水準に依存する関数であり,それ自身が確率変数となっている.
■ 確率変数 E[Y |X] の確率分布は,X が {x1, x2, . . . , xn} の値を取りうるこ とを考えて,
E[Y |X] E[Y |X = x1] E[Y |X = x2] · · · E[Y |X = xn]
(X) (x1) (x2) · · · (xn)
確率 Pr[X = x1] Pr[X = x2] · · · Pr[X = xn]
問題)Table 8 を用いて,Y = 1 を条件とする X の条件付き分布を求めてく
ださい.
2変数確率変数の特性値
確率変数 累積分布関数 確率変数の特性 2変数確率変数 2変数確率変数の特 性値
2変数確率変数の平 均・分散など
確認
確認問題:平均・分 散・標準偏差
2変数確率変数の平均・分散など
統計学 第4週 – 59 / 70
■ 性質1 X,Y それぞれの平均・分散は周辺確率のみから求めることがで きる
■ 性質2 分散について,
V[X] = E[(X − E[X])2] = E[X2] − {E[X]}2
■ 性質3 二つの確率変数の和について,
E[X + Y ] = E[X] + E[Y ]
E[a + b · X + c · Y ] = a + b · E[X] + c · E[Y ]
■ 性質4 E[XY ] = E[X · E[Y |X]](この性質については今のところ理解しな くても良い)
2変数確率変数の平均・分散など
■ 性質4 E[XY ] = E[X · E[Y |X]]
◆ ただし,E[Y |X] は,X が与えられた下での Y の条件付き期待値と呼
ばれ,
E[Y |X = xi] =
m
X
j=1
yj · Pr[Y = yj|X = xi] · · · 4
であり,
E[X · E[Y |X]] =
n
X
i=1
{ xi · E[Y |X = xi] } · Pr[X = xi]
· · · 5 と定義される.
2変数確率変数の期待値演算
統計学 第4週 – 61 / 70
■ 確認1− 1:E[X] を求める.
◆ 起きうる値が X:{xi}ni=1,Y :{yj}mj=1 のとき,同時確率が Pr[X = xi, Y = yj] などと与えられているとする.
◆ 期待値(平均)は,『起きうる値 × その確率』なので E[X] =
n
X
i=1 m
X
j=1
xi · Pr[X = xi, Y = yj]
=
n
X
i=1
xi ·
m
X
j=1
Pr[X = xi, Y = yj]
=
n
X
i=1
xi · Pr[X = xi]
2変数確率変数の期待値演算
■ 確認1− 2:分散 V[X] を求める.
◆ 分散は,散らばりの尺度で,「平均からの乖離の二乗」についての平均
V[X] = E[(X − E[X])2]
=
n
X
i=1 m
X
j=1
(xi − E[X])2 · Pr[X = xi, Y = yj]
=
n
X
i=1
(xi − E[X])2 ·
m
X
j=1
Pr[X = xi, Y = yj]
=
n
X
i=1
(xi − E[X])2 · Pr[X = xi]
2変数確率変数の期待値演算
統計学 第4週 – 63 / 70
■ 確認2:
V[X] = E[(X −E[X])2] = E[X2−2X ·E[X]+{E[X]}2] = E[X2]−2{E[X]}2
■ 確認3:E[X + Y ] を求める.
◆ 期待値(平均)は,『起きうる値 × その確率』なので
E[X + Y ] =
n
X
i=1 m
X
j=1
(xi + yj) · Pr[X = xi, Y = yj]
=
n
X
i=1 m
X
j=1
xi · Pr[X = xi, Y = yj]
+
n
X
i=1 m
X
j=1
yj · Pr[X = xi, Y = yj]
2変数確率変数の期待値演算
■ 確認3:E[X + Y ] を求める.
E[X + Y ] =
n
X
i=1 m
X
j=1
xi · Pr[X = xi, Y = yj]
+
n
X
i=1 m
X
j=1
yj · Pr[X = xi, Y = yj]
=
n
X
i=1
xi ·
m
X
j=1
Pr[X = xi, Y = yj]
+
m
X
j=1
yj ·
n
X
i=1
Pr[X = xi, Y = yj]
!
=
n
X
i=1
xi · Pr[X = xi] +
m
X
j=1
yj · Pr[Y = yj] = E[X] + E[Y ]
2変数確率変数の期待値演算
統計学 第4週 – 65 / 70
■ 確認4:E[XY ] = E[X · E[Y |X]] を求める.
◆ 期待値(平均)は,『起きうる値 × その確率』なので
E[XY ] =
n
X
i=1 m
X
j=1
(xi · yj) · Pr[X = xi, Y = yj]
=
n
X
i=1 m
X
j=1
(xi · yj) · Pr[Y = yj|X = xi] · Pr[X = xi]
=
n
X
i=1
xi ·
m
X
j=1
yj · Pr[Y = yj|X = xi]
· Pr[X = xi]
=
n
X
i=1
xi · E[Y |X = xi] · Pr[X = xi] = E[X · E[Y |X]]
確認問題:平均・分散・標準偏差
■ Table 8 を用いて以下の問いに答えてください.
◆ 確率変数 X,Y それぞれの平均と分散・標準偏差を求めてください.
◆ E[6 · X + 10 · Y ] を求めてください.
◆ E[XY ] を求めてください
確認問題:平均・分散・標準偏差
統計学 第4週 – 67 / 70
■ 解答
◆ E[X] = 6/7,E[Y ] = 9/7 E[X] = 0 · 10
35 + 1 · 20
35 + 2 · 5 35 =
30 35 E[Y ] = 0 · 4
35 + 1 · 18
35 + 2 · 12
35 + 3 · 1 35 =
45 35
確認問題:平均・分散・標準偏差
■ 解答
◆ V[X] = 20/49,V[Y ] = 24/49. E[X2] = 02 · 10
35 + 1
2 · 20
35 + 2
2 · 5
35 = 40 35 E[Y 2] = 02 · 4
35 + 1
2 · 18
35 + 2
2 · 12
35 + 3
2 · 1
35 = 75 35 V[X] = 40
35 − 30 35 ·
30 35 =
500 1225 =
20 49 V[Y ] = 75
35 − 45 35 ·
45 35 =
600 1225 =
24 49
確認問題:平均・分散・標準偏差
統計学 第4週 – 69 / 70
■ 解答
◆ E[6 · X + 10 · Y ] を求めてください.(答え:18)
E[6X + 10Y ] = 6 · E[X] + 10 · E[Y ] = 6 · 30 + 10 · 45
35 = 18
確認問題:平均・分散・標準偏差
■ 解答
◆ E[XY ] を求めてください.(答え:30/35)
E[XY ] = (2)(0) · 2
35 + (2)(1) · 3
35 + (2)(2) · 0
35 + (2)(3) · 0 35 + (1)(0) · 2
35 + (1)(1) · 12
35 + (1)(2) · 6
35 + (1)(3) · 0 35 + (0)(0) · 0
35 + (0)(1) · 3
35 + (0)(2) · 6
35 + (0)(3) · 1 35
= (1)(1) · 12
35 + (1)(2) · 6
35 + (2)(1) · 3 35
= 12 35 +
12 35 +
6 35 =
30 35