担当:鹿野(大阪府立大学)
2014 年度前期
はじめに
前回の復習
確率変数の期待値(位置の尺度)。
確率変数の分散・標準偏差(散らばりの尺度)、期待値と標準偏差で標準化。
今回学ぶこと
二項分布(特殊ケース→ベルヌーイ分布)。
ポアソン分布。
テキスト該当箇所:6.2、6.3章。
1 二項分布
1.1
代表的な離散型・連続型確率分布
世の中に溢れる、ランダムな社会現象・自然現象。
⊲ 例:大阪府堺市の明日の最高気温、サッカー選手の1試合のゴール数、就職活動開 始から内定をもらうまでの日数、etc。
⊲ に左右され変動する一方、 もある。
Remark:統計学の視点⇒これらは全て 。
⊲ 確率分布 f (x)に従って、実現値が発生。バラつきの中の、法則性。
⊲ 例:X =最高気温。確率分布 f (x)に従って(デタラメではない!)、実現値xのバラ つきが起こる。...日々の暮らしで我々が出会うのは、この実現値のひとつ。
⊲ ∴確率分布 f (x)を特定→Xの予測( )が可能に!
代表的な確率分布:さまざまな現象の確率・頻度を近似する確率分布。
⊲ 離散型:二項分布、ポアソン分布(⇒今回)。
⊲ 連続型:一様分布、指数分布(⇒講義ノート#10)。
⊲ 特に重要な連続型:正規分布(⇒講義ノート#11)。
1
1.2
ベルヌーイ分布
ベルヌーイ分布:実現値として0 or 1いずれかの値をとる確率変数Xの確率関数が f (x) = px(1 − p)1−x, x = 0, 1, (0 ≤ p ≤ 1) (1)
のとき、これを と呼ぶ。pは (生起確率)。
⊲ X = 0、X = 1の確率は、(1)式より
Pr(X = 0) = f (0) = p0(1 − p)1 = , (2) Pr(X = 1) = f (1) = p1(1 − p)0 = . (3)
∴成功確率pは、X = 1が出る確率Pr(X = 1)のこと。
⊲ 注意:(1)式は、次の表記でも良い。
Pr(X = x) = f (x) =
⎧⎪
⎪⎨
⎪⎪
⎩
1 − p (for x = 0)
p (for x = 1). (4)
分岐表現を含む(4)式より、(1)式のほうが数学的に扱いやすい。
ベルヌーイ分布の期待値・分散:Xがベルヌーイ確率変数ならば、期待値・分散は
E(X) = , Var(X) = . (5)
∴成功確率pがそのまま、Xの期待値に。
⊲ E(X) = pの証明:(2)式と(3)式、および期待値の定義(講義ノート#08)から
E(X) = 0 · f (0) + 1 · f (1) = 0 · (1 − p) + 1 · p = p. (6)
⊲ Var(X) = p(1 − p)の証明:⇒今回の復習問題。
ベルヌーイ分布の具体例:結果が しかない確率的試行全般。結果のどちらかを 便宜上1と置く。
⊲ 受験で不合格or合格(不合格= 0、合格= 1、合格確率p)。
⊲ コイントスで裏or表(裏= 0、表= 1、表の確率p = 0.5)。
1.3
二項分布
二項分布:成功確率 pのベルヌーイ試行を独立にn回行い、1が出た回数をXと置けば、 Xの実現値は 。このときXの確率分布は
f (x) =nCxpx(1 − p)n−x, x = 0, 1, 2, . . . , n. (7)
これを と呼ぶ。ここでnCx = n!
x!(n−x)!は組み合わせの数。
⊲ 二つのパラメータp(一回当たりの成功確率)、n(試行回数)を持つ。
⊲ nは実現値xの上限。∴ Xはnを 。Pr(X > n) = 0。
0 2 4 6 8 10
0.000.100.20
A: Bin(10,0.5)
x
Pr(X=x)=f(x) E( X) =5
0 2 4 6 8 10
0.000.100.200.30
B: Bin(10,0.8)
x Pr(X=x)=f(x) E( X) =8
0 2 4 6 8 10
0.000.100.200.30
C: Bin(5,0.2)
x
Pr(X=x)=f(x) E( X) =1
0 10 20 30 40 50
0.000.040.080.12
D: Bin(50,0.2)
x
Pr(X=x)=f(x)
E( X) =10
図1:さまざまなパラメータ値の二項分布(E(X) = np)
Remark:(7)式を書くのは面倒→二項分布に従う確率変数を、 と略記
(Bin=binomial distribution)。
⊲ ∴ベルヌーイ分布はn = 1回きりの二項分布なので、X ∼ Bin(1, p)。
⊲ 代表的な(固有名詞の)確率分布は、一般に次のように略記。
X ∼ ( , , . . .). (8)
「何分布で、パラメータの値がいくらか」が分かれば分布の描画・確率計算が可能。
二項分布Bin(n, p)の期待値・分散:X ∼ Bin(n, p)ならば、期待値・分散は
E(X) = , Var(X) = . (9)
∴ベルヌーイ試行一回当たりの期待値・分散(5)式を 倍→二項分布の期待値・分散。
⊲ 証明:テキストp130参照。モーメント母関数(テキストp102∼104)を使う。
Remark:二項分布Bin(n, p)のパラメータn、pと、分布の形状(図1)
⊲ 図1A vs.図1B:nを固定すると、pが大きいほど分布の重心が に。(p =
で左右対称。)
⊲ 図1C vs.図1D:p固定でnを増やすと、やがて左右対称の に。
Bin(n, p)の具体例:n回繰り返されるベルヌーイ試行の、 。
⊲ 合格率pの試験で、n人中x人(x = 0, 1, 2, . . . , n)合格する確率。
⊲ 不良品の確率がpのとき、n個中x個(x = 0, 1, 2, . . . , n)不良品が出る確率。
⊲ 打率 pの野球選手が、n打席中x本(x = 0, 1, 2, . . . , n)ヒットを出す確率。
例:サイコロを2回振って、4の目がx = 0, 1, 2回出る確率は?⇒コレは試行回数n = 2、 成功確率p = 1
6の二項分布Bin
2,16。
⊲ (7)式で確率計算→4が一回も出ない確率が、圧倒的に高い。
Pr(X = 0) = f (0) = 2! 0!2!
1 6
0 5
6 2
= ,
Pr(X = 1) = f (1) = 2! 1!2!
1 6
1 5
6 1
= ,
Pr(X = 2) = f (2) = 2! 2!2!
1 6
2 5
6 0
= . (10)
2 ポアソン分布
2.1
ポアソン分布
ポアソン分布:二項分布Bin(n, p)について、nが十分大きく、かつpが非常に小さい場 合、成功回数Xの分布は
f (x) = e
−λλx
x! , x = 0, 1, 2, . . . , (λ > 0) (11)
に収束。これを (Poisson distribution)と呼び、 と略記。
⊲ λ(ラムダ)はポアソン分布固有のパラメータ。e = 2.718...は自然対数の底、定数。
⊲ Bin(n, p)との共通点:回数・個数など、正の整数値をとる の分布。
⊲ Bin(n, p)との相違点:試行回数n(実現値xの )に相当するパラメータが無
い。∴非常に大きな実現値の確率も、カバー。
ポアソン分布Po(λ)の期待値・分散:X ∼ Po(λ)ならば、、期待値・分散は
E(X) = , Var(X) = . (12)
∴常に「期待値=分散= λ」という、珍しい性質。
⊲ 証明:テキストp130参照(モーメント母関数を使用)。
Remark:ポアソン分布Po(λ)のパラメータλと、分布の形状(図2)
⊲ λ = E(X)が大きい⇔分布の重心が に。
⊲ λを増やしてゆくと、やがて左右対称の に。
0 1 2 3 4 5 6
0.00.10.20.3
A: Po(1)
x
Pr(X=x)=f(x)
E( X) =1
0 2 4 6 8
0.000.100.20
B: Po(2)
x
Pr(X=x)=f(x)
E( X) =2
0 5 10 15
0.000.100.20
C: Po(4)
x
Pr(X=x)=f(x)
E( X) =4
0 20 40 60 80 100
0.000.020.04
D: Po(50)
x
Pr(X=x)=f(x)
E( X) =50
図2:さまざまなパラメータ値のポアソン分布(E(X) = λ)
Po(λ)の具体例:試行回数は が、一回当たりの生起確率が 試行の、生
起回数。
⊲ 堺市内の食中毒発生件数。
⊲ 第二京阪道路で追突事故が発生する回数。
⊲ 腎細胞で突然変異が検出される回数。
例:サッカーJリーグ一部(J1)2012年第1節∼第3節、のべ54チームのゴール数。
⊲ データ(サンプル数54)の平均X = 1.116¯ 、分散s2= 1.001、標準偏差s = 1.001。
⊲ ポアソン分布の未知パラメータλをˆλ = 1.116と置き、ゴール数実現値x = 0, 1, 2, . . . , の確率計算。⇒データの相対度数と比較。
ポアソン確率(%) 31.16 36.33 21.18 8.23 2.40 0.56 データ相対度数(%) 29.63 35.19 25.93 7.41 1.85 0.00 x(ゴール数) 0 1 2 3 4 5 ...ポアソン分布Po(1.116)は、(11)式の関数形でゴール数の分布をうまく近似!
Remark:確率分布から確率計算をする手順。分布型+パラメータ値→確率。
⊲ パラメータの値が未知なら、データから近似値を得る。(パラメータの 。詳 しくはこの講義の後半で)。例:λ = E(X)が未知→データの平均値X = 1.116¯ で代用。
⊲ 確率を求めたい実現値xとパラメータ値を与え、パソコンで計算。例:Po(1.116)で Pr(X = 2)の計算→Excelの関数POISSON.DIST(2, 1.116, FALSE)。
2.2
ポアソンの小数の法則
二項分布とポアソン分布の関係:ポアソン分布Po(λ)のパラメータをλ = np = 2.5と置 く。(n、pは二項分布Bin(n, p)のパラメータ。E(X) = npに注意。)
⊲ λ = np = 2.5と固定したまま、nを増やし、pを減らしながら確率Pr(X = 3)を両分 布で計算。(∴λは2.5で不変。)
n p λ = np Bin(n, p)で計算 Po(λ)で計算
5 0.5 2.5 Pr(X = 3) = 0.313 Pr(X = 3) = 0.213
10 0.25 2.5 0.250 0.213
50 0.05 2.5 0.220 0.213
100 0.025 2.5 0.217 0.213
⊲ ∴ 、 のとき、二項分布の確率はポアソン分布の確率に近づく。
ポアソンの小数の法則:二項分布Bin(n, p)について、期待値をE(X) = np = λ(正の定数) に固定しつつn → ∞(ここでおのずとp → 0)という極限をとると、分布関数(7)式はポ アソン分布(11)式に近づく。
f (x) =nCxpx(1 − p)n−x
Bin(n, p)
np = λ で固定
−−−−−−−−−−−→
n → ∞ (p → 0) f (x) =
e−λλx
x!
Po(λ)
. (13)
この性質を、 と呼ぶ。
⊲ ∴一回当たりの確率は小さいが試行回数が多い確率試行の生起回数の分布として、ポ アソン分布がふさわしい。
⊲ ただの極限ではなく、np = λ固定でn → ∞。
⊲ 証明:岩田暁一『経済分析のための統計的方法(第2版)』のp47参照。
まとめと復習問題
今回のまとめ
二項分布Bin(n, p):成功確率pで、x = 0, 1, 2, . . . , n回成功する確率。
ポアソン分布Po(λ):試行回数が多く、成功確率の小さい状況で成功する回数x = 0, 1, 2, . . .。
復習問題
出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。
1. (5)式のVar(X) = p(1 − p)を証明せよ。ヒント:分散はVar(X) = E(X2) − E(X)2と書ける。 またE(X) = p。E(X2)はpを使うとどのように書ける?
2. 二項分布Bin(n, p)とポアソン分布Po(λ)にはどのような関係があるか?「小数の法則」と
いう用語を用いて、簡潔に述べよ。