基礎統計学(第
10
回)
4.5
ベイズの定理
原因に対応する事象をAi(i= 1,2,· · · , n)、結果に対応する事象をBとする。このとき、原因が事象Aiであ る確率P(Ai)を事前確率という。また、Bが起こったとき、その原因が事象Aiである確率P(Ai|B)を事後確 率という。一般的に、事前確率と事後確率との間に次の定理が成り立つ。
[ベイズの定理] 事象A1, A2, ,· · ·, An が互いに排反であり、
A1∪A2∪ · · · ∪An=S, P(Ai)>0 (i= 1,2,· · · , n)
であるとき、P(B)>0である事象Bについて、以下の式が成り立つ。
P(Ai|B) = P(B|Ai)P(Ai)
P(B|Ai)P(Ai) (61)
ここで注目すべき点は、事象Bが起こる以前の事象A1, A2, ,· · ·, Anの確率P(Ai)が、Bが起こることによっ
て、P(Ai|B)に修正されたことである。このことは、日常で起こる様々な出来事がある事象の起こる確率を変
化させる可能性があることを意味する。
(例) ある学科の男子学生と女子学生の比率は3:1であり、男子学生の内40%、女子学生の内20%が県内の
学生である。県内学生の1人を大学祭の実行委員として選んだとき、その実行委員が女子学生である確率
を求めよ。
男子学生と女子学生の確率をP(M), P(F) とする。また、「県内学生である」という事象をT で表し、 男子と女子のそれぞれにおける県内比率をP(T|M), P(T|F) とする。
大学祭の実行委員が男子と女子である確率をそれぞれP(M|T), P(F|T)は、条件付き確率の式(53)より、
P(M|T) = P(M ∩T)
P(T) (62)
P(F|T) = P(F∩T)
P(T) (63)
で求められる。ここで、(62)と(63)、ベイズの定理より、P(M|T), P(F|T) は、
P(M|T) = P(T|M)P(M)
P(T|M)P(M) +P(T|F)P(F) =
0.40×0.75
0.40×0.75 + 0.20×0.25 = 6 7
P(F|T) = P(T|F)P(F)
P(T|M)P(M) +P(T|F)P(F) =
0.40×0.75
0.40×0.75 + 0.20×0.25 = 1 7
である。
[確認課題15] 「ベイズの定理」
ある地方では、住民の1000人に1人の割合で、ある病気に感染しているという。検査薬によって、感染
していれば0.98の確率で陽性反応が出る。ただし、感染していない場合 にも、0.01の確率で陽性の反応
が出るという。今、1人の住民に陽性反応が出たとき、この住民が感染者である確率を求めよ。
5
確率分布
5.1
確率変数
硬貨3枚投げたときに表が出る枚数を考えると、可能性のある事象は0枚から3枚となるので、標本空間Sは
S={0, 1, 2, 3}
となる。ここで、表が出る枚数をxで表すと、x = 0, 1, 2, 3 となり、表の出る枚数という事象を変数を用い
て表したことになる。このように、ある標本空間の各標本点に対応してその値が決まるような変数を確率変数
(random variable)という。先ほどの硬貨3枚を投げる例において、それぞれの枚数となる確率を考えると、
それぞれの値は表5.1の通りである。標本空間Sにおける全ての確率変数とそれに対応する確率との組を確率
分布という。確率分布においては、確率変数xの確率をP(x)と表すことが多い。
表5.1: 硬貨3枚を投げたときの事象の例
x 0 1 2 3 合計
確率 1 8
3 8
3 8
1
8 1
[確認課題16] 「確率分布」
サイコロ2個を投げ、出た目の大きい方の数を確率変数xとするとき、この確率分布を表で示せ。
確率変数のとる値に対応するルールが関数として表される場合、P(x)を確率分布関数という。
(例) サイコロ1個を投げて出る目の確率分布関数を示せ。
サイコロの出る目をx(x = 1, 2, 3, 4, 5, 6)と表すと、
P(1) =P(2) =P(3) =P(4) =P(5) =P(6) = 1 6
となり、全ての確率が同じである。
このように、全ての確率が確率変数の値に関わらず同じとなる確率分布を一様分布という。
(例) 表5.1について、表の出る枚数に関する確率分布関数を示せ。
表の出る枚数をx(x= 0, 1, 2, 3)と表すと、
P(x) =3 Cx
1 2
x
1 2
3−x
となる。
このような確率分布関数を持つ確率分布を二項分布という(この分布の説明は後述する)。
確率変数は離散値をとる場合も、連続値をとる場合もある。確率変数が離散値である場合の確率分布を離散
確率分布、連続値である場合の確率分布を連続確率分布という。
連続確率分布において、確率変数や確率分布を表すことは難しい。確率変数xが連続値である場合、そのと
りうる値は無限に存在する。もし、それぞれのxに確率P(x)>0を割り当てるとすれば、確率の合計は
∞
x
P(x)→ ∞
となり、標本空間Sにおける確率P(S) = 1を超えることになる。したがって、連続確率分布の場合、「それ
ぞれの確率変数xに対応する確率P(x)は0」と考えるのが適当である。そして、確率変数xのとりうる値につ
いて、ある1点ではなく、ある区間に対応することになる。確率変数xについては、「そのとりうる値の任意
の区間に対して、ある確率が対応するような変数である」と定義される。また、そのとりうる値に対して、確
率密度(probability density)が対応するという。確率変数xの値に対応する確率密度をf(x)と表し、これ を確率密度関数という。今、確率密度関数f(x)を持つ連続分布において、確率変数xがa≤x≤bの値をとる 確率P(a≤x≤b)は、
P(a≤x≤b) =
b
a
f(x)dx (64)
で定められる。
図5.1: 連続確率分布のイメージ
5.2
確率分布における期待値と分散
(1)期待値 · · · ある確率分布における確率変数xの理論的な平均値のこと。離散確率分布(確率変数xが離
散値)の場合、期待値E(x)は次のように定義される。
E(x) =
x∈S
xP(x) (65)
ただし、Sは標本空間を表す。また、連続確率分布の場合は以下の通りである。
E(x) =
∞
−∞
xf(x)dx (66)
ここで、表5.1の例に適用すると、表の出る枚数xの期待値E(x)は、標本空間S={0, 1, 2, 3}において、
E(x) =
x∈S
xP(x) = 0× 1 8 + 1×
3 8 + 2×
3
8 + 3× 1 8 =
3 2
である。このことは、1回の試行における表の出る平均枚数は1.5枚であることを示唆している。なお、
連続確率分布の期待値および分散(標準偏差)の例については後の章で示す。
[確認課題17] 「離散確率分布の期待値」
サイコロ2個を投げ、出た目の和を確率変数xとするとき、期待値E(x)を求めよ。
[確認課題18] 「離散確率分布の期待値」
今年の「グリーンジャンボ宝くじ」の当選くじの内訳(当選金額と当選本数)を調べた上で、当選金
額をxとして、1枚あたりの当選金額の期待値E(x)を求めよ。
(2)分散 · · · ある確率分布における確率変数xの分散度を表す指標のこと。離散確率分布(確率変数xが離
散値)の場合、分散V (x)は次のように定義される。
V (x) =
x∈S
{x−E(x)}2P(x) (67)
ただし、Sは標本空間を表す。また、連続確率分布の場合は以下の通りである。
V (x) =
∞
−∞
{x−E(x)}2f(x)dx (68)
表5.1の例に適用すると、表の出る枚数xの分散V (x)は、標本空間S={0, 1, 2, 3}において、
V (x) =
x∈S
{x−E(x)}2P(x)
= {0−1.5}2× 1
8 +{1−1.5} 2
× 38 +{2−1.5}2× 3
8 +{3−1.5} 2
× 18
= 3 4
である。また、標準偏差s(x)は、s(x) =
V (x)より、
s(x) =V (x) =
√
3 2
(67)については、以下のように書き換えることができる。
V (x) =
x∈S
{x−E(x)}2P(x)
=
x∈S
x2P(x)− {E(x)}2 (69)
[確認課題19] 「離散確率分布の期待値」
([確認課題17]の続き)サイコロ2個を投げ、出た目の和を確率変数xとするとき、分散V (x)を 求めよ。
[確認課題20] 「離散確率分布の期待値」
サイコロ2個を投げ、出た目の和を4で割った余りを確率変数xとするとき、期待値E(x)および分
散V (x)を求めよ。
[確認課題21] 「離散確率分布の応用」
「サイコロ1個を投げ、出た目の値によって、賞金を出す」というイベントを企画することになっ
た。このイベントへの参加料を1回100円とするとき、どのようなくじの内訳にすれば主催者側に
収益が出るだろうか。等級は最大3つまで設定してよいものとする。ただし、いずれの等級も「互い
に背反」でなければならない。また、1等の賞金は200円で、いずれかの等級が当選する確率は50%
以上でなければならない。(ヒント:収益= 1回の参加料 −1回の当選金額の期待値)