担当:鹿野(大阪府立大学)
2014 年度前期
はじめに
前回の復習
ベイズの定理。
ベイズ予測の応用。
今回学ぶこと
確率変数。
確率分布。
テキスト該当箇所:5.1章。
1 確率変数
1.1
ここまでの確率
講義ノート#04∼#06の確率
⊲ まず標本空間Ωを設定→その要素(標本点)をωとする。
⊲ Ωの任意の部分集合A ⊂ Ωを、事象とする。
⊲ 確率の公理を満たすよう、Aの確率Pr(A)を与える。
Remark:集合論ベースの確率は、扱うのが面倒・必要以上に抽象的。
⊲ 一方統計学では、「数量」(普通の数字)の確率が与えられれば十分。
⊲ ∴集合による「事象」ではなく、「数量」の確率を 分析するには?⇒確率変 数と確率分布。
1.2
事象の確率から確率変数へ
確率変数:起こりうる値全て、あるいは区間の全てに確率(出やすさ)が与えられている 変数を、 と呼び、大文字のXで表す。
⊲ 実現値:Xの、任意の起こり得る値を、小文字の定数xやa、bで表す。これらをX
の と呼ぶ。
1
⊲ Xがある実現値xをとる確率を と表記。
⊲ 同様に、a < X < bとなる確率を と表記。
例:サイコロの結果を確率変数Xと置く。
⊲ Xの実現値はx = 1, 2, . . . , 6。歪みの無いサイコロならば、実現値それぞれの確率は Pr(X = x) = 1
6, x = 1, 2, . . . , 6. (1)
⊲ ∴起こり得る値(実現値)とその確率を、直接結びつけて考えるのが確率変数。も う「標本空間Ω」から始める必要は無い!
離散型・連続型の確率変数
⊲ 離散型:実現値ひとつひとつに番号を振り、数え上げることができる確率変数を、 の確率変数と呼ぶ。例:サイコロなど。
⊲ 連続型:厳密に測定すると実現値が無限に存在するため、個々に番号が振れない確 率変数を、 の確率変数と呼ぶ。長さ、重さ、貨幣価値など。
例:円周1メールのルーレットを回し、針がどこに止まるか?
⊲ ルーレットの針が指す点を確率変数Xと置くと、実現値は開閉区間(0, 1]上に無限
に存在(0 < x ≤ 1)。∴全て列挙はムリ。...コレは の例。
Remark:離散型・連続型の区別
⊲ 連続型のXは、実現値xと確率Pr(X = x)の対応関係を作るのが難しい。(xが無限 にあるため。)
⊲ ∴離散型と連続型に、それぞれ異なるルールで確率を割り振る。⇒確率関数(離散 型)と密度関数(連続型)。
2 確率分布
2.1
離散型の確率分布:確率関数
確率分布:確率変数Xの実現値(or区間)とその確率を結びつける関数を、 と呼ぶ。離散型・連続型で、取り扱いが大幅に異なる。
⊲ Xが離散型→確率関数。
⊲ Xが連続型→確率密度関数。
確率関数:実現値 x1,x2, . . . ,xKをとる離散型の確率変数Xを考える。Xが任意の実現値 xkをとる確率が
Pr(X = xk) = f (xk), k = 1, 2, . . . , K (2) で得られるとき、この f (xk)を と呼ぶ。
⊲ ∴「X = xkとなる確率はいくら?」と聞くと「f (xk)です」と答えてくれる関数。
1 2 3 4 5 6 x
Pr(X=x)=f(x) 0.00.10.20.30.4
A:サイコロ
1 2 3 4 5 6
x Pr(X=x)=f(x) 0.00.10.20.30.4
B:細工されたサイコロ
図1:歪みのないサイコロvs.細工されたサイコロの確率関数
⊲ f (xk)の満たすべき性質:確率の公理(講義ノート#03)に注意すれば
確率は非負: Pr(X = xk) = f (xk) ≥ , (3) 確率の総和は1:
K
k=1
Pr(X = xk) =
K
k=1
f (xk) = . (4)
例:歪みのないサイコロと、細工されたサイコロ
⊲ 図1A:歪みのないサイコロ(実現値1, 2, . . . , 6)の確率関数は Pr(X = xk) = f (xk) = 1
6 (for all xk) (5)
⊲ 図1B:サイコロに細工。“2”の目を消し、“5”を上書き→実現値1, 5, 3, 4, 5, 6。確率 関数は
Pr(X = xk) = f (xk) =
⎧⎪
⎪⎪
⎪⎪
⎨
⎪⎪
⎪⎪
⎪⎩
1
6 (for xk = 1, 3, 4, 6) 0 (for xk = 2)
1
3 (for xk = 5)
. (6)
Remark:確率関数 f (xk)をグラフに→Xの ・ が明瞭に。
⊲ さまざまな値を取り得るデータの分布を、ヒストグラム(記述統計:講義ノート#02) でまとめるのと同じ発想。
2.2
連続型の確率分布:確率密度関数
確率密度関数:連続型の確率変数Xが区間[a, b]の値をとる確率が、定積分 Pr(a ≤ X ≤ b) =
b a
f (x)dx (7)
で得られるとき、f (x)をXの と呼ぶ。
0.000.040.08
f(x)
a b
R
A:Pr ( a<X<b)
0.000.040.08
f(x)
c
S
B:Pr ( X>c )
図2:密度関数のグラフと確率の対応関係
⊲ ∴特定の実現値xにピンポイントで確率を与えるのは諦めて、代わりに区間(幅)の 確率を与える。
⊲ f (x)の満たすべき条件:離散型の条件(3)、(4)式と類似。
確率は非負: f (x) ≥ ⇒ Pr(a ≤ X ≤ b) =
b a
f (x)dx ≥ , (8)
確率の総和は1: Pr(−∞ ≤ X ≤ ∞) =
∞
−∞
f (x) = . (9)
(9)式の積分区間は、実現値の下限x1・上限xKが分かる場合は
xK
x1 f (x) = 1
で良い。
Remark:密度関数 f (x)のグラフと確率の対応関係(図2A)
⊲ (7)式の定積分⇔図の の面積。
⊲ 条件(8)、(9)式⇔ f (x)の曲線と横軸で描かれる の面積=
∞
−∞ f (x) = 1。
(全体の大きさを1に基準化。)
⊲ ∴図形全体(面積= 1)に占める斜線部Rの面積で、確率Pr(a ≤ X ≤ b)を表現。
⊲ 注意:確率計算以外の場合は、離散型同様「グラフ f (x)の山のあたり=出やすい値」 と見て構わない。
密度関数の性質1:連続型のXが特定の実現値aをとる確率はゼロ。
Pr(X = a) = . (10)
∴密度関数で区間の確率は得られるが、ある点の確率を求めようとすると常にゼロ。確率 関数(2)式(離散型)と、決定的に異なる性質。
⊲ 証明:「X = a」は「 」とも言える。確率を密度関数 f (x)で求めると
Pr(X = a) = =
a
a f (x)dx = [F(x)]aa= 0. (11) ただしF(x)は f (x)の原始関数F′(x) = f (x) + c。
0 1 2 3 4 5
0.00.10.20.30.4
x
f(x)
R
図3: (16)式の密度関数と確率Pr(1 < X < 2)(斜線部R)
密度関数の性質2:連続型のXの確率は、“≤”と“<”を区別しなくて良い。
Pr(a ≤ X ≤ b) = . (12)
⊲ 証明:性質1よりPr(X = a) = 0、Pr(X = b) = 0。また「X = a」、「a < X < b」、
「X = b」は互いに排反。よって確率の公理(講義ノート#03)より
Pr(a ≤ X ≤ b) = Pr[(X = a) ∪ (a < X < b) ∪ (X = b)
三つの排反事象に分割
]
= Pr(X = a)
=0
+ Pr(a < X < b) + Pr(X = b)
=0
= Pr(a < X < b). (13)
密度関数の性質3:Xが定数cを超える確率は、図2Bの斜線部S。
Pr(X > c) = . (14)
⊲ 証明:「X > c」は「 」とも言える。確率を密度関数f (x)から求めると
Pr(X > c) = =
∞ c
f (x)dx. (15)
コレは図2B斜線部Sの面積を求めるのと同じ。
⊲ 同様にPr(X < c) =−∞c f (x)dx。
例:Xの密度関数が
f (x) = 10 − x
32 , 0 ≤ x ≤ 4 (16)
であるとする(図3)。Pr(1 < X ≤ 3)はいくら?
⊲ 図で確認⇒求める確率は、図3の斜線部Rの面積。
⊲ (16)式を区間[1, 3]で定積分すれば(密度関数の性質2に注意) Pr(1 < X ≤ 3) = Pr(1 ≤ X ≤ 3)
= 1 32
3
1 (10 − x)dx = 1 32
10x −1 2x
2
3 1
= = .
(17)
Remark:確率分布 f (x)(確率関数・密度関数)の役割をまとめると
1. グラフに描く→Xの出やすい値・出にくい値を把握。 2. Xの確率Pr(X = x)やPr(a < X < b)の計算。
まとめと復習問題
今回のまとめ
確率変数:実現値に確率(出やすさ)を伴う変数。
確率分布:確率変数の確率。離散型→確率関数、連続型→密度関数。
復習問題
出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。 1. 連続型の確率変数Xの密度関数が
f (x) = 4 + x
16 , −2 ≤ x ≤ 2 (18)
であるとする。実現値が正負の領域にまたがっている点に注意。 (a) Xの確率Pr(0 < X < 1)を求めよ。
(b) このXは、負の値(X < 0)と非負の値(X ≥ 0)のどちらが出やすいか?また、それは どうしてか?(ヒント:確率計算で示しても、グラフを描いて示しても、どちらでも 良い。)