確率論(オムニバス)原の担当分 (2002 年秋学期,名大三年生向け)
原 隆
名古屋大学 多元数理科学研究科
e-mail: [email protected]ver.0.1, 2003.1.17
概 要
以下は「オムニバス講義」(2002年秋学期,名大三年生向け)で用いた講義のレジュメである.レジュメはあ くまでレジュメであって,これだけを読んでわかるようにはなっていない.講義に出てくれた学生諸君が復習をす るときに役に立つように,公開するものである.
このようなものは売り物になるくらいの完成度にして公開すべきとの意見もあり得ると思う.ただ,そのため にはもっともっと多くの時間を割く必要が生じ,他の仕事が圧迫されてくる.他の仕事とのバランスを考えた場合,
この程度が妥当であるとの判断に達した.とは言え,ミスプリなどがまだまだあると思われるので,御指摘いただ ければ大変に幸いである.
目 次
1 確率論の基礎と条件付き確率 2
1.1
確率論の舞台
—事象と標本空間
. . . . 21.2
数学における確率
. . . . 21.3
数の数え方の復習
. . . . 31.4
条件付き確率
. . . . 51.5
ベイズの公式と推定
. . . . 52 大数の法則と中心極限定理 8 2.1
確率変数,期待値と分散
. . . . 82.2
チェビシェフの不等式とその仲間
. . . . 102.3
大数の(弱)法則
. . . . 112.4
おまけ(ちょっと一休み) :Weierstrass の多項式近似定理
. . . . 122.5
大数の強法則
. . . . 142.6
中心極限定理
. . . . 142.7
特性関数と中心極限定理
. . . . 152.8
いくつかの問題
. . . . 183 ランダムウォーク 21 3.1
背景説明
. . . . 213.2 Mean Square Displacement . . . . 22
3.3
再帰性
. . . . 241
確率論の基礎と条件付き確率
1.1
確率論の舞台
—事象と標本空間
現実の問題の「確からしさ」を議論するのはなかなか大変である.そこで,数学ではまず,現実から少し切り離 した形で,考えやすい舞台を設定する.
定義1.1.1
可能な結果の全体からなる集合を標本空間(sample space)S と言う.標本空間の元(つまり,一回の
「実験」の結果になりうるもの)を標本点または根元事象と言う.
標本空間が有限でない場合はいろいろとややこしいことが起こるので,ともかくこの講義では標本空間が有限の 場合(および有限からのアナロジーで理解できる場合)に話を限る.このような「逃げ」をうたないでマトモにや るには,どうしても測度論の知識が必要になる.
定義1.1.2
数学的には事象とは単に標本空間の部分集合,つまり「根元事象の集まり」のことである.なお,事象
には空集合(起こり得ないこと),および標本空間全体も含めて考える.
事象を標本空間の部分集合として定義するのは,以下の事象の演算ともあっている.まず,2つの事象
E, Fに 対して,その和事象を集合としての和集合
E∪Fとして,またその積事象を集合としての交わり
E∩Fとして定 義する(事象の場合,E
∩Fを
EFと略記することが多い).日常言語に直せば,E
∪Fとは
Eまたは
Fのどち らかが起こること,E
∩F =EFとは
Eと
Fの両方が起こることを意味する.更に,E
cを
S\E(E の補集合)
をして定義し,E の 余事象と言う.これは日常言語では「事象
Eが起こらないこと」に相当する.
なお,以上の事をまとめると,以下の「事象の公理」になる.有限集合なら今までの定義でよいが,S が無限の 時はちと問題になるので.
定義1.1.3 (事象の公理) Sample SpaceS
が与えられたとき,S の事象の集まりとは,以下を満たす
Sの部分集 合の集まり(部分集合族)F のことである.
1. F 3∅
2. E∈ F
ならば
Ec ∈ F 3. E1, E2, E3, . . .∈ Fに対し,
[∞
i=1
Ei∈ F
1.2
数学における確率
今までは単に確率をやる舞台を設定したにすぎない.これからいよいよ, 「確率」を割り振っていこう.
数学ではある意味で「天下りに」確率を定める.標本空間が有限集合の場合から始めよう.標本空間
S={e1, e2, . . . , eN}を考える(e
jが根元事象).
そもそも,確率とは何だろうか?いろんな事象の「起こり易さ」を表すもののハズである.その「起こり易さ」は根 元事象
ejの「起こり易さ」を決めれば決まるだろう.だから,要するに,根元事象の起こり易さ
pj(j
= 1,2, . . . , N)をすべて与えれば確率が決まったと言えるのではないか?
では,この根元事象の確率
pjはどんな性質を満たすべきだろうか?まず,これは確率だから
0と
1の間にない といけない.更に,S そのものというのは全事象だからこの確率は
1であるべし.要するに
0≤pj≤1,
XN
j=1
pj = 1 (1.2.1)
であればよい,ということになる.そして,根元でない事象
E={e1, e2, e3, . . . , en}については,
(E の確率)
= Xnj=1
pj (1.2.2)
となるはずである.と言うのも,E
={e1} ∪ {e2} ∪ {e3} ∪. . .∪ {en}であるので,
Eとは 「e
1か,e
2か,. . . ,e
nのどれかが起こる」事象だから,それぞれの事象の確率の和になるのが自然.
これが数学での確率論の出発点である.要するに
•
標本空間
S上に根元事象の確率
pjを
(1.2.1)を満たす形で与え,
•
根元事象でない一般の事象
Eの確率を
(1.2.2)で計算する.
それで,このルールを満たすものを全て確率と認めるのである. (どのように
pjを選ぶか,は個々の問題に応じて うまく決める. )
さて,上のように決めた「それぞれの事象の確率」はどんな性質を満たしているだろうか?上では根元事象から 確率を決めたが,そうでない場合
—つまり,根元事象の和事象である色々な事象の確率から決めた方が楽な場合
—
も(後で)出てくる.そのために, (根元事象から出発しない)抽象的な確率の性質を公理としてまとめておく.
定義1.2.1 (確率の公理,簡単バージョン)
標本空間
Sが与えられたとき,S 上の確率(または確率測度)とは,
以下を満たす
S上の関数
Pのこと.すなわち,S の部分集合
Eのそれぞれについて関数の値
P[E]が定まり,かつ
1.全ての
E⊂ Sに対して
0≤P[E]≤1.2. P(S) = 1
3. E1, E2, E3, . . .⊂ S
が
mutually exclusive,つまり 「i6=jならば
Ei∩Ej=∅」,のとき,P£ [
i
Ei
¤=X
i
P[Ei]
なお,標本空間
Sとその上の確率測度
Pをあわせて確率空間と言う.
上の性質を満たしている
Pなら何でも確率と認めてしまおう,と言うわけ.ただし,実際にどのような
Pを採 用するかは考えている具体的問題に応じて決めるべきである.例えば硬貨投げ一つをとっても, 「マトモ」に表と裏 が同じように出る硬貨なら
12の確率を付与するのが良いだろうが, 「イカサマ」な硬貨なら別の取り方をすべきだ.
この確率の性質については以下が成り立つ.
命題1.2.2
P[Ec] = 1−P[E] (1.2.3)
E⊂F =⇒ P[E]≤P[F] (1.2.4)
P[E∪F] =P[E] +P[F]−P[EF] (1.2.5)
1.3
数の数え方の復習
(始めに)以下のようなことは頭から覚え込むのではなく,自分で納得して理解するようにすべし.この小節の 内容は復習のようなものだから講義では触れなかった.
まず記号を導入しておく.
定義1.3.1
• n >0
に対して,
n!≡n·(n−1)·(n−2)· · ·3·2·1,また0! = 1と定義する.
• 0≤k≤n
に対して,
µn k
¶
≡ n!
k!(n−k)!
と定義し, 「二項係数」と呼ぶ.
• 0≤ni (i= 1,2, . . . , r), Xr
i=1
ni=n
のとき,
à n
n1n2n3· · · nr
!
= n!
n1!n2!n3!· · · nr!
を多項係数と言う.
1
から
nまでの数字を書いた
n枚のカードがあって,これから
k枚を取り出す場合を考える.取り出し方(戻 し方)に応じて,大体3とおりある.
Case 1: n
枚のカードから繰り返しを許して
k枚とり,その結果を並べる場合.この場合の結果は
(a1, a2, . . . , ak)と言う列になる(a
jは
j番目に出たカードの目).ここでそれぞれの
ajは勝手に
1から
nの値をとれるので,結 果の総数(場合の数)は
n·n·n· · ·n=nk (1.3.1)
となる.
Case 2: n
枚のカードから繰り返しを許さないで
k枚とり,その結果を並べる場合.やはり結果は
(a1, a2, . . . , ak)の形になるが,今回は
ajは全て別のものにならざるを得ない.a
1は
n通り,a
2は
a1をよけるから
(n−1)通り,
と考えて行くと,結果は
n·(n−1)·(n−2)· · ·(n−k+ 1) = n!
(n−k)! (1.3.2)
となる.
Case 3: n
枚のカードから繰り返しを許さないで
k枚とるが,その順序は気にしない場合.やはり結果は
case 2のように
(a1, a2, . . . , ak)の形になるが,今は
ajの順序を気にしない(順序が異なっても同じものと見なす).従っ て場合の数は
Case2のものを 「k 個の数字を並べる並べ方」k! で割ったものになる:
n!
(n−k)!× 1 k! =
µn k
¶
(1.3.3)
ホンの少しだけ,これらの応用例を挙げておく.これらの証明は帰納法でもできるが,講義では
Case 3の数え 方を使う方法を紹介した
命題1.3.2 1≤k≤n
に対して,
µn k
¶
= µn−1
k−1
¶ +
µn−1 k
¶
.
命題1.3.3 (二項定理) 1≤n
では,(x
+y)n = Xnk=0
µn k
¶
xkyn−k
.
Case 4.
なお,補足的に
Case 3の一般化を考えておく.n 枚のカードを,それぞれ
n1, n2, . . . , nr枚のカードか らなる
r個のグループに分ける場合(
Pri=1ni=n).この場合はまずn
枚から
n1枚を取り出し,次に
n−n1枚 から
n2枚を取り出し,次に
n−n1−n2枚から
n3枚を取り出し. . .と考えて
µn n1
¶
×
µn−n1
n2
¶
×
µn−n1−n2
n3
¶
× · · · ×1 = n!
n1!n2!n3!· · ·nr! =
à n
n1n2n3· · · nr
!
(1.3.4)
となることがわかる.
命題1.3.4 (多項定理) n≥0
に対し,
(x1+x2+x3+· · ·+xr)n= X
n1,n2,···,nr≥0 n1+n2+...+nr=n
(x1)n1(x2)n2 · · ·(xr)nr
.
(1.3.5)1.4
条件付き確率
世の中にはいろいろと関係のありそうな事象がある.例えば, 「ある人の身長が
180cm以上である」 「ある人の体 重は
70kg以上である」は同時に起こりやすいような気はする(少なくとも,身長
150cmの人が
70kgあることは あまりないだろう).このような事象の関係を捉えるため, 「独立」および「条件付き確率」の概念を導入する.
定義1.4.1 (独立な事象)
確率空間
(S, P)中の事象
E, Fが,
P[E∩F] =P[E]P[F] (1.4.1)
を満たすとき,F と
Eは独立な事象 であると言う.
日常言語で言えば,E と
Fが独立とは,E と
Fの起こり方が無関係(F が起こっても起こらなくても,E の起 こり方には影響がない)と言う場合にあたる.
E, F
が独立でない場合は
Fの起こり方が
Eの起こり方に影響しているわけだ.影響の度合いを測るため, 「条 件付き確率」を導入する.
定義1.4.2 (条件付き確率)
確率空間
(S, P)中の事象
E, Fを考える.P[F
]6= 0の場合に,
P[E|F]≡ P[E∩F]
P[F] (1.4.2)
を
Fの下で
Eが起こる条件付き確率 と言う.
註 1.4.3 E
と
Fが独立の場合はもちろん,P
[E|F] =P[E]となる.
これから条件付き確率の役割(どのように役に立つのか)を見ていく.大まかに2つの場合がある.
a.
条件付き確率そのものに興味がある場合(次の小節「ベイズ推定」を参照).この場合,条件付き確率を如何 に解釈するかがキーになる.
b.
条件付き確率を計算の中間段階として利用し,P
[E]を計算する.現実には
P[E]そのものよりも
P[E|F]と
P[F]の方が良くわかる場合が多々あるので,条件付き確率を用いた計算が有用になる.具体的には
P[E] =P[E|F]P[F] +P[E|Fc]P[Fc] (1.4.3)
とする.
ベイズ推定においても
bの計算法を併用することが多く, 「ベイズの公式」として知られている(後述).
1.5
ベイズの公式と推定
ここでは条件付き期待値の,今までとは少し違った解釈を学ぼう.すなわち
P[F|E]は 「E が起こったと言う 条件の下で
Fが起こる確率」なのだが,解釈としては 「E と言う情報を知った後で
Fの確率をどのように設定す るのがよいか」を示す式とも考えられる.この節では,このような解釈に基づく推論も考える.
命題1.5.1 (Bayes の公式)
確率空間
(S, P)を考える.まず,E, F
⊂ Sに対して
P[F|E] = P[F∩E]P[E] = P[E|F]P[F]
P[E|F]P[F] + P[E|Fc]P[Fc] (1.5.1)
が成立.また,事象
Fi(i
= 1,2, . . . , k)が互いに排反(Fi∩Fj=∅fori6=j),かつ [ki=1
Fi=S
を満たすときは,
P[Fj|E] = P[Fj∩E]
P[E] = P[E|Fj]P[Fj] Xk
i=1
P[E|Fi]P[Fi]
(1.5.2)
が成立.
上の式は単に条件付き確率の定義
P[F|E] = P[F∩E]
P[E] (1.5.3)
と
(1.4.3)の一般化
P[E] = Xk
i=1
P[E|Fi]P[Fi] (1.5.4)
を組み合わせただけのものであるから無理に暗記しない方がよい.P
[E]の計算に
(1.5.4)が不可欠な事例が多々あ るから,応用上は非常に役立つ.また,解釈としても,左辺は
Eで条件づけているのに,右辺は
Fiで条件付けて いて,条件付けの立場が逆転しているように見えるのも面白い.
問 1.5.2
牛の病気をテストする検査を考える.この検査の誤差は
•
病気の牛をテストすると
(1−p)の確率で「病気だ」と正しく判定するが,残りの
pの確率で見逃してしまう
•
健康な牛をテストすると
(1−q)の確率で「健康だ」と正しく判定するが,残りの
qでは(健康なのに) 「病 気だ」と言ってしまう
となっている.さて,独立な疫学的調査から病気の牛の割合は
rであるだろうとわかっているとしよう(p, q, r は すべてゼロに近いがゼロではない).
1.
一頭の牛を検査したとき,これが「病気だ」と判定される確率を求めよ.
2.
一頭の牛を検査したところ,結果は陽性(病気)だった.この牛が本当に病気である確率,健康なのに間違っ て病気と判断された確率,をそれぞれ求めよ.
3.
一頭の牛を検査したところ,結果は陰性(健康)だった.この牛が本当に健康である確率,病気なのに間違っ て健康と判断された確率,をそれぞれ求めよ.
4.
以上の結果を解釈せよ.
p, q, rの値によっては誤差が異常に大きくなる事に注意しよう.
下の問は本質的に上の問題と同じであるので,答えも同じである.ただ,正直に言って,僕にとっては下の問の 答えの方が直感と合わないように感じる(間違って「病気だ」って言われる確率は
pですご〜〜〜く小さいんだよ,
と言われたらどうします?).
問 1.5.3
(問
1.5.2の人間バージョン)かなり稀な病気の血液テストを考える.このテストの誤差の入り方は,
•
この病気にかかっている人をテストすると
(1−p)の確率で「病気だ」と正しく判定するが,残りの
pの確 率で見逃してしまう
•
健康な人をテストすると
(1−q)の確率で「健康だ」と正しく判定するが,残りの
qでは(健康なのに) 「病 気だ」と言ってしまう
となっている.さて,独立な疫学的調査から病気の人の割合は
rであるだろうとわかっている(p, q, r はすべてゼ
ロに近いがゼロではない).僕の検査結果は陽性(病気だ)だった.僕が本当に病気である確率,健康なのに間違っ
て病気と診断された確率,をそれぞれ求めよ.
問 1.5.4
行方不明の飛行機を捜索中である.現在,墜落した可能性のあるのは
1, 2, 3の3地区に限ること,およ びこれらの3地区に墜ちている確率は等しい(つまり
1/3)こと,までは絞り込んだ.これから捜索に入るが,厳しい気象条件のため,確実に見つけられる保証はない
—実際に
i-地区に墜ちていたとしても,確率piで見逃すだ ろうと思われる(p
i¿1).まず
1-地区を捜索したところ,飛行機は見つからなかった.この事実から,i-地区に墜ちている確率を推定せよ(i
= 1,2,3).問 1.5.5
ある工場ではカメラのフラッシュ(と言ってわかるかな. . . )を作っている.通常の工程では不良品(光ら
ない)が出る割合は
pであるが,今日のだけ,担当者の居眠りのために不良品が
qの割合で混じってしまったよ うである(0
< p≤q¿1とする).さて,ここにフラッシュが
N個づつ入った箱が
k個ある.k 個の箱のうち
(k−1)個には昨日までに正常に製造されたものが入っており,残りの一つには今日(不良率
qで)製造されたも のが入っていることまではわかっているが,どの箱に今日の製品が入っているかはわからない.本来ならばこれら
k個の箱を全て廃棄処分にすべきであるが,それは余りにもったいないと考え, 「抜き取り検査」を行うことにした.
以下の
a, bのそれぞれの場合について,問に答えよ.
a. •
今,一つの箱を選び,その中からフラッシュを一つ取り出して点火したところ,光らなかった(不良品).
この箱に入っているのは今日製造された製品である確率を求めよ.
•
同じ箱からもう一つ取り出して点火すると,またもや不良品であった.この箱に入っているのは今日製 造された製品である確率を求めよ.
b.
(a とは無関係)全ての箱からフラッシュを一つずつ取り出して点火したところ,箱
Aから取り出したもの のみ不良品,残りは正常であった.箱
Aに入っているのは今日製造された製品である確率を求めよ.
言うまでもないことであるが,こんな時はあくまで
k箱全てを捨てるべきであり,上のような計算に基づいて「最 も不良品の多そうな箱以外を全て売ってしまおう」などと言うのは非常にマズイ! (なお,わざわざ「フラッシュ」
などというものを持ち出したのは,一回テストしたら使い物にならなくなるものを例にしたかったため
—非破壊 検査ができない場合の推定法)
問 1.5.6
○○科目の期末試験は(数学ではあり得ないことに)○×式の問題で,各問は
m個の選択肢から一つ正
解を選ぶ形になっています.A 君はかなり怠けていたので,実力で(つまり,まぐれ無しで)正しく答えられる確 率は各問毎に
pであると思われます(p <
1/2).答を正しく知っているときは勿論,A君はその正解を答えます が,答がわからないときはヤケクソで
m個の答から等確率で
1個を選びます.さて,
1.
ある一問に対して(まぐれであれ何であれ)A 君が正解を答える確率はいくらでしょう?
2.
ある一問をテストしてみたところ,A 君は正解を答えました.このとき,A 君が実際に答を知っていた(ま ぐれ当たりではない)確率はいくらでしょう?
3.
以上の結果を解釈せよ. どのような
p, mの値の場合に「マグレ当たり」が多くなるか,考えてみよう.
問 1.5.7 (Laplace) i= 0,1,2, . . . , k
と(非常に小さな)印が付けられた
(k+ 1)個のコインが壺に入っている.
これらは非常にいびつなコインで,i 番目のコインを投げたときに表が出る確率は
i/kとなるように調節されてい る.目隠しをしたままこの壺から一枚のコインを選んで実験をする.以下の問いに答えよ.
1.
取り出したコインを一回投げたところ,表が出た.このコインが
i番目のコインである確率はいくらか?
(i
= 0,1,2, . . . , k)2.
取り出したコインを更に投げ続け,合計
n回投げた.結果は全て表だった.このコインが
i番目のコインで ある確率はいくらか?(i
= 0,1,2, . . . , k)3.
取り出したコインを更にもう一回(つまり通算で
(n+ 1)回目)投げる事にした.このとき,やはり表が出る 確率はいくらか?
4.
上の小問
2, 3の答はそれほど簡単にならなかったかも知れない.そこでこれらの確率が
k→ ∞の極限でど うなるか,求めてみよう.結果は直感と合うだろうか?
(注)この問では,コインは最初に一枚取り出したら,同じ物を使い続ける.コインを何回か投げるとき,一回ごと の結果は独立だとする.また,コインについている印は大変小さいので,取り出したコインがどれかは見ただけで はわからないものとする. (そうでないと,小問
2, 3が面白くない. )
問 1.5.8
3人の射撃手(1,
2,3)が200m離れた,同じ的を狙う.今までの練習成績から,射撃手
iが一発で的に
当てる確率はそれぞれ
piと考えられる(i
= 1,2,3).さて,3人が一発ずつ撃ったところ,的には丁度一発だけ当たっていた.この当たった一発が射撃手
iのものである(つまり,他の二人ははずした)確率について,以下の 問いに答えよ.
1.
まず,計算を始める前に,直感的に答を推定してみよう.
2.
では,講義での説明に基づき, 「正しく」計算してみよう.
3. 2
の結果は直感とあっているか?例えば,p
1= 0.2, p2= 0.4, p3= 0.6として,射撃手
1が当てた確率はいく らになっているか? (勿論,1, 2 の答が一緒になった人は立派なものである.僕にはこの結果は意外だったけ どね. )
2
大数の法則と中心極限定理
この節では,以下のような質問に答えたい.
問
2.1.表と裏が確率
12ずつで出るようなコインを何回も投げる.N 回投げたとき,表の出た回数は
N回の内 の何回くらいだろうか?(勿論,一回ごとのコイン投げの結果は互いに独立だと仮定する. )
上の質問のもう少し複雑なものとして,
問
2.2.さいころを何回も投げることを考えよう.一回投げる毎に以下の要領で点数をもらえるものとする.
•
出た目が
1または
2の時は
+2点
•
出た目が
3から
6の時は
−1点
毎回出た点数を加算していくとして,さいころを
N回投げたときの得点
SNはどのように分布しているだろうか?
(ここでもさいころの6つの面が出る確率は全て
16であり,かつ一回ごとのさいころ投げは独立と仮定する. ) 実は,確率論の一般論からこれらの問いに対する答を導き出すことができる.しかも,その答は我々の直感をあ る程度,支持するものであるので,この節での結果は非常に重要である.これらの結果は,近代確率論の一つの頂 点とも言える.具体的には以下の2つを取り扱う.
•
大数の(弱)法則:かなり大ざっぱだが簡単に導出できる.
•
中心極限定理:上の一つの精密化.
(大数の強法則もあるが,測度論をマトモにやらずにこれを扱うのは無理なので,この講義では触れない. )
2.1
確率変数,期待値と分散
今,確率空間
(S, P)(標本空間 Sとその上の確率
P)が与えられたとする.(S, P
)上の確率変数とは,大ざっ
ぱには「その値が確率的に(ランダムに)変動する数」のこと.土台になる確率空間を考えた上での確率変数だか
ら,それぞれの値をとる確率は(原理的に)計算できる.例えば,
例2.1.1:
さいころを一回投げる場合,出た目の数を
Xとすると,X は
1,2,3,4,5,6のどれかをとる確率変数.
P[X=i] = 1/6
と言うのが自然(i
= 1,2,3, . . . ,6).例2.1.2:
さいころを2つ投げるとき,出た目の合計を
Zとすると,Z は
2から
12の値をとる確率変数.
P[Z= 2] = 1
36, P[Z = 3] = 1
18, P[Z = 4] = 1
12
など.
例2.1.3:
宝くじを一枚買ったとして,それが当たった賞金の額も確率変数(ハズレは
0円として).
概念としては簡単なんだけど,これは実用上,なかなか有用である.そもそも確率変数は,以下の「期待値」や
「分散」などを通して,対象とする確率モデルをよりよく理解する(特徴づける)ために使われることが多い.
定義2.1.1
確率変数
Xが
x1, x2, . . . , xnの値をとり,その確率が
P[X =xi] =pi³Xn
i=1
pi= 1´
(2.1.1)
と与えられているとする.このとき,X の期待値 を
E[X]≡ hXi ≡ Xn
i=1
pixi (2.1.2)
により定義する. (数学では
E[X]の記号を,物理などでは
hXiの記号を用いることが多い. )また,X の分散 を
Var[X]≡Eh¡X−E[X]¢2i
=E£ X2¤
−E[X]2= X2®
− hXi2=D¡
X− hXi¢2E
(2.1.3)
により定義する.
(少し脱線)事象
Fの確率を期待値の形で書くことができる.すなわち,関数
I[F]を
I[F]≡
1 (F
が起こるとき)
0 (F
が起こらないとき)
(2.1.4)として定義すると,
P[F] =E[I[F] ] =hI[F]i (2.1.5)
となる.つまり,F の起こる確率は関数
I[F]の期待値 なのである.
期待値の重要な性質はその線形性である.もう少し付け加えて,下の命題になる.
命題2.1.2
確率空間
(S, P)における確率変数
X, Yと実定数
a >0に対しては以下が成り立つ:
E[X+Y] =E[X] +E[Y], E[aX] =aE[X] (2.1.6)
Var[aX] =a2Var[X] (2.1.7)
Var[X+Y] = Var[X] + Var[Y] + 2Cov(X, Y), Cov(X, Y)≡ h(X− hXi)(Y − hYi)i. (2.1.8)
Cov(X, Y)
は
Xと
Yの共分散と言う.この最後の式は共分散の定義みたいなものだ.
註:
これらの結果は
X, Yの分布が独立でなくても成り立つ.
Proof. X
のとりうる値を
xi(i
= 1,2, . . . , N),Y のとりうる値を
yj(j
= 1,2, . . . , M),それぞれの値をとる確率を
P[X =xiかつ
Y =yj] =pijとおく.すると,
E[X+Y] =X
ij
pij(xi+yj) =X
ij
pijxi+X
ij
pijyj (2.1.9)
であるが,
XM
j=1
pij =P[X=xi
かつ
Yは何でも良い] =
P[X =xi]であるので,
X
ij
pijxi= XN
i=1
xi
³XM
j=1
pij
´
= XN
i=1
xiP[X =xi] =E[X] (2.1.10)
が成り立つ.同様に
Xij
pijyj =E[Y] (2.1.11)
なので,E[X
+Y] =E[X] +E[Y]が証明された.
次に,E[aX
]については,
E[aX] = XN
i=1
P[X=xi](axi) =a XN
i=1
P[X =xi]xi=a E[X]. (2.1.12)
また,Var[aX
]については
E[(aX)2] =E[a2X2] =a2E[X2] (2.1.13)
であることと線形性から
Var[aX] =E[(aX)2]−¡
E[aX]¢2
=a2E[X2]−¡
aE[X]¢2
=a2E[X2]−a2¡ E[X]¢2
=a2Var[X]. (2.1.14)
確率変数
Xと
Yが任意の
A, B⊂Rに対して
P[X∈A
かつ
Y ∈B] =P[X ∈A]P[Y ∈B] (2.1.15)を満たすとき(つまり事象
{X ∈A}と
{Y ∈B}が独立のとき),
Xと
Yは独立な確率変数と言う.X と
Yが 独立な場合には,
E[XY] =E[X]E[Y], Var[X+Y] = Var[X] + Var[Y] (2.1.16)
が成り立つ.
問 2.1.3
さいころを続けて
n回投げることを考える.この
n回のうちに出る異なった目の数を
Nnとしよう.N
nの期待値はいくらか?(注:例えば
5回投げたとき,(1,
3,2,1,1)とでたら,異なった目は
1,2,3なので,N
5= 3と言うこと. )
2.2
チェビシェフの不等式とその仲間
前節でも, 「分散は確率変数のばらつきの目安を与える」と言ったが,ここではもう少し定量的な議論を行う.更 にここの議論は以下の大数の法則の基礎付けになる.
ここでも確率空間
(S, P)上の確率変数
Xを考える.まず,A
∈Rについて
P[X ∈A] =hI[X∈A]i (2.2.1)
であることに注意しておこう. (ここの
Aとしては実数軸上の適当な区間を考えておけば十分. )
命題2.2.1 (マルコフの不等式)
正の値のみをとる確率変数
Xと任意の正の数
aに対して,
P[X≥a]≤ hXi
a (2.2.2)
が成立. (勿論,右辺の期待値が存在しないときは右辺には意味がないけど. )
命題2.2.2 (チェビシェフ の不等式)
確率変数
Xの期待値を
µ,分散をVar[X]と書くと,任意の正の数
aに対 して,
P[|X−µ| ≥a]≤ Var[X]
a2 (2.2.3)
が成立. (勿論,右辺の分散が存在しないときは右辺には意味がないけど. )
Proof.
これらの不等式は
(2.2.1)を用いると簡単に証明される.マルコフの不等式なら
hXi ≥ hX I[X ≥a]i ≥ ha I[X ≥a]i=ahI[X ≥a]i=a P[X≥a]. (2.2.4)
チェビシェフの不等式なら
Var[X] =
|X−µ|2®
≥
|X−µ|2, I[X≥a]®
≥
a2I[X ≥a]®
=a2hI[X ≥a]i=a2P[X ≥a]. (2.2.5)
調子に乗って似たような不等式を作ることもできる.例えば,
P[|X−µ| ≥a]≤h|X−µ|ni
an (a >0, n
は任意の正の整数)
(2.2.6)同様に,任意の
a, b >0に対して
P[|X−µ| ≥a]≤
eb|X−µ|®
eab . (2.2.7)
また,マルコフの不等式の仲間として, (X が非負の値しかとらないとき)
P[X ≥a]≤
ebX®
eab (2.2.8)
など.これらの不等式は勿論,右辺の期待値が存在しなければ意味がないが,存在する場合には(特に
a→ ∞に ついて)強力なものになる.実際の応用については後述.
2.3
大数の(弱)法則
大数の(弱)法則は非常に簡単に導出できるにもかかわらず,その述べるところは強力である.考える問題は問
2.1や問
2.2の一般化である:
問 2.3.1
独立,かつ同分布な確率変数
X1, X2, X3, . . .に対して,新しい確率変数
SN ≡XN
i=1
Xi (2.3.1)
を定義する(N は正の整数).S
Nの分布はどうなっているか?
「分布はどうなっているか」と,はなはだ主観的な問いかけがなされているが,これは「どのように物事を見た ら分布の特徴が一番捉えられるか考える」ことまで含めて問題にしたいためである.この問に対する一つの答は以 下の大数の弱法則,もう一つは中心極限定理である.
定理2.3.2 (大数の弱法則)
質問
2.3.1の確率変数
Xiが有限な分散を持っているとする.このとき,任意の
² >0に対して
N→∞lim Ph ¯¯
¯SN
N −µ
¯¯
¯> ²i
= 0 (2.3.2)
が成り立つ.ここで
µ≡E[Xi]は
Xiの期待値.
上の定理は,以下の評価からすぐに証明される.
命題2.3.3
問
2.3.1の確率変数
Xiの平均を
µ,分散を σ2とし,S
N ≡ XNi=1
Xi
を定義する.このとき,任意の
² >0
に対して
Ph ¯¯
¯SN
N −µ
¯¯
¯> ²i
≤ σ2
N ²2 (2.3.3)
が成り立つ.
上の命題の主張するところを吟味したい.右辺に出ている確率が
N → ∞でもゼロにならないためには,² が定 数ではダメである.つまり,N
→ ∞につれ,
SNNは
µの周りの非常に狭い範囲に集中して分布していくことがわ かる.
2.4
おまけ(ちょっと一休み) :Weierstrass の多項式近似定理
この節の内容は本当のおまけであるが,大数の法則などの面白い応用例になるので,ここに載せておく.レジュ メが多くなってイヤだ,と言う人は,この小節は無視しても一向に構わない.講義でもほとんど触れることは できないだろう.
微分積分学で習ったかも知れないが,Weierstrass の近似定理と言うのがある.これは
定理2.4.1
閉区間
[0,1]で定義された連続関数
f(x)がある.これに対して,適当な多項式をとることにより,f
(x)をいくらでも良い精度で一様に近似できる.具体的には,任意の
² >0に対し,適当な多項式
p(x)をとって,
¯¯f(x)−p(x)¯
¯< ² (∀x∈[0,1]) (2.4.1)
を成立させることができる.
と言う定理である.
この定理はもちろん「普通の」解析的手段で証明できるが,大数の法則などにでてくるアイディアによる簡単な 別証明がある.以下に紹介しよう.
Proof.
まず,f に対してベルンシュタインの多項式を
Bn(x)≡ Xn
k=0
µn k
¶ f
³k n
´
xk(1−x)n−k (2.4.2)
と定義する.この
Bn(x)が
f(x)の近似多項式の候補である.実際にどのくらい近似できているかを調べるため,
以下のように強引な確率論的解釈を行う.
n
個の確率変数
Xi(i
= 1,2, . . . , n)が(0≤x≤1)Xi=
0
(確率
1−xで)
1
(確率
xで)
(2.4.3)
となっている場合を考え,S
n ≡Pni=0Xi
と定義しよう.S
n =kとなる確率は
µnk
¶
xk(1−x)n−k (2.4.4)
であるので,ベルンシュタインの多項式の定義を思い出すと,
Bn(x) =
¿ f
³Sn
n
´À
(2.4.5)