1
講義内容
2009.10.14
正規分布
normal distribution
(ガウス分布
Gaussian distribution)
中心極限定理
サンプルからの母集団統計量の推定
(不偏推定量について)
(不偏推定量について)
2
確率変数,確率密度関数
f x
( )
確率密度関数
平均
∫
∞
∫
∞
確率密度関数は積分したら1.
平均:
分散:
σ
2
∫
−∞
f
( dx
x
)
= 1
∫
∞
∞
−
⋅
=
x
f
(
x
)
dx
μ
∫
∞
(
x
)
2
f
(
x
)
dx
2
μ
σ
x
確率変数
例)ある場所,ある日時での気温の確率.
μ
σ
分散:
σ
=
∫
−∞
(
x
−
μ
)
⋅
f
(
x
)
dx
x:気温, f(x):気温xが起こる確率
標本平均とのアナロジー(類推) 例)
100人の身長の分布と平均・分散
均
計算式
度数(人数)
n
i
μ
=
∑
n
i x
i
平均の計算式:
μ=[・・・+165cm×3人+166cm×4人+・・・]/100
般に書けば
n x
×
n
n n
μ
∑
n
x
i
i
x
i
一般に書けば
1 1
n n
i i i
i
i i
x
n
n
x
n
n
μ
= =
×
=
∑
=
∑
分散も同様に
n
身長
1cmきざみのbin
分散も同様に
2 2
1
(
)
n
i
i
i
n
x
n
σ
μ
=
=
∑
−
3
正規分布(ガウス分布)
この分布の平均と分散は,
確率密度関数
⎥
⎤
⎢
⎡
(
−
)
2
1
)
(
x
μ
f
⎥
∞
⎦
⎤
⎢
⎣
⎡
−
=
2
2
)
(
exp
2
)
(
σ
μ
σ
π
x
f
mean
xf x dx
( )
μ
∞
−∞
=
∫
=
2 2
(
)
f
( )
d
∞
∫
正規分布は平均μと分散σ2
によって
2 2
variance
(
x
μ
)
f x dx
( )
σ
−∞
=
∫
−
⋅
=
(証明略)
正規分布は平均μと分散σ2
によって
完全に記述される.
N ( ,
μ σ
2
)
と表記する
確率変数の範囲と確率(よく用いられる値)
x
μ μ σ
+
μ
+ 2
σ
μ
+ 3
σ
μ σ
−
μ
− 2
σ
μ
− 3
σ
(Nはnormal distributionのN)
確率変数の範囲と確率(よく用いられる値)
μ σ
− ≤ ≤ +
x
μ σ
μ
−
2
σ
≤ ≤ +
x
μ
2
σ
68 27%
.
95 45%
.
特に,平均0,分散1の正規分布
N(0 1)を標準正規分布と呼ぶ
μ
μ
μ
−
3
σ
≤ ≤ +
x
μ
3
σ
99 73%
.
μ
−
196
.
σ
≤ ≤ +
x
μ
196
.
σ
95%
N(0,1)を標準正規分布と呼ぶ.
4
正規分布(ガウス分布)
=
⎢
⎣
⎡
−
−
2
⎥
⎦
⎤
2
2
)
(
exp
2
1
)
(
σ
μ
σ
π
x
x
f
平均が同じで分散が異なる正規分布
特に,平均0,分散1の正規分布
N(0,1)を標準正規分布と呼ぶ.
)
(
)
(
2
N
f
3つの関数を模式
)
(x
f
標準正規分布
N ( , )
0 1
95%
(
)
(
,
3
)
)
2
,
(
)
(
)
,
(
)
(
2
0
0
3
2
0
0
2
2
0
0
1
σ
μ
σ
μ
σ
μ
N
x
f
N
x
f
N
x
f
=
=
=
3つの関数を模式
的に図示しなさい
)
(x
f
95%
?
?
?
分散が同じで平均が異なる正規分布
x
−196
.
0
196
.
x
95%の確率で存在する範囲が
)
(x
f
)
,
2
(
)
(
)
,
(
)
(
2
2
0
0
2
2
0
0
1
σ
μ
σ
μ
N
x
f
N
x
f
=
=
3つの関数を模式
的に図示しなさい
統計ではしばしば使われる.
標準正規分布では-1.96から
1.96の範囲となる.
)
,
3
(
)
(
2
0
0
3
x
N
μ
σ
f
=
?
?
?
x
中心極限定理
central limit theorem
例)母集団の分布が一様分布の場合
分布がどのようなものであっても,平均値μ,
分散σ2
をもつ母集団からとられたn個のサン
x
プルの平均値の分布は,nが大きくなるとき,
正規分布N( μ , σ2
/n)に近づく.
母集団
0
μ
1
n=1
n個集めて平均
母集団
n=5
x
集める個数nが多い
ほど分散(σ2
/n )
x
i
n=5
μ
ほ 分散( )
は小さい.
i
n=10
2
σ
2
σ
x
μ
∑
=
=
n
i
i
x
n
x
1
1
∑
=
=
n
i
i
x
n
x
1
1
?
?
?
n
σ
n
σ
中心極限定理:多くの観測値を正規分布で近似する裏付けとなっている
=
i 1 n
1 2 3
6
サンプルから母集団統計量を推定する
命題:
得られたサンプルから,その発生
μ,σ
2
母集団
パラメータ
得られたサ
プ
ら,そ
発
母体である母集団の統計量を推定
したい.
例)全国の
20歳男子の身長の平均
プ
パラメ
タ
推定
)
ˆ
,
ˆ
(
μ
σ
2
と分散を40人のサンプルから推定
したい.
サンプル
母集団の平均と分散
平均(1次の統計量)
サンプルの自体の平均と分散
1
どんな関係?
平均(1次の統計量)
分散(2次の統計量)
∑
=
=
n
i
i
x
n
x
1
1
∫
⋅
=
=
E
{
x
}
x
p
(
x
)
dx
μ
分散(2次の統計量)
p(x)はxの生起確率
どんな関係?
分散(2次の統計量)
∑
=
−
=
n
i
i x
x
n
s
1
2
2
1
(
)
σ
2
=
E
{(
x
−
μ
)
2
}
=
∫
(
x
−
μ
)
2
⋅
p
(
x
)
dx
分散(2次の統計量)
どんな関係?
通常p(x)は未知であり,得られたサン
プルから統計量を推定するしかない.
7
不偏推定量 unbiased estimator
-平均の不偏推定量-
不偏推定量とは,サンプルから求めた母
集団統計量の期待値が,真の母集団統計
量に 致するも をいう
サンプル平均を母集団平均の推定値とした場合,
1
n
∑
量に一致するものをいう.
μ,σ2
1
i
i
x
x
n
=
=
∑
サンプル平均の期待値は
1 1
1
1
{ }
{
}
( )
1
1
n n
i i i
i i
n n
E x
E
x
x p x dx
n
n
n
= =
=
∑
=
∑ ∫
∑
∑
母集団
推定統計量
)
ˆ
ˆ
(
μ
σ
2
1 1
1
1
{ }
i
i i
n
E x
n
=
n
=
μ
n
μ μ
=
∑
=
∑
=
=
サンプル
)
,
(
μ
σ
)
ˆ
,
ˆ
(
μ
σ
2
となり,母集団平均に一致する.よっ
て,サンプル平均は,母集団平均に対
する不偏推定量といえる.
?
}
ˆ
{
μ
=
μ
E
?
}
ˆ
{
}
{
2
2
σ
σ
μ
μ
=
E
μ
x
成り立てば不偏推定量と言える
8
分散の不偏推定量
サンプルの分散の期待値を計算してみる
s
n
x
i x
n
2
=
1
∑
(
−
)
2
第3項は
x
n
E
x
E
n
i
2
2
}
1
)
{(
μ
μ
⎪⎭
⎪
⎬
⎫
⎪⎩
⎪
⎨
⎧
⎟
⎠
⎞
⎜
⎝
⎛
−
=
−
∑
n
i 1=
E
n
i x
i x
E
n
x
x
n
i
i
n
{
1
(
) }
2
{
1
[(
) (
)] }
1
2
1
−
=
−
−
−
= =
∑
∑
μ
μ
x
n
E
n
n
i
i
i
2
1
1
)
(
1
μ
⎪⎭
⎪
⎬
⎫
⎪⎩
⎪
⎨
⎧
⎟
⎠
⎞
⎜
⎝
⎛
−
=
⎪⎭
⎪⎩
⎝
⎠
∑
∑
=
=
n
E
i x
i
n
n
{
(
) }
1
2
2
1
=
−
=
∑
∑
μ
x
x
n
E
i j
j
i
i
2
1
)
)(
(
1
μ
μ
⎫
⎧
⎭
⎬
⎫
⎩
⎨
⎧
−
−
=
⎪⎭
⎪⎩
⎝
⎠
∑∑
=
無相関の仮定により,
2つの異なるサンプル
の積の和は0になる
n
E
x
x
E n x
i
i
{
(
)(
)}
{ (
) }
2
1
1
2
−
−
−
+
−
=
∑
μ
μ
μ
E
{
x
}
x
n
E
i
i
2
2
2
)
(
1
)
(
1
μ
μ
−
=
⎭
⎬
⎫
⎩
⎨
⎧
−
=
∑
∑
1
2
1
2
E
x
i E
x
n
i
n
{
∑
(
−
μ
) }
=
∑
{(
−
μ
) }
n
{ (
μ
) }
上式右辺の第1項は
{
}
n
n
n
x
E
n
i
i
2
2
2
2
1
)
(
σ
σ
μ
=
=
=
∑
1
1 1
2
1
2
n
n
n
i
i
i
i
i
n
{
(
) }
{(
) }
=
=
= =
=
∑
∑
∑
μ
μ
σ
σ
E s
{ }
2
=
σ
2
−
2
σ
2
+
1
σ
2
=
n
−
1
σ
2
≠
σ
2
第2項も同様に計算できる.結局,
n
n
n
{ }
となり,母集団分散には一致しないことが
わかる
n-1で割れば母集団分散に一致することを
確認しなさい.
分散の不偏推定量(つづき)
直感的解釈
なぜ分散の推定を,(nで割らずに) この場合,かならず
s
2
≤
σ
2
n
1
で与えるか? ⇒直感的解釈
s
≤
σ
が成り立つ.すなわち,s2
は真の
母集団分散を過小に推定する傾向がある.
そこで で割らずに 1で割ることで
(
)
∑
=
−
−
=
n
i
i x
x
n
1
2
2
1
1
ˆ
σ
で与えるか? ⇒直感的解釈
仮に母集団の平均μが既知であれば,
n個のデータからの分散の推定は
そこで,nで割らずにn-1で割ることで
この過小推定を防ぐ.
真の母集団平均
n個のデータからの分散の推定は
x
x
1 x
2 x
3
μ
真の母集団平均
母集団分布
度数
(
)
∑
=
−
=
n
i
i
x
n
1
2
2
1
ˆ
μ
σ
で与えればよい.これに対し,母集団平均μ
が未知のために,かわりにサンプル平均を
用いた場合の分散をs2
とすると サンプルから
母集団分布
用いた場合の分散をs2
とすると,
x
x
サンプルから
求めた平均
x
μ
x
サンプル
の分布
x
(
)
∑
−
=
n x
i x
n
s
2
1
2
x
1 x
2 x
3 の分布
∑
=
i
n
1
10
正規分布(ガウス分布)
⎥
⎦
⎤
⎢
⎣
⎡
−
−
=
2 2
2
)
(
exp
2
1
)
(
σ
μ
σ
π
x
x
f
標準正規分布
平均が同じで分散が異なる正規分布
N (
0 1
)
標準正規分布
N ( , )
0 1
95%
σ2
:小
95%
σ2
:大
x
−196
.
0
196
.
分散が同じで平均が異なる正規分布
95%の確率で存在する範囲が
統計ではしばしば使われる.
標準正規分布では-1.96から
1.96の範囲となる.
μ3 < μ2 < μ1
二項分布
binomial distribution
例)3回サイコロを投げて,x回,1の目が出る確率を考える.
0回 1回 2回 3回
0回
P x
( )
1回 2回 3回
3
6
5
⎟
⎠
⎞
⎜
⎝
⎛
2
6
5
6
1
3
⎟
⎠
⎞
⎜
⎝
⎛
⎟
⎠
⎞
⎜
⎝
⎛
⎟
⎠
⎞
⎜
⎝
⎛
⎟
⎠
⎞
⎜
⎝
⎛
6
5
6
1
3
2 3
6
1
⎟
⎠
⎞
⎜
⎝
⎛
x x
x
C
x
p
−
⎟
⎠
⎞
⎜
⎝
⎛
⎟
⎠
⎞
⎜
⎝
⎛
=
3
3
6
5
6
1
)
(
般に 確率 をもつ事象が
1
≠ 1 ≠ 1 ≠ 1
1
≠ 1 ≠ 1
1 1
≠ 1
1 1
6
⎠
⎝
⎝
6
⎠
⎝
6
⎠
⎝
6
⎠
⎝
6
⎠
⎝
⎠
⎝
⎠
⎝
⎠
一般に,確率pをもつ事象が,
n回の観察でx回起こる確率P(x)は
P
( )
C
x(
1
)
n x−
n
!
x(
1
)
n x−
P x
( )
二項分布の形
この式で表される確率分布を二項分布と呼ぶ
P x
C p
p
x n
x
p
p
n x
x n x x n x
( )
(
)
!(
)!
(
)
=
−
=
−
−
1
1
この式で表される確率分布を二項分布と呼ぶ.
x(整数)
0 n
平均:
μ
= np
分散:
σ
2
= np
(
1
p
)
nが大きくなると 二項分布は
分散:
σ
=
np
(
1
−
p
)
nが大きくなると,二項分布は
正規分布に近づく
14
ポアソン分布
Poisson distribution
二項分布において,実験回数nが十分大きい場合,
二項分布はポアソン分布で近似できる. 1日平均5回,事故が起こるとする.
1)二項分布で考えると
P x
( )
=
nC p
x x(
1
−
p
)
n x−
近似
1分あたりに事故が起こる確率は
p
=
5 24 60
/ (
×
)
1)二項分布で考えると,
ある1日に x回起こる確率は
ただし
P x
e
x
x
( )
!
=
μ
−μ
μ
= np
2)ポアソン分布で考えると
P x
( )
=
24 60× C p
x x(
1
−
p
)
24 60× −
x
ある1日に,x回起こる確率は,
平均 が大きければ ポアソ 分布は
例)千葉市の1日あたりの交通事故件数の分布
)ポアソ 分布で考える
事故数
P x
e
x
x
( )
!
=
5
−5
平均μが大きければ,ポアソン分布は
正規分布に近似できる.
1日を十分細かくきざんで考える(例えば1分単位).
すると,このきざみのなかでは,事故が起こるか起こ
らないかの,どちらかの事象のみ起こるとみなせる.
きざ 内 事故が起 確率を とすれば
事故数
二項分布 ポアソン分布
0 0.00668 0.00674
1 0.03351 0.03369
2 0.08402 0.08422
3 0.14032 0.14037
1つのきざみ内で事故が起こる確率をpとすれば,
1日にx件事故が起こる確率は,二項分布で表せる.
4 0.17565 0.17547
5 0.17577 0.17547
6 0.14648 0.14622
7 0.10455 0.10444
8 0.06526 0.06528
5回
時刻
n 109 0.036180.01804 0.036270.01813
ポアソン分布の性質とフォトンノイズの例
ポアソン分布は,平均と分散が等しい. [暗い] [明るい]
P x
m e
x
x m
( )
!
=
−
において 平均=分散=m
CCD画素 CCD画素
平均をm=100とする 平均をm=10000とする
において 平均 分散 m
σ
=
100 10
=
標準偏差は
σ
= m
σ
=
10000 100
=
標準偏差は
ば
p x
( )
m
例)明るい条件と暗い条件で 単位時間
フォトン数xのちらばりを
±2σの範囲で考えると
80
< <
x
120
9800
< <
x
10200
x
m
例)明るい条件と暗い条件で,単位時間
あたりにCCDの画素に到達するフォトン
数を考える.
80
< <
x
120
9800
< <
x
10200
カメラのゲインコントロールによって
明るさを合わせられることを考えて,
それぞれの平均が100になるように
それぞれの平均が100になるように
正規化すると
98
< <
x
102
80
< <
x
120
時刻
フォトンの到来
以上より,暗い状態ではノイズが増える
ことがわかる(フォトンノイズという)
CCDの画素に到達するフォトン数は
ポアソン分布に従う.