統計的データ解析 2013
2013.10.21
林田 清(大阪大学大学院理学研究科)
平均値の誤差
(Error)
、不確かさ(Uncertainty)
測定を
n
回繰り返して平均を取ることで、(偶然)誤差を1
/√n
に小さくできる1 2
1
2 2 2
2 1
n , ,....,
1
1 1
n n
i i
n
x x
i
x x x
x x
n
n n
σ
σ σ σ σ
=
=
≡
= =
∑
∑
誤差伝播則を使
回の(独立な)測定 各々の誤差は 標本平均値
標本平均値の誤差 は うと
最尤法 (Maximum Likelihood Method)
1 2
2
1 2
n , ,....,
μ Gauss)
1 1
exp 2
2
' , ,....,
'
n
i i
i i
i i
n
x x x
x x dx dQ Pdx
P x
x x x
σ
µ σ π σ
µ µ
µ +
=
−
≡ −
回の(独立な)測定 を考える。
母集団が平均値 標準偏差 の正規( 分布の場合 1回の測定で の値を観測する確率は
ここで は不可知、推定値は 。
の組が得られる(得られた)確率を尤度とよぶ。
尤度が最大になるような が最もよい推定値と考える。
これが最尤法(Maximum Likelihood Method)の考え方。
最尤法(正規分布の場合の例)
最尤法2
最尤法(正規分布の場合の例)
2
1 2
1
2
1
' '
1 1 '
( ') exp
2 2
, ,...,
( ') ( ')
1 1 '
exp 2
2
( ') '
i
i i
n n
i i
n n
i i
x P x
n x x x
P P
x
P
µ σ σ
µ µ
σ π σ
µ µ
µ σ π σ
µ µ µ
=
=
=
−
= −
=
−
= −
∏
∑
平均値 、標準偏差 の正規分布を仮定すると を観測する確率は
回の測定で を観測する確率(尤度)は
を最大にする が最も確からしい の推定値
考え方:
最も確率の高い標本分布(測定 値の組)が実現されているはず
最尤法3
最も確からしい母集団平均(mean)の推定値は加算 平均(average)
2
1
2 1
1
( ')
' 1
2
' 0
' ' 1
n
i i
n
i i
n i i
P X
X x
x dX
d
x x n
µ
µ σ
µ
µ σ
µ
=
=
=
−
=
−
= − =
= =
∑
∑
∑
を最大にすることは次の を最小にするのと同じ
最尤法(正規分布の場合の例)
誤差が異なるデータの場合
(重みつき平均)
2
1 1
2 2
2 2
1 1
2
' 2
1 1 '
( ') exp
2 2 '
( / )
' '
1 0 '
' 2 (1/ )
' 1
(1/ )
i i
n n
i
i i i i
n n
i i
i i
i i i i i
i
x P x
x x x
d d
µ
σ µ µ
σ π σ µ
µ µ µ σ
µ σ σ σ
µ σ
σ
= =
= =
−
= −
− −
= − = =
=
∑
∏
∑ ∑ ∑ ∑
∑
各測定値 につく誤差が異なる の場合
の最尤推定値は
より
また推定値 に関する誤差は
問題A
1. 独立でない測定値u,vと、その関数x=f(u,v)の具体例をひとつあげよ。この 例において、誤差伝搬則で共分散を無視するか考慮するかで、xの誤差 が過大評価されるか過少評価されるか、定性的に述べよ。(井上2)
2. あるきめられた時間T(s)の間に、1個の放射線検出器を用いて放射線源 の強さを測定する。ソースを測定しているときの(バックグランド込みの)カ ウントレートの期待値がr(c/s),ソースを外したときのカウントレートの期待
値がb(c/s)であるとき、時間Tのうちでソース測定の時間をいくらにとるの
が最適か?(吉田)
3. ある1本の棒の長さに関してx1,x2,…,xnのn回分の測定値がある。測定誤 差は個々に異なるσi と仮定して、この棒の長さを最尤法で推定せよ。(内 田)
4. 独立な二つの測定量x,yがσx,σyの誤差をもっているとき、x+yの誤差は誤 差伝搬則を使うとsqrt(σx2+σy2)とかける。 x,yが正規分布に従うことから出 発して、これを証明せよ。(Taylorの本のp.153を参照;5.53式は1/2間違 い?) (片多)
5. あるコインの表が出る確率をpを評価したい。10回投げる実験をしたところ 4回表が出た。最尤法により、pを推定せよ。(吉永)
データのモデル化、あてはめ (Fit) 、回帰
ばらつきのある測定値に適当なモ デル(直線や曲線)であてはめるこ と
モデル
直線の場合。。。線形回帰
多項式の場合
一般の関数の場合
データの誤差
各点共通の場合
各点で重みが異なる場合
モデル点のまわりのばらつき
正規分布の場合
それ以外の場合
0 5 10 15
0 2 4 6 8 10
X
-1 0 1 2 3 4 5
0 2 4 6 8 10
X
最小二乗フィット ( 例:直線モデル) 1
0 0
0 0 0
0
( )
,
, ( )
( )
i i
i i i
x y x y
y x ax b
a b
a b y x a x b
y y x σ
= +
= +
測定値の組( , )があり、独立変数 と従属変数 の間の関係を
で近似するとき 、 に関する最も確からしい推定値は どうやって決められるか?
母集団における係数を とし、”真”の関係式を
さらに測定値 は平均値 、標準偏差 の 正規分布に従うと仮定する。
0 5 10 15
0 2 4 6 8 10
X
正規分布に従う 母集団から標本 を1個採ってくる のが測定
最小二乗フィット ( 例:直線モデル) 2
2 0
2 0
0 0
1
1 1
1 1 ( )
exp 2 2
( )
1 1
( , ) exp
2 2 , ( ,
i i
i i
i
i i
i
n n n
i i
i
i
i i i i
i
y P
y y x P
n y
y y x
P a b P
a b y
P a b
σ π σ
σ π = σ
= =
−
= −
−
=
∏
= ∏
−∑
を観測する確率(密度) は個の観測値 の組を得る確率(密度)は
同様に任意の係数推定値 に従うときに観測値 の組を得る確率(密度)は
2
1 1
0 0
0 0
( )
1 1
) exp
2 2 ( , )
( , ) ( , ) ( , )
n n
i i
i
i i i
y y x
P a b
P a b a b a b
σ π = σ
=
−
=
∏
−∑
観測は母集団 から採取する操作。
の最大値を与えるような が の最尤推定値。
最尤法の考え方
最小二乗フィット ( 例:直線モデル) 3
2 2
2
2 2 2 2
2
2 2 2
2 2
2
2
2 2
2
1 1
2
2
0, 0
,
1 1
1
1 ( )
( , )
i i i i
i i i i
n n
i i i
i i i i i
i i i i
i i
i i i
i
i i i i
a b
x y x y
a
x y x x
y y
y
x y ax b
P a b
b
x x
χ χ
χ
σ σ σ σ
σ σ σ
χ σ σ
σ
σ σ σ
χ
= =
∂ = ∂ =
∂ ∂
= −
∆
= −
∆
∆ = −
− − −
≡ =
∑ ∑ ∑ ∑
∑ ∑ ∑
∑ ∑
∑
∑
a b から を最小
を最大にする
にす
= を最小にす
とし
ただ
る
る て
し
2
∑ ∑
二乗の和を最小にするので 最小二乗フィットと呼ぶ。
χ2フィットともいう。
( )
( )
( )
( )
( )
2
2 2 1
2 2
1 , )
,
, ) ( )
1
,
1
n
i i
i i i
i
i i
i i
i
i i i i i
i i
y ax b a b
x y x
a n x y x y
b x y x x y
n x b
x
ax a b
χ σ =
= −
= −
∆
= −
∆ = −
+
∆
−
∑ ∑ ∑
∑ ∑ ∑ ∑
∑
∑ ∑
2
各点の誤差が同一のとき
を最小にする( を 求めることは、各測定点 とモデル点 ( の距離のニ乗和を最小にする
を求める
ただ
価
し
ことと等