統計的データ解析
2004
林田 清
演習で使用したソフト
dis45
xspec
qdp
gnuplot
oocalc
実験データの統計処理 基本となる
考え方
誤差について
母集団と標本
平均値と標準偏差
誤差伝播
最尤法
平均値につく誤差
誤差
(Error):真の値からのずれ
測定誤差
物差しが曲がっていた
測定する対象が室温が低いため縮んでいた
1gの単位までしかデジタル表示されない計りで1g以下
計りの目盛りを読み取る角度によって値が異なる
統計誤差
放射線源を検出器で測定したときの計数率
テレビの視聴率
偶然誤差(Random Error)と系統誤差(Systematic
Error)
測定値xの分布 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10 x 頻度
n個の測定値 x
1, x
2, …, x
nの分布
例えば
1本の棒の長さをn人の人が同じものさしを使って測定する
(同じ設計で製作した)n本の棒の長さ
1個の放射線源について1分間あたりの放射線の検出個数
をn回測定する
ある振り子の振動周期をn回測定する
分布の広がりが誤差を表す
測定値の分布
母集団と標本
母集団
同じ条件で無限回の測定を繰り返したときの測定値
の分布(極限頻度分布)
実際には無限回の測定は不可能
極限頻度分布は存在すると仮定する
測定は母集団から標本を採取する操作
採集された標本から母集団の分布を推定するの
が統計的解析
真の値は不可知
平均値、標準偏差
1 2 1 2 2 1 1 2 2 1n
,
,....,
1
1
(
)
1
1
lim
1
lim
(
)
n n i i n i i n i n i n i n ix x
x
x
x
n
s
x
x
n
x
n
x
n
σ
µ
σ
µ
= = →∞ = →∞ =≡
≡
−
−
=
=
−
∑
∑
∑
∑
2回の(独立な)測定
各々の誤差は
標本の平均値
標本の分散(=標準偏差 )
母集団の平均
母集団の分散
その他、中央値、最頻値
標本の分散(標準偏差
2) (なぜ
n-1で割るのか?)
(
)
(
)
(
)
1 2 2 2 2 2 2 2 2 2 2 1 1 ( ) 1 1 2 2 1 1 ( ) ( ) 2 2 1 ( ) ( ) 2( )( ) 2 1 ( 1) 1 1 ( ) ( 1) 2 n i i i j i j ij i j i j i j i j i j n n ij n ij i j i j n i i x x n x x x x x x x x x x x x x x x x x x x x s n n x x n n = = = ≠ = ≡ ⎛ ⎛ + ⎞⎞ ⎛ ⎛ + ⎞⎞ ∆ ≡⎜ −⎜ ⎟⎟ +⎜ −⎜ ⎟⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ = − = − − − = − + − − − − ∆ = ∆ − = − −∑
∑ ∑
∑
平均 二項間の分散の和 の平均(
)
(
)
(
)
2 2 1 2 1 1 1 2 1 ( ) 2( )( ) 1 ( ) ( 1) ( 1) 1 ( ) ( 1) n j i j j n n n i i j i i j n i i x x x x x x n x x x x x x n n n n x x n = = = = = + − − − − = − − − − − − = − −∑
∑
∑
∑
∑
(不偏)分散s
n2 標準偏差s
n誤差伝播1
2 2 1 2 2 1 2 2 2 2 ( , ,...) 1 lim ( ) ( ) ( ) 1 lim ( ) ( ) 1 lim ( ) ( ) 2( )( n x i n i i i i n x i i n i i i i i n x f u v x x n x x x x u u v v u v x x u u v v n u v x x u u v v u u v v n u v σ σ →∞ = →∞ = →∞ = ⎡ ⎤ = ⎢ − ⎥ ⎣ ⎦ ∂ ∂ ⎛ ⎞ ⎛ ⎞ − − ⎜ ⎟+ − ⎜ ⎟+ ∂ ∂ ⎝ ⎠ ⎝ ⎠ ⎡ − ⎛ ∂ ⎞+ − ⎛∂ ⎞+ ⎤ ⎜ ⎟ ⎜ ⎟ ⎢ ⎝∂ ⎠ ⎝∂ ⎠ ⎥ ⎣ ⎦ ∂ ∂ ⎛ ⎞ ⎛ ⎞ − ⎜ ⎟ + − ⎜ ⎟ + − − ∂ ∂ ⎝ ⎠ ⎝ ⎠∑
∑
L L[
]
1 2 2 2 2 1 1 1 2 2 2 2 2 ) 1 1 lim ( ) , lim ( ) 1 lim ( )( ) (covariance) 2 n i n n u i v i n n i i n uv i i n i x u v u x x u v u u v v n n u u v v n x x u v σ σ σ σ σ σ σ = →∞ →∞ = = →∞ = ⎡ ⎛ ∂ ⎞⎛ ∂ ⎞ + ⎤ ⎢ ⎜ ⎟⎜ ⎟ ⎥ ∂ ∂ ⎝ ⎠⎝ ⎠ ⎢ ⎥ ⎣ ⎦ ⎡ ⎤ ⎡ ⎤ = ⎢ − ⎥ = ⎢ − ⎥ ⎣ ⎦ ⎣ ⎦ ⎡ ⎤ ≡ ⎢ − − ⎥ ⎣ ⎦ ∂ ∂ ⎛ ⎞ + ⎛ ⎞ + + ⎜∂ ⎟ ⎜∂ ⎟ ⎝ ⎠ ⎝ ⎠∑
∑
∑
∑
L L 共分散 v x x u v ∂ ∂ ⎛ ⎞⎛ ⎞ + ⎜∂ ⎟⎜ ∂ ⎟ ⎝ ⎠⎝ ⎠ L 測定値u,vの関数としてxが定義 されているとき、xの誤差はu,vの 測定誤差からどう計算(伝播)さ れるか誤差伝播2
[
]
2 1 2 2 2 2 2 1 lim ( )( ) 2 n uv i i n i x u v uv u u v v n x x x x u v u vσ
σ
σ
σ
σ
→∞ = ⎡ ⎤ ≡ ⎢ − − ⎥ ⎣ ⎦ ∂ ∂ ∂ ∂ ⎛ ⎞ + ⎛ ⎞ + + ⎛ ⎞⎛ ⎞ + ⎜ ∂ ⎟ ⎜ ∂ ⎟ ⎜ ∂ ⎟⎜ ∂ ⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎝ ⎠∑
L L uとvが独立のとき(相関がないとき)、共分散
σ
uvはゼロ
2 2 2 2 2 x u v x x u vσ
σ
⎛⎜ ∂ ⎞⎟ +σ
⎛⎜ ∂ ⎞⎟ + ∂ ∂ ⎝ ⎠ ⎝ ⎠ L誤差伝播3
足し算、引き算 。。。誤差は同じ
バックグランドの引き算で誤差が大きくなる
かけ算
相対誤差の大きい成分が全体の誤差を決める
2 2 2 x u vx
u
v
x
u
v
σ
σ
σ
= +
= −
=
+
あるいは
2 2 2 2 2 2 2 2 2 2 2 u v x u v
x
uv
v
u
u v
u
v
σ
σ
σ
σ
σ
=
⎛
⎞
=
+
=
⎜
+
⎟
⎝
⎠
問題
共分散がゼロでない具体的な例をあげよ
あるきめられた時間T(s)の間に、1個の放射線
検出器を用いて放射線源の強さを測定する。
ソースを測定しているときの(バックグランド込み
の)カウントレートの期待値がr(c/s),ソースを外し
たときのカウントレートの期待値がb(c/s)である
とき、時間Tのうちでソース測定の時間をいくらに
とるのが最適か?
平均値の誤差
(Error)、不確かさ(Uncertainty)
測定をN回繰り返して平均を取ることで、(偶然)
誤差を1/√nに小さくできる
1 2 1 2 2 2 2 1n
,
,....,
1
1
1
n n i i n x x ix x
x
x
x
n
n
n
σ
σ
σ
σ
σ
= =≡
=
=
∑
∑
誤差伝播則を使
回の(独立な)測定
各々の誤差は
標本平均値
標本平均値の誤差
は
うと
最尤法
(Maximum Likelihood Method)
1 2n
, ,....,
µ
Gauss)
1
1
exp
2
2
'
'
n i i i i i ix c
x
x
x
dx
dQ
Pdx
x
P
σ
µ
σ
σ
π
µ
µ
µ
+
=
⎡
⎛
−
⎞
⎤
≡
⎢
−
⎜
⎟
⎥
⎝
⎠
⎢
⎥
⎣
⎦
回の(独立な)測定
で、
母集団が平均値 標準偏差 の正規(
分布の場合
1回の測定で
の値を観測する確率は
は不可知、推定値を とする。
尤度が最大になる はどう決められるか
考え方:
最も確率の高い標本分布(測定
値の組)が実現されているはず
最尤法2
2 1 2 1 2 1'
'
'
1
1
( ')
exp
2
2
,
,...,
( ')
( ')
'
1
1
exp
2
2
( ')
'
i i i n n i i n n i ix
x
P
n
x x
x
P
P
x
P
µ
σ
σ
µ
µ
σ
σ π
µ
µ
µ
σ
σ π
µ
µ
µ
= ==
⎡
⎛
−
⎞
⎤
=
⎢
−
⎜
⎟
⎥
⎝
⎠
⎢
⎥
⎣
⎦
=
⎡
−
⎤
⎛
⎞
⎛
⎞
=
⎜
⎟
⎢
−
⎜
⎟
⎥
⎝
⎠
⎝
⎠
⎢
⎣
⎥
⎦
∏
∑
平均値 、標準偏差
の正規分布を仮定すると
を観測する確率は
回の測定で
を観測する確率(尤度)は
を最大にする が最も確からしい の推定値
最尤法(正規分布の場合の例)
最尤法3
2 1 2 1 1( ')
'
1
2
'
0
'
1
'
n i i n i i n i iP
X
x
X
x
dX
d
x
x
n
µ
µ
σ
µ
µ
σ
µ
= = =−
⎛
⎞
=
⎜
⎟
⎝
⎠
−
⎛
⎞
= −
⎜
⎟
=
⎝
⎠
=
=
∑
∑
∑
を最大にすることは次の を最小にするのと同じ
最も確からしい母集団平均(mean)の推定値は加算
平均(average)
誤差が異なるデータの場合
(重みつき平均)
2 1 1 2 2 2 2 1 1 2 ' 2'
1
1
( ')
exp
2
2
'
(
/
)
'
'
1
0
'
' 2
(1/
)
1
'
(1/
)
i i n n i i i i i n n i i i i i i i i i ix
x
P
x
x
x
d
d
µσ
µ
µ
σ
σ
π
µ
σ
µ
µ
µ
µ
σ
σ
σ
µ
σ
σ
= = = =⎡
⎤
⎛
⎞
⎛
−
⎞
⎢
⎥
=
⎜
⎜
⎟
⎟
−
⎜
⎟
⎢
⎝
⎠
⎥
⎝
⎠
⎣
⎦
⎛
⎞
⎛
−
⎞
−
= −
⎜
⎟
=
=
⎜
⎟
⎝
⎠
⎝
⎠
=
∑
∏
∑
∑
∑
∑
∑
各測定値 につく誤差が異なる の場合
の最尤推定値は
より
また推定値 に関する誤差は
どうやって誤差を評価するか?
例えば使用説明書に書いてある測定器の精度を使用するのは一般
には不十分
Conservativeな測定値の範囲を示すには有効 一般に系統誤差を評価するのは困難
全く独立な実験を行い結果を比較する 測定を
同じ条件で
複数回繰り替えすことができる場合は測定値の
(標本)標準偏差が(偶然)誤差の推定値を与える
最尤法を使い誤差を推定することもできる 統計誤差の場合、理論的に推定できることがある
例)放射線源を決まった時間だけ計測する際の計数xはポアソン分布 に従う。 この場合統計誤差は√x。演習問題その1
1.ある1本の棒の長さに関してx
1,x
2,…,x
nのn個の測定値
がある。測定誤差は全て等しいと仮定して、この棒の長
さと測定誤差を最尤法で推定せよ。
2.約FWHM120eVのエネルギー分解能をもつX線検出器
を使って、X線源から放射される単一エネルギーのX線
を測定する。 X線のエネルギーの値を10eVの精度で
決定するためには何個のX線イベントを検出すればよい
か? また、このX線源を使って検出器のエネルギー分
解能を10eVの精度で決定するためには、何個のX線イ
ベントを検出すればよいか?
3.測定u,vの関数としてx=f(u,v)が定義されているとき、u,v
が独立でない場合の例をあげよ。 誤差伝播則を使って
xの誤差を計算する際、共分散項を考慮する場合と無視
した場合の違いを評価せよ。
確率分布
いろいろな確率分布
二項分布
ポアッソン分布
正規(ガウス分布)
t分布
χ2乗分布
確率分布関数と平均値、分散
(
)
2 2 1 2 1 2 1 2 2 1 ( ) ( ) ( ) , ,... , ,... ( ) i i i i i i x P x xP x dx x P x dx x x x P P x P x P µ σ µ µ σ µ ∞ = ∞ = = = − = = −∫
∫
∑
∑
に関する確率分布関数 が与えられていたとき 平均値 分散 が離散的な変数 の場合それぞれの確率を として 平均値 分散 測定値の組 x
1,x
2,…,x
nが与えられている場合と、それ
をヒストグラムにした分布が与えられている場合を明確
に区別すべき。
二項分布、ポアッソン分布
2 ! ( ; , ) (1 ) ( )! ! (1 ) (1 ) x n x B n P x n p p p n x x x pn np p p σ µ − = − − = = − = − 二項分布 0 0.1 0.2 0.3 0.4 0 5 10 15 Poisson Distribution 1 2 3 4 5 10 x µ= 2 1 ( ; ) ! x p e P x x x µ µ µ µ σ µ − << = = = ポアッソン分布 二項分布で の極限ポアッソン分布の導出その1
2 1/ 0 0 0 ! 1 ! ( ; , ) (1 ) (1 ) (1 ) ( )! ! ! ( )! (1 ) (1 ) ! (for ) ( )! (1 ) 1 1 (1 ) (1 ) ( ;lim
lim
lim
x n x x x n B x x n p p p B p n n P x n p p p p p p n x x x n x pn np p p p n n x n n x p px p p e e P x µ µ µ µ σ µ µ − − − − → → → = − = − − − − = = − = − << ≈ << − − ≈ + ⎛ ⎞ ⎡ ⎤ − = ⎣ − ⎦ =⎜ ⎟ = ⎝ ⎠ 二項分布 において を一定に保ったまま、 1の極限を考える , ) ( ; ) ! x p n p P x e x µ µ µ − = ≡ポアッソン分布の導出その2
(ゼミでは省略)
/ / ( ; , ) (0; , ) (0; , ) (0; , ) (0; , ) 1 (0; , ) 1 t t x P x t t t dt dt P t P t P t dt dP t P t e e x τ τ τ τ τ τ τ τ τ τ τ τ − − + × = − + ≈ = 平均の時間間隔 でイベントが起こるとき、時間tの間に イベント起こる確率を とする あるイベントが起こった時刻を基準にして時間 に次のイベントが起こる確率は これを積分して規格化をすると つまりイベントの時間間隔の分布は で記述できる。 イベントを時間 1 2 / 1 / ( ; , ) ! 0 ( ; , ) ! ( ; ) ! t x x i i i x t x p dt dt dt e d P x t x t x t t e t P x t x t t P x e x τ τ µ τ τ τ τ µ τ µ µ − = − − = ⎛ ⎞ = ⎜ ⎟ ⎝ ⎠ = ≡∏
tの間の , ,...に観測する確率は 時間 の間に イベント起こる確率はそれぞれの を から まで積分して は時間 の間に起こるイベント数の平均値 ポアッソン分布はポアッソン分布
ポアッソン分布の例
放射線源の1秒あたりの崩壊数
放射線源の測定で1時間当たりの検出カウント数
1000人の集団の中で今日が誕生日の人の数
ポアッソン分布の統計誤差
平均値の平方根
(複数回の測定ができないとき)1回の測定値の平方根で置き換え るときもある ポアッソン分布と正規分布
平均値
µが大きいとき(例えば20以上)ではポアッソン分布は平
均値
µ、分散σ
2=µの正規分布で近似できる。
0 0.1 0.2 0.3 0.4 0 5 10 15 Poisson Distribution 1 2 3 4 5 10 x µ=問題、コメント
ランダムな事象の時間間隔はexp(-t/tau)
放射線源の崩壊の場合のnはpは
正規分布
2 2 1 ( ) ( ; , ) exp( ) 2 2 G x P x µ σ µ σ πσ − = −Bevington
&Robinson
t分布
2 2(
) /
/
1
0
x
n
x
s
t
x
s
n
n
t
n
µ
σ
µ
φ
φ
=
−
= −
平均値 ,標準偏差 の正規分布に従う変数 から 個を
抜き出して、その平均値を 、標本分散を とする
は自由度
のt分布に従う
が大きいとき標準正規分布(平均値 、標準偏差1)で
近似できる
平均値の検定、母平均の区間推定、平均値の差の検定などに
使用する(正規分布で近似してしまう場
自
合
由度 の 分布
も多い)
χ
2
分布
2 2 2 2 2 2 2 / 2 1 / 2 / 2 2 2 2 2 2 20
1
(
)
{(
)
}/ 2
( / 2)
(
)
(
)
2
(
)
i ix
x
n
e
E
V
x
n
n
ν χ ν νχ
χ
ν χ
χ
χ
ν
χ
ν
χ
ν
µ
µ
σ
χ
χ
σ
− −=
=
Γ
=
=
−
∑
∑
n i=1 n i=1平均値 ,標準偏差 の正規分布に従う変数 の自乗和
の従う
分布を自由度 の
分布と呼ぶ。 一般に自由度 の
分布は
f
期待値
分散
平
自由度 の (カ
均値 ,標準偏差 の正規分布に従う
も自由度 の
イ二乗)分布
分布
2 2 2(
)
1
ix
x
n
χ
σ
−
−
∑
n i=1、
はしかし自由度
の
分布
演習問題その2
データのモデル化、最小二乗フィット
フィッティングとは
最小二乗フィットの基礎となる最尤法の考え方
あてはめのよさの検定:カイ二乗検定
パラメータの推定誤差
最尤法の直接的利用
データのモデル化、あてはめ
(Fit)、回帰
ばらつきのある測定値に適当なモ
デル(直線や曲線)であてはめるこ
と
モデル
直線の場合。。。線形回帰 多項式の場合 一般の関数の場合 データの誤差
各点共通の場合 各点で重みが異なる場合 モデル点のまわりのばらつき
正規分布の場合 それ以外の場合 0 5 10 15 0 2 4 6 8 10 X -1 0 1 2 3 4 5 0 2 4 6 8 10 X最小二乗フィット
(例:直線モデル) 1
0 0 0 0 0 0 ( ) , , ( ) ( ) i i i i i x y x y y x ax b a b a b y x a x b y y xσ
= + = + 測定値の組( , )があり、独立変数 と従属変数 の間の関係を で近似するとき 、 に関する最も確からしい推定値は どうやって決められるか? 母集団における係数を とし、 真 の関係式を さらに測定値 は平均値 、標準偏差 の 正規分布に従うと仮定する。 0 5 10 15 0 2 4 6 8 10 X 正規分布に従う母集 団から標本を1個採っ てくるのが測定最小二乗フィット
(例:直線モデル) 2
2 0 2 0 0 0 1 1 1 ( ) 1 1 exp 2 2 ( ) 1 1 ( , ) exp 2 2 , 1 1 ( , ) exp 2 2 i i i i i i i i n n n i i i i i i i i i i y P y y x P n y y y x P a b P a b y y P a bσ
σ
π
σ
σ
π
σ
π
= = = ⎡ ⎛ − ⎞ ⎤ ⎢ ⎥ = − ⎜ ⎟ ⎢ ⎝ ⎠ ⎥ ⎣ ⎦ ⎡ ⎤ ⎛ ⎞ ⎛ − ⎞ ⎢ ⎥ = = ⎜⎜ ⎟⎟ − ⎜ ⎟ ⎢ ⎝ ⎠ ⎥ ⎝ ⎠ ⎣ ⎦ ⎛ ⎞ = ⎜⎜ ⎟⎟ − ⎝ ⎠∑
∏ ∏
を観測する確率 は 個の観測値 の組を得る確率は 同様に任意の係数推定値 に従うときに観測値 の組を得る確率は 2 1 1 0 0 0 0 ( ) ( , ) ( , ) ( , ) ( , ) n n i i i i i y x P a b P a b a b a bσ
= = ⎡ ⎛ − ⎞ ⎤ ⎢ ⎜ ⎟ ⎥ ⎢ ⎝ ⎠ ⎥ ⎣∑
⎦∏
観測は母集団 から採取する操作。 の最大値を与えるような が の最尤推定値。最尤法の考え方
最小二乗フィット
(例:直線モデル) 3
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 0, 0 , 1 1 1 1 ( ) ( , ) i i i i i i i i n n i i i i i i i i i i i i i i i i i i i i i i a b x y x y a x y x x y y y x y ax b P a b b x x χ χ χ σ σ σ σ σ σ σ χ σ σ σ σ σ σ χ = = ∂ = ∂ = ∂ ∂ ⎛ ⎞ = ⎜ − ⎟ ∆ ⎝ ⎠ ⎛ ⎞ = ⎜ − ⎟ ∆ ⎝ ⎠ ⎛ ⎞ ∆ = − ⎛ − ⎞ ⎛ − − ⎞ ≡ = ⎜ ⎝ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠∑ ∑
∑ ∑
∑ ∑
∑
∑
∑
∑
∑
a b から を最小 を最大にする にす = を最小にす とし ただ る る て し 2 ⎟ ⎠∑ ∑
二乗の和を最小にするので
最小二乗フィットと呼ぶ。
χ
2フィットともいう。
( ) ( )(
)
(
)
(
)
2 2 2 1 2 2 1 , ) , , ) ( ) 1 , 1 n i i i i i i i i i i i i i i i i i i y ax b a b x y x a n x y x y b x y x x y n x b x ax a b χ σ = = − = − ∆ = − ∆ = − + ∆ −∑
∑ ∑
∑ ∑ ∑ ∑
∑
∑
∑
2 各点の誤差が同一のとき を最小にする( を 求めることは、各測定点 とモデル点 ( の距離のニ乗和を最小にする を求める ただ 価 し ことと等問題
正規分布ではなくてポアソン分布の場合はどう
なるか?
カイ2乗検定
仮説、危険率s
あてはめの良さ
(Goodness of Fit)
2 2 2 1 1 2 2 2( )
(
,
-,
(
/ )
n n i i i i i i i iy
y x
y
ax
b
n m m
a b
n m
a b
νχ
σ
σ
χ
ν
χ
χ ν
= =⎛
−
⎞
⎛
−
−
⎞
≡
⎜
⎟
⎜
⎟
⎝
⎠
⎝
⎠
−
≡
∑
(直線モデルの場合
∑
)
は自由度
はパラメータの数、直線の場合
で2)
の
に従う。 期待値は
。
これがあてはめの良さ(仮定したモデル関数の妥当性、
パラメータ
が適当であること、測定誤差が正しく評価
されていること)の基準になる。
を自
カイ自乗分布
由度 で割った
を
reduced chi-square
という。
( )
i i i iy
y x
t
σ
−
=
は中心0,標準偏差1の正規分布に従う
カイ二乗分布の確率分布の積分
あてはめの良さの検定
Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より
• 最小二乗フィットによ りモデルパラメータを 最適化した際のχ2値 を求める • 上記のχ2値(以上の 値)を得る確率を表か ら調べる。 • 確率があまりにも小さ ければ何か間違って いる。(例えばモデル が適当でない) reduced-χ2の値の表(対応するχ2の値を超え る確率Pと自由度νの関数として表示されている)
http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.html
• に
も同様の表(但しreduced chi-squaredではなくchi-squaredの値)が掲 載されている。
χ
2
分布の表
Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より
パラメータの推定誤差
最適化したパラメータはあくまでもパラメータの
真の値の推定値。 必ず推定誤差がある。
直線モデルの場合、誤差伝播側より計算できる
2 2 2 1 2 2 2 2 11
1
1
n a i i i i n i b i i i ia
y
x
b
y
σ
σ
σ
σ
σ
σ
= =⎛
⎞
⎛
∂
⎞
=
⎜
⎟
= ⎜
⎟
∂
∆
⎝
⎠
⎝
⎠
⎛
⎞
⎛
∂
⎞
=
⎜
⎟
= ⎜
⎟
∂
∆
⎝
⎠
⎝
⎠
∑
∑
∑
∑
任意関数の最小二乗(カイ二乗)フィット
2 2 1 2 2 2 2 2min 2 2min 2min ( ) ( ) 1 n i i i i y x y y x m n m a a a a a a a χ χ χ χ σ χ ν χ χ χ χ = + − ⎛ − ⎞ ≡ ⎜ ⎟ ⎝ ⎠ − ∆ = + ∆ −∆∑
任意の関数形 をモデルに採用した場合でも を最小にするようパラメータを決定する。 パラメータの数を として は自由度 = の 分布に従うことが期待される。 パラメータの誤差の推定: を最小にするパラメータ値 に対して、 を1だけ増加させる ( ) の値、 、 を探す。 の誤差範囲(1パラメータ68%信頼水準)はaχ2min −∆a−からaχ2min + ∆a+。カイ二乗フィットのパラメータ誤差推定
(パラメータの数による信頼区間の違い)
Numerical Recipes in C,
技術評論社より転載。
上の表で自由度とは(注
目する)パラメータの数。
パラメータa1,a2それぞれのの68%信頼区 間はΔχ2=1であるが、(a 1,a2)の組の68% 信頼区間はΔχ2=2.3の楕円で囲まれた 領域になる。最小二乗(カイ二乗)フィットのまとめ
最尤法が根拠。 ただし、測定値yのモデル点からのば
らつきが正規分布で近似できる場合に限定。
χ
2を最小にするパラメータが最良推定値。
あてはめの良さ、モデルの妥当性は
χ
2の値が自由度
n-mに近いかどうかで評価できる。
パラメータの誤差(信頼区間)は
∆ χ
2から推定できる。
カイ二乗フィットのパラメータ推定誤差
1 1 , 1 1 1 ( , ),....,( ) ,...., ,..., ( ; ,..., ) ( ,..., ) n n n n p p x y x y y y f x a a a a σ1 σ n回の測定でデータの組 が得られたとし、 の測定誤差(ただし正規分布する ランダム誤差)を とする。これらのデータ点はp個のパラメータで指定されるモデル で記述できる母集団から採取されたと仮定する。採取(=測定)の際にランダム誤差が付加される。 パラメータの真の値(これは不可知)を と ( )2 ; 1 1 2 1 2 ; 1 2 2 2 1 1 1 ( ,..., ) 1 ( ,..., ) exp 2 2 ( ,..., ) exp ˆ ˆ ( ,..., ) ( ,..., ) n i i p p i i i n i i p i i p p y f x a a P a a y f x a a n P a a a a σ σ π χ χ χ σ = = ⎡ − ⎤ ⎢ ⎥ = − ⎢ ⎥ ⎣ ⎦ − ⎛ ⎞ ≡ ⎜ ⎟ ⎝ ⎠ ∏ ∑ 仮定すると尤度(データ点の組が得られる確率は)は の中身を と定義する。 は自由度 の 分布に従う。 一方 を最大にするようなパラメータの組(=最適パラメータ)を ( ) ( ) ( ) 2 ; 1 2 2 2 min min 1 2 2 ; 1 1 1 2 ; 1 2 ˆ ˆ ( ,..., ) -ˆ ˆ ,..., ,..., ( ,..., ) ,..., n i i p i i i p p p i i p y f x a a p n p f x a a a a a a y f x a a y χ χ χ σ χ χ χ = − ⎛ ⎞ = ⎜ ⎟ ⎝ ⎠ − − ∆ = ∑ とすると これは の最小値 を与える。 はp個のパラメータによって 調整して最小化を行ったので自由度が 減って、自由度 の 分布に従う。 が の線形関数の場合、 が の最小値を与えることに注意すると ( ) ( ) ( ) ( ) ( ) 2 2 ; 1 2 1 1 2 2 1 1 2 1 2 2 2 2 min ; 1 1 ˆ,...,ˆ ˆ 1 ˆ 1 ( ,..., ) ( ,..., ) exp 2 2 ,..., ,..., p n i i p j j j i i j j j p j j p p j j j i p p f x a a A a a a A a a P a a F a a f x a a a a σ χ δ δ δ π χ χ χ χ = = = − − ∂∆ = ∂ ⎡ − ⎤ ⎢ ⎥ = × − ⎢ ⎥ ⎣ ⎦ ∆ ≡ − ∑ ∑ ∏ j という形にかけるはず( =0)。 とすると を含まない関数 これから は自由度pの 分布に従うことがわかる。 が の線 2 2 2 2 min χ χ χ χ ∆ ≡ − 形関数でない場合は、このような形にはかけないが は自由度pの 分布で近似する。ヒストグラム(スペクトル)のフィット
2 2 2 2 1 1 1 ( ) ( ( )) ( ( )) ( ) i n n n i i i i i i i i i i n y y x n y i n y i n y i χ σ = = = ⎛ − ⎞ − − ≡ ⎜ ⎟ = = ⎝ ⎠∑
∑
∑
ビンの生のカウントを とすると 場 合によっては 各ビンのカウントが20以下の場合にはポアッソンー>正規分布の 仮定がくずれる。 ビンまとめか最尤法の直接利用かカイ二乗フィットの計算手法
モデル関数が多項式の場合
行列計算(連立方程式)で解ける 一般の関数形のモデルでχ
2を最小化する方法
Grid Search Gradient Search Expansion Method χ2をbest fitパラメータ付近で放物面で近似する モデル関数をbest fitパラメータ付近で線形化する Gradient-Expansion algorithm (Marquardt method)
詳細は Data Reduction and Error Analysis for the Physical
最尤法の直接的な利用1
K
0中間子の寿命の測定
K
0中間子の生成点は生成
に伴う二次荷電粒子の飛跡
から、崩壊点と運動量は崩
壊後のパイ中間子の飛跡と
運動量の測定から決められ
る
点線の領域内で崩壊が起
こった現象だけ取り扱う
Data Reduction and Error Analysis for the Physical Sciences, Bevington &
最尤法の直接的な利用2
/ / ( ; ) ( ; ) i i i t i i i i i t i i i i i t P A p t Ae A p t e t t dt A t τ τ τ τ τ τ τ − − = = = + 0 0 0 時間 だけ生き延びるK 中間子を観測する確率 ここで は定められた領域内で崩壊が起こり検出できる効率、 K 中間子の生成点、崩壊点の位置や運動量、寿命 に依存する。 は寿命 の粒子が の間に崩壊する確率。 は や と独立ではないことに注意。 生成点と運動量が決まっているK 中間子に対して、点線領域に入るまでの 距離を 2 2 1 1 1 2 1 2 / / 1 1 , , 1 ( ) i i i t t t i i i i t t N N t i i i i d d t t A Pdt A e dt N L P Ae τ τ τ τ − − = = = = = =∫
∫
∏ ∏
出る(崩壊が起こらなかったとして)までの距離を とし、対応する 時間を とする。 は次のように規格化する。 個のイベントについて尤度は これを最大にするような が求めたい答え最尤法の直接的な利用3
/ 1 1 1 2 2 1 2 ( ) ( ) ln ( ) ln 0, 1 1/ ( ) ln ( ) 1 0 / , 1/ i N N t i i i i i i i i i i i L P Ae t M L A t t A M t N dM N t t N d t t A e τ τ τ τ τ τ τ τ τ τ τ τ τ τ − = = = = ⎡ ⎤ = = ⎢ − ⎥ ⎣ ⎦ = = ∞ = = − − = − = = ≠ = ∞ =∏ ∏
∑
∑
∑
∑
のかわりに を最大にすることを考える 例1) のとき(粒子の寿命に対して測定領域が十分大きい場合) で より 例2)全ての粒子の運動量が同じで が共通の値( 0) の場合[
]
1 1 / / 1 1 / ( ) ln ln ( ) 0 / i t t i t i i dt e t t M L dM t N t d τ τ τ τ τ τ τ τ τ ∞ − = − = = − = = −∫
∑
∑
∑
よりData Reduction and Error Analysis for the
Physical Sciences, Bevington & Robinson より
最尤法の直接利用と最小二乗法
最小二乗法を使えないとき=分布が正規分布でないとき
ビンまとめし、ヒストグラムをつくると、1ビンあたりに含ま
れるデータ数が十分大きい場合、正規分布で近似できる。
この場合最小二乗法が使えるようになる。
ただし、もともとのデータ数が小さい場合は適用付加。。。
最尤法の直接利用
複雑なモンテカルロ計算が必要になるような場合(例:K中
間子の寿命測定)も最尤法の直接利用が効果的
∆M=1/2より最尤法で決めたパラメータ誤差を推定できる
しかし、最尤法の直接利用ではあてはめの良さを評価す
る適当な指標(最小二乗法のχ
2のような)がない。
演習問題3
カイ2乗フィットの実例を紹介せよ。
デルタカイ2乗=1がパラメータの推定誤差にな
ることをy(x)=bのモデルの例で説明せよ。
F-testを説明せよ。特にカイ2乗フィットでモデル
パラメータを増やす際の検定について。
直線モデルでデータ点をフィットする例において
X軸方向の誤差まで考えた場合、最尤法で直線
モデルを決める方法を説明せよ。
検定、区間推定、相関係数
統計的検定
仮説の当否を統計的に検証する
区間推定
真の値の範囲を統計的に推定する
相関係数
2個のパラメータ間の関連を調べる
統計的検定
例)xの10回の測定平均値が0.40、標準偏差が0.05
仮説H:(例)母集団での平均値は0.5である
本当は対立仮説H': 母集団での平均値は0.5でない を示したい
ので、Hを帰無仮説という。
H': 母集団での平均値は0.5より小さい(大きい) の場合も有り
得る。 両側検定、片側検定。
平均値0.5標準偏差0.05の母集団から10個の標本をサン
プルした場合に平均値が0.4以下になる(あるいは0.4以
下、0.6以上になる)確率Pは?
Pが定められた危険率(有意水準)aより
小さい:仮説は誤り。 正しい可能性棄てる危険性aを伴って。
大きい:仮説は否定できない。
いろいろな検定
母平均の検定:正規分布
母集団の分散
σ
2が既知でない場合->t分布
母平均の差の検定->t分布
母分散の検定:χ
2分布
母分散の比の検定:F分布
相関の有無の検定:相関係数の表
区間推定
2 2 2 2 ) / / 1 ) / / / / x x s n n t x s n x s n x s n µ σ µ σ µ φ α α µ α α µ α − = − ≤ − ≤ ≤ ≤ + 2 2 N-1 N-1 N-1 N-1 例)n回の測定の平均値が と求まったとき 母平均の存在する範囲はどのように推定できるか? 母集団の分布は正規分布( , )と仮定すると、標本平均は 正規分布( , /n)に従う。 ( は自由度 の 分布に従う。 確率1- となる区間は -t ( /2) ( t ( /2) 変形して -t ( /2) t ( /2) が 2 2 100 (1 - ) / / x s n x s n α µ α µ α × ≤ ≤ + %での母平均 の nが大きいときにはt分布のかわりに正規分布を使い -z( /2) z( /2) で近似 信頼係数 信頼 すると 区間 きもあるf(t)
t
1-α
α/2
α N-1 +t ( /2) α N-1 -t ( /2)信頼区間の推定
正規分布の場合
-σ<x-µ<σにくる確率68.3%
-2σ<x-µ<2σにくる確率95.5%
-3σ<x-µ<3σにくる確率99.7%
-1.96σ<x-µ<1.96σにくる確率
95%
-2.58σ<x-µ<2.58σにくる確率
99%
相関係数
二つの測定量x,yの間に(線形)相関があるかど
うか
1なら正の相関、−1なら負の相関、ゼロなら相関な
し
(
)
2 1/ 2(
)
2 1/ 2 2 2 i i i i i i i i N x y x y r N x x N y y − ≡ ⎡ − ⎤ ⎡ − ⎤ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ ⎣ ⎦∑
∑ ∑
∑
∑
∑
∑
まとめ
測定:母集団から標本をとってくる
誤差とは? 誤差をどう求めるか
最尤法の考え方
誤差伝播
いろいろな確率分布
最小二乗法、カイ二乗フィット
検定と推定
相関係数の検定
Data Reduction and Error Analysis for the
Physical Sciences, Bevington & Robinson より