• 検索結果がありません。

統計的データ解析

N/A
N/A
Protected

Academic year: 2021

シェア "統計的データ解析"

Copied!
61
0
0

読み込み中.... (全文を見る)

全文

(1)

統計的データ解析

2004

林田 清

(2)

演習で使用したソフト

„

dis45

„

xspec

„

qdp

„

gnuplot

„

oocalc

(3)

実験データの統計処理 基本となる

考え方

„

誤差について

„

母集団と標本

„

平均値と標準偏差

„

誤差伝播

„

最尤法

„

平均値につく誤差

(4)

誤差

(Error):真の値からのずれ

„

測定誤差

‰

物差しが曲がっていた

‰

測定する対象が室温が低いため縮んでいた

‰

1gの単位までしかデジタル表示されない計りで1g以下

‰

計りの目盛りを読み取る角度によって値が異なる

„

統計誤差

‰

放射線源を検出器で測定したときの計数率

‰

テレビの視聴率

„

偶然誤差(Random Error)と系統誤差(Systematic

Error)

(5)

測定値xの分布 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10 x 頻度 „

n個の測定値 x

1

, x

2

, …, x

n

の分布

‰

例えば

„

1本の棒の長さをn人の人が同じものさしを使って測定する

„

(同じ設計で製作した)n本の棒の長さ

„

1個の放射線源について1分間あたりの放射線の検出個数

をn回測定する

„

ある振り子の振動周期をn回測定する

‰

分布の広がりが誤差を表す

測定値の分布

(6)

母集団と標本

„

母集団

‰

同じ条件で無限回の測定を繰り返したときの測定値

の分布(極限頻度分布)

„

実際には無限回の測定は不可能

„

極限頻度分布は存在すると仮定する

‰

測定は母集団から標本を採取する操作

„

採集された標本から母集団の分布を推定するの

が統計的解析

‰

真の値は不可知

(7)

平均値、標準偏差

1 2 1 2 2 1 1 2 2 1

n

,

,....,

1

1

(

)

1

1

lim

1

lim

(

)

n n i i n i i n i n i n i n i

x x

x

x

x

n

s

x

x

n

x

n

x

n

σ

µ

σ

µ

= = →∞ = →∞ =

=

=

回の(独立な)測定

各々の誤差は

標本の平均値

標本の分散(=標準偏差 ) 

母集団の平均 

母集団の分散

„

その他、中央値、最頻値

(8)

標本の分散(標準偏差

2

) (なぜ

n-1で割るのか?)

(

)

(

)

(

)

1 2 2 2 2 2 2 2 2 2 2 1 1 ( ) 1 1 2 2 1 1 ( ) ( ) 2 2 1 ( ) ( ) 2( )( ) 2 1 ( 1) 1 1 ( ) ( 1) 2 n i i i j i j ij i j i j i j i j i j n n ij n ij i j i j n i i x x n x x x x x x x x x x x x x x x x x x x x s n n x x n n = = = ≠ = ≡ ⎛ ⎛ + ⎞⎞ ⎛ ⎛ + ⎞⎞ ∆ ≡ + ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ = − = − − − = − + − − − − ∆ = ∆ − = − −

∑ ∑

平均        二項間の分散の和  の平均     

(

)

(

)

(

)

2 2 1 2 1 1 1 2 1 ( ) 2( )( ) 1 ( ) ( 1) ( 1) 1 ( ) ( 1) n j i j j n n n i i j i i j n i i x x x x x x n x x x x x x n n n n x x n = = = = = + − − − − = − − − − − − = − −

„

(不偏)分散s

n2 „

標準偏差s

n

(9)

誤差伝播1

2 2 1 2 2 1 2 2 2 2 ( , ,...) 1 lim ( ) ( ) ( ) 1 lim ( ) ( ) 1 lim ( ) ( ) 2( )( n x i n i i i i n x i i n i i i i i n x f u v x x n x x x x u u v v u v x x u u v v n u v x x u u v v u u v v n u v σ σ →∞ = →∞ = →∞ = ⎡ ⎤ = ⎣ ⎦ ∂ ∂ ⎛ ⎞ ⎛ ⎞ − − + − + ∂ ∂ ⎝ ⎠ ⎝ ⎠ ⎡ ⎛ ∂ ⎞+ ⎛∂ ⎞+ ⎤ ⎜ ⎟ ⎜ ⎟ ⎢ ⎥ ⎣ ⎦ ∂ ∂ ⎛ ⎞ ⎛ ⎞ − + − + − − ∂ ∂ ⎝ ⎠ ⎝ ⎠

L L

[

]

1 2 2 2 2 1 1 1 2 2 2 2 2 ) 1 1 lim ( ) , lim ( ) 1 lim ( )( ) (covariance) 2 n i n n u i v i n n i i n uv i i n i x u v u x x u v u u v v n n u u v v n x x u v σ σ σ σ σ σ σ = →∞ →∞ = = →∞ = ⎡ ⎞⎛ ⎞ + ⎤ ⎢ ⎟⎜ ⎥ ∂ ∂ ⎝ ⎠⎝ ⎠ ⎢ ⎥ ⎣ ⎦ ⎡ ⎤ ⎡ ⎤ = = ⎣ ⎦ ⎣ ⎦ ⎡ ⎤ ≡ − − ⎣ ⎦ ∂ ∂ ⎛ ⎞ + ⎛ ⎞ + + ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠

L L 共分散 v x x u v ∂ ∂ ⎛ ⎞⎛ ⎞ + ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠ L „ 測定値u,vの関数としてxが定義 されているとき、xの誤差はu,vの 測定誤差からどう計算(伝播)さ れるか

(10)

誤差伝播2

[

]

2 1 2 2 2 2 2 1 lim ( )( ) 2 n uv i i n i x u v uv u u v v n x x x x u v u v

σ

σ

σ

σ

σ

→∞ = ⎡ ⎤ ≡ − − ⎣ ⎦ ∂ ∂ ∂ ∂ ⎛ ⎞ + ⎛ ⎞ + + ⎛ ⎞⎛ ⎞ + ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎝ ⎠

L L „

uとvが独立のとき(相関がないとき)、共分散

σ

uv

はゼロ

2 2 2 2 2 x u v x x u v

σ

σ

∂ ⎞ +

σ

∂ ⎞ + ∂ ∂ ⎝ ⎠ ⎝ ⎠ L

(11)

誤差伝播3

„

足し算、引き算 。。。誤差は同じ

‰

バックグランドの引き算で誤差が大きくなる

„

かけ算

‰

相対誤差の大きい成分が全体の誤差を決める

2 2 2 x u v

x

u

v

x

u

v

σ

σ

σ

= +

= −

=

+

 あるいは

2 2 2 2 2 2 2 2 2 2 2 u v x u v

x

uv

v

u

u v

u

v

σ

σ

σ

σ

σ

=

=

+

=

+

(12)

問題

„

共分散がゼロでない具体的な例をあげよ

„

あるきめられた時間T(s)の間に、1個の放射線

検出器を用いて放射線源の強さを測定する。

ソースを測定しているときの(バックグランド込み

の)カウントレートの期待値がr(c/s),ソースを外し

たときのカウントレートの期待値がb(c/s)である

とき、時間Tのうちでソース測定の時間をいくらに

とるのが最適か?

(13)

平均値の誤差

(Error)、不確かさ(Uncertainty)

„

測定をN回繰り返して平均を取ることで、(偶然)

誤差を1/√nに小さくできる

1 2 1 2 2 2 2 1

n

,

,....,

1

1

1

n n i i n x x i

x x

x

x

x

n

n

n

σ

σ

σ

σ

σ

= =

=

=

誤差伝播則を使

回の(独立な)測定

各々の誤差は

標本平均値

標本平均値の誤差

うと

(14)

最尤法

(Maximum Likelihood Method)

1 2

n

, ,....,

µ

Gauss)

1

1

exp

2

2

'

'

n i i i i i i

x c

x

x

x

dx

dQ

Pdx

x

P

σ

µ

σ

σ

π

µ

µ

µ

+

=

回の(独立な)測定

で、

母集団が平均値   標準偏差 の正規(

分布の場合

1回の測定で 

 の値を観測する確率は

 は不可知、推定値を とする。

尤度が最大になる はどう決められるか

(15)

考え方:

最も確率の高い標本分布(測定

値の組)が実現されているはず

最尤法2

2 1 2 1 2 1

'

'

'

1

1

( ')

exp

2

2

,

,...,

( ')

( ')

'

1

1

exp

2

2

( ')

'

i i i n n i i n n i i

x

x

P

n

x x

x

P

P

x

P

µ

σ

σ

µ

µ

σ

σ π

µ

µ

µ

σ

σ π

µ

µ

µ

= =

=

=

=

=

平均値 、標準偏差

の正規分布を仮定すると

を観測する確率は

回の測定で

を観測する確率(尤度)は

を最大にする が最も確からしい の推定値

最尤法(正規分布の場合の例)

(16)

最尤法3

2 1 2 1 1

( ')

'

1

2

'

0

'

1

'

n i i n i i n i i

P

X

x

X

x

dX

d

x

x

n

µ

µ

σ

µ

µ

σ

µ

= = =

=

= −

=

=

=

を最大にすることは次の を最小にするのと同じ

„

最も確からしい母集団平均(mean)の推定値は加算

平均(average)

(17)

誤差が異なるデータの場合

(重みつき平均)

2 1 1 2 2 2 2 1 1 2 ' 2

'

1

1

( ')

exp

2

2

'

(

/

)

'

'

1

0

'

' 2

(1/

)

1

'

(1/

)

i i n n i i i i i n n i i i i i i i i i i

x

x

P

x

x

x

d

d

µ

σ

µ

µ

σ

σ

π

µ

σ

µ

µ

µ

µ

σ

σ

σ

µ

σ

σ

= = = =

=

= −

=

=

=

各測定値 につく誤差が異なる の場合

の最尤推定値は

より

また推定値 に関する誤差は

(18)

どうやって誤差を評価するか?

„

例えば使用説明書に書いてある測定器の精度を使用するのは一般

には不十分

‰ Conservativeな測定値の範囲を示すには有効 „

一般に系統誤差を評価するのは困難

‰ 全く独立な実験を行い結果を比較する „

測定を

同じ条件で

複数回繰り替えすことができる場合は測定値の

(標本)標準偏差が(偶然)誤差の推定値を与える

‰ 最尤法を使い誤差を推定することもできる „

統計誤差の場合、理論的に推定できることがある

‰ 例)放射線源を決まった時間だけ計測する際の計数xはポアソン分布 に従う。 この場合統計誤差は√x。

(19)

演習問題その1

1.

ある1本の棒の長さに関してx

1

,x

2

,…,x

n

のn個の測定値

がある。測定誤差は全て等しいと仮定して、この棒の長

さと測定誤差を最尤法で推定せよ。

2.

約FWHM120eVのエネルギー分解能をもつX線検出器

を使って、X線源から放射される単一エネルギーのX線

を測定する。 X線のエネルギーの値を10eVの精度で

決定するためには何個のX線イベントを検出すればよい

か? また、このX線源を使って検出器のエネルギー分

解能を10eVの精度で決定するためには、何個のX線イ

ベントを検出すればよいか?

3.

測定u,vの関数としてx=f(u,v)が定義されているとき、u,v

が独立でない場合の例をあげよ。 誤差伝播則を使って

xの誤差を計算する際、共分散項を考慮する場合と無視

した場合の違いを評価せよ。

(20)

確率分布

„

いろいろな確率分布

‰

二項分布

‰

ポアッソン分布

‰

正規(ガウス分布)

‰

t分布

‰

χ2乗分布

(21)

確率分布関数と平均値、分散

(

)

2 2 1 2 1 2 1 2 2 1 ( ) ( ) ( ) , ,... , ,... ( ) i i i i i i x P x xP x dx x P x dx x x x P P x P x P µ σ µ µ σ µ ∞ = ∞ = = = − = = −

に関する確率分布関数  が与えられていたとき 平均値 分散 が離散的な変数 の場合それぞれの確率を として 平均値 分散 „

測定値の組 x

1

,x

2

,…,x

n

が与えられている場合と、それ

をヒストグラムにした分布が与えられている場合を明確

に区別すべき。

(22)

二項分布、ポアッソン分布

2 ! ( ; , ) (1 ) ( )! ! (1 ) (1 ) x n x B n P x n p p p n x x x pn np p p σ µ − = − − = = − = − 二項分布 0 0.1 0.2 0.3 0.4 0 5 10 15 Poisson Distribution 1 2 3 4 5 10 x µ= 2 1 ( ; ) ! x p e P x x x µ µ µ µ σ µ − << = = = ポアッソン分布 二項分布で の極限

(23)

ポアッソン分布の導出その1

2 1/ 0 0 0 ! 1 ! ( ; , ) (1 ) (1 ) (1 ) ( )! ! ! ( )! (1 ) (1 ) ! (for ) ( )! (1 ) 1 1 (1 ) (1 ) ( ;

lim

lim

lim

x n x x x n B x x n p p p B p n n P x n p p p p p p n x x x n x pn np p p p n n x n n x p px p p e e P x µ µ µ µ σ µ µ − − − − → → → = − = − − − − = = − = − << ≈ << − − ≈ + ⎛ ⎞ ⎡ ⎤ − = =⎜ ⎟ = ⎝ ⎠ 二項分布 において を一定に保ったまま、 1の極限を考える , ) ( ; ) ! x p n p P x e x µ µ µ − = ≡

(24)

ポアッソン分布の導出その2

(ゼミでは省略)

/ / ( ; , ) (0; , ) (0; , ) (0; , ) (0; , ) 1 (0; , ) 1 t t x P x t t t dt dt P t P t P t dt dP t P t e e x τ τ τ τ τ τ τ τ τ τ τ τ − − + × = − + ≈ = 平均の時間間隔 でイベントが起こるとき、時間tの間に イベント起こる確率を とする あるイベントが起こった時刻を基準にして時間 に次のイベントが起こる確率は これを積分して規格化をすると つまりイベントの時間間隔の分布は で記述できる。 イベントを時間 1 2 / 1 / ( ; , ) ! 0 ( ; , ) ! ( ; ) ! t x x i i i x t x p dt dt dt e d P x t x t x t t e t P x t x t t P x e x τ τ µ τ τ τ τ µ τ µ µ − = − − = ⎛ ⎞ = ⎜ ⎟ ⎝ ⎠ = ≡

tの間の , ,...に観測する確率は 時間 の間に イベント起こる確率はそれぞれの を から まで積分して は時間 の間に起こるイベント数の平均値 ポアッソン分布は

(25)

ポアッソン分布

„

ポアッソン分布の例

‰

放射線源の1秒あたりの崩壊数

‰

放射線源の測定で1時間当たりの検出カウント数

‰

1000人の集団の中で今日が誕生日の人の数

„

ポアッソン分布の統計誤差

‰

平均値の平方根

„ (複数回の測定ができないとき)1回の測定値の平方根で置き換え るときもある „

ポアッソン分布と正規分布

‰

平均値

µが大きいとき(例えば20以上)ではポアッソン分布は平

均値

µ、分散σ

2

=µの正規分布で近似できる。

0 0.1 0.2 0.3 0.4 0 5 10 15 Poisson Distribution 1 2 3 4 5 10 x µ=

(26)

問題、コメント

„

ランダムな事象の時間間隔はexp(-t/tau)

„

放射線源の崩壊の場合のnはpは

(27)

正規分布

2 2 1 ( ) ( ; , ) exp( ) 2 2 G x P x µ σ µ σ πσ − = −

Bevington

&Robinson

(28)

t分布

2 2

(

) /

/

1

0

x

n

x

s

t

x

s

n

n

t

n

µ

σ

µ

φ

φ

=

= −

平均値 ,標準偏差 の正規分布に従う変数 から 個を

抜き出して、その平均値を 、標本分散を とする

は自由度

のt分布に従う

が大きいとき標準正規分布(平均値 、標準偏差1)で

近似できる

平均値の検定、母平均の区間推定、平均値の差の検定などに

使用する(正規分布で近似してしまう場

由度 の 分布

も多い)

(29)

χ

2

分布

2 2 2 2 2 2 2 / 2 1 / 2 / 2 2 2 2 2 2 2

0

1

(

)

{(

)

}/ 2

( / 2)

(

)

(

)

2

(

)

i i

x

x

n

e

E

V

x

n

n

ν χ ν ν

χ

χ

ν χ

χ

χ

ν

χ

ν

χ

ν

µ

µ

σ

χ

χ

σ

− −

=

=

Γ

=

=

n i=1 n i=1

平均値 ,標準偏差 の正規分布に従う変数 の自乗和

の従う

分布を自由度 の

分布と呼ぶ。  一般に自由度 の

分布は

f

期待値 

分散  

自由度 の (カ

均値 ,標準偏差 の正規分布に従う

 も自由度 の

イ二乗)分布

分布

2 2 2

(

)

1

i

x

x

n

χ

σ

n i=1

、 

はしかし自由度

分布

(30)

演習問題その2

(31)

データのモデル化、最小二乗フィット

„

フィッティングとは

„

最小二乗フィットの基礎となる最尤法の考え方

„

あてはめのよさの検定:カイ二乗検定

„

パラメータの推定誤差

„

最尤法の直接的利用

(32)

データのモデル化、あてはめ

(Fit)、回帰

„

ばらつきのある測定値に適当なモ

デル(直線や曲線)であてはめるこ

„

モデル

‰ 直線の場合。。。線形回帰 ‰ 多項式の場合 ‰ 一般の関数の場合 „

データの誤差

‰ 各点共通の場合 ‰ 各点で重みが異なる場合 „

モデル点のまわりのばらつき

‰ 正規分布の場合 ‰ それ以外の場合 0 5 10 15 0 2 4 6 8 10 X -1 0 1 2 3 4 5 0 2 4 6 8 10 X

(33)

最小二乗フィット

(例:直線モデル) 1

0 0 0 0 0 0 ( ) , , ( ) ( ) i i i i i x y x y y x ax b a b a b y x a x b y y x

σ

= + = + 測定値の組( , )があり、独立変数 と従属変数 の間の関係を   で近似するとき 、 に関する最も確からしい推定値は どうやって決められるか? 母集団における係数を とし、 真 の関係式を さらに測定値 は平均値 、標準偏差 の 正規分布に従うと仮定する。 0 5 10 15 0 2 4 6 8 10 X 正規分布に従う母集 団から標本を1個採っ てくるのが測定

(34)

最小二乗フィット

(例:直線モデル) 2

2 0 2 0 0 0 1 1 1 ( ) 1 1 exp 2 2 ( ) 1 1 ( , ) exp 2 2 , 1 1 ( , ) exp 2 2 i i i i i i i i n n n i i i i i i i i i i y P y y x P n y y y x P a b P a b y y P a b

σ

σ

π

σ

σ

π

σ

π

= = = ⎡ ⎤ ⎢ ⎥ = − ⎜ ⎥ ⎣ ⎦ ⎡ ⎤ ⎛ ⎞ ⎢ ⎥ = = ⎥ ⎝ ⎠ ⎛ ⎞ = − ⎝ ⎠

∏ ∏

を観測する確率 は 個の観測値 の組を得る確率は 同様に任意の係数推定値 に従うときに観測値 の組を得る確率は 2 1 1 0 0 0 0 ( ) ( , ) ( , ) ( , ) ( , ) n n i i i i i y x P a b P a b a b a b

σ

= = ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎣

観測は母集団 から採取する操作。  の最大値を与えるような が の最尤推定値。

最尤法の考え方

(35)

最小二乗フィット

(例:直線モデル) 3

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 0, 0 , 1 1 1 1 ( ) ( , ) i i i i i i i i n n i i i i i i i i i i i i i i i i i i i i i i a b x y x y a x y x x y y y x y ax b P a b b x x χ χ χ σ σ σ σ σ σ σ χ σ σ σ σ σ σ χ = = ∂ == ∂ ∂ ⎛ ⎞ = ∆ ⎝ ⎠ ⎛ ⎞ = ∆ ⎝ ⎠ ⎛ ⎞ ∆ = − ⎛ − ⎞ ⎛ − − ⎞ ≡ = ⎜ ⎝ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠

∑ ∑

∑ ∑

∑ ∑

a b から を最小 を最大にする にす = を最小にす とし ただ る る て し 2 ⎟ ⎠

∑ ∑

二乗の和を最小にするので

最小二乗フィットと呼ぶ。

χ

2

フィットともいう。

( ) ( )

(

)

(

)

(

)

2 2 2 1 2 2 1 , ) , , ) ( ) 1 , 1 n i i i i i i i i i i i i i i i i i i y ax b a b x y x a n x y x y b x y x x y n x b x ax a b χ σ = = − = − ∆ = − ∆ = − + ∆ −

∑ ∑

∑ ∑ ∑ ∑

2 各点の誤差が同一のとき を最小にする( を 求めることは、各測定点 とモデル点 ( の距離のニ乗和を最小にする を求める ただ 価 し ことと等

(36)

問題

„

正規分布ではなくてポアソン分布の場合はどう

なるか?

„

カイ2乗検定

„

仮説、危険率s

(37)

あてはめの良さ

(Goodness of Fit)

2 2 2 1 1 2 2 2

( )

(

,

-,

(

/ )

n n i i i i i i i i

y

y x

y

ax

b

n m m

a b

n m

a b

ν

χ

σ

σ

χ

ν

χ

χ ν

= =

(直線モデルの場合

は自由度

はパラメータの数、直線の場合

で2)

に従う。 期待値は

これがあてはめの良さ(仮定したモデル関数の妥当性、

パラメータ

が適当であること、測定誤差が正しく評価

されていること)の基準になる。

を自

カイ自乗分布

由度 で割った

reduced chi-square

という。

( )

i i i i

y

y x

t

σ

=

は中心0,標準偏差1の正規分布に従う

(38)

カイ二乗分布の確率分布の積分

あてはめの良さの検定

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

• 最小二乗フィットによ りモデルパラメータを 最適化した際のχ2値 を求める • 上記のχ2値(以上の 値)を得る確率を表か ら調べる。 • 確率があまりにも小さ ければ何か間違って いる。(例えばモデル が適当でない) reduced-χ2の値の表(対応するχ2の値を超え る確率Pと自由度νの関数として表示されている)

(39)

http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.html

• に

も同様の表(但しreduced chi-squaredではなくchi-squaredの値)が掲 載されている。

χ

2

分布の表

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

(40)
(41)

パラメータの推定誤差

„

最適化したパラメータはあくまでもパラメータの

真の値の推定値。 必ず推定誤差がある。

„

直線モデルの場合、誤差伝播側より計算できる

2 2 2 1 2 2 2 2 1

1

1

1

n a i i i i n i b i i i i

a

y

x

b

y

σ

σ

σ

σ

σ

σ

= =

=

= ⎜

=

= ⎜

(42)

任意関数の最小二乗(カイ二乗)フィット

2 2 1 2 2 2 2 2min 2 2min 2min ( ) ( ) 1 n i i i i y x y y x m n m a a a a a a a χ χ χ χ σ χ ν χ χ χ χ = + − ⎛ − ⎞ ≡ ⎝ ⎠ − ∆ = + ∆ −∆

任意の関数形 をモデルに採用した場合でも を最小にするようパラメータを決定する。 パラメータの数を として は自由度 = の 分布に従うことが期待される。 パラメータの誤差の推定: を最小にするパラメータ値 に対して、 を1だけ増加させる ( ) の値、 、 を探す。 の誤差範囲(1パラメータ68%信頼水準)はaχ2min −∆aからaχ2min + ∆a+

(43)

カイ二乗フィットのパラメータ誤差推定

(パラメータの数による信頼区間の違い)

Numerical Recipes in C,

技術評論社より転載。

上の表で自由度とは(注

目する)パラメータの数。

パラメータa1,a2それぞれのの68%信頼区 間はΔχ2=1であるが、(a 1,a2)の組の68% 信頼区間はΔχ2=2.3の楕円で囲まれた 領域になる。

(44)

最小二乗(カイ二乗)フィットのまとめ

„

最尤法が根拠。 ただし、測定値yのモデル点からのば

らつきが正規分布で近似できる場合に限定。

„

χ

2

を最小にするパラメータが最良推定値。

„

あてはめの良さ、モデルの妥当性は

χ

2

の値が自由度

n-mに近いかどうかで評価できる。

„

パラメータの誤差(信頼区間)は

∆ χ

2

から推定できる。

(45)

カイ二乗フィットのパラメータ推定誤差

1 1 , 1 1 1 ( , ),....,( ) ,...., ,..., ( ; ,..., ) ( ,..., ) n n n n p p x y x y y y f x a a a a σ1 σ n回の測定でデータの組 が得られたとし、 の測定誤差(ただし正規分布する ランダム誤差)を とする。これらのデータ点はp個のパラメータで指定されるモデル で記述できる母集団から採取されたと仮定する。採取(=測定)の際にランダム誤差が付加される。 パラメータの真の値(これは不可知)を と ( )2 ; 1 1 2 1 2 ; 1 2 2 2 1 1 1 ( ,..., ) 1 ( ,..., ) exp 2 2 ( ,..., ) exp ˆ ˆ ( ,..., ) ( ,..., ) n i i p p i i i n i i p i i p p y f x a a P a a y f x a a n P a a a a σ σ π χ χ χ σ = = ⎡ ⎤ ⎢ ⎥ = − ⎢ ⎥ ⎣ ⎦ − ⎛ ⎞ ≡ ⎝ ⎠ ∏ ∑ 仮定すると尤度(データ点の組が得られる確率は)は の中身を と定義する。 は自由度 の 分布に従う。 一方 を最大にするようなパラメータの組(=最適パラメータ)を ( ) ( ) ( ) 2 ; 1 2 2 2 min min 1 2 2 ; 1 1 1 2 ; 1 2 ˆ ˆ ( ,..., ) -ˆ ˆ ,..., ,..., ( ,..., ) ,..., n i i p i i i p p p i i p y f x a a p n p f x a a a a a a y f x a a y χ χ χ σ χ χ χ = − ⎛ ⎞ = ⎝ ⎠ − − ∆ = ∑ とすると これは の最小値 を与える。 はp個のパラメータによって 調整して最小化を行ったので自由度が 減って、自由度 の 分布に従う。 が の線形関数の場合、 が の最小値を与えることに注意すると ( ) ( ) ( ) ( ) ( ) 2 2 ; 1 2 1 1 2 2 1 1 2 1 2 2 2 2 min ; 1 1 ˆ,...,ˆ ˆ 1 ˆ 1 ( ,..., ) ( ,..., ) exp 2 2 ,..., ,..., p n i i p j j j i i j j j p j j p p j j j i p p f x a a A a a a A a a P a a F a a f x a a a a σ χ δ δ δ π χ χ χ χ = = = − − ∂∆ = ∂ ⎡ ⎤ ⎢ ⎥ = × − ⎢ ⎥ ⎣ ⎦ ∆ ≡ − ∑ ∑ ∏ j という形にかけるはず( =0)。 とすると を含まない関数 これから は自由度pの 分布に従うことがわかる。 が の線 2 2 2 2 min χ χ χ χ ∆ ≡ − 形関数でない場合は、このような形にはかけないが は自由度pの 分布で近似する。

(46)

ヒストグラム(スペクトル)のフィット

2 2 2 2 1 1 1 ( ) ( ( )) ( ( )) ( ) i n n n i i i i i i i i i i n y y x n y i n y i n y i χ σ = = = ⎛ − ⎞ − − ≡ = = ⎝ ⎠

ビンの生のカウントを とすると  場 合によっては   各ビンのカウントが20以下の場合にはポアッソンー>正規分布の 仮定がくずれる。 ビンまとめか最尤法の直接利用か

(47)

カイ二乗フィットの計算手法

„

モデル関数が多項式の場合

‰ 行列計算(連立方程式)で解ける „

一般の関数形のモデルでχ

を最小化する方法

‰ Grid Search ‰ Gradient Search ‰ Expansion Method „ χ2をbest fitパラメータ付近で放物面で近似する „ モデル関数をbest fitパラメータ付近で線形化する

‰ Gradient-Expansion algorithm (Marquardt method)

„

詳細は Data Reduction and Error Analysis for the Physical

(48)

最尤法の直接的な利用1

„

K

中間子の寿命の測定

‰

K

中間子の生成点は生成

に伴う二次荷電粒子の飛跡

から、崩壊点と運動量は崩

壊後のパイ中間子の飛跡と

運動量の測定から決められ

‰

点線の領域内で崩壊が起

こった現象だけ取り扱う

Data Reduction and Error Analysis for the Physical Sciences, Bevington &

(49)

最尤法の直接的な利用2

/ / ( ; ) ( ; ) i i i t i i i i i t i i i i i t P A p t Ae A p t e t t dt A t τ τ τ τ τ τ τ − − = = = + 0 0 0 時間 だけ生き延びるK 中間子を観測する確率 ここで は定められた領域内で崩壊が起こり検出できる効率、 K 中間子の生成点、崩壊点の位置や運動量、寿命 に依存する。 は寿命 の粒子が の間に崩壊する確率。 は や と独立ではないことに注意。 生成点と運動量が決まっているK 中間子に対して、点線領域に入るまでの 距離を 2 2 1 1 1 2 1 2 / / 1 1 , , 1 ( ) i i i t t t i i i i t t N N t i i i i d d t t A Pdt A e dt N L P Ae τ τ τ τ − − = = = = = =

∏ ∏

出る(崩壊が起こらなかったとして)までの距離を とし、対応する 時間を とする。  は次のように規格化する。 個のイベントについて尤度は これを最大にするような が求めたい答え

(50)

最尤法の直接的な利用3

/ 1 1 1 2 2 1 2 ( ) ( ) ln ( ) ln 0, 1 1/ ( ) ln ( ) 1 0 / , 1/ i N N t i i i i i i i i i i i L P Ae t M L A t t A M t N dM N t t N d t t A e τ τ τ τ τ τ τ τ τ τ τ τ τ τ − = = = = ⎡ ⎤ = = ⎣ ⎦ = = ∞ = = − − = − = = ≠ = ∞ =

∏ ∏

のかわりに を最大にすることを考える 例1) のとき(粒子の寿命に対して測定領域が十分大きい場合) で より 例2)全ての粒子の運動量が同じで が共通の値( 0) の場合

[

]

1 1 / / 1 1 / ( ) ln ln ( ) 0 / i t t i t i i dt e t t M L dM t N t d τ τ τ τ τ τ τ τ τ ∞ − = − = = − = = −

より

(51)

Data Reduction and Error Analysis for the

Physical Sciences, Bevington & Robinson より

(52)

最尤法の直接利用と最小二乗法

„

最小二乗法を使えないとき=分布が正規分布でないとき

„

ビンまとめし、ヒストグラムをつくると、1ビンあたりに含ま

れるデータ数が十分大きい場合、正規分布で近似できる。

この場合最小二乗法が使えるようになる。

‰

ただし、もともとのデータ数が小さい場合は適用付加。。。

最尤法の直接利用

‰

複雑なモンテカルロ計算が必要になるような場合(例:K中

間子の寿命測定)も最尤法の直接利用が効果的

„

∆M=1/2より最尤法で決めたパラメータ誤差を推定できる

„

しかし、最尤法の直接利用ではあてはめの良さを評価す

る適当な指標(最小二乗法のχ

2

のような)がない。

(53)

演習問題3

„

カイ2乗フィットの実例を紹介せよ。

„

デルタカイ2乗=1がパラメータの推定誤差にな

ることをy(x)=bのモデルの例で説明せよ。

„

F-testを説明せよ。特にカイ2乗フィットでモデル

パラメータを増やす際の検定について。

„

直線モデルでデータ点をフィットする例において

X軸方向の誤差まで考えた場合、最尤法で直線

モデルを決める方法を説明せよ。

(54)

検定、区間推定、相関係数

„

統計的検定

‰

仮説の当否を統計的に検証する

„

区間推定

‰

真の値の範囲を統計的に推定する

„

相関係数

‰

2個のパラメータ間の関連を調べる

(55)

統計的検定

„

例)xの10回の測定平均値が0.40、標準偏差が0.05

„

仮説H:(例)母集団での平均値は0.5である

‰

本当は対立仮説H': 母集団での平均値は0.5でない を示したい

ので、Hを帰無仮説という。

‰

H': 母集団での平均値は0.5より小さい(大きい) の場合も有り

得る。 両側検定、片側検定。

„

平均値0.5標準偏差0.05の母集団から10個の標本をサン

プルした場合に平均値が0.4以下になる(あるいは0.4以

下、0.6以上になる)確率Pは?

„

Pが定められた危険率(有意水準)aより

‰

小さい:仮説は誤り。 正しい可能性棄てる危険性aを伴って。

‰

大きい:仮説は否定できない。

(56)

いろいろな検定

„

母平均の検定:正規分布

‰

母集団の分散

σ

2

が既知でない場合->t分布

‰

母平均の差の検定->t分布

„

母分散の検定:χ

2

分布

‰

母分散の比の検定:F分布

„

相関の有無の検定:相関係数の表

(57)

区間推定

2 2 2 2 ) / / 1 ) / / / / x x s n n t x s n x s n x s n µ σ µ σ µ φ α α µ α α µ α − = − ≤ − ≤ ≤ ≤ + 2 2 N-1 N-1 N-1 N-1 例)n回の測定の平均値が と求まったとき 母平均の存在する範囲はどのように推定できるか?   母集団の分布は正規分布( , )と仮定すると、標本平均は 正規分布( , /n)に従う。  ( は自由度 の 分布に従う。 確率1- となる区間は -t ( /2) ( t ( /2) 変形して -t ( /2) t ( /2) が 2 2 100 (1 - ) / / x s n x s n α µ α µ α × ≤ ≤ + %での母平均 の nが大きいときにはt分布のかわりに正規分布を使い -z( /2) z( /2) で近似 信頼係数 信頼 すると 区間 きもある

f(t)

t

1-α

α/2

α N-1 +t ( /2) α N-1 -t ( /2)

(58)

信頼区間の推定

„

正規分布の場合

‰

-σ<x-µ<σにくる確率68.3%

‰

-2σ<x-µ<2σにくる確率95.5%

‰

-3σ<x-µ<3σにくる確率99.7%

‰

-1.96σ<x-µ<1.96σにくる確率

95%

‰

-2.58σ<x-µ<2.58σにくる確率

99%

(59)

相関係数

„

二つの測定量x,yの間に(線形)相関があるかど

うか

‰

1なら正の相関、−1なら負の相関、ゼロなら相関な

(

)

2 1/ 2

(

)

2 1/ 2 2 2 i i i i i i i i N x y x y r N x x N y y − ≡ ⎡ ⎤ ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ ⎣ ⎦

∑ ∑

(60)

まとめ

„

測定:母集団から標本をとってくる

„

誤差とは? 誤差をどう求めるか

„

最尤法の考え方

„

誤差伝播

„

いろいろな確率分布

„

最小二乗法、カイ二乗フィット

„

検定と推定

(61)

相関係数の検定

Data Reduction and Error Analysis for the

Physical Sciences, Bevington & Robinson より

参照

関連したドキュメント

議論を深めるための参 考値を踏まえて、参考 値を実現するための各 電源の課題が克服さ れた場合のシナリオ

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

環境基準値を超過した測定局の状況をみると、区部南西部に位置する東糀谷局では一般局では最も早く 12 時から二酸化窒素が上昇し始め 24 時まで 0.06ppm

基幹系統 地内基幹送電線(最上位電圧から 2 階級)の送電線,最上位電圧から 2 階級 の母線,最上位電圧から 2 階級を連系する変圧器(変圧器

また、 NO 2 の環境基準は、 「1時間値の1 日平均値が 0.04ppm から 0.06ppm までの ゾーン内又はそれ以下であること。」です

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

2019年6⽉4⽇にX-2ペネ内扉に,AWJ ※1 にて孔(孔径約0.21m)を開ける作業中,PCV内 のダスト濃度上昇を早期検知するためのダストモニタ(下記図の作業監視⽤DM①)の値が作 業管理値(1.7×10

2019年6⽉4⽇にX-2ペネ内扉に,AWJ ※1 にて孔(孔径約0.21m)を開ける作業中,PCV内 のダスト濃度上昇を早期検知するためのダストモニタ(下記図の作業監視⽤DM①)の値が作 業管理値(1.7×10