統計的データ解析

(1)

統計的データ解析

２００４

林田清

(2)

演習で使用したソフト

dis45

xspec

qdp

gnuplot

oocalc

(3)

実験データの統計処理基本となる

考え方

誤差について

母集団と標本

平均値と標準偏差

誤差伝播

最尤法

平均値につく誤差

(4)

誤差

_{(Error)：真の値からのずれ}

測定誤差

物差しが曲がっていた

測定する対象が室温が低いため縮んでいた

1gの単位までしかデジタル表示されない計りで1g以下

計りの目盛りを読み取る角度によって値が異なる

統計誤差

放射線源を検出器で測定したときの計数率

テレビの視聴率

偶然誤差(Random Error)と系統誤差(Systematic

Error)

(5)

測定値ｘの分布 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10 ｘ頻度

n個の測定値 x

₁

, x

₂

, …, x

_n

の分布

例えば

1本の棒の長さをn人の人が同じものさしを使って測定する

（同じ設計で製作した）n本の棒の長さ

1個の放射線源について１分間あたりの放射線の検出個数

をn回測定する

ある振り子の振動周期をn回測定する

分布の広がりが誤差を表す

測定値の分布

(6)

母集団と標本

母集団

同じ条件で無限回の測定を繰り返したときの測定値

の分布(極限頻度分布）

実際には無限回の測定は不可能

極限頻度分布は存在すると仮定する

測定は母集団から標本を採取する操作

採集された標本から母集団の分布を推定するの

が統計的解析

真の値は不可知

(7)

平均値、標準偏差

1 2 1 2 2 1 1 2 2 1

n

,

,....,

1

1 (

)

1

1 lim

(

)

n n i i n i i n i n i n i n i

x x

x

n

s

x

n

x

n

x

n

σ

µ

σ

µ

= = →∞ ₌ →∞ ₌

≡

−

=

−

∑

２

回の（独立な）測定

各々の誤差は

標本の平均値

標本の分散（=標準偏差）

母集団の平均

母集団の分散

その他、中央値、最頻値

(8)

標本の分散（標準偏差

2

_{）（なぜ}

_{n-1で割るのか？）}

(

)

(

)

(

)

1 2 2 2 2 2 2 2 2 2 2 1 1 ( ) 1 1 2 2 1 1 ( ) ( ) 2 2 1 ( ) ( ) 2( )( ) 2 1 ( 1) 1 1 ( ) ( 1) 2 n i i i j i j ij i j i j i j i j i j n n ij n ij i j i j n i i x x n x x x x x x x x x x x x x x x x x x x x s n n x x n n = = = ≠ = ≡ ⎛ ⎛ + ⎞⎞ ⎛ ⎛ + ⎞⎞ ∆ ≡_⎜ −_⎜ _⎟_⎟ +_⎜ −_⎜ _⎟_⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ = − = − − − = − + − − − − ∆ = ∆ − = − −

∑

∑ ∑

∑

平均二項間の分散の和の平均

(

)

(

)

(

)

2 2 1 2 1 1 1 2 1 ( ) 2( )( ) 1 ( ) ( 1) ( 1) 1 ( ) ( 1) n j i j j n n n i i j i i j n i i x x x x x x n x x x x x x n n n n x x n = = = = = + − − − − = − − − − − − = − −

∑

（不偏）分散s

_n2

標準偏差s

_n

(9)

誤差伝播１

2 2 1 2 2 1 2 2 2 2 ( , ,...) 1 lim ( ) ( ) ( ) 1 lim ( ) ( ) 1 lim ( ) ( ) 2( )( n x i n i i i i n x i i n i i i i i n x f u v x x n x x x x u u v v u v x x u u v v n u v x x u u v v u u v v n u v σ σ →∞ = →∞ ₌ →∞ = ⎡ ⎤ = _⎢ − _⎥ ⎣ ⎦ ∂ ∂ ⎛ ⎞ ⎛ ⎞ − − _⎜ _⎟+ − _⎜ _⎟+ ∂ ∂ ⎝ ⎠ ⎝ ⎠ ⎡ ₋ ⎛ ∂ ⎞₊ ₋ ⎛∂ ⎞₊ ⎤ ⎜ ⎟ ⎜ ⎟ ⎢ _⎝_∂ _⎠ _⎝_∂ _⎠ ⎥ ⎣ ⎦ ∂ ∂ ⎛ ⎞ ⎛ ⎞ − _⎜ _⎟ + − _⎜ _⎟ + − − ∂ ∂ ⎝ ⎠ ⎝ ⎠

∑

L L

[

]

1 2 2 2 2 1 1 1 2 2 2 2 2 ) 1 1 lim ( ) , lim ( ) 1 lim ( )( ) (covariance) 2 n i n n u i v i n n i i n uv i i n i x u v u x x u v u u v v n n u u v v n x x u v σ σ σ σ σ σ σ = →∞ →∞ = = →∞ = ⎡ _⎛ _∂ _⎞⎛ _∂ _{⎞ +} ⎤ ⎢ _⎜ _⎟⎜ _⎟ ⎥ ∂ ∂ ⎝ ⎠⎝ ⎠ ⎢ ⎥ ⎣ ⎦ ⎡ ⎤ ⎡ ⎤ = _⎢ − _⎥ = _⎢ − _⎥ ⎣ ⎦ ⎣ ⎦ ⎡ ⎤ ≡ _⎢ − − _⎥ ⎣ ⎦ ∂ ∂ ⎛ ⎞ ₊ ⎛ ⎞ ₊ ₊ ⎜_∂ ⎟ ⎜_∂ ⎟ ⎝ ⎠ ⎝ ⎠

∑

L L 共分散 v x x u v ∂ ∂ ⎛ ⎞⎛ _{⎞ +} ⎜_∂ ⎟⎜ _∂ ⎟ ⎝ ⎠⎝ ⎠ L 測定値u,vの関数としてｘが定義されているとき、ｘの誤差はu,vの測定誤差からどう計算（伝播）されるか

(10)

誤差伝播２

[

]

2 1 2 2 2 2 2 1 lim ( )( ) 2 n uv i i n i x u v uv u u v v n x x x x u v u v

σ

→∞ ₌ ⎡ ⎤ ≡ _⎢ − − _⎥ ⎣ ⎦ ∂ ∂ ∂ ∂ ⎛ ⎞ ₊ ⎛ ⎞ ₊ ₊ ⎛ ⎞⎛ ⎞ ₊ ⎜ _∂ ⎟ ⎜ _∂ ⎟ ⎜ _∂ ⎟⎜ _∂ ⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎝ ⎠

∑

L L

uとｖが独立のとき（相関がないとき）、共分散

σ

_uv

はゼロ

2 2 2 2 2 x u v x x u v

σ

⎛_⎜ ∂ ⎞_⎟ +

σ

⎛_⎜ ∂ ⎞_⎟ + ∂ ∂ ⎝ ⎠ ⎝ ⎠ L

(11)

誤差伝播３

足し算、引き算。。。誤差は同じ

バックグランドの引き算で誤差が大きくなる

かけ算

相対誤差の大きい成分が全体の誤差を決める

2 2 2 x u v

x

u

v

x

u

v

σ

= +

= −

=

+

あるいは

2 2 2 2 2 2 2 2 2 2 2 u v x u v

x

uv

v

u

u v

u

v

σ

=

⎛

⎞

=

+

=

_⎜

+

_⎟

⎝

⎠

(12)

問題

共分散がゼロでない具体的な例をあげよ

あるきめられた時間Ｔ(s)の間に、１個の放射線

検出器を用いて放射線源の強さを測定する。

ソースを測定しているときの（バックグランド込み

の）カウントレートの期待値がr(c/s),ソースを外し

たときのカウントレートの期待値がb(c/s）である

とき、時間Ｔのうちでソース測定の時間をいくらに

とるのが最適か？

(13)

平均値の誤差

_{(Error)、不確かさ(Uncertainty)}

測定をN回繰り返して平均を取ることで、（偶然）

誤差を１/√nに小さくできる

1 2 1 2 2 2 2 1

n

,

,....,

1

n n i i n x x i

x x

x

n

σ

= =

≡

=

∑

誤差伝播則を使

回の（独立な）測定

各々の誤差は

標本平均値

標本平均値の誤差

は

うと

(14)

最尤法

_{(Maximum Likelihood Method)}

1 2

n

, ,....,

µ

Gauss)

1

1 exp

2

2 '

'

n i i i i i i

x c

x

dx

dQ

Pdx

x

P

σ

µ

σ

π

µ

+

=

⎡

_⎛

₋

_⎞

⎤

≡

_⎢

−

_⎜

_⎟

_⎥

⎝

⎠

⎢

⎥

⎣

⎦

回の（独立な）測定

で、

母集団が平均値標準偏差の正規（

分布の場合

１回の測定で

の値を観測する確率は

は不可知、推定値をとする。

尤度が最大になるはどう決められるか

(15)

考え方：

最も確率の高い標本分布（測定

値の組）が実現されているはず

最尤法２

2 1 2 1 2 1

'

1

1 ( ')

exp

2

2 ,

,...,

( ')

'

1

1 exp

2

2 ( ')

'

i i i n n i i n n i i

x

P

n

x x

x

P

x

P

µ

σ

µ

σ

σ π

µ

σ

σ π

µ

= =

=

⎡

_⎛

₋

_⎞

⎤

=

_⎢

−

_⎜

_⎟

_⎥

⎝

⎠

⎢

⎥

⎣

⎦

=

⎡

₋

⎤

⎛

⎞

⎛

⎞

=

_⎜

_⎟

_⎢

−

_⎜

_⎟

_⎥

⎝

⎠

⎝

⎠

⎢

_⎣

⎥

_⎦

∏

∑

平均値、標準偏差

の正規分布を仮定すると

を観測する確率は

回の測定で

を観測する確率（尤度）は

を最大にするが最も確からしいの推定値

最尤法（正規分布の場合の例）

(16)

最尤法３

2 1 2 1 1

( ')

'

1

2 '

0 '

1 '

n i i n i i n i i

P

X

x

X

x

dX

d

x

n

µ

σ

µ

σ

µ

= = =

−

⎛

⎞

=

_⎜

_⎟

⎝

⎠

−

⎛

⎞

= −

_⎜

_⎟

=

⎝

⎠

=

∑

を最大にすることは次のを最小にするのと同じ

最も確からしい母集団平均(mean)の推定値は加算

平均(average)

(17)

誤差が異なるデータの場合

（重みつき平均）

2 1 1 2 ₂ 2 2 1 1 2 ' 2

'

1

1 ( ')

exp

2

2 '

(

/

)

'

1

0 '

' 2

(1/

)

1 '

(1/

)

i i n n i i i _i i n n i i i i i _i i _i _i i

x

P

x

d

µ

σ

µ

σ

π

µ

σ

µ

_µ

µ

σ

µ

σ

= = = =

⎡

⎤

⎛

⎞

_⎛

₋

_⎞

⎢

⎥

=

_⎜

_⎟

−

_⎜

_⎟

⎢

_⎝

_⎠

⎥

⎝

⎠

_⎣

_⎦

⎛

⎞

⎛

−

⎞

−

= −

_⎜

_⎟

=

⎜

⎟

⎝

⎠

⎝

⎠

=

∑

∏

∑

_∑

∑

各測定値につく誤差が異なるの場合

の最尤推定値は

より

また推定値に関する誤差は

(18)

どうやって誤差を評価するか？

例えば使用説明書に書いてある測定器の精度を使用するのは一般

には不十分

Conservativeな測定値の範囲を示すには有効

一般に系統誤差を評価するのは困難

全く独立な実験を行い結果を比較する

測定を

同じ条件で

複数回繰り替えすことができる場合は測定値の

（標本）標準偏差が（偶然）誤差の推定値を与える

最尤法を使い誤差を推定することもできる

統計誤差の場合、理論的に推定できることがある

例）放射線源を決まった時間だけ計測する際の計数ｘはポアソン分布に従う。この場合統計誤差は√x。

(19)

演習問題その１

1.

ある1本の棒の長さに関してx

₁

,x

₂

,…,x

_n

のn個の測定値

がある。測定誤差は全て等しいと仮定して、この棒の長

さと測定誤差を最尤法で推定せよ。

2.

約FWHM120eVのエネルギー分解能をもつＸ線検出器

を使って、Ｘ線源から放射される単一エネルギーのＸ線

を測定する。Ｘ線のエネルギーの値を10eVの精度で

決定するためには何個のＸ線イベントを検出すればよい

か？また、このＸ線源を使って検出器のエネルギー分

解能を10eVの精度で決定するためには、何個のＸ線イ

ベントを検出すればよいか？

3.

測定u,vの関数としてｘ=f(u,v)が定義されているとき、u,v

が独立でない場合の例をあげよ。誤差伝播則を使って

ｘの誤差を計算する際、共分散項を考慮する場合と無視

した場合の違いを評価せよ。

(20)

確率分布

いろいろな確率分布

二項分布

ポアッソン分布

正規（ガウス分布）

ｔ分布

χ2乗分布

(21)

確率分布関数と平均値、分散

(

)

2 2 1 2 1 2 1 2 2 1 ( ) ( ) ( ) , ,... , ,... ( ) i i i i i i x P x xP x dx x P x dx x x x P P x P x P µ σ µ µ σ µ ∞ = ∞ = = = − = = −

∫

∑

に関する確率分布関数が与えられていたとき平均値分散が離散的な変数の場合それぞれの確率をとして平均値分散

測定値の組 x

₁

,x

₂

,…,x

_n

が与えられている場合と、それ

をヒストグラムにした分布が与えられている場合を明確

に区別すべき。

(22)

二項分布、ポアッソン分布

2 ! ( ; , ) (1 ) ( )! ! (1 ) (1 ) x n x B n P x n p p p n x x x pn np p p σ µ − = − − = = − = − 二項分布 0 0.1 0.2 0.3 0.4 0 5 10 15 Poisson Distribution 1 2 3 4 5 10 x µ= 2 1 ( ; ) ! x p e P x x x µ µ µ µ σ µ − << = = = ポアッソン分布二項分布での極限

(23)

ポアッソン分布の導出その１

2 1/ 0 0 0 ! 1 ! ( ; , ) (1 ) (1 ) (1 ) ( )! ! ! ( )! (1 ) (1 ) ! (for ) ( )! (1 ) 1 1 (1 ) (1 ) ( ;

lim

x n x x x n B x x n p p p B p n n P x n p p p p p p n x x x n x pn np p p p n n x n n x p px p p e e P x µ µ _µ µ σ µ µ − − − − → → → = − = − − − − = = − = − << ≈ << − − ≈ + ⎛ ⎞ ⎡ ⎤ − = _⎣ − _⎦ =_{⎜ ⎟} = ⎝ ⎠ 二項分布においてを一定に保ったまま、１の極限を考える , ) ( ; ) ! x p n p P x e x µ µ µ − = ≡

(24)

ポアッソン分布の導出その２

_{(ゼミでは省略）}

/ / ( ; , ) (0; , ) (0; , ) (0; , ) (0; , ) 1 (0; , ) 1 t t x P x t t t dt dt P t P t P t dt dP t P t e e x τ τ τ τ τ τ τ τ τ τ τ τ − − + × = − + ≈ = 平均の時間間隔でイベントが起こるとき、時間tの間にイベント起こる確率をとするあるイベントが起こった時刻を基準にして時間に次のイベントが起こる確率はこれを積分して規格化をするとつまりイベントの時間間隔の分布はで記述できる。イベントを時間 ₁ ₂ / 1 / ( ; , ) ! 0 ( ; , ) ! ( ; ) ! t x x i i i x t x p dt dt dt e d P x t x t x t t e t P x t x t t P x e x τ τ µ τ τ τ τ µ τ µ µ − = − − = ⎛ ⎞ = _{⎜ ⎟} ⎝ ⎠ = ≡

∏

tの間の , ,...に観測する確率は時間の間にイベント起こる確率はそれぞれのをからまで積分しては時間の間に起こるイベント数の平均値ポアッソン分布は

(25)

ポアッソン分布

ポアッソン分布の例

放射線源の１秒あたりの崩壊数

放射線源の測定で１時間当たりの検出カウント数

１０００人の集団の中で今日が誕生日の人の数

ポアッソン分布の統計誤差

平均値の平方根

（複数回の測定ができないとき）１回の測定値の平方根で置き換えるときもある

ポアッソン分布と正規分布

平均値

µが大きいとき（例えば20以上）ではポアッソン分布は平

均値

µ、分散σ

2

=µの正規分布で近似できる。

0 0.1 0.2 0.3 0.4 0 5 10 15 Poisson Distribution 1 2 3 4 5 10 x µ=

(26)

問題、コメント

ランダムな事象の時間間隔はexp(-t/tau)

放射線源の崩壊の場合のｎはｐは

(27)

正規分布

2 2 1 ( ) ( ; , ) exp( ) 2 2 G x P x µ σ µ σ πσ − = −

Bevington

&Robinson

(28)

t分布

2 2

(

) /

/

1

0 x

n

x

s

t

x

s

n

t

n

µ

σ

µ

φ

=

−

= −

平均値 ,標準偏差の正規分布に従う変数から個を

抜き出して、その平均値を、標本分散をとする

は自由度

のt分布に従う

が大きいとき標準正規分布(平均値、標準偏差１）で

近似できる

平均値の検定、母平均の区間推定、平均値の差の検定などに

使用する（正規分布で近似してしまう場

自

合

由度の分布

も多い）

(29)

χ

2 _分布

2 2 2 2 2 2 2 / 2 1 / 2 / 2 2 2 2 2 2 2

0

1 (

)

{(

)

}/ 2

( / 2)

(

)

(

)

2 (

)

i i

x

n

e

E

V

x

n

ν χ ν ν

χ

ν χ

χ

ν

χ

ν

χ

ν

µ

σ

χ

σ

− −

=

Γ

=

−

∑

n i=1 n i=1

平均値 ,標準偏差の正規分布に従う変数の自乗和

の従う

分布を自由度の

分布と呼ぶ。一般に自由度の

分布は

f

期待値

分散

平

自由度の（カ

均値 ,標準偏差の正規分布に従う

も自由度の

イ二乗）分布

分布

2 2 2

(

)

1

i

x

n

χ

σ

−

∑

n i=1

、

はしかし自由度

の

分布

(30)

演習問題その２

(31)

データのモデル化、最小二乗フィット

フィッティングとは

最小二乗フィットの基礎となる最尤法の考え方

あてはめのよさの検定：カイ二乗検定

パラメータの推定誤差

最尤法の直接的利用

(32)

データのモデル化、あてはめ

_{(Fit)、回帰}

ばらつきのある測定値に適当なモ

デル（直線や曲線）であてはめるこ

と

モデル

直線の場合。。。線形回帰多項式の場合一般の関数の場合

データの誤差

各点共通の場合各点で重みが異なる場合

モデル点のまわりのばらつき

正規分布の場合それ以外の場合 0 5 10 15 0 2 4 6 8 10 X -1 0 1 2 3 4 5 0 2 4 6 8 10 X

(33)

最小二乗フィット

_{(例：直線モデル）１}

0 0 0 0 0 0 ( ) , , ( ) ( ) i i i i i x y x y y x ax b a b a b y x a x b y y x

σ

= + = + 測定値の組( , )があり、独立変数と従属変数の間の関係をで近似するとき、に関する最も確からしい推定値はどうやって決められるか？母集団における係数をとし、真の関係式をさらに測定値は平均値、標準偏差の正規分布に従うと仮定する。 0 5 10 15 0 2 4 6 8 10 X 正規分布に従う母集団から標本を1個採ってくるのが測定

(34)

最小二乗フィット

_{(例：直線モデル）２}

2 0 2 0 0 0 1 1 1 ( ) 1 1 exp 2 2 ( ) 1 1 ( , ) exp 2 2 , 1 1 ( , ) exp 2 2 i i i i i i i i n n n i i i i i i _i i i i y P y y x P n y y y x P a b P a b y y P a b

σ

π

σ

π

σ

π

= = = ⎡ _⎛ ₋ _⎞ ⎤ ⎢ ⎥ = _{− ⎜} _⎟ ⎢ _⎝ _⎠ ⎥ ⎣ ⎦ ⎡ ⎤ ⎛ ⎞ _⎛ ₋ _⎞ ⎢ ⎥ = = _⎜_⎜ _⎟_⎟ − _⎜ _⎟ ⎢ _⎝ _⎠ ⎥ ⎝ ⎠ _⎣ _⎦ ⎛ ⎞ = _⎜_⎜ _⎟_⎟ − ⎝ ⎠

∑

∏ ∏

を観測する確率は個の観測値の組を得る確率は同様に任意の係数推定値に従うときに観測値の組を得る確率は 2 1 1 0 0 0 0 ( ) ( , ) ( , ) ( , ) ( , ) n n i i i i _i y x P a b P a b a b a b

σ

= = ⎡ _⎛ ₋ _⎞ ⎤ ⎢ _⎜ _⎟ ⎥ ⎢ _⎝ _⎠ ⎥ ⎣

∑

⎦

∏

観測は母集団から採取する操作。の最大値を与えるようながの最尤推定値。

最尤法の考え方

(35)

最小二乗フィット

_{(例：直線モデル）３}

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 0, 0 , 1 1 1 1 ( ) ( , ) i i i i i i i i n n i i i i i i i i i i i i i i i i i i i i i i a b x y x y a x y x x y y y x y ax b P a b b x x χ χ χ σ σ σ σ σ σ σ χ σ σ σ σ σ σ χ = = ∂ ₌ ∂ ₌ ∂ ∂ ⎛ ⎞ = _⎜ − _⎟ ∆ ⎝ ⎠ ⎛ ⎞ = _⎜ − _⎟ ∆ ⎝ ⎠ ⎛ ⎞ ∆ = − ⎛ − ⎞ ⎛ − − ⎞ ≡ = ⎜ ⎝ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠

∑ ∑

∑

a b からを最小を最大にするにす＝を最小にすとしただるるてし 2 ⎟ ⎠

∑ ∑

二乗の和を最小にするので

最小二乗フィットと呼ぶ。

χ

2

_{フィットともいう。}

( ) ( )

(

)

(

)

(

)

2 2 2 1 2 2 1 , ) , , ) ( ) 1 , 1 n i i i i i i i i i i i i i i i i i i y ax b a b x y x a n x y x y b x y x x y n x b x ax a b χ σ = = − = − ∆ = − ∆ = − + ∆ −

∑

∑ ∑

∑ ∑ ∑ ∑

∑

2 各点の誤差が同一のときを最小にする( を求めることは、各測定点とモデル点 ( の距離のニ乗和を最小にするを求めるただ価しことと等

(36)

問題

正規分布ではなくてポアソン分布の場合はどう

なるか？

カイ２乗検定

仮説、危険率ｓ

(37)

あてはめの良さ

_{(Goodness of Fit)}

2 2 2 1 1 2 2 2

( )

(

,

-,

(

/ )

n n i i i i i _i i _i

y

y x

y

ax

b

n m m

a b

n m

a b

ν

χ

σ

χ

ν

χ

χ ν

= =

⎛

−

⎞

⎛

−

⎞

≡

_⎜

_⎟

_⎜

_⎟

⎝

⎠

⎝

⎠

−

≡

∑

（直線モデルの場合

∑

）

は自由度

はパラメータの数、直線の場合

で２）

の

に従う。期待値は

。

これがあてはめの良さ（仮定したモデル関数の妥当性、

パラメータ

が適当であること、測定誤差が正しく評価

されていること）の基準になる。

を自

カイ自乗分布

由度で割った

を

_{reduced chi-square}

という。

( )

i i i i

y

y x

t

σ

−

=

は中心0,標準偏差１の正規分布に従う

(38)

カイ二乗分布の確率分布の積分

あてはめの良さの検定

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

• 最小二乗フィットによりモデルパラメータを最適化した際のχ2値を求める • 上記のχ2値（以上の値）を得る確率を表から調べる。 • 確率があまりにも小さければ何か間違っている。（例えばモデルが適当でない）ｒeduced-χ2の値の表（対応するχ2の値を超える確率Pと自由度νの関数として表示されている）

(39)

http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.html

• に

も同様の表（但しreduced chi-squaredではなくchi-squaredの値）が掲載されている。

χ

2 _分布の表

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

(40)

(41)

パラメータの推定誤差

最適化したパラメータはあくまでもパラメータの

真の値の推定値。必ず推定誤差がある。

直線モデルの場合、誤差伝播側より計算できる

2 2 2 1 2 2 2 2 1

1

n a i i _i _i n i b i i _i _i

a

y

x

b

y

σ

= =

⎛

⎞

⎛

∂

⎞

=

_⎜

_⎟

_{= ⎜}

_⎟

∂

∆

⎝

⎠

⎝

⎠

⎛

⎞

⎛

∂

⎞

=

_⎜

_⎟

_{= ⎜}

_⎟

∂

∆

⎝

⎠

⎝

⎠

∑

(42)

任意関数の最小二乗（カイ二乗）フィット

2 2 1 2 2 2 2 2min 2 2min 2min ( ) ( ) 1 n i i i i y x y y x m n m a a a a a a a χ χ χ χ σ χ ν χ χ χ χ = + − ⎛ − ⎞ ≡ _⎜ _⎟ ⎝ ⎠ − ∆ = + ∆ −∆

∑

任意の関数形をモデルに採用した場合でもを最小にするようパラメータを決定する。パラメータの数をとしては自由度 = の分布に従うことが期待される。パラメータの誤差の推定: を最小にするパラメータ値に対して、を１だけ増加させる（）の値、、を探す。の誤差範囲（１パラメータ68%信頼水準）はa_χ_2min −∆a₋からa_χ_2min + ∆a₊。

(43)

カイ二乗フィットのパラメータ誤差推定

（パラメータの数による信頼区間の違い）

Numerical Recipes in C,

技術評論社より転載。

上の表で自由度とは（注

目する）パラメータの数。

パラメータa₁,a₂それぞれのの68%信頼区間はΔχ2_{=1であるが、(a} 1,a2)の組の68% 信頼区間はΔχ2_{=2.3の楕円で囲まれた} 領域になる。

(44)

最小二乗（カイ二乗）フィットのまとめ

最尤法が根拠。ただし、測定値yのモデル点からのば

らつきが正規分布で近似できる場合に限定。

χ

2

を最小にするパラメータが最良推定値。

あてはめの良さ、モデルの妥当性は

χ

2

の値が自由度

n-mに近いかどうかで評価できる。

パラメータの誤差（信頼区間）は

∆ χ

2

から推定できる。

(45)

カイ二乗フィットのパラメータ推定誤差

1 1 , 1 1 1 ( , ),....,( ) ,...., ,..., ( ; ,..., ) ( ,..., ) n n n n p p x y x y y y f x a a a a σ1 σ ｎ回の測定でデータの組が得られたとし、の測定誤差（ただし正規分布するランダム誤差）をとする。これらのデータ点はp個のパラメータで指定されるモデルで記述できる母集団から採取されたと仮定する。採取（＝測定）の際にランダム誤差が付加される。パラメータの真の値（これは不可知）をと ( )2 ; 1 1 2 1 2 ; 1 2 2 2 1 1 1 ( ,..., ) 1 ( ,..., ) exp 2 2 ( ,..., ) exp ˆ ˆ ( ,..., ) ( ,..., ) n i i p p i i i n i i p i i p p y f x a a P a a y f x a a n P a a a a σ σ π χ χ χ σ = = ⎡ ₋ ⎤ ⎢ ⎥ = − ⎢ ⎥ ⎣ ⎦ − ⎛ ⎞ ≡ _⎜ _⎟ ⎝ ⎠ ∏ ∑ 仮定すると尤度（データ点の組が得られる確率は）はの中身をと定義する。は自由度の分布に従う。一方を最大にするようなパラメータの組（=最適パラメータ）を ( ) ( ) ( ) 2 ; 1 2 2 2 min min 1 2 2 ; 1 1 1 2 ; 1 2 ˆ ˆ ( ,..., ) -ˆ ˆ ,..., ,..., ( ,..., ) ,..., n i i p i i i p p p i i p y f x a a p n p f x a a a a a a y f x a a y χ χ χ σ χ χ χ = − ⎛ ⎞ = _⎜ _⎟ ⎝ ⎠ − − ∆ = ∑ とするとこれはの最小値を与える。はp個のパラメータによって調整して最小化を行ったので自由度が減って、自由度の分布に従う。がの線形関数の場合、がの最小値を与えることに注意すると ( ) ( ) ₍ ₎ ( ) ( ) 2 2 ; 1 2 1 1 2 2 1 1 2 1 2 2 2 2 min ; 1 1 ˆ,...,ˆ ˆ 1 ˆ 1 ( ,..., ) ( ,..., ) exp 2 2 ,..., ,..., p n _i _i _p j j j i i j j j p j j p p j j j i p p f x a a A a a a A a a P a a F a a f x a a a a σ χ _δ δ δ π χ χ χ χ = = = − − ∂∆ ₌ ∂ ⎡ ₋ ⎤ ⎢ ⎥ = × − ⎢ ⎥ ⎣ ⎦ ∆ ≡ − ∑ ∑ ∏ j という形にかけるはず( =0)。とするとを含まない関数これからは自由度pの分布に従うことがわかる。がの線 2 2 2 2 min χ χ χ χ ∆ ≡ − 形関数でない場合は、このような形にはかけないがは自由度pの分布で近似する。

(46)

ヒストグラム（スペクトル）のフィット

2 ₂ ₂ 2 1 1 1 ( ) ( ( )) ( ( )) ( ) i n n n i i i i i i i i i i n y y x n y i n y i n y i χ σ = = = ⎛ − ⎞ − − ≡ _⎜ _⎟ = = ⎝ ⎠

∑

ビンの生のカウントをとすると場合によっては各ビンのカウントが20以下の場合にはポアッソンー＞正規分布の仮定がくずれる。ビンまとめか最尤法の直接利用か

(47)

カイ二乗フィットの計算手法

モデル関数が多項式の場合

行列計算（連立方程式）で解ける

一般の関数形のモデルでχ

２

を最小化する方法

Grid Search Gradient Search Expansion Method χ２をbest fiｔパラメータ付近で放物面で近似するモデル関数をbest fiｔパラメータ付近で線形化する

Gradient-Expansion algorithm (Marquardt method)

詳細は Data Reduction and Error Analysis for the Physical

(48)

最尤法の直接的な利用１

K

０

中間子の寿命の測定

K

０

中間子の生成点は生成

に伴う二次荷電粒子の飛跡

から、崩壊点と運動量は崩

壊後のパイ中間子の飛跡と

運動量の測定から決められ

る

点線の領域内で崩壊が起

こった現象だけ取り扱う

Data Reduction and Error Analysis for the Physical Sciences, Bevington &

(49)

最尤法の直接的な利用２

/ / ( ; ) ( ; ) i i i t i i i i i t i i i i i t P A p t Ae A p t e t t dt A t τ τ τ τ τ τ τ − − = = = + 0 0 0 時間だけ生き延びるK 中間子を観測する確率ここでは定められた領域内で崩壊が起こり検出できる効率、 K 中間子の生成点、崩壊点の位置や運動量、寿命に依存する。は寿命の粒子がの間に崩壊する確率。はやと独立ではないことに注意。生成点と運動量が決まっているK 中間子に対して、点線領域に入るまでの距離を 2 2 1 1 1 2 1 2 / / 1 1 , , 1 ( ) i i i t t _t i i i i t t N N t i i i i d d t t A Pdt A e dt N L P Ae τ τ τ τ − − = = = = = =

∫

∏ ∏

出る（崩壊が起こらなかったとして）までの距離をとし、対応する時間をとする。は次のように規格化する。個のイベントについて尤度はこれを最大にするようなが求めたい答え

(50)

最尤法の直接的な利用３

/ 1 1 1 2 2 1 2 ( ) ( ) ln ( ) ln 0, 1 1/ ( ) ln ( ) 1 0 / , 1/ i N N t i i i i i i i i i i i L P Ae t M L A t t A M t N dM N t t N d t t A e τ τ τ τ τ τ τ τ τ τ _τ τ τ τ − = = = = ⎡ ⎤ = = _⎢ − _⎥ ⎣ ⎦ = = ∞ = = − − = − = = ≠ = ∞ =

∏ ∏

∑

のかわりにを最大にすることを考える例１）のとき（粒子の寿命に対して測定領域が十分大きい場合）でより例２）全ての粒子の運動量が同じでが共通の値（０）の場合

[

]

1 1 / / 1 1 / ( ) ln ln ( ) 0 / i t t i t i i dt e t t M L dM t N t d τ τ _τ τ τ τ τ _τ τ ∞ − ₌ − = = − = = −

∫

∑

より

(51)

Data Reduction and Error Analysis for the

Physical Sciences, Bevington & Robinson より

(52)

最尤法の直接利用と最小二乗法

最小二乗法を使えないとき＝分布が正規分布でないとき

ビンまとめし、ヒストグラムをつくると、１ビンあたりに含ま

れるデータ数が十分大きい場合、正規分布で近似できる。

この場合最小二乗法が使えるようになる。

ただし、もともとのデータ数が小さい場合は適用付加。。。

最尤法の直接利用

複雑なモンテカルロ計算が必要になるような場合（例：K中

間子の寿命測定）も最尤法の直接利用が効果的

∆M=1/2より最尤法で決めたパラメータ誤差を推定できる

しかし、最尤法の直接利用ではあてはめの良さを評価す

る適当な指標（最小二乗法のχ

2

_{のような）がない。}

(53)

演習問題３

カイ２乗フィットの実例を紹介せよ。

デルタカイ２乗＝１がパラメータの推定誤差にな

ることをｙ(x)＝ｂのモデルの例で説明せよ。

F-testを説明せよ。特にカイ２乗フィットでモデル

パラメータを増やす際の検定について。

直線モデルでデータ点をフィットする例において

Ｘ軸方向の誤差まで考えた場合、最尤法で直線

モデルを決める方法を説明せよ。

(54)

検定、区間推定、相関係数

統計的検定

仮説の当否を統計的に検証する

区間推定

真の値の範囲を統計的に推定する

相関係数

2個のパラメータ間の関連を調べる

(55)

統計的検定

例）xの10回の測定平均値が0.40、標準偏差が0.05

仮説H：(例）母集団での平均値は0.5である

本当は対立仮説H'：母集団での平均値は0.5でないを示したい

ので、Hを帰無仮説という。

H'：母集団での平均値は0.5より小さい（大きい）の場合も有り

得る。両側検定、片側検定。

平均値0.5標準偏差0.05の母集団から10個の標本をサン

プルした場合に平均値が0.4以下になる（あるいは0.4以

下、0.6以上になる）確率Pは？

Pが定められた危険率(有意水準）aより

小さい：仮説は誤り。正しい可能性棄てる危険性aを伴って。

大きい：仮説は否定できない。

(56)

いろいろな検定

母平均の検定：正規分布

母集団の分散

σ

2

が既知でない場合->t分布

母平均の差の検定->t分布

母分散の検定：χ

2

分布

母分散の比の検定：F分布

相関の有無の検定：相関係数の表

(57)

区間推定

2 2 2 2 ) / / 1 ) / / / / x x s n n t x s n x s n x s n µ σ µ σ µ φ α α µ α α µ α − = − ≤ − ≤ ≤ ≤ + 2 2 N-1 N-1 N-1 N-1 例）n回の測定の平均値がと求まったとき母平均の存在する範囲はどのように推定できるか？母集団の分布は正規分布( , ）と仮定すると、標本平均は正規分布( , /n）に従う。 ( は自由度の分布に従う。確率1- となる区間は -t ( /2) ( t ( /2) 変形して -t ( /2) t ( /2) が 2 2 100 (1 - ) / / x s n x s n α µ α µ α × ≤ ≤ + %での母平均の nが大きいときにはt分布のかわりに正規分布を使い -z( /2) z( /2) で近似信頼係数信頼すると区間きもある

f(t)

t

1-α

α/2

α N-1 +t ( /2) α N-1 -t ( /2)

(58)

信頼区間の推定

正規分布の場合

-σ<x-µ<σにくる確率68.3%

-2σ<x-µ<2σにくる確率95.5%

-3σ<x-µ<3σにくる確率99.7%

-1.96σ<x-µ<1.96σにくる確率

95%

-2.58σ<x-µ<2.58σにくる確率

99%

(59)

相関係数

二つの測定量x,yの間に（線形）相関があるかど

うか

１なら正の相関、−１なら負の相関、ゼロなら相関な

し

(

)

₂ 1/ 2

(

)

₂ 1/ 2 2 2 i i i i i i i i N x y x y r N x x N y y − ≡ ⎡ ₋ ⎤ ⎡ ₋ ⎤ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ ⎣ ⎦

統計的データ解析