カイ二乗フィット検定、パラメータの誤差

(1)

統計的データ解析２００８

2008.11.11

林田清

(2)

問題Ｃ

1. xにも誤差がある場合どのように扱うべきか？x,yが独立で、それぞれ正規分布に従う誤差をもっているとして、直線モデルの場合を例にとって考えよ。_{(ヒント：上の式）} 2. yの値のモデル点まわりの分布が正規分布からずれている場合、最尤法に立ち戻って考える必要がある。例えばポアソン分布の場合は、どうなるか？尤度をあらわす式をかき、直線モデルのパラメータ_{a,bを決めるための手順を示せ。} 3. 6keV付近で“およそ”120eVFWHM程度のエネルギー分解能をもつ検出器がある。エネルギー分解能を1eVの誤差（標準偏差）で求めるためには、Ｘ線イベントをどのくらい集める必要があるか。 4. ガウシアン＋定数のモデルで与えられたデータ点をカイ２乗フィットせよ。出力されるフィット結果の数字の意味（定義）を調べること。また、ガウシアン関数として、二通りの形_{(10/14の資料参照）を試} し、積分強度とその誤差を計算し、共分散の寄与を確認せよ。 ( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 2 2 2 ˆ ˆ 1 1 ˆ ( , ; , , , ) exp exp 2 2 2 2 ˆ ˆ, ˆ ˆ ˆ ˆ 1 ˆ ( , ; , , , ) exp exp 2 2 2 i i i i xi yi xi yi xi yi i i i i i i xi yi xi yi xi yi x x y y P a b x y dx x y y ax b x x y ax b y ax P a b x y dx σ σ σ σ πσ πσ σ σ πσ σ σ σ ⎛ ₋ ⎞ ⎛ ₋ ⎞ ⎜ ⎟ ⎜ ⎟ = _⎜− _⎟ _⎜− _⎟ ⎝ ⎠ ⎝ ⎠ = + ⎛ ₋ ₋ ₋ ⎞ ₋ ₋ ⎜ ⎟ = _⎜− − _⎟ ∝ − ⎝ ⎠ ∫ ∫ ただしはであらわされる直線モデル上の点　 ( ) ( ) 2 2 2 2 2 _xi _yi b a σ σ ⎛ ⎞ ⎜ ⎟ ⎜ ₊ ⎟ ⎝ ⎠ 追加：3x3ピクセル内に２光子入るイベントを1%以下にする条件

(3)

カイ二乗分布の確率分布の積分

あてはめの良さの検定

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

• 最小二乗フィットによりモデルパラメータを最適化した際のχ2値を求める • 上記のχ2値（以上の値）を得る確率を表から調べる。 • 確率があまりにも小さければ何か間違っている。（例えばモデルが適当でない）ｒeduced-χ2_{の値の表（対応する}χ2_{の値を超える} 確率Pと自由度νの関数として表示されている）

(4)

• http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.htmlに

も同様の表（但しreduced chi-squaredではなくchi-squaredの値）が掲

載されている。

(5)

フィットのよさに関するカイ二乗検定

[問題例] ７組の測定データ(x

_i

,y

_i

) （i=1,..,7）で、Xの誤

差は無視できるほど小さく、

_y

_i

の誤差は

σ

_i

とする。これを

y=ax+bの直線モデルを仮定し、a,bをフリーパラメータと

してカイ二乗フィットする。自由度は

_7-2=5。

χ

2 min

の値

によって、どのような判断をするか？

例えば、χ2_min=15.1を得た場合自由度5のχ2分布で15.1以上の値を得る確率は0.99% 結論例１： “危険率1%（以上）でこのモデルは棄却される” 結論例２： “危険率0.5%ではこのモデルは棄却されない” χ2_min=6.0を得た場合自由度5のχ2分布で6.0以上の値を得る確率は31% 結論例： “（危険率10%では）このモデルは棄却されない” χ2_min=0.55を得た場合自由度5のχ2分布で0.55以下の値を得る確率は1% 結論例: “χ2_minの値が小さすぎる（と危険率1%で結論できる）。誤差の評価が不適当である可能性が大きい。”

(6)

モデルの妥当性の検討

[問題例] ７組の測定データ(x

_i

,y

_i

) （i=1,..,7）で、Xの

誤差は無視できるほど小さく、

_y

_i

の誤差は

σ

_i

とする。

これを

_{a,bをフリーパラメータとする3種のモデルを用}

いて、それぞれカイ二乗フィットする。自由度はいず

れも

_5。

A) y=ax+bのモデルA)に対してχ2_min=5.0 B) y=axb のモデルB)に対してχ2_min=6.0 C) y=aexp(-x/b)のモデルC)に対してχ2_min=15.1

[結論例]“モデルC)は危険率1%で棄却される。一

方、モデル

_{A),B)は棄却されない。”}

モデルA)がモデルB)より適当という結論は、このカイ二乗フィットのみからは導かれないことに注意

(7)

パラメータの推定誤差

2 2 2 1 2 2 2 2 1 1 1 1 n a i i _i _i n i b i i i i a y x b y σ σ σ σ σ σ = = ⎛ ⎞ ⎛ ∂ ⎞ = _⎜ _⎟ _{= ⎜} _⎟ ∂ Δ ⎝ ⎠ ⎝ ⎠ ⎛ ⎞ ⎛ ∂ ⎞ = _⎜ _⎟ _{= ⎜} _⎟ ∂ Δ ⎝ ⎠ ⎝ ⎠

∑

最適化したパラメータはあくまでもパラメータの

真の値の推定値。必ず推定誤差がある。

直線モデルの場合、誤差伝播側より計算できる

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 0, 0 , 1 1 1 1 ( ) ( , ) i i i i i i i i n n i i i i i i i i i i i i i i i i i i i i i i a b x y x y a x y x x y y y x y ax b P a b b x x χ χ χ σ σ σ σ σ σ σ χ σ σ σ σ σ σ χ = = ∂ ₌ ∂ ₌ ∂ ∂ ⎛ ⎞ = _⎜ − _⎟ Δ ⎝ ⎠ ⎛ ⎞ = _⎜ − _⎟ Δ ⎝ ⎠ ⎛ ⎞ Δ = − ⎛ − ⎞ ⎛ − − ⎞ ≡ = ⎜ ⎝ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ a b からを最小を最大にするにす＝を最小にすとしただるるてし 2 ⎟ ⎠ ∑ ∑

(8)

任意関数の最小二乗（カイ二乗）フィット

2 2 1 2 2 2 2 2min 2 2min 2min ( ) ( ) 1 n i i i i y x y y x m n m a a a a a a a χ χ χ χ σ χ ν χ χ χ χ = + − ⎛ − ⎞ ≡ _⎜ _⎟ ⎝ ⎠ − Δ = + Δ −Δ

∑

任意の関数形をモデルに採用した場合でもを最小にするようパラメータを決定する。パラメータの数をとしては自由度 = の分布に従うことが期待される。パラメータの誤差の推定: を最小にするパラメータ値に対して、を１だけ増加させる（）の値、、を探す。の誤差範囲（１パラメータ68%信頼水準）はa_χ_2min −Δa₋からa_χ_2min + Δa₊。

(9)

カイ二乗フィットのパラメータ推定誤差１

1 1 , 1 1 1 ( , ),....,( ) ,...., ,..., ( ; ,..., ) ( ,..., ) n n n n p p x y x y y y f x a a a a σ₁ σ ｎ回の測定でデータの組が得られたとし、の測定誤差（ただし正規分布するランダム誤差）をとする。これらのデータ点は、 p個のパラメータで指定されるモデルに、正規分布に従う誤差が付加されたデータで構成される母集団から採取されたと仮定する。パラメータの真の値（これは不可知）をと仮定

(

)

2 ; 1 1 ₂ 1 2 ; 1 2 2 2 1 1 1 ( ,..., ) 1 ( ,..., ) exp 2 2 ( ,..., ) exp ˆ ˆ ( ,..., ) ( ,..., ) n i i p p i _i _i n i i p i i p p y f x a a P a a y f x a a n P a a a a σ σ π χ χ χ σ = = ⎡ ₋ ⎤ ⎢ ⎥ = − ⎢ ⎥ ⎣ ⎦ − ⎛ ⎞ ≡ _⎜ _⎟ ⎝ ⎠ ∏ ∑ すると尤度（データ点の組が得られる確率は）はの中身をと定義する。は自由度の分布に従う。一方を最大にするようなパラメータの組（=最適パラメータ）をとす 2 ; 1 2 2 min 1 2 min 2 ˆ ˆ ( ,..., ) -n i i p i _i y f x a a p n p χ χ σ χ χ = − ⎛ ⎞ = _⎜ _⎟ ⎝ ⎠ ∑ るとこれはの最小値を与える。はp個のパラメータによって調整して最小化を行ったので自由度が減って、自由度の分布に従う。

(10)

カイ二乗フィットのパラメータ推定誤差２

(

)

(

)

(

)

(

)

₍

₎

2 ; 1 1 1 2 2 2 ; 1 ; 1 2 2 1 1 2 1 1 ˆ ˆ ,..., ,..., ( ,..., ) ˆ ˆ ,..., ,..., ˆ 1 1 ( ,..., ) ( ,..., ) 2 i p p p p n i i p i i p j j j i _i j j _j p p j _j f x a a a a a a y f x a a y f x a a A a a a _A P a a F a a χ χ σ χ _δ δ π = = = − − − Δ = − ∂Δ ₌ ∂ = ×

∑

∼

∑

j がの線形関数の場合、がの最小値を与えることに注意するとという形にかけるはず( =0)。とするとを含まない関数

(

)

(

)

2 2 1 2 2 2 2 min ; 1 1 2 2 2 2 min ˆ exp 2 ,..., ,..., p j j j i p p a a f x a a a a δ χ χ χ χ χ χ χ χ ⎡ ₋ ⎤ ⎢₋ ⎥ ⎢ ⎥ ⎣ ⎦ Δ ≡ − Δ ≡ −

∏

これからは自由度pの分布に従うことがわかる。がの線形関数でない場合は、このような形にはかけないがは自由度pの分布で近似する。

(11)

カイ二乗フィットのパラメータ誤差推定

（パラメータの数による信頼区間の違い）

Numerical Recipes in C, 技術評論社より転載。上の表で自由度とは（注目する）パラメータの数。パラメータa₁,a₂それぞれのの68%信頼区間はΔχ2_{=1であるが、(a} 1,a2)の組の68%信頼区間はΔχ2_{=2.3の楕円で囲まれた領域} になる。

(12)

最小二乗（カイ二乗）フィットのまとめ

最尤法が根拠。ただし、測定値

yのモデル点からのば

らつきが正規分布で近似できる場合に限定。

χ

2

を最小にするパラメータが最良推定値。

あてはめの良さ、モデルの妥当性は

χ

2

の値が自由度

n-mに近いかどうかで評価できる。

パラメータの誤差（信頼区間）は

Δ χ

2

から推定できる。

(13)

カイ二乗フィットの計算手法

モデル関数が多項式の場合行列計算（連立方程式）で解ける一般の関数形のモデルでχ２を最小化する方法 Grid Search Gradient Search Expansion Method χ２をbest fiｔパラメータ付近で放物面で近似するモデル関数をbest fiｔパラメータ付近で線形化する

Gradient-Expansion algorithm (Marquardt method)

詳細は Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson 等を参考のこと

カイ二乗フィット検定、パラメータの誤差

統計的データ解析 ２００８

2008.11.11

林田 清

問題Ｃ

カイ二乗分布の確率分布の積分

あてはめの良さの検定

フィットのよさに関するカイ二乗検定

[問題例] ７組の測定データ(x

,y

) （i=1,..,7）で、Xの誤

差は無視できるほど小さく、

y

の誤差は

σ

とする。これを

y=ax+bの直線モデルを仮定し、a,bをフリーパラメータと

してカイ二乗フィットする。 自由度は

7-2=5。

χ

の値

によって、どのような判断をするか？

モデルの妥当性の検討

[問題例] ７組の測定データ(x

,y

) （i=1,..,7）で、Xの

誤差は無視できるほど小さく、

y

の誤差は

σ

とする。

これを

a,bをフリーパラメータとする3種のモデルを用

いて、それぞれカイ二乗フィットする。自由度はいず

れも

5。

[結論例]“モデルC)は危険率1%で棄却される。一

方、モデル

A),B)は棄却されない。”

パラメータの推定誤差

∑

∑

∑

∑

最適化したパラメータはあくまでもパラメータの

真の値の推定値。 必ず推定誤差がある。

直線モデルの場合、誤差伝播側より計算できる

任意関数の最小二乗（カイ二乗）フィット

∑

カイ二乗フィットのパラメータ推定誤差１

(

)

カイ二乗フィットのパラメータ推定誤差２

(

)

(

)

(

)

(

(

)

)

(

)

∑

∑

(

)

(

)

∏

カイ二乗フィットのパラメータ誤差推定

（パラメータの数による信頼区間の違い）

最小二乗（カイ二乗）フィットのまとめ

最尤法が根拠。 ただし、測定値

yのモデル点からのば

らつきが正規分布で近似できる場合に限定。

χ

を最小にするパラメータが最良推定値。

統計的データ解析２００８

林田清

_y

してカイ二乗フィットする。自由度は

_7-2=5。

_y

_{a,bをフリーパラメータとする3種のモデルを用}

_5。

_{A),B)は棄却されない。”}

真の値の推定値。必ず推定誤差がある。

₍

₎

最尤法が根拠。ただし、測定値

_{(x)＝ｂのモデルの例で示せ。}