• 検索結果がありません。

カイ二乗フィット検定、パラメータの誤差

N/A
N/A
Protected

Academic year: 2021

シェア "カイ二乗フィット検定、パラメータの誤差"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

統計的データ解析 2008

2008.11.11

林田 清

(2)

問題C

1. xにも誤差がある場合どのように扱うべきか?x,yが独立で、それ ぞれ正規分布に従う誤差をもっているとして、直線モデルの場合を 例にとって考えよ。(ヒント:上の式) 2. yの値のモデル点まわりの分布が正規分布からずれている場合、 最尤法に立ち戻って考える必要がある。例えばポアソン分布の場 合は、どうなるか?尤度をあらわす式をかき、直線モデルのパラ メータa,bを決めるための手順を示せ。 3. 6keV付近で“およそ”120eVFWHM程度のエネルギー分解能をも つ検出器がある。エネルギー分解能を1eVの誤差(標準偏差)で 求めるためには、X線イベントをどのくらい集める必要があるか。 4. ガウシアン+定数のモデルで与えられたデータ点をカイ2乗フィット せよ。出力されるフィット結果の数字の意味(定義)を調べること。 また、ガウシアン関数として、二通りの形(10/14の資料参照)を試 し、積分強度とその誤差を計算し、共分散の寄与を確認せよ。 ( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 2 2 2 ˆ ˆ 1 1 ˆ ( , ; , , , ) exp exp 2 2 2 2 ˆ ˆ, ˆ ˆ ˆ ˆ 1 ˆ ( , ; , , , ) exp exp 2 2 2 i i i i xi yi xi yi xi yi i i i i i i xi yi xi yi xi yi x x y y P a b x y dx x y y ax b x x y ax b y ax P a b x y dx σ σ σ σ πσ πσ σ σ πσ σ σ σ ⎛ ⎞ ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ = ⎝ ⎠ ⎝ ⎠ = + ⎛ ⎜ ⎟ = − − ∝ − ⎝ ⎠ ∫ ∫ ただし は であらわされる直線モデル上の点   ( ) ( ) 2 2 2 2 2 xi yi b a σ σ ⎛ ⎞ ⎜ ⎟ ⎜ + ⎟ ⎝ ⎠ 追加:3x3ピクセル内に2光子入るイベントを1%以下にする条件

(3)

カイ二乗分布の確率分布の積分

あてはめの良さの検定

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

• 最小二乗フィットによ りモデルパラメータを 最適化した際のχ2値 を求める • 上記のχ2値(以上の 値)を得る確率を表か ら調べる。 • 確率があまりにも小さ ければ何か間違って いる。(例えばモデル が適当でない) reduced-χ2の値の表(対応するχ2の値を超える 確率Pと自由度νの関数として表示されている)

(4)

• http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.htmlに

も同様の表(但しreduced chi-squaredではなくchi-squaredの値)が掲

載されている。

(5)

フィットのよさに関するカイ二乗検定

„

[問題例] 7組の測定データ(x

i

,y

i

) (i=1,..,7)で、Xの誤

差は無視できるほど小さく、

y

i

の誤差は

σ

i

とする。これを

y=ax+bの直線モデルを仮定し、a,bをフリーパラメータと

してカイ二乗フィットする。 自由度は

7-2=5。

χ

2 min

の値

によって、どのような判断をするか?

‰ 例えば、χ2min=15.1を得た場合 „ 自由度5のχ2分布で15.1以上の値を得る確率は0.99% „ 結論例1: “危険率1%(以上)でこのモデルは棄却される” „ 結論例2: “危険率0.5%ではこのモデルは棄却されない” ‰ χ2min=6.0を得た場合 „ 自由度5のχ2分布で6.0以上の値を得る確率は31% „ 結論例: “(危険率10%では)このモデルは棄却されない” ‰ χ2min=0.55を得た場合 „ 自由度5のχ2分布で0.55以下の値を得る確率は1% „ 結論例: “χ2minの値が小さすぎる(と危険率1%で結論できる)。誤差の 評価が不適当である可能性が大きい。”

(6)

モデルの妥当性の検討

„

[問題例] 7組の測定データ(x

i

,y

i

) (i=1,..,7)で、Xの

誤差は無視できるほど小さく、

y

i

の誤差は

σ

i

とする。

これを

a,bをフリーパラメータとする3種のモデルを用

いて、それぞれカイ二乗フィットする。自由度はいず

れも

5。

A) y=ax+bのモデルA)に対してχ2min=5.0 B) y=axb のモデルB)に対してχ2min=6.0 C) y=aexp(-x/b)のモデルC)に対してχ2min=15.1 „

[結論例]“モデルC)は危険率1%で棄却される。一

方、モデル

A),B)は棄却されない。”

‰ モデルA)がモデルB)より適当という結論は、このカイ二 乗フィットのみからは導かれないことに注意

(7)

パラメータの推定誤差

2 2 2 1 2 2 2 2 1 1 1 1 n a i i i i n i b i i i i a y x b y σ σ σ σ σ σ = = ⎛ ⎞ ⎛ ∂ ⎞ = = ⎜ ∂ Δ ⎝ ⎠ ⎝ ⎠ ⎛ ⎞ ⎛ ∂ ⎞ = = ⎜ ∂ Δ ⎝ ⎠ ⎝ ⎠

„

最適化したパラメータはあくまでもパラメータの

真の値の推定値。 必ず推定誤差がある。

„

直線モデルの場合、誤差伝播側より計算できる

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 0, 0 , 1 1 1 1 ( ) ( , ) i i i i i i i i n n i i i i i i i i i i i i i i i i i i i i i i a b x y x y a x y x x y y y x y ax b P a b b x x χ χ χ σ σ σ σ σ σ σ χ σ σ σ σ σ σ χ = = ∂ == ∂ ∂ ⎛ ⎞ = Δ ⎝ ⎠ ⎛ ⎞ = Δ ⎝ ⎠ ⎛ ⎞ Δ = − ⎛ − ⎞ ⎛ − − ⎞ ≡ = ⎜ ⎝ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ a b から を最小 を最大にする にす = を最小にす とし ただ る る て し 2 ⎟ ⎠ ∑ ∑

(8)

任意関数の最小二乗(カイ二乗)フィット

2 2 1 2 2 2 2 2min 2 2min 2min ( ) ( ) 1 n i i i i y x y y x m n m a a a a a a a χ χ χ χ σ χ ν χ χ χ χ = + − ⎛ − ⎞ ≡ ⎝ ⎠ − Δ = + Δ −Δ

任意の関数形 をモデルに採用した場合でも を最小にするようパラメータを決定する。 パラメータの数を として は自由度 = の 分布に従うことが期待される。 パラメータの誤差の推定: を最小にするパラメータ値 に対して、 を1だけ増加させる ( ) の値、 、 を探す。 の誤差範囲(1パラメータ68%信頼水準)はaχ2min −Δaからaχ2min + Δa+

(9)

カイ二乗フィットのパラメータ推定誤差1

1 1 , 1 1 1 ( , ),....,( ) ,...., ,..., ( ; ,..., ) ( ,..., ) n n n n p p x y x y y y f x a a a a σ1 σ n回の測定でデータの組 が得られたとし、 の測定誤差 (ただし正規分布するランダム誤差)を とする。これらのデータ点は、 p個のパラメータで指定されるモデル に、正規分布に従う誤差が 付加されたデータで構成される母集団から採取されたと仮定する。 パラメータの真の値(これは不可知)を と仮定

(

)

2 ; 1 1 2 1 2 ; 1 2 2 2 1 1 1 ( ,..., ) 1 ( ,..., ) exp 2 2 ( ,..., ) exp ˆ ˆ ( ,..., ) ( ,..., ) n i i p p i i i n i i p i i p p y f x a a P a a y f x a a n P a a a a σ σ π χ χ χ σ = = ⎡ ⎤ ⎢ ⎥ = − ⎢ ⎥ ⎣ ⎦ − ⎛ ⎞ ≡ ⎝ ⎠ ∏ ∑ すると尤度 (データ点の組が得られる確率は)は の中身を と定義する。 は自由度 の 分布に従う。 一方 を最大にするようなパラメータの組(=最適パラメータ)を と す 2 ; 1 2 2 min 1 2 min 2 ˆ ˆ ( ,..., ) -n i i p i i y f x a a p n p χ χ σ χ χ = − ⎛ ⎞ = ⎝ ⎠ ∑ るとこれは の最小値 を与える。 はp個のパラメータによって調整して最小化を行ったので自由度が 減って、 自由度 の 分布に従う。

(10)

カイ二乗フィットのパラメータ推定誤差2

(

)

(

)

(

)

(

(

)

)

(

)

2 ; 1 1 1 2 2 2 ; 1 ; 1 2 2 1 1 2 1 1 ˆ ˆ ,..., ,..., ( ,..., ) ˆ ˆ ,..., ,..., ˆ 1 1 ( ,..., ) ( ,..., ) 2 i p p p p n i i p i i p j j j i i j j j p p j j f x a a a a a a y f x a a y f x a a A a a a A P a a F a a χ χ σ χ δ δ π = = = − − − Δ = − ∂Δ = ∂ = ×

j が の線形関数の場合、 が の最小値を与えることに 注意すると という形にかけるはず( =0)。 とすると を含まない関数

(

)

(

)

2 2 1 2 2 2 2 min ; 1 1 2 2 2 2 min ˆ exp 2 ,..., ,..., p j j j i p p a a f x a a a a δ χ χ χ χ χ χ χ χ ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ Δ ≡ − Δ ≡ −

これから は自由度pの 分布に従うことがわかる。 が の線形関数でない場合は、このような形にはかけないが は自由度pの 分布で近似する。

(11)

カイ二乗フィットのパラメータ誤差推定

(パラメータの数による信頼区間の違い)

Numerical Recipes in C, 技術評論社より転載。 上の表で自由度とは(注 目する)パラメータの数。 パラメータa1,a2それぞれのの68%信頼区 間はΔχ2=1であるが、(a 1,a2)の組の68%信 頼区間はΔχ2=2.3の楕円で囲まれた領域 になる。

(12)

最小二乗(カイ二乗)フィットのまとめ

„

最尤法が根拠。 ただし、測定値

yのモデル点からのば

らつきが正規分布で近似できる場合に限定。

„

χ

2

を最小にするパラメータが最良推定値。

„

あてはめの良さ、モデルの妥当性は

χ

2

の値が自由度

n-mに近いかどうかで評価できる。

„

パラメータの誤差(信頼区間)は

Δ χ

2

から推定できる。

(13)

カイ二乗フィットの計算手法

„ モデル関数が多項式の場合 ‰ 行列計算(連立方程式)で解ける „ 一般の関数形のモデルでχ2を最小化する方法 ‰ Grid Search ‰ Gradient Search ‰ Expansion Method „ χ2をbest fitパラメータ付近で放物面で近似する „ モデル関数をbest fitパラメータ付近で線形化する

‰ Gradient-Expansion algorithm (Marquardt method)

„ 詳細は Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson 等を参考のこと

(14)

問題D

1.

xspecにおけるカイ2乗フィットの実例を紹介せ

よ。

2.

デルタカイ2乗=1がパラメータの推定誤差に

なることをy

(x)=bのモデルの例で示せ。

3.

デルタカイ2乗=1がパラメータの推定誤差に

なることを、一般的な場合(ただし各パラメータ

は独立な場合)に関して説明せよ(配布資料に

かいている内容を理解して説明をせよ)。

4.

F-testを説明せよ。特にカイ2乗フィットでモデ

ルパラメータを増やす際の検定について。

参照

関連したドキュメント

した標準値を表示しておりますが、食材・調理状況より誤差が生じる場合が

議論を深めるための参 考値を踏まえて、参考 値を実現するための各 電源の課題が克服さ れた場合のシナリオ

※規制部門の値上げ申 請(平成24年5月11 日)時の燃料費水準 で見直しを実施して いるため、その時点 で確定していた最新

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

直流電圧に重畳した交流電圧では、交流電圧のみの実効値を測定する ACV-Ach ファンクショ

環境基準値を超過した測定局の状況をみると、区部南西部に位置する東糀谷局では一般局では最も早く 12 時から二酸化窒素が上昇し始め 24 時まで 0.06ppm

※規制部門の値上げ申 請(平成24年5月11 日)時の燃料費水準 で見直しを実施して いるため、その時点 で確定していた最新

(1) 建屋海側に位置するサブドレンのポンプ停止バックアップ位置(LL 値)は,建屋滞留 水水位の管理上限目標値 T.P.2,064mm ※1