統計的データ解析 2013
2013.11.11 林田 清
(大阪大学大学院理学研究科)
フィットのよさに関するカイ二乗検定
[ 問題例 ] 7組の測定データ (x i ,y i ) ( i=1,..,7 )で、 X の誤 差は無視できるほど小さく、 y i の誤差は σ i とする。これを y=ax+b の直線モデルを仮定し、 a,b をフリーパラメータと してカイ二乗フィットする。 自由度は 7-2=5 。 χ 2 min の値 によって、どのような判断をするか?
例えば、 χ
2min=15.1 を得た場合
自由度 5 の χ
2分布で 15.1 以上の値を得る確率は 0.99%
結論例1: “ 危険率 1% (以上)でこのモデルは棄却される”
結論例2: “ 危険率 0.5% ではこのモデルは棄却されない”
χ
2min=6.0 を得た場合
自由度 5 の χ
2分布で 6.0 以上の値を得る確率は 31%
結論例: “ (危険率 10% では)このモデルは棄却されない”
χ
2min=0.55 を得た場合
自由度 5 の χ
2分布で 0.55 以下の値を得る確率は 1%
結論例 : “ χ
2minの値が小さすぎる(と危険率 1% で結論できる)。誤差の 評価が不適当である可能性が大きい。”
確率の期待値は Excel では CHIDIST,CHIINV で計算できる
いろいろな検定
母平均の検定:正規分布
母集団の分散 σ
2が既知でない場合 ->t 分布
母平均の差の検定 ->t 分布
母分散の検定: χ 2 分布
母分散の比の検定: F 分布
相関の有無の検定:相関係数の表
区間推定
) /
- ( / 2) ( / 2)
x
z
z x z
x z x z
µ σ
µ σ
µ
α
α µ σ α
α σ µ α σ
≤ − ≤
≤ ≤ + 例)
平均値 、標準偏差 の正規分布に従う母集団 から、1回の測定で測定値 を採取する操作を 考える。 の真の値は知らず、 は何らかの方法で 推定できていたとする(例えば測定誤差に等しい
など)。 の存在する範囲はどのように推定できるか?
を平均0、標準偏差1の正規分布に従う変数だとして、
確率1- となる区間は
- ( /2) ( ( /2) 変形して
100 (1- )× α µ
が信頼係数 %での の信頼区間
1-α
α/2
( / 2) z α
+- ( / 2) z α
信頼区間 =confidence interval 、信頼係数 =confidence level
z ( )
p z
信頼区間の推定
正規分布の場合
-σ<x-µ<σ にくる確率 68.3%
-2σ<x-µ<2σ にくる確率 95.5%
-3σ<x-µ<3σ にくる確率 99.7%
-1.96σ<x-µ<1.96σ にくる確率 95%
-2.58σ<x-µ<2.58σ にくる確率 99%
-1.64σ<x-µ<1.64σ にくる確率 90%
Excel
では
NORMDIST,NORMINVで計算できる
パラメータの推定誤差
2 2
2 1
2
2 2
2 1
1 1
1
n
a i
i i i
n
i
b i
i i i
a y
x b
y
σ σ
σ
σ σ
σ
=
=
∂
= ∂ = ∆
∂
= ∂ = ∆
∑ ∑
∑ ∑
最適化したパラメータはあくまでもパラメータの 真の値の推定値。 必ず推定誤差がある。
直線モデルの場合、誤差伝播側より計算できる
2 2
2
2 2 2 2
2
2 2 2
2 2
2
2
2 2
2
1 1
2
2
0, 0
,
1 1
1
1 ( )
( , )
i i i i
i i i i
n n
i i i
i i i i i
i i i i
i i
i i i
i
i i i i
a b
x y x y
a
x y x x
y y
y
x y ax b
P a b
b
x x
χ χ
χ
σ σ σ σ
σ σ σ
χ σ σ
σ
σ σ σ
χ
= =
∂ = ∂ =
∂ ∂
= −
∆
= −
∆
∆ = −
− − −
≡ =
∑ ∑ ∑ ∑
∑ ∑ ∑
∑ ∑
∑
∑
a b
から を最小
を最大にする
にす
= を最小にす
とし
ただ
る
る て
し
2
∑ ∑
任意関数の最小二乗(カイ二乗)フィット
2 2
1
2 2
2 2
2 min 2
2 min 2 min
( ) ( )
1
n
i i
i i
y x y y x
m n m
a
a a a a a
a
χ
χ χ
χ σ
χ ν χ
χ χ
χ
=
+ −
−
≡
−
∆ = + ∆ − ∆
∑
任意の関数形 をモデルに採用した場合でも
を最小にするようパラメータを決定する。
パラメータの数を として は自由度 = の 分布に従うことが期待される。
パラメータの誤差の推定:
を最小にするパラメータ値 に対して、 を1だけ増加させる
( ) の値、 、 を探す。
の誤差範囲(1パ ラメータ68%信頼水準)は a
χ2 min− ∆ a
−から a
χ2 min+ ∆ a
+。
カイ二乗フィットのパラメータ推定誤差1
1 1 , 1
1
1
( , ),...., ( ) ,....,
,...,
( ; ,..., )
( ,..., )
n n n
n p
p
x y x y y y
f x a a
a a
σ1 σ
n回の測定でデータの組 が得られたとし、 の測定誤差
(ただし正規分布するランダム誤差)を とする。これらのデータ点は、
p個のパラメータで指定されるモデル に、正規分布に従う誤差が
付加されたデータで構成される母集団から採取されたと仮定する。
パラメータの真の値(これは不可知)を と仮定
(
; 1)
21 2
1
2
2 ; 1 2 2
1
1 1
( ,..., )
( ,..., ) 1 exp
2 2
( ,..., ) exp
ˆ ˆ
( ,..., ) ( ,..., )
n i i p
p
i i i
n i i p
i i
p p
y f x a a P a a
y f x a a
n
P a a a a
σ π σ
χ χ χ
σ
=
=
−
= −
−
≡
∏
∑
すると尤度
(データ点の組が得られる確率は)は
の中身を と定義する。 は自由度 の 分布に従う。
一方 を最大にするようなパラメータの組(=最適パラメータ)を と す
2
2 2 ; 1
min
1 2
min
2
ˆ ˆ
( ,..., )
-
n
i i p
i i
y f x a a
p n p
χ χ
σ χ
χ
=
−
=
∑
るとこれは の最小値 を与える。
はp個のパラメータによって調整して最小化を行ったので自由度が 減って、
自由度 の 分布に従う。
カイ二乗フィットのパラメータ推定誤差2
( )
( )
( ) ( ( ) ) ( )
2
; 1 1 1
2 2
2
; 1 ; 1
2
2
1 1
2
1 1
ˆ ˆ
,..., ,..., ( ,..., )
ˆ ˆ
,..., ,...,
ˆ 1
( ,..., ) ( ,..., ) 1
2
i p p p
n p
i i p i i p
j j j
i i j
j j
p p
j j
f x a a a a a a
y f x a a y f x a a
A a a
a A
P a a F a a
χ
χ σ
χ δ
δ π
= =
=
− − −
∆ = −
∂∆ =
∂
= ×
∑
∑
j
が の線形関数の場合、 が の最小値を与えることに 注意すると
という形にかけるはず( =0)。 とすると
を含まない関数 ( )
( )
2 2 1
2 2 2 2
min
; 1 1
2 2 2 2
min
ˆ
exp 2
,..., ,...,
p j j
j
i p p
a a
f x a a a a
δ
χ χ χ χ
χ χ χ χ
−
−
∆ ≡ −
∆ ≡ −
∏
これから は自由度pの 分布に従うことがわかる。
が の線形関数でない場合は、このような形にはかけないが
は自由度pの 分布で近似する。
カイ二乗フィットのパラメータ誤差推定
(パラメータの数による信頼区間の違い)
Numerical Recipes in C, 技術評論社より転載。
上の表で自由度とは(注 目する)パラメータの数。
パラメータ a
1,a
2それぞれのの 68% 信頼区 間は Δχ
2=1 であるが、 (a
1,a
2) の組の 68% 信
頼区間は Δχ
2=2.3の楕円で囲まれた領域
になる。
最小二乗(カイ二乗)フィットのまとめ
最尤法が根拠。 ただし、測定値 y のモデル点からのば らつきが正規分布で近似できる場合に限定。
χ
2を最小にするパラメータが最良推定値。
あてはめの良さ、モデルの妥当性は χ
2の値が自由度 n-mに近いかどうかで評価できる。
パラメータの誤差(信頼区間)は ∆ χ
2から推定できる。
相関が0でない例
ラインスペクトルをガウシアンモデルでフィットする
。
( )
22
2 2
2 2 2
( ) exp
2 , , ,
, , ,
2
(
A B C
I A B
F x A x C
B A B C
A B C
I A B
I I
A B
G x
σ σ σ
π
σ σ σ
−
= −
= × ×
∂ ∂
=∂ +∂
モデルとして次の形式のガウシアン関数を仮定
して をフィッティングにより求める。
フィッティングプログラムは の最適値と その誤差 , を出力してくれる。
このラインの積分強度は
共分散を無視して と計算すると、
誤差を過大評価する恐れがある。
( )
2) exp 2
2 2 I x C
B B π
−
= −
というモデル式を使えば、このような問題は回避できる
宿題 B 次回 11/26 まで
1.
Gaussian Fit で二通りのモデル(2ページ前を参照のこと)で積分強 度とその誤差を求め比較せよ。(片多)
2.
デルタカイ2乗=1がパラメータの推定誤差になることをy (x) =bの モデルの例で示せ。(吉田)
3.
xspec のフィッティングの出力結果に関して、具体的な例を使い、ど
のような定義の値がかかれているか説明せよ。(内田)
4.
xspec( エラーコマンド) ,qdp,gnuplot の各種パラメータ誤差は何 % 信 頼限界か? また、この資料 p10 のパラメータの数による誤差の違 いに関して説明せよ(井上2)
5.
x にも誤差がある場合どのように扱うべきか? x,y が独立で、それぞ れ正規分布に従う誤差をもっているとして、直線モデルの場合を例 にとって考えよ。 ( ヒント:下の式) (吉永)
( ) ( )
( )
( ) ( )
2 2
2 2
2 2
2 2
ˆ ˆ
1 1
( , ; , , , ) ˆ exp exp
2 2
2 2
ˆ ˆ, ˆ ˆ
ˆ ˆ
ˆ 1
( , ; , , , ) exp exp
2 2 2
i i
i i xi yi
xi yi
xi yi
i i i i
i i xi yi
xi yi xi yi
x x y y
P a b x y dx
x y y ax b
x x y ax b y ax
P a b x y dx
σ σ πσ σ πσ σ
σ σ πσ σ σ σ
− −
= − −
= +
− − − − −
= − − ∝ −
∫
∫
ただし は であらわされる直線モデル上の点
( )
( )
2
2 2 2
2 xi yi
b
a σ σ
+