• 検索結果がありません。

統計的データ解析 2013

N/A
N/A
Protected

Academic year: 2021

シェア "統計的データ解析 2013"

Copied!
13
0
0

読み込み中.... (全文を見る)

全文

(1)

統計的データ解析 2013

2013.11.11 林田 清

(大阪大学大学院理学研究科)

(2)

フィットのよさに関するカイ二乗検定

[ 問題例 ] 7組の測定データ (x i ,y i ) ( i=1,..,7 )で、 X の誤 差は無視できるほど小さく、 y i の誤差は σ i とする。これを y=ax+b の直線モデルを仮定し、 a,b をフリーパラメータと してカイ二乗フィットする。 自由度は 7-2=5 。 χ 2 min の値 によって、どのような判断をするか?

例えば、 χ

2min

=15.1 を得た場合

自由度 5 の χ

2

分布で 15.1 以上の値を得る確率は 0.99%

結論例1: “ 危険率 1% (以上)でこのモデルは棄却される”

結論例2: “ 危険率 0.5% ではこのモデルは棄却されない”

χ

2min

=6.0 を得た場合

自由度 5 の χ

2

分布で 6.0 以上の値を得る確率は 31%

結論例: “ (危険率 10% では)このモデルは棄却されない”

χ

2min

=0.55 を得た場合

自由度 5 の χ

2

分布で 0.55 以下の値を得る確率は 1%

結論例 : “ χ

2min

の値が小さすぎる(と危険率 1% で結論できる)。誤差の 評価が不適当である可能性が大きい。”

確率の期待値は Excel では CHIDIST,CHIINV で計算できる

(3)

いろいろな検定

 母平均の検定:正規分布

母集団の分散 σ

2

が既知でない場合 ->t 分布

母平均の差の検定 ->t 分布

 母分散の検定: χ 2 分布

母分散の比の検定: F 分布

 相関の有無の検定:相関係数の表

(4)

区間推定

) /

- ( / 2) ( / 2)

x

z

z x z

x z x z

µ σ

µ σ

µ

α

α µ σ α

α σ µ α σ

≤ − ≤

≤ ≤ + 例)

平均値 、標準偏差 の正規分布に従う母集団 から、1回の測定で測定値 を採取する操作を 考える。 の真の値は知らず、 は何らかの方法で 推定できていたとする(例えば測定誤差に等しい

など)。 の存在する範囲はどのように推定できるか?  

を平均0、標準偏差1の正規分布に従う変数だとして、

確率1- となる区間は

- ( /2) ( ( /2) 変形して

100 (1- )× α µ

が信頼係数 %での の信頼区間

1-α

α/2

( / 2) z α

+

- ( / 2) z α

信頼区間 =confidence interval 、信頼係数 =confidence level

z ( )

p z

(5)

信頼区間の推定

正規分布の場合

-σ<x-µ<σ にくる確率 68.3%

-2σ<x-µ<2σ にくる確率 95.5%

-3σ<x-µ<3σ にくる確率 99.7%

-1.96σ<x-µ<1.96σ にくる確率 95%

-2.58σ<x-µ<2.58σ にくる確率 99%

-1.64σ<x-µ<1.64σ にくる確率 90%

Excel

では

NORMDIST,NORMINV

で計算できる

(6)

パラメータの推定誤差

2 2

2 1

2

2 2

2 1

1 1

1

n

a i

i i i

n

i

b i

i i i

a y

x b

y

σ σ

σ

σ σ

σ

=

=

 

 ∂ 

=   ∂   =  ∆   

 

 ∂ 

=   ∂   =  ∆   

∑ ∑

∑ ∑

 最適化したパラメータはあくまでもパラメータの 真の値の推定値。 必ず推定誤差がある。

 直線モデルの場合、誤差伝播側より計算できる

2 2

2

2 2 2 2

2

2 2 2

2 2

2

2

2 2

2

1 1

2

2

0, 0

,

1 1

1

1 ( )

( , )

i i i i

i i i i

n n

i i i

i i i i i

i i i i

i i

i i i

i

i i i i

a b

x y x y

a

x y x x

y y

y

x y ax b

P a b

b

x x

χ χ

χ

σ σ σ σ

σ σ σ

χ σ σ

σ

σ σ σ

χ

= =

= =

=

∆ 

=

∆ 

∆ =

=

∑ ∑ ∑ ∑

∑ ∑ ∑

∑ ∑

a b

から を最小

を最大にする

にす

= を最小にす

とし

ただ

2

∑ ∑

(7)

任意関数の最小二乗(カイ二乗)フィット

2 2

1

2 2

2 2

2 min 2

2 min 2 min

( ) ( )

1

n

i i

i i

y x y y x

m n m

a

a a a a a

a

χ

χ χ

χ σ

χ ν χ

χ χ

χ

=

+

 − 

≡  

 

∆ = + ∆ − ∆

任意の関数形 をモデルに採用した場合でも

を最小にするようパラメータを決定する。

パラメータの数を として は自由度 = の 分布に従うことが期待される。

パラメータの誤差の推定:

を最小にするパラメータ値 に対して、 を1だけ増加させる

( ) の値、 、 を探す。

の誤差範囲(1パ ラメータ68%信頼水準)は a

χ2 min

− ∆ a

から a

χ2 min

+ ∆ a

+

(8)

カイ二乗フィットのパラメータ推定誤差1

1 1 , 1

1

1

( , ),...., ( ) ,....,

,...,

( ; ,..., )

( ,..., )

n n n

n p

p

x y x y y y

f x a a

a a

σ1 σ

n回の測定でデータの組 が得られたとし、 の測定誤差

(ただし正規分布するランダム誤差)を とする。これらのデータ点は、

p個のパラメータで指定されるモデル に、正規分布に従う誤差が

付加されたデータで構成される母集団から採取されたと仮定する。

パラメータの真の値(これは不可知)を と仮定

(

; 1

)

2

1 2

1

2

2 ; 1 2 2

1

1 1

( ,..., )

( ,..., ) 1 exp

2 2

( ,..., ) exp

ˆ ˆ

( ,..., ) ( ,..., )

n i i p

p

i i i

n i i p

i i

p p

y f x a a P a a

y f x a a

n

P a a a a

σ π σ

χ χ χ

σ

=

=

 − 

 

= −

 

 

 − 

≡  

 

すると尤度

(データ点の組が得られる確率は)は

の中身を と定義する。 は自由度 の 分布に従う。

一方 を最大にするようなパラメータの組(=最適パラメータ)を と す

2

2 2 ; 1

min

1 2

min

2

ˆ ˆ

( ,..., )

-

n

i i p

i i

y f x a a

p n p

χ χ

σ χ

χ

=

 − 

=  

 

るとこれは の最小値 を与える。

はp個のパラメータによって調整して最小化を行ったので自由度が 減って、

自由度 の 分布に従う。

(9)

カイ二乗フィットのパラメータ推定誤差2

( )

( )

( ) ( ( ) ) ( )

2

; 1 1 1

2 2

2

; 1 ; 1

2

2

1 1

2

1 1

ˆ ˆ

,..., ,..., ( ,..., )

ˆ ˆ

,..., ,...,

ˆ 1

( ,..., ) ( ,..., ) 1

2

i p p p

n p

i i p i i p

j j j

i i j

j j

p p

j j

f x a a a a a a

y f x a a y f x a a

A a a

a A

P a a F a a

χ

χ σ

χ δ

δ π

= =

=

− − −

∆ = −

∂∆ =

= ×

j

が の線形関数の場合、 が の最小値を与えることに 注意すると

という形にかけるはず( =0)。 とすると

を含まない関数 ( )

( )

2 2 1

2 2 2 2

min

; 1 1

2 2 2 2

min

ˆ

exp 2

,..., ,...,

p j j

j

i p p

a a

f x a a a a

δ

χ χ χ χ

χ χ χ χ

 − 

− 

 

 

∆ ≡ −

∆ ≡ −

これから は自由度pの 分布に従うことがわかる。

が の線形関数でない場合は、このような形にはかけないが

は自由度pの 分布で近似する。

(10)

カイ二乗フィットのパラメータ誤差推定

(パラメータの数による信頼区間の違い)

Numerical Recipes in C, 技術評論社より転載。

上の表で自由度とは(注 目する)パラメータの数。

パラメータ a

1

,a

2

それぞれのの 68% 信頼区 間は Δχ

2

=1 であるが、 (a

1

,a

2

) の組の 68% 信

頼区間は Δχ

2

=2.3の楕円で囲まれた領域

になる。

(11)

最小二乗(カイ二乗)フィットのまとめ

最尤法が根拠。 ただし、測定値 y のモデル点からのば らつきが正規分布で近似できる場合に限定。

χ

2

を最小にするパラメータが最良推定値。

あてはめの良さ、モデルの妥当性は χ

2

の値が自由度 n-mに近いかどうかで評価できる。

パラメータの誤差(信頼区間)は ∆ χ

2

から推定できる。

(12)

相関が0でない例

 ラインスペクトルをガウシアンモデルでフィットする

( )

2

2

2 2

2 2 2

( ) exp

2 , , ,

, , ,

2

(

A B C

I A B

F x A x C

B A B C

A B C

I A B

I I

A B

G x

σ σ σ

π

σ σ σ

 − 

 

= −

 

 

= × ×

∂ ∂

   

=∂  +∂ 

モデルとして次の形式のガウシアン関数を仮定

して   をフィッティングにより求める。

フィッティングプログラムは の最適値と その誤差 , を出力してくれる。

このラインの積分強度は

共分散を無視して と計算すると、

誤差を過大評価する恐れがある。

( )

2

) exp 2

2 2 I x C

B B π

 − 

 

= −

 

 

というモデル式を使えば、このような問題は回避できる

(13)

宿題 B 次回 11/26 まで

1.

Gaussian Fit で二通りのモデル(2ページ前を参照のこと)で積分強 度とその誤差を求め比較せよ。(片多)

2.

デルタカイ2乗=1がパラメータの推定誤差になることをy (x) =bの モデルの例で示せ。(吉田)

3.

xspec のフィッティングの出力結果に関して、具体的な例を使い、ど

のような定義の値がかかれているか説明せよ。(内田)

4.

xspec( エラーコマンド) ,qdp,gnuplot の各種パラメータ誤差は何 % 信 頼限界か? また、この資料 p10 のパラメータの数による誤差の違 いに関して説明せよ(井上2)

5.

x にも誤差がある場合どのように扱うべきか? x,y が独立で、それぞ れ正規分布に従う誤差をもっているとして、直線モデルの場合を例 にとって考えよ。 ( ヒント:下の式) (吉永)

( ) ( )

( )

( ) ( )

2 2

2 2

2 2

2 2

ˆ ˆ

1 1

( , ; , , , ) ˆ exp exp

2 2

2 2

ˆ ˆ, ˆ ˆ

ˆ ˆ

ˆ 1

( , ; , , , ) exp exp

2 2 2

i i

i i xi yi

xi yi

xi yi

i i i i

i i xi yi

xi yi xi yi

x x y y

P a b x y dx

x y y ax b

x x y ax b y ax

P a b x y dx

σ σ πσ σ πσ σ

σ σ πσ σ σ σ

=

= +

=

ただし であらわされる直線モデル上の点

  ( )

( )

2

2 2 2

2 xi yi

b

a σ σ

+

参照

関連したドキュメント

以上,本研究で対象とする比較的空気を多く 含む湿り蒸気の熱・物質移動の促進において,こ

「課題を解決し,目標達成のために自分たちで考

太宰治は誰でも楽しめることを保証すると同時に、自分の文学の追求を放棄していませ

しかし , 特性関数 を使った証明には複素解析や Fourier 解析の知識が多少必要となってくるため , ここではより初等的な道 具のみで証明を実行できる Stein の方法

「欲求とはけっしてある特定のモノへの欲求で はなくて、差異への欲求(社会的な意味への 欲望)であることを認めるなら、完全な満足な どというものは存在しない

解析モデル平面図 【参考】 修正モデル.. 解析モデル断面図(その2)

 同一条件のエコノミークラ ス普通運賃よ り安価である ことを 証明する

これら諸々の構造的制約というフィルターを通して析出された行為を分析対象とする点で︑構