統計的データ解析

(1)

統計的データ解析２０１１

20１1.１1.29

林田清

(2)

連続確率分布の平均値、分散

(3)

c

2 _分布

2 2 2 2 2 2 2 / 2 1 / 2 / 2 2 2 2 2 2 2 ( ) 0 1 ( ) {( ) } / 2 ( / 2) ( ) ( ) 2 i i x x n n V e x n E  c  

c

 c

c





c





c





c



       



n i=1 n i=1 平均値 ,標準偏差の正規分布に従う変自由度の（カイ数の自乗和　が従う分布を自由度の分布と呼ぶ。　一般に自由度の分布は f 平均値 ,標準期待値　分散　偏差の正規分布に従う　も自二乗）由度　の分布分 2 2 2 2 2 2 2 ( ) 1 i x x n m l m l

c



c

  



n i=1 布、　はしかし自由度の分布分布の加算：自由度の分布に従う変数と自由度の分布に従う変数の和は、自由度の分布に従う。 0 0.1 0.2 0.3 0.4 0.5 0 5 10 15 P( c 2 ) c2 c2_distribution dof=1 dof=2 dof=4 dof=6

(4)

カイ二乗分布の確率分布の積分

あてはめの良さの検定

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

• 最小二乗フィットによ

りモデルパラメータを

最適化した際の

c

2値

を求める

• 上記の

c

2値（以上の

値）を得る確率を表か

ら調べる。

• 確率があまりにも小さ

ければ何か間違って

いる。（例えばモデル

が適当でない）

ｒeduced-

c

2

_{の値の表（対応する}

c

2

_{の値を超える}

確率Pと自由度



の関数として表示されている）

(5)

• http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.html

に

も同様の表（但しreduced chi-squaredではなくchi-squaredの値）が掲

載されている。

(6)

統計的検定

_{(statistical test)}



例）xの10回の測定平均値が0.45、標準偏差が0.05



仮説H：(例）母集団での平均値は0.5である



本当は対立仮説H'：”母集団での平均値は0.5でない”を示したい

ので、Hを帰無仮説という。



H'：”母集団での平均値は0.5より小さい（大きい）”の場合も有り

得る。両側検定、片側検定。



平均値0.5標準偏差0.05の母集団から10個の標本をサン

プルした場合に平均値が0.45以下になる（あるいは0.45

以下、0.55以上になる）確率Pは？



Pが定められた危険率(有意水準）aより



小さい：仮説は誤り。正しい可能性を棄てる危険性aを伴って。



大きい：仮説は否定できない。

危険率（有意水準）=significance level

(7)

フィットのよさに関するカイ二乗検定



[問題例] ７組の測定データ(x

_i

,y

_i

) （i=1,..,7）で、Xの誤

差は無視できるほど小さく、y

_i

の誤差は



_i

とする。これを

y=ax+bの直線モデルを仮定し、a,bをフリーパラメータと

してカイ二乗フィットする。自由度は7-2=5。

c

2 min

の値

によって、どのような判断をするか？



例えば、

c

2_min

=15.1を得た場合



自由度

5 の

c

2

分布で15.1以上の値を得る確率は0.99%



結論例１：

“危険率1%（以上）でこのモデルは棄却される”



結論例２：

“危険率0.5%ではこのモデルは棄却されない”



c

2_min

=6.0を得た場合



自由度

5 の

c

2

分布で6.0以上の値を得る確率は31%



結論例：

“（危険率10%では）このモデルは棄却されない”



c

2_min

=0.55を得た場合



自由度

5 の

c

2

分布で0.55以下の値を得る確率は1%



結論例: “

c

2_min

の値が小さすぎる（と危険率1%で結論できる）。誤差の

評価が不適当である可能性が大きい。”

(8)

パラメータの推定誤差

2 2 2 1 2 2 2 2 1

1

n a i i _i _i n i b i i _i _i

a

y

x

b

y



 







_





_

_

_{ }

_

























_

_

_{ }

_

















最適化したパラメータはあくまでもパラメータの

真の値の推定値。必ず推定誤差がある。



直線モデルの場合、誤差伝播側より計算できる

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 0, 0 , 1 1 1 1 ( ) ( , ) i i i i i i i i n n i i i i i i i i i i i i i i i i i i i i i i a b x y x y a x y x x y y y x y ax b P a b b x x c c c        c       c    _  _      _  _       _  _                           

 



a b からを最小を最大にするにす＝を最小にすとしただるるてし 2  

 

(9)

任意関数の最小二乗（カイ二乗）フィット

2 2 1 2 2 2 2 2 min 2 2 min 2 min

( )

1

n i i i _i

y x

y

y x

m

n m

a

c c c

c



c



c

  









_

_







 

 

 



任意の関数形

をモデルに採用した場合でも

を最小にするようパラメータを決定する。

パラメータの数をとしては自由度 =

の分布に従うことが期待される。

パラメータの誤差の推定:

を最小にするパラメータ値

に対して、を１だけ増加させる

（

）の値、

、

を探す。

の誤差範囲（１パ

ラメータ68%信頼水準）は

a

_c_{2 min}

 

a

_

から

a

_c_{2 min}

 

a

_

。

(10)

カイ二乗フィットのパラメータ推定誤差１

1 1 , 1 1 1 ( , ),...., ( ) ,...., ,..., ( ; ,..., ) ( ,..., ) n n n n p p x y x y y y f x a a a a ₁  ｎ回の測定でデータの組が得られたとし、の測定誤差（ただし正規分布するランダム誤差）をとする。これらのデータ点は、 p個のパラメータで指定されるモデルに、正規分布に従う誤差が付加されたデータで構成される母集団から採取されたと仮定する。パラメータの真の値（これは不可知）をと仮定





2 ; 1 1 2 1 2 ; 1 2 2 2 1 1 1 ( ,..., ) 1 ( ,..., ) exp 2 2 ( ,..., ) exp ˆ ˆ ( ,..., ) ( ,..., ) n i i p p i _i i n i i p i i p p y f x a a P a a y f x a a n P a a a a    c c c     _              _ _  





すると尤度（データ点の組が得られる確率は）はの中身をと定義する。は自由度の分布に従う。一方を最大にするようなパラメータの組（=最適パラメータ）をとす 2 ; 1 2 2 min 1 2 min 2 ˆ ˆ ( ,..., ) -n i i p i i y f x a a p n p c c  c c      _ _  



るとこれはの最小値を与える。はp個のパラメータによって調整して最小化を行ったので自由度が減って、自由度の分布に従う。

(11)

カイ二乗フィットのパラメータ推定誤差２

















_

_

2 ; 1 1 1 2 2 2 ; 1 ; 1 2 2 1 1 2 1 1

ˆ

,...,

( ,...,

)

ˆ

,...,

ˆ

1

1 ( ,...,

)

( ,...,

)

2

i p p p p n i i p i i p j j j i _i j j _j p p j _j

f x a

a

y

f x a

a

y

f x a

a

A a

a

_A

P a

a

F a

a

c



c

_





  











_









j

が

の線形関数の場合、

がの最小値を与えることに

注意すると

という形にかけるはず(

=0)。

とすると

を含まない関数









2 2 1 2 2 2 2 min ; 1 1 2 2 2 2 min

ˆ

exp

2 ,...,

,...,

p j j j i p p

a

f x a

a



c



_





_

























これから

は自由度pの分布に従うことがわかる。

が

の線形関数でない場合は、このような形にはかけないが

は自由度pの分布で近似する。

(12)

区間推定

) / - ( / 2) ( / 2) x z z x z x z x z                      例）平均値、標準偏差の正規分布に従う母集団から、１回の測定で測定値を採取する操作を考える。の真の値は知らず、は何らかの方法で推定できていたとする（例えば測定誤差に等しいなど）。の存在する範囲はどのように推定できるか？　　を平均0、標準偏差1の正規分布に従う変数だとして、確率1- となる区間は - ( /2) ( ( /2) 変形して 100 (1- )   が信頼係数 %でのの信頼区間

1-



/

2 ( / 2)

z





- ( / 2)

z



信頼区間=confidence interval、信頼係数=confidence level

z

( )

(13)

信頼区間の推定



正規分布の場合



-



<x-



<



にくる確率

68.3%



-2



<x-



<2



にくる確率

95.5%



-3



<x-



<3



にくる確率

99.7%



-1.96



<x-



<1.96



にくる確率

95%



-2.58



<x-



<2.58



にくる確率

99%

(14)

カイ二乗フィットのパラメータ誤差推定

（パラメータの数による信頼区間の違い）

Numerical Recipes in C,

技術評論社より転載。

上の表で自由度とは（注

目する）パラメータの数。

パラメータa

₁

,a

₂

それぞれのの68%信頼区

間は

_Δχ

2

_{=1であるが、(a}

1

,a

2

)の組の68%信

頼区間は

Δχ

2

_{=2.3の楕円で囲まれた領域}

になる。

(15)

相関が０でない例



ラインスペクトルをガウシアンモデルでフィットする

。





2 2 2 2 2 2 2 ( ) exp 2 , , , , , , 2 ( A B C I A B x C F x A B A B C A B C I A B I I A B G x         _                   _ _ _ _       モデルとして次の形式のガウシアン関数を仮定して　　をフィッティングにより求める。フィッティングプログラムはの最適値とその誤差 , を出力してくれる。このラインの積分強度は共分散を無視してと計算すると、誤差を過大評価する恐れがある。





2 2 ) exp 2 2 x C I B B   _          というモデル式を使えば、このような問題は回避できる

(16)

最小二乗（カイ二乗）フィットのまとめ



最尤法が根拠。ただし、測定値yのモデル点からのば

らつきが正規分布で近似できる場合に限定。



c

2

を最小にするパラメータが最良推定値。



あてはめの良さ、モデルの妥当性は

c

2

の値が自由度

n-mに近いかどうかで評価できる。



パラメータの誤差（信頼区間）は

 c

2

から推定できる。

(17)

宿題

_D



デルタカイ２乗＝１がパラメータの推定誤差になるこ

とをｙ(x)＝ｂのモデルの例で示せ。



xspecのフィッティングの出力結果に関して、具体的

な例を使い、どのような定義の値がかかれているか

説明せよ。



xにも誤差がある場合どのように扱うべきか？x,yが

独立で、それぞれ正規分布に従う誤差をもっている

として、直線モデルの場合を例にとって考えよ。(ヒン

ト：下の式）

          2 2 2 2 2 2 2 2 ˆ ˆ 1 1 ˆ ( , ; , , , ) exp exp 2 2 2 2 ˆ ˆ, ˆ ˆ ˆ ˆ 1 ˆ ( , ; , , , ) exp exp 2 2 2 i i i i xi yi xi yi xi yi i i i i i i xi yi xi yi xi yi x x y y P a b x y dx x y y ax b x x y ax b y ax P a b x y dx              _   _                    _ _ _  _ _           



ただしはであらわされる直線モデル上の点　  





2 2 2 2 2 _xi _yi b a           

統計的データ解析