• 検索結果がありません。

統計的データ解析

N/A
N/A
Protected

Academic year: 2021

シェア "統計的データ解析"

Copied!
17
0
0

読み込み中.... (全文を見る)

全文

(1)

統計的データ解析 2011

2011.11.29

林田 清

(2)

連続確率分布の平均値、分散

(3)

c

2

分布

2 2 2 2 2 2 2 / 2 1 / 2 / 2 2 2 2 2 2 2 ( ) 0 1 ( ) {( ) } / 2 ( / 2) ( ) ( ) 2 i i x x n n V e x n E  c  

c

c

 c

c

c

c

c

c

c

       

n i=1 n i=1 平均値 ,標準偏差 の正規分布 に従う変 自由度 の (カイ 数 の自乗和   が従う分布を自由度 の 分布と呼ぶ。  一般に自由度 の 分布は f 平均値 ,標準 期待値  分散  偏差 の正規分布に従う  も自 二乗) 由度   の 分布 分 2 2 2 2 2 2 2 ( ) 1 i x x n m l m l

c

c

c

c

c

  

n i=1 布、  はしかし自由度 の 分布 分布の加算:自由度 の 分布に従う変数と自由度 の 分布に従う 変数の和は、自由度 の 分布に従う。 0 0.1 0.2 0.3 0.4 0.5 0 5 10 15 P( c 2 ) c2 c2 distribution dof=1 dof=2 dof=4 dof=6

(4)

カイ二乗分布の確率分布の積分

あてはめの良さの検定

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

最小二乗フィットによ

りモデルパラメータを

最適化した際の

c

2値

を求める

上記の

c

2値(以上の

値)を得る確率を表か

ら調べる。

確率があまりにも小さ

ければ何か間違って

いる。(例えばモデル

が適当でない)

reduced-

c

2

の値の表(対応する

c

2

の値を超える

確率Pと自由度

の関数として表示されている)

(5)

http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.html

も同様の表(但しreduced chi-squaredではなくchi-squaredの値)が掲

載されている。

(6)

統計的検定

(statistical test)

例)xの10回の測定平均値が0.45、標準偏差が0.05

仮説H:(例)母集団での平均値は0.5である

本当は対立仮説H':”母集団での平均値は0.5でない”を示したい

ので、Hを帰無仮説という。

H':”母集団での平均値は0.5より小さい(大きい)”の場合も有り

得る。 両側検定、片側検定。

平均値0.5標準偏差0.05の母集団から10個の標本をサン

プルした場合に平均値が0.45以下になる(あるいは0.45

以下、0.55以上になる)確率Pは?

Pが定められた危険率(有意水準)aより

小さい:仮説は誤り。 正しい可能性を棄てる危険性aを伴って。

大きい:仮説は否定できない。

危険率(有意水準)=significance level

(7)

フィットのよさに関するカイ二乗検定

[問題例] 7組の測定データ(x

i

,y

i

) (i=1,..,7)で、Xの誤

差は無視できるほど小さく、y

i

の誤差は

i

とする。これを

y=ax+bの直線モデルを仮定し、a,bをフリーパラメータと

してカイ二乗フィットする。 自由度は7-2=5。

c

2

min

の値

によって、どのような判断をするか?

例えば、

c

2min

=15.1を得た場合

自由度

5

c

2

分布で15.1以上の値を得る確率は0.99%

結論例1:

“危険率1%(以上)でこのモデルは棄却される”

結論例2:

“危険率0.5%ではこのモデルは棄却されない”

c

2min

=6.0を得た場合

自由度

5

c

2

分布で6.0以上の値を得る確率は31%

結論例:

“(危険率10%では)このモデルは棄却されない”

c

2min

=0.55を得た場合

自由度

5

c

2

分布で0.55以下の値を得る確率は1%

結論例: “

c

2min

の値が小さすぎる(と危険率1%で結論できる)。誤差の

評価が不適当である可能性が大きい。”

(8)

パラメータの推定誤差

2 2 2 1 2 2 2 2 1

1

1

1

n a i i i i n i b i i i i

a

y

x

b

y

 

 

 

最適化したパラメータはあくまでもパラメータの

真の値の推定値。 必ず推定誤差がある。

直線モデルの場合、誤差伝播側より計算できる

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 0, 0 , 1 1 1 1 ( ) ( , ) i i i i i i i i n n i i i i i i i i i i i i i i i i i i i i i i a b x y x y a x y x x y y y x y ax b P a b b x x c c c        c       c                                         

 

 

 

a b から を最小 を最大にする にす = を最小にす とし ただ る る て し 2  

 

(9)

任意関数の最小二乗(カイ二乗)フィット

2 2 1 2 2 2 2 2 min 2 2 min 2 min

( )

( )

1

n i i i i

y x

y

y x

m

n m

a

a

a

a

a

a

a

c c c

c

c

c

c

c

c

  

 

 

 

任意の関数形

をモデルに採用した場合でも

を最小にするようパラメータを決定する。

パラメータの数を として は自由度 =

の 分布に従うことが期待される。

パラメータの誤差の推定:

を最小にするパラメータ値

に対して、 を1だけ増加させる

) の値、

を探す。

の誤差範囲(1パ

ラメータ68%信頼水準)は

a

c2 min

 

a

から

a

c2 min

 

a

(10)

カイ二乗フィットのパラメータ推定誤差1

1 1 , 1 1 1 ( , ),...., ( ) ,...., ,..., ( ; ,..., ) ( ,..., ) n n n n p p x y x y y y f x a a a a1  n回の測定でデータの組 が得られたとし、 の測定誤差 (ただし正規分布するランダム誤差)を とする。これらのデータ点は、 p個のパラメータで指定されるモデル に、正規分布に従う誤差が 付加されたデータで構成される母集団から採取されたと仮定する。 パラメータの真の値(これは不可知)を と仮定

2 ; 1 1 2 1 2 ; 1 2 2 2 1 1 1 ( ,..., ) 1 ( ,..., ) exp 2 2 ( ,..., ) exp ˆ ˆ ( ,..., ) ( ,..., ) n i i p p i i i n i i p i i p p y f x a a P a a y f x a a n P a a a a    c c c                   

すると尤度 (データ点の組が得られる確率は)は の中身を と定義する。 は自由度 の 分布に従う。 一方 を最大にするようなパラメータの組(=最適パラメータ)を と す 2 ; 1 2 2 min 1 2 min 2 ˆ ˆ ( ,..., ) -n i i p i i y f x a a p n p c c  c c       

るとこれは の最小値 を与える。 はp個のパラメータによって調整して最小化を行ったので自由度が 減って、 自由度 の 分布に従う。

(11)

カイ二乗フィットのパラメータ推定誤差2

2 ; 1 1 1 2 2 2 ; 1 ; 1 2 2 1 1 2 1 1

ˆ

ˆ

,...,

,...,

( ,...,

)

ˆ

ˆ

,...,

,...,

ˆ

1

1

( ,...,

)

( ,...,

)

2

i p p p p n i i p i i p j j j i i j j j p p j j

f x a

a

a

a

a

a

y

f x a

a

y

f x a

a

A a

a

a

A

P a

a

F a

a

c

c

c

  



j

の線形関数の場合、

が の最小値を与えることに

注意すると

という形にかけるはず(

=0)。

とすると

を含まない関数

2 2 1 2 2 2 2 min ; 1 1 2 2 2 2 min

ˆ

exp

2

,...,

,...,

p j j j i p p

a

a

f x a

a

a

a

c

c

c

c

c

c

c

c

これから

は自由度pの 分布に従うことがわかる。

の線形関数でない場合は、このような形にはかけないが

は自由度pの 分布で近似する。

(12)

区間推定

) / - ( / 2) ( / 2) x z z x z x z x z                      例) 平均値 、標準偏差 の正規分布に従う母集団 から、1回の測定で測定値 を採取する操作を 考える。 の真の値は知らず、 は何らかの方法で 推定できていたとする(例えば測定誤差に等しい など)。 の存在する範囲はどのように推定できるか?   を平均0、標準偏差1の正規分布に従う変数だとして、 確率1- となる区間は - ( /2) ( ( /2) 変形して 100 (1- )   が信頼係数 %での の信頼区間

1-

/

2

( / 2)

z

- ( / 2)

z

信頼区間=confidence interval、信頼係数=confidence level

z

( )

(13)

信頼区間の推定

正規分布の場合

-

<x-

<

にくる確率

68.3%

-2

<x-

<2

にくる確率

95.5%

-3

<x-

<3

にくる確率

99.7%

-1.96

<x-

<1.96

にくる確率

95%

-2.58

<x-

<2.58

にくる確率

99%

(14)

カイ二乗フィットのパラメータ誤差推定

(パラメータの数による信頼区間の違い)

Numerical Recipes in C,

技術評論社より転載。

上の表で自由度とは(注

目する)パラメータの数。

パラメータa

1

,a

2

それぞれのの68%信頼区

間は

Δχ

2

=1であるが、(a

1

,a

2

)の組の68%信

頼区間は

Δχ

2

=2.3の楕円で囲まれた領域

になる。

(15)

相関が0でない例

ラインスペクトルをガウシアンモデルでフィットする

2 2 2 2 2 2 2 ( ) exp 2 , , , , , , 2 ( A B C I A B x C F x A B A B C A B C I A B I I A B G x                                  モデルとして次の形式のガウシアン関数を仮定 して   をフィッティングにより求める。 フィッティングプログラムは の最適値と その誤差 , を出力してくれる。 このラインの積分強度は 共分散を無視して と計算すると、 誤差を過大評価する恐れがある。

2 2 ) exp 2 2 x C I B B            というモデル式を使えば、このような問題は回避できる

(16)

最小二乗(カイ二乗)フィットのまとめ

最尤法が根拠。 ただし、測定値yのモデル点からのば

らつきが正規分布で近似できる場合に限定。

c

2

を最小にするパラメータが最良推定値。

あてはめの良さ、モデルの妥当性は

c

2

の値が自由度

n-mに近いかどうかで評価できる。

パラメータの誤差(信頼区間)は

 c

2

から推定できる。

(17)

宿題

D

デルタカイ2乗=1がパラメータの推定誤差になるこ

とをy(x)=bのモデルの例で示せ。

xspecのフィッティングの出力結果に関して、具体的

な例を使い、どのような定義の値がかかれているか

説明せよ。

xにも誤差がある場合どのように扱うべきか?x,yが

独立で、それぞれ正規分布に従う誤差をもっている

として、直線モデルの場合を例にとって考えよ。(ヒン

ト:下の式)

          2 2 2 2 2 2 2 2 ˆ ˆ 1 1 ˆ ( , ; , , , ) exp exp 2 2 2 2 ˆ ˆ, ˆ ˆ ˆ ˆ 1 ˆ ( , ; , , , ) exp exp 2 2 2 i i i i xi yi xi yi xi yi i i i i i i xi yi xi yi xi yi x x y y P a b x y dx x y y ax b x x y ax b y ax P a b x y dx                                             

ただし は であらわされる直線モデル上の点    

2 2 2 2 2 xi yi b a           

参照

関連したドキュメント

Research Institute for Mathematical Sciences, Kyoto University...

1-1 睡眠習慣データの基礎集計 ……… p.4-p.9 1-2 学習習慣データの基礎集計 ……… p.10-p.12 1-3 デジタル機器の活用習慣データの基礎集計………

5 종류의 계절 생선회와 도화새우 5 種類の旬の刺身とボタンエビ 5 kinds of sashimi and botanebi 국내산 한우 등심 데리야키 国内産韓牛ロース照り焼き.

解析モデル平面図 【参考】 修正モデル.. 解析モデル断面図(その2)

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

These two kinds of oil behave similar characteristics, but it can be shown that the difference of the pressure increasing rate or P-T curves are come from the difference of

Abstract: Using the CMT analysis for local events (M>3.5) carried out regularly by National Research Institute for Earth Science and Disaster Prevention (NIED), the spatial variation

※ CMB 解析や PMF 解析で分類されなかった濃度はその他とした。 CMB