• 検索結果がありません。

統計的データ解析 2013

N/A
N/A
Protected

Academic year: 2021

シェア "統計的データ解析 2013"

Copied!
23
0
0

読み込み中.... (全文を見る)

全文

(1)

統計的データ解析 2013

2013.12.20 林田 清

(大阪大学大学院理学研究科)

(2)

宿題 B 次回 11/26 まで

1. Gaussian Fit で二通りのモデル(2ページ前を参照のこと)で積分強 度とその誤差を求め比較せよ。(片多)

2. デルタカイ2乗=1がパラメータの推定誤差になることをy (x) =bの モデルの例で示せ。(吉田)

3. xspec のフィッティングの出力結果に関して、具体的な例を使い、ど

のような定義の値がかかれているか説明せよ。(内田)

4. xspec( エラーコマンド) ,qdp,gnuplot の各種パラメータ誤差は何 % 信 頼限界か? また、この資料 p10 のパラメータの数による誤差の違 いに関して説明せよ(井上2)

5. x にも誤差がある場合どのように扱うべきか? x,y が独立で、それぞ れ正規分布に従う誤差をもっているとして、直線モデルの場合を例 にとって考えよ。 ( ヒント:下の式) (吉永)

( ) ( )

( )

( ) ( )

2 2

2 2

2 2

2 2

ˆ ˆ

1 1

( , ; , , , ) ˆ exp exp

2 2

2 2

ˆ ˆ , ˆ ˆ

ˆ ˆ

ˆ 1

( , ; , , , ) exp exp

2 2 2

i i

i i xi yi

xi yi

xi yi

i i i i

i i xi yi

xi yi xi yi

x x y y

P a b x y dx

x y y ax b

x x y ax b y ax

P a b x y dx

σ σ πσ σ πσ σ

σ σ πσ σ σ σ

 −   − 

   

= − −

   

   

= +

 − − −  − −

 

=  − −  ∝ −

 

ただし であらわされる直線モデル上の点

 

( )

( )

2

2 2 2

2

xi yi

b a σ σ

 

 

 + 

 

(3)

X にも誤差がある場合の注意、練習

 Excel を利用した最小二乗フィット

 サンプルのデータ

 直線モデル用

http://133.1.160.249/~hayasida/Class/Class2008/xsx_ysy.txt

 x と y に誤差がある場合、 x の誤差を無視した場合の影響、矛盾を

実際に確認しました。さらに、 x の誤差を考慮したケース(宿題 B

の問題 5 )で、矛盾が解消することを確認しました。

(4)

確率分布

 いろいろな確率分布

 二項分布

 ポアッソン分布

 正規(ガウス分布)

 t分布

 χ 2 乗分布

(5)

確率分布関数と平均値、分散

 測定値の組 x 1 ,x 2 ,…,x n が与えられている場合と、それ をヒストグラムにした分布が与えられている場合を明確 に区別すべき。

( )

2

2

1 2 1 2

1

2 2

1

( ) ( )

( )

, ,... , ,...

( )

i i i

i i

i

x P x

xP x dx

x P x dx

x x x P P

x P

x P

µ

σ µ

µ

σ µ

=

=

=

= −

=

= −

に関する確率分布関数  が与えられていたとき 平均値

分散

が離散的な変数 の場合それぞれの確率を として 平均値

分散

(6)

連続確率分布の平均値、分散

 比較のため

(7)

宿題 C

1. 平均値 x 0 、標準偏差 σ のガウス分布に従う連続 変数 x の平均 x 0 となることを示せ。

2. 平均値 x 0 、標準偏差 σ のガウス分布に従う連続

変数 x の分散が σ 2 となることを示せ。

(8)

二項分布、ポアッソン分布

2

( ; , ) ! (1 )

( )! !

(1 ) (1 )

x n x

B

p

n x

P x n p n p p

n x x x pn

np p p

σ µ

= −

=

= − = −

二項分布  が事象の起こる確率として 回の試行のうち 回事象が起こる確率は

2

1

( ; )

!

x

p pn

P x e

x x

µ

µ µ µ

µ σ µ

<< =

=

=

=

ポアッソン分布

二項分布で の極限、 を パラメータとして

0 0.1 0.2 0.3 0.4

0 5 10 15

Poisson Distribution

1 2 3 4 5 10

x

µ=

(9)

ポアッソン分布の導出その1

2

1/

0 0

0

! 1 !

( ; , ) (1 ) (1 ) (1 )

( )! ! ! ( )!

(1 ) (1 )

! (for )

( )!

(1 ) 1

(1 ) (1 ) 1

( ;

lim lim

lim

x n x x x n

B

x

x

n p

p p

B p

n n

P x n p p p p p p

n x x x n x

pn

np p p

p

n n x n

n x

p px

p p e

e P x

µ µ µ

µ

σ µ

µ

− −

→ →

= − = − −

− −

=

= − = −

<<

≈ <<

− ≈ +

   

− =  −  =     = 二項分布

において を一定に保ったまま、 1の極限を考える

, ) ( ; )

!

x

n p P x

p

e

x µ

µ

µ

= ≡

(10)

ポアッソン分布の導出その2

/

/

( ; , )

(0; , ) (0; , ) (0; , ) (0; , )

(0; , ) 1 1

t

t

x P x t

t t dt

P t dt P t P t dt dP t

P t e

e x

τ

τ

τ τ

τ τ τ τ

τ

τ τ

τ

+

× = − + ≈ −

=

平均の時間間隔 でイベントが起こるとき、時間tの間に イベント起こる確率を とする あるイベントが起こった時刻を基準にして時間 に次のイベントが起こる確率は

これを積分して規格化をすると

つまりイベントの時間間隔の分布は で記述できる。

イベントを時

1 2

/

1

/

( ; , )

!

0 ( ; , )

!

( ; )

!

t x

x i

i

i t x

x p

dt dt e dt

d P x t

x

t x t t

e t

P x t

x

t t

P x e

x

τ

τ

µ

τ τ

τ τ

τ µ

µ µ

=

=

=      

=

間tの間の , ,...に観測する確率は

時間 の間に イベント起こる確率はそれぞれの を から まで積分して

は時間 の間に起こるイベント数の平均値 ポアッソン分布は

(参考)

(11)

ポアッソン分布

 ポアッソン分布の例

 放射線源の1秒あたりの崩壊数

 放射線源の測定で1時間当たりの検出カウント数

 1000人の集団の中で今日が誕生日の人の数

 ポアッソン分布の統計誤差

 平均値の平方根

 (複数回の測定ができないとき)1回の測定値の平方根で置き換え るときもある

 ポアッソン分布と正規分布

 平均値 µ が大きいとき(例えば 20 以上)ではポアッソン分布は平 均値 µ 、分散 σ 2 =µ の正規分布で近似できる。

0 0.1 0.2 0.3 0.4

0 5 10 15

Poisson Distribution

1 2 3 4 5 10

x

µ=

(12)

正規分布

Bevington

&Robinson

2 2

1 ( )

( ; , ) exp( )

2 2

G

P x µ σ x µ

πσ σ

= − −

Excel での練習

(13)

χ 2 分布

2

2 2

2 2

2 2 / 2 1 / 2 / 2

2

2 2

2

2 2

( )

0 1

( ) {( ) } / 2 ( / 2)

( )

( ) 2

i

i

x x

n

n V

e

x n

E

ν χ ν

ν

χ

χ ν χ

χ χ

χ

ν

µ χ

µ σ χ

σ

ν χ ν

− −

=

= Γ

= =

n

i=1

n

i=1

平均値 ,標準偏差 の正規分布 に従う変

自由度 の (カイ

数 の自乗和  

が従う分布を自由度 の 分布と呼ぶ。  一般に自由度 の 分布は f

平均値 ,標準

期待値  分散 

偏差 の正規分布に従う  も自 二乗)

由度  

の 分布

2

2 2

2 2 2

2

( )

i

1 x x

n

m l

m l σ χ

χ χ χ

χ

− −

+

n

i=1

布、 

はしかし自由度 の 分布

分布の加算:自由度 の 分布に従う変数と自由度 の 分布に従う 変数の和は、自由度 の 分布に従う。

0 0.1 0.2 0.3 0.4 0.5

0 5 10 15

P( χ

2

)

χ

2

χ

2

distribution

dof=1 dof=2

dof=4 dof=6

(14)

相関係数

 二つの測定量 x,y の間に(線形)相関があるかどうか

 1に近ければ正の相関、-1に近ければ負の相関、ゼロ なら相関なし

( ) ( )

( )

( ) ( )

1/2 1/2 1/2 1/2

2 2 2 2

2 2 2 2

( )

i i i i i i

i i i i i i i i

N x y x y N x x y y

r

N x x N y y N x x N y y

− − −

≡ =

 −   −   −   − 

       

       

∑ ∑ ∑ ∑

∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑

r=0.89 r=-0.05 r=-0.95

(15)

相関係数の検定

Data Reduction and Error Analysis for the

Physical Sciences,

Bevington & Robinson

より

(16)

XSPEC とレスポンス行列

[0] 0,0 0,0 1, 1 [0]

[1] 0,1 1,1 [1]

[ 1] 0, 1 1, 1 [ 1]

PH M N E

PH E

PH N N M N E M

S R R R I

S R R I

S R R I

     

     

  =    

     

       

     

   

データスペクトル(黒十字)=

観測されたPHスペクトル

モデルスペクトル(赤)=

期待される PH スペクトル

レスポンス行列

仮定した入射X線エネルギー スペクトルモデル

残差:データスペクトルー

モデルスペクトル

(17)

ヒストグラム(スペクトル)のフィット

2 2 2

2

1 1 1

( ) ( ( )) ( ( ))

( )

i

n n n

i i i i

i i i i i

i n

y y x n y i n y i

n y i

χ

=

σ

= =

 −  − −

≡   = =

 

∑ ∑ ∑

ビンの生のカウントを とすると

 場  合によっては   

各ビンのカウントが 20 以下の場合にはポアッソンー>正規分布の

仮定がくずれる。 ビンまとめか最尤法の直接利用を検討すべき。

(18)

最尤法の直接的な利用1

 K

中間子の寿命の測定

 K 中間子の生成点は生成 に伴う二次荷電粒子の飛跡 から、崩壊点と運動量は崩 壊後のパイ中間子の飛跡と 運動量の測定から決められ る

 点線の領域内で崩壊が起 こった現象だけ取り扱う

Data Reduction and Error Analysis for the Physical Sciences, Bevington &

Robinson

より

参考

(19)

最尤法の直接的な利用2

/

/

( ; )

( ; )

i

i

i

t

i i i i

i

t

i i i

i i

t

P A p t A e

A

p t e t t dt

A t

τ

τ

τ

τ

τ τ

τ

= =

=  +

0

0

0

時間 だけ生き延びるK 中間子を観測する確率

ここで は定められた領域内で崩壊が起こり検出できる効率、

K 中間子の生成点、崩壊点の位置や運動量、寿命 に依存する。

は寿命 の粒子が の間に崩壊する確率。

は や と独立ではないことに注意。

生成点と運動量が決まっているK 中間子に対して、点線領域に入るまでの 距離を

2 2

1 1

1 2

1 2

/

/

1 1

, ,

1

( )

i

i

i

t t t

i i i i

t t

N N

t

i i

i i

d d

t t A

Pdt A e dt

N

L P A e

τ

τ

τ

τ

= =

= =

= =

∫ ∫

∏ ∏

出る(崩壊が起こらなかったとして)までの距離を とし、対応する 時間を とする。  は次のように規格化する。

個のイベントについて尤度は

これを最大にするような が求めたい答え

参考

(20)

最尤法の直接的な利用3

/

1 1

1 2

2

1 2

( )

( ) ln ( ) ln

0,

1/ ( ) 1 ln

( ) 1

0 /

, 1/

i

N N

t

i i

i i

i i

i i

i i

i

L P A e

M L A t

t t

A M t N

dM N

t t N

d

t t

A e

τ

τ

τ τ

τ

τ τ τ

τ

τ τ

τ τ τ

= =

= =

 

= =   −  

= = ∞

= = − −

= − = =

≠ = ∞

=

∏ ∏

∑ ∑

のかわりに

を最大にすることを考える

例1) のとき(粒子の寿命に対して測定領域が十分大きい場合)

より

例2)全ての粒子の運動量が同じで が共通の値( 0) の場合

[ ]

1 1

/ /

1

1

/

( ) ln ln

( ) 0 /

ti t

t i

i

i

dt e t t

M L

dM t N t

d

τ τ

τ

τ τ

τ

τ τ

τ

∞ −

=

= = − −

= = −

∑ ∑

より

参考

(21)

Data Reduction and Error Analysis for the

Physical Sciences, Bevington & Robinson

より

参考

(22)

最尤法の直接利用と最小二乗法

 最小二乗法を使えないとき=分布が正規分布でないとき

 ビンまとめし、ヒストグラムをつくると、1ビンあたりに含ま れるデータ数が十分大きい場合、正規分布で近似できる。

この場合最小二乗法が使えるようになる。

 ただし、もともとのデータ数が小さい場合は適用付加。。。

最尤法の直接利用

 複雑なモンテカルロ計算が必要になるような場合(例: K 中 間子の寿命測定)も最尤法の直接利用が効果的

 ∆M=1/2 より最尤法で決めたパラメータ誤差を推定できる

 しかし、最尤法の直接利用ではあてはめの良さを評価す る適当な指標(最小二乗法の χ 2 のような)がない。

参考

(23)

問題E 2014/1/6 まで

1. およそ FWHM120eV のエネルギー分解能をもつX線検出器を使って、

6keV 付近の単一エネルギーX線を測定する。 X線のエネルギーの値 を 1eV の精度 (90% 信頼限界)で決定するためには何個のX線イベント を検出すればよいか? (片多)

2. 二項分布の分散を導き、さらに、二項分布の極限としてポアソン分布が導 かれることを示せ(=自分で式をかいて復習せよ) ()

3. X 線イベント数が少なく、 20 あるいは 30counts/bin 以上にビンまとめしてカ イ二乗フィットをするのが困難な場合、最尤法に立ち返り、各ビンのカウント がポアソン分布に従うとして、尤度を記述せよ。どのような手順でスペクトル パラメータを求めればよいか方針を説明せよ。(もし余裕があれば、 xspec で cstat というのを使い結果を比較してみよ)

4. 関西地域の世帯視聴率は 600 世帯の調査をもとに算出されている。ある番 組の視聴率が 10% であったときの統計誤差を評価せよ。(二項分布はポア ソン分布で近似してよいとする) (吉永)

https://www.videor.co.jp/data/ratedata/henkou.htm

参考

5. 1Mpixel の CCD で、1フレームの露出中に同じピクセルに2個以上のX線が

入る確率を 1% 以下におさえたい。X線イベントの数をどのように設定すべ

きか?シングルイベントのみが発生しており、照射強度は CCD 全面で一様

と仮定する。 ()

参照

関連したドキュメント

このこと から , 文献 [3] に書かれている説明変数間の相関が強すぎ て分析結果が不安定になる「多重共線性」とみなし

この画面において、「IF 条件が満たされ るケース」をクリックし、 「IF」ボタンをク リックする。すると図 16

古典的な尤度比検定 (deviance 差が χ 2 分布にしたがうと仮定) このふたとおりを説明します.まずは parametric bootstrap

• 最小二乗フィットによ りモデルパラメータを 最適化した際のχ 2 値 を求める • 上記のχ 2 値(以上の 値)を得る確率を表か

 某医科大学の眼科教室に協力してデータ解析を行 いました.データはある幼稚園から高校まである学 校の生徒( 4 歳から 18 歳)約 4000

[r]

):図形の中心から等角度に放射 線を 引き, 2 本 の放射 線と図 形の曲線で 囲まれる領域 の面積 の大きさを特徴パラメータ とし た. これ をDAM

断面を通過する時にできる点の集まりで描かれ る。 6.提案手法