統計的データ解析 2013
2013.12.20 林田 清
(大阪大学大学院理学研究科)
宿題 B 次回 11/26 まで
1. Gaussian Fit で二通りのモデル(2ページ前を参照のこと)で積分強 度とその誤差を求め比較せよ。(片多)
2. デルタカイ2乗=1がパラメータの推定誤差になることをy (x) =bの モデルの例で示せ。(吉田)
3. xspec のフィッティングの出力結果に関して、具体的な例を使い、ど
のような定義の値がかかれているか説明せよ。(内田)
4. xspec( エラーコマンド) ,qdp,gnuplot の各種パラメータ誤差は何 % 信 頼限界か? また、この資料 p10 のパラメータの数による誤差の違 いに関して説明せよ(井上2)
5. x にも誤差がある場合どのように扱うべきか? x,y が独立で、それぞ れ正規分布に従う誤差をもっているとして、直線モデルの場合を例 にとって考えよ。 ( ヒント:下の式) (吉永)
( ) ( )
( )
( ) ( )
2 2
2 2
2 2
2 2
ˆ ˆ
1 1
( , ; , , , ) ˆ exp exp
2 2
2 2
ˆ ˆ , ˆ ˆ
ˆ ˆ
ˆ 1
( , ; , , , ) exp exp
2 2 2
i i
i i xi yi
xi yi
xi yi
i i i i
i i xi yi
xi yi xi yi
x x y y
P a b x y dx
x y y ax b
x x y ax b y ax
P a b x y dx
σ σ πσ σ πσ σ
σ σ πσ σ σ σ
− −
= − −
= +
− − − − −
= − − ∝ −
∫
∫
ただし は であらわされる直線モデル上の点
( )
( )
2
2 2 2
2
xi yib a σ σ
+
X にも誤差がある場合の注意、練習
Excel を利用した最小二乗フィット
サンプルのデータ
直線モデル用
http://133.1.160.249/~hayasida/Class/Class2008/xsx_ysy.txt
x と y に誤差がある場合、 x の誤差を無視した場合の影響、矛盾を
実際に確認しました。さらに、 x の誤差を考慮したケース(宿題 B
の問題 5 )で、矛盾が解消することを確認しました。
確率分布
いろいろな確率分布
二項分布
ポアッソン分布
正規(ガウス分布)
t分布
χ 2 乗分布
確率分布関数と平均値、分散
測定値の組 x 1 ,x 2 ,…,x n が与えられている場合と、それ をヒストグラムにした分布が与えられている場合を明確 に区別すべき。
( )
22
1 2 1 2
1
2 2
1
( ) ( )
( )
, ,... , ,...
( )
i i i
i i
i
x P x
xP x dx
x P x dx
x x x P P
x P
x P
µ
σ µ
µ
σ µ
∞
=
∞
=
=
= −
=
= −
∫
∫
∑
∑
に関する確率分布関数 が与えられていたとき 平均値
分散
が離散的な変数 の場合それぞれの確率を として 平均値
分散
連続確率分布の平均値、分散
比較のため
宿題 C
1. 平均値 x 0 、標準偏差 σ のガウス分布に従う連続 変数 x の平均 x 0 となることを示せ。
2. 平均値 x 0 、標準偏差 σ のガウス分布に従う連続
変数 x の分散が σ 2 となることを示せ。
二項分布、ポアッソン分布
2
( ; , ) ! (1 )
( )! !
(1 ) (1 )
x n x
B
p
n x
P x n p n p p
n x x x pn
np p p
σ µ
= −
−−
=
= − = −
二項分布 が事象の起こる確率として 回の試行のうち 回事象が起こる確率は
2
1
( ; )
!
x
p pn
P x e
x x
µ
µ µ µ
µ σ µ
−
<< =
=
=
=
ポアッソン分布
二項分布で の極限、 を パラメータとして
0 0.1 0.2 0.3 0.4
0 5 10 15
Poisson Distribution
1 2 3 4 5 10
x
µ=
ポアッソン分布の導出その1
2
1/
0 0
0
! 1 !
( ; , ) (1 ) (1 ) (1 )
( )! ! ! ( )!
(1 ) (1 )
! (for )
( )!
(1 ) 1
(1 ) (1 ) 1
( ;
lim lim
lim
x n x x x n
B
x
x
n p
p p
B p
n n
P x n p p p p p p
n x x x n x
pn
np p p
p
n n x n
n x
p px
p p e
e P x
µ µ µ
µ
σ µ
µ
− −
−
−
→ →
→
= − = − −
− −
=
= − = −
<<
≈ <<
−
− ≈ +
− = − = = 二項分布
において を一定に保ったまま、 1の極限を考える
, ) ( ; )
!
x
n p P x
pe
x µ
µµ
−= ≡
ポアッソン分布の導出その2
/
/
( ; , )
(0; , ) (0; , ) (0; , ) (0; , )
(0; , ) 1 1
t
t
x P x t
t t dt
P t dt P t P t dt dP t
P t e
e x
τ
τ
τ τ
τ τ τ τ
τ
τ τ
τ
−
−
+
× = − + ≈ −
=
平均の時間間隔 でイベントが起こるとき、時間tの間に イベント起こる確率を とする あるイベントが起こった時刻を基準にして時間 に次のイベントが起こる確率は
これを積分して規格化をすると
つまりイベントの時間間隔の分布は で記述できる。
イベントを時
1 2/
1
/
( ; , )
!
0 ( ; , )
!
( ; )
!
t x
x i
i
i t x
x p
dt dt e dt
d P x t
x
t x t t
e t
P x t
x
t t
P x e
x
τ
τ
µ
τ τ
τ τ
τ µ
µ µ
−
=
−
−
=
=
=
≡
∏
間tの間の , ,...に観測する確率は
時間 の間に イベント起こる確率はそれぞれの を から まで積分して
は時間 の間に起こるイベント数の平均値 ポアッソン分布は
(参考)
ポアッソン分布
ポアッソン分布の例
放射線源の1秒あたりの崩壊数
放射線源の測定で1時間当たりの検出カウント数
1000人の集団の中で今日が誕生日の人の数
ポアッソン分布の統計誤差
平均値の平方根
(複数回の測定ができないとき)1回の測定値の平方根で置き換え るときもある
ポアッソン分布と正規分布
平均値 µ が大きいとき(例えば 20 以上)ではポアッソン分布は平 均値 µ 、分散 σ 2 =µ の正規分布で近似できる。
0 0.1 0.2 0.3 0.4
0 5 10 15
Poisson Distribution
1 2 3 4 5 10
x
µ=
正規分布
Bevington
&Robinson
2 2
1 ( )
( ; , ) exp( )
2 2
G
P x µ σ x µ
πσ σ
= − −
Excel での練習
χ 2 分布
2
2 2
2 2
2 2 / 2 1 / 2 / 2
2
2 2
2
2 2
( )
0 1
( ) {( ) } / 2 ( / 2)
( )
( ) 2
i
i
x x
n
n V
e
x n
E
ν χ ν
ν
χ
χ ν χ
χ χ
χ
ν
µ χ
µ σ χ
σ
ν χ ν
− −
=
= Γ
−
= =
∑
∑
n
i=1
n
i=1
平均値 ,標準偏差 の正規分布 に従う変
自由度 の (カイ
数 の自乗和
が従う分布を自由度 の 分布と呼ぶ。 一般に自由度 の 分布は f
平均値 ,標準
期待値 分散
偏差 の正規分布に従う も自 二乗)
由度
の 分布
分
2
2 2
2 2 2
2
( )
i
1 x x
n
m l
m l σ χ
χ χ χ
χ
− −
+
∑
ni=1
布、
はしかし自由度 の 分布
分布の加算:自由度 の 分布に従う変数と自由度 の 分布に従う 変数の和は、自由度 の 分布に従う。
0 0.1 0.2 0.3 0.4 0.5
0 5 10 15
P( χ
2)
χ
2χ
2distribution
dof=1 dof=2
dof=4 dof=6
相関係数
二つの測定量 x,y の間に(線形)相関があるかどうか
1に近ければ正の相関、-1に近ければ負の相関、ゼロ なら相関なし
( ) ( )
( )
( ) ( )
1/2 1/2 1/2 1/2
2 2 2 2
2 2 2 2
( )
i i i i i i
i i i i i i i i
N x y x y N x x y y
r
N x x N y y N x x N y y
− − −
≡ =
− − − −
∑ ∑ ∑ ∑
∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑
r=0.89 r=-0.05 r=-0.95
相関係数の検定
Data Reduction and Error Analysis for the
Physical Sciences,
Bevington & Robinson
よりXSPEC とレスポンス行列
[0] 0,0 0,0 1, 1 [0]
[1] 0,1 1,1 [1]
[ 1] 0, 1 1, 1 [ 1]
PH M N E
PH E
PH N N M N E M
S R R R I
S R R I
S R R I
− −
− − − − −
=
データスペクトル(黒十字)=
観測されたPHスペクトル
モデルスペクトル(赤)=
期待される PH スペクトル
レスポンス行列
仮定した入射X線エネルギー スペクトルモデル
残差:データスペクトルー
モデルスペクトル
ヒストグラム(スペクトル)のフィット
2 2 2
2
1 1 1
( ) ( ( )) ( ( ))
( )
i
n n n
i i i i
i i i i i
i n
y y x n y i n y i
n y i
χ
=σ
= = − − −
≡ = =
∑ ∑ ∑
ビンの生のカウントを とすると
場 合によっては
各ビンのカウントが 20 以下の場合にはポアッソンー>正規分布の
仮定がくずれる。 ビンまとめか最尤法の直接利用を検討すべき。
最尤法の直接的な利用1
K
0中間子の寿命の測定
K 0 中間子の生成点は生成 に伴う二次荷電粒子の飛跡 から、崩壊点と運動量は崩 壊後のパイ中間子の飛跡と 運動量の測定から決められ る
点線の領域内で崩壊が起 こった現象だけ取り扱う
Data Reduction and Error Analysis for the Physical Sciences, Bevington &
Robinson
より参考
最尤法の直接的な利用2
/
/
( ; )
( ; )
i
i
i
t
i i i i
i
t
i i i
i i
t
P A p t A e
A
p t e t t dt
A t
τ
τ
τ
τ
τ τ
τ
−
−
= =
= +
0
0
0
時間 だけ生き延びるK 中間子を観測する確率
ここで は定められた領域内で崩壊が起こり検出できる効率、
K 中間子の生成点、崩壊点の位置や運動量、寿命 に依存する。
は寿命 の粒子が の間に崩壊する確率。
は や と独立ではないことに注意。
生成点と運動量が決まっているK 中間子に対して、点線領域に入るまでの 距離を
2 2
1 1
1 2
1 2
/
/
1 1
, ,
1
( )
i
i
i
t t t
i i i i
t t
N N
t
i i
i i
d d
t t A
Pdt A e dt
N
L P A e
τ
τ
ττ
−
−
= =
= =
= =
∫ ∫
∏ ∏
出る(崩壊が起こらなかったとして)までの距離を とし、対応する 時間を とする。 は次のように規格化する。
個のイベントについて尤度は
これを最大にするような が求めたい答え
参考
最尤法の直接的な利用3
/
1 1
1 2
2
1 2
( )
( ) ln ( ) ln
0,
1/ ( ) 1 ln
( ) 1
0 /
, 1/
i
N N
t
i i
i i
i i
i i
i i
i
L P A e
M L A t
t t
A M t N
dM N
t t N
d
t t
A e
τ
ττ τ
τ
τ τ τ
τ
τ τ
τ τ τ
−
= =
= =
= = −
= = ∞
= = − −
= − = =
≠ = ∞
=
∏ ∏
∑
∑
∑ ∑
のかわりに
を最大にすることを考える
例1) のとき(粒子の寿命に対して測定領域が十分大きい場合)
で
より
例2)全ての粒子の運動量が同じで が共通の値( 0) の場合
[ ]
1 1
/ /
1
1
/
( ) ln ln
( ) 0 /
ti t
t i
i
i
dt e t t
M L
dM t N t
d
τ τ
τ
τ τ
τ
τ τ
τ
∞ −
=
= = − −
= = −
∫
∑ ∑
∑
より
参考
Data Reduction and Error Analysis for the
Physical Sciences, Bevington & Robinson
より参考
最尤法の直接利用と最小二乗法
最小二乗法を使えないとき=分布が正規分布でないとき
ビンまとめし、ヒストグラムをつくると、1ビンあたりに含ま れるデータ数が十分大きい場合、正規分布で近似できる。
この場合最小二乗法が使えるようになる。
ただし、もともとのデータ数が小さい場合は適用付加。。。
最尤法の直接利用
複雑なモンテカルロ計算が必要になるような場合(例: K 中 間子の寿命測定)も最尤法の直接利用が効果的
∆M=1/2 より最尤法で決めたパラメータ誤差を推定できる
しかし、最尤法の直接利用ではあてはめの良さを評価す る適当な指標(最小二乗法の χ 2 のような)がない。
参考
問題E 2014/1/6 まで
1. およそ FWHM120eV のエネルギー分解能をもつX線検出器を使って、
6keV 付近の単一エネルギーX線を測定する。 X線のエネルギーの値 を 1eV の精度 (90% 信頼限界)で決定するためには何個のX線イベント を検出すればよいか? (片多)
2. 二項分布の分散を導き、さらに、二項分布の極限としてポアソン分布が導 かれることを示せ(=自分で式をかいて復習せよ) ()
3. X 線イベント数が少なく、 20 あるいは 30counts/bin 以上にビンまとめしてカ イ二乗フィットをするのが困難な場合、最尤法に立ち返り、各ビンのカウント がポアソン分布に従うとして、尤度を記述せよ。どのような手順でスペクトル パラメータを求めればよいか方針を説明せよ。(もし余裕があれば、 xspec で cstat というのを使い結果を比較してみよ)
4. 関西地域の世帯視聴率は 600 世帯の調査をもとに算出されている。ある番 組の視聴率が 10% であったときの統計誤差を評価せよ。(二項分布はポア ソン分布で近似してよいとする) (吉永)