統計的データ解析 2013
2013.11.05
林田 清
(大阪大学大学院理学研究科)
グラフの書き方、フィッティングの練習
gnuplot
インターネットで参照できる日本語のマニュアルもあり
http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot- intro/
http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot/
qdp
Excel を利用した最小二乗フィット
サンプルのデータ
直線モデル用その1
xye.dat次のページ
直線モデル用
http://133.1.160.249/~hayasida/Class/Class2008/xsx_ysy.txt
ガウシアンモデル用
http://133.1.160.249/~hayasida/Class/Class2008/gaussian.txt
復習を兼ねて
gnuplot/ガウシアンモデルでフィットしてみよう
統計的検定 (statistical test)
x
の
10回の測定の平均値が
̅𝑥𝑥 =0.45、標準 偏差が
0.05だったとする
仮説
H:
(例)母集団の平均値
µは
0.5である
対立仮説
H’:”母集団の平均値
µは
0.5でない”
本当はこれを示したいので、Hを帰無仮説ともいう。
平均値
µ =0.5、標準偏差
σ = 0.05の母集団 から
10個の標本をサンプルした場合に、平 均値
̅𝑥𝑥が
0.05以上ずれる(
̅𝑥𝑥 ≤ 0.45あるいは
̅𝑥𝑥 ≥ 0.55
になる)確率
Pは?
P
が定められた危険率
(有意水準)
αより
小さい:仮説
Hは誤り。
Hが正しい可能性を棄て る危険性
αを伴って。
大きい:仮説Hは棄却できない。
危険率(有意水準)
=significance level例1
両側検定
0.55 0.45
Null hypotesis
統計的検定 (statistical test)
仮説
H:
(例)母集団の平均値は
0.5である
対立仮説
H’を”母集団での平均値は
0.5より小さい”と設 定することもある。
今回測定した標本が何らかの理由により、
0.5より小さな 値であることを示したいとい意図が背景にある場合。
平均値
µ =0.5、標準偏差
σ = 0.05の母集団から
10個の標本をサンプルした場合に、平均値が
̅𝑥𝑥 ≤0.45
である確率
Pは?
P
が定められた危険率
(有意水準)
αより
小さい:仮説
Hは誤り。
Hが正しい可能性を棄てる危険 性
αを伴って。
大きい:仮説は否定できない。
例
2片側検定
0.55 0.45
真の結果(不明)
𝜇𝜇 = 0.5 𝜇𝜇 < 0.5
検定 結果
H
を採択
(Hを棄却しない) 正しい判断 第
2種の過誤
H’を採択
(Hを棄却する) 第1種の過誤 正しい判断
ここで紹介している(一般に使われる)のは、第1種の過誤をお
かす危険率を考慮して、
Hを棄却するか、否かという検定。
χ
2分布
2
2 2
2 2
2 2 / 2 1 / 2 / 2
2
2 2
2
2 2
( )
0 1
( ) {( ) } / 2 ( / 2)
( )
( ) 2
i
i
x x
n
n V
e
x n
E
ν χ ν
ν
χ
χ ν χ
χ χ
χ
ν
µ χ
µ σ χ
σ
ν χ ν
− −
=
= Γ
−
= =
∑
∑
n
i=1
n
i=1
平均値 ,標準偏差 の正規分布 に従う変
自由度 の (カイ
数 の自乗和
が従う分布を自由度 の 分布と呼ぶ。 一般に自由度 の 分布は
f平均値 ,標準
期待値 分散
偏差 の正規分布に従う も自 二乗)
由度
の 分布
分
2
2 2
2 2 2
2
( )
i 1 x x
n
m l
m l σ χ
χ χ χ
χ
− −
+
∑n
i=1
布、
はしかし自由度 の 分布
分布の加算:自由度 の 分布に従う変数と自由度 の 分布に従う 変数の和は、自由度 の 分布に従う。
0 0.1 0.2 0.3 0.4 0.5
0 5 10 15
P(χ2 )
χ2
χ2distribution
dof=1 dof=2 dof=4 dof=6
カイ二乗分布の確率分布の積分 あてはめの良さの検定
Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より
•
最小二乗フィットによ りモデルパラメータを 最適化した際の
χ2値 を求める
•
上記の
χ2値(以上の 値)を得る確率を表か ら調べる。
•
確率があまりにも小さ ければ何か間違って いる。(例えばモデル が適当でない)
reduced-χ2の値の表(対応するχ2の値を超える 確率Pと自由度νの関数として表示されている)
• http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.html
に も同様の表(但し
reduced chi-squaredではなく
chi-squaredの値)が掲 載されている。
• Excel
なら
CHIDIST,CHIINVフィットのよさに関するカイ二乗検定
[
問題例
]7組の測定データ
(xi ,yi)(
i=1,..,7)で、
Xの誤 差は無視できるほど小さく、
yiの誤差は
σiとする。これを
y=ax+bの直線モデルを仮定し、
a,bをフリーパラメータと してカイ二乗フィットする。 自由度は
7-2=5。
χ2minの値 によって、どのような判断をするか?
例えば、
χ2min=15.1を得た場合
自由度
5の
χ2分布で
15.1以上の値を得る確率は
0.99%
結論例1:
“危険率
1%(以上)でこのモデルは棄却される”
結論例2:
“危険率
0.5%ではこのモデルは棄却されない”
χ2min=6.0
を得た場合
自由度
5の
χ2分布で
6.0以上の値を得る確率は
31%
結論例:
“(危険率
10%では)このモデルは棄却されない”
χ2min=0.55
を得た場合
自由度
5の
χ2分布で
0.55以下の値を得る確率は
1%