統計的データ解析２０１３

(1)

統計的データ解析２０１３

2013.11.05

林田清

（大阪大学大学院理学研究科）

(2)

グラフの書き方、フィッティングの練習



gnuplot



インターネットで参照できる日本語のマニュアルもあり

 http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot- intro/

 http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot/



qdp



Excel を利用した最小二乗フィット



サンプルのデータ



直線モデル用その１

xye.dat

直線モデル用

http://133.1.160.249/~hayasida/Class/Class2008/xsx_ysy.txt



ガウシアンモデル用

http://133.1.160.249/~hayasida/Class/Class2008/gaussian.txt

復習を兼ねて

gnuplot/

ガウシアンモデルでフィットしてみよう

(3)

統計的検定 (statistical test)

 x

の

10

回の測定の平均値が

̅𝑥𝑥 =0.45

、標準偏差が

0.05

だったとする



仮説

H

：

(

例）母集団の平均値

µ

は

0.5

である



対立仮説

H’

：”母集団の平均値

µ

^は

^0.5

^でない”



本当はこれを示したいので、Hを帰無仮説ともいう。



平均値

µ =0.5

、標準偏差

σ = 0.05

の母集団から

10

個の標本をサンプルした場合に、平均値

̅𝑥𝑥

が

0.05

以上ずれる（

̅𝑥𝑥 ≤ 0.45

あるいは

̅𝑥𝑥 ≥ 0.55

になる）確率

P

は？

 P

が定められた危険率

(

有意水準）

α

より



小さい：仮説

H

は誤り。

H

が正しい可能性を棄てる危険性

α

を伴って。



大きい：仮説Hは棄却できない。

危険率（有意水準）

=significance level

例１

両側検定

0.55 0.45

Null hypotesis

(4)

統計的検定 (statistical test)



仮説

H

：

(

例）母集団の平均値は

0.5

である



対立仮説

H’

を”母集団での平均値は

0.5

より小さい”と設定することもある。



今回測定した標本が何らかの理由により、

0.5

より小さな値であることを示したいとい意図が背景にある場合。



平均値

µ =0.5

、標準偏差

σ = 0.05

の母集団から

10

個の標本をサンプルした場合に、平均値が

̅𝑥𝑥 ≤

0.45

である確率

P

は？

 P

が定められた危険率

(

有意水準）

α

より



小さい：仮説

H

は誤り。

H

が正しい可能性を棄てる危険性

α

を伴って。



大きい：仮説は否定できない。

例

2

片側検定

0.55 0.45

真の結果（不明）

𝜇𝜇 = 0.5 𝜇𝜇 < 0.5

検定結果

H

を採択

(H

を棄却しない）正しい判断第

2

種の過誤

H’

を採択

(H

を棄却する）第１種の過誤正しい判断

ここで紹介している（一般に使われる）のは、第１種の過誤をお

かす危険率を考慮して、

H

を棄却するか、否かという検定。

(5)

χ

²

分布

2

2 2

2 2 / 2 1 / 2 / 2

2

2 2

2

2 2

( )

0 1

( ) {( ) } / 2 ( / 2)

( )

( ) 2

i

x x

n

n V

e

x n

E

ν χ ν

ν

χ

χ ν χ

χ χ

χ

ν

µ χ

µ σ χ

σ

ν χ ν

− −

=

= Γ

−

= =

∑

n

i=1

n

i=1

平均値 ,標準偏差の正規分布に従う変

自由度の（カイ

数の自乗和　

が従う分布を自由度の分布と呼ぶ。　一般に自由度の分布は

f

平均値 ,標準

期待値　分散　

偏差の正規分布に従う　も自二乗）

由度　

の分布

分

2

2 2

2 2 2

2

( )

i 1 x x

n

m l

m l σ χ

χ χ χ

χ

− −

+

∑ⁿ

i=1

布、　

はしかし自由度の分布

分布の加算：自由度の分布に従う変数と自由度の分布に従う変数の和は、自由度の分布に従う。

0 0.1 0.2 0.3 0.4 0.5

0 5 10 15

P(χ2 )

χ²

χ²distribution

dof=1 dof=2 dof=4 dof=6

(6)

カイ二乗分布の確率分布の積分あてはめの良さの検定

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

•

最小二乗フィットによりモデルパラメータを最適化した際の

χ2

値を求める

•

上記の

χ2

値（以上の値）を得る確率を表から調べる。

•

確率があまりにも小さければ何か間違っている。（例えばモデルが適当でない）

ｒeduced-χ²の値の表（対応するχ²の値を超える確率Pと自由度νの関数として表示されている）

(7)

• http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.html

にも同様の表（但し

reduced chi-squared

ではなく

chi-squared

の値）が掲載されている。

• Excel

なら

CHIDIST,CHIINV

(8)

フィットのよさに関するカイ二乗検定

 [

問題例

]

７組の測定データ

(x_i ,y_i)

（

i=1,..,7

）で、

X

の誤差は無視できるほど小さく、

y_i

の誤差は

σ_i

とする。これを

y=ax+b

の直線モデルを仮定し、

a,b

をフリーパラメータとしてカイ二乗フィットする。自由度は

7-2=5

。

χ²_min

の値によって、どのような判断をするか？



例えば、

χ²_min=15.1

を得た場合



自由度

5

の

χ²

分布で

15.1

以上の値を得る確率は

0.99%



結論例１：

“

危険率

1%

（以上）でこのモデルは棄却される”



結論例２：

“

危険率

0.5%

ではこのモデルは棄却されない”

 χ²_min=6.0

を得た場合



自由度

5

の

χ²

分布で

6.0

以上の値を得る確率は

31%



結論例：

“

（危険率

10%

では）このモデルは棄却されない”

 χ²_min=0.55

を得た場合



自由度

5

の

χ²

分布で

0.55

以下の値を得る確率は

1%



結論例

: “χ²_min

の値が小さすぎる（と危険率

1%

統計的データ解析 ２０１３