III-2-5.カイ二乗分布

(1)

III-2-5. カイ二乗分布

正規分布は以下のように書けます。

P(𝑥) = 1

√2𝜋𝜎𝑒

この式で、の意味は標準化で、標準正規分布を作っています。その結果、すべて標準正規分布の確率分布で論ずることが出来るようになります。カイ二乗分布はこの標準化された2乗値を一つの変数として、その確率分布を論じたものです。

𝜒 = 𝑥 − 𝜇 𝜎 この標準化した距離を𝑥とするならば

𝜒 = 𝑥

となるのだから、新しい変数は 𝑥 (エックススクエアー)ではないかと考える人もいるでしょう。𝜒 と新たな変数として表現することによって、この二乗値を一つの変数とするということを明瞭にしているのだと思います。つまり、P(𝑥)が正規分布に従うときに P(𝜒 )はカイ二乗分布に従うということです。

普通𝜒 検定は。期待値には程遠いという検定に使われます。𝜒 の値がある値以上である場合に、得られた値が期待値から統計的に遠いという判定をします。つまり、同じ集団から統計的にそんな大きな値が得られることは統計的にないと結論するのです。もっと、わかりやすく言えば、そのような期待は間違っていると結論します。最も重要なカイ二乗分布の性質は、再生性で、二つの変数の合計が、元の変数が従っていた分布に従うということです。

X ~𝜒 , X ~𝜒 → X + X ~𝜒 それでは、𝜒 の公式を作ります。

𝜒 の意味は、自由度１の 𝜒 分布ということです。そうである場合とそうでない場合の２つの二つの変数があるのだけれど、一つの変数はもう一方の余事象だから、全体の大きさが決まれば、変動する変数は１つだけということになるので、自由度１ということなります。これはそのまま正規分布を書き換えればよいのですが、

𝑃(𝑥) = 1

√2𝜋𝑒 𝑥 = 0 から𝑥 =xまでの累積確率は

𝜙(𝑥) = 1

√2𝜋𝑒 𝑑𝑥

になるのですが 𝑥 = (−𝑥) ですから、反対側にも同じ大きさの確率分布があって、それも合わせて考えなくてはならないから. ０を中心に折り返して、重ね合わせて、さらに２乗だから、２乗分になるように横方向に引っ張った形になります。

(2)

図18. 左右の確率の重ね合わせ 𝜙(𝑥 ) = 2 1

√2𝜋𝑒 𝑑𝑥 確率は累積確率の微分だから

𝑃(𝑥) =𝑑𝜙(𝑥) 𝑑𝑥 𝑃 𝜒 =𝑑𝜙(𝑥)

𝑑𝜒 𝜒 = 𝑥 𝑑𝜒

𝑑𝑥 = 2𝑥 = 2 𝜒 𝑃 𝜒 = 2𝑑𝜙(𝑥)

𝑑𝜒 = 2𝑑𝜙(𝑥) 𝑑𝑥

𝑑𝑥

𝑑𝜒 = 2𝑃(𝑥) 1 2 𝜒

= 1

2𝜋𝜒 𝑒

𝑃 𝜒 = 1

2𝜋𝜒 𝑒

これで、自由度１のχ 分布出来上がります。

自由度２の場合を考えます。

ある現象 𝑥 とある現象ｙがあって、どちらも正規分布に従う場合のことです。

𝑥~𝑁(0,1) and 𝑦~𝑁(0,1).

互いに独立なのだから、それが同時の起こる確率は掛け算になります。s.

𝑃(𝑥, 𝑦) = 𝑃(𝑥)𝑃(𝑦)

混乱しないように一つは.𝜒 、もう一つは𝜒 と書くことにして、自由度１を強調して、f 𝜒 _: 、 𝜒 _: と書くことになります、求める確率分布の変数は𝜒 _: となります。

これを使ってP 𝜒 _: を公式化します。

(3)

無限積分で書くと.

𝑃( 𝜒 _: )𝑑𝜒 _: = 2 𝑃( 𝜒 _: )𝑃( 𝜒 _: )𝑑𝜒 _: 𝑑 𝜒 _: = 1

となりますが、このまま右辺を積分するのは難しいので、積分方向が𝜒 _: ＋𝜒 _: と並行線とそれに直行するベクトルの方向になるように座標軸を回転することを考えます。そのような回転は、 − の回転です。これなら重積分できそうです。

図 19. 回転による座標軸の変換

つまり 𝑂 (𝑥, 𝑦), という座標系を 𝑃 (𝑟, 𝜃 )という極座標変換して回転し、その結果得られた 𝑃 (𝑟, 𝜃 )を直交座標に戻すということです。

𝑂 (𝑥, 𝑦) → 𝑃 (𝑟, 𝜃 )

𝑥 = 𝑟 cos 𝜃 y = 𝑟 sin 𝜃 𝑂 (𝑤, 𝑧) → 𝑃 (𝑟, 𝜃 )

𝑤 = 𝑟 cos 𝜃 𝑧 = 𝑟 sin 𝜃 𝜃 = 𝜃 − 𝜌

𝑤 = 𝑟 cos(𝜌 − 𝜃 ) = 𝑟(cos 𝜌 cos 𝜃 + sin 𝜌 sin 𝜃 ) = 𝑥 cos 𝜌 + 𝑦 sin 𝜌 𝑧 = 𝑟 sin(𝜌−𝜃 ) = 𝑟(sin 𝜌 cos 𝜃 − cos 𝜌 sin 𝜃 ) = 𝑦 cos 𝜌 − 𝑥 sin 𝜌 ここで 𝜌 = − ですから

sin 𝜌 = sin −𝜋

4 = − sin𝜋 4= − 1

√2

(4)

cos 𝜌 = cos −𝜋

4 = cos𝜋 4= 1

√2 𝑤 = 1

√2𝑥 − 1

√2𝑦 𝑧 = 1

√2𝑥 + 1

√2𝑦 𝑥 = 1

√2𝑤 + 1

√2𝑧 𝑦 = − 1

√2𝑤 + 1

√2𝑧 𝑑𝑥

𝑑𝑧= 1

√2, 𝑑𝑥 𝑑𝑤= 1

√2 𝑑𝑦

𝑑𝑧= 1

√2, 𝑑𝑦

𝑑𝑤= − 1

√2 無限積分を考えれば

𝑃( 𝜒 _: )𝑑𝜒 _: = 2 𝑃( 𝜒 _: )𝑃( 𝜒 _: )𝑑𝜒 _: 𝑑 𝜒 _: = 1

となりますが、ここでは不定積分 ∫ ∫ 𝑃( 𝜒 _: )𝑃( 𝜒 _: )𝑑𝜒 _: 𝑑𝜒 _: について考えます。

𝑃( 𝜒 _: ) = 1 2𝜋𝜒 _:

𝑒 ^:

𝑃(𝜒 _: ) = 1 2𝜋𝜒 _:

𝑒 ^:

𝑃 𝜒 _: 𝑃 𝜒 _: 𝑑𝜒 _: 𝑑𝜒 _:

= 1

2𝜋𝜒 _:

𝑒 ^: ∙ 1

2𝜋𝜒 _:

𝑒 ^: 𝑑𝜒 _: 𝑑𝜒 _:

= 1 2𝜋

1 𝜒 _: 𝜒 _:

𝑒 ^: ^: 𝑑𝜒 _: 𝑑𝜒 _:

= 1 2𝜋

1 𝜒 _: 𝜒 _:

𝑒 ^: 𝑑𝜒 _: 𝑑𝜒 _:

我々の「目的はzのベクトル上で０からZの範囲で積分し、それを、ｚで微分するという

(5)

ことです。それは、

ｙ

= √2𝑧 − 𝑥上で、w－z平面に直交する断面の断面積を－ｚから＋ｚの範囲で積分して、それをｚのベクトル方向に積分すれば得られるでしょう。

図20. 𝑤 − 𝑧平面上の積分方向変形

𝑧 = 1

√2(𝑥 + 𝑦) = 1

√2𝜒 _: 𝑥 = 1

√2𝑤 + 1

√2𝑧 𝑦 = − 1

√2𝑤 + 1

√2𝑧 𝑥𝑦 =1

2(𝑧 − 𝑤 ) 𝑑𝑥

𝑑𝑧= 1

√2, 𝑑𝑦

𝑑𝑤= − 1

√2 𝑑𝑥 = 1

√2𝑑𝑧, 𝑑𝑦 = − 1

√2𝑑𝑤 𝑝(𝑥)𝑃(𝑦)𝑑𝑥𝑑𝑦 = 1

2𝜋

1

𝑥𝑦𝑒 ^: ^: 𝑑𝜒 _: 𝑑𝜒 _:

= 1 2𝜋

1 1

2(𝑧 − 𝑤 )

𝑒 ^√ 1

2𝑑𝜒 _: 𝑑𝜒 _: 積分領域を与えます。

D = {(𝑤, 𝑧)| − 𝑧 ≤ 𝑤 ≤ 𝑧, 0 ≤ 𝑧 ≤ ∞}

= 1 2√2𝜋

1

(𝑧 − 𝑤 )𝑒^√ 𝑑𝑤𝑑𝑧

z =𝑥 + 𝑦

√2

𝒚 𝒙

𝒘 𝒛

𝑧

−𝑧 𝑧

(6)

= 1 2√2𝜋

1 𝑧 1 − 𝑤

𝑧

𝑒^√ 𝑑𝑤𝑑𝑧

= 1 2√2𝜋

1

𝑧𝑒^√ 1

(1 − 𝑢 )𝑑𝑢 𝑑𝑧

∵ 𝑤

𝑧 = 𝑢, 1 𝑧=𝑑𝑢

𝑑𝑤 1

(𝑧 − 𝑤 )𝑑𝑤 = 1

(1 − (𝑢) )𝑑𝑢 1

(1 − (𝑢) )𝑑𝑢 = 𝑑𝜃 = [𝜃] = 𝜋

∵ 𝑢 = sin 𝜃 , 𝑑𝑢

𝑑𝜃= cos 𝜃 (1 − (𝑢) ) = 1 − sin 𝜃 = cos 𝜃

1

(1 − (𝑢) )= 1 cos 𝜃 結論として

𝑝(𝑥)𝑃(𝑦)𝑑𝑥𝑑𝑦 = 1 2√2𝜋

1

(𝑧 − 𝑤 )𝑒^√ 𝑑𝑤𝑑𝑧

= 1

2√2𝜋 𝜋𝑒^√ 𝑑𝑧 = 1

2√2 𝑒^√ 𝑑𝑧

= 1

2√2 𝑒 ^: 1

√2𝑑𝜒 _: =1

4 𝑒 ^: 𝑑𝜒 _:

=1

4 𝑒 2𝑑𝑡 = −1

2[𝑒 ] =1

2(1 − 𝑒 ) =1 2

∵ 𝑧 = 1

√2𝜒 _: 𝑑𝑧

𝑑𝜒 _: = 1

√2 t =𝜒 _:

2 𝑑𝑡

𝑑𝜒 _: =1 2 となります。これで

𝑃( 𝜒 _: )𝑑𝜒 _: = 1

(7)

ということは確かめられたのですが 0 から 𝜒 _: までの累積確率を求めると

ϕ 𝜒 _: =1

2 ^: 𝑒 ^: 𝑑𝜒 _:

これを微分すれば確率が得られます。

P 𝜒 _: =1 2𝑒 ^:

これで、P 𝜒 の公式が得られました。これを繰り返せば、どのような自由度のカイ二乗分布を作れますが、少し時間がかかりすぎます。𝑃 𝜒 の一般的な公式を作ることをえます。ϕ は自由度です。自由度はすでに説明したように、余事象を考えた時に変動しうる変数の数です。ボールがいくつかあって、ボ－ルの色が赤白２種類で、赤白のボールの和を数が出る頻度考えるならば自由度１ですが、赤白緑のボールがあって、それぞれの色のボールが出る頻度を考えるならば自由度２です。

ϕ = 1,の時

P 𝜒 = 1

2𝜋𝜒 𝑒

ϕ = 2 の時

P 𝜒 =1 2𝑒 ϕ = 3の時

ϕ = 2の時にやったことを繰り返します。.

𝑃( 𝜒 )𝑑𝜒 = 2 𝑃( 𝜒 )𝑃( 𝜒 )𝑑𝜒 𝑑 𝜒 = 1

About ∫ ∫ 𝑃( 𝜒 )𝑃( 𝜒 )𝑑𝜒 𝑑𝜒 ,

𝑃( 𝜒 ) = 1 2𝜋𝜒

𝑒

P 𝜒 =1 2𝑒

𝑃 𝜒 𝑃 𝜒 𝑑𝜒 𝑑𝜒

= 1

2𝜋𝜒

𝑒 ∙1

2𝑒 𝑑𝜒 𝑑𝜒

(8)

= 1 2√2𝜋

1 𝜒

𝑒 𝑑𝜒 𝑑𝜒

= 1 2√2𝜋

1 𝜒 − 𝜒

𝑒 𝑑𝜒 𝑑𝜒

∵ 𝜒 + 𝜒 = 𝜒 1 =𝑑𝜒

𝑑𝜒 ここで, 𝜒 = 𝑢𝜒 ですから

𝜒 − 𝜒 = 𝜒 (1 − 𝑢) 0 ≤ 𝑢 ≤ 1 𝑑𝜒

𝑑𝑢 = 𝜒

𝑃 𝜒 𝑃 𝜒 𝑑𝜒 𝑑𝜒

= 1 2√2𝜋

1 𝜒 (1 − 𝑢)

𝑒 𝜒 𝑑𝑢𝑑𝜒

= 1 2√2𝜋

𝜒 𝜒

1

(1 − 𝑢)𝑒 𝑑𝑢𝑑𝜒

1 2√2𝜋

𝜒 𝜒

𝑒 1

(1 − 𝑢)𝑑𝑢 𝑑𝜒

1

2√2𝜋 𝜒 𝑒 −2 (1 − 𝑢) 𝑑𝜒 1

2√2𝜋 𝜒 𝑒 −2√1 − 1 + 2√1 − 0 𝑑𝜒

= 1

√2𝜋 𝜒 𝑒 𝑑𝜒

ϕ 𝜒 = 1

√2𝜋 𝜒 𝑒 𝑑𝜒

P 𝜒 =𝑑ϕ 𝜒

𝑑𝜒 =𝑑ϕ 𝜒 𝑑𝑡

𝑑𝑡 𝑑𝜒 = 1

√2𝜋(2𝑡) 𝑒 2𝑑𝑡 =√2

√𝜋𝜒 𝑒

(9)

∵𝜒 2 = 𝑡 𝑑𝜒 = 2𝑑𝑡 P 𝜒 =√2

√𝜋𝜒 𝑒 P 𝜒 , P 𝜒 , P 𝜒 を比較します

𝑃( 𝜒 ) = 1 2𝜋𝜒

𝑒

P 𝜒 =1 2𝑒 P 𝜒 =√2

√𝜋𝜒 𝑒 一般化して書きたいので、法則を探します

P(𝜒 ) = 𝐴 𝜒 𝑒 と書けることにします。すると

P(𝜒 ) = 𝐴 𝜒 𝑒

P(𝜒 ) = 𝐴 𝜒 𝑒 ここで𝜒 は 0 から 𝜒 の領域で変動しまから

P 𝜒 =∫ P(𝜒 )P(𝜒 ) 𝑑𝜒

𝐴 𝜒 𝑒 = 𝐴 𝜒 𝑒 ∙ 𝐴 𝜒 𝑒 𝑑𝜒

= 𝐴 𝐴 𝜒 𝑒 ∙ 𝐴 𝜒 𝑒 𝑑𝜒

= 𝐴 𝐴 𝜒 𝑒 ∙ 𝜒 − 𝜒 𝑒 𝑑𝜒

= 𝐴 𝐴 𝜒 𝜒 − 𝜒 𝑒 𝑑𝜒

(10)

= 𝐴 𝐴 𝑒 𝜒 𝜒 − 𝜒 𝑑𝜒 ここで次のような変換を考えます

𝜒 = 𝑢𝜒

d

𝜒

=

𝜒

du

P 𝜒 = 𝐴 𝐴 𝑒 𝑢𝜒 𝜒 − 𝑢𝜒 𝜒 𝑑𝑢

= 𝐴 𝐴 𝑒 𝑢 𝜒 𝜒 (1 − 𝑢) 𝑑𝜒 𝑢

= 𝐴 𝐴 𝑒 𝜒 𝑢 (1 − 𝑢) 𝑑𝑢

= 𝐴 𝐴 𝜒 𝑒 𝑢 (1 − 𝑢) 𝑑𝑢

P(𝜒 ) = 𝐴 𝜒 𝑒 = 𝐴 𝐴 𝜒 𝑒 𝑢 (1 − 𝑢) 𝑑𝑢

𝐴 = 𝐴 𝐴 𝑢 (1 − 𝑢) 𝑑𝑢

𝐴 = 1

√2𝜋

𝐴 = 𝐴 1

√2𝜋 𝑢 (1 − 𝑢) 𝑑𝑢

これで、P(𝜒 ) = 𝐴 𝜒 𝑒 と書けることがわかりました。しかしもっと一般的な記述

にしないと、なんだかよくわかりません。

𝜒 と nだけで書き表すということです。.

P(𝜒 )は確率でその無限定積分は1になるはずだから

P(𝜒 ) dz = 1

𝐴 𝜒 𝑒 𝑑𝜒 = 1

𝐴 = 1

∫ 𝜒 𝑒

この分母はガンマ関数と言われているものです。これを使えばもう少し簡単に書けます。

以下はガンマ関数の定義です

(11)

Γ(𝑧) = 𝑡 𝑒 𝑑𝑡 z:は複素数で複素平面上で正

式 18 Γ 関数は大数学者オイラーが考えた関数です。以下はガンマ関数の代表的な性質です.

Γ(𝑛 + 1) = 𝑛!

Γ(1) = 1 Γ 1

2 = 𝜋 Γ 1

2+ 𝑛 =(2𝑛 − 1)‼

2 √𝜋

式 19 ガンマ関数を使ってカイ二乗分布を書きます。

𝐴 = 1

∫ 𝜒 𝑒

∫ 𝜒 𝑒 d 𝜒 について

𝜒 = 2t d𝜒 = 2dt

(2𝑡) 𝑒 2dt

= 2 2𝑡 𝑒 dt

= 2 𝑡 𝑒 dt

Γ 𝑛

2 = 𝑡 𝑒 𝑑𝑡

𝐴 = 1

∫ (𝑧) 𝑒

𝐴 = 1

2 Γ 𝑛 2

𝜒 𝑒 d = 2 Γ 𝑛 2

𝐴 = 1

∫ (𝑧) 𝑒

(12)

𝐴 = 1 2 Γ 𝑛

2 P(𝜒 ) = 𝜒

2 Γ 𝑛 2

𝑒

式 20 データから実際にカイ二乗値を計算するときは.

𝜒 = (𝑓 − 𝑒 ) 𝑒 𝑓:観測値 e:期待値

式 21 分子の方はカイ二乗値の定義から十分納得できますが、分母が何故期待値なのかわかりません。これについて考えます。統計分析の実務としては、こんなことを考える必要はありませんが、統計的な確率とは何かを理解する上では、この考察は重要です。しっかり理解してください。

期待値というのは値と確率の積の総和ですから.

E(𝑧 ) = 𝑧 𝑃(𝑧)𝑑𝑧 カイ二乗の場合は

E(𝑧 ) = 𝑧 𝑧 2 Γ 𝑛

2

𝑒 𝑑𝑧

= 1

2 Γ 𝑛 2

𝑧 𝑧 𝑒 𝑑𝑧

= 1

2 Γ 𝑛 2

𝑧 𝑒 𝑑𝑧

= 1

2 Γ 𝑛 2

(2𝑡) 𝑒 2𝑑𝑡

∵ = 𝑡、 = 2

= 1

2 Γ 𝑛 2

2 2 𝑡 𝑒 𝑑𝑡

= 1

2 Γ 𝑛 2

2 𝑡 𝑒 𝑑𝑡

(13)

= 2 2 Γ 𝑛

2

𝑡 𝑒 𝑑𝑡

ここで

E(𝑧 ) =2 Γ 𝑛 2+ 𝑘 2 Γ 𝑛

2 だから

E(𝑧 ) =2 Γ 𝑛 2 2 Γ 𝑛 2

= 1

E(𝑧 ) =2 Γ 𝑛 2+ 1 2 Γ 𝑛

2

=2Γ 𝑛 2+ 1 Γ 𝑛

2

=2𝑛 2Γ 𝑛

2 Γ 𝑛

2

= 𝑛

∵ Γ(𝑛 + 1) = 𝑛!

E(𝑧 ) =2 Γ 𝑛 2+ 2 2 Γ 𝑛

2

=2 𝑛

2+ 1 Γ 𝑛 2+ 1 2 Γ 𝑛

2

=2 𝑛

2+ 1 𝑛 2 Γ 𝑛

2 2 Γ 𝑛

2

=2 𝑛

2+ 1 𝑛 2 Γ 𝑛

2 Γ 𝑛

2

= 𝑛(𝑛 + 2) 分散を簡易計算の方法で求めると.

𝑉(𝑧) = 𝐸(𝑧 ) − 𝐸(𝑧)

(14)

= 𝑛(𝑛 + 2) − 𝑛

= 2𝑛 結論としては

μ = 𝑛 σ = 2𝑛 .μは期待値だから

𝜒 = (𝑓 − 𝑒 )

𝑒 = 2(𝑓 − 𝜇 ) σ

つまり、分母は期待値の意味は分散の２分の１なのです。だから、カニ２乗はF値と同じような分散比なのです。