III-2-5. カイ二乗分布
正規分布は以下のように書けます。
P(𝑥) = 1
√2𝜋𝜎𝑒
この式で、 の意味は標準化で、標準正規分布を作っています。その結果、すべて標準 正規分布の確率分布で論ずることが出来るようになります。カイ二乗分布はこの標準化さ れた2乗値を一つの変数として、その確率分布を論じたものです。
𝜒 = 𝑥 − 𝜇 𝜎 この標準化した距離を𝑥とするならば
𝜒 = 𝑥
となるのだから、新しい変数 は 𝑥 (エックススクエアー)ではないかと考える人も いるでしょう。𝜒 と新たな変数として表現することによって、この二乗値を一つの変数と するということを明瞭にしているのだと思います。つまり、P(𝑥)が正規分布に従うときに P(𝜒 )はカイ二乗分布に従うということです。
普通𝜒 検定は。期待値には程遠いという検定に使われます。𝜒 の値がある値以上である 場合に、得られた値が期待値から統計的に遠いという判定をします。つまり、同じ集団か ら統計的にそんな大きな値が得られることは統計的にないと結論するのです。もっと、わ かりやすく言えば、そのような期待は間違っていると結論します。最も重要なカイ二乗分 布の性質は、再生性で、二つの変数の合計が、元の変数が従っていた分布に従うというこ とです。
X ~𝜒 , X ~𝜒 → X + X ~𝜒 それでは、𝜒 の公式を作ります。
𝜒 の意味は、自由度1の 𝜒 分布ということです。そうである場合とそうでない場合の 2つの二つの変数があるのだけれど、一つの変数はもう一方の余事象だから、全体の大き さが決まれば、変動する変数は1つだけということになるので、自由度1ということなり ます。これはそのまま正規分布を書き換えればよいのですが、
𝑃(𝑥) = 1
√2𝜋𝑒 𝑥 = 0 から𝑥 =xまでの累積確率は
𝜙(𝑥) = 1
√2𝜋𝑒 𝑑𝑥
になるのですが 𝑥 = (−𝑥) ですから、反対側にも同じ大きさの確率分布があって、それも 合わせて考えなくてはならないから. 0を中心に折り返して、重ね合わせて、さらに2乗 だから、2乗分になるように横方向に引っ張った形になります。
図18. 左右の確率の重ね合わせ 𝜙(𝑥 ) = 2 1
√2𝜋𝑒 𝑑𝑥 確率は累積確率の微分だから
𝑃(𝑥) =𝑑𝜙(𝑥) 𝑑𝑥 𝑃 𝜒 =𝑑𝜙(𝑥)
𝑑𝜒 𝜒 = 𝑥 𝑑𝜒
𝑑𝑥 = 2𝑥 = 2 𝜒 𝑃 𝜒 = 2𝑑𝜙(𝑥)
𝑑𝜒 = 2𝑑𝜙(𝑥) 𝑑𝑥
𝑑𝑥
𝑑𝜒 = 2𝑃(𝑥) 1 2 𝜒
= 1
2𝜋𝜒 𝑒
𝑃 𝜒 = 1
2𝜋𝜒 𝑒
これで、自由度1のχ 分布出来上がります。
自由度2の場合を考えます。
ある現象 𝑥 とある現象yがあって、どちらも正規分布に従う場合のことです。
𝑥~𝑁(0,1) and 𝑦~𝑁(0,1).
互いに独立なのだから、それが同時の起こる確率は掛け算になります。s.
𝑃(𝑥, 𝑦) = 𝑃(𝑥)𝑃(𝑦)
混乱しないように一つは.𝜒 、もう一つは𝜒 と書くことにして、自由度1を強調して、f 𝜒 : 、 𝜒 : と書くことになります、求める確率分布の変数は𝜒 : となります。
これを使ってP 𝜒 : を公式化します。
無限積分で書くと.
𝑃( 𝜒 : )𝑑𝜒 : = 2 𝑃( 𝜒 : )𝑃( 𝜒 : )𝑑𝜒 : 𝑑 𝜒 : = 1
となりますが、このまま右辺を積分するのは難しいので、積分方向が𝜒 : +𝜒 : と並行線 とそれに直行するベクトルの方向になるように座標軸を回転することを考えます。そのよ うな回転は、 − の回転です。これなら重積分できそうです。
図 19. 回転による座標軸の変換
つまり 𝑂 (𝑥, 𝑦), という座標系を 𝑃 (𝑟, 𝜃 )という極座標変換して回転し、その結果得られた 𝑃 (𝑟, 𝜃 )を直交座標に戻すということです。
𝑂 (𝑥, 𝑦) → 𝑃 (𝑟, 𝜃 )
𝑥 = 𝑟 cos 𝜃 y = 𝑟 sin 𝜃 𝑂 (𝑤, 𝑧) → 𝑃 (𝑟, 𝜃 )
𝑤 = 𝑟 cos 𝜃 𝑧 = 𝑟 sin 𝜃 𝜃 = 𝜃 − 𝜌
𝑤 = 𝑟 cos(𝜌 − 𝜃 ) = 𝑟(cos 𝜌 cos 𝜃 + sin 𝜌 sin 𝜃 ) = 𝑥 cos 𝜌 + 𝑦 sin 𝜌 𝑧 = 𝑟 sin(𝜌−𝜃 ) = 𝑟(sin 𝜌 cos 𝜃 − cos 𝜌 sin 𝜃 ) = 𝑦 cos 𝜌 − 𝑥 sin 𝜌 ここで 𝜌 = − ですから
sin 𝜌 = sin −𝜋
4 = − sin𝜋 4= − 1
√2
cos 𝜌 = cos −𝜋
4 = cos𝜋 4= 1
√2 𝑤 = 1
√2𝑥 − 1
√2𝑦 𝑧 = 1
√2𝑥 + 1
√2𝑦 𝑥 = 1
√2𝑤 + 1
√2𝑧 𝑦 = − 1
√2𝑤 + 1
√2𝑧 𝑑𝑥
𝑑𝑧= 1
√2, 𝑑𝑥 𝑑𝑤= 1
√2 𝑑𝑦
𝑑𝑧= 1
√2, 𝑑𝑦
𝑑𝑤= − 1
√2 無限積分を考えれば
𝑃( 𝜒 : )𝑑𝜒 : = 2 𝑃( 𝜒 : )𝑃( 𝜒 : )𝑑𝜒 : 𝑑 𝜒 : = 1
となりますが、ここでは不定積分 ∫ ∫ 𝑃( 𝜒 : )𝑃( 𝜒 : )𝑑𝜒 : 𝑑𝜒 : について考えます。
𝑃( 𝜒 : ) = 1 2𝜋𝜒 :
𝑒 :
𝑃(𝜒 : ) = 1 2𝜋𝜒 :
𝑒 :
𝑃 𝜒 : 𝑃 𝜒 : 𝑑𝜒 : 𝑑𝜒 :
= 1
2𝜋𝜒 :
𝑒 : ∙ 1
2𝜋𝜒 :
𝑒 : 𝑑𝜒 : 𝑑𝜒 :
= 1 2𝜋
1 𝜒 : 𝜒 :
𝑒 : : 𝑑𝜒 : 𝑑𝜒 :
= 1 2𝜋
1 𝜒 : 𝜒 :
𝑒 : 𝑑𝜒 : 𝑑𝜒 :
我々の「目的はzのベクトル上で0からZの範囲で積分し、それを、zで微分するという
ことです。それは、
y
= √2𝑧 − 𝑥上で、w-z平面に直交する断面の断面積を-zから+z の範囲で積分して、それをzのベクトル方向に積分すれば得られるでしょう。
図20. 𝑤 − 𝑧平面上の積分方向 変形
𝑧 = 1
√2(𝑥 + 𝑦) = 1
√2𝜒 : 𝑥 = 1
√2𝑤 + 1
√2𝑧 𝑦 = − 1
√2𝑤 + 1
√2𝑧 𝑥𝑦 =1
2(𝑧 − 𝑤 ) 𝑑𝑥
𝑑𝑧= 1
√2, 𝑑𝑦
𝑑𝑤= − 1
√2 𝑑𝑥 = 1
√2𝑑𝑧, 𝑑𝑦 = − 1
√2𝑑𝑤 𝑝(𝑥)𝑃(𝑦)𝑑𝑥𝑑𝑦 = 1
2𝜋
1
𝑥𝑦𝑒 : : 𝑑𝜒 : 𝑑𝜒 :
= 1 2𝜋
1 1
2(𝑧 − 𝑤 )
𝑒 √ 1
2𝑑𝜒 : 𝑑𝜒 : 積分領域を与えます。
D = {(𝑤, 𝑧)| − 𝑧 ≤ 𝑤 ≤ 𝑧, 0 ≤ 𝑧 ≤ ∞}
= 1 2√2𝜋
1
(𝑧 − 𝑤 )𝑒√ 𝑑𝑤𝑑𝑧
z =𝑥 + 𝑦
√2
𝒚 𝒙
𝒘 𝒛
𝑧
−𝑧 𝑧
= 1 2√2𝜋
1 𝑧 1 − 𝑤
𝑧
𝑒√ 𝑑𝑤𝑑𝑧
= 1 2√2𝜋
1
𝑧𝑒√ 1
(1 − 𝑢 )𝑑𝑢 𝑑𝑧
∵ 𝑤
𝑧 = 𝑢, 1 𝑧=𝑑𝑢
𝑑𝑤 1
(𝑧 − 𝑤 )𝑑𝑤 = 1
(1 − (𝑢) )𝑑𝑢 1
(1 − (𝑢) )𝑑𝑢 = 𝑑𝜃 = [𝜃] = 𝜋
∵ 𝑢 = sin 𝜃 , 𝑑𝑢
𝑑𝜃= cos 𝜃 (1 − (𝑢) ) = 1 − sin 𝜃 = cos 𝜃
1
(1 − (𝑢) )= 1 cos 𝜃 結論として
𝑝(𝑥)𝑃(𝑦)𝑑𝑥𝑑𝑦 = 1 2√2𝜋
1
(𝑧 − 𝑤 )𝑒√ 𝑑𝑤𝑑𝑧
= 1
2√2𝜋 𝜋𝑒√ 𝑑𝑧 = 1
2√2 𝑒√ 𝑑𝑧
= 1
2√2 𝑒 : 1
√2𝑑𝜒 : =1
4 𝑒 : 𝑑𝜒 :
=1
4 𝑒 2𝑑𝑡 = −1
2[𝑒 ] =1
2(1 − 𝑒 ) =1 2
∵ 𝑧 = 1
√2𝜒 : 𝑑𝑧
𝑑𝜒 : = 1
√2 t =𝜒 :
2 𝑑𝑡
𝑑𝜒 : =1 2 となります。これで
𝑃( 𝜒 : )𝑑𝜒 : = 1
ということは確かめられたのですが 0 から 𝜒 : までの累積確率を求めると
ϕ 𝜒 : =1
2 : 𝑒 : 𝑑𝜒 :
これを微分すれば確率が得られます。
P 𝜒 : =1 2𝑒 :
これで、P 𝜒 の公式が得られました。これを繰り返せば、どのような自由度のカイ二 乗分布を作れますが、少し時間がかかりすぎます。𝑃 𝜒 の一般的な公式を作ることをえ ます。ϕ は自由度です。自由度はすでに説明したように、余事象を考えた時に変動しうる 変数の数です。ボールがいくつかあって、ボ-ルの色が赤白2種類で、赤白のボールの和 を数が出る頻度考えるならば自由度1ですが、赤白緑のボールがあって、それぞれの色の ボールが出る頻度を考えるならば自由度2です。
ϕ = 1,の時
P 𝜒 = 1
2𝜋𝜒 𝑒
ϕ = 2 の時
P 𝜒 =1 2𝑒 ϕ = 3の時
ϕ = 2の時にやったことを繰り返します。.
𝑃( 𝜒 )𝑑𝜒 = 2 𝑃( 𝜒 )𝑃( 𝜒 )𝑑𝜒 𝑑 𝜒 = 1
About ∫ ∫ 𝑃( 𝜒 )𝑃( 𝜒 )𝑑𝜒 𝑑𝜒 ,
𝑃( 𝜒 ) = 1 2𝜋𝜒
𝑒
P 𝜒 =1 2𝑒
𝑃 𝜒 𝑃 𝜒 𝑑𝜒 𝑑𝜒
= 1
2𝜋𝜒
𝑒 ∙1
2𝑒 𝑑𝜒 𝑑𝜒
= 1 2√2𝜋
1 𝜒
𝑒 𝑑𝜒 𝑑𝜒
= 1 2√2𝜋
1 𝜒 − 𝜒
𝑒 𝑑𝜒 𝑑𝜒
∵ 𝜒 + 𝜒 = 𝜒 1 =𝑑𝜒
𝑑𝜒 ここで, 𝜒 = 𝑢𝜒 ですから
𝜒 − 𝜒 = 𝜒 (1 − 𝑢) 0 ≤ 𝑢 ≤ 1 𝑑𝜒
𝑑𝑢 = 𝜒
𝑃 𝜒 𝑃 𝜒 𝑑𝜒 𝑑𝜒
= 1 2√2𝜋
1 𝜒 (1 − 𝑢)
𝑒 𝜒 𝑑𝑢𝑑𝜒
= 1 2√2𝜋
𝜒 𝜒
1
(1 − 𝑢)𝑒 𝑑𝑢𝑑𝜒
1 2√2𝜋
𝜒 𝜒
𝑒 1
(1 − 𝑢)𝑑𝑢 𝑑𝜒
1
2√2𝜋 𝜒 𝑒 −2 (1 − 𝑢) 𝑑𝜒 1
2√2𝜋 𝜒 𝑒 −2√1 − 1 + 2√1 − 0 𝑑𝜒
= 1
√2𝜋 𝜒 𝑒 𝑑𝜒
ϕ 𝜒 = 1
√2𝜋 𝜒 𝑒 𝑑𝜒
P 𝜒 =𝑑ϕ 𝜒
𝑑𝜒 =𝑑ϕ 𝜒 𝑑𝑡
𝑑𝑡 𝑑𝜒 = 1
√2𝜋(2𝑡) 𝑒 2𝑑𝑡 =√2
√𝜋𝜒 𝑒
∵𝜒 2 = 𝑡 𝑑𝜒 = 2𝑑𝑡 P 𝜒 =√2
√𝜋𝜒 𝑒 P 𝜒 , P 𝜒 , P 𝜒 を比較します
𝑃( 𝜒 ) = 1 2𝜋𝜒
𝑒
P 𝜒 =1 2𝑒 P 𝜒 =√2
√𝜋𝜒 𝑒 一般化して書きたいので、法則を探します
P(𝜒 ) = 𝐴 𝜒 𝑒 と書けることにします。すると
P(𝜒 ) = 𝐴 𝜒 𝑒
P(𝜒 ) = 𝐴 𝜒 𝑒
P(𝜒 ) = 𝐴 𝜒 𝑒 ここで𝜒 は 0 から 𝜒 の領域で変動しまから
P 𝜒 =∫ P(𝜒 )P(𝜒 ) 𝑑𝜒
𝐴 𝜒 𝑒 = 𝐴 𝜒 𝑒 ∙ 𝐴 𝜒 𝑒 𝑑𝜒
= 𝐴 𝐴 𝜒 𝑒 ∙ 𝐴 𝜒 𝑒 𝑑𝜒
= 𝐴 𝐴 𝜒 𝑒 ∙ 𝜒 − 𝜒 𝑒 𝑑𝜒
= 𝐴 𝐴 𝜒 𝜒 − 𝜒 𝑒 𝑑𝜒
= 𝐴 𝐴 𝜒 𝜒 − 𝜒 𝑒 𝑑𝜒
= 𝐴 𝐴 𝑒 𝜒 𝜒 − 𝜒 𝑑𝜒 ここで次のような変換を考えます
𝜒 = 𝑢𝜒
d
𝜒=
𝜒du
P 𝜒 = 𝐴 𝐴 𝑒 𝑢𝜒 𝜒 − 𝑢𝜒 𝜒 𝑑𝑢
= 𝐴 𝐴 𝑒 𝑢 𝜒 𝜒 (1 − 𝑢) 𝑑𝜒 𝑢
= 𝐴 𝐴 𝑒 𝜒 𝑢 (1 − 𝑢) 𝑑𝑢
= 𝐴 𝐴 𝜒 𝑒 𝑢 (1 − 𝑢) 𝑑𝑢
P(𝜒 ) = 𝐴 𝜒 𝑒 = 𝐴 𝐴 𝜒 𝑒 𝑢 (1 − 𝑢) 𝑑𝑢
𝐴 = 𝐴 𝐴 𝑢 (1 − 𝑢) 𝑑𝑢
𝐴 = 1
√2𝜋
𝐴 = 𝐴 1
√2𝜋 𝑢 (1 − 𝑢) 𝑑𝑢
これで、P(𝜒 ) = 𝐴 𝜒 𝑒 と書けることがわかりました。しかしもっと一般的な記述
にしないと、なんだかよくわかりません。
𝜒 と nだけで書き表すということです。.
P(𝜒 )は確率でその無限定積分は1になるはずだから
P(𝜒 ) dz = 1
𝐴 𝜒 𝑒 𝑑𝜒 = 1
𝐴 = 1
∫ 𝜒 𝑒
この分母はガンマ関数と言われているものです。これを使えばもう少し簡単に書けます。
以下はガンマ関数の定義です
Γ(𝑧) = 𝑡 𝑒 𝑑𝑡 z:は複素数で複素平面上で正
式 18 Γ 関数は大数学者オイラーが考えた関数です。以下はガンマ関数の代表的な性質です.
Γ(𝑛 + 1) = 𝑛!
Γ(1) = 1 Γ 1
2 = 𝜋 Γ 1
2+ 𝑛 =(2𝑛 − 1)‼
2 √𝜋
式 19 ガンマ関数を使ってカイ二乗分布を書きます。
𝐴 = 1
∫ 𝜒 𝑒
∫ 𝜒 𝑒 d 𝜒 について
𝜒 = 2t d𝜒 = 2dt
(2𝑡) 𝑒 2dt
= 2 2𝑡 𝑒 dt
= 2 𝑡 𝑒 dt
Γ 𝑛
2 = 𝑡 𝑒 𝑑𝑡
𝐴 = 1
∫ (𝑧) 𝑒
𝐴 = 1
2 Γ 𝑛 2
𝜒 𝑒 d = 2 Γ 𝑛 2
𝐴 = 1
∫ (𝑧) 𝑒
𝐴 = 1 2 Γ 𝑛
2 P(𝜒 ) = 𝜒
2 Γ 𝑛 2
𝑒
式 20 データから実際にカイ二乗値を計算するときは.
𝜒 = (𝑓 − 𝑒 ) 𝑒 𝑓:観測値 e:期待値
式 21 分子の方はカイ二乗値の定義から十分納得できますが、分母が何故期待値なのかわかりま せん。これについて考えます。統計分析の実務としては、こんなことを考える必要はあり ませんが、統計的な確率とは何かを理解する上では、この考察は重要です。しっかり理解 してください。
期待値というのは値と確率の積の総和ですから.
E(𝑧 ) = 𝑧 𝑃(𝑧)𝑑𝑧 カイ二乗の場合は
E(𝑧 ) = 𝑧 𝑧 2 Γ 𝑛
2
𝑒 𝑑𝑧
= 1
2 Γ 𝑛 2
𝑧 𝑧 𝑒 𝑑𝑧
= 1
2 Γ 𝑛 2
𝑧 𝑒 𝑑𝑧
= 1
2 Γ 𝑛 2
(2𝑡) 𝑒 2𝑑𝑡
∵ = 𝑡、 = 2
= 1
2 Γ 𝑛 2
2 2 𝑡 𝑒 𝑑𝑡
= 1
2 Γ 𝑛 2
2 𝑡 𝑒 𝑑𝑡
= 2 2 Γ 𝑛
2
𝑡 𝑒 𝑑𝑡
ここで
E(𝑧 ) =2 Γ 𝑛 2+ 𝑘 2 Γ 𝑛
2 だから
E(𝑧 ) =2 Γ 𝑛 2 2 Γ 𝑛 2
= 1
E(𝑧 ) =2 Γ 𝑛 2+ 1 2 Γ 𝑛
2
=2Γ 𝑛 2+ 1 Γ 𝑛
2
=2𝑛 2Γ 𝑛
2 Γ 𝑛
2
= 𝑛
∵ Γ(𝑛 + 1) = 𝑛!
E(𝑧 ) =2 Γ 𝑛 2+ 2 2 Γ 𝑛
2
=2 𝑛
2+ 1 Γ 𝑛 2+ 1 2 Γ 𝑛
2
=2 𝑛
2+ 1 𝑛 2 Γ 𝑛
2 2 Γ 𝑛
2
=2 𝑛
2+ 1 𝑛 2 Γ 𝑛
2 Γ 𝑛
2
= 𝑛(𝑛 + 2) 分散を簡易計算の方法で求めると.
𝑉(𝑧) = 𝐸(𝑧 ) − 𝐸(𝑧)
= 𝑛(𝑛 + 2) − 𝑛
= 2𝑛 結論としては
μ = 𝑛 σ = 2𝑛 .μは期待値だから
𝜒 = (𝑓 − 𝑒 )
𝑒 = 2(𝑓 − 𝜇 ) σ
つまり、分母は期待値の意味は分散の2分の1なのです。だから、カニ2乗はF値と同じ ような分散比なのです。