t χ 2 F Q t χ 2 F 1 2 µ, σ 2 N(µ, σ 2 ) f(x µ, σ 2 ) = 1 ( exp (x ) µ)2 2πσ 2 2σ 2 0, N(0, 1) (100 α) z(α) t χ 2 *1 2.1 t (i)x N(µ, σ 2 ) x µ σ N(0, 1

(1)

正規分布・

t

分布・

χ

2 分布・

F

分布とは何か？

分散分析第１回講義：資料１

土居正明

Q統計の勉強をしていると、t分布・χ2分布・F分布などと、色々分布が出てきます。互いにつながりがあるという話を聞いたことがあるのですが、どういう風につながっているのですか。

1 はじめに

本稿では、基本的に具体例は医薬の話を持ってきます。その際に「別々の人から取ったデータは独立」という点は、特に断らなくても常に成り立つものと仮定します。

2 正規分布とは

正規分布は、データのばらつき・誤差のばらつきをモデル化するためによく用いられる分布です。平均µ,分散σ2の正規分布N (µ, σ2)の確率密度関数は、 f (x|µ, σ2) = √ 1 2πσ2exp ( −(x− µ)2 2σ2 ) で表されます。特に、平均0,分散１の正規分布N (0, 1)のことを「標準正規分布」と言います。また、標準正規分布の下側 (100· α)％点をz(α)と書きます。ここで、注意していただきたいことは、分布というものが「最初からある」と考えるのではなく、「何かを（ここではたとえば誤差を）調べた結果、出てきた」と考えるのが重要だということです。以下の内容は、たとえば「最初からt分布というものがある。χ2_{分布というものがある」などという風に考えると分かりにくくなってしまいますのでご注意ください}*1_。

2.1 正規分布の重要な性質

t分布の説明に入る前に、正規分布の重要な性質を３つだけ整理しておきます。 (i)x∼N (µ, σ2₎_のとき、x_√−µ σ2∼N (0, 1)である。 (ii)x1,· · · , xnが独立にN (µ, σ2)に従うとき、¯x = x1+···+x_n n∼N (µ,σ 2 n)である。 (iii) (i),(ii)より、z = √x¯−µ σ2 n ∼N (0, 1)である。ここでは正規分布をN (0, 1)に帰着させることにこだわっています。これには理論的な要請もあったでしょうが、現実的な利益もあったと思われます。というのは、昔正規分布のパーセント点(上側95％点、97.5％点など）を数表で見て調べていた頃に、例えばN (10, 2), N (9, 4)など色々なデータのパーセント点を知りたかったとします。このときに別々の数表を見るのではなく、全ての正規分布をN (0, 1)に結び付けることができれば、数表が１つですむことになり、大変便利です。。 *1_{ただ、歴史的には正規分布は理論的に導かれたものだそうです。1733 年、de Moivre が導出したそうですが、あまり詳しく知らないので 100 ％は} 信頼しないでください。また、ご存知の方がいらっしゃれば教えてください。

(2)

さて、本稿の主役は上の(iii)、もう一度書きますとx1,· · · xn∼N (µ, σ2)に独立に従うときに、 z = x¯√− µ σ2 n ∼N (0, 1) (1) です。この(1)をしっかり押さえて、先に進んでください

3 t

分布はどのようにして生まれたか

まずt分布などなかった時代から話を始めます。t分布を「発見」したのは、Student(本名Gosset:1876-1937)ですが、彼がどのように「発見」したのかを後追いしてみることにしましょう。以下の問題を考えます。「問題１」１クラス４０人の収縮期血圧(x1,· · · , x40とする)の平均が120であるかどうかを検定（両側5％)によって判断してください。（考え方）とりあえず、最初にヒストグラムを描いて「正規分布に従っている」ことが大体確認できたとします*2_。次に、_{「平均」な} のでx =¯ x1+···+x40 40 を考えます。2.1(ii)より、仮に平均が120だったとすると、x¯はN (120, σ2 40)に従うことになります。したがって、2.1(iii)よりz = x¯√−120 σ2 40 ∼N (0, 1)となるので、これより正規分布に従った検定ができそうな気がします。ところが、ここで困るのです。なぜならσ2_{の値が分からないからです。そこで代替案として、「}_σ2_{の値を推定値で置き} 換える」という方法を考えます。σ2_{の推定値は、以下のようにして求めます。} c σ2₌ 1 40− 1 40 ∑ i=1 (xi− ¯x)2 この値をzにあてはめると、 z0= x¯√− 120 c σ2 40 (2) はきちんと求まります。さて、ここで質問です。このz0は正規分布N (0, 1)に従うでしょうか？正解は「従わない」です。もう少し詳しく言いますと、「いい線いっているけれど、厳密には従わない」です。なぜなら、推定値σˆ2_は_σ2_{そのものではないからです。別のもので置き換えているので、分布が変わってくるのは当たり前なのです。} ですけれど、「いい線」はいっているのです。つまり「推定精度が上りさえすれば、かなり正規分布に近くなる」のです。では、推定精度を上げるにはどうしたらいいでしょうか？簡単ですね。データの数を増やせばいいのです。つまり、(2)は「データの数が十分に大きければ（近似的に）正規分布に従っているとみなせるが、データがそれほど大きくないときには正規分布から外れてくる」ということになります。そこで、Gossetは考えました（彼が考えたのは多分ビールの酵母とかの話ですけれど）、「じゃあ、(2)の従う分布は厳密にはどうなっているのだろう？」と。そのようにして「発見」されたのがt分布なのです。ここで、「分布を調べる」という行為は、直感的には分かりづらいと思いますので少しご説明します。直感的には、「x1,· · · , x40を乱数で発生させてz0を求める」ということを100万回繰り返します。そして、100万個のz0のヒストグラムを描いてみます。そのときのヒストグラムを式で表したものが「確率密度関数」と呼ばれるもので、(2)の従う分布となります。この「確率密度関数」の式を、正確には式の計算のみで導くことになります。さて、一般的な教科書などでは「(2)はt分布という分布に従う」、という、さも「t分布というものが最初からあって、 (2)が偶然それに当てはまっている」かのような書き方をしているものが多いように見受けられます。しかし、そうではな *2_{例数が十分に大きい場合は、中心極限定理から「とりあえず t 検定でよい」ことが広く言えるのですが、データを見たらまずプロットしておく習慣} をつけておくことは重要です。

(3)

くて、これがt分布発見の経緯なのです。このような問題を彼が考えなければ、そもそもt分布などというものは存在しなかった、ということです。ですから、「どうして(2)がt分布に従うのですか？」という質問には、「だってそれにt分布と名前をつけたから」という答えが正解となります（厳密な数式の意味での質問の場合を除いてですが）。さて、データの数が増えると正規分布に近づく、ということから明らかのように、 t分布の分布形は「データの数」に影響を受けます。正規分布とt分布の違いは、「σ2を真の値にするか推定値にするか」だけであり、データが増えることでσ2の推定精度がよくなるためです。そのσ2の推定精度を示す指標が「自由度」と言われるもので、１群のt検定の場合は「(データ数)− 1」と一致します*3_{。つまり、今回は自由度}₃₉_の_t_{分布に従う、というこ} とになります。そして「自由度∞*4_の_t_分布は_{N (0, 1)}_{」となります。} まとめます((2)のz0は一般には「t」と書かれるので、下ではtと書くことにします)。「t分布」 n個のデータx1,· · · , xnが独立にN (µ, σ2)に従うとき、 t = x¯√− µ c σ2 n ( ここで、x =¯ 1 n n ∑ i=1 xi, cσ2= 1 n− 1 n ∑ i=1 (xi− ¯x)2 ) の従う分布のことを、自由度(n− 1)のt分布と名付け、t(n− 1)と書きます。また、t(n− 1)の下側(100· α)％点を t(n− 1, α)と書くことにします。考えていることは正規分布の場合(1)と同じことなのですが、σ2_{が分からないから仕方なく上の}_t_{を使っている、とい} う感じが分かっていただければよいと思います。

4 χ

2

分布とはどういう分布か

4.1 定義と基本的な性質

以下の問題を考えます。「問題２」 n個の独立なデータx1,· · · , xnが「全て一斉にN (0, 1)に従っているかどうか検定するにはどうすればよいでしょうか？ (考え方) １つ１つ、正規分布の検定をしていけばよさそうに思えるのですが、そうすると「検定の多重性（今回はご説明しません）」の問題というやっかいなことが出てきてしまいます。そこで「1個の統計量で、1回で検定したい」という風に考えます。そのとき、 χ2= x21+· · · + x2n (3) の従う分布を考えるとうまくいきます*5_{。そこで、}_t_{分布と同じように、}_{「この統計量}₍₃₎_{の従う分布を調べる」ということ} をします。このようにして考えられたχ2_が_x 1,· · · , xn∼N (0, 1)（すべて独立）のときに従う分布のことを「自由度nの χ2_{分布」と呼んでいるわけです。当然これもデータの数に影響を受けますが、自由度は２乗する標準正規分布の数と等し} くなります。自由度nのχ2_分布を_χ2_(n)_{で、その下側}₍₁₀₀_{· α)}_{％点を}_χ2_{(n, α)}_{とおきます。} 特殊な例として、自由度1のχ2_{分布を考えてみましょう。このとき}_χ2_{= x}2 1となりますので、 (標準正規分布N (0, 1)の統計量)2= (自由度１のχ2分布の統計量) となります。 *3_{この部分をきちんと理解するには、χ}2_{分布のところで出てくる「定理」と、χ}2_{分布の「性質」(i) が必要になりますが、実際に重要なのは「分母の} 分散の推定精度（つまり自由度）」です。このため、たとえば 1 群 n 例の２群比較では、σ2_{の推定量として各群別々に自由度 (n}_{− 1) で推定して、} それを足し合わせたものを考えるので、自由度は 2(n− 1) となります。 *4_n→ ∞ のとき（つまりデータが無限個あるとき）σ2_{の推定量は σ}2_{に一致します（やや厳密に言うと、σ}2_{に収束します）}_。 *5_{どうして単純に足さないで２乗してから足すのか、という点なども今回はご説明しません。}

(4)

ここで、N (0, 1)とχ2₍₁₎_{のパーセント点を比較してみます。}_{N (0, 1)}_の上側_2.5_％点が_χ2₍₁₎_の上側_2.5_{％に対応、と} なってくれたら楽なのですが、そこまで簡単にはいきません。記号を整理して、z∼N (0, 1)として、χ2 1= z2と置き直します*6と、χ21∼χ2(1)は上で見た通りです。ここで、N (0, 1)の上側2.5％点（下側97.5％点）を２乗してみたものを f χ2_{= (z(0.975))}2_{(= 3.84)} とおくとき、これはχ2₍₁₎_{において何％点を示すのでしょうか？} たとえばz = 2のときとz =−2のときを考えてみましょう。z(0.975) = 1.96, z(0.025) =−1.96より、z = 2 > 1.96 はN (0, 1)の上側2.5％棄却域に、z =−2 < −1.96はN (0, 1)の下側2.5％棄却域にあることになります。このとき、どちらのzに対してもχ21= 4となり、fχ2= (z(0.975))2= 3.84より大きくなります。つまり、χ21> fχ2には「標準正規分布の大きい方の棄却域と小さい方の棄却域の両方」が含まれていることになります。式で書きますと、χ2 1= z2であり、z(0.025) =−z(0.975)からχf2= (z(0.025))2でもあるため、 χ2₁> fχ2⇐⇒_{z < z(0.025)}_または_{z(0.975) < z} ₍₄₎ となります。ここで⇐⇒の両側の確率を考えてみます。まず右側は明らかに P r(z < z(0.025)またはz(0.975) < z) = 0.05 です。これより左側の確率も P r ( χ2₁> fχ2)_{= 0.05} となります*7_。_χ2 1∼χ2(1)なので、χf2はχ2(1)の上側5％点、つまりχf2= χ2(1, 0.95)ということになります。まとめますと、 (標準正規分布の上側2.5％点)2_{= (}_{自由度１の}_χ2_{分布の上側}₅_％点₎ つまり、(z(0.975))2_{= χ}2_{(1, 0.95)}_{となります。} さらに一般的には(z(1− α))2_{= χ}2_{(1, 1}_{− 2α)}_{が成り立ちます。} ここで重要なのは、(4)より標準正規分布で両側検定を考える場合でも、χ2_{分布で検定する場合は上側棄却域のみで十} 分ということです。この点は、今回は自由度１の場合にご説明しましたが、自由度がnの場合でも同様に成り立ちます。本稿のこれ以降でも出てきますので、下の図1、図2と共によく理解しておいてください。 -1.96 1.96 0.1 0.2 0.3 0.4 0.5 -1.96 1.96 0.1 0.2 0.3 0.4 0.5 図1 標準正規分布の両側5％棄却域(z(0.975) = 1.96) 3.84 0.1 0.2 0.3 0.4 0.5 3.84 0.1 0.2 0.3 0.4 0.5 図2 対応するχ2(1)の棄却域(χ2(1, 0.95) = 3.84) *6_{少し見にくいですが、χ}2 1は「カイ２乗の１番目」という意味の１つの記号、z2は z が１つの記号で、その２乗です。 *7_{式がごちゃごちゃしてきますが、χ}2 1は確率変数、fχ2は数字であることに注意してください。

(5)

χ2_{分布についてはこれが一番基本的なことなのですが、困ったこと（？）に、}_χ2_{分布は、上のような形とは一見関わり} のないところにたくさん出てきます。けれど、イメージとして、「標準正規分布を２乗して足し合せている」というものを持っていただけると、正規分布とのつながりも分かってよいかと思います*8_。また、_{「たくさんのものを一括で検定してい} る」「検定で帰無仮説が棄却されたとしても、x1,· · · , xnのどれがN (0, 1)から外れているかは分からない」などの特徴も重要です。では、まとめます。「χ2分布」 x1,· · · , xnが独立にN (0, 1)に従うとき、χ2= x21+· · · x2nの従う分布を自由度nのχ2分布と名づけχ2(n)と書く。また、χ2_(n)_の下側₁₀₀_·α_％点を_χ2_{(n, α)}_で表す。「性質」 (i)χ2 1∼χ2(n), χ22 ∼χ2(m)が独立のとき、χ21+ χ22∼χ2(n + m) (ii) x1∼N (µ1, σ21), x2∼N (µ2, σ22),· · · , xn∼N (µn, σn2)のとき（全て独立。従う正規分布は全て違ってもよい)、 χ2= (x1− µ1) 2 σ2 1 +· · · + (xn− µn) 2 σ2 n は自由度nのχ2_{分布に従う（各項が正規分布の性質}_(ii)_の式 x√i−µi σ2 i の２乗になっていることに注意）。 (iii) ((ii)の特殊な場合) x1,· · · , xn∼N (µ, σ2)(全て独立）のとき、 χ2=(x1− µ) 2 σ2 +· · · + (xn− µ)2 σ2 は自由度nのχ2_{分布に従う。}

4.2 (iii)

の補足

4.2.1 重要な定理さて、上の(iii)は一見分かりやすいのですが、平均µと分散σ2_{が分かっていないと使えません。これはあまり現実的な} 状況ではありません。そこでせめてµは分かっていなくても使えるようなものがあれば、という気がします。実は、そのご要望にお答えする定理があるのです。「定理」 x1,· · · xn ∼N (µ, σ2)（全て独立）のとき、 ¯ x = 1 n n ∑ i=1 xi c σ2₌ 1 n− 1 n ∑ i=1 (xi− ¯x)2 とおくと、 (n− 1)cσ2 σ2 = 1 σ2 n ∑ i=1 (xi− ¯x)2= (x1− ¯x)2 σ2 + (x2− ¯x)2 σ2 +· · · + (xn− ¯x)2 σ2 はχ2_(n_{− 1)}_に従う。 (iii)と比べて、平均値を真の平均値µから標本平均値x¯に変更することで、自由度がnからn− 1に減少していることに注意してください*9_。 *8_{あとは中心極限定理が理解できれば、ほとんどの χ}2_{検定は理解できます。} *9_{長くなるので証明は省略します。数理統計学の基本的な本にはほぼ必ず書いてあるはずです。}

(6)

4.2.2 定理の応用では、上の定理を臨床に（比較的）即した例で考えてみます。次のような状況を考えてみてください。「問題３」降圧薬A、B、Cの３種類をそれぞれ5人ずつに投与します。このとき、Aを投与された人の投与後の血圧のベースラインからの差をx11, x12, x13, x14, x15∼N (µ1, σ2)、B、Cも同様にx21, x22, x23, x24, x25∼N (µ2, σ2)、x31, x32, x33, x34, x35 ∼N (µ3, σ2)とします(分散σ2は共通で既知とします)。このとき、帰無仮説：µ1= µ2= µ3 （つまり３種類の薬で薬効が全て等しい）対立仮説：それ以外を両側5％で検定するにはどうすればよいでしょうか*10_。「解答」帰無仮説:µ1= µ2= µ3に従うとしたら、各群が「全て同じ分布」に従うことになります。そのため、先の「定理」を使ってχ2_{検定ができるのではないか、という方向で考えてみましょう。} さて、比べたいのは平均値なので、まず各群で平均値を計算しますと x1= 1 5 5 ∑ j=1 x1j ∼N ( µ1, σ2 5 ) x2= 1 5 5 ∑ j=1 x2j ∼N ( µ2, σ2 5 ) x3= 1 5 5 ∑ j=1 x3j ∼N ( µ3, σ2 5 ) となります。さらに、全体15人の平均を考えると ¯ ¯ x = 1 3(x1+ x2+ x3) = 1 15 3 ∑ i=1 5 ∑ j=1 xij ∼N (_µ 1+ µ2+ µ3 3 , σ2 15 ) が成り立ちます。ここで、帰無仮説のもとでは µ1= µ2= µ3となるため、これをµと書くことにします。このときにx1, x2, x3 ∼N ( µ,σ2 5 ) と３つとも同じ分布に従うことになりますので、これに対して先の「定理」を使います。すると、帰無仮説のもとでは χ2= _σ12 5 3 ∑ i=1 (xi− ¯¯x)2 がχ2₍₂₎_{に従います（分散}_σ2_{は既知なので、これが計算できる量であることに注意してください）}_{。これより}_「_χ2_{(2, 0.95) <} χ2_{のときに帰無仮説を棄却すればよい」ということになります}*11_。 *10_{何か分散分析っぽいな、と気付かれた方は、どこが同じでどこが違うかに意識を向けつつ読んでみてください} *11_χ2_{分布のところで述べましたとおり、正規分布に従うデータの「両側検定」は χ}2_{分布の「片側棄却域」のみを用いてできます。}

(7)

5 F

分布とはどのような分布か

5.1 数値例

t分布のところでも述べましたが、現実問題として「データを取る前に分散が分かっている」というのは非現実的な状況です。そこで同様に上の問題を分散未知のケースで考えてみましょう。「問題４」降圧薬A、B、Cの３種類をそれぞれ5人ずつに投与します。このとき、Aを投与された人の投与後の血圧のベースラインからの差をx11, x12, x13, x14, x15∼N (µ1, σ2)、B、Cも同様にx21, x22, x23, x24, x25∼N (µ2, σ2)、x31, x32, x33, x34, x35 ∼N (µ3, σ2)とします(分散σ2は共通で未知とします)。このとき、帰無仮説：µ1= µ2= µ3 （つまり３種類の薬で薬効が全て等しい）対立仮説：それ以外を両側5％で検定するにはどうすればよいでしょうか*12_。「解答」帰無仮説のもとでµ1 = µ2= µ3をµとおいて、x1, x2, x3 ∼N ( µ,σ₅2 ) を考えるところは同じです。さらに、「問題３」で考えたように χ2= _σ12 5 3 ∑ i=1 (xi− ¯¯x)2 (5) は自由度2のχ2_{分布に従います。しかしこれを実際に計算しようとしても、分散}_σ2_{が未知なので計算できません。そこ} でt分布のところで行ったように、σ2を不偏推定量で置き換えましょう。ここで、不偏推定量の計算としては、まず各薬ごとに考えます。降圧薬A,B,Cのそれぞれにおけるσ2の不偏推定量は c σ2 A= 1 4 5 ∑ j=1 (x1j− x1)2 c σ2 B= 1 4 5 ∑ j=1 (x2j− x2)2 c σ2 C= 1 4 5 ∑ j=1 (x3j− x3)2 さて、これより、 c χ2₌ (x1− ¯¯x) 2 c σ2 A 5 +(x2− ¯¯x) 2 c σ2 B 5 +(x3− ¯¯x) 2 c σ2 C 5 を考えます。これで検定を行ってもよいのですが、もうひと工夫しましょう。いま、分散σ2は各群で共通です。そして、推定は例数が増えれば増えるほど精度がよくなります。そこで、σˆ2 A, ˆσ 2 B, ˆσ 2 Cを組み合わせてσ 2_{の推定精度を上げることを} 考えます。 4 cσ2 A σ2 , 4 cσ2 B σ2 , 4 cσ2 C σ2 はそれぞれ独立に自由度4のχ 2_{分布に従いますので、}_χ2_{分布の性質}_(i)_より、 4 cσ2 A σ2 + 4 cσ2 B σ2 + 4 cσ2 C σ2 = 5 ∑ j=1 (x1j− x1)2 σ2 + 5 ∑ j=1 (x2j− x2)2 σ2 + 5 ∑ j=1 (x3j− x3)2 σ2 (6) *12_{これはよくある分散分析の問題そのものですね。}

(8)

は自由度12のχ2_{分布に従います。これより、}_χ2_{分布の性質}*13_から、 c σ2₌ 1 12(4 cσ 2 A+ 4 cσB2 + 4 cσ2C) = 1 3( cσ 2 A+ cσ2B+ cσ2C) は、σc2 A, cσ 2 B, cσ 2 Cよりも精度のよいσ 2_{の不偏推定量になります}*14_{。そこで、}₍₅₎_式中の_σ2_をc_σ2_{で置き換えてやると、以下} のようになります。 f χ2₌ 1 c σ2 5 3 ∑ i=1 (xi− ¯¯x)2 これはパラメータの真の値を含まないので、計算できる統計量ですね。これを利用して検定してやりましょう。このfχ2_{が従う分布を}_F _{分布と呼んでやってもよいのですが、もう少し変形しましょう。式の形を「知っている分布に引} きつけて」整理します。まず、σc2_{の部分ですが、}12cσ2 σ2 が自由度12のχ2分布に従いますので、「分子分母がχ2分布（の定数倍）」となるように整理すると、 f χ2₌ 1 σ2 ∑3 i=1(xi− ¯¯x) 2 c σ2 σ2 1 5 = 1 σ2 5 ∑3 i=1(xi− ¯¯x)2 1 12· 12cσ2 σ2 となります*15_{。ここで、分子は}₍₅₎_{と一致するので、自由度}₂_の_χ2_{分布に従います。一方、分母は自由度}₁₂_の_χ2_分布を自由度12で割ったものとなっています。分母が「（χ2統計量）/（自由度）」となっていますので、分子も同じ形に合わせましょう。つまり統計量F を F = 1 2· 1 σ2 5 ∑3 i=1(xi− ¯¯x)2 1 12· 12cσ2 σ2 = 1 2fχ 2 とするのです。ここで、実は分子のχ2統計量と分母のχ2統計量は独立になっています。このF の従う分布のことを、自由度(2,12)のF分布と呼びます*16*17_{。ここで、自由度}_(2,12)_の_F _{分布の下側}₉₅_％点を_{F (2, 12, 0.95)}_とおくと*18_、 F > F (2, 12, 0.95) となったときに棄却すればよい、ということになります。なお、この性質に基づいた検定を一般的に分散分析と呼びます。χ2_{分布を使いたいのだけれど分散未知なので、}_t_分布の時と同じような手法で不偏推定量で置き換えた、という点がご理解いただけたでしょうか。 5.1.1 定義では、F分布を数式を用いて定義しましょう。「定義」 χ21∼χ2(n), χ22∼χ2(m)(独立)とします。このとき、 F = χ2 1 n χ2 2 m の従う分布を自由度(n, m)のF 分布と呼び、F (n, m)と書きます*19_。また、_{F (n, m)}_の下側₍₁₀₀· α)_％点を_{F (n, m, α)} と書きます。 *13_χ2_{が自由度 n の χ}2_{分布に従うとすると E[χ}2_{] = n。} *14_{(6) より、}12 cσ2 σ2 が自由度 12 の χ2分布に従います。 *15_{ここで、分子分母ともに σ}2_{という未知の値が出てきますが、f}_χ2_{はすでに計算できているので、σ}2_{が分からなければ計算できない、などというこ} とはありません。あくまで「χ2_{分布の形にする」ために便宜的に分子分母を割ってやっただけです。} *16_{ここで、自由度の２とは「薬の数-1」であり、12 とは「薬の数」×「各群の人数ー１」です。} *17_{どうして f}_χ2_{自身の分布を考えないで、わざわざ定数倍しないといけないのか、という点については、今のところ著者には分かりません。こうして} おくと F 分布がある種の対称性をもつので、その方が都合がよかったのかもしれません。 *18_χ2_{分布の場合と同じく、F 分布の場合も上側棄却域のみで「両側検定」を考えることができます。} *19_{n, m の順番は逆にすると別の分布になってしまいます。n が分子、m が分母なので間違えないようにしてください。}

(9)

5.1.2 一般式(分散分析) 先の「問題４」を文字を用いて一般化させましょう。「問題５」降圧剤1,· · · , Iを、それぞれn人ずつに投与するとします(全体の被験者数はN = nI人です)。このときの、ある時点での各被験者の血圧のベースラインからの差を薬剤１：x11,· · · , x1n∼N (µ1, σ2) 薬剤２：x21,· · · , x2n∼N (µ2, σ2) .. . ... 薬剤I：xI1,· · · , xIn∼N (µI, σ2) とおきます（σ2_{は未知とします）}_{。このとき、} 帰無仮説：µ1=· · · = µI 対立仮説：それ以外を両側5％で検定するにはどうしたらよいですか。「解答」 x1= 1 n n ∑ j=1 x1j, · · · , xI = 1 n n ∑ j=1 xIj, x =¯¯ 1 In I ∑ i=1 n ∑ j=1 xij とおくと、帰無仮説のもとで、µ1=· · · = µIをµとおくと、x1,· · · , xI∼N ( µ,σ_n2 ) であり、 χ2= (x1− ¯¯x) 2 σ2 n +· · · + (xI− ¯¯x) 2 σ2 n = _σ12 n I ∑ i=1 (xi− ¯¯x)2 (7) は自由度(I− 1)のχ2_{分布に従います。ところが}_σ2_{は未知なので、不偏推定量で置き換えることを考えます。} 各薬剤におけるσ2の不偏推定量を計算すると、 c σ2 1 = 1 n− 1 n ∑ j=1 (x1j− x1)2 c σ2 2 = 1 n− 1 n ∑ j=1 (x2j− x2)2 .. . ... c σ2 I = 1 n− 1 n ∑ j=1 (xIj− xI)2 となり、これらをまとめた c σ2₌ 1 I(n− 1)((n− 1)cσ 2 1+· · · + (n − 1)cσI2) = 1 I(n− 1) I ∑ i=1 n ∑ j=1 (xij− xi)2 もまた、σ2の不偏推定量であり、 I(n− 1)cσ2 σ2 = (x11− ¯x1)2 σ2 +· · · + (xIn− ¯xI)2 σ2 ∼χ 2_(I(n_{− 1))} に従います。

(10)

ここで、(7)におけるσ2_を_σc2_{で置き換えると、} f χ2₌ 1 c σ2 n I ∑ i=1 (xi− ¯¯x)2 = 1 σ2 n ∑I i=1(xi− ¯¯x)2 c σ2 σ2 = χ 2 c σ2 σ2 = χ 2 1 I(n−1)· I(n_−1)cσ2 σ2 ここで、分子のχ2は(7)より自由度(I−1)のχ2分布に従います。一方、分母のσ_σc22 = 1 I(n−1)· I(n−1)cσ2 σ2 は、自由度I(n−1) のχ2分布に従う統計量を自由度で割ったものとなっています。これより、分子をχ2分布の自由度で割ってやった、 F = 1 I−1· χ 2 1 I(n−1)· I(n_−1)cσ2 σ2 = 1 I− 1χf 2 が、帰無仮説のもとで自由度(I− 1, I(n − 1))のF分布に従います*20_{。これより、} F > F (I− 1, I(n − 1), 0.95) のときに棄却すればよい、ということになります。

5.2 F

分布のまとめ

このように、F 分布の使い方としては、「χ2_{分布の分散未知版の計算」という風に解釈できるため、イメージとして「}_F 分布」=「t分布」×「χ2_分布」*21_{のように考えていただければよいかと思います。} 分散分析において、一般的には「群内平方和と群間平方和の比をとってF分布を用いて検定する」という風に言われることが多く、著者はどうしてそのような発想で「よい検定」が出来上がるのかが大変不思議でした。ですが、本稿の解釈をすると「別に分散の比をとることが目的ではなく、χ2_{分布を使いたいけれど分散未知のため使えないので、しょうがなく分散} の不偏推定量で置き換えた結果、分母も分子も（定数倍を除いて）χ2_{分布になった」という風に解釈でき、ごく自然な検定} をしている、と言えるのではないでしょうか*22_。 5.2.1 F統計量に関する補足1 F 統計量の分母を構成するときに、「σ2_{の推定を、できるだけ例数を多くしてしたい」と考えるならば、} c σ2₌ I ∑ i=1 n ∑ j=1 (xij− ¯¯x)2 とする方が標準誤差は小さくなるので妥当のようにも思えます。確かに分母のことだけを考えるとこれは正しいです。しかし、こうしてしまうと分子と分母のχ2_{統計量が独立でなくなってしまい、分布が大変複雑になると同時に、検定の性能が} 落ちているのではないかと思われます。結果的に、「どちらを使おうが同値な検定」となってしまいます。 5.2.2 F統計量に関する補足2 群の数がI = 2(つまり「分子の自由度」= 1）のとき、実はt統計量の２乗はF統計量と一致します。正規分布とχ2分布の関係と同じように、一般に、 (t(m, 1− α))2= F (1, m, 1− 2α) *20_{一般的には、この F 統計量の分子の部分を少し変形して、χ}2 ₌ 1 σ2 n ∑I i=1(xi− ¯¯x)2 = _σ12 ∑I i=1n(xi− ¯¯x)2 としてやった∑ の部分 ∑I i=1n(xi− ¯¯x)2を群間平方和、分母の∑の部分、∑Ii=1 ∑n j=1(xij− bxi)2を群内平方和と言います。 *21_{あくまでイメージです。} *22_{もちろん、}_{「群内平方和と群間平方和の比をとる」という発想は大変重要です。本格的に分散分析を勉強される際は、そのような考え方ができない} と読める本がありません。しかし、初学者にとって「不自然さ」の残る解釈であるようにも思います。

(11)

が成り立ちます。

6 まとめ

正規分布：（１,２群のデータが）ある正規分布に従うかどうかの検定（分散既知） t分布：（１,２群のデータが)ある正規分布に従うかどうかの検定（分散未知） χ2_{分布：たくさんの群（３群以上）のデータが、ある正規分布に従うかどうかを１回の検定で判断する（分散既知}₎_。 F分布：たくさんの群（３群以上）のデータが、ある正規分布に従うかどうかを１回の検定で判断する（分散未知）。です。他にもこれらの分布の使い方はたくさんありますが、お互いの関係を理解するためには、このまとめ方が良いと思います。