* n x 11,, x 1n N(µ 1, σ 2 ) x 21,, x 2n N(µ 2, σ 2 ) H 0 µ 1 = µ 2 (= µ ) H 1 µ 1 µ 2 H 0, H 1 2 σ 2 σ 2 0, σ 2 1 1 *2 H 0 H

(1)

最尤法と尤度比検定について

計算特訓第５回：補助資料

1 土居正明

1 はじめに

1.1 本稿の内容など

本稿では、尤度比検定についてご説明します。実は、最尤法の詳細や尤度比検定は、「時間もないし、きちんと理解されなくても仕方がないかな」と思っていたのですが、尤度比検定の資料を作って欲しいというご希望があり、問題と解答を作るのは大変ですので補助資料にしようと思ったのですが、補助資料はある程度きちんと書くのを心がけていますので、「正しいイメージを持っていただける」ようにご説明します*1_{。なお、最尤法の近辺には面白い話がたくさんありますので、適宜} 「微妙に脱線」⇒「補足で解説」ということをしています。補足はやや踏み込んだ内容についても書いていますので、最初は補足は読まず、２回目以降に補足を参照しながら読まれるとより理解が深まるかと思います。

1.2 本稿を読まれる際にあった方が良い知識

本稿は「最尤法」が肝になります。それも「２群比較のシチェーションでの最尤法」です。従いまして、計算特訓第３回その３「最尤推定量の計算１」の「問題２」∼「問題６」の中の少なくとも何問かは解いてから読まれることをお勧めします。

1.3 本稿の表現について

本稿では分かりやすさを重視して、一般的に本で書かれている尤度比検定の定義とは少し異なる定義を用いています。ほとんど同じですが、こちらの方が理解しやすいかと思い、通常よりは１ステップ飛ばした定義をしました。

2 尤度比検定の計算方法

2.1 計算方法

理屈のご説明に入ると話がそこそこ込み入ってきますので、具体例を用いて最初に尤度比検定の計算方法のみをご紹介します。たとえば正規分布に従う１群n例ずつ、計２群の全て独立なデータx11,· · · , x1n∼N (µ1, σ2) x21,· · · , x2n∼N (µ2, σ2) があるとします。ここで帰無仮説・対立仮説を H0：µ1= µ2 (= µとおく) H1：µ16= µ2 としたときに、H0, H1のもとで*2それぞれ最尤推定量を求めます。σ2の推定も各仮説のもとで行い、σc20, cσ 2 1とおきます *1_{数理的にあまり込み入った話はしませんのでご安心ください。} *2_{正確には「H}₀_{のもと」と、}_「H₀_{, H}₁_{のどちらでもよい状況のもと」です。この点も補足で解説します。ここより下の節では正しく書きますが、こ} このみ煩雑さを避けるため「H1のもと」という言い方をします。

(2)

と、各推定量は（H0のもと）：bµ, cσ02 （H1のもと）：cµ1, µc2, cσ12 と書けます。次に、これを尤度関数の中に入れます。仮説が異なると尤度関数も異なりますので、帰無仮説のもとでの尤度関数をL0(µ, σ2|x)、対立仮説のもとでの尤度関数をL1(µ1, µ2, σ2|x)とおきますと（xは全データを１つの文字で表現したもの）、（H0のもと）：L0(bµ, cσ02|x) （H1のもと）：L1(cµ1, µc2, cσ12|x) となります。そして、この２つの尤度関数の比を取ります。つまり、 L1(cµ1, µc2, cσ12|x) L0₍_{bµ, c}_σ2 0|x) (1) とします。「広い意味の尤度比検定」は、この(1)を用いた検定全てのことを指します*3_。一方で、「狭い意味の尤度比検定」とは例数が大きいとき、(1)を用いて統計量 T = 2 log ( L1(µc1, cµ2, cσ21|x) L0₍bµ, c_σ2 0|x) ) が漸近的にχ2_{分布に従うことを利用した検定です}*4*5_{。このとき、}_χ2_{分布の自由度は}_H 0とH1のパラメータ数の差であり、今回は「H0: µ, σ2の２つ」「H1: µ1, µ2, σ2の３つ」より、３−２＝１となりますので、今回は自由度が１です。これより、今回の場合、例数が大きいときには T > χ2(1, 0.95) で棄却すれば、有意水準５％の両側検定になります*6_。 *3_{この「広い意味」}_{「狭い意味」は私の造語です。同じ言葉で２種類の検定が語られることがあり、まぎらわしいので区別することにしました。} *4_{n が大きいときに「大体」従う、ということを難しい言葉で「漸近的（ぜんきんてき）に」従うと言います。} *5_{この T のことを} T =−2 log ( L0₍_{bµ, c}_σ2 0|x) L1₍_c_µ 1,cµ2, cσ12|x) ) と書いてある本もありますが、− log(x) = log(1_x)ですので、全く同じものを指しています。 *6_{ここで、χ}2_{(1, 0.95) は「自由度１の χ}2_{分布の下側９５％点」です。また、}_{「これって片側検定じゃないの？」と思われる方は、私の作成資料（分} 散分析講義：第１回資料１）「正規分布・t 分布・χ2分布・F 分布とは何か？」の χ2分布のところをお読み下さい。

(3)

2.2 まとめ：尤度比検定の計算

ではとりあえず狭い意味の方にしておいて、尤度比検定のやり方をまとめます。データがx11,· · · , x1n ∼N (µ1, σ2) x21,· · · , x2n∼N (µ2, σ2)として、 H0：µ1= µ2 (= µとおく) H1：µ16= µ2 における尤度比検定（有意水準αの両側検定）の計算手順は以下の通りです。 (i) H0, H1のもとでのパラメータ全て*7の最尤推定量を求める*8。 (ii) (i)で得られた最尤推定量を、それぞれの尤度関数に入れます。 (iii) (ii)で得られた尤度関数の比をとり、そこから統計量 T = 2 log ( L1₍_µ_c 1, cµ2, cσ21|x) L0₍bµ, c_σ2 0|x) ) = 2 ( l1(µc1, cµ2, cσ12|x) − l 0₍_{bµ, c}_σ2 0|x) ) を作ります*9_。 (iv) 自由度m= (「H1のパラメータ数」−「H0のパラメータ数」) としたχ2分布を用いて、 T > χ2(m, 1− α) のときに棄却します。以上がやり方です。なお、ここでは正規分布の場合だけを見てきましたが、他の分布でも同様に「帰無仮説のもとでの最尤推定」「対立仮説のもとでの最尤推定」を別々に行い、尤度関数の比をとってT を構成すれば、それが漸近的にχ2分布に従います。自由度も同様に「H1のもとでのパラメータ数」−「H0のもとでのパラメータ数」で求まります。次に例題を１問解いて、それから「最尤法とはどういう推定方法か」というところから入って、ある程度のところまで理論をご説明します。

3 例題

では、１問だけ例題を解いてみましょう。「例題」ある検査値のデータを考えます。１群5例ずつ、計２群の全て独立な正規分布に従うデータがあるとしまして、実薬群を x11,· · · , x15∼N (µ1, σ2)、プラセボ群x21,· · · , x25 ∼N (µ2, σ2)とします*10。いま、実薬にはこの検査値の値を下げる効果が期待されているとしまして、帰無仮説・対立仮説を H0：µ1= µ2 (= µとおく) H1：µ16= µ2 とします。データが x11= 10, x12= 13, x13= 14, x14= 8, x15= 15 x21= 13, x22= 21, x23= 18, x24= 25, x25= 13 であったとします。このとき、有意水準0.05の両側検定を、（狭い意味の）尤度比検定を用いて行ってください。 *7_{知りたいのが平均 µ だけでも、分散 σ}2_{まで推定します。} *8_{今回のように仮に平均にしか興味ない場合でも、分散の推定量も求めます。} *9_l1_(c_µ 1,cµ2, cσ21|x), l0(bµ, cσ02|x) はそれぞれ対立仮説・帰無仮説のもとでの対数尤度関数です。 *10_{本当は、10 例程度では漸近的な検定を用いるのは妥当ではないと思われます。今回は手計算を楽にするために、練習として 10 例でやっているだ} けです。ご注意ください。

(4)

「解答」まず、尤度関数と最尤推定量を求めます。（帰無仮説のもとでの計算）帰無仮説H0：µ1= µ2(= µ)のもとでは10個のデータの全てがN (µ, σ2)に従いますので、尤度関数は L0(µ, σ2|x) = 2 ∏ i=1 5 ∏ j=1 ( 1 √ 2πσ2exp ( −(xij− µ)2 2σ2 )) = ( 1 √ 2πσ2 )10 exp  − 1 2σ2 2 ∑ i=1 5 ∑ j=1 (xij− µ)2   であり、対数尤度関数は l0(µ, σ2|x) = −10 2 log ( 2πσ2)− 1 2σ2 2 ∑ i=1 5 ∑ j=1 (xij− µ)2 となります。最尤推定量*11_は bµ = 1 10 2 ∑ i=1 5 ∑ j=1 xij = 1 10(10 + 13 + 14 + 8 + 15 + 13 + 21 + 18 + 25 + 13) = 15 c σ2 0 = 1 10 2 ∑ i=1 5 ∑ j=1 (xij− bµ)2 = 1 10 { (10− 15)2+ (13− 15)2+ (14− 15)2+ (8− 15)2+ (15− 15)2 +(13− 15)2+ (21− 15)2+ (18− 15)2+ (25− 15)2+ (13− 15)2} = 23.2 となります。これより、対数尤度関数にパラメータを代入したものは l0(bµ, cσ2 0|x) = − 10 2 log ( 2πcσ2 0 ) − 1 2cσ2 0 2 ∑ i=1 5 ∑ j=1 (xij− bµ)2 (2) となります。ここで直接値を代入してもよいですが、少しショートカットします。右の∑の部分について 2 ∑ i=1 5 ∑ j=1 (xij− bµ)2 となっていますが、これは c σ2 0 = 1 10 2 ∑ i=1 5 ∑ j=1 (xij− bµ)2 を用いて書き直すと、 2 ∑ i=1 5 ∑ j=1 (xij− bµ)2= 10cσ20 となります。これより、(2)は l0(bµ, cσ2 0|x) = − 10 2 log ( 2πcσ2 0 ) − 1 2cσ2 0 · 10cσ2 0 =−5 log (46.4π) − 5 *11_{最尤推定量の求め方は今回省略しています。忘れた方は、第３回資料３「最尤推定量の計算 1」を復習してください。}

(5)

となります。（対立仮説のもとでの計算）*12 このとき、尤度関数は L1(µ1, µ2, σ2|x) = 5 ∏ j=1 { 1 √ 2πσ2exp ( −(x1j− µ1)2 2σ2 )} · 5 ∏ j=1 { 1 √ 2πσ2exp ( −(x2j− µ2)2 2σ2 )} = ( 1 √ 2πσ2 )10 exp  −_2σ12  ∑5 j=1 (x1j− µ1)2+ 5 ∑ j=1 (x2j− µ2)2     であり、対数尤度関数は l1(µ1, µ2, σ2|x) = − 10 2 log ( 2πσ2)− 1 2σ2  ∑5 j=1 (x1j− µ1)2+ 5 ∑ j=1 (x2j− µ2)2   (3) となります。これより、最尤推定量は c µ1= 1 5 5 ∑ j=1 x1j = 1 5(10 + 13 + 14 + 8 + 15) = 12 c µ2= 1 5 5 ∑ j=1 x2j = 1 5(13 + 21 + 18 + 25 + 13) = 18 c σ2 1= 1 10  ∑5 j=1 (x1j− cµ1) 2 + 5 ∑ j=1 (x2j− cµ2) 2   = 1 10 { (10− 12)2+ (13− 12)2+ (14− 12)2+ (8− 12)2+ (15− 12)2 (13− 18)2+ (21− 18)2+ (18− 18)2+ (25− 18)2+ (13− 18)2} = 14.2 これを(3)の対数尤度関数に代入します。 l1(µc1,cµ2, cσ21|x) = − 10 2 log ( 2πcσ2 1 ) − 1 2cσ2 1  ∑5 j=1 (x1j− cµ1)2+ 5 ∑ j=1 (x2j− cµ2)2   (4) となりますが、ここで帰無仮説のときと同じようにショートカットをします。 c σ2 1= 1 10  ∑5 j=1 (x1j− cµ1)2+ 5 ∑ j=1 (x2j− cµ2)2   より、(4)は l1(cµ1,µc2, cσ12|x) = − 10 2 log ( 2πcσ2 1 ) − 1 2cσ2 1 · 10cσ2 1 =−5 log (28.4π) − 5 *12_{実際は「帰無仮説と対立仮説のどちらでもよい状況のもとでの計算」です。気になる方は補足をご覧ください。}

(6)

（尤度比検定統計量と尤度比検定）これより、尤度比検定統計量は T = 2 log ( L1(cµ1, cµ2, cσ21|x) L0₍bµ, c_σ2 0|x) ) = 2 ( l1(µc1, cµ2, cσ21|x) − l 0₍_{bµ, c}_σ2 0|x) ) = 2{(−5 log (28.4π) − 5) − (−5 log (46.4π) − 5)} = 10 log ( 46.4π 28.4π ) = 10 log ( 46.4 28.4 ) ≒4.9 となります*13_。_χ2_{分布の自由度は「}_H 1のパラメータ数はµ1, µ2, σ2の３つ」「H0のパラメータ数はµ, σ2の２つ」より、３−２＝１です。これより、棄却限界はχ2_{(1, 0.95)}_≒_3.84_より、 T ≒4.9 > 3.84≒χ2(1, 0.95) となり、帰無仮説は棄却されます*14_。

4 最尤法について

では、これから理論のご説明に入ります。まず最尤法について整理しましょう。お伝えしたいことは２点で (i) 尤度関数の定義は確率（密度）関数の積ではないということ*15 (ii) 最尤法の考え方です。

4.1 (i)

尤度関数の定義

では最初に尤度関数の定義についてです。前回の「最尤推定量の計算1」などでは、尤度関数を「確率（密度）関数の積」として定義しましたが、一般のデータの場合それは正しくありません。正確には、データ(x1,· · · , xn)が与えられたときの尤度関数とは、(x1,· · · , xn)の従う同時確率（密度）関数に、データを入れたものです*16。しかし、データ(x1,· · · , xn) が全て独立のとき、独立性の定義から同時確率（密度）関数はx1,· · · , xnのそれぞれの変数の従う確率（密度）関数の積で表現できます。これより、今まで扱ってきたような独立なデータに対しては結果的に「尤度関数」＝「確率（密度）関数の積」となっただけなのです*17_{。これの成り立たない例を１つ補足にあげておきました}*18_。本稿で重要なのは「尤度関数を確率（密度）関数と考える」ということです。強調したいのは、一般に「尤度関数」6=「確率（密度）関数の積」ということではなく、「尤度関数がそれ自身確率（密度）関数である」と解釈できることです。この点さえ押さえておいていただければ十分です*19_。 *13_{log の計算は PC でしました。} *14_{もう一度お断りしておきますが、両群合わせて例数 10 程度の集団に対して漸近的な検定をするのはお薦めできません。あくまで計算の練習として} 出題していますのでご注意ください。 *15_{「確率（密度）関数」という書き方は、離散分布の場合「確率関数」、連続分布の場合「確率密度関数」を指すものとします。} *16_{さらに正確には、}_{「データは定数で、パラメータの関数である」という点も特徴（というか、確率（密度）関数との立場の違い）ですが、この点には} 今回踏み込みません。 *17_{「最尤推定量の計算１」では「独立」であることを強調しています。} *18_{少し面倒ですので、興味のある方や２回目・３回目に本稿を読まれる際にお読みください。} *19_{「確率（密度）関数の積」という見方をしてしまうと、「それ自身が確率」という解釈が、直感的には成り立ちません。そうではなくて、}_{「それ自身} が確率」なものをもってきてやるのです。それが（データが独立の時は）「結果的にそれぞれの確率の積で表わされる」というだけであり、「積」は尤度関数にとって本質ではありません。なお、連続分布の場合は「確率（密度）関数の値」6=「確率」ですが、「確率（密度）関数の値が大きい」＝ 「その近くのデータが取れる確率が高い」ですので、「（本稿の話題に関しては）大体同じようなもの」と考えていただいて問題ありません。

(7)

4.2 (ii)

最尤法の考え方

4.2.1 「尤度関数の値が大きい」ことの意味たとえば二項分布で考えてみましょう。二項分布の確率関数は f (x|n, p) =nCxpx(1− p)n−x と書けます。ここで、ある病気に10人中3人発症したとします。このとき、尤度関数は L(p|10, 3) =10C3p3(1− p)7 (5) となります。さてこのデータをもとに、pはどのくらいの値なのかを考えてみましょう。手始めにp = 0.1, 0.3, 0.5の３つの中でどれが最もふさわしいのかを検討してみます。(5)のpにそれぞれの値を入れてみますと、 (p = 0.1)：L(0.1|10, 3) =10C3· 0.13· 0.97≒0.057 (p = 0.3)：L(0.3|10, 3) =10C3· 0.33· 0.77≒0.287 (p = 0.5)：L(0.5|10, 3) =10C3· 0.53· 0.57≒0.117 となります。「尤度関数は確率（密度）関数と考えてよい」ということですので、尤度関数のが大きいとき、確率が大きいということになります。さて、尤度関数に値を代入したものを言葉で解釈すると以下の通りになります。 (p=0.1)：「p = 0.1（発生割合１割）」であれば、「10人中3人発症する」というデータは6％くらいの確率で得られる。 (p=0.3)：「p = 0.3（発生割合３割）」であれば、「10人中3人発症する」というデータは29％くらいの確率で得られる。 (p=0.5)：「p = 0.5（発生割合５割）」であれば、「10人中3人発症する」というデータは11％くらいの確率で得られる。つまり、「p = 0.3のとき、p = 0.1, 0.5のときに比べて『このデータが得られる確率が高い』」ということになります。言いかえると、「p = 0.3が（3つの候補の中で）最もこのデータにフィットしている」と見ることもできます。最尤法とはこのように、「データが得られたときに、そのデータが得られる確率が最も高くなるようなパラメータを探す」、言いかえれば「パラメータがいくつであれば、そのデータが最も『よくあるデータ』とみなせるか」を考える方法なのです*20_。 4.2.2 最尤法の計算方法では次に、最尤法の計算方法です。先ほど「尤度関数の値が大きい」＝「確率が大きい」ということをみました。そして、上ではp = 0.1, 0.3, 0.5の３つの値の中で「p = 0.3が最大」ということを見ました。実際のpの値としては0∼1までの無限の値がありますので、この無限個の中でL(p|10, 3)が最大となる値を求めると、それが「最もデータにフィットした」 pの値となります。この最大値を与えるpを求めるには、L(p|10, 3)をpで微分して、 dL(p|10, 3) dp = 0 (6) *20_{これは「よいこと」のように聞こえるかもしれませんが、実はここから、逆に最尤法のデメリットが１つでてくるのです。それは、たとえば例数が} 少なく、外れ値が含まれる場合などの「ちょっと変なデータ」に対しても、「そのデータが普通のデータである」ようなパラメータを探し出してしまう、ということです。つまり、ばらつき（分散）を過小評価してしまう、ということが起こります。これについては本稿の本題とは違いますので、補足で述べることにします。

(8)

を解いて、その解を求めればよい、ということになります*21_{。ところが実際計算しようとすると、たとえば}₍₅₎_では_p_の 10次関数で、大変になります。そこで、計算の面倒くささを緩和するためにlogをとるのです*22_{。そうして対数尤度関数} l(p|10, 3) = log (L(p|10, 3)) を求め、実際の最尤法ではこのl(p|10, 3)の方をpで微分して dl(p|10, 3) dp = 0 (7) を解くことになります*23_{。これによって、}_{「最も（対数）尤度関数が大きくなる」}_p_{を求め、これを}bp_{と書き、これを「}_p_の最尤推定量」と言います。

5 尤度比検定とは

では次に尤度比検定のご説明に入ります。しつこいようですが繰り返しておきますと、例数が多い場合を考えています。そのため、推定の精度がよく最尤推定量はかなり真の値に近いものだということを前提にしておいてください。たとえば正規分布に従う１群n例ずつ、計２群の全て独立なデータx11,· · · , x1n∼N (µ1, σ2) x21,· · · , x2n∼N (µ2, σ2) があるとします。ここで帰無仮説・対立仮説を H0：µ1= µ2 (= µとおく) H1：µ16= µ2 とします。このとき、「どちらが正しいか」ということを「どちらの尤度関数がより大きいか」でとらえることにします。尤度関数が同時確率（密度）関数である、ということはご説明しました。したがってこれは、おおざっぱに言いますと、「H0とH1の場合で、そのデータが得られる確率を比較している」ととらえることができます。なお、詳細は補足で述べますが、実際には「帰無仮説H0のもとでの尤度関数」と「帰無仮説H0と対立仮説H1のどちらのもとでもよい場合の尤度関数」を比較します。ところが、比較したくても、パラメータµ1, µ2, σ2などが分からなければ尤度関数は数字になりません。そこで、これらのパラメータを推定値で置き換えるのです。この際に最尤法によって得られる推定値を入れてやるのです。データを全てまとめてxと１文字で書きますと、（帰無仮説のもと） L0(bµ, cσ2₀|x)：帰無仮説のもとでこのデータが得られる確率（パラメータは最尤法で求めた推定値を代入）（帰無仮説でも対立仮説のどちらでもよい） L1₍_c_µ 1,cµ2, cσ21|x)：帰無仮説でも対立仮説でもどちらでもよい状況のもとでこのデータが得られる確率（パラメータは最尤法で求めた推定値を代入）の２つを比較することになります。 *21_{y = f (x) の最大・最小を求めるときは「f}0_{(x) = 0」を解いて、増減表を書いて・・・ということを高校時代にされたと思います。その際、} 「f0(x) = 0 だからといって、最大・最小とは限らない」(たとえば f (x) = x3_{において x = 0 のとき) ということは習われたと思います。しかし通} 常は暗黙のうちに「(6) を解けば最大値が求まる」ことは前提としています。厳密には結構大変な議論が必要なはずですが、そこには踏み入りません。 *22_実際に L(p| 10, 3) =10C3p3(1− p)7

l(p| 10, 3) = log (10C3) + 3 log p + 7 log (1− p)

をそれぞれ p で微分して、dL_dp(bp) = 0, _dpdl(bp) = 0 を解かれると、後者が以下に楽かが実感していただけると思います。

*23_{ただし、x = 0, n などの「端っこ」の状況ではデリケートな取扱いが必要になります。その点は「第３回資料３：最尤推定量の計算１」の追加問題}

(9)

5.1 「尤度関数を比べる」ということ

上で見ました通り、実際比べるのは以下の２つです。 (i) H0のもとでの尤度関数L0(bµ, cσ02|x)（パラメータは最尤法で求めた推定値を代入） (ii) H0, H1のどちらでもよい状況での尤度関数L1(cµ1,µc2, cσ12|x)（パラメータは最尤法で求めた推定値を代入）上でも述べましたが、例数が多い場合の最尤推定量は「ほぼパラメータの真の値」ととらえることができますので、これは「H0で考える場合とH0, H1どちらでもよい状況で考える場合に、データのフィット具合がどの程度違うか」を調べていることになります。ここで(a)「帰無仮説が正しいとき」(b)「対立仮説が正しいとき」のそれぞれに、尤度関数の比がどのようになるかを見ていきましょう。まずは(a)「帰無仮説H0：µ1= µ2(= µ)が正しいとき」です。このとき、「H0でもH1でもよい状況」での最尤推定量は、各群別々にµc1,cµ2と推定されますが、帰無仮説H0：µ1= µ2が正しいので、この２つの推定値はほぼ等しく、cµ1≒cµ2 となります。さらにこれは帰無仮説のもとでの推定値bµともほぼ等しくなる、ということが分かります。そうなると、 c σ2 0= 1 n 2 ∑ i=1 n ∑ j=1 (xij− bµ)2 c σ2₁= 1 n  ∑n j=1 (x1j− cµ1)2+ n ∑ j=1 (x2j− cµ2)2   の値もほぼ同じになってきます。つまりこのとき、「H0で考えようが、H0でもH1でもどちらでもよい状況で考えようが、同じような状況」ということになります。したがって、「どちらの仮説のもとで考えようともこのデータの起こりやすさはほぼ同じ」となります。これより、２つの尤度関数もほぼ同じ値であり、 L1(cµ1,cµ2, cσ21|x) L0₍bµ, c_σ2 0|x) ≒1 となります。次に、(b)「対立仮説H1：µ1 6= µ2が正しいとき」です。このとき、対立仮説H1：µ1 6= µ2が成り立ちますので、各群の推定値もそれなりに異なる、つまりµc16= cµ2（結構違う）ということが想定されます。このときどうなるかと言いますと、H0のもとでは「本当は対立仮説が正しく平均値が群ごとで異なるのに、無理やり『両群同じ bµ』として推定している」から、「このデータが発生する確率はそれほど高くない」つまり「データにあまりフィットしていない」ことが想定されます。つまり、尤度関数L0₍_{bµ, c}_σ2 0|x)の値はそれほど大きくならないでしょう。一方で、H0でもH1でもどちらでもよい状況下での推定量の方は「正しい仮説H1通りに、群ごとに別々のµc1,cµ2で推定している」ということで、これは「このデータが出てくる確率が結構高い」つまり「データにフィットしている」ということになります。そのため、尤度関数 L1(cµ1,µc2, cσ12|x)はL 0₍_{bµ, c}_σ2 0|x)よりも大きくなることが想定されます。つまり、 L1₍_µ_c 1,cµ2, cσ21|x) L0₍bµ, c_σ2 0|x) >> 1 となります。つまり、尤度関数の比が大きくなればなるほど、「対立仮説が正しい」ことを示すのです*24_{。これが尤度比検定の原理} です。 *24_{当たり前ですが、}_{「分母が帰無仮説」のときです。これを間違えると話がさかさまになります。}

(10)

6 （狭い意味での）尤度比検定の統計量と棄却限界について

6.1 （狭い意味での）尤度比検定統計量

（狭い意味での）尤度比検定の統計量は、尤度比のlogをとって2倍した T = 2 log ( L1(µc1,cµ2, cσ21|x) L0₍bµ, c_σ2 0|x) ) = 2 ( l1(µc1, cµ2, cσ12|x) − l 0₍_{bµ, c}_σ2 0|x) ) を用います*25_。

6.2 尤度比検定の棄却域

詳しいご説明は省略しますが*26_{、この尤度比検定統計量に対して漸近的に、} T = 2 ( l1(µc1, cµ2, cσ12|x) − l 0₍_{bµ, c}_σ2 0|x) ) ∼ χ2(1) が成り立ちます。ここで、χ2_{分布の自由度は「}_H 1のパラメータ数」−「H0のパラメータ数」で決まります。今回はH1のパラメータはµ1, µ2, σ2の３つであり、H0のパラメータがµ, σ2の２つであったため、（自由度）＝３−２＝１となったのです。そして、帰無仮説が棄却されるのは、有意水準αの両側検定のとき T = 2 ( l1(cµ1, µc2, cσ12|x) − l 0₍_{bµ, c}_σ2 0|x) ) > χ2(1, 1− α) となるときです。なお、「尤度関数の比を考えるときにどちらを上にしたらよいか忘れる」という方がよくいらっしゃるかと思います。この点に関しては覚えるよりは「毎回考える」方がよいかと思います。今までの理屈をたどっていきますと、「H0を棄却」⇔「『H0』より『H0またはH1』の方がデータによくフィットする」 (a) ⇔「『H0』より『H0またはH1』のもとの方が尤度関数が大きい」 (b) となります。一方で、「H0を棄却」⇔「Tが大きい」 (c) となりますので、これらを合わせると結局「T が大きい」⇔「H0を棄却」 (∵ (c)) ⇔「『H0』より『H0またはH1』の方がデータによくフィットする」 (∵ (a)) ⇔「『H0』より『H0またはH1』のもとの方が尤度関数が大きい」 (∵ (b)) となります。T が大きくなるのは分子が大きくなるときですので、結局「『H0またはH1』のもとの方が分子」となります。 *25_{したがって、帰無仮説が正しいとき T ≒ 0 となります。} *26_{「中心極限定理」が必要になりますので、結構大変です。}

(11)

7 補足

7.1 補足１：尤度関数が確率（密度）関数の積にならない例

最初に、「尤度関数は同時確率（密度）関数にデータを入れたものであり、一般には確率（密度）関数の積ではない」というお話をしました。この具体例を１つ見てみましょう。同一の症例に対して繰り返し測定したデータのような場合、同一症例のデータ同士は独立ではないと仮定する方が妥当でしょう。数式で見てみますと、同じ人にある測定を２回するときの測定値が確率変数X1, X2で表現できるとします。そして、記号を X = ( X1 X2 ) , µ = ( µ1 µ2 ) , Σ = ( σ2 1 ρσ1σ2 ρσ1σ2 σ22 ) (ρ6= 0) として、Xは2変量正規分布 X∼N (µ, Σ) に従うとします。このとき、データ（X1, X2）= (x1, x2)が与えられたときの尤度関数は L(µ1, µ2, ρ, σ12, σ22|x1, x2) = 1 2πσ1σ2 √ 1− ρ2exp ( − 1 2(1− ρ2₎ ( (x1− µ1)2 σ2 1 −2ρ(x1− µ1)(x2− µ2) σ1σ2 +(x2− µ2) 2 σ2 2 )) と表現されます。一方このときX1∼N (µ1, σ12), X2∼N (µ2, σ22)となりますので、確率密度関数の積は f (x1|µ1, σ12)· f(x2|µ2, σ22) = ( 1 √ 2πσ2 1 exp ( −(x1− µ1)2 2σ2 1 )) · ( 1 √ 2πσ2 2 exp ( −(x2− µ2)2 2σ2 2 )) = ( 1 √ 2πσ2 )2 exp ( −(x1− µ1)2 2σ2 1 −(x2− µ2)2 2σ2 2 ) となり、これは尤度関数L(µ1, µ2, ρ, σ21, σ22|x1, x2)とは異なっています。このように、一般に尤度関数と確率（密度）関数の積は一致せず「データが独立なとき」のみ一致するのです。

7.2 補足２：最尤推定量の弱点

7.2.1 分散の過小評価について本稿では、最尤推定量が「データにフィットしすぎている」というお話をしました。それをもとに最尤法の弱点についても述べておきましょう。最尤法とは、データが得られたときに「それに最もフィットするように」パラメータを選ぶ手法でした。これは一見するとよいことに思えるのですが、実際はそうとばかりは言い切れません。たとえば「データに外れ値が入っていた場合」を考えてみましょう。このとき、本当は外れ値ですので、ばらつきが結構大きくなるはずです。一方、最尤法で考えると「外れ値を外れ値でない、よくある値」としてとらえてしまうのです*27_。具体的に何が起こるかといいますと、まず「平均の最尤推定量(bµ)」は「外れ値に引っ張られる」という性質があります。そのため、真のパラメータµの値よりもbµは外れ値の方に近くなります。その結果、外れ値の外れ具合が小さくなり、結局 *27_{「外れ値」とは「分布にあまりフィットしないデータ」ですので、本来は「あまりフィットしてないですよね」と言いたいところですが、最尤法で} はこのデータに対しても「フィットした」パラメータを探してしまうのです。

(12)

「データのばらつきが過小評価される」ということが起こるのです*28_{。これについて、具体例はご存知の方が多いと思いま} すが、x1,· · · , xn ∼N (µ, σ2)のときに、分散の最尤推定量は [ σ2 M L= 1 n n ∑ i=1 (xi− ¯x)2 と書きますが、通常我々が使うのはこれではなく c σ2₌ 1 n− 1 n ∑ i=1 (xi− ¯x)2 の方です*29_。c_σ2_{は不偏推定量ですが、}[_σ2 M Lにはバイアスが入っています。例数が大きければ気にならなくなるのですが、小さいときには注意が必要です。たとえば、n = 10で n ∑ i=1 (xi− ¯x)2= 270のときには [ σ2 M L= 270 10 = 27, cσ 2₌ 270 9 = 30 となり、σ[2 M Lが過小評価されていることが分かります*30。ただし、繰り返しておきますが、例数が多い場合はこのバイアスは問題になりません。例数が多いとき、最尤推定量は最適と呼んでよい推定量となります。なお、この補足の内容は（狭い意味での）尤度比検定の文脈では、例数が多い場合を考えますので、本稿の本題に対しては関係ないと考えていただいて結構です。 7.2.2 平均・分散の不偏性について上で流れをお話したことから、σ[2 M Lにはバイアスが入っていて、不偏推定量ではありません。一方、先ほど「平均の最尤推定量bµ = ¯xは外れ値に引っ張られる」というお話をしました。しかしこのbµはµの不偏推定量なのです。これは一見すると奇妙なことのように思われますので、「不偏性」について少し考えてみることにしましょう。不偏推定量とは何か、というのは意外と定義からはつかみにくいので、私は「大数の法則」とペアにしてご説明することが多いです*31_。つまり、今回のbµ = ¯xが不偏推定量である、とは、同じような試験をたくさん繰り返し、bµと同様な手順で最尤推定量を9,999個のcµ1,· · · , dµ9999を考え、bµと合わせて10,000個にしておいて、その10,000個の平均をとると、µにほとんど一致することだと考えていただくのがよいかと思います。つまり、 bµ + cµ1+· · · + [µ9999 10000 ≒µ が成り立つ、というのが「bµがµの不偏推定量」ということです。今、「外れ値が出た場合」というのが話題の中心でしたので、外れ値について考えましょう。たしかに、データを採ったときに外れ値が入っていれば、bµは外れ値の方に偏った値かもしれません。しかし、正規分布であれば左右均等にばらついていますので、そのうち（適当ですが）たとえばµc1,· · · , dµ100くらいまで眺めていると、そのうちのいくつかは「右側の外れ値」によって影響を受けている、という風に考えるのは不自然ではないでしょう。このようにして、「１回の測定で外れ値に影響されたとしても、『何回も試験をくり返してbµを作り、その平均をとったら』きちんとµが推定できる」というのが不偏性の重要な点です。では一方、分散の方です。残念ながらこちらは平均ほど丸くおさまってはくれません。というのは、分散は「値の大きい *28_{これは「外れ値」に限らず、たとえば「データが偶然真の平均 µ よりも大きい方にたくさん出てしまった」場合など、}_{「平均の推定値}bµ = ¯x は真の 平均 µ より大きく」なることがあります。そのため、「真の平均 µ よりは結構離れている（ばらついている）」データが「平均の推定値bµ からはそ れほど離れていない（ばらついていない）」となって、ばらつきが過小評価されるのです。 *29_{このことの証明は省略します。} *30_{分散を過小評価すると、}_{「差がないものに有意差がつきやすくなる」ため、開発の人間は絶対にしてはいけません。} *31_{この点については、私の以前作成した資料（分散分析講義第１回：資料２「不偏推定量・UMVU と大数の法則」}_{）の中にも書きました。興味がおあ} りの方はそちらもお読みください。

(13)

方向に外れ値が出たとき、過小評価」されますが、困ったことに「値の小さい方向に外れ値が出た場合も、過小評価」してしまうからです。つまり、どのようなデータに対しても「過剰にフィットする」ように推定してしまうため、「何回くり返し測定しても、毎回小さい値」ということになります。そのため、先と同様に10,000回のくり返しをしたとしても、 [ σ2 M L+ \σ2M L,1+· · · + \σM L,99992 10000 < σ 2 となってしまうのです。ただし、これは「試験のくり返し回数を増やすことで偏りが是正されない」という風に言っているだけです。「１回あたりの試験の例数を増やす」ことには意味があります*32_{。この点は混乱しやすいのでご注意ください。} 直感的なご説明にとどめますが、要は「例数が多かったら、外れ値の１つや２つ入っていても『自然なデータ』と呼んでいいでしょう」ということです。「外れ値が入った状態が普通」であり、「それ以外のデータが、きちんと外れ値の補正をしてくれる」ので、毎回の過小評価具合がほとんどなくなるのです。さて、分散が不偏にならないことを式で捉えてみるとこういうことになります。真の平均値µが分かっている場合*33 f σ2₌ 1 n n ∑ i=1 (xi− µ)2 (8) はσ2_{の不偏推定量になります。これに対して、}_µ_{を最尤推定量}_{bµ = ¯x}_{で置き換えたものが分散の最尤推定量となります} ので、 [ σ2 M L= 1 n n ∑ i=1 (xi− bµ)2 (9) が分散を過小評価している、ということでした。(8)と(9)の２式は真の平均µを使うか平均値の推定値bµを使うか、以外の点は全く同じです。これらを見比べて解釈します。 (8)：「真の平均µ」を用いている ⇒ 「外れ値」があれば「平均から結構離れた値」と的確に評価される。 ⇒ 分散σ2_{が正しく推定できる}*34_。 (9)：「平均の推定値bµ」を用いている ⇒ bµが外れ値の方に引っ張られる ⇒ 外れ値から「µまでの距離」よりも「bµまでの距離」の方が短くなる ⇒ 外れ値のばらつきを過小評価する ⇒ 全体的にばらつきを過小評価する*35 と解釈できます*36_。

7.3 補足３：H

0

, H

1

のどちらでもよい状況のもとでの最尤推定量にする理由

尤度比検定統計量の分子において「対立仮説H1」ではなく「帰無仮説H0と対立仮説H1のどちらでもよい」のもとでの尤度関数を考えます。これを奇妙に感じられる方も多いと思いますが、具体例をご紹介すれば簡単にご理解いただけると思います。データが正規分布に従う、１群３例の場合を考えます。x11, x12, x13 ∼N (µ1, σ2), x21, x22, x23 ∼N (µ2, σ2)として、 *32_{この点少しややこしいですが、}_{「例数の小さい試験をくり返し回数を増やす」ことでは、 [}_σ2 M Lのバイアスは消去されませんが、「例数の大きい試験をくり返し回数を増やす」ことで、バイアスはほとんどなくなります。 *33_{現実的にはあり得ませんが、}_{「仮に」というお話です。} *34_{ここで「正しく」というのは「偏りなく」つまり不偏な推定になっている、という意味で使っています。} *35_{全体のばらつきの大きさは外れ値は大きく影響を受けますので、これは「大体」大丈夫です。} *36_{ご説明のわかりやすさのため「外れ値」ばかり取り上げていますが、これは「１つの点に注目してご説明した方が分かりやすい」という点に加え} て、「外れ値が分散（ばらつき）の大きさに大きく寄与している」という点もあります。そのため、外れ値を基本としてイメージを持っておいていただければ十分なのではないか、と考えています。なお、外れ値がない場合の普通のデータのばらつきも同様に過小評価されています。bµ の選び方 が「データに最もフィットするように」＝「ばらつきが少なくなるように」となっているため、結果的に分散を過小評価している、ということです。

(14)

仮説を H0: µ1= µ2 (= µとおく) H1: µ16= µ2 とします。このとき、たとえば x11= 20, x12= 30, x13= 22 x21= 25, x22= 18, x23= 29 となったとき、H1のもとでは、 c µ1= 1 3(20 + 30 + 22) = 24, cµ2= 1 3(25 + 18 + 29) = 24 となり、cµ1とcµ2が同じ値になってしまいます。ところがH1はµ16= µ2なので、これは推定値として妥当な値ではなくなってしまいます。このようなことが起きてしまうと面倒くさいので「H0でもH1でもよい」としておいて、cµ1=µc2となってしまったときには「H0：µ1= µ2も含んでいるから大丈夫」という風に対応しているのです。ちなみに、検定ベースで考えると、このような点推定値cµ1=cµ2の状況において、明らかに帰無仮説H0：µ1= µ2は棄却されません*37_{。ですので、分子を「}_H₁_{」にしたところで「}_H₀_でも_H₁_{でもよい」にしたところで、「帰無仮説が棄却され} ない部分を整備しただけ」で、「こうしたおかげで何かが棄却されやすくなる」などということは決して起こりません。従って、このようなことをしても誰かの不当な利益にはつながらないので、問題ないなのです。

8 おまけ：

Holmes

と最尤法

実は、かのSharlock Holmes*38_{氏の推理方法（のうちの１つ）が最尤法に近い、ということが彼自身の言葉から分かって} います。小説「バスカヴィル家の犬」の中で、自身の推理方法について彼はこう語っています*39_。

we balance the probabilies and choose the most likely

（確率をはかりにかけて、最も確からしいものを選ぶのです*40_）これは我々が4.2 最尤法の考え方で見ました「p = 0.1, 0.3, 0.5を入れて尤度関数（≒確率）が最も大きいものを選ぶ」というのとほとんど同じことを言っています。このように、最尤法は人間の思考方法のモデルとしても使用可能な理論なのです*41_。 *37_{5.1「尤度関数を比べる」ということで見ました通り、このとき} L1₍_µ_c 1,µc2, cσ21|x) L0₍_{bµ, c}_σ2 0|x) ≒ 1 となります（厳密には「=1」が成り立ちます）。 *38_{シャーロック・ホームズ。欧米人の人名は基本的にアルファベット表記にします。} *39_{出典は「シャーロック・ホームズの推理学」}_{（講談社現代新書：内井惣七著）です。英文はそのまま持ってきましたが、和訳は私がアレンジしまし} た。この本には「科学的思考」というものの本質的な部分に確率・統計がいかに深く関与しているか、ということが丁寧に書いてあります。統計を仕事にしている（勉強している）ことを誇りに思いたい（誇りを強めたい）方はぜひご一読ください。 *40_{Holmes の場合の大雑把な例をあげますと、たとえば「A さんが犯人」}_{「B さんが犯人」}_{「C さんが犯人」の確率をそれぞれ計算して、}_{「確率が最も} 大きい人が犯人」ということになります。 *41_{ちなみに、Holmes は推理の際に「知識」の重要性をよく説いています。これより、彼の推理は最尤法というよりその一般化と考えられる Bayes} （ベイズ）統計を用いている、と考える方が厳密だと思われます。つまり、「尤度関数」と「事前分布（事前情報）」から「事後分布」を求めて、事後分布に対して「確率をはかりにかけて、最も確からしいものを選ぶ」という方法です。

* n x 11,, x 1n N(µ 1, σ 2 ) x 21,, x 2n N(µ 2, σ 2 ) H 0 µ 1 = µ 2 (= µ ) H 1 µ 1 µ 2 H 0, H 1 *2 σ 2 σ 2 0, σ 2 1 *1 *2 H 0 H

最尤法と尤度比検定について

計算特訓第５回：補助資料

1

土居正明

1

はじめに

1.1

本稿の内容など

1.2

本稿を読まれる際にあった方が良い知識

1.3

本稿の表現について

2

尤度比検定の計算方法

2.1

計算方法

2.2

まとめ：尤度比検定の計算

3

例題

4

最尤法について

4.1

(i)

尤度関数の定義

4.2

(ii)

最尤法の考え方

5

尤度比検定とは

5.1

「尤度関数を比べる」ということ

6

（狭い意味での）尤度比検定の統計量と棄却限界について

6.1

（狭い意味での）尤度比検定統計量

6.2

尤度比検定の棄却域

7

補足

7.1

補足１：尤度関数が確率（密度）関数の積にならない例

7.2

補足２：最尤推定量の弱点

7.3

補足３：H

, H

のどちらでもよい状況のもとでの最尤推定量 にする理由

8

おまけ：

Holmes

と最尤法

* n x 11,, x 1n N(µ 1, σ 2 ) x 21,, x 2n N(µ 2, σ 2 ) H 0 µ 1 = µ 2 (= µ ) H 1 µ 1 µ 2 H 0, H 1 2 σ 2 σ 2 0, σ 2 1 1 *2 H 0 H

のどちらでもよい状況のもとでの最尤推定量にする理由