• 検索結果がありません。

日本経営システム学会

N/A
N/A
Protected

Academic year: 2021

シェア "日本経営システム学会"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

統計的検定における多重比較に関する一考察

名古屋大学 古橋 武

A Study on Multiple Comparisons in Statistical Test

Nagoya University Takeshi Furuhashi

1 はじめに 多重比較は研究者にとって間違いやすく,いさ さかならずややこしい問題である.本稿は統計的 検定における多重性の問題について,全て Excel のシミュレーションによる具体例を紹介しながら, 多重比較法の基本的な考え方を解説する.シミュ レーションは Excel2007 を用いている.本稿中の Excel ファイルは全て次の URL よりダウンロード できる. http://www.echo.nuee.nagoya-u.ac.jp/~furuhasi/educat ion/multiple_comparison/index.html 多重比較法の進展は,各手法が提案された順序 を無視すれば,FWER = αを確保しながら,いかに して閾値を緩めるか,という観点から見ることが できる.シダックの方法は事象間が独立であると して閾値を決定している.テューキーの方法は, 事象間に相関がある検定において,閾値を緩めて いる.下位検定法(ヘイター・フィッシャー方法)は上位検定 法(分散分析)よりもデータ群数を1 つ減らして 閾値を決定でき,閾値を緩められる.ホルムの方 法では,この考えを推し進めて,データ群数を 1 つずつ減らしながら下位検定を繰り返すことで, 閾値のさらなる緩和を実現している.FDR は FWER とは異なる新しい発想で,閾値の大幅緩和 に成功している.本稿では,これらの手法をシミュレ ーション例を付して紹介する.本稿の最後では,多重 比較法を深く理解するための課題を提示する. 2 多重性の問題 帰無仮説が正しかったのに棄却してしまう過誤 は第 1 種の過誤と呼ばれる.逆に対立仮説が正し かったのに帰無仮説を棄却しない確率は第 2 種の 過誤と呼ばれる.通常,統計的検定は第1 種の過 誤の確率を有意水準以下とする. 図 2.1は1 つの組の中でステューデントの t 検 定を2 回繰り返すことを 1000 組について実施する シ ミ ュ レ ー シ ョ ン 画 面 の 抜 粋 で あ る . 図 説 の xxx.xlsm はこのシミュレーション用の Excel のフ ァイル名である.多重比較とは1 つの組の中で検 定を複数回繰り返すことである.図の例では,独 立な事象X1,X2の母分散をそれぞれµ1,µ2とする と,帰無仮説H1, H2を 𝐻𝐻1: 𝜇𝜇1= 𝜇𝜇0 𝐻𝐻2: 𝜇𝜇2= 𝜇𝜇0 (2.1) としている.ここで,帰無仮説H1, H2はファミリ ーと呼ばれる.多重比較におけるFamily-wise Error Rate (FWER)は FWER = 𝑃𝑃𝑃𝑃 {𝑉𝑉 ≥ 1} (2.2) と定義される.V は帰無仮説のファミリーの中で2.1 ステューデントのt 検定を2回繰り返 すことを1000組実施するシミュレー ションの画面 (t検定(2事象)のシミュレーション .xlsm)

(2)

る確率である. 各事象のサンプルサイズn = 9 である.セル B7B15 に事象 X1の第1 組のサンプル値が計算され ている.各サンプル値はNORMDIST(RAND(), µ0, σ0)関数により平均µ0,標準偏差σ0の正規乱数が生 成されている.µ0とσ0はセルB4, C4 にてそれぞれ 1 に指定されている.セル B16 で平均値 𝑥𝑥̅1が,セ ルB17 で不偏分散𝑣𝑣𝑒𝑒2が計算されている.セルB18 では 𝑡𝑡1= 𝑥𝑥̅1− 𝜇𝜇0 �𝑣𝑣𝑒𝑒2/𝑛𝑛 (2.3) により検定統計量が計算されている.この t 値は 自由度8 (= n - 1)の t 分布に従うことが知られてい る.また,セルB19 では TDIST(t, n-1, 2)関数によ り両側検定の場合のp 値が求められている.ここ で,3 番目の引数の 2 は両側検定の指定である. セルB20 では p 値がセル F4 の有意水準を下回っ た場合に1 が出力される.この例では,セル B20 が1 であるので,第 1 組の事象 X1の帰無仮説H1 は棄却されている.サンプルはµ0とσ0に従った正 規乱数であるので,正しい帰無仮説が棄却された ので,ここで第1 種の過誤が起きている. C 列のセル C6~C20 では事象 X2の 9 個のサン プルに対して t 検定が実施されている.セル B21 ではB20,C20 の少なくともいずれかで 1 となっ た場合に1 が出力される.これが 1 であれば,帰 無仮説のファミリーの中で第1 種の過誤が起きた ことを意味する. この Excel ファイルではセル B5~C21 を横に 1000 組コピーしてある.セル B23 では第 21 行目 の中の1 の数を数えて,全体の組数 1000 で割り, 第1 種の過誤の起きた頻度が求められている.そ れぞれの検定における閾値をαとすると 2 重の検 定の場合のFWER は FWER = 1 − (1 − α)2 (2.4) となる.セルF4 にてα = 0.05と設定されているの ンでは確率的ゆらぎが大きいので,この1000 組の シミュレーションを100 回繰り返すマクロを作成 して,第1 種の過誤の確率の平均値を求め,その 95%信頼区間を計算した.マクロは当該 Excel フ ァイルのメニューバーの「開発」→「マクロ」→ 「実行」とクリックすることで実行できる.マク ロの中身は「実行」の代わりに「編集」をクリッ クすることで見ることができる.結果を第26 行目 に示す.第1 種の過誤の確率の真値が 95%の確率 で0.0959~0.1003 の範囲内にあることが分かる. 図 2.2は,独立な事象X1, X2の場合のt 分布の 結合確率密度関数の鳥瞰図(同図(a))と等高線を 描いた平面図(同図(b))である.ステューデント のt 検定において,両側検定の場合,p 値 = 0.05 に対応する検定統計量t = 2.306 である.図 2.3は 図2.2 において,|t| > 2.306 の領域を示す.鳥瞰図 では|t| < 2.306 の領域の値を 0 としている.|t| > 2.306 の領域は小さな山として残っている.平面図 図2.2 独立な事象X1, X2の 場合のt 分布の 結合確率密度関数 (a) 鳥瞰図 (b) 平面図 t1 t2

(3)

図2_2では|t| > 2.306 の領域を黒く塗ってある.第 1 種の過誤の確率は|t| > 2.306 の領域の体積で与え られる.この体積が0.0975 である. このように1 つの組の中で検定を複数回繰り返 すことで,第 1 種の過誤が有意水準αを超えてし まう問題が多重性の問題と呼ばれる. 3 多重比較法[1, 2, 3] 多重比較法は,有意水準をαとすると FWER ≤ α (3.1) とする手法である. 3.1 シダックの方法[4] 同じ組の中で検定を 2 回繰り返す例を取りあげ る.事象X1, X2は独立とする.帰無仮説のファミ リーは 𝐻𝐻𝑖𝑖:𝜇𝜇𝑖𝑖 = 𝜇𝜇0 𝑖𝑖 = 1, 2 (3.2) である.(2.4)式において,FWER = 0.05 とする閾 値をα'とすると α′= 1 − (1 − FWER)12 = 0.0253 (3.3) と求められる.α' は名義水準と呼ばれる.シダッ クの方法は,各検定のp 値が名義水準 α' を下回 った場合に帰無仮説を棄却する.この方法は, FWER = α を保証する. 図 3.1 はシダックの方法により 2 重の検定を 1000 組実施するシミュレーション画面の抜粋で ある.図2.1 との違いは,各検定における p 値の 閾値をセルG4 にて名義水準 α' = 0.0253 としてい る点だけである.第20 行目の各セルでは,p 値が α' を下回った場合に 1 が出力されている.第 26 行目より,FWER = 0.05 となる結果が得られてい る. 図 3.2は図2.3 と比較すると,閾値 ta' = 2.743 と して,黒塗りの部分を狭くしてある.この|t| > |ta'| の領域が,事象X1, X2の少なくとも一方において 検定統計量の|t|値が閾値を超えた場合に,対応す る帰無仮説を棄却する領域である.この領域の体 積を0.05 (= FWER) としている. なお,ボンフェローニの方法はシダックの方法 の簡略法である.同じ組の中でN 回検定を繰り返 す場合は α′= FWER/𝑁𝑁 (3.4) とする.ボンフェローニの方法は(3.3)式をN 回検 定を繰り返す場合に拡張した場合と較べて 図2.3 t 検定を2重に繰り返す場合の第1 種の過誤の領域(tα= 2.306) tα -tα tα -tα (a) 鳥瞰図 (b) 平面図 t1 t2 図3.1 シダックの方法による 検定を1000 組実施するシミュレーションの画 面 (シダックの方法(2事象)のシミュレーション.xlsm)

(4)

FWER/𝑁𝑁 < 1 − (1 − 𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹)1/𝑁𝑁 (3.5) が常に成立する.計算機が身近になかった時代に は便利な方法であった. 3.2 テューキーの方法[5] 前節の例では,検定対象である事象X1, X2の平 均値は独立であった.検定の課題には各事象の母 平均の差の検定がある.帰無仮説のファミリーを 𝐻𝐻12:𝜇𝜇1= 𝜇𝜇2 𝐻𝐻13:𝜇𝜇1= 𝜇𝜇3 𝐻𝐻23:𝜇𝜇2= 𝜇𝜇3 (3.6) とする.事象X1, X2, X3が互いに独立であっても, 平均値の差𝑋𝑋�1− 𝑋𝑋�2, 𝑋𝑋�1− 𝑋𝑋�3, 𝑋𝑋�2− 𝑋𝑋�3には従属関係 がある. の平均値の差についてt 検定を 3 回繰り返すこと を,1000 組実施した場合のシミュレーション結果 で あ る . セ ル B19, C19, D19 でそれぞれ𝑥𝑥̅1 𝑥𝑥̅2, 𝑥𝑥̅1− 𝑥𝑥̅3, 𝑥𝑥̅2− 𝑥𝑥̅3が計算されている.セル B20, C20, D20 の検定統計量 qij (i, j = 1, 2, 3, 𝑖𝑖 ≠ 𝑗𝑗)は次 式による. 𝑞𝑞𝑖𝑖𝑖𝑖= �𝑥𝑥� − 𝑥𝑥𝚤𝚤 ��/�2𝑣𝑣𝚥𝚥 𝐸𝐸2/𝑛𝑛 (3.7) ただし,𝑣𝑣𝐸𝐸2は各事象の不偏分散の平均値であり, 平均平方と呼ばれる.検定統計量qijは,データ群 数(事象の数)をN, 各事象のサンプルサイズを n とすると,自由度 ν = 𝑁𝑁(𝑛𝑛 − 1) (3.8) のt 分布に従う.図 3.3 の例では N = 3, n = 9 であ る.セルF4 の閾値 q0は,TINV(α, N(n-1)) (ただし, α = 0.05)によって求められた値である.もし,平 均値の差𝑋𝑋�1− 𝑋𝑋�2, 𝑋𝑋�1− 𝑋𝑋�3, 𝑋𝑋�2− 𝑋𝑋�3が互いに独立で あれば,(2.4)式を参考に,FWER=0.143 となると 期待されるが,これらには従属関係があるため, FWER の 95%信頼区間は 0.1152~0.1198 と得られ ている. 図 3.4はN = 3, n = 9 のデータを 1 千万組生成し て,q12値とq13値の分布を求めた結果である.q12値 と q13値の結合確率密度関数の鳥瞰図と平面図であ る.図中の縞模様は等高線である.q12と q13は独立 ではないため結合確率分布は楕円形状となっている. テューキーの方法は,検定統計量 |qij| の最大値 qmax の確率分布から, FWER = 𝑃𝑃{𝑞𝑞𝑚𝑚𝑚𝑚𝑚𝑚≥ 𝑞𝑞𝑚𝑚𝑚𝑚𝑚𝑚0} = 𝛼𝛼 (3.9) とする閾値qmax0を与える.α = 0.05 のとき qmax0 はステューデント化された範囲の 5%点と呼ばれ る.qmax0 は解析的には求められないため[1][3],数 値計算により求められた数表が作成されている. このステューデント化された範囲の 5%点の数表 よりN = 3, ν =24 のとき 𝑞𝑞𝑚𝑚𝑚𝑚𝑚𝑚0= 3.532/√2 = 2.498 (3.10) と与えられる.図 3.5はこの閾値により第1 種の 過誤が起きる領域を黒く塗りつぶして示す.実際 にはq23値の軸を加えた 4 次元空間内の黒色部分の 図3.2 シダックの方法(tα’= 2.743) tα’ - tα’ tα’ - tα’ t1 図3.3 平均値の差の検定(3事象,多重比較を 考慮せず)を1000組実施するシミュレーション (平均値の差の検定(3事象)シミュレーション.xlxm)

(5)

超体積が 0.05 (=FWER)となる.なお,数表の値を 1/√2倍して用いるのは,数表が作られた歴史的経 緯によるようである. 図 3.6 はテューキーの方法による検定を 1000 組実施するシミュレーション結果である.図 3.3 との違いは,セルF4 に qmax0の値が与えられた点 だけである.第21 行目にて(3.7)式のqijの絶対値 がqmax0の値を超えた場合に,その平均値の差に有 意差有りとしている.27 行目に求められているよ うに,FWER ≈ 0.05 が得られている. 4 上位検定と下位検定 N 重比較の FWER = αとする閾値は,N が大き くなるとともに厳しくなり,仮説の有意差が出に くくなる.上位検定・下位検定と呼ばれる手法が あるが,これを閾値緩和の視点で見ていく. 4.1 分散分析(上位検定)[6] 一元配置の分散分析について紹介する.帰無仮 説のファミリーを 𝐻𝐻123:𝜇𝜇1= 𝜇𝜇2= 𝜇𝜇3 (4.1) とする.このとき対立仮説は 対立仮説:𝜇𝜇1≠ 𝜇𝜇2 or 𝜇𝜇1≠ 𝜇𝜇3 or 𝜇𝜇2≠ 𝜇𝜇3 (4.2) である.帰無仮説H123を棄却できる場合,対立仮 説のいずれかが有意であることが分かるが,どれ であるかは下位検定を実施しなければ分からない. 分散分析の検定統計量F は,データ群数が N, 各群のサンプルサイズが等しくn である場合 𝐹𝐹 =𝑆𝑆𝑆𝑆𝐴𝐴/(𝑁𝑁 − 1) 𝐸𝐸/(𝑛𝑛(𝑁𝑁 − 1)) (4.3) により与えられる.このF 値は自由度 N -1, n (N - 1)の F 分布に従う.ここで, 𝑆𝑆𝐴𝐴= � 𝑛𝑛(𝑥𝑥̅𝑖𝑖− 𝑥𝑥̅)2 𝑁𝑁 𝑖𝑖=1 𝑆𝑆𝐸𝐸= � ��𝑥𝑥𝑖𝑖𝑖𝑖− 𝑥𝑥̅𝑖𝑖�2 𝑛𝑛 𝑖𝑖=1 𝑁𝑁 𝑖𝑖=1 (4.4) 図3.4 平均値の差の q 値の結合確率密度関数 q q (a) 鳥瞰図 (b) 平面図 q12 q13 図3.5 テューキーの方法(qmax0= 2.498) qmax0 - qmax0 qmax0 - qmax0 q12 q13 図3.6 テューキーの方法(3事象)を1000組実 施するシミュレーション (テューキーの方法(3事象)のシミュレーション.xlsm)

(6)

であり,SA, SEはそれぞれ水準間変動,水準内変動 と呼ばれる.𝑥𝑥̅は全体の平均値,𝑥𝑥̅𝑖𝑖はデータ群i の平 均値である. 図 4.1は分散分析による検定を1000組実施する シミュレーションの画面の抜粋である.N = 3,帰 無仮説が(4.1)式の場合である.セル B18, B19 で (4.4)式のSA, SEがそれぞれ計算され,セルB20 で (4.3)式のF 値が求められている.セル B21 では, このF 値から FDIST()関数により求められる p 値 がセル F4 に入力された有意水準を下回った場合 に1 が出力される.このとき帰無仮説 H123が棄却 される.第26 行目の 95%信頼区間より,FWER ≈ 0.05 であることが分かる. 4.2 ヘイター・フィッシャーの方法(下位検定)[7,8] 分散分析の結果,帰無仮説が棄却された場合, どの対立仮説が有意であるかを調べるのが下位検 定である.下位検定法にヘイター・フィッシャー の方法[7]がある.これは,データ群数がN で,各 群のサンプルサイズが等しい場合,データ群数N' = N - 1 と 1 つ減らしてテューキーの方法を適用す る方法である.元のデータ群数N = 3 の場合にの み適用できる下位検定法にフィッシャーの PLSD 法[8]があるが,ヘイター・フィッシャーの方法は 理由は次のように説明される.例えば4 群の場合 で各群の母平均がµ1 >> µ2, µ3, µ4であったとする. これらの平均値の差により,上位検定では有意差 有りとなる.このとき注意すべきは,µ2 - µ3, µ2 - µ4, µ3 - µ4については「検定されずに」下位検定に渡 されることである.そこで,下位検定ではデータ 群数N' = 4 ではなく,N' = 3 として,µ2 - µ3, µ2 - µ4, µ3 - µ4について多重性を考慮した検定を行えば十 分である.なお,µ1 - µ2, µ1 - µ3, µ1 - µ4に関しては 検定により有意差有りと出るが,これは正しい結 論であり,第1 種の過誤ではない. N = 4 とする.分散分析の帰無仮説は 𝐻𝐻1234:𝜇𝜇1= 𝜇𝜇2= 𝜇𝜇3= 𝜇𝜇4 (4.5) である.下位検定の帰無仮説のファミリーは 𝐻𝐻12:𝜇𝜇1= 𝜇𝜇2 𝐻𝐻13:𝜇𝜇1= 𝜇𝜇3 𝐻𝐻14:𝜇𝜇1= 𝜇𝜇4 𝐻𝐻23:𝜇𝜇2= 𝜇𝜇3 𝐻𝐻24:𝜇𝜇2= 𝜇𝜇4 𝐻𝐻34:𝜇𝜇3= 𝜇𝜇4 (4.6) である. 図 4.2は4 群の場合の上位検定を分散分析,下 位検定をヘイター・フィッシャーの方法として, 1000 組の検定を実施するシミュレーション画面 の抜粋である.第22 行目までで図 4.1 と同様の分 散分析がなされている.セルB26~E26, B27, C27 にて(3.7)式のq12, q13, q14, q23, q24, q34の値(サンプ ルサイズn = 9, 自由度ν = N(n - 1)= 32)が求められ, セルB28~E28, B29, C29 にてそれぞれセル E24 に 入力されている閾値qmax0 = 2.457 との比較がなさ れている.閾値 qmax0 はステューデント化された 範囲の数表より,データ群数N' = N - 1= 3, 自由度 ν = N(n - 1) = 32 のとき qmax0 =3.475/√2 = 2.457で ある.FWER ≈ 0.05 が達成されている. もし,上位検定を介さずに,4 群に対してテュ ーキーの方法を適用する場合は,数表よりN = 4, ν = 32 のとき qmax0 =3.832/√2 = 2.710であるので, ヘイター・フィッシャーの方法により閾値の緩和 が実現されている. 図4.1 分散分析(3事象)を1000組実施するシ ミュレーション (分散分析(3事象)のシミュレーション.slxm)

(7)

4.3 ホルムの方法[9] ホルムの方法は下位検定法として位置づけられ ているわけではないが,前節までの下位検定にお ける閾値緩和の考え方を発展させた方法として位 置づけることができる.すなわち,最も検定統計 量の絶対値の大きいものに多重比較法を適用し, 対応する帰無仮説を棄却できれば,データ群を 1 つ削減して閾値を緩和し,以降同様にして,多重 比較法の適用,対応する帰無仮説の棄却,閾値緩 和を繰り返す方法である. 簡単のため,帰無仮説のファミリーを 𝐻𝐻𝑖𝑖:𝜇𝜇𝑖𝑖= 𝜇𝜇0 𝑖𝑖 = 1, 2, ⋯ , 𝑁𝑁 (4.7) とする.3.1 節に記したボンフェローニの方法に対 して,以下の手順で閾値(名義水準)αth を緩和 する. (1) 帰無仮説 Hip 値の小さな順に並べる. 𝑝𝑝𝑖𝑖 ≤ 𝑝𝑝𝑘𝑘≤ ⋯ ≤ 𝑝𝑝𝑙𝑙 1 ≤ 𝑗𝑗, 𝑘𝑘, ⋯ , 𝑙𝑙 ≤ N (4.8) であったとする.i = j, t = N とする. (2) 名義水準αth = α/t とし,𝑝𝑝𝑖𝑖 < 𝛼𝛼𝑡𝑡ℎであれば,Hi を棄却し,(3)へ進む.𝑝𝑝𝑖𝑖 ≥ α𝑡𝑡ℎであれば,(4)へ 進む. (3) t ← t -1 とする.t = 0 であれば,(4)へ進む.(4.8) 式の順に,次に大きいp 値の添え字を i に代入 し,(2)へもどる. (4) 検定を終了する. 図 4.3はデータ群数N = 5, サンプルサイズ n = 9 の場合にホルムの方法を適用して,1000 組の検 定を繰り返すシミュレーション画面の抜粋である. 帰無仮説の数N = 5 である.セル D4 にて,FWER の有意水準 α = 0.05 が入力されている.第 23 行 目にて第21 行目の p 値が小さい順に並べ替えられ ている.セルB24 では,セル B23 の p 値がセル H4 の有意水準α5 = α/5 = 0.05/5 = 0.01 を下回った ので,有意差有りとして1 が出力されている.対 応する帰無仮説H3が棄却されている.もともと帰 無仮説が正しい設定であるので,ここで第1 種の 過誤が起きている.セルC24 ではセル C23 の p 値 がセルG4 の有意水準α4 = α/4 = 0.0125 より大きか ったので,0 が出力されている.結果として帰無 仮説H1, H2, H4, H5は棄却されず,検定が終了して いる.セルB25 では B24~F24 にて 1 回以上 1 が あるときに 1 が出力される.セル B27 では 1000 組の検定において第1 種の過誤が起きた頻度が求 められている.図の例では43 組で第 1 種の過誤が 起きていた. 図4.2 ヘイターフィッシャーの方法(4事象) を1000組実施するシミュレーション (ヘイター・フィッシャーの方法(4事象)のシミュレーション.xlsm) 図4.3 ホルムの方法(5事象)を1000組実施す るシミュレーション (ホルム(5事象)によるシミュレーション.xlsm)

(8)

マクロにより,この1000 組の検定を 100 回繰り 返して,第1 種の過誤の確率の 95%信頼区間を求 めた結果が第29 行目に表示されている.FWER ≈ 0.05 である. 図 4.4はホルムの方法とボンフェローニの方法 の閾値αthと検定の回数の関係を示す.ホルムの方 法により,検定の回数とともに閾値が緩和されて いく様子が分かる.他の方法の閾値は後述する. 5 FDR_TST 法[10, 11] 帰無仮説の数が増えると,検定の閾値が厳しく なり,有意差は出にくくなる.FWER を抑えると いう観点では問題ないのであるが,対立仮説の中 に真のものが含まれていても有意差なしとされる 第2 種の過誤の確率が高くなってしまう.ゲノム 解析などでは仮説の数に対してサンプルサイズが 小さく,有意差が出にくいことが問題となってい た.そこで,FWER そのものを見直す考え方とし

てFDR(False Discovery Rate)が提唱されている.

表 5.1は帰無仮説の棄却/保留と第1 種/第 2 種 の過誤の関係を表す.帰無仮説の数N の検定にお いて,帰無仮説が真である場合に帰無仮説を保留 した数が U,棄却した数が V,帰無仮説が偽であ る場合に帰無仮説を保留した数が T,棄却した数S である.V は第 1 種の過誤が起きた数であり, T は 第 2 種 の 過 誤 が 起 き た 数 で あ る . N = U+V+T+S の関係がある.また,帰無仮説を棄却 した総数がV+S である.FDR は FDR = 𝐹𝐹(𝑉𝑉/(𝑉𝑉 + 𝑆𝑆)) (5.1) と定義される.E(x)は x の期待値である.FDR は 採択した対立仮説の中に含まれる間違った対立仮 説の比率の期待値である.FDR に基づく検定では FDR ≤ 𝛼𝛼 (5.2) となるように,検定の閾値を緩和し, FWER > α (5.3) となることは許容する.FWER が上式のようであ っても,採択された対立仮説に含まれる誤った対 立仮説の比率が一定値以下であればそれでよしと する,新しい考えに基づく多重検定法である. 5.2 BH 法[10] FDR に基づく検定法の基本的方法は BH 法と呼 ばれる.簡単のため,帰無仮説のファミリーを 𝐻𝐻𝑖𝑖:𝜇𝜇𝑖𝑖= 𝜇𝜇0 𝑖𝑖 = 1, 2, ⋯ , 𝑁𝑁 (5.4) とする.以下の手順で検定を行う.なお,α' は次 節のTST 法では𝛼𝛼1′, 𝛼𝛼2′として与えられる. (BH1) 帰無仮説 Hip 値の大きな順に並べる. 𝑝𝑝𝑖𝑖 ≥ 𝑝𝑝𝑘𝑘≥ ⋯ ≥ 𝑝𝑝𝑙𝑙 1 ≤ 𝑗𝑗, 𝑘𝑘, ⋯ , 𝑙𝑙 ≤ 𝑁𝑁 (5.5) であったとする.i = j, t = N とする. (BH2) 名義水準αthを 𝛼𝛼𝑡𝑡ℎ= 𝛼𝛼′𝑡𝑡/𝑁𝑁 (5.6) とし,𝑝𝑝𝑖𝑖 < 𝛼𝛼𝑡𝑡ℎであれば,HiおよびHiよりp 値 の小さな帰無仮説を全て棄却し,(BH4)へ進む. 𝑝𝑝𝑖𝑖≥ α𝑡𝑡ℎであれば,Hiを保留して(BH3)へ進む. (BH3) t ← t - 1 とする.t = 0 であれば,(BH4)へ 進む.(5.5)式の順に,次に小さいp 値の添え字i に代入し,(BH2)へもどる. (BH4) 検定を終了する. 図4.4 ホルムの方法,ボンフェローニの方法, FDR_TST法,新手法(?)の閾値 (N = 5, E(V+S) = 1) 0 0.02 0.04 1 2 3 4 5 ボンフェロー ニの方法 FDR_TST法 検定 の回数 帰無仮説を保留 帰無仮説を棄却 計 帰無仮説 真 U 第1種の過誤 V U + V 帰無仮説 偽 第2種の過誤 T S T + SU + T V + S N5.1 帰無仮説の保留/棄却と第1/2種の過誤

(9)

5.3 TST (Two-stage linear step-up procedure)法[11] BH 法を 2 段階(Two-stage)で適用する方法(TST 法)が提案されている.TST 法は,1 段階目では BH 法をE(V + S)の推定に適用し,2 段階目で FDR ≈ αとする検定を行う.TST 法の手順は以下の通り である. (TST1) 𝛼𝛼1′ = α /(1 + α),として,BH 法を適用する. 棄却された帰無仮説の数をV + S とする.V + S = 0 であれば,(TST4)へ進む.V + S = N であれ ば,全ての帰無仮説を棄却して(TST4)へ進む. 0 < V + S < N であれば,(TST2)へ進む. (TST2) 𝐹𝐹�(𝑉𝑉 + 𝑆𝑆) = V + S として(TST3)へ進む. (TST3) 次式により𝛼𝛼2′を決定し,BH 法を適用する. 𝛼𝛼2′ = 𝛼𝛼1′× 𝑁𝑁/(𝑁𝑁 − 𝐹𝐹�(𝑉𝑉 + 𝑆𝑆)) (5.7) 終了したら(TST4)へ進む. (TST4) 検定を終了する. , 図 5.1はTST 法によるシミュレーション画面の 抜粋である.帰無仮説のファミリーは(5.4)式で, N = 10 である.ただし,10 のデータ群の内,事象 X8, X9, X10はセルD4 の平均値µ1を用いて正規乱数 が生成されている.表5.1 において S = 3 となる設 定である.第24 行目までが(TST1)の計算である. 第 23 行目で(BH1)の並べ替えがなされ,セル F4 にてα = 0.05 と与えられているので,セル G4~K6 にて(5.6)式によりαthが計算されている.第 24 行 目で(BH2), (BH3)の比較がなされ,セル B26 に V + S が得られている.(TST2)にてこの V + S を 𝐹𝐹�(𝑉𝑉 + 𝑆𝑆)としている.セル D26 と第 28, 29 行目で (TST3)が実行されている.セル D26 にて(5.7)式の 計算がなされ,第28 行目で(5.6)式の閾値が求めら れている.第 29 行目で各帰無仮説の p 値と閾値 αthの比較がなされている.第30 行目では,偽の 帰無仮説の数S = 3が分かっているとして,V/(V+S) が計算されている.図の例では1/4 = 0.25 である. 第35 行目の FDR の 95%信頼区間より,少し小さ めではあるがFDR≈ 𝛼𝛼の値が得られている. 図 4.4に帰無仮説のファミリーにおいてN = 5, 𝐹𝐹�(𝑉𝑉 + 𝑆𝑆) = 1 の場合の閾値と検定の回数の関係を 示してある.FDR_TST 法では,ホルムの方法より もさらに閾値の緩和が実現されている. 6 課題 以下のアルゴリズムを考えてみた.帰無仮説のフ ァミリーを 𝐻𝐻𝑖𝑖:𝜇𝜇𝑖𝑖= 𝜇𝜇0 𝑖𝑖 = 1, 2, ⋯ , 𝑁𝑁 (6.1) とする. (1) 帰無仮説 Hip 値の大きな順に並べる. 𝑝𝑝𝑖𝑖 ≥ 𝑝𝑝𝑘𝑘≥ ⋯ ≥ 𝑝𝑝𝑙𝑙 1 ≤ 𝑗𝑗, 𝑘𝑘, ⋯ , 𝑙𝑙 ≤ 𝑁𝑁 (6.2) であったとする.i = j, t = N とする. (2) 名義水準αthを 𝛼𝛼𝑡𝑡ℎ= 𝛼𝛼 (6.3) とし,𝑝𝑝𝑖𝑖 < 𝛼𝛼𝑡𝑡ℎであれば,HiおよびHiよりp 値 の小さな帰無仮説を全て棄却し,(5)へ進む. 𝑝𝑝𝑖𝑖≥ α𝑡𝑡ℎであれば,Hiを保留して(3)へ進む. (3) t ← t - 1 とする.t = 1であれば,(4)へ進む. (6.2)式の順に,次に小さいp 値の添え字を i に 代入し,(2)へもどる. (4) 名義水準αth1を 𝛼𝛼𝑡𝑡ℎ1= 𝑁𝑁(1 − 𝛼𝛼) 𝑁𝑁−1𝛼𝛼 + (1 − 𝛼𝛼)𝑁𝑁− (1 − 𝛼𝛼) 𝑁𝑁(1 − 𝛼𝛼)𝑁𝑁−1 (6.4) とする.𝑝𝑝𝑙𝑙 < 𝛼𝛼𝑡𝑡ℎ1であれば,Hlを棄却し,𝑝𝑝𝑙𝑙 α𝑡𝑡ℎ1であれば,Hlを保留して(5)へ進む. (5) 検定を終了する. 図5.1 FDR_TST法(N = 10, 1000組)のシミュレー ション (FDR_TST(10群)によるシミュレーション.xlsm)

(10)

ステップ(4)は FWER = αとなるように最後の段 階で調整している. 図 6.1はこの新手法(?)により,N = 5 の帰無 仮説のファミリーに対して,1000 組について検定 を実施するシミュレーション画面の抜粋である. セルF6 にてαth1の値が(6.4)式により計算されてい る.ただし,α = 0.05 である.このシミュレーシ ョンでは帰無仮説は全て正しい設定である.第30 行目においてFWER ≈ 0.05 である. 図 4.4にこの新手法(?)の閾値の変化の様子を 書き加えて示す.この手法は,FWER ≈ 0.05 を保 ちながら,閾値の大幅な緩和を実現している??? この手法は致命的な間違いを犯している.理由 は,本稿を前章まで読まれた方にはお分かりいた だけると思いますが,いかがでしょうか? 7 結論 本稿では Excel を用いたシミュレーションによ り多重性の問題を例示し,基本的な多重比較法の 解説を,閾値の緩和の観点から展開した. もとより,本稿ではカバーできなかった多重比 較法がたくさんある.別の機会に報告したい. [1] 広津千尋:「実験データの解析-分散分析を 超えて-」共立出版(1992) [2] 永田・吉田:「統計的多重比較法の基礎」サ イエンティスト社(1997) [3] 古橋武編:「統計・多変量解析とソフトコン ピューティング(改訂版)」共立出版(2014)

[4] N. Salkind(Ed.): BonferroniTest, Encyclopedia of Measurement and Statistics, Vol.1, pp.103-107 (2007)

[5] H. I. Braun(Ed.): The Collected Works of John W. Tukey, Vol. III Multiple Comparisons: 1948--1983, Chapman & Hall (1994)

[6] 石村貞夫:「分散分析のはなし」東京図書 (1992)

[7] A. J. Hayter: The Maximum Familywise Error Rate of Fisher's least Significant Difference Test, J. of American Statistical Association, Vol. 81, No. 396, pp.1000-1004 (1986)

[8] N. Salkind(Ed.): Fisher's LSD, Encyclopedia of Measurement and Statistics, Vol.1, pp.359-360 (2007)

[9] S. Holm: A Simple Sequentially Rejective Multiple Test procedure, Scandinavian J. of Statistics, Vol. 6, No. 2, pp.65-70 (1979)

[10] Y. Benjamini and Y. Hochberg: Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing, J. of the Royal Statistical Society. Series B(Methodological), Vol. 57, No. 1, pp.289-300 (1995)

[11] Y. Benjamini, A. M. Krieger and D. Yekutieli: Adaptive Linear Step-up Procedures that Control the False Discovery Rate, Biometrika, Vol. 93, No. 3, pp. 491-507 (2006) 図6.1新手法(?)(N = 5, 1000組)のシミュレー

ション

表 5.1 は帰無仮説の棄却/保留と第 1 種/第 2 種 の過誤の関係を表す.帰無仮説の数 N の検定にお いて,帰無仮説が真である場合に帰無仮説を保留 した数が U,棄却した数が V,帰無仮説が偽であ る場合に帰無仮説を保留した数が T,棄却した数 が S である.V は第 1 種の過誤が起きた数であり, T は 第 2 種 の 過 誤 が 起 き た 数 で あ る . N =  U+V+T+S の関係がある.また,帰無仮説を棄却 した総数が V+S である.FDR は  FDR =

参照

関連したドキュメント

[56] , Block generalized locally Toeplitz sequences: topological construction, spectral distribution results, and star-algebra structure, in Structured Matrices in Numerical

In terms of the i-invariants, the absolute p-adic Grothendieck conjecture is reduced to the following two

In what follows, we will combine the Hardy-Littlewood k-tuple conjecture with extreme value statistics to better predict the sizes of maximal gaps between prime k-tuples of any

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

Zhou, “Existence of multiple positive solutions of inhomogeneous semilinear elliptic problems in unbounded domains,” Proceedings of the Royal Society of Edinburgh. Section

This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on

While conducting an experiment regarding fetal move- ments as a result of Pulsed Wave Doppler (PWD) ultrasound, [8] we encountered the severe artifacts in the acquired image2.

After performing a computer search we find that the density of happy numbers in the interval [10 403 , 10 404 − 1] is at least .185773; thus, there exists a 404-strict