シリーズ臨床心理学研究と統計学 4. サンプルサイ ズと検定力分析
著者 井上 俊哉
雑誌名 東京家政大学附属臨床相談センター紀要
巻 7
ページ 57‑62
発行年 2007
出版者 東京家政大学附属臨床相談センター
URL http://id.nii.ac.jp/1653/00010040/
シリーズ臨床心理学研究と統計学
4.サンプルサイズと検定力分析
井 上 俊 哉 Shunya INOUE
以下では,2つの独立な平均値差のt検定(両 側検定)を例に話を進めるが,ここでの議論は,
ほかの検定の場合にも当てはまる。
1.サンプルサイズが小さいと何が問題なのか?
10人の被験者を各群5人ずつに分けてt検定を したと聞いたら,「サンプルサイズが小さい(=
被験者数が少ない)な」という印象を持つかもし れない。では,サンプルサイズが小さいと何が問 題なのだろうか?
1.1正規分布からの逸脱に対する頑健性
サンプルサイズが小さいことの不都合の1つ として,検定の頑健性に依拠しにくくなることが 挙げられる。頑健性(robustness)については,こ のシリーズの第2回(井上,2005[1])で触れたが,
「想定されたモデルが必ずしも正しくない場合 に,そのモデルを仮定して適用された統計的手法 のモデルの逸脱に対する鈍感さを表す概念」であ
る(芝ほか,1984[2])。Glass and Hopkins(1996)[3]
は,正規性,等分散,独立というt検定の重要な 3つの仮定について,仮定からの逸脱がt検定に 与える影響を調べた研究結果を概観し,たとえば 正規性について,「両側検定の場合にはほとんど 気にしなくてよく,片側検定の場合でも小さい方
の群で20以上のサンプルサイズがあれば頑健で ある」とまとめている。もちろん,母集団分布が
確かに正規分布であれば,サンプルサイズが小さ くてもt検定を用いることに原理的な問題はない のだが,現実の研究では母集団分布が正規分布で あることを確信できない場合が多く,頑健性の議 論はありがたい。(等分散,独立からの逸脱に対 する頑健性については,井上[1],Glass&
Hopkins[3]などを参照のこと)
サンプルサイズが小さいことの,さらに大きな 問題は,検定における第2種の誤りの確率が大き
くなることである。
1.2検定における2種類の誤り
仮説検定を勉強したことのある人ならば,検定 では「第1種の誤り(Type I error)」と「第2種 の誤り(Type II error)」という2通りの誤りを犯
しうることを,学んでいると思う(表1)。
第1種の誤りの確率,すなわち,H。が真であ るときに誤ってHoを棄却する(「2群の母集団平 均が等しいのに,平均値差が有意であると結論す る」)確率は,検定を用いる人がかならず設定す る有意水準αにほかならない。したがって,この 誤りの確率は,サンプルサイズとは無関係に,5%
表1検定における2種類の誤り
教養部情報処理研究室
Hoが真 Hoが偽
Hoを採択 正しい決定 第2種の誤り
Hoを棄却 第1種の誤り 正しい決定
シリーズ臨床心理学研究と統計学 4.サンプルサイズと検定力分析
や1%といった小さな確率に保たれる。
第2種の誤りの確率,すなわち,Hoが偽であ るときに誤ってHoを採択する(「2群の母集団平 均に差があるのに,平均値差は有意でないと結論 する」)確率は,αに対してβで表される。研究で は,母集団平均に差があると信じ,検定によって それを実証しようと望むことが多いから,βを小 さくすることは,研究者にとって重大な関心事で なければならない。ところが実際には,検定に際 して有意水準αを報告することは常識なのに,β はあまり(まったく?)意識されない。その最大 の理由は,「αを決めなければ検定ができないの に対して,βを知らなくても検定できてしまう」
ことにあると思われる。しかも,αは研究者が自 ら決めればよいが,βを求めるには面倒な計算が 必要である。第2種の誤りの確率βは,サンプル サイズや設定された有意水準によっても変化す るので,βを求めるには,「μiとp2の差はどの程度 なのか」「サンプルサイズはいくつなのか」「有 意水準は何%なのか」を考慮しなければならない のである(表2)。
1.3サンプルサイズとβ
ここで,シミュレーションによって,βの大き さを概算してみよう。現実場面では母集団の平均
表2αとβの比較
を知ることはできない(だからこそ検定によって 結論を導こうとする)が,シミュレーションでは 母集団平均などの条件を既知のものとして設定 し,その条件下で多数回の実験を繰り返し,t統 計量の分布の様子などを確かめることができる。
ここで考えるシミュレーションは以下のような ものである([シミュレーション1])。
2つの学習条件における母集団の平均を それぞれ40点と42点,母集団の標準偏差を ともに8点に設定し,それぞれの母集団から 5名ずつのサンプルを抽出してtを計算する ことを50,000回繰り返す。そして,有意水 準5%のt検定(両側)を行うとき,第2種 の誤りを犯す割合を求める。
α
第1種の誤りの確率 第2種の誤りの確率 仮説を棄却(「平均値に有意
キあり」と結論)したときに,犯 オているかもしれない誤り
仮説を採択(「平均値に有意 キなし」と結論)したときに,犯 オているかもしれない誤り Hoのもとでのtの分布(t分布)
繧ナ求められる
Hlのもとでのtの分布(非心t ェ布)上で求められる 検定をする人が決める
i計算は不要)
効果量,サンプルサイズ,αの 蛯ォさによって変化
i計算が必要)
5%や1%といった小さな確率 ノ保たれる
場合によっては,とても大きな m率になる
図1中のヒストグラムは,シミュレートされた 50,000個のtの分布,曲線は自由度8(=5+5−2)の t分布である。仮説検定では,Hoが真である(母 集団平均が等しい)ことを前提として,自由度 n1+n2−2のt分布上で採択域と棄却域を決める。
今の例では,自由度8のt分布をもとにして,
−2.31から2.31の範囲が採択域となる。ヒスト グラムのうち,この採択域に含まれる部分の割合 がβをシミュレートした値と考えられるが,図1 においてその割合は0.93378にもなる。
つまり,[シミュレーション1]の状況 下では,本当は母集団平均に差があるの に,90%以上の確率で,検定の結果は有 意にならない。
今の例では2群各5人とサンプルサイ
ズが小さかったが,サンプルサイズを大
きくすれば,βの値を小さくすることが
できる。ほかの条件は変えずに各群のサ
ンプルサイズを50人ずつに増やした
[シミュレーション2]の結果は,図2
の通りで,この場合のβは,0.76526にまで小さ くなっている(それでも,まだかなり大きいが)。
以上から,つぎのことがわかる。
・サンプルサイズが十分でないとき,第2種の誤 りを犯す確率は非常に大きいかもしれない。
・サンプルサイズを大きくすれば,第2種の誤り を犯す確率を下げることができる。
2.有意水準と効果量の影響
サンプルサイズだけではなく,「有意水準」お よび「Piとp2の差」も,第2種の誤りの確率の大 きさに影響する。
2.1有意水準とβ
まず,有意水準αと第2種の誤りの確率βの関 係を見てみよう。有意水準を変えるということは,
棄却域・採択域の大きさを変えるということであ る。有意水準を5%から1%へと小さくすると棄 却域が狭まり,第1種の誤りを犯す確率は小さく なるが,採択域は広がって,第2種の誤りを犯す 確率βは大きくなってしまう(図1または図2を 見ながらイメージしてもらいたい)。βを小さくす るには有意水準を大きくすればよいのだが,代償 として第1種の誤りの確率αは大きくなってしま
う。
一4 −2 0 2 4
t
図2μ1qO,μ2=42,σ=8, n1=n2=50
・第1種の誤りの確率αと第2種の誤りの確率β の間には,一方を小さくすると他方が大きくな るという関係がある。
2.2効果量とβ
っぎに,「Piとμ2の差」とβの関係について,シ ミュレーションで確かめてみよう。2群の母集団 平均を,40と42のかわりに40と48に変えて,
サンプルサイズは各群とも50名で[シミュレー ション3]を行った結果が図3である。有意水準 5%のときのβは0.00178で,「Piとp2の差」のほ かは同じ条件だった[シミュレーション2]と比 べて格段に小さくなっている。
2つのシミュレーションの比較から,歯とp2の 差,すなわちμi一μ2の絶対値が大きいほど,βが 小さくなることが示されるが,Pi−p2の大きさに は,測定単位に依存するという問題がある。たと
−4 −2 o 2 4
図1μ1=40,p2=42,σ=8, n1=n2・も
一4 −2 0 2 4
図3μ1=40,μ,=4s,σ=8, n1=n2=50
シリーズ臨床心理学研究と統計学 4.サンプルサイズと検定力分析
えば,被験者を2つの学習条件に無作為に割り当 てたのち同じ課題に取り組んでもらい,学習に要 した時間を測定するという実験を考えよう。2群 の所要時間の母集団平均の差が30秒であるとす る。つまり,測定単位を「秒」にとるかぎりは,
Pi−p2=30である。ところが,30秒は0.5分と表 すこともでき,測定単位を「分」にすると,Pi
−p2=0.5になってしまう。このように,実質は全 く同じ差であるのに,測定単位次第で,Pi一μ2 の大きさは変わる。この例のように測定対象が時 間であれば,測定単位をすべて「秒」に換算する ことで単位を共通化することも可能だが,多くの 心理学的尺度には,「分」や「秒」あるいは「cm」
「kg」などの絶対的な単位が存在しないため,揃 える単位を決めることは事実上不可能である。
この問題は,Pi一μ2のかわりに, Pi−p2を2群
に共通の母集団標準偏差σで割ったd=μ1一μ2 σ
を用いることで解決できる。dは「効果量」「標 準化された平均値差」あるいは「Cohenのd」と
よばれ,測定単位に依存しない。時間の例でいえ ば,同じデータを「秒」で表した場合と「分」で 表した場合とでは,標準偏差の大きさが60:1に なるため,30秒も0.5分も効果量に換算すると 同じ値になる。われわれのシミュレーションに関 しては,最初の2っでは,Pi=40, p2=42,σ=8で あったから効果量は((40−42)/8=)−0.25,最後 の例ではPi=40, p2=48,σ=8であったから効果量
亭ま ((40−48)/8=)−1.00
になる。βの大きさを 表34種類の検定力分析 効果量の関数として定
式化すれば,測定の標 準偏差を気にすること なく,以下のように一 般化することができる。
・効果量の絶対値が大きいほど,第2種の誤りを 犯す確率は低くなる。
効果量はそれ自体とても興味深い指標であり,
このシリーズの第1回でも簡単に触れた(井上,
2004[4])が,さらに次回で詳しく取り上げる予定 である。
3検定力分析 3.1検定力
ここまで,サンプルサイズ,有意水準,効果量 と第2種の誤りの確率との関係を概観してきた が,統計学の分野では,1一βを検定力(power)と よび(検出力と訳されることもある),βよりも 1一βとサンプルサイズ,有意水準,効果量の関係 を議論することが多い。
検定力,サンプルサイズ,有意水準,効果量の 4つの値の間には,どれか3つが決まると残りの 1つが決まるという関係があり,この関係を分析 することは検定力分析とよばれる。検定力分析は,
①有意水準,効果量,サンプルサイズの関数とし ての検定力;②効果量,有意水準,検定力の関数 としてのサンプルサイズ;③有意水準,サンプル サイズ,検定力の関数としての効果量;④サンプ ルサイズ,検定力,効果量の関数としての有意水 準の4種類を考えることができる(Cohen,
1988[5])(表3)が,役立っことが多いのは①あ るいは②の検定力分析である。①の検定力分析を 行えば,すでに行われた検定(あるいはこれから
x ⇒ y G糟ower 3に
@ } ・
有意水準,効果量,サンプルサイズ ⇒検定力 Post hoc
■−
̀Priori 一一 Sensitivity
一一■一
Tンプルサイズ,検定力,効果量 ⇒有意水準 Criterion
行おうとする検定)にっいて,有意水準,サンプ ルサイズ,研究で期待されている効果量の見積り から,検定力を算出できる。
研究の計画段階では,効果量を見積り,有意水 準を設定し,確保したい検定力を決めた状態で,
必要なサンプルサイズを決めるという②の検定 力分析がとくに重要である。他の条件が同じなら ばサンプルサイズが大きいほど検定力は高くな るが,サンプルサイズは多ければ多いほどよいと は,一概に言えない。むやみに多くの被験者を集 めることは,労力,時間,必要経費のいずれの観 点からもコストが高くつく。また,無理な収集は データに偏りをもたらすおそれがあるし,実質的 にほとんど意味のない微少な効果量であっても 高い確率で有意になることは,必ずしも望ましい
ことではない。したがって,研究を始める前に,
適切なサンプルサイズを知ることの価値は高い。
3.2効果量の見積り
②の検定力分析における最初の難関は,効果量 の見積りである。効果量概念に慣れないと,いく つになるのか,まるで見当がつかないだろう。効 果量を見積もる上で知っておいて損のないポイ
ントを3つ挙げておく。
・母集団の平均値差(μ1一μ2)および2群に共通 と仮定される母集団の標準偏差σについて見当 をつけられるならば,式μ1一μ2によって,大 σ
雑把な効果量を求めることができる。
・近年,英文誌では効果量の推定値を報告する論 文が増えており,複数の研究から得られた標本 効果量を1つの値に統合するメタ分析も普及 している。関心のある変数を含む先行研究が存 在するならば,効果量を見積もる上で役に立っ。
・Cohen(1988)は,効果量の大きさについて,小 さい効果量=0.2;中程度の効果量=0.5;大き
な効果量=0.8という目安を与えている。多く の心理学研究における効果量の中央値は約0.5 になるという報告もある(Lipsey&Wilson,
2001[6])。
3.3有意水準の決定
すでに触れたように,αとβの間には相反する 関係がある。研究では,目的に応じてαの値が先 に決められる。慣習上,αは10%,5%,1%のい ずれかに設定されることが多いが,この中では 10%にとると検定力はもっとも高くなり,1%に
とると検定力はもっとも低くなる。同じ検定力を 確保するには,α=1%のときに大きなサンプルサ イズが必要になる。
3.4検定力の決定
有意差が得られたときに「母集団平均に差があ ることが確認された」として議論を進めるために,
仮説検定においては,第1種の誤り (母集団平均 に差がないのに有意差があると結論する誤り)の 確率を小さくすることが非常に大事になる。第2 種ゐ誤りも,「誤り」であるからには確率を小さ
くすべきであるが,αと比べるとやや大きめに設 定されることが多い。よく用いられるのは,検定 力80%(第2種の誤りの確率20%)という数字 である。有意差を検出する確率を高めたい場合に は,検定力を90%,95%などにすればよいが,
その分大きなサンプルサイズが要求される。
3.5適切なサンプルサイズの算出
以上が決まれば,いよいよサンプルサイズの計 算である。手順について,芝・南風原(1990)[7]
の10章や永田(2003)[8]などが参考になるものの,
適用するのはなかなか難しい。Cohen(1988)[5]に 検定力分析の結果が表として載せられているの で,これを用いる手もあるが,一番のおすすめは フリーソフトG*Powerの利用である(2007年2
月現在における最新バv・・一一ジョンはG*Power3。
シリーズ臨床心理学研究と統計学 4.サンプルサイズと検定力分析
http://www.psycho.uni−duesseldorf. de/aap/projects
/gpower/)。
G*Powerは英語版だがとても使いやすく,先に 挙げた4種類の検定力分析のすべてを簡単に実 行できる(表3参照)。今回のシミュレーション
2の状況(α=0.05,d=−O.25, nl=n2=50)を例にと
り,Post hoc分析で計算してみると,検定力は 25%足らず(0.235780)であり,この計画では有 意差を得る確率は十分でないことがわかる。では,
検定力を80%まで上げるにはサンプルサイズを いくつにすればよいか?この問いに答えるため に,APriori分析を行うと,2群のそれぞれに253 名という,かなり大きなサンプルサイズが必要で
あることが,たちどころにわかる。
引用・参考文献
[1]井上俊哉2005ティ検定の頑健性東京家 政大学附属臨床相談センター紀要第5集,
[2]
[3]
[4]
[5]
[6]
[7]
[8]
PP.91−97.
芝祐順・渡部洋・石塚智一1984統計用語 辞典新曜社.
Glass,G.V.,&Hopkins,K.D.1996 Sta tisitica/
Methods in educatrbn and psychology 3 d ed.
Allyn&Bacon.
井上俊哉2004平均値差をめぐって東京 家政大学附属臨床相談センター紀要第4
集,pp.69−74.
Cohen,J.1988 Sta tistica!poPmer ana!ysis for the behavforal sciencθs.2 d ed. Lawrence Erlbaum Associates.
Lipsey,M.W.,&Wilson,D.B.2001 Practica/
metaI−ana!ysis. S age.