シリーズ臨床心理学研究と統計学 4. サンプルサイズと検定力分析

(1)

シリーズ臨床心理学研究と統計学 4. サンプルサイズと検定力分析

著者井上俊哉

雑誌名東京家政大学附属臨床相談センター紀要

巻 7

ページ 57‑62

発行年 2007

出版者東京家政大学附属臨床相談センター

URL http://id.nii.ac.jp/1653/00010040/

(2)

シリーズ臨床心理学研究と統計学

4．サンプルサイズと検定力分析

井上俊哉 Shunya INOUE

以下では，2つの独立な平均値差のt検定（両側検定）を例に話を進めるが，ここでの議論は，

ほかの検定の場合にも当てはまる。

1．サンプルサイズが小さいと何が問題なのか？

10人の被験者を各群5人ずつに分けてt検定をしたと聞いたら，「サンプルサイズが小さい（＝

被験者数が少ない）な」という印象を持つかもしれない。では，サンプルサイズが小さいと何が問題なのだろうか？

1．1正規分布からの逸脱に対する頑健性

サンプルサイズが小さいことの不都合の1つとして，検定の頑健性に依拠しにくくなることが挙げられる。頑健性（robustness）については，このシリーズの第2回（井上，2005［1］）で触れたが，

「想定されたモデルが必ずしも正しくない場合に，そのモデルを仮定して適用された統計的手法のモデルの逸脱に対する鈍感さを表す概念」であ

る（芝ほか，1984［2］）。Glass and Hopkins（1996）［3］

は，正規性，等分散，独立というt検定の重要な 3つの仮定について，仮定からの逸脱がt検定に与える影響を調べた研究結果を概観し，たとえば正規性について，「両側検定の場合にはほとんど気にしなくてよく，片側検定の場合でも小さい方

の群で20以上のサンプルサイズがあれば頑健である」とまとめている。もちろん，母集団分布が

確かに正規分布であれば，サンプルサイズが小さくてもt検定を用いることに原理的な問題はないのだが，現実の研究では母集団分布が正規分布であることを確信できない場合が多く，頑健性の議論はありがたい。（等分散，独立からの逸脱に対する頑健性については，井上［1］，Glass＆

Hopkins［3］などを参照のこと）

サンプルサイズが小さいことの，さらに大きな問題は，検定における第2種の誤りの確率が大き

くなることである。

1．2検定における2種類の誤り

仮説検定を勉強したことのある人ならば，検定では「第1種の誤り（Type I error）」と「第2種の誤り（Type II error）」という2通りの誤りを犯

しうることを，学んでいると思う（表1）。

第1種の誤りの確率，すなわち，H。が真であるときに誤ってHoを棄却する（「2群の母集団平均が等しいのに，平均値差が有意であると結論する」）確率は，検定を用いる人がかならず設定する有意水準αにほかならない。したがって，この誤りの確率は，サンプルサイズとは無関係に，5％

表1検定における2種類の誤り

教養部情報処理研究室

Hoが真 Hoが偽

Hoを採択正しい決定第2種の誤り

Hoを棄却第1種の誤り正しい決定

(3)

シリーズ臨床心理学研究と統計学 4．サンプルサイズと検定力分析

や1％といった小さな確率に保たれる。

第2種の誤りの確率，すなわち，Hoが偽であるときに誤ってHoを採択する（「2群の母集団平均に差があるのに，平均値差は有意でないと結論する」）確率は，αに対してβで表される。研究では，母集団平均に差があると信じ，検定によってそれを実証しようと望むことが多いから，βを小さくすることは，研究者にとって重大な関心事でなければならない。ところが実際には，検定に際して有意水準αを報告することは常識なのに，β はあまり（まったく？）意識されない。その最大の理由は，「αを決めなければ検定ができないのに対して，βを知らなくても検定できてしまう」

ことにあると思われる。しかも，αは研究者が自ら決めればよいが，βを求めるには面倒な計算が必要である。第2種の誤りの確率βは，サンプルサイズや設定された有意水準によっても変化するので，βを求めるには，「μiとp2の差はどの程度なのか」「サンプルサイズはいくつなのか」「有意水準は何％なのか」を考慮しなければならないのである（表2）。

1．3サンプルサイズとβ

ここで，シミュレーションによって，βの大きさを概算してみよう。現実場面では母集団の平均

表2αとβの比較

を知ることはできない（だからこそ検定によって結論を導こうとする）が，シミュレーションでは母集団平均などの条件を既知のものとして設定し，その条件下で多数回の実験を繰り返し，t統計量の分布の様子などを確かめることができる。

ここで考えるシミュレーションは以下のようなものである（［シミュレーション1］）。

2つの学習条件における母集団の平均をそれぞれ40点と42点，母集団の標準偏差をともに8点に設定し，それぞれの母集団から 5名ずつのサンプルを抽出してtを計算することを50，000回繰り返す。そして，有意水準5％のt検定（両側）を行うとき，第2種の誤りを犯す割合を求める。

α

第1種の誤りの確率第2種の誤りの確率仮説を棄却（「平均値に有意

ｷあり」と結論）したときに，犯ｵているかもしれない誤り

仮説を採択（「平均値に有意ｷなし」と結論）したときに，犯ｵているかもしれない誤り Hoのもとでのtの分布（t分布）

繧ﾅ求められる

Hlのもとでのtの分布（非心t ｪ布）上で求められる検定をする人が決める

i計算は不要）

効果量，サンプルサイズ，αの蛯ｫさによって変化

i計算が必要）

5％や1％といった小さな確率ﾉ保たれる

場合によっては，とても大きな m率になる

図1中のヒストグラムは，シミュレートされた 50，000個のtの分布，曲線は自由度8（＝5＋5−2）の t分布である。仮説検定では，Hoが真である（母集団平均が等しい）ことを前提として，自由度 n1＋n2−2のt分布上で採択域と棄却域を決める。

今の例では，自由度8のt分布をもとにして，

−2．31から2．31の範囲が採択域となる。ヒストグラムのうち，この採択域に含まれる部分の割合がβをシミュレートした値と考えられるが，図1 においてその割合は0．93378にもなる。

つまり，［シミュレーション1］の状況下では，本当は母集団平均に差があるのに，90％以上の確率で，検定の結果は有意にならない。

今の例では2群各5人とサンプルサイ

ズが小さかったが，サンプルサイズを大

きくすれば，βの値を小さくすることが

できる。ほかの条件は変えずに各群のサ

ンプルサイズを50人ずつに増やした

［シミュレーション2］の結果は，図2

(4)

の通りで，この場合のβは，0．76526にまで小さくなっている（それでも，まだかなり大きいが）。

以上から，つぎのことがわかる。

・サンプルサイズが十分でないとき，第2種の誤りを犯す確率は非常に大きいかもしれない。

・サンプルサイズを大きくすれば，第2種の誤りを犯す確率を下げることができる。

2．有意水準と効果量の影響

サンプルサイズだけではなく，「有意水準」および「Piとp2の差」も，第2種の誤りの確率の大きさに影響する。

2．1有意水準とβ

まず，有意水準αと第2種の誤りの確率βの関係を見てみよう。有意水準を変えるということは，

棄却域・採択域の大きさを変えるということである。有意水準を5％から1％へと小さくすると棄却域が狭まり，第1種の誤りを犯す確率は小さくなるが，採択域は広がって，第2種の誤りを犯す確率βは大きくなってしまう（図1または図2を見ながらイメージしてもらいたい）。βを小さくするには有意水準を大きくすればよいのだが，代償として第1種の誤りの確率αは大きくなってしま

う。

一4 −2 0 2 4

t

図2μ1qO，μ2＝42，σ＝8， n1＝n2＝50

・第1種の誤りの確率αと第2種の誤りの確率β の間には，一方を小さくすると他方が大きくなるという関係がある。

2．2効果量とβ

っぎに，「Piとμ2の差」とβの関係について，シミュレーションで確かめてみよう。2群の母集団平均を，40と42のかわりに40と48に変えて，

サンプルサイズは各群とも50名で［シミュレーション3］を行った結果が図3である。有意水準 5％のときのβは0．00178で，「Piとp2の差」のほかは同じ条件だった［シミュレーション2］と比べて格段に小さくなっている。

2つのシミュレーションの比較から，歯とp2の差，すなわちμi一μ2の絶対値が大きいほど，βが小さくなることが示されるが，Pi−p2の大きさには，測定単位に依存するという問題がある。たと

−4 −2 o 2 4

図1μ1＝40，p2＝42，σ＝8， n1＝n2・も

一4 −2 0 2 4

図3μ1＝40，μ，＝4s，σ＝8， n1＝n2＝50

(5)

シリーズ臨床心理学研究と統計学 4．サンプルサイズと検定力分析

えば，被験者を2つの学習条件に無作為に割り当てたのち同じ課題に取り組んでもらい，学習に要した時間を測定するという実験を考えよう。2群の所要時間の母集団平均の差が30秒であるとする。つまり，測定単位を「秒」にとるかぎりは，

Pi−p2＝30である。ところが，30秒は0．5分と表すこともでき，測定単位を「分」にすると，Pi

−p2＝0．5になってしまう。このように，実質は全く同じ差であるのに，測定単位次第で，Pi一μ2 の大きさは変わる。この例のように測定対象が時間であれば，測定単位をすべて「秒」に換算することで単位を共通化することも可能だが，多くの心理学的尺度には，「分」や「秒」あるいは「cm」

「kg」などの絶対的な単位が存在しないため，揃える単位を決めることは事実上不可能である。

この問題は，Pi一μ2のかわりに， Pi−p2を2群

に共通の母集団標準偏差σで割ったd＝μ1一μ2 σ

を用いることで解決できる。dは「効果量」「標準化された平均値差」あるいは「Cohenのd」と

よばれ，測定単位に依存しない。時間の例でいえば，同じデータを「秒」で表した場合と「分」で表した場合とでは，標準偏差の大きさが60：1になるため，30秒も0．5分も効果量に換算すると同じ値になる。われわれのシミュレーションに関しては，最初の2っでは，Pi＝40， p2＝42，σ＝8であったから効果量は（（40−42）／8＝）−0．25，最後の例ではPi＝40， p2＝48，σ＝8であったから効果量

亭ま（（40−48）／8＝）−1．00

になる。βの大きさを表34種類の検定力分析効果量の関数として定

式化すれば，測定の標準偏差を気にすることなく，以下のように一般化することができる。

・効果量の絶対値が大きいほど，第2種の誤りを犯す確率は低くなる。

効果量はそれ自体とても興味深い指標であり，

このシリーズの第1回でも簡単に触れた（井上，

2004［4］）が，さらに次回で詳しく取り上げる予定である。

3検定力分析 3．1検定力

ここまで，サンプルサイズ，有意水準，効果量と第2種の誤りの確率との関係を概観してきたが，統計学の分野では，1一βを検定力（power）とよび（検出力と訳されることもある），βよりも 1一βとサンプルサイズ，有意水準，効果量の関係を議論することが多い。

検定力，サンプルサイズ，有意水準，効果量の 4つの値の間には，どれか3つが決まると残りの 1つが決まるという関係があり，この関係を分析することは検定力分析とよばれる。検定力分析は，

①有意水準，効果量，サンプルサイズの関数としての検定力；②効果量，有意水準，検定力の関数としてのサンプルサイズ；③有意水準，サンプルサイズ，検定力の関数としての効果量；④サンプルサイズ，検定力，効果量の関数としての有意水準の4種類を考えることができる（Cohen，

1988［5］）（表3）が，役立っことが多いのは①あるいは②の検定力分析である。①の検定力分析を行えば，すでに行われた検定（あるいはこれから

x ⇒ y G糟ower 3に

@ ｝・

有意水準，効果量，サンプルサイズ ⇒検定力 Post hoc

■−

̀Priori 一一 Sensitivity

一一■一

Tンプルサイズ，検定力，効果量 ⇒有意水準 ^Criterion

(6)

行おうとする検定）にっいて，有意水準，サンプルサイズ，研究で期待されている効果量の見積りから，検定力を算出できる。

研究の計画段階では，効果量を見積り，有意水準を設定し，確保したい検定力を決めた状態で，

必要なサンプルサイズを決めるという②の検定力分析がとくに重要である。他の条件が同じならばサンプルサイズが大きいほど検定力は高くなるが，サンプルサイズは多ければ多いほどよいとは，一概に言えない。むやみに多くの被験者を集めることは，労力，時間，必要経費のいずれの観点からもコストが高くつく。また，無理な収集はデータに偏りをもたらすおそれがあるし，実質的にほとんど意味のない微少な効果量であっても高い確率で有意になることは，必ずしも望ましい

ことではない。したがって，研究を始める前に，

適切なサンプルサイズを知ることの価値は高い。

3．2効果量の見積り

②の検定力分析における最初の難関は，効果量の見積りである。効果量概念に慣れないと，いくつになるのか，まるで見当がつかないだろう。効果量を見積もる上で知っておいて損のないポイ

ントを3つ挙げておく。

・母集団の平均値差（μ1一μ2）および2群に共通と仮定される母集団の標準偏差σについて見当をつけられるならば，式μ1一μ2によって，大 σ

雑把な効果量を求めることができる。

・近年，英文誌では効果量の推定値を報告する論文が増えており，複数の研究から得られた標本効果量を1つの値に統合するメタ分析も普及している。関心のある変数を含む先行研究が存在するならば，効果量を見積もる上で役に立っ。

・Cohen（1988）は，効果量の大きさについて，小さい効果量＝0．2；中程度の効果量＝0．5；大き

な効果量＝0．8という目安を与えている。多くの心理学研究における効果量の中央値は約0．5 になるという報告もある（Lipsey＆Wilson，

2001［6］）。

3．3有意水準の決定

すでに触れたように，αとβの間には相反する関係がある。研究では，目的に応じてαの値が先に決められる。慣習上，αは10％，5％，1％のいずれかに設定されることが多いが，この中では 10％にとると検定力はもっとも高くなり，1％に

とると検定力はもっとも低くなる。同じ検定力を確保するには，α＝1％のときに大きなサンプルサイズが必要になる。

3．4検定力の決定

有意差が得られたときに「母集団平均に差があることが確認された」として議論を進めるために，

仮説検定においては，第1種の誤り（母集団平均に差がないのに有意差があると結論する誤り）の確率を小さくすることが非常に大事になる。第2 種ゐ誤りも，「誤り」であるからには確率を小さ

くすべきであるが，αと比べるとやや大きめに設定されることが多い。よく用いられるのは，検定力80％（第2種の誤りの確率20％）という数字である。有意差を検出する確率を高めたい場合には，検定力を90％，95％などにすればよいが，

その分大きなサンプルサイズが要求される。

3．5適切なサンプルサイズの算出

以上が決まれば，いよいよサンプルサイズの計算である。手順について，芝・南風原（1990）［7］

の10章や永田（2003）［8］などが参考になるものの，

適用するのはなかなか難しい。Cohen（1988）［5］に検定力分析の結果が表として載せられているので，これを用いる手もあるが，一番のおすすめはフリーソフトG＊Powerの利用である（2007年2

月現在における最新バv・・一一ジョンはG＊Power3。

(7)

シリーズ臨床心理学研究と統計学 4．サンプルサイズと検定力分析

http：／／www．psycho．uni−duesseldorf． de／aap／projects

／gpower／）。

G＊Powerは英語版だがとても使いやすく，先に挙げた4種類の検定力分析のすべてを簡単に実行できる（表3参照）。今回のシミュレーション

2の状況（α＝0．05，d＝−O．25， nl＝n2＝50）を例にと

り，Post hoc分析で計算してみると，検定力は 25％足らず（0．235780）であり，この計画では有意差を得る確率は十分でないことがわかる。では，

検定力を80％まで上げるにはサンプルサイズをいくつにすればよいか？この問いに答えるために，APriori分析を行うと，2群のそれぞれに253 名という，かなり大きなサンプルサイズが必要で

あることが，たちどころにわかる。

引用・参考文献

［1］井上俊哉2005ティ検定の頑健性東京家政大学附属臨床相談センター紀要第5集，

［2］

［3］

［4］

［5］

［6］

［7］

［8］

PP．91−97．

芝祐順・渡部洋・石塚智一1984統計用語辞典新曜社．

Glass，G．V．，＆Hopkins，K．D．1996 Sta tisitica／

Methods in educatrbn and psychology 3 d ed．

Allyn＆Bacon．

井上俊哉2004平均値差をめぐって東京家政大学附属臨床相談センター紀要第4

集，pp．69−74．

Cohen，J．1988 Sta tistica！poPmer ana！ysis for the behavforal sciencθs．2 d ed． Lawrence Erlbaum Associates．

Lipsey，M．W．，＆Wilson，D．B．2001 Practica／

metaI−ana！ysis． S age．

芝祐順・南風原朝和1990行動科学における統計解析法東京大学出版会．

永田靖2003サンプルサイズの決め方朝

倉書店．

シリーズ臨床心理学研究と統計学 4. サンプルサイ ズと検定力分析

シリーズ臨床心理学研究と統計学 4. サンプルサイ ズと検定力分析

著者 井上 俊哉

雑誌名 東京家政大学附属臨床相談センター紀要

巻 7

ページ 57‑62

発行年 2007

出版者 東京家政大学附属臨床相談センター

URL http://id.nii.ac.jp/1653/00010040/

シリーズ臨床心理学研究と統計学

4．サンプルサイズと検定力分析

井 上 俊 哉 Shunya INOUE

以下では，2つの独立な平均値差のt検定（両 側検定）を例に話を進めるが，ここでの議論は，

ほかの検定の場合にも当てはまる。

1．サンプルサイズが小さいと何が問題なのか？

10人の被験者を各群5人ずつに分けてt検定を したと聞いたら，「サンプルサイズが小さい（＝

被験者数が少ない）な」という印象を持つかもし れない。では，サンプルサイズが小さいと何が問 題なのだろうか？

1．1正規分布からの逸脱に対する頑健性

サンプルサイズが小さいことの不都合の1つ として，検定の頑健性に依拠しにくくなることが 挙げられる。頑健性（robustness）については，こ のシリーズの第2回（井上，2005［1］）で触れたが，

「想定されたモデルが必ずしも正しくない場合 に，そのモデルを仮定して適用された統計的手法 のモデルの逸脱に対する鈍感さを表す概念」であ

る（芝ほか，1984［2］）。Glass and Hopkins（1996）［3］

の群で20以上のサンプルサイズがあれば頑健で ある」とまとめている。もちろん，母集団分布が

Hopkins［3］などを参照のこと）

サンプルサイズが小さいことの，さらに大きな 問題は，検定における第2種の誤りの確率が大き

くなることである。

1．2検定における2種類の誤り

仮説検定を勉強したことのある人ならば，検定 では「第1種の誤り（Type I error）」と「第2種 の誤り（Type II error）」という2通りの誤りを犯

しうることを，学んでいると思う（表1）。

表1検定における2種類の誤り

教養部情報処理研究室

Hoが真 Hoが偽

Hoを採択 正しい決定 第2種の誤り

Hoを棄却 第1種の誤り 正しい決定

シリーズ臨床心理学研究と統計学 4．サンプルサイズと検定力分析

や1％といった小さな確率に保たれる。

1．3サンプルサイズとβ

ここで，シミュレーションによって，βの大き さを概算してみよう。現実場面では母集団の平均

表2αとβの比較

ここで考えるシミュレーションは以下のような ものである（［シミュレーション1］）。

α

第1種の誤りの確率 第2種の誤りの確率 仮説を棄却（「平均値に有意

ｷあり」と結論）したときに，犯 ｵているかもしれない誤り

仮説を採択（「平均値に有意 ｷなし」と結論）したときに，犯 ｵているかもしれない誤り Hoのもとでのtの分布（t分布）

繧ﾅ求められる

Hlのもとでのtの分布（非心t ｪ布）上で求められる 検定をする人が決める

i計算は不要）

効果量，サンプルサイズ，αの 蛯ｫさによって変化

i計算が必要）

5％や1％といった小さな確率 ﾉ保たれる

場合によっては，とても大きな m率になる

今の例では，自由度8のt分布をもとにして，

−2．31から2．31の範囲が採択域となる。ヒスト グラムのうち，この採択域に含まれる部分の割合 がβをシミュレートした値と考えられるが，図1 においてその割合は0．93378にもなる。

つまり，［シミュレーション1］の状況 下では，本当は母集団平均に差があるの に，90％以上の確率で，検定の結果は有 意にならない。

今の例では2群各5人とサンプルサイ

ズが小さかったが，サンプルサイズを大

きくすれば，βの値を小さくすることが

できる。ほかの条件は変えずに各群のサ

ンプルサイズを50人ずつに増やした

［シミュレーション2］の結果は，図2

の通りで，この場合のβは，0．76526にまで小さ くなっている（それでも，まだかなり大きいが）。

以上から，つぎのことがわかる。

・サンプルサイズが十分でないとき，第2種の誤 りを犯す確率は非常に大きいかもしれない。

・サンプルサイズを大きくすれば，第2種の誤り を犯す確率を下げることができる。

2．有意水準と効果量の影響

サンプルサイズだけではなく，「有意水準」お よび「Piとp2の差」も，第2種の誤りの確率の大 きさに影響する。

2．1有意水準とβ

まず，有意水準αと第2種の誤りの確率βの関 係を見てみよう。有意水準を変えるということは，

t

図2μ1qO，μ2＝42，σ＝8， n1＝n2＝50

・第1種の誤りの確率αと第2種の誤りの確率β の間には，一方を小さくすると他方が大きくな るという関係がある。

2．2効果量とβ

っぎに，「Piとμ2の差」とβの関係について，シ ミュレーションで確かめてみよう。2群の母集団 平均を，40と42のかわりに40と48に変えて，

サンプルサイズは各群とも50名で［シミュレー ション3］を行った結果が図3である。有意水準 5％のときのβは0．00178で，「Piとp2の差」のほ かは同じ条件だった［シミュレーション2］と比 べて格段に小さくなっている。

2つのシミュレーションの比較から，歯とp2の 差，すなわちμi一μ2の絶対値が大きいほど，βが 小さくなることが示されるが，Pi−p2の大きさに は，測定単位に依存するという問題がある。たと

図1μ1＝40，p2＝42，σ＝8， n1＝n2・も

図3μ1＝40，μ，＝4s，σ＝8， n1＝n2＝50

シリーズ臨床心理学研究と統計学 4．サンプルサイズと検定力分析

Pi−p2＝30である。ところが，30秒は0．5分と表 すこともでき，測定単位を「分」にすると，Pi

「kg」などの絶対的な単位が存在しないため，揃 える単位を決めることは事実上不可能である。

この問題は，Pi一μ2のかわりに， Pi−p2を2群

シリーズ臨床心理学研究と統計学 4. サンプルサイズと検定力分析

シリーズ臨床心理学研究と統計学 4. サンプルサイズと検定力分析

著者井上俊哉

雑誌名東京家政大学附属臨床相談センター紀要

出版者東京家政大学附属臨床相談センター

井上俊哉 Shunya INOUE

以下では，2つの独立な平均値差のt検定（両側検定）を例に話を進めるが，ここでの議論は，

10人の被験者を各群5人ずつに分けてt検定をしたと聞いたら，「サンプルサイズが小さい（＝

被験者数が少ない）な」という印象を持つかもしれない。では，サンプルサイズが小さいと何が問題なのだろうか？

サンプルサイズが小さいことの不都合の1つとして，検定の頑健性に依拠しにくくなることが挙げられる。頑健性（robustness）については，このシリーズの第2回（井上，2005［1］）で触れたが，

「想定されたモデルが必ずしも正しくない場合に，そのモデルを仮定して適用された統計的手法のモデルの逸脱に対する鈍感さを表す概念」であ

の群で20以上のサンプルサイズがあれば頑健である」とまとめている。もちろん，母集団分布が

サンプルサイズが小さいことの，さらに大きな問題は，検定における第2種の誤りの確率が大き

仮説検定を勉強したことのある人ならば，検定では「第1種の誤り（Type I error）」と「第2種の誤り（Type II error）」という2通りの誤りを犯

Hoを採択正しい決定第2種の誤り

Hoを棄却第1種の誤り正しい決定

ここで，シミュレーションによって，βの大きさを概算してみよう。現実場面では母集団の平均

ここで考えるシミュレーションは以下のようなものである（［シミュレーション1］）。

第1種の誤りの確率第2種の誤りの確率仮説を棄却（「平均値に有意

ｷあり」と結論）したときに，犯ｵているかもしれない誤り

仮説を採択（「平均値に有意ｷなし」と結論）したときに，犯ｵているかもしれない誤り Hoのもとでのtの分布（t分布）

Hlのもとでのtの分布（非心t ｪ布）上で求められる検定をする人が決める

効果量，サンプルサイズ，αの蛯ｫさによって変化

5％や1％といった小さな確率ﾉ保たれる

−2．31から2．31の範囲が採択域となる。ヒストグラムのうち，この採択域に含まれる部分の割合がβをシミュレートした値と考えられるが，図1 においてその割合は0．93378にもなる。

つまり，［シミュレーション1］の状況下では，本当は母集団平均に差があるのに，90％以上の確率で，検定の結果は有意にならない。

の通りで，この場合のβは，0．76526にまで小さくなっている（それでも，まだかなり大きいが）。

・サンプルサイズが十分でないとき，第2種の誤りを犯す確率は非常に大きいかもしれない。

・サンプルサイズを大きくすれば，第2種の誤りを犯す確率を下げることができる。

サンプルサイズだけではなく，「有意水準」および「Piとp2の差」も，第2種の誤りの確率の大きさに影響する。

まず，有意水準αと第2種の誤りの確率βの関係を見てみよう。有意水準を変えるということは，

・第1種の誤りの確率αと第2種の誤りの確率β の間には，一方を小さくすると他方が大きくなるという関係がある。

っぎに，「Piとμ2の差」とβの関係について，シミュレーションで確かめてみよう。2群の母集団平均を，40と42のかわりに40と48に変えて，

サンプルサイズは各群とも50名で［シミュレーション3］を行った結果が図3である。有意水準 5％のときのβは0．00178で，「Piとp2の差」のほかは同じ条件だった［シミュレーション2］と比べて格段に小さくなっている。

2つのシミュレーションの比較から，歯とp2の差，すなわちμi一μ2の絶対値が大きいほど，βが小さくなることが示されるが，Pi−p2の大きさには，測定単位に依存するという問題がある。たと

Pi−p2＝30である。ところが，30秒は0．5分と表すこともでき，測定単位を「分」にすると，Pi

「kg」などの絶対的な単位が存在しないため，揃える単位を決めることは事実上不可能である。

を用いることで解決できる。dは「効果量」「標準化された平均値差」あるいは「Cohenのd」と

になる。βの大きさを表34種類の検定力分析効果量の関数として定

式化すれば，測定の標準偏差を気にすることなく，以下のように一般化することができる。

・効果量の絶対値が大きいほど，第2種の誤りを犯す確率は低くなる。

2004［4］）が，さらに次回で詳しく取り上げる予定である。

検定力，サンプルサイズ，有意水準，効果量の 4つの値の間には，どれか3つが決まると残りの 1つが決まるという関係があり，この関係を分析することは検定力分析とよばれる。検定力分析は，

1988［5］）（表3）が，役立っことが多いのは①あるいは②の検定力分析である。①の検定力分析を行えば，すでに行われた検定（あるいはこれから

@ ｝・

Tンプルサイズ，検定力，効果量 ⇒有意水準 ^Criterion

行おうとする検定）にっいて，有意水準，サンプルサイズ，研究で期待されている効果量の見積りから，検定力を算出できる。

研究の計画段階では，効果量を見積り，有意水準を設定し，確保したい検定力を決めた状態で，

②の検定力分析における最初の難関は，効果量の見積りである。効果量概念に慣れないと，いくつになるのか，まるで見当がつかないだろう。効果量を見積もる上で知っておいて損のないポイ

・母集団の平均値差（μ1一μ2）および2群に共通と仮定される母集団の標準偏差σについて見当をつけられるならば，式μ1一μ2によって，大 σ

・Cohen（1988）は，効果量の大きさについて，小さい効果量＝0．2；中程度の効果量＝0．5；大き

な効果量＝0．8という目安を与えている。多くの心理学研究における効果量の中央値は約0．5 になるという報告もある（Lipsey＆Wilson，

とると検定力はもっとも低くなる。同じ検定力を確保するには，α＝1％のときに大きなサンプルサイズが必要になる。

有意差が得られたときに「母集団平均に差があることが確認された」として議論を進めるために，

仮説検定においては，第1種の誤り（母集団平均に差がないのに有意差があると結論する誤り）の確率を小さくすることが非常に大事になる。第2 種ゐ誤りも，「誤り」であるからには確率を小さ

以上が決まれば，いよいよサンプルサイズの計算である。手順について，芝・南風原（1990）［7］

適用するのはなかなか難しい。Cohen（1988）［5］に検定力分析の結果が表として載せられているので，これを用いる手もあるが，一番のおすすめはフリーソフトG＊Powerの利用である（2007年2

G＊Powerは英語版だがとても使いやすく，先に挙げた4種類の検定力分析のすべてを簡単に実行できる（表3参照）。今回のシミュレーション

り，Post hoc分析で計算してみると，検定力は 25％足らず（0．235780）であり，この計画では有意差を得る確率は十分でないことがわかる。では，

検定力を80％まで上げるにはサンプルサイズをいくつにすればよいか？この問いに答えるために，APriori分析を行うと，2群のそれぞれに253 名という，かなり大きなサンプルサイズが必要で

［1］井上俊哉2005ティ検定の頑健性東京家政大学附属臨床相談センター紀要第5集，

芝祐順・渡部洋・石塚智一1984統計用語辞典新曜社．