• 検索結果がありません。

シリーズ臨床心理学研究と統計学 4. サンプルサイ ズと検定力分析

N/A
N/A
Protected

Academic year: 2021

シェア "シリーズ臨床心理学研究と統計学 4. サンプルサイ ズと検定力分析"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

シリーズ臨床心理学研究と統計学 4. サンプルサイ ズと検定力分析

著者 井上 俊哉

雑誌名 東京家政大学附属臨床相談センター紀要

巻 7

ページ 57‑62

発行年 2007

出版者 東京家政大学附属臨床相談センター

URL http://id.nii.ac.jp/1653/00010040/

(2)

シリーズ臨床心理学研究と統計学

4.サンプルサイズと検定力分析

井 上 俊 哉 Shunya INOUE

 以下では,2つの独立な平均値差のt検定(両 側検定)を例に話を進めるが,ここでの議論は,

ほかの検定の場合にも当てはまる。

1.サンプルサイズが小さいと何が問題なのか?

 10人の被験者を各群5人ずつに分けてt検定を したと聞いたら,「サンプルサイズが小さい(=

被験者数が少ない)な」という印象を持つかもし れない。では,サンプルサイズが小さいと何が問 題なのだろうか?

1.1正規分布からの逸脱に対する頑健性

 サンプルサイズが小さいことの不都合の1つ として,検定の頑健性に依拠しにくくなることが 挙げられる。頑健性(robustness)については,こ のシリーズの第2回(井上,2005[1])で触れたが,

「想定されたモデルが必ずしも正しくない場合 に,そのモデルを仮定して適用された統計的手法 のモデルの逸脱に対する鈍感さを表す概念」であ

る(芝ほか,1984[2])。Glass and Hopkins(1996)[3]

は,正規性,等分散,独立というt検定の重要な 3つの仮定について,仮定からの逸脱がt検定に 与える影響を調べた研究結果を概観し,たとえば 正規性について,「両側検定の場合にはほとんど 気にしなくてよく,片側検定の場合でも小さい方

の群で20以上のサンプルサイズがあれば頑健で ある」とまとめている。もちろん,母集団分布が

確かに正規分布であれば,サンプルサイズが小さ くてもt検定を用いることに原理的な問題はない のだが,現実の研究では母集団分布が正規分布で あることを確信できない場合が多く,頑健性の議 論はありがたい。(等分散,独立からの逸脱に対 する頑健性については,井上[1],Glass&

Hopkins[3]などを参照のこと)

 サンプルサイズが小さいことの,さらに大きな 問題は,検定における第2種の誤りの確率が大き

くなることである。

1.2検定における2種類の誤り

 仮説検定を勉強したことのある人ならば,検定 では「第1種の誤り(Type I error)」と「第2種 の誤り(Type II error)」という2通りの誤りを犯

しうることを,学んでいると思う(表1)。

 第1種の誤りの確率,すなわち,H。が真であ るときに誤ってHoを棄却する(「2群の母集団平 均が等しいのに,平均値差が有意であると結論す る」)確率は,検定を用いる人がかならず設定す る有意水準αにほかならない。したがって,この 誤りの確率は,サンプルサイズとは無関係に,5%

表1検定における2種類の誤り

教養部情報処理研究室

Hoが真 Hoが偽

Hoを採択 正しい決定 第2種の誤り

Hoを棄却 第1種の誤り 正しい決定

(3)

シリーズ臨床心理学研究と統計学 4.サンプルサイズと検定力分析

や1%といった小さな確率に保たれる。

 第2種の誤りの確率,すなわち,Hoが偽であ るときに誤ってHoを採択する(「2群の母集団平 均に差があるのに,平均値差は有意でないと結論 する」)確率は,αに対してβで表される。研究で は,母集団平均に差があると信じ,検定によって それを実証しようと望むことが多いから,βを小 さくすることは,研究者にとって重大な関心事で なければならない。ところが実際には,検定に際 して有意水準αを報告することは常識なのに,β はあまり(まったく?)意識されない。その最大 の理由は,「αを決めなければ検定ができないの に対して,βを知らなくても検定できてしまう」

ことにあると思われる。しかも,αは研究者が自 ら決めればよいが,βを求めるには面倒な計算が 必要である。第2種の誤りの確率βは,サンプル サイズや設定された有意水準によっても変化す るので,βを求めるには,「μiとp2の差はどの程度 なのか」「サンプルサイズはいくつなのか」「有 意水準は何%なのか」を考慮しなければならない のである(表2)。

1.3サンプルサイズとβ

 ここで,シミュレーションによって,βの大き さを概算してみよう。現実場面では母集団の平均

表2αとβの比較

を知ることはできない(だからこそ検定によって 結論を導こうとする)が,シミュレーションでは 母集団平均などの条件を既知のものとして設定 し,その条件下で多数回の実験を繰り返し,t統 計量の分布の様子などを確かめることができる。

ここで考えるシミュレーションは以下のような ものである([シミュレーション1])。

 2つの学習条件における母集団の平均を それぞれ40点と42点,母集団の標準偏差を ともに8点に設定し,それぞれの母集団から 5名ずつのサンプルを抽出してtを計算する ことを50,000回繰り返す。そして,有意水 準5%のt検定(両側)を行うとき,第2種 の誤りを犯す割合を求める。

α

第1種の誤りの確率 第2種の誤りの確率 仮説を棄却(「平均値に有意

キあり」と結論)したときに,犯 オているかもしれない誤り

仮説を採択(「平均値に有意 キなし」と結論)したときに,犯 オているかもしれない誤り Hoのもとでのtの分布(t分布)

繧ナ求められる

Hlのもとでのtの分布(非心t ェ布)上で求められる 検定をする人が決める

i計算は不要)

効果量,サンプルサイズ,αの 蛯ォさによって変化

i計算が必要)

5%や1%といった小さな確率 ノ保たれる

場合によっては,とても大きな m率になる

 図1中のヒストグラムは,シミュレートされた 50,000個のtの分布,曲線は自由度8(=5+5−2)の t分布である。仮説検定では,Hoが真である(母 集団平均が等しい)ことを前提として,自由度 n1+n2−2のt分布上で採択域と棄却域を決める。

今の例では,自由度8のt分布をもとにして,

−2.31から2.31の範囲が採択域となる。ヒスト グラムのうち,この採択域に含まれる部分の割合 がβをシミュレートした値と考えられるが,図1     においてその割合は0.93378にもなる。

    つまり,[シミュレーション1]の状況     下では,本当は母集団平均に差があるの     に,90%以上の確率で,検定の結果は有     意にならない。

     今の例では2群各5人とサンプルサイ

    ズが小さかったが,サンプルサイズを大

    きくすれば,βの値を小さくすることが

    できる。ほかの条件は変えずに各群のサ

    ンプルサイズを50人ずつに増やした

    [シミュレーション2]の結果は,図2

(4)

の通りで,この場合のβは,0.76526にまで小さ くなっている(それでも,まだかなり大きいが)。

 以上から,つぎのことがわかる。

・サンプルサイズが十分でないとき,第2種の誤  りを犯す確率は非常に大きいかもしれない。

・サンプルサイズを大きくすれば,第2種の誤り  を犯す確率を下げることができる。

2.有意水準と効果量の影響

 サンプルサイズだけではなく,「有意水準」お よび「Piとp2の差」も,第2種の誤りの確率の大 きさに影響する。

2.1有意水準とβ

 まず,有意水準αと第2種の誤りの確率βの関 係を見てみよう。有意水準を変えるということは,

棄却域・採択域の大きさを変えるということであ る。有意水準を5%から1%へと小さくすると棄 却域が狭まり,第1種の誤りを犯す確率は小さく なるが,採択域は広がって,第2種の誤りを犯す 確率βは大きくなってしまう(図1または図2を 見ながらイメージしてもらいたい)。βを小さくす るには有意水準を大きくすればよいのだが,代償 として第1種の誤りの確率αは大きくなってしま

う。

 一4        −2        0        2        4

        t

図2μ1qO,μ2=42,σ=8, n1=n2=50

・第1種の誤りの確率αと第2種の誤りの確率β  の間には,一方を小さくすると他方が大きくな  るという関係がある。

2.2効果量とβ

 っぎに,「Piとμ2の差」とβの関係について,シ ミュレーションで確かめてみよう。2群の母集団 平均を,40と42のかわりに40と48に変えて,

サンプルサイズは各群とも50名で[シミュレー ション3]を行った結果が図3である。有意水準 5%のときのβは0.00178で,「Piとp2の差」のほ かは同じ条件だった[シミュレーション2]と比 べて格段に小さくなっている。

 2つのシミュレーションの比較から,歯とp2の 差,すなわちμi一μ2の絶対値が大きいほど,βが 小さくなることが示されるが,Pi−p2の大きさに は,測定単位に依存するという問題がある。たと

 −4        −2        o        2        4

図1μ1=40,p2=42,σ=8, n1=n2・も

一4        −2        0        2        4

図3μ1=40,μ,=4s,σ=8, n1=n2=50

(5)

シリーズ臨床心理学研究と統計学 4.サンプルサイズと検定力分析

えば,被験者を2つの学習条件に無作為に割り当 てたのち同じ課題に取り組んでもらい,学習に要 した時間を測定するという実験を考えよう。2群 の所要時間の母集団平均の差が30秒であるとす る。つまり,測定単位を「秒」にとるかぎりは,

Pi−p2=30である。ところが,30秒は0.5分と表 すこともでき,測定単位を「分」にすると,Pi

−p2=0.5になってしまう。このように,実質は全 く同じ差であるのに,測定単位次第で,Pi一μ2 の大きさは変わる。この例のように測定対象が時 間であれば,測定単位をすべて「秒」に換算する ことで単位を共通化することも可能だが,多くの 心理学的尺度には,「分」や「秒」あるいは「cm」

「kg」などの絶対的な単位が存在しないため,揃 える単位を決めることは事実上不可能である。

 この問題は,Pi一μ2のかわりに, Pi−p2を2群

に共通の母集団標準偏差σで割ったd=μ1一μ2        σ

を用いることで解決できる。dは「効果量」「標 準化された平均値差」あるいは「Cohenのd」と

よばれ,測定単位に依存しない。時間の例でいえ ば,同じデータを「秒」で表した場合と「分」で 表した場合とでは,標準偏差の大きさが60:1に なるため,30秒も0.5分も効果量に換算すると 同じ値になる。われわれのシミュレーションに関 しては,最初の2っでは,Pi=40, p2=42,σ=8で あったから効果量は((40−42)/8=)−0.25,最後 の例ではPi=40, p2=48,σ=8であったから効果量

亭ま ((40−48)/8=)−1.00

になる。βの大きさを 表34種類の検定力分析 効果量の関数として定

式化すれば,測定の標 準偏差を気にすること なく,以下のように一 般化することができる。

・効果量の絶対値が大きいほど,第2種の誤りを  犯す確率は低くなる。

 効果量はそれ自体とても興味深い指標であり,

このシリーズの第1回でも簡単に触れた(井上,

2004[4])が,さらに次回で詳しく取り上げる予定 である。

3検定力分析 3.1検定力

 ここまで,サンプルサイズ,有意水準,効果量 と第2種の誤りの確率との関係を概観してきた が,統計学の分野では,1一βを検定力(power)と よび(検出力と訳されることもある),βよりも 1一βとサンプルサイズ,有意水準,効果量の関係 を議論することが多い。

 検定力,サンプルサイズ,有意水準,効果量の 4つの値の間には,どれか3つが決まると残りの 1つが決まるという関係があり,この関係を分析 することは検定力分析とよばれる。検定力分析は,

①有意水準,効果量,サンプルサイズの関数とし ての検定力;②効果量,有意水準,検定力の関数 としてのサンプルサイズ;③有意水準,サンプル サイズ,検定力の関数としての効果量;④サンプ ルサイズ,検定力,効果量の関数としての有意水 準の4種類を考えることができる(Cohen,

1988[5])(表3)が,役立っことが多いのは①あ るいは②の検定力分析である。①の検定力分析を 行えば,すでに行われた検定(あるいはこれから

x         ⇒    y G糟ower 3に

@ }   ・

有意水準,効果量,サンプルサイズ ⇒検定力 Post hoc

       ■−

̀Priori       一一 Sensitivity

      一一■一

Tンプルサイズ,検定力,効果量  ⇒有意水準 Criterion

(6)

行おうとする検定)にっいて,有意水準,サンプ ルサイズ,研究で期待されている効果量の見積り から,検定力を算出できる。

 研究の計画段階では,効果量を見積り,有意水 準を設定し,確保したい検定力を決めた状態で,

必要なサンプルサイズを決めるという②の検定 力分析がとくに重要である。他の条件が同じなら ばサンプルサイズが大きいほど検定力は高くな るが,サンプルサイズは多ければ多いほどよいと は,一概に言えない。むやみに多くの被験者を集 めることは,労力,時間,必要経費のいずれの観 点からもコストが高くつく。また,無理な収集は データに偏りをもたらすおそれがあるし,実質的 にほとんど意味のない微少な効果量であっても 高い確率で有意になることは,必ずしも望ましい

ことではない。したがって,研究を始める前に,

適切なサンプルサイズを知ることの価値は高い。

3.2効果量の見積り

 ②の検定力分析における最初の難関は,効果量 の見積りである。効果量概念に慣れないと,いく つになるのか,まるで見当がつかないだろう。効 果量を見積もる上で知っておいて損のないポイ

ントを3つ挙げておく。

・母集団の平均値差(μ1一μ2)および2群に共通  と仮定される母集団の標準偏差σについて見当  をつけられるならば,式μ1一μ2によって,大        σ

 雑把な効果量を求めることができる。

・近年,英文誌では効果量の推定値を報告する論  文が増えており,複数の研究から得られた標本  効果量を1つの値に統合するメタ分析も普及  している。関心のある変数を含む先行研究が存  在するならば,効果量を見積もる上で役に立っ。

・Cohen(1988)は,効果量の大きさについて,小  さい効果量=0.2;中程度の効果量=0.5;大き

 な効果量=0.8という目安を与えている。多く  の心理学研究における効果量の中央値は約0.5  になるという報告もある(Lipsey&Wilson,

 2001[6])。

3.3有意水準の決定

 すでに触れたように,αとβの間には相反する 関係がある。研究では,目的に応じてαの値が先 に決められる。慣習上,αは10%,5%,1%のい ずれかに設定されることが多いが,この中では 10%にとると検定力はもっとも高くなり,1%に

とると検定力はもっとも低くなる。同じ検定力を 確保するには,α=1%のときに大きなサンプルサ イズが必要になる。

3.4検定力の決定

 有意差が得られたときに「母集団平均に差があ ることが確認された」として議論を進めるために,

仮説検定においては,第1種の誤り (母集団平均 に差がないのに有意差があると結論する誤り)の 確率を小さくすることが非常に大事になる。第2 種ゐ誤りも,「誤り」であるからには確率を小さ

くすべきであるが,αと比べるとやや大きめに設 定されることが多い。よく用いられるのは,検定 力80%(第2種の誤りの確率20%)という数字 である。有意差を検出する確率を高めたい場合に は,検定力を90%,95%などにすればよいが,

その分大きなサンプルサイズが要求される。

3.5適切なサンプルサイズの算出

 以上が決まれば,いよいよサンプルサイズの計 算である。手順について,芝・南風原(1990)[7]

の10章や永田(2003)[8]などが参考になるものの,

適用するのはなかなか難しい。Cohen(1988)[5]に 検定力分析の結果が表として載せられているの で,これを用いる手もあるが,一番のおすすめは フリーソフトG*Powerの利用である(2007年2

月現在における最新バv・・一一ジョンはG*Power3。

(7)

シリーズ臨床心理学研究と統計学 4.サンプルサイズと検定力分析

http://www.psycho.uni−duesseldorf. de/aap/projects

/gpower/)。

 G*Powerは英語版だがとても使いやすく,先に 挙げた4種類の検定力分析のすべてを簡単に実 行できる(表3参照)。今回のシミュレーション

2の状況(α=0.05,d=−O.25, nl=n2=50)を例にと

り,Post hoc分析で計算してみると,検定力は 25%足らず(0.235780)であり,この計画では有 意差を得る確率は十分でないことがわかる。では,

検定力を80%まで上げるにはサンプルサイズを いくつにすればよいか?この問いに答えるため に,APriori分析を行うと,2群のそれぞれに253 名という,かなり大きなサンプルサイズが必要で

あることが,たちどころにわかる。

引用・参考文献

[1]井上俊哉2005ティ検定の頑健性東京家    政大学附属臨床相談センター紀要第5集,

[2]

[3]

[4]

[5]

[6]

[7]

[8]

PP.91−97.

芝祐順・渡部洋・石塚智一1984統計用語 辞典新曜社.

Glass,G.V.,&Hopkins,K.D.1996 Sta tisitica/

Methods in educatrbn and psychology 3 d ed.

Allyn&Bacon.

井上俊哉2004平均値差をめぐって東京 家政大学附属臨床相談センター紀要第4

集,pp.69−74.

Cohen,J.1988 Sta tistica!poPmer ana!ysis for the behavforal sciencθs.2 d ed. Lawrence Erlbaum Associates.

Lipsey,M.W.,&Wilson,D.B.2001 Practica/

metaI−ana!ysis. S age.

芝祐順・南風原朝和1990行動科学におけ る統計解析法東京大学出版会.

永田靖2003サンプルサイズの決め方朝

倉書店.

参照

関連したドキュメント

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ

などに名を残す数学者であるが、「ガロア理論 (Galois theory)」の教科書を

地盤の破壊の進行性を無視することによる解析結果の誤差は、すべり面の総回転角度が大きいほ

スキルに国境がないIT系の職種にお いては、英語力のある人材とない人 材の差が大きいので、一定レベル以

Instagram 等 Flickr 以外にも多くの画像共有サイトがあるにも 関わらず, Flickr を利用する研究が多いことには, 大きく分けて 2

(2)特定死因を除去した場合の平均余命の延び

共通点が多い 2 。そのようなことを考えあわせ ると、リードの因果論は結局、・ヒュームの因果

と言っても、事例ごとに意味がかなり異なるのは、子どもの性格が異なることと同じである。その