• 検索結果がありません。

実験心理学における例数設計の周辺

N/A
N/A
Protected

Academic year: 2021

シェア "実験心理学における例数設計の周辺"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

DOI: http://doi.org/10.14947/psychono.37.27

実験心理学における例数設計の周辺

井 関 龍 太

大正大学

The surroundings of sample-size planning in experimental psychology

Ryuta Iseki

Taisho University

Although sample-size planning is important for research integrity and useful for designing experiments, it appears to be not yet fully spread in cognitive psychology. The present study examined descriptions for sample-size planning in papers that published in Psychonomic Bulletin & Review and Journal of Experimental Psychology: General. Although some researches determined their sample size without referring to statistical power analysis, they derived the size based on prior research. Not a few researches reported results of power analysis without describing exact values of power and effect sizes and types of targeted effects. To communicate findings more correctly, it should be included descriptions specifying targeted sample sizes and their basis that enables readers to calculate the values irrespective of statistical methods or not. Finally, I discussed the risk of over-emphasizing prior power analysis in peer review.

Keywords: sample-size planning, power analysis, research practice, pilot study, effect size

問 題 近年,研究の信頼性や結果の再現性などの観点から心 理学においても例数設計(sample-size planning)が重視 されるようになってきた。しかし,認知心理学をはじめ とする,実験系の領域ではそうした動きへの対応が鈍い ように私には感じられていた。そのため,認知心理学の 分野では例数設計について明確に記した論文をほとんど 見かけないと書いてしまったことがある(井関,2017)。 この実感は当該の原稿を執筆した時点(2015年10月)で は確かなものに思えたが,例数設計に対する感度が高 まったものか,その後,認知心理学分野におけるさまざ まな例数設計の報告例を目にするようになった。そこで, 認知心理学では例数設計の報告がほとんどなされないと いう情報を更新する必要があると感じるようになった。 認知心理学分野における例数設計の報告のあり方につ いて考えるようになったもうひとつのきっかけとして, ある査読の経験がある。私はその件に関して査読者のひ とりを担当していた(以下,ここでの議論に関わらない 事実関係について変更したところがある)。その論文の 査読コメントにおいて,もうひとりの査読者がサンプル サイズをどのように決定したのかを著者に尋ねた。論文 には,特にサンプルサイズの決定方法について述べられ ていなかった。私は特に尋ねる必要があるとは思わな かった。その研究はサンプルサイズが特に多いとも少な いとも思わなかったし,そのことが結果の解釈や知見の 意義を左右するような性質の研究でもないと思えたから である。修正稿において,著者はそのコメントに応じ検 出力分析を行ったところ,期待する検出力を得るための サンプルサイズに対して実際の参加者数が1名不足して いたため,その分だけデータを追加したと報告した。 この対応には,いくつもの問題点があるように思える。 まず,事後的に検出力分析を行ったのであれば,そのこ とを報告すべきであり,事前に例数設計を行ったかのよ うに報告すべきではないのではないだろうか。また,査 読者はどのように決定したのかを尋ねたのであり,検出 力分析をするように求めたわけではない。仮に先行研究 やラボでの慣例に基づいておよそのサンプルサイズを決 めたのであれば,そのことを報告すれば十分ではないだ ろうか。さらに,検出力分析は確率的な予測を導くもの である。期待されるサンプルサイズとぴったり同じ人数 であったとしても,必ず効果が検出されるとは限らない。 Copyright 2019. The Japanese Psychonomic Society. All rights reserved. Correspondence address: Department of Human Sciences,

Taisho University, Nishi-Sugamo, Toshima-ku, Tokyo 170– 8470, Japan. E-mail: r_iseki@mail.tais.ac.jp

(2)

期待される人数から大幅に少なかったのならともかく, わずかなずれは大きな問題とはならないのではないか。 むしろ,いったん実験を終了したのちに追加された参加 者の性質や再開後の実験環境が以前のものと同じである といえるのかどうかのほうが気になった。 この件において査読者にも著者にも他意はなかったと 思われるが,ここには不幸な誤解があった。例数設計と は,サンプルサイズを決める手段とその背後にある方法論 を指すものであろう。検出力分析はそのための有用な手 がかりとなるが,それがサンプルサイズを決めるためのす べてではない。検出力分析の結果として,期待する効果 量と検出力(そして有意水準)のもとでのサンプルサイズ が18名であるとソフトウェアが出力しても,4種類の刺激 リストをカウンターバランスして割り当てるには,4の倍 数の人数が必要である。効果量が非常に高い現象を扱う 場合,検出力分析の結果として3名で十分であると出力さ れるかもしれない。しかし,個人差が極めて小さい現象を 扱う心理物理学や知覚といった分野を除けば,実際に3名 で行った実験研究が査読論文として受理される見込みは 低いように思われる。さらには,実験設備の利用可能性 や要件を満たす参加者が少ないなどの現実的な理由から どうしても期待されるサンプルサイズを満たせないことも あるだろう。例数設計や検出力分析は,何が何でも規定 の人数までデータを集めないと研究を認めないといったよ うな,研究者を縛るための制約ではないはずである。 本研究では,認知心理学の実験研究において実際のと ころどのような形で例数設計が報告されているのかを明 らかにすることを目的とする。具体的には,認知心理学 分野の特定の雑誌の過去一年分の実験報告論文について, どのような報告のしかたがなされているのかを調べた。 これらの例を参照することによって,いくつかの誤解や 思い込みから自由になれるはずである。また,報告例を 概観した結果として,どのような報告のしかたがより望 ましいのか,例数設計や検出力分析をどのように利用し ていくことが心理学の研究にとって有益なのかを論じる。 データの収集と分類 調査対象 調査の対象として,2017年に刊行されたPsychonomic Bulletin & Review (以下,PBR)とJournal of Experimental Psychology: General (以下,JEPG)に掲載された論文を 選んだ。前者を選んだのは,発行元のPsychonomic Soci-etyが投稿者に検出力の考慮とサンプルサイズ決定の方 法について論文で述べることを明示的に求めているから である(Psychonomic Society, 2019)。また,PBR は同学 会が発行する論文誌のなかでも多様なテーマを取り上げ ており,さまざまな報告例を得られることが期待され た。JEPGはその他の代表的な認知心理学分野の論文誌 として取り上げた。APAマニュアル第6版では,方法の セクションで検出力分析などのサンプルサイズの決定方 法を明記すべきことが述べられている(American Psy-chological Association, 2010)。しかし,基本的に APA マ

ニュアルにしたがった

書式を採用しているはずのPsy-chonomic Societyが「Instructions for Authors」で改めて注 意を促しているように(Psychonomic Society, 2019),少 なくとも過去においてはAPAマニュアルによる勧告は 必ずしも実行力を伴っていなかったものと思われる。ま た,短報が中心である PBRとは異なり,JEPGは複数の 実験の報告から構成される,比較的分量の多い論文が中 心である。この点においても,JEPGはPBRと比較する ための対象に適していると考えた。 例数設計の有無 まず,各論文をざっと眺め,実験の報告を行ったもの か否かを判断した。ここでいう実験は,人または動物の 参加者を募集したものに限った。過去のデータの再分析 やメタ分析など,新たに参加者を募集していないものは ここでの興味の対象外であるので除外した。JEPGと PBR の 2017 年号の論文の種別を分類した結果をTable 1 に示した。その他のカテゴリーには,訂正記事やedito-rialが含まれた。 次に,「実験」に分類した論文について例数設計の有 無とその種別を確認した。基本的には「Participants」の セクションを参照し,サンプルサイズの決定方法や効果 量,検出力に関する記述があるかどうかを調べた。 「Participants」に該当する内容が見られない場合は, 「Methods」の他のセクションと「Results」の冒頭部分に 関連する記述があるかどうかを確認した。同一の論文の 中に複数の実験がある場合は,基本的には第一実験の方 法を参照した。多くの場合,後続の実験は第一実験と同 じ例数設計の手法に基づいていたからである。ただし, 第一実験では例数設計を行っていないが,第二実験では 第一実験で得られた効果量に基づいて例数設計を行った 例もあったため,第一実験に例数設計に関する記載がな い論文の場合には第二実験の方法も確認した。 例数設計の種別については,効果量または検出力の具 体的な数値に言及しているものを「統計」,それらの記 載はないが何らかの設計・事前のサンプルサイズ決定を 行ったことを述べたものを「経験」,いずれにも当たら ないものを「なし」に分類した。このため,「検出力分

(3)

析を行った」と記述している論文でも,効果量も検出力 も述べていないものは「経験」に分類した。不自然な分 類に思えるかもしれないが,当初想定したよりも記載の 内容が多様であり,単純に「統計」と「経験」に分ける ことが難しかったためである。より詳細な分類とその説 明については後述する。なお,数例ではあるが,事前の 決定は行っていないが事後的に得られた検出力を報告し ている論文もあった。これらは「事後」に分類した。こ の分類の結果をTable 2に示した。 予想に反して,PBRよりもJEPGにおいて例数設計に関 する報 告を行った論 文の割 合 が 多かった(27.6% vs. 56.9%)。両誌を総合すると,何らかの例数設計の報告を 行った論文の割合は全体の41.8%であった。ただし,「な し」に分類した論文について,ベイズモデリングを用い た研究や特定の条件を満たす参加者のみを集めた研究な ど,一般的な検出力分析の枠組みに基づいて例数設計を 行うことが難しいと思われるものも見られたことを付け加 えておく。また,PBRにおいてJEPGよりも統計的な手法 に基づく例数設計の報告が多いということもなかった。 むしろ,JEPGのほうが全体的な報告数も多く,統計的な 手法に基づく報告も多かった。このことは,以下のように 解釈できるかもしれない。PBRは短報が多く,字数制限 も厳しいことから効果量やサンプルサイズの参考にする 先行研究が少なく,記述も省略されやすい可能性がある。 一方,JEPGは複数の実験を報告し,紙幅にも比較的余裕 があることから,予備実験や先行実験を参考にすること ができ,十分な記述を行うことができたのではないか。 記述内容の分類 「統計」または「経験」に分類された論文は,合計して 95本であった。これら95本の論文について例数設計に関 する記述を抜き出したところ,それらの平均文字数は 338.97字(SD=229.28),最小値は65字,最大値は1,351字 であった。記述内容の特徴をつかむため,以下の観点に ついて,該当する場合には1,該当しない場合には0を与 えることによって95本の論文をコーディングした。これ らの変数のうち最初の7つは,実際の記述内容において 主に例数設計の根拠や手がかりとして挙げられた内容を 反映したものであり,いずれも複数の論文によって言及 されたものであった。これらは経験的な方法と統計的な 方法の一方,もしくは両方に関わるものであった。あと の4つは,検出力分析に基づく方法に関わるものである。 効果量と検出力は検出力分析に必須であるにもかかわら ず,記載のない例が少なくないことから報告頻度を確認 することにした(有意水準は暗黙的に5%に設定されてい るものと解釈した)。また,どのような検定のどんな種類 の効果を念頭に置くかによって検出力分析の結果は変わ る。しかし,この点も記載されないことが多い。最後に, 検出力分析のソフトウェアとして有名なG*Power (Faul, Erdfelder, Lang, & Buchner, 2007; Faul, Erdfelder, Buchner, & Lang, 2009)を使ったかどうかについても調べた。 目標人数 実際に収集したサンプルサイズとは別に, 具体的な数値目標に言及している。数値が先行研究や分 野内の慣習に基づく場合もあれば,検出力分析の結果に 基づく場合もあった。 予備実験 論文の著者または同じグループによる予備 実験に基づくことに言及している。効果量の数値に言及 している場合もあれば,単に予備実験に基づくことのみ を述べた場合もあった。 文献 目標人数や効果量の根拠となった具体的な先行 研究を挙げている。Cohenに基づく中程度の効果量と いった一般論的な参照は含めず,論文ごとのテーマに即 した先行研究が引用されている場合のみ,この項目に該 当するものとした。 慣習 ラボもしくは当該研究分野の慣習に広く基づく ことに言及している。 デザイン 実験デザインによる必要性を考慮してサン プルサイズを決めたことに言及している。カウンターバラ Table 1.

Types of papers in the target journals.

JEPG PBR 実験 109 115 資料 0 2 調査 0 1 展望 0 80 シミュレーション 2 5 テキストマイニング 0 1 メタ分析 1 1 再分析 2 0 事例 0 2 コメント 1 0 その他 4 6 Table 2.

Types of sample-size planning in the experimental reports.

JEPG PBR

経験 28 20

統計 34 12

事後 4 0

(4)

ンスを成立させるための調整などが含まれたが,多くの場 合,デザイン上の必要性に触れることなく,セルごとに何 名になることを目指したなどの記述がなされていた。 外部事情 実験設備の利用可能性や募集期間などの外 部事情による制約に言及している。 追加 何らかの理由から経験や検出力分析に基づくサ ンプルサイズよりも多く募集したことに言及している。 たとえば,検出力やデータの安定性・信頼性を高めるた め,ウェブ実験に際してデータロスが予想されるためな どの理由が述べられた。 効果量 Cohenのdや相関係数などについて具体的な 効果量の値に言及している。 検出力 具体的な検出力の値に言及している。 効果タイプ 特定の比較や交互作用など,検出力分析 の対象となった効果について限定的に言及している。 「適合性の効果」のように,概念的な記述は該当しない ものとした。そのような記述は,主効果や交互作用のい ずれを指しているのか,特定の対比を指しているのか曖 昧だからである。 Gpower G*Powerを使ったことに明示的に言及して いるか,Faulらの文献(Faul et al., 2007, 2009)を引用し ていることからG*Powerを用いたことが推測できる場合 にこの項目に該当するものとした。 Table 3には,これら11の変数それぞれの総頻度と変数 同士の相関係数を示した。変数同士の関係をより明確に するため,各相関係数を1から引いた値を距離行列とし て,Ward法によるクラスター分析を行った。この分析か ら得られたデンドログラムをFigure 1に示した。ここでは, クラスターに分けることではなく,大まかに変数のまとま りを検討することを目的とした。まず,検出力分析に関 わる変数がまとまりやすいことがわかる。一方,文献や 予備実験が検出力分析とは別のまとまりを形成すること が意外であった。実際に,文献は検出力分析を経ること なく直接人数の目安を得るのに使われることもあったし, 予備実験を行っても得られた効果量などは必ずしも報告 されなかった。目標人数とデザインはこれらのグループ とはやや異なるまとまりかたをしている。経験に基づく方 法を使った場合にも,統計に基づく方法を使った場合に Table 3.

Frequency of traits in the sample-size planning reports and their correlations.

1 2 3 4 5 6 7 8 9 10 11 1. 目標人数 1 2. 予備実験 −.05 1 3. 文献 −.21 −.15 1 4. 慣習 −.04 .12 .00 1 5. デザイン .38 −.10 .01 .11 1 6. 外部事情 −.05 −.08 −.17 −.06 −.16 1 7. 追加 .21 .10 .04 −.08 .03 −.10 1 8. 効果量 .32 .03 −.02 .02 .21 −.23 .26 1 9. 検出力 .25 .10 −.04 −.09 .15 −.24 .19 .85 1 10. 効果タイプ .26 .00 .14 −.08 .19 −.10 .22 .36 .35 1 11. Gpower .19 .05 .01 .03 .12 −.13 .12 .49 .42 .30 1 総頻度 55 8 46 4 26 6 13 42 43 12 18 割合(%) 57.9% 8.4% 48.4% 4.2% 27.4% 6.3% 13.7% 44.2% 45.3% 12.6% 18.9% 注.df=93なので,r>|.202|の場合に両側5%水準で有意に0よりも大きい相関である

Figure 1. Dendrogram for cluster from traits in the sample-size planning reports.

(5)

も,目標人数とデザインのどちらにも言及することがあっ たので,そのことを反映しているのだろう。これらの傾向 については,次のセクションの報告例も参照してほしい。 例数設計の報告例 例数設計の記述の参考としたり,よりよい記述のしか たを論じる手がかりとするため,いくつかの具体例を紹 介する。なお,引用ページ数に続く11桁の数字はその 報告例についての,前のセクションで取り上げた11の 変数についてのコーディングの結果を示す(変数の順番 はTable 3の番号と同じである)。 経験的な基準による例数設計 以下は,経験的な例数設計の例である。最初の例で は,具体的な先行研究が参照されているが,意図したサ ンプルサイズがいくつであったのかはこの記述からは明 らかでない。

The number of participants was predetermined and based on past research (Dahm & Rieger, 2016). (Rieger, Dahm, & Koch, 2017, p. 461, 00100000000) 同様の例は他にも見られる。以下はより詳細に先行研究 のテーマ領域が明らかにされているが,先行研究のサン プルサイズや当該の研究の意図したサンプルサイズはわ からない。

The sample sizes in all experiments were similar to a previous temporal attention study that measured accuracy (Davranche et al., 2011) and to several studies on spatial attention (e.g., Anton-Erxleben, Herrmann, & Carrasco, 2013).

(Denison, Heeger, & Carrasco, 2017, p. 1143, 00100000000)

これに対して,以下の例は文献に基づいて具体的なサ ンプルサイズを取り出し,さらにデザインとの関係から その数を増やしたことを説明している。

The sample size was based on Bowers et al. (2005), where a significant effect was found with a group of 30 partici-pants. We doubled this number as we had two groups of participants (sleep/no sleep), and added five to guard against potential data loss.

(Wang et al., 2017, p. 1187, 10101010000) 次の例では,カウンターバランスの都合によってサン プルサイズを決定したこととともに,AB (attentional blink)の先行研究も参照しているが,前のセクション で述べた基準にしたがい「文献」を参照した例には含め ていない。

This sample size was determined a priori as the mini-mum required to fully counterbalance the order of fre-quency blocks with all 24 possible order permutations across participants, and was larger than necessary to measure the AB according to the extant literature. (Shapiro, Hanslmayr, Enns, & Lleras, 2017, p. 1863,

10001000000)

文献を参照することなく,単に当該研究領域の慣習に 基づいて決めたと報告した例も見られた。

The sample sizes were based on conventions for standard psychophysical experiments. We targeted 20 participants, but all who were recruited were included in the data, and no analysis preceded the cessation of data collection. (Klatzky, Thompson, Stefanucci, Gill, & McGee, 2017, p.

1871, 10010000000) 以下の例では,根拠は明確でないが具体的な目標人数を 述べている。利用可能な実験環境や期間が決まっている 場合や,膨大な候補者が見込まれるウェブ実験の場合な どに,不特定の根拠によるサンプルサイズの見込みが述 べらる傾向があるようだ。

Sample size was determined prior to data collection in Vanuatu based on anticipated access to participants and data collection ceased when we reached our goal of 64 usable participants.

(Clegg, Wen, & Legare, 2017, p. 431, 10000000000) 予備実験に基づく例数設計

予備実験に基づく例数設計の報告は 8件のみであっ た。そのうち,具体的な効果量に触れないものが4件で あった。以下はその一例である。

(6)

The sample size was decided based on our pilot study where we tested 20 participants and replicated the findings of previous studies (Shi et al., 2010; Wang et al., 2014). (Ding, Yin, Shui, Zhou, & Shen, 2017, pp. 448–449,

01100000000)

一方,予備実験に基づいて検出力分析を行った例には以 下のようなものがあった。

A pilot study preceding Study 1 utilized identical meth-odology and procedures with a sample of 45 participants. The expected effect of spatial location on gender percep-tion was statistically significant. The average effect size of the simple effects (i.e., cohen’s d at each level of facial gender) was .57 and this effect was used to estimate the sample size required to achieve .80 power, which would have been 99 participants.

(Lamer, Weisbuch & Sweeny, 2017, Supplement, 11000001110)

統計的な手法による例数設計

以下の例では,検出力のみが明記されており,効果量 も目標人数も明らかでない。

This sample size was obtained because a power analysis anticipating medium effect sizes indicated that the power to detect an association between relationship satisfaction and the predicted determinants of satisfaction was great-er than .95.

(Baker, McNully, & VanderDrift, 2017, p. 703, 00000000100)

これに対して,次の例では,先行研究に基づいて効果 量を設定し,G*Powerを使って目標人数を導き出してい る。検出力と有意水準も明示されている。ただし,効果 タイプには曖昧なところが残る。

In their experiment, Kallai and Tzelgov (2012) obtained congruency effect sizes that corresponded roughly to an

f=.73. An a priori power analysis using G*Power 3.1

(Faul et al., 2007) revealed that a sample size of 25 should be sufficient to detect a similar congruency effect

in our experiment (95% power, α=.05).

(García-Orza, Estudillo, Calleja, & Rodríguez, 2017, p. 1908, 10100001101)

以下はごく簡潔な記述だが,検定の種類(対応のあるt 検定)から効果量,検出力,目標人数までが具体的に報 告されている。

Assuming a two-tailed, dependent-measures t-test with

α=0.05 and d=0.50, 54 participants are needed to

achieve a power of 0.95.

(Cohen, Sidlowski, & Staub, 2017, p. 973, 10000001110) 次の例では,除外基準によって参加者が減ることを見 越して 15%上乗せしている。こうした追加は,検出力 分析を用いる場合にも用いない場合にも行われている が,どのくらい増やすかについての一般的な基準やその 数値的な根拠はないように見える。

We required 779 participants to attain greater than 80% power (α=.05) to detect a small effect of ηp2=.01 in our

primary analyses of covariance. We added approximately 15% to this number to guard against power loss due to planned data exclusions.

(Tappin, van der Leer, & McKay, 2017, p. 1144, 10000011100) 本研究において収集した報告例の中で,最も複雑度の 高かった,すなわち,多くのコードに該当したのは次の 例であった。G*Powerを用いて,特定の効果量と検出力 のもとでの参加者内の交互作用を検出することを目的と し,グループごとの人数を決め,先行研究に基づいてそ の人数を二倍にしている。

A power analysis (G*Power; Faul et al., 2007) showed that the number of participants needed to achieve a small to medium effect size (as in previous literature) for a within-between interaction (for the factors of Trial Type and Group; 2 levels in each factor) using a repeated mea-sures ANOVA with f=.24, power of 1 –β=.90, and a two-tailed α=.01, with an average correlation of .7 among repeated factors, is 22 per group. In addition, when deciding on sample size, with 80 participants per

(7)

group we doubled the sample size of previous studies that included approximately 40 subjects (or less) per group (see Table 1), and had similar numbers of participants in

each group as Yehene and Meiran (2007; n=98). (Stasenko, Matt, & Gollan, 2017, p. 1532, 10101011111)

考 察 認知心理学分野の実験系の研究における例数設計の報 告例を見てきた。何らかの報告を行った研究の半数以上 が目標人数に言及していた(Table 3を参照)。ここでい う目標人数は,実際に集めたサンプルサイズとは別に数 値を挙げた場合だけを数えている。このことから,期待 されるサンプルサイズと実際のサンプルサイズが常に一 致するわけではないこと,しかも,そのことがありうべ きと見なされていることがわかる。これらの数値が常に 一致するのであれば,これほど多くの研究がサンプルサ イズとは別に目標人数を挙げることはなかっただろう。 検出力分析によらない例数設計も少なからず行われて いた。しかし,単純に検出力分析を使うか否かという切 り口ではその実態を把握することは困難であった。検出 力分析によっていようといまいと,先行研究を取り上げ ることもあればそうでないこともあった。目標人数を挙 げたりデザインに言及したりすることについても同様で あった。文献を引いたとしても,直接サンプルサイズを 取り出す場合も,効果量を参照する場合もあった(先行 研究のどの部分を参考にしたのか明らかでない場合も あった)。とはいえ,例数設計の根拠として最も多く挙 げられたのは文献であった(目標人数は根拠ではなく例 数設計の結果なので除いて考えた)。また,経験的な根 拠としてはデザインへの言及も多かった。 検出力分析によった例数設計では,効果量と検出力の いずれかにしか言及しないもの,どちらにも言及しない ものもわずかながら見られた。これらの統計量について は,明らかに報告したほうがよい。また,予想していた ように,効果タイプについての言及は少なかった。 G*Powerについての言及もそれほど多くはなかった。 以上のことから,サンプルサイズの決め方には,検出力 分析のみならず,多様な根拠や手がかりがありうることが わかるだろう。一方で,言及はされていても,なぜその根 拠からある目標人数が得られたのかがわからないこともま まあった。根拠を明確にするという観点からは,(1)まず 目標人数を明記して,(2)どのようにその数値が導かれた のかがわかる根拠を述べることが重要ではないだろうか。 その根拠が先行研究と同じ人数にしたとか,自分のラボ ではこのくらいの人数を取ることが多いといったもので あっても,なぜその人数になったのかがわからないよりは 明確な報告である。一方,検出力分析に基づいた数値で あっても,効果量や検出力,効果タイプといった詳細が わからなければ,適切な設計がなされているのか判断が つかない。G*Powerのメニューを見れば,同じ分散分析で も参加者内か参加者間か,混合要因の交互作用かなどに よってオプションが異なることがわかる。どうやって目標 人数に達したのかを理解するにはどのオプションを選んだ のかを報告する必要があるだろう。なお,G*Powerはデ フォルトが片側検定の指定になっているため,使用の際に はこの点に注意するほうがよい。また,G*Powerの出力は 常に整数値だが,これは数値を切り上げた結果である(R 等で同じ設定の検出力分析を行ってみるとわかる)。小数 の人数はありえないのでこのような仕様になっているもの と思われるが,この表示は確定的な目標人数に達しなけ ればならないという印象を与えるのかもしれない。 予備実験の結果をどのように利用するか,データロス を考慮して増やすときにどの程度の倍数が適切かといっ た事柄については,今後,コンセンサスが形成されてい くのではないかと思われる。いずれにしても,例数設計 の行われない研究というものはない。何の目安もまった くなしに開始される実験はないだろう(本研究で調べた 中には,期間中できる限り集めたといったものもあっ た)。「方法」の一部として,実際の経緯を読者に納得が いくように記述するのが一番である。 最後に,冒頭の査読経験にもどろう。冒頭では,主に 著者の対応の問題点を論じたが,この件については査読 者の側にも問題があったと私は考えている。通常,査読 者に指摘されれば著者はそれに対応しなければならない と考えるだろう。著者と査読者は論文をできるだけよい ものとするために協力する関係にある。しかし,著者と 査読者の立場は対等ではない。一般に,著者は査読者の すべてのコメントに対して何らかの応答をすることが求 められる。また,査読者は論文の採否の提案をする立場 にある。このような関係性において,特段の必要がない と思われるような状況で,事後的には対応しようがない 要求に見えるコメントをすることにはもっと慎重であって もよいのではないだろうか。本稿では,例数設計は検出 力分析に限らないことを述べてきたが,一般にはそのよ うに受け取る人が多いことは予想できる。そのことを踏ま えると,どのようにサンプルサイズを決めたのかという査 読者の問いかけは,検出力分析に基づく例数設計につい て報告せよ,さもなければ不採択とする,というメッセー

(8)

ジとも受け取れる。検出力分析を行ったのであればその 結果を報告し,そうでなければ,どのような根拠(先行 研究など)に基づいて決めたのかを報告するようにと, より具体的に求めることもできたはずである。あるいは, この問いかけは事実の報告を求めるものであり,回答の 内容は採否の判断に関係しないと断ることもできただろ う。煩瑣に過ぎると思われるかもしれないが,ひとつ間 違えれば,関係者の誰にもまったく悪意がないにもかか わらず,事実と異なる報告がなされたり,不適切な慣行 が形成されてしまう可能性があった。また,そのような事 態を防ぐためには,編者が第三者的な視点からコメント をチェックしてから伝えるということもありえただろう。 編者が研究報告のあり方に少なからぬ影響を与えること についてはFinch et al. (2004)も報告している。検出力分 析は適正なサンプルサイズを予測し,効率的に実験を計 画するための有用なツールになりうる。それを単に機械 的に守らなければならないハードルにしてしまうことは, 研究者にとっても統計学にとっても不幸なことである。 特に,事前の検出力分析を義務的に要請することには, あとから取り返しがつかないだけに,組織的に事実を改 竄することを促してしまう危険が考えられる。しかし,検 出力分析は確定的な結果をもたらすものではないし,例 数設計は検出力分析のみによるものでもない。著者,査 読者,編者のいずれにしても,形式主義に陥らず,より 柔軟な姿勢で論文に向き合うことが求められている。 引用文献

American Psychological Association (2010). Publication

manu-al of the American Psychologicmanu-al Association (6th ed.).

Wash-ington, D.C.: American Psychological Association. (アメリ

カ心理学会 前田樹海・江藤裕之・田中建彦 (訳)

(2011). APA論文作成マニュアル[第2版] 医学書院) Baker, L. R., McNulty, J. K., & VanderDrift, L. E. (2017). Ex-pectations for future relationship satisfaction: Unique sources and critical implications for commitment. Journal of

Experimental Psychology: General, 146, 700–721. Doi:

10.1037/xge0000299

Clegg, J. M., Wen, N. J., & Legare, C. H. (2017). Is non-confor-mity WEIRD? Cultural variation in adults’ beliefs about chil-dren’s competency and conformity. Journal of Experimental

Psychology: General, 146, 428–441. doi: 10.1037/xge0000275

Cohen, A. L., Sidlowski, S., & Staub, A. (2017). Beliefs and Bayesian reasoning. Psychonomic Bulletin & Review, 24, 972–978. doi: 10.3758/s13423-016-1161-z

Denison, R. N., Heeger, D. J., & Carrasco, M. (2017). Attention flexibly trades off across points in time. Psychonomic Bulletin &

Review, 24, 1142–1151. doi: 10.3758/s13423-016-1216-1

Ding, X., Yin, J., Shui, R., Zhou, J., & Shen, M. (2017). Back-ward-walking biological motion orients attention to moving

away instead of moving toward. Psychonomic Bulletin &

Re-view, 24, 447–452. doi: 10.3758/s13423-016-1083-9

Faul, F., Erdfelder, E., Lang, A. G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior

Research Methods, 39, 175–191. doi: 10.3758/BF03193146

Faul, F., Erdfelder, E., Buchner, A., & Lang, A.-G. (2009). Sta-tistical power analyses using G*Power 3.1: Tests for correla-tion and regression analyses. Behavior Research Methods, 41, 1149–1160. doi: 10.3758/BRM.41.4.1149

Finch, S., Cumming, G., Williams, J., Palmer, L, Griffith, E., Alders, C., Goodman, O. (2004). Reform of statistical in-ference in psychology: The case of memory & cognition.

Behavior Research Methods, Instruments, & Computers, 36,

312–324. doi: 10.3758/BF03195577

García-Orza, J., Estudillo, A. J., Calleja, M., & Rodríguez, J. M. (2017). Is place-value processing in four-digit numbers fully automatic? Yes, but not always. Psychonomic Bulletin &

Review, 24, 1906–1914. doi: 10.3758/s13423-017-1231-x

井関龍太 (2017).認知心理学研究におけるサンプルサ イズ設計 村井潤一郎・橋本貴充 (編) 心理学のため

のサンプルサイズ設計入門(pp. 63–85) 講談社

Klatzky, R. L., Thompson, W. B., Stefanucci, J. K., Gill, D., & McGee, K. (2017). The perceptual basis of vast space.

Psy-chonomic Bulletin & Review, 24, 1870–1878. doi: 10.3758/

s13423-017-1265-0

Lamer, S. A., Weisbuch, M., & Sweeny, T. D. (2017). Spatial cues influence the visual perception of gender. Journal of

Experimental Psychology: General, 146, 1366–1371. doi:

10.1037/xge0000339

Psychonomic Society (2019). Instructions for Authors: Psy-chonomic Bulletin & Review. Retrieved from https://www. springer.com/psychology/cognitive+psychology/journal/ 13423 (January 17, 2019)

Rieger, M., Dahm, S. F., & Koch, I. (2017). Inhibition in motor imagery: A novel action mode switching paradigm.

Psycho-nomic Bulletin & Review, 24, 459–466. doi:

10.3758/s13423-016-1095-5

Shapiro, K. L., Hanslmayr, S., Enns, J. T., & Lleras, A. (2017). Alpha, beta: The rhythm of the attentional blink.

Psycho-nomic Bulletin & Review, 24, 1862–1869. doi: 10.3758/

s13423-017-1257-0

Stasenko, A., Matt, G. E., & Gollan, T. H. (2017). A relative bi-lingual advantage in switching with preparation: Nuanced explorations of the proposed association between bilingual-ism and task switching. Journal of Experimental Psychology:

General, 146, 1527–1550. doi: 10.1037/xge0000340

Tappin, B. M., van der Leer, L., & McKay, R. T. (2017). The heart trumps the head: Desirability bias in political belief revision. Journal of Experimental Psychology: General, 146, 1143–1149. doi: 10.1037/xge0000298

Wang, H. C., Savage, G., Gaskell, M. G., Paulin, T., Robidoux, S., & Castles, A. (2017). Bedding down new words: Sleep promotes the emergence of lexical competition in visual word recognition. Psychonomic Bulletin & Review, 24, 1186–1193. doi: 10.3758/s13423-016-1182-7

Figure 1. Dendrogram for cluster from traits in the  sample-size planning reports.

参照

関連したドキュメント

We show that a discrete fixed point theorem of Eilenberg is equivalent to the restriction of the contraction principle to the class of non-Archimedean bounded metric spaces.. We

In this paper we develop the semifilter approach to the classical Menger and Hurewicz properties and show that the small cardinal g is a lower bound of the additivity number of

We finally wish to remark that our results can be viewed as a first step towards the regularity theory of obstacle problems with integrands G being not of power growth.. The

This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on

While conducting an experiment regarding fetal move- ments as a result of Pulsed Wave Doppler (PWD) ultrasound, [8] we encountered the severe artifacts in the acquired image2.

An explicit expression of the speed of the oil- water interface is given in a pseudo-2D case via the resolution of an auxiliary Riemann problem.. The explicit 2D solution is

Motivated by ongoing work on related monoids associated to Coxeter systems, and building on well-known results in the semi-group community (such as the description of the simple

A combinatorial proof for the largest power of 2 in the number of involutions.. Jang