刺激の効果を侮るなかれ―ランダム刺激効果を含んだ線形混合モデルの重要性と落とし穴―

(1)

DOI: http://doi.org/10.14947/psychono.36.40

刺激の効果を侮るなかれ

―ランダム刺激効果を含んだ線形混合モデルの重要性と落とし穴―

村山航

a,b

a_{レディング大学，}b_{高知工科大学}

Stimulus effect matters:

The importance and cautionary notes of linear mixed-effects model

with random stimulus effects

Kou Murayama

a_{University of Reading, UK,}b_{Kochi University of Technology, Japan}

When researchers analyze data from an experiment with multiple experimental stimuli, they tend to aggregate responses to the experimental stimuli before performing a statistical test （e.g., t-test, analysis of variance）. This com-mon practice, however, ignores sampling errors of experimental stimuli, resulting in a substantial increase in Type-1 error rate. This article reviews the relevant literature and provides conceptual explanations about the mechanisms underlying the inflation of Type-1 error rate. The article also illustrates how linear mixed-effects model with ran-dom-stimulus effects can address the issue, with the emphasis on the correct model specification when using linear mixed-effects model.

Keywords: random stimulus effects, mixed-effects model, multilevel model, hierarchical linear model

次のような単純な実験を考えてみよう。あなたは何らかの理由で，ネガティブな写真とニュートラルな写真とで，人の評定スピードに差があるのではないかと考えた。そこで，代表的な写真刺激である International Af-fective Picture System （IAPS; Lang, Bradley, & Cuthbert, 1997）からネガティブな写真とニュートラルな写真を6 枚ずつランダムに選び，その合計12枚に関して，写真がどれくらい自然にみえるかを被験者に評定してもらった。被験者は20人であり，それぞれが12枚すべての写真を評定した。写真の平均評定時間に，ネガティブ写真とニュートラル写真の間で差があるかを調べるのがメインの目的である。さて，仮説を検証するためにどのような分析をするだろうか。多くの人は次のように答えるのではないだろうか。まず，被験者ごとにネガティブ写真とニュートラル写真の評定時間の平均を出す。そして， 20人から得られた20組（ニュートラルvs. ネガティブ）の平均値を対応のあるt検定にかけて，有意かどうかを調べる，と。まっとうな，問題のない分析手続きに感じられる。しかし実はこの方法，タイプ1エラーを増大させてしまうのである。しかもおそらく皆さんが想像するよりもはるかに大きく。つまり，ネガティブ写真とニュートラル写真の間に評定時間の差が本当はなかったとしても，有意な結果が出る可能性が 5％よりもずっと高いのである。なぜなのか不思議に思った方は，ぜひ読み進めていただきたい。本稿の目的は，この理由をランダム刺激効果（random stimulus effect/random item effect）という観点か

ら説明し，この問題を解消するための方法として，ランダム刺激効果を含んだ線形混合モデルの有用性と注意点を論じることである。なお，本稿では限られたスペースで概念的な理解を優先させるため，数学的には厳密でない説明も含まれている点，あらかじめ了承してもらいたい（より厳密な議論を知りたい方は，参考文献をあたって欲しい）。

Univer-sity of Reading, Earley Gate, Whiteknights, Reading RG6 6AL, UK.

(2)

ランダム刺激効果 Table 1は，上記のデザインの実験データを示したものである。スペースの都合上，刺激の数と被験者の数は減らしてある。通常の手続きにしたがって，被験者ごとに評定時間の平均値を出すと，当然ながら評定時間には個人差があることがわかる。全体として評定が早い被験者，遅い被験者，といった具合である。この評定時間の（厳密には真値の）個人差をランダム被験者効果（ran-dom participant effects）と呼ぶ。冒頭で論じた，平均値の t検定は，この被験者の個人差をもとに検定しており， ランダム被験者効果を考慮した検定だということができる。つまり，得られた平均値差が，被験者をランダムに抽出したことによる標本誤差によって説明できてしまうかどうかを調べるのが，このt検定の目的である。言い 換えれば，このt検定の結果は被験者母集団に一般化す ることが可能になる。これは通常の統計の授業で習うことである．この実験データを別の角度から眺めてみよう。被験者ごとの平均値を出せたように，刺激ごとの平均値を出せることに気づく。そして，当然ではあるが，評定時間には刺激間差があることがわかる。写真が自然に見えるかどうかの評定は，写真の内容によって難しさが違うだろうから，評定時間の刺激間差があるのは，当然である。と同時に，先ほどの分析では，この刺激間差を考慮していなかったことに気づく。この評定時間の（真値の）刺激間差をランダム刺激効果と呼ぶ。実はこのランダム刺 激効果を考慮した t検定も実施可能である。具体的に は，刺激ごとの平均値を使って，刺激を単位とした（つまり12組の刺激があれば，N＝12の）対応のないt検定 を行えばよい。この分析は，得られたネガティブ写真とニュートラル写真の違いが，写真をランダムに抽出したことによる標本誤差によって説明できるかを調べるものである。したがって，この結果は，刺激母集団に一般化することが可能になる。得られた評定スピードの違いが，今回の刺激特有のものではなく，ニュートラル写真・ネガティブ写真全般に当てはまるかを検討できるのである。心理学の研究のほとんどは，刺激特有の効果ではなく，それを超えた，刺激母集団やその刺激母集団を代表する構成概念（この場合だと感情価）の効果を調べることが目的であるので，この一般化は多くの場合，非常に重要である。しかし，通常の分析方法（被験者を単 位としたt検定）は，刺激間の違いを一切考慮に入れて いないので，この刺激母集団への一般化ができない。 ランダム刺激効果を考慮しないことによる タイプ1エラーの増大 通常の分析方法が，ランダム刺激効果を考慮に入れていないことはわかってもらえただろう。では，それの何が問題なのか。これまでの議論で明らかなのは，結果を刺激母集団に一般化できないことである。しかし，これと関連した大きな統計的な帰結がある。それがタイプ1 エラーの増大である。Table 2は著者が被験者数と刺激数を系統的に変えたうえで，シミュレーションを行い，通 常のランダム刺激効果を考慮しないt検定（α＝5％）に よって生じるタイプ1エラーを計算したものである。つまり，実際は条件間差がないにもかかわらず，通常のt 検定が（誤って）有意であると判断する割合をシミュレーションで求めた。シミュレーションのためには，当然こうしたランダム効果の大きさをあらかじめ決める必要があるが，これは例示のため便宜的に決めた（Table 1 の注を参照のこと）。ただし，経験上決して非現実的ではない（むしろ控えめな）設定にしておいたことは付記しておく。結果をみて驚くのが，そのタイプ1エラーの率が全体的に非常に大きいことである。タイプ 1エラーは通常 Table 1.

Illustration of how the data described in the text can be structured. Values represent reaction time （s） to rate pictures. The average values are rounded.

Negative pictures Neutral pictures

Average Stimulus 1 Stimulus 2 Stimulus 3 Stimulus 4

Participant 1 3.10 2.43 3.03 2.49 2.76 Participant 2 2.09 1.43 1.82 1.50 1.71 Participant 3 2.55 2.00 2.45 2.11 2.28 Participant 4 2.98 2.50 2.78 2.50 2.69 Participant 5 2.44 1.90 2.13 1.87 2.09 Average 2.63 2.05 2.44 2.09

(3)

5％であるべきであり，たとえば10％を超えればかなり大きいという印象を持つが，シミュレーションの結果は，それをはるかに超えたものである。また，項目数が少ないほど，そして被験者数が多いほどタイプ1エラーが高いこともわかる。被験者数が多いほど，タイプ1エラーが高くなるというのは面白い。近年では，心理学の知見の再現性の問題（友永・三浦・針生，2016）で， False-positiveな知見を減らすためにサンプルサイズを増やすことが強く奨励されているが，被験者数を増やすと皮肉にもFalse-positiveな結果が得られる可能性が増えてしまうのである。近年では，再現性の問題で80人程度のサンプルサイズを求められることも少なくないが，その場合のタイプ1エラー率はこのシミュレーションの場合，最大で何と53％である。被験者をもっと集めると，さらにこの値は高くなる。おそらく幾多の論文で多くの 研究者が実施していると思われる，通常のt検定による 分析には，実は想像もつかないほど高いタイプ１エラーの危険性があるのである。なぜこのようなことが起きるのだろうか。刺激の母集団を想定し（ネガティブ写真母集団・ニュートラル写真母集団）, そこでは評定スピードの平均値にまったく条件間差がないと仮定しよう（帰無仮説）。各々の刺激（写真）が評定スピードに関して固有の（真の）値を持つと考えたとき，母集団でその平均値を算出した場合，ネガティブ写真母集団における評定スピードの平均値と，ニュートラル写真母集団における評定スピードの平均値がまったく同じだという意味である。さて，理想的にはこの母集団にあるすべての刺激を実験で使えればいいが，実際の実験では不可能である。そこで，私たちが通常行っているのは，そこから刺激を選択し（たとえば今回の例では 6枚ずつ）, それを実験に使用することである。この刺激の選択過程はランダムでないことも多いが，ここではランダムに選択するとみなす（強引に見えるが，被験者が母集団からランダムサンプリングされていないのに，検定ではランダムサンプリングと見なすことを，心理学者はいつも行っている）。ここで，このサンプルされた6枚ずつの写真の刺激固有の評定スピードの平均値を条件ごとに算出したとき，条件間で平均値に差があるだろうか。刺激母集団においては平均値の条件間差がないのだから，サンプルされた刺激においても，平均値の条件間差は小さいと考えられる。しかし，平均値の条件間差がぴったり0であるかと問われると，そうでないと考えるのが自然だろう。刺激のサンプリングにともなう標本誤差があるからである。この「0に近いかもしれないけれど，ぴったり0ではない」というのがポイントである。この刺激固有の評定スピードの違いによって生じる小さな条件間差は，同じ刺激セットを使っている限り，被験者間で同一の値である。ここで，たとえば20人に対してこの刺激を使った実験を行い，通常のt検定による分析を行うと，この「0に近いかもしれ ないけれど，ぴったり0ではない」（そして被験者間で同一の）小さな効果を検出してしまう可能性がある。しかし，実際は帰無仮説が正しいのだから，ここで有意な効果が得られたとしてもそれはタイプ1エラーである。ここまでくると，なぜ被験者数が多いほど，タイプ1 エラーが増大するかもわかるだろう。被験者が多ければ多いほど，この刺激のサンプリング誤差によって生じた小さな効果を皮肉にもより検出しやすくなってしまうからである。また，なぜ項目数が少ないほど，タイプ1エラーが増大するかもわかる。項目数が少ないと，刺激のサンプリングに伴う標本誤差が大きいため，刺激固有の効果による条件間差が0よりも大きく離れてしまう可能性が高くなるためである。 2点，付記しておきたい。まず，確認のために注意しておきたいのは，このタイプ1エラーは，あくまで効果を刺激母集団に一般化する目的のもとで生じるということである。もし，今回の実験の目的が「ネガティブ写真とニュートラル写真全般の間で評定スピードに差がある」ことを調べるのではなく，「今回選んだ0 0 0 0 0 6枚のネガティブ写真と6枚のニュートラル写真の間で評定スピードに差がある」ことを調べるのであるならば，通常のt 検定でも問題はない。2条件の間に小さな効果があるというのは，たとえそれが刺激の標本誤差で偶然生じたものだとしても，この12枚の写真に限って言えば，正しいことだからである（つまり，もし結果が有意になった Table 2.

Empirical type 1 error rates when by-participant paired-sample t test is applied to participants x stimulus data.

k＝5 k＝10 k＝20 k＝40 N＝10 0.15 0.12 0.09 0.07 N＝20 0.26 0.19 0.14 0.10 N＝40 0.40 0.30 0.22 0.15 N＝80 0.53 0.45 0.35 0.23 Note. N＝Total number of participants. k＝Total number of stimuli per condition. The number of replication＝10,000 per cell. In this simulation, the variance ratio of random partici-pant intercept, random participartici-pant slope, random item inter-cept, and residuals is set to 1 : 1 : 1 : 4 according to Judd et al. （2012）. Random participant intercept and random participant

(4)

として，この同じ刺激を使っている限り，知見は再現される）。しかし，繰り返しになるが，通常の心理学の実験で，実験で選んだ刺激特有の効果を調べたいようなことは，ほぼないといってよいだろう。 2点目として，この問題は今回扱ったデザインに特有のものではないという点である。たとえば，今回の実験が被験者間デザインであっても同じ問題が生じる。理解のよい読者なら，この問題は条件間で同じ刺激を使っていれば問題ないと考えるかもしれない。たとえば，若者群と老人群で，同じセットの語彙決定課題の反応潜時を比較するような場合である。また，刺激を条件間でカウンターバランスするような状況も考えられる。こうした場合，条件間で刺激が同じであるので，刺激数が有限であっても，刺激固有の効果の平均値差は完全に0になるかもしれない。しかし，そのような場合であっても，ランダム刺激効果が条件ごとに違う可能性がありうる（全体としてどのような単語で反応が早いかは，若者と老人で違うと考えられるだろう）。この条件とランダム刺激効果の交互作用が存在するならば，やはり同じようにタイプ1エラーの増加は起きる。さらに，この問題は2条 件間の比較に限らない。t検定は分散分析や回帰分析の 特殊例だと考えられる。そう考えると，条件が3つ以上あるとき，もしくは被験者内の回帰分析を行うとき（たとえば語彙の出現頻度と，被験者の語彙決定課題の反応時間に関係があるかを調べるような場合など）も，同じ問題が当てはまることは容易に想像つくだろう。 ランダム刺激効果を含んだ 線形混合モデルによる解決ランダム刺激効果を無視した分析によるタイプ 1エラーの増加は実は決して新しい発見でも何でもない。心理言語学（psycholinguistics）の分野で，Clark （1973）がすでに指摘していたことである。実際，長年に渡って，心理言語学の分野ではランダム刺激効果の問題は広く認識されている。しかし，実験心理学や他の社会科学の分野では，この点が認知されていたとは言いがたい。冒頭のような例で，多くの心理学者は，通常のt検定をすることに違和感を覚えないのではないだろうか。心理学において，この問題が脚光を浴びたのは，Baayen, Davidson, & Bates （2008）が，この問題を改めて取り上げ，ランダム刺激効果を含んだ線形混合モデルが解決策になることを（そのこと自体は以前よりわかっていた），心理学の読者にわかりやすい形で論じたことが大きいと思われる。BatesはRで線形混合モデルを実施するlme4ライブラリの開発者であり，この論文と lme4ライブラリの開発によって，線形混合モデル普及の大きなきっかけを作った。その後，Judd, Westfall, & Kenny （2012）が社会心理学研究の文脈で，また著者もメタ認知研究の文脈で，同じトピックを論じている（Murayama, Sakaki, Yan, & Smith, 2014）。日本では，下木戸（2007）が Baayen et al. （2008）の論文を先取りする形でこのトピックを議論し

ており，その先見の明は注目に値する。

では，ランダム刺激効果を含んだ線形混合モデル

（linear mixed effects model）とはどのようなものか。近年では線形混合モデルも普及してきたため，その名前を知っている人は多いだろう。ただしポイントは「ランダム刺激効果を含んだ」線形混合モデルだという点である。線形混合モデル自体は一般的な統計モデルであり，線形混合モデルを使うこと＝タイプ 1エラー増加を防ぐ，というわけではない。線形混合モデルというと，それだけで分散分析よりも進んでいてすごいという印象を受けるかもしれないが，重要なのは線形混合モデルの枠組みでどのようにモデルを定める（specify）かという点である（Barr, Levy, Scheepers, & Tily, 2013）。線形混合モデルを使っている論文が必ずしも進んでいる分析をしているわけではない。モデルの定め方によっては，通常の分散分析と機能的に等しいことをやっているのにすぎないことも多い（このポイントは近年やはり同じように流行っているベイジアンモデリングにも当てはまる）。上記の点を意識しつつ，限られた紙幅で，著者流に説明を試みてみたい（なおBaayen et al., 2008は線形混合モデルのイントロダクションとしても非常によく書けている。Barr et al., 2013も深い理解には必読である）。Table 1 のデータをTable 3のように並べ替える。これをロングフォーマットと呼ぶこともある。Table 3はデータ数を減らしてあるが，冒頭の実験例を用いるなら，実際は 12 ×20＝240行のデータとなる。ここで条件間差を調べるために条件を独立変数とした回帰分析をこのデータに対して行ったと考えよう。これはこのロングフォーマットのデータに対応のないt検定を実施することと数学的に等価である。ほとんどの読者はこの分析がおかしいと思うだろう。20人のデータにもかかわらず，データを240 個に「水増し」して分析を行っているからである。なぜこの分析が駄目なのかというと，240個のデータは独立ではなく，各被験者の中の12個のデータが似ているからである。図をみても，1人目の被験者の評定時間は比較的長く，2人目は全体的に低いことがわかるだろう。つまり，各被験者に12個のデータがネストされているクラスタ構造（階層構造）のデータであるにかかわらず，それを無視した分析を行っているのが問題である。この

(5)

「水増し」の分析ではサンプル数がみため増えるため，タイプ1 エラーが増大するのは簡単に想像がつくだろう。この水増しの問題を解決する方法は，被験者の効果というものをランダム効果として回帰モデルに組み込むことである。このように通常の回帰モデルに，クラスタ化の効果をランダム効果として組み込んだものが線形混合モデルである。なお，従属変数として記憶成績のようにカテゴリ変数を扱うときには，一般化（generalized）線形混合モデルと呼ばれる。ランダム効果の詳細な説明は省略するが（日本語だと豊田，1994の解説がわかりやすい）, たとえばランダム被験者効果であるならば，その効果は被験者間のばらつき（分散）で表現され，それが大きいほど個人差が大きいことを意味する。ここで被験者の効果といったとき，2種類が考えられる。評定スピードの平均値の個人差，そして，平均値の条件間差の個人差（条件の効果の個人差）である。実際，データをみると，最初の人は次の人よりも条件のわずかながら効果が小さいようにみえる。前者は被験者のランダム切片（random intercept）, 後者は被験者のランダム傾き（random slope; 傾きとはこの場合条件間差だと思ってもらうとよい）と呼ばれることもある。ランダム傾きは，条件の効果にどれくらい個人差があるか，逆にいうと効果がどれくらい一般的なのか（個人差が小さいと効果が一般的だと考えられる）を示しているものだとも考えられる（南風原，2002）。線形混合モデルでは，この2 つのランダム効果（さらに正確にはこの2つのランダム効果の共分散）を組み込んだ分析を行うことができる。実は，このように被験者のランダム効果を考慮することは，伝統的な手法でも暗黙に行っていることである。このデータを，被験者ごとに平均値を出して，対応のあるt検定（もしくは分散分析）をするという，分析方法 を思い出してみよう。実は，上で述べた線形混合モデルと，この対応のあるt検定は機能的に同一である。実際のt値やp値もほとんど変わらない。したがって，タイ プ1エラーの上昇も生じてしまう。唯一違うのは，線形混合モデルでは，条件の個人差（効果の一般性）が明示的に推定されるのに対して，通常の方法ではそれが推定されず，それによって検定の自由度が少し異なってくることくらいである。上で書いたように，線形混合モデルはフルデータ（試行・刺激レベルのデータ）を使っていて，ランダム効果を明示的に推定していて，通常の分析よりもだいぶ進んでいるように思えるが，モデルによっては伝統的な方法の衣装を変えて行っているのに過ぎないのである（Barr et al., 2013）。また，線形混合モデルを使っていると，被験者のランダム切片だけを満足してしまい，ランダム傾きを含めずに分析する例も多く見受けられる。これは多くの場合誤った分析であり，普通のt 検定（上で述べたように，この分析はランダム切片とランダム傾きの両方を暗黙に想定している）よりも劣るのである。線形混合モデルがt検定よりも劣ると聞くと驚くだろうが，モデルの定め方によってはそうなってしまう。意外な落とし穴である。実際，近年ではこの被験者のランダム傾きを入れずに分析をしPsychological Science 誌に載った論文が，誤った分析だと指摘を受けて，撤回されている（Fischer, Hahn, DeBruine, & Jones, 2015）。

さて，今回の実験例で，線形混合モデルが真価を発揮するのは，ランダム刺激効果をさらに組み込んだ場合である。Table 3をみると，データは被験者ごとにクラスタ化されているだけでなく，刺激（写真）ごとにもクラスタ化されていることが分かる。つまり，240個のデータは独立ではなく，同じ刺激であった場合の評定スピードが似ている。実際，1つ目の刺激の評定時間は他の刺激に比べて比較的長い。先ほど，今回のデータは被験者にネストされていると書いたが，実際は，被験者と刺激の両方がクロスしているのである。データがクロスしていることは，データが Table 1のように記述できることからも明らかであろう。ということは，被験者のランダム効果だけでなく，前述の線形混合モデルに，刺激のラン Table 3.

A long format of the data presented in Figure 1. Negative picture condition and neutral picture condition are coded as −1 and 1, respectively. RT＝Reaction time （s）．

ID Stimulus Condi tion RT

1 1 −1 3.10 1 2 −1 2.43 1 3 1 3.03 1 4 1 2.49 2 1 −1 2.09 2 2 −1 1.43 2 3 1 1.82 2 4 1 1.50 3 1 −1 2.55 3 2 −1 2.00 3 3 1 2.45 3 4 1 2.11 4 1 −1 2.98 4 2 −1 2.50 4 3 1 2.78 4 4 1 2.50 5 1 −1 2.44 5 2 −1 1.90 5 3 1 2.13 5 4 1 1.87

(6)

ダム効果をさらに組み込むのはどうだろうか。線形混合モデルを用いると，このようにいくつものランダム効果を柔軟にモデル化することができる。基本はあくまでフルデータを用いた回帰分析だが，そこにデータ間の依存性を説明するランダム効果を柔軟に取り入れられるのが線形混合モデルの本質である。このモデルによって，被験者と刺激のランダム効果を同時に推定することが可能になり，結果の刺激への一般化が可能になる。そして重要なことに，あれだけ大きかったタイプ1エラーの増大も，ほぼ完全に消失する（サンプルサイズが小さいときには，自由度に関する少し複雑な問題があるのだが，興味ある人は参考文献を読んで欲しい）。先ほど，今回のデータでは被験者を単位としたt検定と，刺激を単位と したt検定の両方が実施できることを指摘したが，どち らのアプローチにしろ，最初に評定値の平均を算出して片方の要因をつぶしているので，被験者と刺激のランダム効果の両方を同時に考慮することが不可能だったことを思い出して欲しい。まとめと補足本稿の内容をまとめると以下の通りである。（1）刺激の効果を無視して，通常の t検定や分散分析を行うと，タイプ1エラーが上昇する，（2）その上昇は被験者が多く，もしくは項目が少ないほど高くなり，その値は50％を優に超えることも珍しくない，（3）ランダム刺激効果を含んだ線形混合モデルを用いるとこの問題を解決することができる，（4）ただし，ランダム刺激効果を明示的に含まなければ，線形混合モデルを使っても問題は解決しない。繰り返しになるが，特に文脈によっては意外に忘れられやすいのが（4）の点である。この原因の一つが，心理学における線形混合モデルの発展の歴史のように思われる。心理学において，線形混合モデルは階層線形モデル（hierarchical linear model）やマルチレベルモデル（multilevel model）の文脈で使われることが多かった（Goldstein, 2003; Raudenbush & Bryk, 2002）。これらのモ

デルは数学的に等価であるが，階層線形モデルやマルチレベルモデルの文脈では，その名の通り階層構造のデータを扱うことが多い。また，社会調査で発展したモデルということもあり，独立変数がカテゴリ変数でなく，連続量であることも多い。この階層線形モデルに慣れてしまうと，実際のデータが階層構造ではなくクロス構造であっても，ついそれを無視してしまい，階層構造を仮定した分析を行いがちである（Murayama et al., 2014）。たとえば，30人の被験者に20個の商品について好みと刺激の複雑さを評定してもらったとしよう。好みと（主観的な）刺激の複雑さに関係があるだろうか。階層線形モデルに慣れた人ならば，商品（レベル1）が被験者（レベル2）にネストされていると考えて，好みを複雑さから予測する分析することも多いのではないだろうか。しかし，これまで述べてきたように，このような分析は，たとえ階層線形モデル・マルチレベルモデルという先進的な感じのするラベルがついていても，クロスの構造を無視しているのだから，タイプ1エラーの増大を免れ得ない（加えると，この分析は，欠損値がなければ，被験 者ごとに個人内の回帰分析を行い，30個の回帰係数をt 検定にかけるという素朴な手法とほぼ機能的に等価である）。意外に知られていないことだが，階層線形モデルやマルチレベルモデルでも，クロスしたデータを扱い， 2種類以上のランダム効果をモデルに取り入れることが可能であり，それはクロス分類モデル（cross-classified model）と呼ばれる。したがって，ここの例においては，クロス分類モデルを使う必要がある。なお，本稿ではランダム刺激効果に関して，統計的な解決方法を示したが，実際は実験のデザインによってもランダム刺激効果の影響を最小限にする方法も可能である。もっとも単純でかつ効果的な方法は，実際に実験で使う刺激よりもずっと多くの刺激を集め，被験者ごとに刺激をランダムにサンプリングして，異なる刺激を呈示することである（もちろん刺激が多少オーバーラップしても構わない）。被験者ごとに刺激が違うので，ランダム刺激効果の影響を最小化することができる。もしくは刺激のセットをいくつも作り，被験者ごとにどれかのセットに割り当てるのも1つの手であろう。最後に，今回指摘した問題は，実験心理学だけに限ったものではないことを指摘しておきたい。たとえば脳イメージングの研究では，被験者ごとの脳データに一般線形モデル（回帰モデル）を当てはめ，その回帰係数を被 験者間で（t検定などを用いて）検定することが一般的 である。先に述べた，被験者ごとに回帰分析を適用するアプローチとほぼ同じである。刺激の効果は一切に考慮しない。ここで，被験者ごとに同じ刺激セットを用いているのなら，本稿で述べた問題点がそのまま当てはまる。したがって，現在出版されている脳イメージング研究には，刺激のランダム効果によって生じたFalse-posi-tiveの結果が私たちが考えているよりもずっと多く含まれているかもしれない（もちろんこの推論は，帰無仮説がどれだけ正しいかという私たちが知りようのないベースレートに依存するので，確定的なことは言えない）。筆者はこの点を学会などで指摘していたが（Murayama,

(7)

2015）, ちょうど昨年この問題を指摘し，それを解決する手法を提案した論文が出版された（Westfall, Nichols, & Yarkoni, 2017）。また，筆者は近年，縦断調査研究などで幅広く用いられる潜在曲線モデル（latent growth-curve model; McArdle & Anderson, 1990）にも，ランダム時点効果（random time effect）というものが存在し，それが同じようなタイプ1エラー増大の問題を引き起こしていることを示している（Usami & Murayama, under review）。読者の皆さんも，自分がよく扱うデータやデータ分析の方法を，今回の論文をもとに考え直してみると，意外に似たようなことがあったりするかもしれない。

引用文献

Baayen, R. H., Davidson, D. J., & Bates, D. M. (2008). Mixed-effects modeling with crossed random Mixed-effects for subjects and items. Journal of Memory and Language, 59, 390–412. doi: 10.1016/j.jml.2007.12.005

Barr, D. J., Levy, R., Scheepers, C., & Tily, H. J. (2013). Ran-dom effects structure for confirmatory hypothesis testing: Keep it maximal. Journal of Memory and Language, 68, 255– 278.

Clark, H. H. (1973). The language-as-fixed-effect fallacy: A critique of language statistics in psychological research. Journal of Verbal Learning & Verbal Behavior, 12, 335–359. doi: http://dx.doi.org/10.1016/S0022-5371(73)80014-3 Fisher, C. I., Hahn, A. C., DeBruine, L. M., & Jones, B. C.

(2015). Women’s preference for attractive makeup tracks changes in their salivary testosterone. Psychological Science, 26, 1958–1964.

Goldstein, H. I. (2003). Multilevel statistical model (3rd ed.). London: Edward Arnold.

南風原朝和（2002）．心理統計学の基礎――統合的理解のために―― 有斐閣

Judd, C. M., Westfall, J., & Kenny, D. A. (2012). Treating stim-uli as a random factor in social psychology: A new and comprehensive solution to a pervasive but largely ignored problem. Journal of Personality and Social Psychology, 103,

54–69.

Lang, P. J., Bradley, M. M., & Cuthbert, B. N. (1997). Interna-tional Affective Picture System (IAPS): Technical manual and affective ratings. Gainesville: NIMH Center for the Study of Emotion and Attention.

McArdle, J. J., & Anderson, E. (1990). Latent variable growth models for research on aging. In J. E. Birren & K. W. Schaie (Eds.), Handbook of the psychology of aging (3rd ed.). (pp. 21–44). San Diego: Academic Press.

Murayama, K. (2015). Time-specific random effect and Type-1 error inflation in longitudinal intra-individual data analy-sis: A mixed-effects model perspective. Presented at Net-work on Intrapersonal Research in Education (NIRE), Seminar 3: Intensive longitudinal data and statistical meth-ods. Helsinki.

Murayama, K., Sakaki, M., Yan, V. X., & Smith, G. M. (2014). Type I error inflation in the traditional by-participant anal-ysis to metamemory accuracy: A generalized mixed-effects model perspective. Journal of Experimental Psychology: Learning, Memory, and Cognition, 40, 1287–1306. http:// dx.doi.org/10.1037/a0036914

Raudenbush, S. W., & Bryk, A. (2002). Hierarchical linear models: Applications and data analysis methods (2nd ed.). Newbury Park, CA: Sage.

下木戸隆司（2007）．言語刺激を固定要因と見なす誤りをめぐって心理学評論，50, 135–150. 友永雅己・三浦麻子・針生悦子（2016）心理学の再現可能性：我々はどこから来たのか我々は何者か我々はどこへ行くのか――特集号の刊行に寄せて―― 心 理学評論，59, 1–2. 豊田秀樹（1994）．違いを見抜く統計学――実験計画と分散分析入門―― 講談社

Usami, S., & Murayama, K. (under review). Random time ef-fects in growth curve modeling: Type-1 error inflation and a possible solution with mixed-effects models.

Westfall, J., Nichols, T. E., & Yarkoni, T. (2017). Fixing the stimulus-as-fixed-effect fallacy in task fMRI [version 2; ref-erees: 1 approved, 2 approved with reservations]. Wellcome Open Research, 1: 23 doi: 10.12688/wellcomeopenres. 10298.2

刺激の効果を侮るなかれ―ランダム刺激効果を含んだ線形混合モデルの重要性と落とし穴―