日本人クラウドワーカーによるオンライン実験と大学生による実験室実験における認知課題成績の比較

(1)

DOI: http://doi.org/10.14947/psychono.38.10

日本人クラウドワーカーによるオンライン実験と

大学生による実験室実験における認知課題成績の比較

1

中村紘子

a,

*・眞嶋良全

b

a_{愛知淑徳大学，}b_{北星学園大学}

Comparing the performance of cognitive tasks between Japanese crowd workers

in a web-based experiment and university students in a lab-based experiment

Hiroko Nakamura

a,

* and Yoshimasa Majima

b

a_{Aichi Shukutoku University,}b_{Hokusei Gakuen University}

In this study, we examined the fidelity of online cognitive–behavioral experiments conducted with Japanese crowd workers. Four cognitive tasks (flanker task, mental rotation task, levels-of-processing task, and mood induc-tion task involving the recall of autobiographical memories) were performed by Japanese crowd workers in a web-based setting and by students in a lab-web-based setting. We found that all task-specific effects were replicated, except mood induction did not affect perceived social support in both crowd workers and students. The present results val-idate the fidelity of conducting online experiments with Japanese crowd workers.

Key words: Japanese crowdsourcing pool, online experiment, experimental cognitive research, replication

オンラインでのデータ収集ツールや，クラウドソーシングサービスの普及にともない，webを介した心理学研究は年々増加している。認知心理学の主要な雑誌に掲載された論文のうち，オンライン上で参加者募集を行った研究の割合は，2012年は5％以下であったが2017年には 11–31％になっている（Stewart, Chandler, & Paolacci, 2017）。こうしたオンライン実験・調査の多くは，調査会社の登録者や，Amazon Mechanical Turk （以下，AMT），Prolific，クラウドワークスといったクラウドソーシングサービスに登録しているクラウドワーカー（Crowdworkers, 以下CW）を参加者とし，jsPsych, Inquisit Web, PsychoPy, Qualtricsといったオンライン上で刺激提示・データ収集が可能なソフトウェアを用いて実施されている。CWによるオンライン実験・調査の利点として，参加者の多様性やデータ収集が迅速かつ低コストで可能なことがあげられる（Gleibs, 2017; 白木・五十嵐，2018）。一方で，オンライン実験・調査で収集されたデータは，従来の実験室実験や質問紙調査で得られたデータと同程度の質かという問題がある。Birnbaum （2004）は，オンライン実験にはPC， OS，ブラウザといった機材の違いや，実験を行う環境の違い，参加者の多様性といったさまざまな「ノイズ」が含まれるとしている。オンライン実験と実験室実験を比較した多くの研究が，機材や実験環境の統制が困難なオンライン実験においても，実験室実験で示された実験操作の効果が再現できることを報告している（Brand & Bradley, 2012; Hilbig, 2016; Semmelmann & Weigelt, 2017; Miller, Schmidt, Kirshbaum, & Enge, 2018）。Semmelmann & Weigelt （2017）は，学生参加者を実験室でのオフラインの心理実験ソフトウェア（Matlab Psychtoolbox），実験室でのwebブラウザ（HTML5/

JavaScript），自宅での web ブラウザ（HTML5/JavaScript）の三つの機材・環境条件に分け，単純反応時間の計測とフランカー課題，プライミング課題などの認知課題を行った。その結果，webブラウザでは心理実験ソフトウェアに比べて反応時間が全体的に遅くなるが，環境や機材にかかわらずプライミング以外のすべての課題において先行研究と同様の実験操作の効果が再現された。 Miller et al. （2018）は，同一の学生参加者に対して実験室と自宅で，オンライン実験ソフトウェア（Inquisit4Web） Copyright 2019. The Japanese Psychonomic Society. All rights reserved. * Corresponding author. Aichi Shukutoku University, 2–9

Katahira, Nagakute, Aichi 480–1197, Japan. E-mail: [email protected]

1_{本研究の結果の一部は日本認知心理学会第17回大会}

（2019）にて発表された．

(2)

による認知課題を行い，どちらの環境でも実験操作の効果が再現できることや，課題の反応時間やエラー率に環境による差がほとんどみられないことを示した。こうした研究から，プライミング課題のような厳密な時間の制御を必要とする課題でなければ，機材や環境が実験操作の効果へ及ぼす影響は少なく，オンライン実験であっても実験室実験と同様の効果が再現可能であるといえる。 CW と学生サンプルの認知課題成績を比較した研究は，年齢や学歴などが多様なCWを対象としたオンライン実験においても，学生を対象とした実験と同様の結果が再現されたことを報告している（Germine et al., 2012; Crump, McDonnell, & Gureckis, 2013）。Crump et al. （2013）

は，AMTで募集したCWを対象に，反応時間課題（ストループ課題，フランカー課題など），刺激の瞬間時間提示課題（注意の瞬き課題，閾下プライミング課題など），学習課題（カテゴリー学習課題）を行った。その結果，閾下プライミングを除くすべての課題で，先行研究と類似した結果が示された。Crump et al. （2013）は，刺激の閾下提示においてwebブラウザの技術的な問題に起因した困難があるものの，それ以外の多くの実験操作の効果が再現されていることから，CWの利用は妥当性のある行動実験の手法だと述べている。Germine et al. （2012）は，実験参加者募集サイトを通して募集した参加者と大学生などを対象とした従来の募集方法による参加者の，再認課題やワーキングメモリ課題の成績を比較し，IQ が関連する課題の成績ではサンプルによる差がみられたが，課題成績や，成績の分散，信頼性にサンプルによる一貫した違いはみられないことを報告している。Mills & D’Mello （2014）は，自伝的記憶の想起による気分誘導を AMTのCWを対象に実施し，参加者に怒りや喜びといった体験の記憶を記述させると，想起した出来事と関連する気分が誘導されることを示した。CWでは環境要因の統制が困難であるにもかかわらず，自伝的記憶の想起により気分が誘導され，その効果量も中程度以上の大きさであることから，彼女たちはCWを用いたオンライン実験であっても気分誘導の効果がみられると述べている。これらの研究は，CWやwebを介したサンプルにおいて，記憶や気分誘導といったさまざまな認知課題の実験操作の効果が再現可能なことを示しており，機材や環境の違い，サンプルの多様性などの「ノイズ」があっても，CW によるオンライン実験は心理学の行動データを収集する上で有効なツールであると考えられる。日本におけるオンライン心理学実験の研究として， Majima （2017）はクラウドワークスで募集した日本人の CWと学生を対象に，ストループ課題，フランカー課題といった認知課題を実施し，反応時間とエラー率の比較を行った。実験操作の効果はサンプルに限らず有意であり，実験条件とサンプルとの交互作用もみられなかったことから，欧米での先行研究（Crump et al., 2013; Semmelmann & Weigelt, 2017）と同様，実験操作の効果が日本人CWでも再現できたといえる。一方，日本人学生は日本人CWよりも反応時間が短いがエラー率が高いという，サンプルによる速さと正確さのトレードオフが生じることが示された。CWと学生の間で反応時間やエラー率に差が生じた理由として，Majima （2017）は，回線速度，金銭的報酬の有無や年齢が影響した可能性をあげており，年齢を統制するとサンプルによる差が消失することを示した。日本人CWと学生との成績の差は，サンプルの質の差ではなく，年齢により参加者がより注意深くなった傾向を反映しているといえる。本研究の目的 CWを用いたオンライン実験と従来の学生による実験室実験の比較研究は，多くが欧米でAMTのCWを対象として検討されており，日本における検討例はMajima （2017）と少数である。Majima （2017）は，欧米の先行研

究（Crump et al., 2013; Semmelmann & Weigelt, 2017）と同様，日本人CWでも実験操作の効果が再現できることを明らかにした。ただし，Majima （2017）では欧米の研究ではみられなかったCWと学生サンプルによる成績の違いが示され，認知課題において CWはより正確だがRT が長くなり，学生はよりRTが短いが正確さに欠けていた。こうした日本人 CWとAMTなどのCWとの違いが何に起因するかは明らかにされておらず，また，日本人 CWによる心理学実験のパフォーマンスについても十分に検討されているとはいえない。日本人CWのオンライン実験サンプルとしての有効性を検討するためには，実験環境や参加者の多様性という「ノイズ」を含んだCW が，従来の統制された環境下での実験室実験で大学生参加者においてみられたのと同じような実験操作の効果を示すかどうかを検証し，その信頼性を確認する必要がある。以上を踏まえ，本研究では，日本人CWによるオンライン認知実験において，学生参加者を対象とした実験室実験と同様の実験操作の効果がみられるか，両者の課題成績の差の有無を，複数の認知課題により検討した。日本人 CWと学生を比較した研究（Majima, 2017; Majima, Nishiyama, Nishihara, & Hata, 2017）では，ストループ課題やフランカー課題などの反応競合に関する課題や推論課題を用いており，空間認知や記憶，感情といったその他

(3)

の認知課題による検討は行われていない。そこで本研究では，Majima （2017）やCrump et al. （2013）で用いられたフランカー課題に加えて，心的回転課題，記憶課題，気分誘導課題を実施し，CWを参加者とするオンライン実験と学生を参加者とする実験室実験の成績を比較する。心的回転課題といった空間認知課題は年齢や性別による影響があることから（Collins & Kimura, 1997; 権藤・石原・中里・下仲，1998; Jansen & Heil, 2010），学生よりも年齢が高く女性の割合が多い日本人CWでは（Majima et al., 2017），エラー率が高く反応時間が長くなる可能性がある。また，Miller et al. （2018）はオンライン実験は環境の統制が困難なため，参加者の注意が逸れやすく，課題への努力が減少しやすいという先入観を持たれやすいと述べている。もしオンライン実験で課題への集中がより困難となる場合，反応時間の遅延や，記憶成績の低下，気分誘導の効果が小さくなることが考えられる。実験心理学の研究対象は多岐にわたっており，空間認知や記憶，感情に関する知見のオンライン実験での再現可能性を明らかにすることは，オンライン実験の有効性や適用範囲を検討する際に重要だといえる。本研究では，統制された環境で学生のみをサンプルとして実施する実験室実験と，実験環境が統制されておらず学生以外の多様なサンプルを含むCWによるオンライン実験の比較を行い，サンプル・環境の違いが認知課題成績に影響するかを検討する。その際に，サンプル・環境による差があるかだけではなく，差がないかも検討するため，ベイズ混合効果モデルによるモデル比較を行う。実験の概要本実験は，愛知淑徳大学人間情報学部倫理委員会の承認（2018-003）のもとで実施した。実験は（1）フランカー課題，（2）心的回転課題，（3）処理水準課題，（4）気分誘導課題の四種類の課題から構成され，参加者はすべての課題に回答した。オンライン調査・実験プラットフォームであるQualtrics上で実験を実施し，参加者はPCのweb ブラウザを用いて回答した。課題実施前に実験の概要とプライバシー保護，報酬の支払いに関する説明ページを提示し，実験参加に同意するかどうかの確認を求めた。課題の実施順は，フランカー課題または心的回転課題，処理水準課題，気分誘導課題の順とし，フランカー課題と心的回転課題の実施順は参加者間でカウンターバランスした。これらの課題終了後，参加者が課題に十分注意を向けずに回答する努力の最小限化を検出する課題である，Instructional Manipulation Check （IMC: Oppenheimer,

Meyvis, & Davidenko, 2009; 三浦・小林，2015）を行った。その後，回答中にトラブルがあったかなどのチェック項目と，年齢，性別などのデモグラフィック変数を尋ね，最後に事後説明のページを提示した。CWには，報酬を取得するための確認コードも表示した。方法刺激の提示と反応の収集は，Qualtrics （https://www. qualtics.com）を用いて行った。Qualtricsでの反応時間の計測にはTiming機能とJavaScriptを用いた2_。学生サンプルに対する実験は，1∼6名の少人数のグループで実施した。実験室は防音となっており，座席はパーティションで区切られ，他の参加者が見えない環境であった。PCは東芝Dynabook SS RX2，ブラウザはGoogle Chrome （ver. 71.0）を用いた。 CWの募集に際し，PCとGoogle Chromeブラウザを使用し，30分間作業のみに集中して取り組むよう募集要項に示した。クラウドワークスでタスクへの応募後，1時間以内に作業を終えない場合，クラウドワークスのシステムの都合上，作業承認ができない場合があることを募集要項に示した。また，スマートフォン，タブレットなどからは回答できないようQualtricsで設定した。分析ベイズ混合効果モデルの分析にはR （R Core Team, 2017）のBayesFactor package （Morey & Rouder, 2018）を利用し，

モデルのBayes Factor （BF）から，サンプル・環境による

効果を含んだモデルと含まないモデルの比較を行った。

ベイズ混合効果モデルでのBFx,0の基準とするモデルM0

は参加者のランダム切片のみのモデルとした。BFおよ

びモデルの解釈は Rouder, Morey, Verhagen, Swagman, &

Wagenmakers （2017）とWasserman （2000）を参考に行い，モデルAとモデルBのBFの比（BFAB＝BFA/BFB）をJeffreys の基準（Jeffreys, 1961, p. 432）から解釈した。Jeffreysの基 準では，BFABが1–3でモデルBよりもモデルAを支持する弱い証拠，BFABが3–10 で中程度の証拠，BFABが10 以上で強い証拠が得られたとなる。参加者

参加者の人数はSchönbrodt, Wagenmakers, Zehetleitner, & Perugini （2018）のTable 1をもとに決定した。BFの基準を

BF＝5, 2群の母集団に差があるという仮説H1のもとでの

2_{CW に提示した Qualtrics のページを https://qlite.az1.}

(4)

効果量δは，Majima （2017）でCWと大学生の間の差に中 程度の効果量がみられたことからδ＝0.5とした。δのJZS 事前分布のパラメータr＝1とした場合のaverage sample number から，各群 50 名以上を目標に参加者を募集した。この時の偽陽性率は.05，偽陰性率は.12であった。 クラウドワーカー（CW）日本におけるクラウドソー シングサービスの一つであるクラウドワークス（https:// crowdworks.jp）において参加者募集を行った。募集人数は60名とし，これまでの作業承認率が95％以上のワーカーのみ応募できるようにした。謝礼は最低賃金の全国平均を下回らないよう，30分程度の実験参加で500円とした3_{。CWの平均年齢は38.5歳（SD＝11.3），男性40名，} 女性 20 名であった。参加者の募集は 2019 年 1 月 14 日（月・祝日）の 11時から開始し，15時30分までに60名の回答が集まった。学生愛知淑徳大学で情報学を専門とする学生54名が実験に参加した。参加の謝礼は500円分の図書カードとした。学生参加者の平均年齢は20.3歳（SD＝1.1），男 性16名，女性38名であった。参加者の募集および実験期間は，2018年12月19日（水）から2019年1月18日（金）までとした。 CWのうち，Google Chrome以外のブラウザを用いていた者，および課題中に地震などで中断があったと回答した者10名を分析から除外し，50名のデータにより以降の分析を行った。分析に用いたCWの平均年齢は37.0 歳（SD＝10.8），男性 35名，女性15名であった。また， 学生のうち，誤った回答方法で答えていた者と日本語以外を母国語とする者2名を分析から除外し，52名のデータにより以降の分析を行った。分析に用いた学生の平均 年齢は20.3歳（SD＝1.1），男性15名，女性37名であった。 Bayesian t検定とχ2_{検定の結果，平均年齢はCWが学生よ} りも高くBFH1,H0＝9.72＊1015，男性参加者の割合はCWが 学生よりも多いことが示されたBFH1,H0＝9.72。努力の最小限化傾向 IMC違反率はCWが15％（7名）， 学生が25％（13名）であり，Bayesian χ2_{検定の結果，違反} 率に差があるというモデルは支持されなかったBFH1,H0＝ 0.36。努力の最小限化に差がみられず，また，分析に十分なだけの違反者数が得られなかったため，IMC違反者も含めて認知課題成績の分析を行った。以上が，実験全体の流れと分析に関する基本的な考え方である。以後，各課題別に，実験課題の詳細と結果について述べる。 実験1：フランカー課題 フランカー課題は，関連する情報を無関連な情報から切り離し，適切に反応することを求める課題である（Eriksen & Eriksen, 1974）。この課題では，綴りの中央の

ターゲット文字の周囲に，一致（例： fffff），または不一 Table 1.

Results from the Bayesian mixed-eﬀects model analysis of RTs （upper panel) and error rates （lower panel) in Flanker task.

RTs Random eﬀect of participants

Intercept only Random slope for Target

Fixed Eﬀects BF log (BF) BF log (BF)

none M0 M5 1.9E−01 −1.7

Sample·Environment M1 5.8E−01 −0.5 M6 7.5E−02 −2.6

Target M2 4.0E＋16 38.2 M7 6.5E＋15 36.4

Sample·Environment＋Target M3 1.3E＋16 37.1 M8 1.5E＋15 34.9

Sample·Environment＊Target M4 3.8E＋15 35.9 M9 7.7E＋14 34.3

Error rates Random eﬀect of participants

Intercept only Random slope for Target

none M0 M5 4.6E＋00 1.5

Sample·Environment M1 2.9E−01 −1.2 M6 1.8E＋00 0.6

Target M2 4.3E＋00 1.5 M7 1.4E＋01 2.6

Sample·Environment＋Target M3 1.3E＋00 0.3 M8 5.3E＋00 1.7

Sample·Environment＊Target M4 7.9E−01 −0.2 M9 3.3E＋00 1.2

(5)

致（例： hhfhh）の文字が提示され，参加者はターゲット文字の判断を求められる。ターゲットと周囲の文字が不一致の場合は，周辺の不一致情報を抑制して反応する必要があるため，一致する場合よりも反応時間や誤答の増大を招く。フランカー課題で一致・不一致により反応時間や誤答数が変化するという結果は，オンライン実験においても再現されている（Crump et al., 2013; Semmelmann & Weigelt, 2017）。Majima （2017）は，日本人大学生・CW ともに不一致条件の反応時間が一致条件よりも増大し，さらに，大学生はCWよりも全体に反応時間が短いがエラー率が高いことを示している。よって，本実験においても，一致・不一致の効果およびサンプル・環境による差が生じることが考えられる。方法フランカー課題では，提示される5文字の綴りの中央の文字がfかhかを，できるだけ早く正確に判断するように求めた。刺激にはアルファベットのfとhを用い，中央のターゲット文字と周辺の4文字が一致している一致刺激（fffff, hhhhh）と，一致していない不一致刺激（ffhff, hhfhh）を作成した。刺激のフォントは48ポイントのゴシック体とした。各試行では，注視点として＋マークが画面中央に1秒提示されたあと，刺激がランダムに1つ提示された。参加者には提示された刺激の中央の文字が fかhかをキー押し（F, H）で判断するように求め，キーを押すと次の試行に進むようにした。本試行の前に練習課題8試行を実施し，本試行では各刺激を10回提示し，合計40試行を実施した。結果と考察反応時間は対数変換をし分析を行った。反応時間の分析に際し，エラー反応（186試行），反応時間が1500 ms以上の反応（59試行）と100 ms以下の反応（48試行）の合計 293試行（7.2％）のデータを分析から除外した。Figure 1 に反応時間とエラー率の平均値と標準偏差を示す。反応時間，エラー率それぞれについて，サンプル・環境，ターゲット（一致・不一致）を固定効果，参加者をランダム効果とする，ベイズ混合効果モデルによる分析を行った（Table 1）。 反応時間において最もBFが大きかったモデルは，ター ゲットを固定効果とし，参加者をランダム切片とするモデル（M2）であったBF2,0＝4.0＊1016。サンプル・環境を 含むモデルで最も BFが大きかったモデルはサンプル・ 環境とターゲットを固定効果とし，参加者をランダム切 片とするモデル（M3）でありBF3,0＝1.3＊1016，BFが最大のM2とのBFの比はBF2,3＝3.19であり，サンプル・環境の効果を含まないM2が支持される結果となった。エラー率において最も BF が大きかったモデルは，

Figure 1. Mean error rates (upper panel) and RTs (lower panel) of Flanker task. Error bars indicate SD (CW: Crowdworkers in web, STU: Students in lab).

(6)

ターゲットを固定効果とし，参加者をターゲットのランダム傾きとするモデル（M7）であったBF7,0＝14.0。サンプル・環境を含むモデルで最もBFが大きかったモデルは サンプル・環境とターゲットを固定効果とし，参加者をターゲットのランダム傾きとするモデル（M8）であった BF8,0＝5.3。BF が最大の M7 と M8 の BF の比は BF7,8＝2.6 であり，サンプル・環境の効果を含まないモデルを弱く支持する結果となった。フランカー課題では，ターゲットの一致・不一致の効果を含むモデルがターゲットの効果を含まないモデルよりも強く支持されており，ターゲット刺激と周囲の刺激が一致しない条件では反応時間，エラー率ともに増大することが示された。オンライン実験でもターゲットの効果がみられたとする先行研究（Crump et al., 2013; Majima, 2017; Semmelmann & Weigelt, 2017）を再現できたといえる。一方でMajima （2017）で示されたサンプルによる違いはみられず，サンプル・環境の効果を含むモデルは含まないモデルよりも全般に当てはまりが悪かった。Majima （2017）では，学生サンプルは反応時間が早い反面，正確さに欠けるという結果が示されていたが，本研究の試行数は40試行であり，Majima （2017）の100試行よりも試行数が少ないため，早く反応して課題を終わらせようとする手抜きが生じにくかった可能性が考えられる。 実験2：心的回転課題

心的回転課題（Shepard & Metzler, 1971; Cooper & Shepard, 1973）は，さまざまな角度で提示される図形が基準（0°）となる図形と同じかや，正立像か鏡像かの判断をする課題であり，一般に提示角度が0°から離れ180°に近づくほど判断が困難になる。心的回転課題では，参加者は刺激の心的なイメージを操作していると考えられており，回転角度が180°に近づくほど心的イメージの操作に時間がかかるとされている。方法実験計画は，2 （像：正立・鏡像）＊6 （角度： 0°, 60°, 120°, 180°, 240°, 300°）の2要因参加者内計画とした。課題はCooper & Shepard （1973）を参考に作成し，提示される数字が正立か鏡像かをできるだけ早く正確に判断するよう参加者に求めた。刺激として数字の2, 5, 7を用い，数字は直径 200ピクセルの円の中央に，150ピクセルサイズのゴシック体で表示した。それぞれの数字について像と角度が異なる12パターンの刺激を作成した。各試行では，注視点として＋マークが画面中央に1秒提示されたあと，刺激がランダムに1つ提示された。参加者には提示された刺激が正立か鏡像かをキー押し（F＝正立， H＝鏡像）で判断するように求め，キーを押すと次の試行に進むようにした。本試行の前に数字の4を刺激として練習課題8試行を実施し，本試行では各刺激を2回提示し合計72試行を実施した。結果と考察反応時間は対数変換し分析を行った。反応時間の分析に際し，エラー反応（429試行），反応時間が3000 ms以上の反応（206試行）と100 ms以下の反応（14試行）の合計444試行（8.8％）のデータを分析から除外した。Figure 2 に反応時間とエラー率の平均値と標準偏差を示す。反応時間，エラー率それぞれについて，サンプル・環境，像，角度を固定効果，参加者をランダム効果とする，ベイズ混合効果モデルによる分析を行った。参加者のランダム効果には，ランダム切片と各固定効果と交互作用に対するランダム傾きを設けた。Table 2に各モデルのBFを示す。 反応時間において，最もBFが大きかったモデルは像と 角度の交互作用を固定効果とし，参加者を像，角度の主効果に対するランダム傾きとするモデル（M55）であったBF55,0＝1.1＊10262。サンプル・環境を含むモデルで最もBFが大きかったモデルは像と角度の交互作用とサン プル・環境の主効果を固定効果とし，参加者を像，角度の主効果に対するランダム傾きとするモデル（M58）でありBF58,0＝3.4＊10261，BF が最大の M55 との BF の比は BF55,58＝3.08であり，サンプル・環境の効果を含まない M55を支持する結果となった。エラー率において，最もBFが大きかったモデルは像と角度の交互作用を固定効果とし，参加者を像，角度の主効果と交互作用に対するランダム傾きとするモデル （M70）であったBF70,0＝1.5＊10111。サンプル・環境の効 果を含むモデルで最もBFが大きかったモデルは像と角 度の交互作用とサンプル・環境の主効果を固定効果とし，参加者を像，角度の主効果と交互作用に対するランダム 傾きとするモデル（M73）でありBF73,0＝3.5＊10110，BFが 最大の M70 との BF の比は BF70 73＝4.36 であり，サンプル・環境の効果を含まない M70を支持する結果となった。心的回転課題の反応時間とエラー率について，いずれもサンプル・環境の効果を含まないモデルのBFがサンプル・環境の効果を含むモデルよりも大きいことから，心的回転課題の反応時間やエラー率にサンプル・環境の差が及ぼす影響は小さいと考えられる。一方，角度や像

(7)

の要因の効果を含むモデルが強く支持されたことから，心的回転といった空間認知課題も，オンライン上で再現可能であるといえる。

実験3：

単語の再認課題における処理水準効果

処理水準効果（Craik & Lockhart, 1972; Craik & Tulving, 1975）とは，符号化時の処理水準が深いほど記憶成績がよくなる現象である。処理水準効果の一般的な手続きでは，刺激に対して使用頻度判断といった意味的処理か，色・形の判断といった形態的処理を行い，その後，刺激に対する再認判断を求める。意味的な深い処理を行った場合の方が，形態的な浅い処理を行った場合よりも再認成績が良くなる。これは，刺激に対して深い処理を行った場合，より多くの特性が符号化されるため，検索が容易になるからだと考えられている。方法本課題は偶発学習課題とし，ターゲット語に形態処理または意味処理を行ったあと，ターゲット語の再認課題を実施した。提示する単語は，杉島・岩原・賀集（1996）のひらがな清音4文字名詞から，熟知価4.65–4.74の単語 40語を選定した。この40語をもとに，学習語20語（形態処理条件10語，意味処理条件10語），未学習語20語となるよう，4種類の刺激セットを作成した。学習フェーズ形態処理・意味処理の手続きは藤田（2004）に従った。形態処理条件では，囲みのある文字数を0から4までで判断するよう求めた。囲みとは，文字の中の閉じた領域を示し，例えば「あ，の，む」は囲みのある文字，「い，き，ひ」は囲みのない文字である。意味処理条件では，各単語の使用頻度について，「0: 全く使用しない」から「4: 頻繁に使用する」の5段階で評価するよう求めた。各単語は白い画面の中央に50ピクセルの黒色のゴシック体で提示し，提示時間は3秒間とした。意味処理条件の試行と形態処理条件の試行はブロック提示とし，参加者ごとにブロックの提示順をカウンターバランスした。各課題では，単語の下に「単語の使用頻度を答えてください」または「囲みの数を答えてください」という説明と選択肢を示し，参加者には回答の選択肢をクリックするように教示した。各条件での単語の提示順は参加者ごとにランダマイズした。学習フェーズに先立ち，クリティカル単語以外の単語を用いて練習試行を8試行行った。計算課題学習フェーズの20試行終了後，遅延課題 Figure 2. Mean error rates (upper panel) and RTs (lower panel) of Mental rotation task with SD bars

(8)

Ta ble 2. Res ul ts f ro m t he B ay esi an mix ed-eff ec ts m ode l a na lysi s o f R Ts （ up per p an el ） a nd er ro r ra tes （ lo w er p an el ） in m en ta l r ot at io n t as k. RTs Ra ndo m eff ec t o f p ar tici pa nts In ter cep t o nl y Ra ndo m s lo pe f or Dir ec tio n Ra ndo m s lo pe f or A ng le Ra ndo m s lo pe f or A ng le, Dir ec tio n Ra ndo m s lo pe f or Dir ec tio n, A ng le, Dir ec tio n＊ A ng le Fix ed Eff ec ts BF log (BF ) BF log (BF ) BF log (BF ) BF log (BF ) BF log (BF ) no ne M 0 M 15 3.7E ＋ 39 91.1 M 30 3.2E ＋ 69 160.0 M 45 7.5E ＋ 135 312.9 M 60 9.7E ＋ 139 322.3 Sa m ple M 1 2.0E −01 −1.6 M 16 7.9E ＋ 38 89.6 M 31 8.0E ＋ 68 158.6 M 46 2.2E ＋ 135 311.6 M 61 3.2E ＋ 139 321.2 Dir ec tio n M 2 2.6E ＋ 52 120.7 M 17 9.7E ＋ 54 126.6 M 32 5.1E ＋ 140 324.0 M 47 3.2E ＋ 152 351.1 M 62 3.5E ＋ 156 360.5 A ng le M 3 2.1E ＋ 158 364.5 M 18 1.7E ＋ 217 500.2 M 33 3.6E ＋ 155 358.2 M 48 9.4E ＋ 220 508.8 M 63 1.1E ＋ 227 522.8 Sa m ple ＋ Dir ec tio n M 4 5.5E ＋ 51 119.1 M 19 2.1E ＋ 54 125.1 M 34 1.4E ＋ 140 322.7 M 49 9.4E ＋ 151 349.9 M 64 1.2E ＋ 156 359.4 Sa m ple ＋ A ng le M 5 5.1E ＋ 157 363.1 M 20 4.9E ＋ 216 498.9 M 35 9.3E ＋ 154 356.8 M 50 2.9E ＋ 220 507.6 M 65 4.0E ＋ 226 521.8 Dir ec tio n＋ A ng le M 6 8.4E ＋ 221 511.0 M 21 3.2E ＋ 232 535.4 M 36 1.4E ＋ 224 516.1 M 51 6.1E ＋ 236 545.2 M 66 4.3E ＋ 242 558.7 Sa m ple ＋ Dir ec tio n＋ A ng le M 7 2.2E ＋ 221 509.7 M 22 8.9E ＋ 231 534.1 M 37 3.9E ＋ 223 514.8 M 52 1.9E ＋ 236 544.0 M 67 1.5E ＋ 242 557.6 Sa m ple ＊ Dir ec tio n M 8 4.4E ＋ 53 123.5 M 23 4.3E ＋ 54 125.8 M 38 1.3E ＋ 143 329.5 M 53 3.0E ＋ 152 351.1 M 68 4.2E ＋ 156 360.6 Sa m ple ＊ A ng le M 9 5.9E ＋ 154 356.4 M 24 5.2E ＋ 213 492.1 M 39 1.2E ＋ 152 350.2 M 54 3.7E ＋ 217 501.0 M 69 6.4E ＋ 223 515.3 Dir ec tio n＊ A ng le M 10 4.2E ＋ 244 563.3 M 25 1.9E ＋ 257 592.4 M 40 1.2E ＋ 247 569.0 M 55 1.1E ＋ 262 603.3 M 70 2.1E ＋ 261 601.7 A ng le ＋ Sa m ple ＊ Dir ec tio n M 11 2.5E ＋ 224 516.7 M 26 3.1E ＋ 232 535.3 M 41 6.4E ＋ 226 522.2 M 56 6.7E ＋ 236 545.3 M 71 6.0E ＋ 242 559.0 Dir ec tio n＋ Sa m ple ＊ A ng l M 12 4.0E ＋ 218 503.3 M 27 1.1E ＋ 229 527.4 M 42 7.2E ＋ 220 508.5 M 57 2.7E ＋ 233 537.5 M 72 2.7E ＋ 239 551.3 Sa m ple ＋ Dir ec tio n＊ A ng le M 13 1.2E ＋ 244 562.0 M 28 5.6E ＋ 256 591.2 M 43 3.7E ＋ 246 567.7 M 58 3.4E ＋ 261 602.2 M 73 7.3E ＋ 260 600.7 Sa m ple ＊ Dir ec tio n＊ A ng le M 14 8.0E ＋ 241 557.0 M 29 6.4E ＋ 251 579.8 M 44 4.8E ＋ 244 563.4 M 59 5.6E ＋ 256 591.2 M 74 1.8E ＋ 256 590.1 Er ro r ra tes Ra ndo m eff ec t o f p ar tici pa nts In ter cep t o nl y Ra ndo m s lo pe f or Dir ec tio n Ra ndo m s lo pe f or A ng le Ra ndo m s lo pe f or A ng le, Dir ec tio n Ra ndo m s lo pe f or Dir ec tio n, A ng le, Dir ec tio n＊ A ng le Fix ed Eff ec ts BF log (BF ) BF log (BF ) BF log (BF ) BF log (BF ) BF log (BF ) no ne M 0 M 15 1.0E ＋ 27 62.2 M 30 2.1E ＋ 06 14.5 M 45 5.2E ＋ 38 89.1 M 60 1.4E ＋ 78 179.9 Sa m ple M 1 1.9E −01 −1.7 M 16 2.0E ＋ 26 60.6 M 31 4.0E ＋ 05 12.9 M 46 1.1E ＋ 38 87.6 M 61 3.2E ＋ 77 178.5 Dir ec tio n M 2 1.4E ＋ 03 7.2 M 17 1.3E ＋ 27 62.4 M 32 6.6E ＋ 09 22.6 M 47 6.9E ＋ 38 89.4 M 62 2.1E ＋ 78 180.4 A ng le M 3 1.4E ＋ 36 83.2 M 18 3.3E ＋ 66 153.2 M 33 3.7E ＋ 31 72.7 M 48 7.0E ＋ 64 149.3 M 63 2.3E ＋ 105 242.6 Sa m ple ＋ Dir ec tio n M 4 2.6E ＋ 02 5.6 M 19 2.5E ＋ 26 60.8 M 34 1.3E ＋ 09 21.0 M 49 1.4E ＋ 38 87.8 M 64 4.9E ＋ 77 178.9 Sa m ple ＋ A ng le M 5 2.7E ＋ 35 81.6 M 20 6.7E ＋ 65 151.6 M 35 7.3E ＋ 30 71.1 M 50 1.5E ＋ 64 147.7 M 65 5.2E ＋ 104 241.1 Dir ec tio n＋ A ng le M 6 3.4E ＋ 39 91.0 M 21 4.3E ＋ 66 153.4 M 36 1.4E ＋ 35 81.0 M 51 9.5E ＋ 64 149.6 M 66 3.5E ＋ 105 243.0 Sa m ple ＋ Dir ec tio n＋ A ng le M 7 6.5E ＋ 38 89.4 M 22 8.6E ＋ 65 151.8 M 37 2.8E ＋ 34 79.3 M 52 2.0E ＋ 64 148.0 M 67 8.0E ＋ 104 241.6 Sa m ple ＊ Dir ec tio n M 8 3.1E ＋ 01 3.4 M 23 3.0E ＋ 25 58.7 M 38 1.7E ＋ 08 18.9 M 53 1.8E ＋ 37 85.8 M 68 6.8E ＋ 76 176.9 Sa m ple ＊ A ng le M 9 9.5E ＋ 31 73.6 M 24 2.6E ＋ 62 143.7 M 39 3.8E ＋ 27 63.5 M 54 8.8E ＋ 60 140.3 M 69 4.7E ＋ 101 234.1 Dir ec tio n＊ A ng le M 10 1.1E ＋ 51 117.5 M 25 2.4E ＋ 79 182.8 M 40 2.1E ＋ 47 109.0 M 55 4.4E ＋ 78 181.1 M 70 1.5E ＋ 111 256.0 A ng le ＋ Sa m ple ＊ Dir ec tio n M 11 8.3E ＋ 37 87.3 M 26 1.1E ＋ 65 149.7 M 41 3.7E ＋ 33 77.3 M 56 2.5E ＋ 63 146.0 M 71 1.1E ＋ 104 239.6 Dir ec tio n＋ Sa m ple ＊ A ng l M 12 2.3E ＋ 35 81.4 M 27 3.4E ＋ 62 144.0 M 42 1.5E ＋ 31 71.8 M 57 1.2E ＋ 61 140.6 M 72 7.2E ＋ 101 234.5 Sa m ple ＋ Dir ec tio n＊ A ng le M 13 2.1E ＋ 50 115.9 M 28 5.0E ＋ 78 181.2 M 43 4.2E ＋ 46 107.4 M 58 9.2E ＋ 77 179.5 M 73 3.5E ＋ 110 254.5 Sa m ple ＊ Dir ec tio n＊ A ng le M 14 2.9E ＋ 46 107.0 M 29 1.5E ＋ 75 173.1 M 44 1.3E ＋ 43 99.3 M 59 7.7E ＋ 74 172.4 M 74 1.6E ＋ 106 244.5

(9)

として2桁の暗算課題10問を提示した。参加者は，画面に提示される数式の答えを，0–9までの選択肢から回答した。再認フェーズ学習語・未学習語の40語をランダムに提示し，参加者には提示された単語が「囲みの数判断」か「使用頻度判断」課題のどちらかで出てきたか，どちらにも出てきていないかを判断するように求めた。単語は白い画面の中央に50ピクセルの黒色のゴシック体で提示し，参加者には単語の下に提示される「あった」「なかった」の2つの選択肢のどちらかをクリックするよう教示した。参加者が選択肢をクリックすると，次の単語が提示されるようにした。結果と考察 Figure 3に未学習語，学習語（意味処理，形態処理）それぞれの，正答率の平均値と標準偏差を示す。学習語の正再認率について，サンプル・環境，処理水準を固定効果，参加者と単語をランダム効果とする，ベイズ混合効果モデルによる分析を行った（Table 3）。 最もBFが大きかったモデルは，サンプル・環境と処理 水準の交互作用を固定効果とし，参加者をランダム傾きとするモデル（M9）であったBF9,0＝9.8＊1084。サンプル・ 環境の効果を含まないモデルで最もBFが大きかったモ デルは処理水準を固定効果とし，参加者をランダム傾きとするモデル（M7）でありBF7,0＝8.8＊1083，BFが最大の M9とのBFの比はBF9,7＝11.15であり，サンプル・環境の効果を含むM9を支持する結果となった。サンプル・環境と処理水準の交互作用について，サンプル・環境および処理水準により正再認率に差があるかをBayesian t検定により検定した。サンプル・環境による差は，未学習 語ではBFH1,H0＝0.25，意味処理条件ではBFH1,H0＝0.26，形 態処理条件ではBFH1,H0＝26.7となり，形態処理条件でサンプル・環境の効果を含むモデルが効果を含まないモデルよりも強く支持された。形態処理条件では，CWよりも学生の正再認率が高いといえる。また，処理水準による差がCW BFH1,H0＝1.2＊1014，学生BFH1,H0＝3.4＊107ともにみられ，意味処理条件は形態処理条件よりも正再認率が高かった。処理水準課題ではサンプル・環境の効果を含むモデルの当てはまりがよく，学生による実験室実験ではCWによるオンライン実験よりも，形態処理条件の再認成績がよかった。サンプル・環境の効果は意味処理条件や未学習語ではみられなかったことから，CWが手抜きをした可能性や，学生参加者が「あった」と反応しやすかった可能性は少ない。本実験に参加した学生の多くは心理学の科目を受講しており，実験に対する構えがあり，意図的に項目を覚えていた可能性が考えられる。しかしながら，この可能性を念頭においたとしても，本実験の結果 Figure 3. Mean correct rejection rates for new items and hit rates for old items in levels of processing task with SD bars

(10)

は，実験室実験での先行研究と同様，意味処理条件の正再認率が形態処理条件より高く，処理水準による効果もオンライン上で再現できたことを示している。 実験4： 自伝的記憶想起による気分誘導課題気分誘導の手法の一つに，「過去の楽しい出来事を想起してください」といった，自伝的記憶を想起させる方法がある。オンライン実験でも，自伝的記憶の想起により，怒りや喜びといった気分が誘導されることは，AMT

を用いた先行研究で示されている（Mills & D’Mello, 2014）。

出来事の想起課題（event reflection task: Sedikides et al., 2015）は，なつかしさ（nostalgia）感情を自伝的記憶の想起により喚起させる手法である。なつかしさとは過去に対する感傷的な気分のことであり，ポシティブ・ネガティブ両方の感情価を持つ（川口，2011）。なつかしさにはさまざまな社会的効果があり，Zhou, Sedikides, Wildschut, & Gao （2008）は，なつかしい記憶には親密な人間関係が含まれやすいため，なつかしい記憶を想起すると社会的サポートを感じる程度が高くなることを示している。実験 4では，日本人CWによるオンライン実験において，自伝的記憶の想起がなつかしさという複雑な二次感情を喚起するか，また，喚起された感情がその後の課題のパフォーマンスに影響するかを検討するため，Zhou et al. （2008）の追試を行う。方法出来事の想起課題自伝的記憶想起による気分誘導およびなつかしさ喚起のチェックはZhou et al. （2008）およびSedikides et al. （2015）の出来事の想起課題の手続きに従って行い，参加者をなつかしさ群と日常群にランダムに振り分けた。なつかしさ群では，「なつかしさ（ノスタルジア）とは過去に対する感傷的な気分のことです。あなたの人生におけるなつかしいエピソードを1つ思い出してください。特に，人生で最もなつかしいと感じた出来事を，できるだけ詳細に思い出してください」と教示し，日常群では，「あなたの日常的なエピソードを1 つ思い出してください。特に，最近の日常的だと思う出来事を，できるだけ詳細に思い出してください」と教示した。その後，想起した「なつかしい／日常的なエピソード」についてキーワード4つと，エピソードの詳細を100文字以上で書き出すように教示した。Qualtricsの設定を用いて，100文字以上の記述がない場合は次のページに進めないようにした。 Table 3.

Results from the Bayesian mixed-eﬀects model analysis of levels of processing task. Random intercept of participants

Intercept only Participants random _{slope for LOP}

Fixed Eﬀects BF _(BF)log BF _(BF)log

none M0 M5 1.1E＋65 149.8

Sample M1 5.5E＋00 1.7 M6 8.2E＋65 151.8

LOP M2 2.1E＋73 168.8 M7 8.8E＋83 193.3

Sample＋LOP M3 1.4E＋74 170.8 M8 6.7E＋84 195.3

Sample＊LOP M4 7.7E＋75 174.7 M9 9.8E＋84 195.7

Random intercept of participants and words

Intercept only Participants random _{slope for LOP} Words random slope for _LOP Participants and Words _{random slope for LOP}

Fixed Eﬀects BF _(BF)log BF _(BF)log BF _(BF)log BF _(BF)log

none M10 1.7E−02 −4.1 M15 1.2E＋63 145.2 M20 8.9E＋57 133.4 M25 1.7E＋66 152.5

Sample M11 6.9E−02 −2.7 M16 8.2E＋63 147.2 M21 6.0E＋58 135.4 M26 1.2E＋67 154.5

LOP M12 5.8E＋73 169.9 M17 2.8E＋82 189.9 M22 7.6E＋69 160.9 M27 9.0E＋77 179.5

Sample＋LOP M13 2.9E＋74 171.4 M18 1.8E＋83 191.7 M23 4.9E＋70 162.8 M28 6.4E＋78 181.5

(11)

なつかしさ喚起の操作チェック出来事の想起課題の直後に，なつかしさ喚起の操作チェックを行った。操作チェックでは，「今，とてもなつかしい気持ちだ」，「私は今，なつかしさを感じている」という文が現在の自分にどのくらい当てはまるかを，「1. まったく当てはまらない」から「7. とてもよく当てはまる」までで回答するように求めた。文は画面中央に30ピクセルサイズの黒色のゴシック体で提示し，その下に，選択肢が示された。参加者が選択肢をクリックすると，次の文が提示されるようにした。ソーシャルサポート尺度なつかしさ喚起の操作チェックの後に，社会的サポートを感じる程度の評定を行った。評定にはMultidimensional Scale of Perceived Social Support （Zimet, Dahlem, Zmiet, & Farley, 1988）の日本語版（岩佐・権藤・増井，2010）を用いた。質問項目は11項目であり，参加者は画面に提示される文が自分に当てはまるかを「1. まったくちがう」から「7. まったくそのとおり」の 7段階で回答するよう教示された。文の提示順はランダムとし，文の提示および回答方法はなつかしさ喚起の操作チェックと同様とした。結果と考察 Figure 4になつかしさ評定と社会的サポート評定の平 均値とSDを示した。 なつかしさ評定と社会的サポートの評定について，サンプル・環境，想起イベントを固定効果，参加者をランダム切片とする，ベイズ混合効果モデルによる分析を行った（Table 4）。なつかしさ評定で最もBFが大きかったモデルは，想起イベントを固定効果とするモデル（M2）であったBF2,0＝ 4.6＊108_{。サンプル・環境の効果を含むモデルで最もBF} が大きかったモデルは，想起イベントとサンプル・環境の交互作用モデル（M4）でありBF4,0＝4.2＊108，BFが最 大のM2とのBFの比はBF2,4＝1.15であり，どちらかのモデルをより強く支持するという結果は得られなかった。 社会的サポートの評定で最もBFが大きかったモデル は，サンプル・環境を固定効果とするモデル（M1）であったBF1,0＝1.7＊105。サンプル・環境を含まない想起イベントの効果のみのモデル（M2）はBF2,0＝0.46と，BF が最大のM1とのBFの比はBF1,2＝3.68＊105であり，サンプル・環境の効果のみのモデルを強く支持し，想起イベントの効果を支持しない結果となった。実験4の結果から，なつかしい出来事の想起により，なつかしい気分が誘導されることが示された。オンライン上であっても，自伝的記憶の想起により気分誘導が可

能であるというMills & D’Mello （2014）の知見が日本人

CWにおいても支持されたといえる。サンプル・環境の効果について，サンプル・環境と想起イベントの交互作 Figure 4. Mean nostalgia ratings (upper panel) and perceived social support ratings (lower panel) in event reflection task

(12)

用モデルと想起イベントのみのモデルの BFに大きな差 はみられなかったことから，サンプル・環境により気分誘導の強さに差がある可能性が考えられる。ただし，なつかしさ評定では，想起イベントを含んだモデルの BF が高いことから，自伝的記憶の想起が気分に与える影響は一貫してみられるといえる。社会的サポートについて，サンプル・環境の効果を含んだモデルの当てはまりがよく，学生はCWよりも社会的サポートの評価が高かった。大学生は成人よりも友人からのサポートを感じやすく，また，心理的苦痛に対するサポートの効果が大きいことが示されている（福岡・橋本，1997）。社会的な自立や責任が求められる成人に対して，大学生は保護者や友人に援助してもらうなど社会的サポートを感じる機会が多いため，学生で社会的サポートの評価が高くなった可能性が考えられる。サンプルと社会的サポート評価の関係については，今後，より幅広い参加者を対象にして検討する必要があるだろう。本実験ではなつかしさ喚起による社会的サポート評定への影響はみられず，Zhou et al. （2008）と異なる結果となった。Zhou et al. （2008）の研究3における，記憶想起によるなつかしさ評定への効果量は中程度（r＝.26）であり，本研究でも中程度以上の効果量（CW r＝.43，学 生r＝.78）が示されたため，気分誘導には成功していた といえる。なつかしさ喚起による社会的サポートへの影響がみられなかった理由として，なつかしさ喚起が弱かったのではなく，Zhou et al. （2008）の参加者である中国人学生と日本人とではnostalgiaの概念が異なっていた可能性が考えられる。欧米や中国での先行研究は（e.g., Zhou et al., 2008; Sedikides et al., 2015），nostalgic memoryには家族や友人といった社会的に近い人物が含まれやすいとしているが，日本人におけるなつかしい記憶が同様かは明らかではない。なつかしさは複雑な二次感情であり，なつかしい記憶の内容は多様で文化差が存在する可能性が考えられるため，今後は文化差も含めた検討を行う必要があるだろう。総合考察本研究は，日本人CWを参加者としたオンライン実験の有効性を明らかにするため，CWによるオンライン実験と学生による実験室実験の成績を比較し，CWにおいても実験操作の効果がみられるかを検討した。実験1から4では，日本人CWと学生サンプルにフランカー課題，心的回転課題，処理水準課題，気分誘導課題を実施した。実験の結果，気分誘導後の社会的サポート評定以外のすべての課題で，実験操作による効果がみられた。サンプル・環境による影響は，フランカー課題，心的回転課題，気分誘導課題ではみられなかったが，処理水準課題の形態処理条件，および社会的サポート評定では影響がみられた。 CW，学生ともに，すべての課題において実験操作の効果がみられ，また，実験操作の効果を含むモデルの BFが一貫して高かったことから，日本人CWを用いた オンライン実験も，AMTのワーカーを用いた先行研究と同様（Crump et al., 2013），心理学研究の有効な手法だといえる。本研究ではCW・学生ともに同じQualtrics上に用意された実験プログラムに対してGoogle Chromeブラウザでアクセスしており，サンプル・環境による反応時間やエラー率の差がみられなかったことは，実験用ソフトウェアが同じであれば実験室か自宅などかによる反応時間やエラー率への影響は少ないとする Miller et al. （2018）と一致する結果だといえる。Majima （2017）と異なり，フランカー課題では CWと学生の反応時間やエラー率に差がみられなかったが，これは試行数の違いが影響している可能性がある。本研究の試行数は40試行だが，Majima （2017）では100試行であり，同一の比較的単調な課題を長時間行う場合，より手抜きが生じやすくなりサンプル・環境による差があらわれる可能性がある。 Table 4.

Results from the Bayesian mixed-eﬀects model analysis of nostalgia rating and perceived social support rating.

Nostalgia Social Support

none M0

Sample M1 4.6E−01 −0.8 M1 1.7E＋05 12.0

Event M2 4.8E＋08 20.0 M2 4.6E−01 −0.8

Sample＋Event M3 1.8E＋08 19.0 M3 7.8E＋04 11.3

(13)

サンプル・環境による成績の違いとして，処理水準課題の形態処理条件の成績は学生がCWより高く，また，社会的サポートは学生がCWより強く感じていることが示された。処理水準課題で学生の成績がよかった理由として，CWが手抜きをしていたのではなく，学生の多くが心理学実験を履修していたため，偶発学習課題であっても記憶しようという構えが生じたことが考えられる。サンプル・環境による成績の違いは一部でみられたものの，処理水準効果は学生・CWともにみられており，他の課題同様，実験操作の効果が再現できたといえる。実験4において学生がCWよりもソーシャルサポートを強く感じていたことは，大学生は成人よりも友人からのサポートを感じやすいこと（福岡・橋本，1997）を反映している可能性が考えられる。本研究では日本人CWを参加者とするオンライン実験において，Majima （2017）で検討された比較的単純な検出判断を求める認知課題だけではなく，空間認知，記憶，気分誘導課題でも実験操作の効果がみられることを明らかにした。先行研究の知見と総合して判断すると， webブラウザの処理能力を超えるような刺激の瞬間提示や，提示時間の厳密な制御が必要な課題でなければ，オンライン上でさまざまな心理学実験が可能だと考えられる。本研究ではCWと学生で反応時間に差がみられず，また，先行研究においてオンライン実験と実験室実験の反応時間の違いには，自宅か実験室かという環境による影響は小さく（Miller et al., 2018），ソフトウェアやブラウザの違いによる影響があることが指摘されている（Semmelmann & Weigelt, 2017）。したがって，オンライン

実験で反応時間を計測する際は，ソフトウェアやブラウザを統制することで，機器や環境の違いによるノイズをある程度は低減できると考えられる。本研究の問題点として，タイミングの制御が厳密ではない点と，大学生サンプルが心理学についての知識を持っていた点があげられる。先行研究において，JavaScript は実験用ソフトウェアほどタイミングに正確ではないため，心理学専用ソフトウェア（Matlab等）と比較して， jsPsychなどのJavaScriptを用いて行われる実験は反応時間が遅延することが示されている de Leeuw & Motz, 2016; Semmelmann & Weigelt, 2017）。本研究ではJavaScriptを用いたオンライン実験を行ったため，専用ソフトウェアよりもタイミングの統制が不正確だった可能性がある。また，本研究では，心理学の授業を受講したことのある大学生を学生サンプルとして用いたため，参加者の知識が実験に対する構えとなり記憶課題に影響した可能性がある。CWか学生かといったサンプルの違いや，自宅などでのオンライン実験か実験室実験かという環境の違いのさらなる検討のためには，心理学に対してナイーブな学生や，CWと同様の属性を持つ者を参加者とし，同一の参加者の Matlabといった専用ソフトウェアを用いた実験室実験とJavaScriptなどを用いたオンライン実験の成績の比較を行う必要があるだろう。さらに，本研究では検討できなかったオンライン実験における試行数の影響や，努力の最小限化の影響を明らかにすることも重要である。古典的な認知実験においてしばしば行われるように，同一の刺激に対する反応を複数回求め，結果として総試行数が多い実験において生じる可能性がある慣れや疲労の効果が，環境の統制がされていないオンライン環境のデータの質にどのような影響を持つかについて検討する必要があるだろう。また，本研究ではIMC違反率にCWと学生の差はみられなかったが，日本人を対象としたオンライン調査・実験の研究では，サンプルやデバイスによるIMC違反率の違いが示されている（三浦・小林，2016; Majima et al., 2017）。オンライン実験のデータの質を保証するためには，オンライン実験における努力の最小限化の生じやすさや，努力の最小限化が課題の成績に及ぼす影響を明らかにすることが重要だといえる。努力の最小限化の検出に関わる問題として，IMCに回答すると後続の課題に注意深く取り組むようになるなど，操作チェック自体が従属変数に影響することや，本研究のように課題の最後での操作チェックは従属変数に影響しないが，課題の後半では参加者の注意が減少し IMC違反率が高くなる可能性が指摘されている（Hauser, Ellsworth, & Gonzalez, 2018）。こうした問題点を考慮し，オンライン実験における努力の最小限化をどのように検出するかの検討も必要である。 CWによるオンライン実験は，多様な参加者から迅速にデータ収集が可能だという利点があり（Gleibs, 2017），本研究は，日本人CWによるオンライン実験が，従来の学生参加者による実験室実験と同様，有効な研究手法であることを明らかにした。一方で，日本ではまだオンラインでの心理学実験・調査が一般的ではなく，オンライン研究実施の際の倫理的基準が明確ではない。Stewart et al. （2017）は，オンライン研究では，参加者が研究者と交流する機会がほとんどないため，課題を簡潔でわかりやすくする工夫や，匿名性の確保，データ削除の要求が可能かなど，インフォームドコンセントが適切に行われているかを考慮しなければならないと述べている。CWの報酬について，報酬額は作業の質に影響しないことが報告されているが（Litman, Robinson, & Rosenzweig, 2015），一般にCWの報酬額は低額であることが倫理的問題とし

(14)

て指摘されている（Gleibs, 2017; Majima, 2017）。本研究では2018年度の最低賃金の全国平均を基準に報酬額を決定したが，報酬額を決定する際は課題の難易度や所要時間，同様の実験室実験での報酬額などを考慮する必要があるだろう。イギリス心理学会は2017年にオンライン研究についての倫理的ガイドラインを発表し（The British Psychological Society, 2017），対面での研究とは異なるオンライン研究で配慮すべき事項を示している。CWによるオンライン実験・調査は有効な研究手法だといえるが，実施の際は通常の実験や調査で必要とされる倫理的配慮に加え，非対面というオンライン研究の特徴を考慮する必要がある。引用文献

Birnbaum, M. H. (2004). Human research and data collection via the internet. Annual Review of Psychology, 55, 803–832. Brand, A., & Bradley, M. T. (2012). Assessing the effects of

technical variance on the statistical outcomes of web experi-ments measuring response times. Social Science Computer Review, 30, 350–357.

Cooper, L. A., & Shepard, R. N. (1973). Chronometric studies of the rotation of mental images. In W. G. Chase (Ed.), Visual information processing (pp. 175–176). New York: Academic Press.

Collins, D. W., & Kimura, D. (1997). A large sex difference on a two-dimensional mental rotation task. Behavioral Neuro-science, 111, 845–849.

Craik, F. I., & Lockhart, R. S. (1972). Levels of processing: A framework for memory research. Journal of Verbal Learning and Verbal Behavior, 11, 671–684.

Craik, F. I., & Tulving, E. (1975). Depth of processing and the retention of words in episodic memory. Journal of Experi-mental Psychology: General, 104, 268–294.

Crump, M. J., McDonnell, J. V., & Gureckis, T. M. (2013).

Evaluating Amazon’s Mechanical Turk as a tool for

experi-mental behavioral research. PloS ONE, 8, e57410. https:// doi.org/10.1371/journal.pone.0057410

de Leeuw, J. R., & Motz, B. A. (2016). Psychophysics in a Web browser? Comparing response times collected with JavaScript and Psychophysics Toolbox in a visual search task. Behavior Research Methods, 48, 1–12.

Eriksen, B. A., & Eriksen, C. W. (1974). Effects of noise letters upon the identification of a target letter in a nonsearch task. Perception & Psychophysics, 16, 143–149.

藤田哲也（2004）．潜在記憶における処理水準効果．法政 大学文学部紀要，49, 121–137.

福岡欣治・橋本宰（1997）．大学生と成人における家族と友人の知覚されたソーシャル・サポートとそのストレス緩和効果心理学研究，68, 403–409.

Germine, L., Nakayama, K., Duchaine, B. C., Chabris, C. F., Chatterjee, G., & Wilmer, J. B. (2012). Is the web as good as the lab? Comparable performance from web and lab in

cog-nitive/perceptual experiments. Psychonomic Bulletin & Re-view, 19, 847–857.

Gleibs, I. H. (2017). Are all “research fields” equal? Rethinking practice for the use of data from crowdsourcing market places. Behavior Research Methods, 49, 1333–1342.

権藤恭之・石原治・中里克治・下仲順子（1998）．心的回転課題による高齢者の認知処理速度遅延の検討 心理学研究，69, 393–400.

Hauser, D. J., Ellsworth, P. C., & Gonzalez, R. (2018). Are ma-nipulation checks necessary? Frontiers in Psychology, 9, 988. doi: 10.3389/fpsyg.2018.00998

Hilbig, B. E. (2016). Reaction time effects in lab-versus web- based research: Experimental evidence. Behavior Research Methods, 48, 1718–1724.

岩佐一・権藤恭之・増井幸恵（2007）．日本語版「ソーシャル・サポート尺度」の信頼性ならびに妥当性―中 高年者を対象とした検討― 厚生の指標，54, 26–33. Jansen, P., & Heil, M. (2009). Gender differences in mental ro-tation across adulthood. Experimental Aging Research, 36, 94–104.

Jeffreys, H. (1961). Theory of probability (3rd ed.). Oxford: Ox-ford University Press, Clarendon Press.

川口潤（2011）．ノスタルジアとは何か―記憶の心 理学的研究から― Juncture, 2, 54–65.

Litman, L., Robinson, J., & Rosenzweig, C. (2015). The rela-tionship between motivation, monetary compensation, and data quality among US-and India-based workers on Me-chanical Turk. Behavior Research Methods, 47, 519–528. Majima, Y. (2017). The feasibility of a Japanese crowdsourcing

service for experimental research in psychology. SAGE Open, 7, 2158244017698731. https://doi.org/10.1177/2158244017 698731

Majima, Y., Nishiyama, K., Nishihara, A., & Hata, R. (2017). Conducting online behavioral research using crowdsourcing services in Japan. Frontiers in Psychology, 8, 378. https://doi. org/10.3389/fpsyg.2017.00378

Miller, R., Schmidt, K., Kirschbaum, C., & Enge, S. (2018). Comparability, stability, and reliability of internet-based mental chronometry in domestic and laboratory settings. Behavior Research Methods, 4, 1345–1458.

Mills, C., & D’Mello, S. (2014). On the validity of the

autobio-graphical emotional memory task for emotion induction. PloS ONE, 9, e95837. https://doi.org/10.1371/journal.pone.009 5837 三浦麻子・小林哲郎（2015）．オンライン調査モニタの Satisficeに関する実験的研究 1 社会心理学研究，31, 1–12. 三浦麻子・小林哲郎（2016）．オンライン調査における努力の最小限化（Satisfice）傾向の比較： IMC違反率を指標としてメディア・情報・コミュニケーション研 究，1, 27–42.

Morey, R. D., & Rouder, J. N. (2018). BayesFactor: Computation of Bayes factors for common designs. R package version 0.9.12-4.2. Retrived from https://CRAN.R-project.org/package= BayesFactor. https://doi.org/10.1016/j.jesp.2009.03.009 (January 25, 2019)

(15)

Oppenheimer, D. M., Meyvis, T., & Davidenko, N. (2009). In-structional manipulation checks: Detecting satisficing to in-crease statistical power. Journal of Experimental Social Psy-chology, 45, 867–872.

R Core Team (2017). R: A language and environment for sta-tistical computing. R foundation for stasta-tistical computing, Vienna, Austria. Retrived from https://www.R-project.org/. (January 25, 2019)

Rouder, J. N., Morey, R. D., Verhagen, J., Swagman, A. R., & Wagenmakers, E. J. (2017). Bayesian analysis of factorial de-signs. Psychological Methods, 22, 304.

Schönbrodt, F. D., Wagenmakers, E. J., Zehetleitner, M., & Pe-rugini, M. (2017). Sequential hypothesis testing with Bayes factors: Efficiently testing mean differences. Psychological Methods, 22, 322–339.

Sedikides, C., Wildschut, T., Routledge, C., Arndt, J., Hepper, E. G., & Zhou, X. (2015). To nostalgize: Mixing memory with affect and desire. Advances in Experimental Social Psy-chology, 51, 189–273．

Semmelmann, K., & Weigelt, S. (2017). Online psychophysics: Reaction time effects in cognitive experiments. Behavior Re-search Methods, 49, 1241–1260.

Shepard, R. N., & Metzler, J. (1971). Mental rotation of three-

dimensional objects. Science, 171, 701–703.

白木優馬・五十嵐祐（2018）．クラウドソーシングを利用したアンケートデータ収集のノウハウと課題デジタルプラクティス，9, 874–885.

Stewart, N., Chandler, J., & Paolacci, G. (2017). Crowdsourcing samples in cognitive science. Trends in Cognitive Sciences, 21, 736–748.

杉島一郎・岩原昭彦・賀集寛（1996）．ひらがな清音4 文字名詞4160語の熟知価人文論究，46, 53–75. The British Psychological Society (2017). Ethics guidelines for

internet-mediated research. Retrieved from https://www.bps. org.uk/news-and-policy/ethics-guidelines-internet-mediated- research-2017 (January 25, 2019).

Wasserman, L. (2000). Bayesian model selection and model averaging. Journal of Mathematical Psychology, 44, 92–107. Zhou, X., Sedikides, C., Wildschut, T., & Gao, D. G. (2008).

Counteracting loneliness: On the restorative function of nostalgia. Psychological Science, 19, 1023–1029.

Zimet, G. D., Dahlem, N. W., Zimet, S. G., & Farley, G. K. (1988). The multidimensional scale of perceived social support. Journal of Personality Assessment, 52, 30–41.

日本人クラウドワーカーによるオンライン実験と大学生による実験室実験における認知課題成績の比較