反応時間情報を利用する場合としない場合における項目反応モデルのテスト情報量

(1)

１．はじめに

近年ではコンピュータの発展により，心理学をはじめとするさまざまな分野において，PC やスマートフォンを用いて回答者からのデータを収集することが多くなっている。こうした現代的な方法を用いた測定では，単にテストや質問紙への回答だけでなく，反応時間をはじめとするさまざまな情報もデータとして取得することが容易になっている。従来型のテストや質問紙における項目反応データの統計モデルとしては，項目反応モデル（item response model, IRT model）がよく知られている。中でも最も典型的に利用されるのは 2 パラメータロジスティック IRT モデルである。このモデルでは，テストに正答したか否かという 2 値反応を従属変数とし，特性（能力）値θ_pを持つ回答者 p の項目 i に対する正答確率を　　　（ 1 ）と表現する。（ 1 ）式において表現されている a_iは項目 i の識別力パラメータである。これは項目特性曲線の傾きに対応し，識別力が大きいことは，ある特性値を境に急激に正答確率が増加することを意味する。同様に（ 1 ）式において表現されている b_iは項目 i の困難度パラメータである。困難度が大きいことは，正答するために，より高い特性値を必要とする項目であることを意味する。このように， 2 パラメータロジスティックモデルでは項目反応データから，回答者の特性および項目の特徴についての知見が得られる。一方で，現代的な測定ツールから得られる反応時間のような付加的な情報を取り入れ，通常の項目反応モデルを拡張したモデルを作成することによって，回答者の特性についてより良い推定を行うことや将来の予測を行う上で精度が高く有用なモデルが作成できる可能性がある。反応時間を IRT の枠組みに取り入れるために，複数のモデルがこれまでに提案されてきた（e.g., Jansen, 2016; van der Linden, 2016）。中でも，D-diffusion IRT モデル（Tuerlinckx & De Boeck, 2005; Tuerlinc- kx, Molenaar, & van der Maas, 2016）は，認知心理学の知見を活用して，項目への反応を生成する心理的プロセスをモデルに組み込んで反応までにかかる時間を表現することに特徴がある。しかし，この D-diffusion IRT モデルについては先行研究や文献が少なく，実データに適用した際の挙動が十分明らかになっているとは言えない。そこで本研究では，この D-diffusion IRT モデルと，通常の項目反応だけを利用する 2 パラメータロジス P（xpi= 1|θp）＝ exp（a（θi p－bi）） 1＋exp（a（θi p－bi））受稿日2017年12月12日　受理日2017年12月19日 1 　本研究の一部は日本テスト学会第15回大会で行った報告において発表したものである。また，本稿は平成28年度専修大学研究助成個別研究「反応時間の計算論的モデリング」および2016年度大川情報通信基金研究助成「オンライン調査における反応時間と反応スタイルの統計モデリング」の研究成果の一部である。 2 　専修大学大学院文学研究科（Graduate School of the Humanities,

Senshu University）

3 　専修大学人間科学部心理学科（Department of Psychology, Sens-hu University）

反応時間情報を利用する場合としない場合における

項目反応モデルのテスト情報量

1

池田孝恒

2

_{・岡田謙介}

3

Test information of the item response models

that does and does not utilize the response time

Takahisa Ikeda2_{, Kensuke Okada}3

Abstract：コンピュータ上で実施される現代的なテストや調査からは，項目回答だけでなく，反応時間をは

じめとするさまざまな情報も取得することができる。D-diffusion IRT モデルは，項目回答と反応時間という二つの情報を利用して回答者の特性を推定することができる統計モデルである。本研究では心理学の実データについて，この D-diffusion IRT モデルと，項目回答だけを利用する従来型の 2 パラメータロジスティック IRT モデルの比較を行い，反応時間の情報の有無により，特性パラメータの推定に差異がどれ程見られるかを検討した。結果として，D-diffusion IRT モデルは， 2 パラメータロジスティック IRT モデルよりも特性パラメータの推定精度が高い傾向が示された。

(2)

(3)

答者 p についての部分θ_pと項目 i についての部分 v_i に，また拡散モデルにおける選択肢間の潜在距離のα_pi を回答者 p についての部分γ_pと項目 i についての部分 a_iにそれぞれ分解する。θ_p, v_iの関数 u（.）とγ_p, a_iの関数 w（.）の具体的な関数は，拡散項目反応モデルに含まれる下位モデルごとに異なる形をとる。中でも，本研究で扱う D-diffusion IRT モデルは，（ 2 ）式において　　μ_pi＝θ_p－v_i （ 3 ）　　α_pi＝γ_―p a_i （ 4 ）と設定する場合の拡散項目反応モデルである。ただし，ここでγ_p≥ 0 ，ai≥ 0 と制約する。このとき，aiは時間の制限に，v_iは項目困難度に，γ_pは反応注意（その人が持つ慎重さ）に，そしてθ_pは測定の対象となる構成概念にそれぞれ対応すると解釈できる。（ 3 ），（ 4 ）式を（ 2 ）式に代入し，t_piについて積分すると，回答者 p の項目 i への回答が正答となる確率　　（ 5 ）が算出される。この（ 5 ）式と通常の 2 パラメータロジスティック IRT モデルを表現した（ 1 ）式を，同様の形に書くことが可能となる。ここで，反応時間が最も遅いときμ_pi＝θ_p－v_iは 0 になり，逆に反応時間が速いほどμ_pi＝θ_p－v_iは 0 から離れていく。つまりθ_pが低い回答者は，θ_pが高い回答者と同じくらい反応時間が速くなる。このことは，例えば，外向性の特に中程度の部分を測定する項目が提示された場合，外向性がとても高い，もしくは低い回答者は即座に回答できるが，中程度の回答者は逡巡して反応時間が長くなることを表現している。時間の制限 a_iの値が小さくなるとα_piの値が大きくなることが（ 4 ）式より導ける。したがって，このとき θ_pの値が低い回答者は，その項目に正答する確率 P（x_pi ＝1|θ_p, γ_p）が低下する。逆にθ_pの値が高い回答者は，その項目に正答する確率 P（x_pi＝1|θ_p, γ_p）が上昇する。例えば，質問紙などに回答する時間の制限がなくなった場合，回答者は提示された項目に対して考える時間が増えることでその項目に対して慎重に回答することになり，その項目が測定したいことに正しく回答していることになる。こうした特徴から，D-diffusion IRT モデルは，質問紙などで測定されるような個人特性データの分析のために適したモデルと考えられる。

4 ．方法

4.１　データ

R の diffIRT パッケージ（Molenaar, Tuerlinckx, van der Maas, 2015）に含まれる，外向性を測定したデータを分析した。このデータセットには，146人の回答者から収集された10項目に対する反応と，各項目に回答するまでにかかった反応時間が含まれていた。質問紙の項目は，「活動的である」，「騒々しい」といった回答者の外向性を測定するためのものであった。回答者は，回答項目に対して ,「はい」か「いいえ」の 2 択での回答を行った。項目に回答するまでに要した反応時間はミリ秒単位で測定された。 4.2　手続き

(4)

が考えられる。次に， 2 パラメータロジスティック IRT モデルと D-diffusion IRT モデルの回答者特性パラメータθ_pの推定値を比較するため，全回答者についてのその点推定値を散布図で示した（図 2 ）。 2 パラメータロジスティック IRT モデルの推定値間には強い正の相関関係が認められた（r＝.85）。これらの結果から，両モデル間では回答者の特性パラメータについても概ね同一と見なせる量を推定していると考えられる。また，図 2 を見ると， 2 パラメータロジスティック IRT モデルでは特性パラメータが最大値をとる回答者が多数観察され，いわゆる天井効果が生じていることがわかる。これは，回答がすべて 1 である回答者である。しかし D-diffusion IRT モデルの場合には，こうした回

図 2 　 2 パラメータロジスティック IRT モデルと D-diffusion IRT モデルのθ_pの散布図

図 3 　 2 パラメータロジスティック IRT モデルと D-diffusion IRT モデルの項目情報量

(5)

答者の特性値もそれぞれ異なる値が推定できていることがわかる。これは， D-diffusion IRT モデルにおいて反応時間の情報も用いた推定を行うことの利点と考えられる。次に， 2 パラメータロジスティック IRT モデルと D-diffusion IRT モデルのそれぞれにおいて，各項目についての項目情報関数を算出した（図 3 ）。項目 1 ， 2 ， 5 ， 6 ， 9 において， 2 パラメータロジスティック IRT モデルでは項目の情報が乏しいのに対して，D-dif-fusion IRT モデルではどの項目も相応の情報量があることが図 3 よりわかる。最後に，項目情報関数に基づき， 2 パラメータロジスティック IRT モデルと D-diffusion IRT モデルのテスト情報関数を算出した（図 4 ）。全体的な傾向として，θ_p ＝ 0 前後の大半の領域において，D-diffusion IRT モデルの方が 2 パラメータロジスティック IRT モデルよりもテスト情報量が大きかった。特に，典型的な特性値と考えられるθ_p＝－ 1 ～ 1 前後の範囲において，この傾向は顕著であった。加えて，回答者の特性θ_pが－ 1 前後の時に，最も回答者の特性パラメータの推定精度が高かった。

6 ．考察

本研究の目的は，心理学の実データを用いて D-diffu-sion IRT モデルと 2 パラメータロジスティック IRT モデルの二つのモデルを比較することによって，回答者の特性パラメータθ_pの推定精度に対する影響を明らかにすることであった。図 4 で示されたように，今回分析したデータでは，典型的な回答者特性値と考えられるθ_p＝ 0 前後の大半の領域において，D-diffusion IRT モデルの方が 2 パラメータロジスティック IRT モデルよりもテスト情報量が大幅に大きくなっていた。 2 パラメータロジスティック IRT モデルの方が情報量の大きなθ_pの範囲も存在したが，それは比較的少数の回答者しかとらないような部分の狭い範囲であった。また，こうした場合でも両モデル間のテスト情報量の差はわずかであった。したがって，全体的な結論としては，本データでは反応時間の情報を用いた D-diffusion IRT モデルの方が， 2 パラメータロジスティック IRT モデルよりも，現実的に重要な範囲の回答者特性値を，より高い精度で推定できると考えられる。

表 1 　 2 パラメータロジスティック IRT モデル（ 2 PL）と D-diffusion IRT モデル（D-diff）の項目困難度パラメータの推定値（括弧内の数値は標準誤差）項目 1 項目 2 項目 3 項目 4 項目 5 2 PL －2.07（1.03）－0.27（0.31）－1.21（0.22）－1.65（0.28）－0.24（0.27） D-diff －0.71（0.11）－0.17（0.11）－1.31（0.13）－1.77（0.15）－0.23（0.11）項目 6 項目 7 項目 8 項目 9 項目10 2 PL －2.76（1.00）－2.18（0.49）－2.05（0.37）－1.95（0.68）－1.42（0.26） D-diff －1.36（0.13）－1.74（0.15）－1.99（0.15）－0.88（0.11）－1.49（0.14）

(6)

項目別の情報量については，図 3 で示されたように 2 パラメータロジスティック IRT モデルのほうが D-dif-fusion IRT モデルよりも最大情報量の大きな項目も存在していたが，全般的に見るとやはり D-diffusion IRT モデルが安定した項目情報量を示していた。このように，反応時間の情報を利用することで，テストおよび項目情報量は全般的に増加する傾向があった。本研究の限界の大きな部分としては，一つのデータセットだけを扱っていることであり，知見の一般化可能性についてはさらなる検討が必要である。今後の展開としては，今回用いたデータセットのみならずさまざまなデータセットにおいて今回確認された結果と一致する傾向が見られるかについて，さらに検討を重ねていく必要がある。

7 ．引用文献

Jansen, M. G. H. （2016）. Poisson and Gamma models for reading speed and error. In W. J. van der Linden （eds.）, Handbook of Modern Item Response Theory. Volume I:

Models. Boca Raton, FL: CRC Press.

Molenaar, D., Tuerlinckx, F., & van der Maas, H. L. J. （2015）. Fitting diffusion item response theory models for responses and response times using the R Package dif-fIRT. Journal of Statistical Software, 66 （4）. doi: 10.18637/ jss.v066.i04

Ratcliff, R. （1978）. A theory of memory retrieval. Psycholog-ical Review, 85 （2）, 59. doi: 10.1037/0033-295X.85.2.59 Tuerlinckx F, & De Boeck, P. （2005）. Two interpretations

of the discrimination parameter. Psychometrika, 70 （4）, 629–650. doi: 10.1007/s11336-000-0810-3

Tuerlinckx, F., Molenaar, D., & van der Maas, H. L. J. （2016）. Diffusion-Based Item Response Modeling. In W. J. van der Linden （eds.）, Handbook of Modern Item Re-sponse Theory. Volume I: Models. Boca Raton, FL: CRC Press.