制限時間のある適応型テストにおける項目選択アルゴリズムの比較検討

(1)

Correspondence concerning this article should be sent to: Kyosuke Bunji, Graduate School of Education, The University of Tokyo, 7-3-1, Hongo, Bunkyo-ku, Tokyo, Japan 113-0033. E-mail: [email protected]

一般研究論文

制限時間のある適応型テストにおける

項目選択アルゴリズムの比較検討

Comparison of Item Selection Algorithm in

Computerized Adaptive Testing with a Time Limit

分寺

杏介

1

Kyosuke Bunji

1

1_{東京大学大学院教育学研究科} 1_{日本学術振興会}

1_{Graduate School of Education, The University of Tokyo}

(2)

制限時間のある適応型テストにおける

項目選択アルゴリズムの比較検討

分寺杏介

1 1

_{東京大学大学院教育学研究科}

1

_{日本学術振興会}

本研究では，適応型テストにおける項目選択アルゴリズムにおける特性値の推定精度および項目プール内の項目の出題回数のバランスについて，一定の制限時間がある条件下にて比較検討を行った。シミュレーションの結果，(1)解答時間の期待値を用いて項目情報量を補正するアルゴリズムで特性値推定の精度・項目の出題回数のバランスの両側面が向上すること，(2)項目識別力と解答にかかる時間に正の相関がある場合には，特に項目情報量ベースで出題を決定するアルゴリズムでは平均解答数が減少すること，(3)そのような状況下ではOverlap Rateの上昇を抑える手法の方が高い精度で特性値推定が可能であること，(4) RMSEとテスト情報量ではアルゴリズム間の優劣関係がわずかに異なること，などが明らかになった。キーワード: 項目反応理論，適応型テスト，項目選択アルゴリズム，解答時間

Comparison of Item Selection Algorithms in

Computerized Adaptive Testing with a Time Limit

Kyosuke Bunji1

1_{Japan Society for the Promotion of Science}

This study compared several item selection algorithms in a situation where a time limit exists in terms of estimation accuracy and item bank security. Simulation results show the following: (1) adjusting item information using the expected response time will improve both the estimation accuracy and the item bank security; (2) when item discrimination and expected response time are positively correlated, the mean numbers of the answered items decrease particularly in the algorithms which determine the next item according to the information; (3) under the condition in (2), algorithms that suppress the inﬂation of overlap rate demonstrate better estimation accuracy and; (4) the root-mean-square error and test information show slightly diﬀerent results between algorithms.

(3)

制限時間のある適応型テストにおける

項目選択アルゴリズムの比較検討

分寺杏介

1 1

_{東京大学大学院教育学研究科}

1

_{日本学術振興会}

本研究では，適応型テストにおける項目選択アルゴリズムにおける特性値の推定精度および項目プール内の項目の出題回数のバランスについて，一定の制限時間がある条件下にて比較検討を行った。シミュレーションの結果，(1)解答時間の期待値を用いて項目情報量を補正するアルゴリズムで特性値推定の精度・項目の出題回数のバランスの両側面が向上すること，(2)項目識別力と解答にかかる時間に正の相関がある場合には，特に項目情報量ベースで出題を決定するアルゴリズムでは平均解答数が減少すること，(3)そのような状況下ではOverlap Rateの上昇を抑える手法の方が高い精度で特性値推定が可能であること，(4) RMSEとテスト情報量ではアルゴリズム間の優劣関係がわずかに異なること，などが明らかになった。キーワード: 項目反応理論，適応型テスト，項目選択アルゴリズム，解答時間

Comparison of Item Selection Algorithms in

Computerized Adaptive Testing with a Time Limit

Kyosuke Bunji1

1_{Japan Society for the Promotion of Science}

This study compared several item selection algorithms in a situation where a time limit exists in terms of estimation accuracy and item bank security. Simulation results show the following: (1) adjusting item information using the expected response time will improve both the estimation accuracy and the item bank security; (2) when item discrimination and expected response time are positively correlated, the mean numbers of the answered items decrease particularly in the algorithms which determine the next item according to the information; (3) under the condition in (2), algorithms that suppress the inﬂation of overlap rate demonstrate better estimation accuracy and; (4) the root-mean-square error and test information show slightly diﬀerent results between algorithms.

Keywords: Item Response Theory, Adaptive Testing, Item Selection Algorithm, Response Time

1. 問題と目的 近年，コンピュータを利用したテスト (Computer Based Testing: CBT)の利用が本邦でも増加の傾向を見せている。CBTのメリットの一つに，それまでの項目反応の情報を利用してリアルタイムで特性値を推定し，それに合わせた出題を行う適応型テスト

(Computerized Adaptive Testing: CAT)が挙げられ

る。一般的に適応型テストでは，受験者の特性値をよく測定できる項目を逐次的に出題することにより，短時間で効率的に特性値を推定することが可能である(e.g.,

McBride and Martin, 1983; Weiss, 1982)。

適応型テストは大きく分けると五つのフェイズから構

成される(Veldkamp and Matteucci, 2013)。

1. 特性値の初期値を決定する 2. 出題項目を選択する 3. 項目を出題する 4. 特性値を推定（更新）する 5. ある条件を満たした段階で出題を停止（終了）するこれら5つのフェイズそれぞれについて複数のアルゴリズムが提案されており，テスト実施者はそれらを適切に組み合わせることが求められる。加えて，本来はテストを実施する前段階の時点でテストの目的・対象などの設定が必要であり，またテスト実施以外の場面においても，項目プールの作成・拡充，測定する構成概念の決定，実施環境の整備など様々な点を考慮すべきである

(e.g., Mills and Stocking, 1996; Wise and Kingsbury,

2000)。しかし同時に，これらの問題は統計的な判断

が難しいことが多い (van der Linden, 2018)。一方で

Thissen and Mislevy (2000)によれば，テストのアルゴ

リズムは最小で以下の三点によって特徴づけられる。 • どのようにして1問目を選択するか • どのようにして次の項目を選択するか • どの段階でテストを終了するかこれらのうち，1 問目の選択については上述の五つのフェイズのうち「特性値の初期値を決定する」および「出題項目を選択する」の2点によって決定されることが多いが，初期値の決定方法については，尤度に基づく最終的な特性値推定に大きな影響を与えないと考えられ

ている(Thissen and Mislevy, 2000)。またテストの終

了条件は，テストの目的・性質（出題数を同一にしたい，一定時間内に終わらせたい，すべての受験者に対して一定の推定精度を担保したい，など）に応じてテスト実施者が決定すべきものであるため，異なる終了条件間での性能の比較に大きな意味は無いと考えられる。以上を踏まえ，本研究では特に出題項目を選択するアルゴリズムを対象として検討を行うこととする。近年では項目選択アルゴリズムを評価する基準として大きく「特性値の推定精度」と「項目の出題回数のバランス」の2点が考慮される事が多い。適応型テストにおける項目選択は本来，受験者の特性値をより正確に推定することが第一目的であると考えられる。そのために最も広く用いられている項目選択アルゴリズムの一種に項目情報量を使用した方法(Lord, 1977; Weiss, 1982)があるが，これらの方法ではごく一部の項目のみが頻繁に出題されることが知られている(Chang and Ying, 1999;

Way, 1998)。項目の出題回数の偏りは2つの点から避

けるべきものと考えられる(Barrada, Olea, Ponsoda

and Abad, 2009; Revuelta and Ponsoda, 1998)。一つ

は受験者が項目および正答を事前に知った上で解答する事によって測定誤差が増加する点である。項目の出題回数の合計を固定すると，一部の項目のみに偏った出題がなされている場合，バランスよく出題された場合と比べて一部項目が受験者に漏れてしまう可能性が高まる。項目の出題回数の偏りによって生じるもう一つの問題は，結果的に出題されない項目を作成するために費やしたコストが無駄になってしまうという点である。これらの問題によって項目プールの持続可能性が低下することを避けるため，項目選択アルゴリズムの内部で出題回数の偏りを抑制する方法が数多く提案されてきた。それらの方法についてはGeorgiadou, Triantafillou and

Economides (2007)によるレビューが詳しいが，大きく

分けると以下の三つおよびこれらを組み合わせたものに分類することができる。

• 項目選択基準（項目情報量など）に乱数を加える

方法(e.g., Revuelta and Ponsoda, 1998; Segall,

2004)

• 出題候補となるか否かを表すダミー変数を用いる方

法(e.g., Stocking and Lewis, 1995; van der Linden

and Veldkamp, 2004)

• 項目パラメータによる層化を行う方法(e.g., Chang and Ying, 1999; Chang, Jiahe and Ying, 2001)

このように，現在までに数多くの項目選択アルゴリズムが提案されており，それらの性能を比較するシミュレーション研究もいくつか存在する (e.g., Chen,

(4)

Ankenmann and Chang, 2000; Revuelta and

Pon-soda, 1998; 今井・菊地・平村, 2013; Murphy, Dodd

and Vaughn, 2010)。しかし，項目選択アルゴリズムの比較検討を行っている先行研究はいずれも終了条件に「決められた項目数が出題されたら実施終了」もしくは「推定値の標準誤差などの指標が一定以下になったら実施終了」のいずれかを設定している。Thissen and Mislevy (2000)にもある通り，テストの実施終了条件としては上記の２つに加えて「制限時間が経過したら実施終了」が考えられる。また先行研究から，項目パラメータと解答時間の間にある様々な関係が明らかになっている。Wang and Hanson (2005)では，解答にかかる時間を表現する項目パラメータdjを導入した項目反応モデルにおいて，dj とaj およびbj の間にそれぞれ有意な正の相関が見られることを明らかにした。言い換えると，識別力および困難度が高い項目ほど解答に時間がかかることを意味している。またvan der Linden (2009)では，解答時間に関する項目パラメータと項目困難度の間の正の相関関係を明らかにした複数の研究についてレビューを記している。また理論的側面からも，Tuerlinckx and De

Boeck (2005)は2パラメータロジスティックモデルと

Diﬀusion model (Ratcliﬀ, 1978)の関係性から，認知心

理学的タスクにおいては項目識別力が高い項目ほど解答時間の期待値が⻑くなるという関係性を示している。このように，解答時間と項目識別力および項目困難度の間に一定の関係があることは明白である。適応型テストにおいて，項目数が固定されている場合もしくは推定値の標準誤差が一定以下になるまで出題を続けるような場合にはこの関係性は大きな問題にはならないが，制限時間を設定した場合には受験者の特性値の推定に問題を及ぼす可能性がある。仮に項目識別力が高い項目ほど解答にかかる時間が⻑い場合には，（現在一般的によく用いられる）項目情報量を基準とした項目選択アルゴリズムでは識別力が高く解答の所要時間も⻑い項目が優先的に出題される事となり，結果として受験者一人が解く項目数が減少し，受験者特性値の推定が不安定になる可能性も考えられる。以上の点から制限時間のある適応型テストにおいては，先行研究で検討されてきた「決められた項目数で終了」などの終了条件と比較して，特に項目パラメータと解答にかかる時間に相関関係がある状況下での受験者特性値の推定精度の結果が異なるものになる可能性がある。これらを踏まえ，本研究は代表的な項目選択アルゴリズム（一次元・非ベイズ的手法）について，制限時間のある適応型テストにおいて「特性値の推定精度」および「項目の出題回数のバランス」の2点から性能を比較検討するシミュレーション研究を行うことを目的とする。 2. 項目選択アルゴリズム 本節では現在よく用いられている項目選択アルゴリズムおよびその発展形・拡張版アルゴリズムについて簡単なレビューを行う。なお，以下に示すアルゴリズムの名称の一部はBarrada, Olea, Ponsoda and Abad (2010)

に基づく。また，以後はテストの⻑さが全受験者でQ

に固定されている状況に基づいて各アルゴリズムの説明を行う。4節ではテストの⻑さが個人ごとに変動する状況でのシミュレーションを行うが，その際のQの設定については4.3節に示した。

2.1 Point Fisher Information: PFI (Lord, 1977; Weiss, 1982) 項目選択アルゴリズムの多くは，フィッシャー情報量を利用したものである。ある受験者iの特性値θi の最尤推定値 ˆθiの分散は以下の形で表すことができる。 V[ ˆθi|θi] _I(θ1 i) (1) ここで，I(θi)は真値θiにおけるフィッシャー情報量である。ここから，θiの推定精度を高めるためにはフィッシャー情報量を最大化すると良いことがわかる。局所独立の仮定が満たされている限り，真値 θi におけるフィッシャー情報量は以下のように単純な和で表すことができる。 I(θi)

∑

j∈Ji Ij(θi) (2) ここで Ji は受験者iが解答した全ての項目を表す。また，Ij(θi)は項目jのθiにおけるフィッシャー情報量である。(2)式の性質から，項目反応理論の分野ではIj(θi) を「項目情報量」，I(θi)を「テスト情報量」と呼ぶ。一般的な2パラメータロジスティックモデルでは，受験者 iが項目 jに正答する確率P(Yij 1|θi)を以下の式で表現する。 P(Yij1|θi) _{1 + exp(−1.7a}1 j(θi− bj)) (3) ここでaj,bj はそれぞれ項目識別力および項目困難度を表す。このとき，真値θi の値に対して項目 jがもつ項目情報量は以下の式によって計算可能である。 Ij(θi) 1.72a2_jpj(θi)(1 − pj(θi)) (4)

(5)

Ankenmann and Chang, 2000; Revuelta and

Pon-soda, 1998; 今井・菊地・平村, 2013; Murphy, Dodd

and Vaughn, 2010)。しかし，項目選択アルゴリズムの比較検討を行っている先行研究はいずれも終了条件に「決められた項目数が出題されたら実施終了」もしくは「推定値の標準誤差などの指標が一定以下になったら実施終了」のいずれかを設定している。Thissen and Mislevy (2000)にもある通り，テストの実施終了条件としては上記の２つに加えて「制限時間が経過したら実施終了」が考えられる。また先行研究から，項目パラメータと解答時間の間にある様々な関係が明らかになっている。Wang and Hanson (2005)では，解答にかかる時間を表現する項目パラメータdjを導入した項目反応モデルにおいて，dj とaj およびbj の間にそれぞれ有意な正の相関が見られることを明らかにした。言い換えると，識別力および困難度が高い項目ほど解答に時間がかかることを意味している。またvan der Linden (2009)では，解答時間に関する項目パラメータと項目困難度の間の正の相関関係を明らかにした複数の研究についてレビューを記している。また理論的側面からも，Tuerlinckx and De

Boeck (2005)は2パラメータロジスティックモデルと

Diﬀusion model (Ratcliﬀ, 1978)の関係性から，認知心

理学的タスクにおいては項目識別力が高い項目ほど解答時間の期待値が⻑くなるという関係性を示している。このように，解答時間と項目識別力および項目困難度の間に一定の関係があることは明白である。適応型テストにおいて，項目数が固定されている場合もしくは推定値の標準誤差が一定以下になるまで出題を続けるような場合にはこの関係性は大きな問題にはならないが，制限時間を設定した場合には受験者の特性値の推定に問題を及ぼす可能性がある。仮に項目識別力が高い項目ほど解答にかかる時間が⻑い場合には，（現在一般的によく用いられる）項目情報量を基準とした項目選択アルゴリズムでは識別力が高く解答の所要時間も⻑い項目が優先的に出題される事となり，結果として受験者一人が解く項目数が減少し，受験者特性値の推定が不安定になる可能性も考えられる。以上の点から制限時間のある適応型テストにおいては，先行研究で検討されてきた「決められた項目数で終了」などの終了条件と比較して，特に項目パラメータと解答にかかる時間に相関関係がある状況下での受験者特性値の推定精度の結果が異なるものになる可能性がある。これらを踏まえ，本研究は代表的な項目選択アルゴリズム（一次元・非ベイズ的手法）について，制限時間のある適応型テストにおいて「特性値の推定精度」および「項目の出題回数のバランス」の2点から性能を比較検討するシミュレーション研究を行うことを目的とする。 2. 項目選択アルゴリズム 本節では現在よく用いられている項目選択アルゴリズムおよびその発展形・拡張版アルゴリズムについて簡単なレビューを行う。なお，以下に示すアルゴリズムの名称の一部はBarrada, Olea, Ponsoda and Abad (2010)

に基づく。また，以後はテストの⻑さが全受験者でQ

に固定されている状況に基づいて各アルゴリズムの説明を行う。4節ではテストの⻑さが個人ごとに変動する状況でのシミュレーションを行うが，その際のQの設定については4.3節に示した。

2.1 Point Fisher Information: PFI (Lord, 1977; Weiss, 1982) 項目選択アルゴリズムの多くは，フィッシャー情報量を利用したものである。ある受験者iの特性値θi の最尤推定値 ˆθiの分散は以下の形で表すことができる。 V[ ˆθi|θi] _I(θ1 i) (1) ここで，I(θi)は真値θiにおけるフィッシャー情報量である。ここから，θiの推定精度を高めるためにはフィッシャー情報量を最大化すると良いことがわかる。局所独立の仮定が満たされている限り，真値 θi におけるフィッシャー情報量は以下のように単純な和で表すことができる。 I(θi)

∑

j∈Ji Ij(θi) (2) ここで Ji は受験者iが解答した全ての項目を表す。また，Ij(θi)は項目jのθiにおけるフィッシャー情報量である。(2)式の性質から，項目反応理論の分野ではIj(θi) を「項目情報量」，I(θi)を「テスト情報量」と呼ぶ。一般的な2パラメータロジスティックモデルでは，受験者 iが項目 j に正答する確率P(Yij 1|θi)を以下の式で表現する。 P(Yij1|θi) _{1 + exp(−1.7a}1 j(θi− bj)) (3) ここでaj,bjはそれぞれ項目識別力および項目困難度を表す。このとき，真値θi の値に対して項目 jがもつ項目情報量は以下の式によって計算可能である。 Ij(θi) 1.72a2_jpj(θi)(1 − pj(θi)) (4) ここでpj(θi)は特性値θi をもつ受験者i が項目 j に正答する確率である。(2)式よりI(θi)を最大化するためにはIj(θi)が最大になる項目を順次選択していけば良く，また(4)式よりそのような項目として項目識別力ajが高い項目が選択されやすいことも明らかである。実際には真値θi は不明であるため，適応型テストでは q(q 1, · · · , Q − 1)問目までに解答した時点での推定値 ˆθiqにおける項目情報量Ij( ˆθiq)を最大化する項目を q + 1問目として出題する。すなわち，以下の式によって出題を逐次決定していく。 j arg max k∈Biq Ik( ˆθiq) (5) なおBiqはq問目までの解答が終了した時点で受験者i に出題可能な項目プール内の項目を指す。

2.2 Fisher Information Weighted by Likeli-hood: FI-L (Veerkamp and Berger, 1997) PFIでは，各時点において最尤推定値の一点のみを考慮して項目選択を行っている。(1)式に示された推定値の分散はあくまでも真値θiにおける値であり，項目パラメータに真値ではなく推定値を利用する場合および解答した項目数が少ない場合には，(1)式に示された分散は ˆθi の分散の下限となる。また最尤推定値の一点のみを用いた項目選択では，その時点での推定精度を考慮することができない。テストの序盤では推定精度が十分に高くないため，真値と大きく異なる値が推定される可能性もあるが，解答した項目数の増加に伴い推定精度は上昇し，漸近的に真値周辺の値に落ち着く。この情報を考慮して項目選択を行うため，項目情報量を尤度関数 Liq(θ)で重み付けすることを考える。すなわちFI-Lでは以下の式によってq + 1問目を選択する。 j arg max k∈Biq

∫

∞ −∞Ik(θ)Liq(θ)d(θ) (6)

なお，本研究ではVeerkamp and Berger (1997)にならい計算の簡略化のため，(6)式および下記(7)式における積分を，θを(−5, 5)間の0.1刻みの各点について値を計算した総和で代用している。

2.3 Kullback-Leibler Function Weighted by Likelihood: KL-L (Chang and Ying, 1996)

フィッシャー情報量はある一点θiと，非常に近い別の一点θi+ ∆を区別する能力を表したものである。そのため，テストの序盤で推定値 ˆθiが真値と大きく異なる場合には，フィッシャー情報量をベースにした方法では真値周辺における二点を区別する能力を考慮することができず，効率的な項目選択を行うことができない。一方カルバック・ライブラー(KL)情報量は，異なる二点を区別する能力を確率分布全体について評価したものであるため，ˆθi が真値と離れている場合でもより適切な項目選択を行うことが可能である。以上の理由から，

Chang and Ying (1996)はフィッシャー情報量の代わ

りにKL情報量を項目選択基準として考える方法を提案した。具体的には，KL情報量を尤度関数Liq(θ)で重み付けした以下の式によってq + 1問目を決定するアルゴリズムである。 j arg max k∈Biq

∫

∞ −∞KLk(θ|| ˆθiq)Liq(θ)d(θ) (7) ここでKLk(θ|| ˆθiq)は以下のように求められる。 KLk(θ|| ˆθiq) pk( ˆθiq) log

[

pk( ˆθiq) pk(θ)

]

+

[

1 − p_k( ˆθ_iq)

]

log

[

1 − pk( ˆθiq) 1 − pk(θ)

]

(8) 2.4 Progressive Method: PG (Revuelta and Ponsoda, 1998; Barrada, Olea, Ponsoda and Abad, 2008) 1節にも示したように，項目情報量に基づく方法では項目識別力aj が高い項目ばかりが選択される。ある項目が出題されるためには，少なくとも項目情報量がθi の何らかの値においてBiq 内のすべての項目の中で最大である必要がある。ここで項目の出題回数の偏りを抑制するために，乱数による調整を加えることを考える。 PGでは，PFIをベースとした以下の式によってq + 1 問目の項目を選択する。 j arg max k∈Biq

[

(1 − Wq)rk+WqIk( ˆθiq)

]

(9) ここでrkはU[0, maxk∈BiqIk( ˆθiq)]に従う一様乱数である。またWq は項目情報量が項目選択に及ぼす影響の

割合を表す重みである。Revuelta and Ponsoda (1998)

ではWq を，1問目で0，最終項目で1になるように調

整された一次関数としているが，本研究ではBarrada,

Olea, Ponsoda and Abad (2008)による以下の式を用

いる。 Wq







0

_∑

if q 1 q f 1( f − 1)t

∑

Q f 1( f − 1)t if q > 1 (10)

(6)

ここでtはWqの値が大きくなるスピードを調節する係数である。θiqの推定が不安定な序盤にはWqは小さな値をとるため，項目選択はよりランダムに行われる。解答数が増加するほどθiqの推定は安定し，同時にWqも徐々に大きくなる。その結果，テスト終盤ではPFIと同様に項目情報量の大きい項目が選択されるようになる。(10)式では tが小さいほど中盤でのWq の値が大きくなる。これは中盤の項目選択に項目情報量が影響する割合が大きくなることを意味する。従って，tが小さいほどテスト中盤において情報量の大きい項目が選択されやすくなり，同時に項目の出題回数のバランスが悪

化する。Barrada, Olea, Ponsoda and Abad (2010)で

は，t 1に設定することで推定精度には大きな影響を与えることなく出題回数のバランスをある程度改善可能であるとし，この値を使用している。

2.5 Proportional Method: PP (Segall, 2004; Barrada, Olea, Ponsoda and Abad, 2008)

あるθiの値において項目情報量が最大でなければ項目が出題されないという問題点を解消するため，PPでは項目選択自体を確率的に行うことを考える。はじめに各項目が選択される確率P(Sj)について，何らかの関数 Vjを用いて以下のように表す。 P(Sj)

∑

Vj k∈BiqVk (11) Segall (2004)ではVjを「項目jを出題した場合に ˆθiの分散説明率がどれだけ上昇するか」によって表現しているが，本研究ではBarrada, Olea, Ponsoda and Abad

(2008)によって提案された以下の関数を用いる。 Vj Ij( ˆθiq)Hq (12) ここで，Hqは以下の式によって表される。 Hq







0 if q 1 Q

∑

q_{f 1}( f − 1)t

∑

Q f 1( f − 1)t if q > 1 (13) Hq が1より小さい場合には項目情報量の差が圧縮されるため，項目選択がよりランダムに近づく。Hq 0の場合には各項目の選択確率が均一になるため，第1問は項目プールから完全にランダムに出題されることとなる。テストが進むに連れてHqは単調増加するため，後半の項目ほど項目情報量の大きい項目が選択される確率が上昇する。

2.6 a-Stratified Multistage: AS (Chang and Ying, 1999) 項目情報量に基づく項目選択では，項目識別力aj の高い項目に出題が偏る。これを防ぐため，ASではajの低い項目から高い項目までバランスよく出題することを考える。ajが高い項目は，困難度bj付近では大きい項目情報量を持っているが，困難度bjと離れるほど急激に項目情報量が低下する。そのためθiの推定値が真値とかけ離れることの多い序盤では，aj が高い項目を選択することで却って真値付近での項目情報量が低下する可能性がある。以上より，ASでは序盤にはあえてajの低い項目を提示し，θi の推定値が理論上真値に近づくテスト後半に向けて徐々にaj の高い項目を出題していく。具体的には，以下のアルゴリズムで出題項目を決定する。 1. 項目プール内の全項目をajによって昇順に並べる。 2. 並べ替えられた項目プールをQ個のブロックに分割する。この段階で，例えば第1ブロックにはaj が最も小さい項目ばかりが含まれ，第Qブロックにはajが最大の項目が含まれる事となる。 3. q(q 1, · · · , Q) 問目は第 q ブロックの中から， |bj− ˆθiq|が最小となる項目を選択する。なお，AS自体がajによる出題回数の偏りの抑制を目的としており，また2.の段階で各ブロック内の項目のaj はある程度統制されているため，3.における項目選択ではaj を考慮しない。

2.7 a-Stratified with b-Blocking: ASB (Chang, Jiahe and Ying, 2001)

実際のデータでは，項目パラメータaj，bjが相関を持つことは珍しくない。仮にaj とbjの間に正の相関がある場合，ASによる項目選択では，前半のブロックには易しい項目が多く後半のブロックには難しい項目が多く配置される事となる。そこで，ASと同様の方法でbj についても層化を行うアルゴリズムを考える。具体的には，以下の手順で出題項目を決定する。 1. 項目プール内の全項目をまずbj によって昇順に並べる。 2. 並べ替えられた項目プールをR個の層に分割する。 RはQと同数である必要はない。この段階で，第 1層には易しい項目が集まり，反対に第R層には難しい項目が集まる。 3. 各層について項目をajによって昇順に並べ，Q個

(7)

ここでtはWqの値が大きくなるスピードを調節する係数である。θiqの推定が不安定な序盤にはWqは小さな値をとるため，項目選択はよりランダムに行われる。解答数が増加するほどθiqの推定は安定し，同時にWqも徐々に大きくなる。その結果，テスト終盤ではPFIと同様に項目情報量の大きい項目が選択されるようになる。(10)式では tが小さいほど中盤でのWq の値が大きくなる。これは中盤の項目選択に項目情報量が影響する割合が大きくなることを意味する。従って，tが小さいほどテスト中盤において情報量の大きい項目が選択されやすくなり，同時に項目の出題回数のバランスが悪

化する。Barrada, Olea, Ponsoda and Abad (2010)で

は，t 1に設定することで推定精度には大きな影響を与えることなく出題回数のバランスをある程度改善可能であるとし，この値を使用している。

2.5 Proportional Method: PP (Segall, 2004; Barrada, Olea, Ponsoda and Abad, 2008)

あるθiの値において項目情報量が最大でなければ項目が出題されないという問題点を解消するため，PPでは項目選択自体を確率的に行うことを考える。はじめに各項目が選択される確率P(Sj)について，何らかの関数 Vjを用いて以下のように表す。 P(Sj)

∑

Vj k∈BiqVk (11) Segall (2004)ではVjを「項目jを出題した場合に ˆθiの分散説明率がどれだけ上昇するか」によって表現しているが，本研究ではBarrada, Olea, Ponsoda and Abad

(2008)によって提案された以下の関数を用いる。 Vj Ij( ˆθiq)Hq (12) ここで，Hqは以下の式によって表される。 Hq







0 if q 1 Q

∑

q_{f 1}( f − 1)t

∑

Q f 1( f − 1)t if q > 1 (13) Hqが1より小さい場合には項目情報量の差が圧縮されるため，項目選択がよりランダムに近づく。Hq 0の場合には各項目の選択確率が均一になるため，第1問は項目プールから完全にランダムに出題されることとなる。テストが進むに連れてHqは単調増加するため，後半の項目ほど項目情報量の大きい項目が選択される確率が上昇する。

2.6 a-Stratified Multistage: AS (Chang and Ying, 1999) 項目情報量に基づく項目選択では，項目識別力aj の高い項目に出題が偏る。これを防ぐため，ASではajの低い項目から高い項目までバランスよく出題することを考える。ajが高い項目は，困難度bj付近では大きい項目情報量を持っているが，困難度bjと離れるほど急激に項目情報量が低下する。そのためθi の推定値が真値とかけ離れることの多い序盤では，aj が高い項目を選択することで却って真値付近での項目情報量が低下する可能性がある。以上より，ASでは序盤にはあえてajの低い項目を提示し，θi の推定値が理論上真値に近づくテスト後半に向けて徐々にaj の高い項目を出題していく。具体的には，以下のアルゴリズムで出題項目を決定する。 1. 項目プール内の全項目をajによって昇順に並べる。 2. 並べ替えられた項目プールをQ個のブロックに分割する。この段階で，例えば第1ブロックにはaj が最も小さい項目ばかりが含まれ，第Qブロックにはajが最大の項目が含まれる事となる。 3. q(q 1, · · · , Q) 問目は第 q ブロックの中から， |bj− ˆθiq|が最小となる項目を選択する。なお，AS自体がajによる出題回数の偏りの抑制を目的としており，また2.の段階で各ブロック内の項目のaj はある程度統制されているため，3.における項目選択ではajを考慮しない。

2.7 a-Stratified with b-Blocking: ASB (Chang, Jiahe and Ying, 2001)

実際のデータでは，項目パラメータaj，bjが相関を持つことは珍しくない。仮にajとbjの間に正の相関がある場合，ASによる項目選択では，前半のブロックには易しい項目が多く後半のブロックには難しい項目が多く配置される事となる。そこで，ASと同様の方法でbj についても層化を行うアルゴリズムを考える。具体的には，以下の手順で出題項目を決定する。 1. 項目プール内の全項目をまずbjによって昇順に並べる。 2. 並べ替えられた項目プールをR個の層に分割する。 RはQと同数である必要はない。この段階で，第 1層には易しい項目が集まり，反対に第R層には難しい項目が集まる。 3. 各層について項目をajによって昇順に並べ，Q個のブロックに分割する。 4. 各層において第qブロック(q 1, · · · , Q)に配置された項目をまとめ一つのブロックとする。この結果，項目プール全体はQ個のブロックに分割される。 5. q問目は第qブロックの中から，|bj− ˆθiq|が最小となる項目を選択する。以上の手順をふむことで，各ブロック内にはbj の高い項目から低い項目までバランスよく含まれ，ajの低い項目から順に，項目困難度と各時点での ˆθiqが近い項目が出題されることとなる。aとbが無相関の場合には，理論上ASBはASと同じ結果になると考えられる。

2.8 Point Fisher Information per Unit Time: PFI-UT (Fan, Wang, Chang and Douglas, 2012)

これまでに紹介したアルゴリズムはいずれも解答にかかる時間を考慮していない。解答時間を考慮した項目選択アルゴリズムとしては，解答時間の確率分布に基づく

モデル(van der Linden, 2006)を利用したものが有名

である。van der Linden (2006)では特性値θi を持つ

受験者iが項目jに解答する際の解答時間tij の確率密度が対数正規分布に従うと仮定した。 f (tij|τi, αj, βj) αj tij√2π exp

[

−α 2 j 2 (log tij− βj+τi)2

]

(14) ここで，αj, βj はそれぞれ解答時間の分散と平均を表す項目パラメータ，τiは受験者iが項目に解答する速度に関する受験者パラメータである。さらに，(3)式などの通常の項目反応モデルによって推定されるθiと(14)式によって推定されるτiが以下のように二変量正規分布に従うとした。

(

θi τi

)

MVN

[(

0 0

)

,

(

1 Cor(θ, τ) Cor(θ, τ) 1

)]

(15) ここでCor(θ, τ)はθ, τ間の相関係数を表す。

Fan, Wang, Chang and Douglas (2012)は(14)式を

利用して解答時間の期待値を算出し，項目情報量などの項目選択基準を補正する方法を提案した。PFIなど単純に情報量に基づくアルゴリズムでは，特性値推定に最も寄与する項目が選択される一方で解答時間は全く考慮されないが，CATの本来の目的である「短い時間で効率よく特性値を推定する」の観点から考えると，最も項目情報量が大きいが解答に⻑い時間がかかる項目よりも，単位時間あたりの項目情報量が最大である項目が望ましいと言える。具体的なアルゴリズムの手順では，はじめに受験者i がq問目まで解答した時点におけるτi の推定値 ˆτiqを以下の式で求める。 ˆτiq

∑

j∈Jiqα2j(βj− log tij)

∑

j∈Jiqα2j (16) ここでJiqはq問目までに解答した全項目を表す。このとき，項目 jへの解答時間の期待値E[Tij| ˆτiq]は以下のように求めることができる。 E[Tij| ˆτiq] exp

(

βj− ˆτiq+_2α1₂ j

)

(17) これを用いて，PFI-UTでは以下の式に基づき「単位時間あたりの項目情報量が最大である」項目を選択する。 j arg max k∈Biq Ik( ˆθiq) E[Tij| ˆτiq] (18) 3. 項目の出題回数のバランス 1節で述べたように，特定の項目が多く曝露されることで，将来の受験者が項目を既知の状態で受験できてしまう危険性が高まる。項目の出題回数の指標として，各項目ごとに算出される“item exposure rate” (ER)と，そのバランスの指標として項目プール全体に対して求め

られる“average item overlap” (OR; overlap rate)の

二つがある(Way, 1998)。ERは各項目が全受験者のうち何割に出題されたかを表す。この割合が高いほど当該の項目が多くの受験者の目に触れるため，結果として将来の受験者に項目が事前に共有される可能性が高まってしまう。ORは，任意の二人の受験者の間で同じ項目が出題される割合の期待値として定義される。仮に受験者数と一人あたりの出題数が同じだとすると，この割合が高いほど複数の受験者に共通の項目が出題されており，一方で極端に出題回数の少ない項目が存在していることを表す。

Chen, Ankenmann and Spray (2003)は上述の二つ

の指標の関係から，ORがテストの⻑さQ，項目プールのサイズJおよびERの関数であり，特にJが十分に大きい場合には以下の式で表される ˆ¯Tによって近似可能であることを示した。 ˆ¯T J_QS_ER2 + Q J (19)

(8)

Q/J は各項目のERの平均値である。また，S_ER2 は項目プールのERの分散を表す。この式からORはS2_ER が大きいほど高くなること，また最低でもQ/Jになるということがわかる。前節にて紹介したPG, PP, AS, ASBなどはERの最大値およびORの上昇を抑制することを目的として考案されたアルゴリズムである。これらの方法では必然的に項目情報量が比較的小さい項目が一定の確率で使用されることになる。テストの⻑さが同じ場合，項目情報量あるいはKL情報量が最大の項目を選択した際にθi の推定精度が最大になることは明白であり，一般的に特性値の推定精度とORはトレードオフの関係にある。そのため，単純に情報量の大きい項目を選択するアルゴリズムとORの抑制を目的としたアルゴリズムを統一的な観点から比較することは難しかった。これを解決する方法として，Barrada, Olea, Ponsoda

and Abad (2010)は「ERの上限が同じ状況での推定精

度の比較」を行うことを提案した。各アルゴリズムで

ERの上限を様々に変更させながら推定精度を確認することで，アルゴリズム間の優劣を確認することが可能となる。通常はJ, Qが既知の場合アルゴリズムごとにER

も決まった値になるが，Barrada, Olea, Ponsoda and

Abad (2010) では“Item-eligibility Method”(van der

Linden and Veldkamp, 2004)を用いてERの上限を操

作した。この方法では，まず「項目jが受験者iに出題される確率」Pij(A)を考える。i − 1番目までの受験が終了した時点で項目jの出題回数が多い場合，項目の漏洩の危険性の観点からは，続く受験者iに項目jが出題されるよりも，その時点で出題回数が少ない別の項目が出題されるのが望ましい。そのため，i − 1番目までの受験が終了した時点で項目jのERが高い場合には，Pij(A)が低くなるように補正をかける必要がある。しかし，通常 Pij(A)は項目選択アルゴリズム，項目プール内の全項目および受験者特性値の分布に依存して決定するため，ここで項目選択のプロセスを「受験者iがテストを開始する前に出題候補を決め」「その中から各種アルゴリズムによって実際に出題する項目を選択する」という二段階に分けることを考える。このときPij(A) Pij(A, E)は「受験者iへの出題候補に項目jが含まれる確率」Pij(E) および「項目 jが出題候補である時に受験者i に実際に出題される確率」Pij(A|E)の積で表現することができる。Pij(A|E)は項目選択アルゴリズム，出題候補となった全項目に依存して決定するため，Pij(A)を調整するためにはPij(E)を操作する必要がある。具体的には Pij(E)を，テスト実施者がERの上限として設定する任意の値ERmaxを用いて以下のように設定する。 Pij(E)      1 if P1···i−1,j(A)

P_i−1,j(E) ≤ ERmax

ERmax_PPi−1,j(E)

1···i−1,j(A) if

P_{1···i−1,j}(A)

P_i−1,j(E) >ERmax (20) ここでP1···i−1,j(A)はi − 1番目の受験者までに実際に項目jが出題された割合を表す。受験者iへの出題候補に項目 jを含むかは，U[0, 1]から一様乱数を発生させ， Pij(E)以下の値となるかどうかで決定する。受験者iのテスト開始前にこの手続きを項目プール内の全項目に対して繰り返し，出題候補の暫定プールを作成する。その後，暫定プールに対して通常通り項目選択アルゴリズムを適用し，受験者iへの出題項目を決定する。 Item-eligibility Methodは前節で紹介した各項目選択アルゴリズムと同時に使用することが可能であるため，これを用いることで各アルゴリズムにおけるERmaxを統制することが可能となる。なお，実用上はテスト実施者がテスト設計の様々な状況を鑑みてERmaxの値を任意に決定することが求められる。例えばEggen (2001)では

SH法(Sympson and Hetter, 1985)におけるERmaxを

様々に操作し，過剰に出題されている項目・全く出題されない項目の割合をシミュレーションによって検証した結果からERmax0.35という値に決定している。また Way (1998)では先行研究のレビューを踏まえ，ハイステークスなテストではORを0.1 − 0.15程度に抑えるべきであるとのガイドラインを示した。後述するシミュレーションの結果，例えば図9の左上の結果に照らし合わせると，この状況下でPFIを採用する場合はERmax を0.15 − 0.2程度に設定するとORが0.1 − 0.15程度になる一方で，PGやPPを採用する際にはERmaxが1 でもORが0.15を上回ることはない。本研究の目的はERmaxを特定の値に設定した際の各アルゴリズムの性能を比較・評価することにある。次節

ではItem-eligibility Methodを使用しERmaxを様々な

値に操作するシミュレーション研究を行い，テスト実施者が項目選択アルゴリズムおよびERmaxを決定する際の一つの指針を提供する。項目選択アルゴリズムとは別にORの上限を制御する方法としては，他にも“Restricted Method”(Revuelta and Ponsoda, 1998)が挙げられる。この方法では，(20) 式の代わりに以下の式を用いて出題候補を決定する。

(9)

Q/J は各項目のERの平均値である。また，S2_ER は項目プールのERの分散を表す。この式からORはS2_ER が大きいほど高くなること，また最低でもQ/Jになるということがわかる。前節にて紹介したPG, PP, AS, ASBなどはERの最大値およびORの上昇を抑制することを目的として考案されたアルゴリズムである。これらの方法では必然的に項目情報量が比較的小さい項目が一定の確率で使用されることになる。テストの⻑さが同じ場合，項目情報量あるいはKL情報量が最大の項目を選択した際にθi の推定精度が最大になることは明白であり，一般的に特性値の推定精度とORはトレードオフの関係にある。そのため，単純に情報量の大きい項目を選択するアルゴリズムとORの抑制を目的としたアルゴリズムを統一的な観点から比較することは難しかった。これを解決する方法として，Barrada, Olea, Ponsoda

and Abad (2010)は「ERの上限が同じ状況での推定精

度の比較」を行うことを提案した。各アルゴリズムで

ERの上限を様々に変更させながら推定精度を確認することで，アルゴリズム間の優劣を確認することが可能となる。通常はJ, Qが既知の場合アルゴリズムごとにER

も決まった値になるが，Barrada, Olea, Ponsoda and

Abad (2010) では“Item-eligibility Method”(van der

Linden and Veldkamp, 2004)を用いてERの上限を操

作した。この方法では，まず「項目 jが受験者iに出題される確率」Pij(A)を考える。i − 1番目までの受験が終了した時点で項目jの出題回数が多い場合，項目の漏洩の危険性の観点からは，続く受験者iに項目jが出題されるよりも，その時点で出題回数が少ない別の項目が出題されるのが望ましい。そのため，i − 1番目までの受験が終了した時点で項目jのERが高い場合には，Pij(A)が低くなるように補正をかける必要がある。しかし，通常 Pij(A)は項目選択アルゴリズム，項目プール内の全項目および受験者特性値の分布に依存して決定するため，ここで項目選択のプロセスを「受験者iがテストを開始する前に出題候補を決め」「その中から各種アルゴリズムによって実際に出題する項目を選択する」という二段階に分けることを考える。このときPij(A) Pij(A, E)は「受験者iへの出題候補に項目jが含まれる確率」Pij(E) および「項目 jが出題候補である時に受験者i に実際に出題される確率」Pij(A|E)の積で表現することができる。Pij(A|E)は項目選択アルゴリズム，出題候補となった全項目に依存して決定するため，Pij(A)を調整するためにはPij(E)を操作する必要がある。具体的には Pij(E)を，テスト実施者がERの上限として設定する任意の値ERmaxを用いて以下のように設定する。 Pij(E)      1 if P1···i−1,j(A)

P_i−1,j(E) ≤ ERmax

ERmax_PPi−1,j(E)

1···i−1,j(A) if

P_{1···i−1,j}(A)

P_i−1,j(E) >ERmax (20) ここでP1···i−1,j(A)はi − 1番目の受験者までに実際に項目jが出題された割合を表す。受験者iへの出題候補に項目 jを含むかは，U[0, 1]から一様乱数を発生させ， Pij(E)以下の値となるかどうかで決定する。受験者iのテスト開始前にこの手続きを項目プール内の全項目に対して繰り返し，出題候補の暫定プールを作成する。その後，暫定プールに対して通常通り項目選択アルゴリズムを適用し，受験者iへの出題項目を決定する。 Item-eligibility Methodは前節で紹介した各項目選択アルゴリズムと同時に使用することが可能であるため，これを用いることで各アルゴリズムにおけるERmaxを統制することが可能となる。なお，実用上はテスト実施者がテスト設計の様々な状況を鑑みてERmaxの値を任意に決定することが求められる。例えばEggen (2001)では

SH法(Sympson and Hetter, 1985)におけるERmaxを

様々に操作し，過剰に出題されている項目・全く出題されない項目の割合をシミュレーションによって検証した結果からERmax0.35という値に決定している。また Way (1998)では先行研究のレビューを踏まえ，ハイステークスなテストではORを0.1 − 0.15程度に抑えるべきであるとのガイドラインを示した。後述するシミュレーションの結果，例えば図9の左上の結果に照らし合わせると，この状況下でPFIを採用する場合はERmax を0.15 − 0.2程度に設定するとORが0.1 − 0.15程度になる一方で，PGやPPを採用する際にはERmaxが1 でもORが0.15を上回ることはない。本研究の目的はERmaxを特定の値に設定した際の各アルゴリズムの性能を比較・評価することにある。次節

ではItem-eligibility Methodを使用しERmaxを様々な

値に操作するシミュレーション研究を行い，テスト実施者が項目選択アルゴリズムおよびERmaxを決定する際の一つの指針を提供する。項目選択アルゴリズムとは別にORの上限を制御する方法としては，他にも“Restricted Method”(Revuelta and Ponsoda, 1998)が挙げられる。この方法では，(20) 式の代わりに以下の式を用いて出題候補を決定する。表1 シミュレーションの条件。ただし(J, tlimit) (1000, 480)となる条件については実施していない。条件水準説明 N 500 受験者数 J 500, 1000 項目プールのサイズ tlimit 240, 480 制限時間（秒） Cor(a, β) 0, 0.5 aとβの相関 Cor(b, β) 0, 0.5 bとβの相関 Cor(θ, τ) 0.5 θとτの相関 ERv max (23)式で算出された値 ERの上限 Pij(E) 

{

₁ _{if P}

1···i−1,j(A) ≤ ERmax

0 if P1···i−1,j(A) > ERmax (21)

Restricted MethodはItem-eligibility Methodと比べ

てごくわずかに推定精度が高まる一方で，出題候補がそれ以前の出題割合によって完全に決定される。そのため一部項目は数人おきに規則的に出題されてしまうことか

ら，Item-eligibility Methodの使用を推奨する研究もあ

る(Barrada, Abad and Veldkamp, 2009)。

4. シミュレーション1)

表1に，本シミュレーション研究の条件設定をまとめた。なお，基本的なシミュレーションの方法については

Barrada, Olea, Ponsoda and Abad (2010)を踏襲して

いる。

4.1 方法

2節に示したアルゴリズムについて，性能の比較を行った。なおASの提案者であるChang 本人がその

“refinement” (Chang, Jiahe and Ying, 2001, p. 334)

としてASB を提案していることから，本シミュレーションからASは除外している。以上七種に加え，比較対象として「項目プールの中の全項目から完全ランダムに選択する(以後Random)」と「その時点での推定値 ˆθiq と最も近い bj を持つ項目を選択する(以後 Nearest)」を加えた九種のアルゴリズムについて比較を行う。Nearestは1パラメータモデルにおけるPFIであると解釈することも可能であり，類似の方法が採用されている前例もある(e.g., Dodd, 1990; Owen, 1975)。具体的なシミュレーションを以下に示す。表1に示した各条件ごと，および各アルゴリズムごとに以下の手順を 50試行ずつ行い，後に示す性能の評価を行った。 (1) 真値の生成 項目パラメータの真値は以下の分布より乱数発生させた。 α_j ∼ U[2, 4]   aj bj βj    ∼ MVN [ µ, Σ] µ ( _1.2 0 3 ) Σ �� 0.252 ₀ _{0.125Cor(a, β)} 0 12 _{0.5Cor(b, β)} 0.125Cor(a, β) 0.5Cor(b, β) 0.52 �� また，受験者パラメータの真値は(15)式の分布より乱数発生させた。ただし，Cor(θ, τ)はFan, Wang, Chang

and Douglas (2012)より0.5とした。すなわち，特性値（能力）が高い受験者ほど解答にかかる時間が短い状況を想定している。 (2) 項目反応データの生成 生成した真値を用いて「各受験者が各項目に解答した場合に，正答するか誤答するか・解答に何秒かかるか」というデータを乱数生成した。なお，項目反応データは(3)式のP(Yij|θi)を正答確率とするベルヌーイ乱数を，また解答時間データは(14)式による対数正規乱数を発生させた。なお，解答時間が対数正規分布に従う乱数によって生成されるため，一定の確率で数百秒という解答時間が観測される事となる。その結果以降の項目が出題できず特性値推定が不安定になってしまうため，本研究では60秒以上の解答時間が発生した場合には「当該の項目には不正解，解答時間は60秒」というデータに変換した。図1に，発生したデータにおける解答時間のヒストグラムを示した。モンテカルロシミュレーションによって算出した解答時間の期待値はおよそ25秒であった。 (3) 受験者特性値の推定 特性値の推定は以下の手順で行った。 1. i 番目の受験者への出題候補を Item-eligibility Methodによって決定する 2. U[−0.5, 0.5]に従う一様乱数によって初期値 ˆθi0を決定する 3. 各アルゴリズムに従って出題項目を決定する 4. 最尤法によって推定値 ˆθiqを（PFI-UTではˆτiqも）計算する 5. q 問目までの合計解答時間が tlimit に達するまで 3–4.を繰り返す

(10)

Response Time 0 10 20 30 40 50 60 0.000 0.010 0.020 0.030 図1 シミュレーション研究で使用したデータにおける解答時間の分布。60秒以上のデータはすべて60秒に変換している。 6. 合計解答時間がtlimitに達したら，最終的な推定値 ˆθiを求め，iを1増やし1.に戻る最尤法では，その時点までの解答がすべて正答あるいは誤答である場合に推定値が発散してしまうため，

Dodd (1990)の提案した方法(Barrada, Olea, Ponsoda

and Abad, 2008, 2010)を使用した。Dodd (1990)で

は，それまでの解答がすべて正答である場合，推定値を

ˆθiq ˆθi,q−1+(bmax− ˆθi,q−1)/2に更新し，全て誤答で

ある場合は ˆθiq ˆθ_i,q−1− ( ˆθ_i,q−1− b_min)/2に更新する。

なお，bmax (bmin)はそれぞれ項目プール内の全項目の中で最も困難度が高い（低い）項目の値である。 4.2 性能の評価指標 1節で述べたように，項目選択アルゴリズムの性能を評価する指標として，大きく分けると「特性値の推定精度」と「項目の出題回数のバランス」の二つが挙げられる。「特性値の推定精度」の指標には，RMSEおよびテスト情報量を用いる。RMSEは各試行において以下の式を計算し，これを条件・アルゴリズムごとに平均したものを用いる。 RMSE

�

1 N N

∑

i1 ( ˆθi− θi)2 (22) また，テスト情報量は，(2)式において真値θiの代わりに最終的な推定値 ˆθi を用いて各受験者ごとに算出した I( ˆθi)の平均を各試行で算出し，これを条件・アルゴリズムごとに平均したものを用いた。「項目の出題回数のバランス」にはORを算出する。OR算出時のQは，全受験者の平均解答数を用いた。これらの指標に加えて，「解答数の平均」を算出した。 4.3 その他の設定 (1) ERmaxの設定 ER の平均は最低でも Q/J 以上の値を取ることから，ERmax はQ/J以上1 以下の範囲で適切な値を設

定する必要がある。Barrada, Olea and Abad (2008)

は，ERmax が小さい値の時はわずかな変動が RMSE 等の指標に影響を与える一方で，ERmax が1 に近づくほど各指標の変動が鈍くなることを示した。この結果から，彼らはシミュレーションの条件として設定するERv max(v 1, · · · , V)を以下の式によって決定している。 ERv max Q J +

(

1 −Q J

) ∑

vf 1( f − 1)2

∑

V f 1( f − 1)2 (23) ERv maxはシミュレーション条件として設定される具体

的なERmaxの値を表し，必ずER1max<ER2max<· · · <

ERV

max 1となる。Vには任意の数を設定でき，この

値が大きいほどグラフはより細かい点でプロットされるため精密になる。実用上はV 10程度でグラフの特徴（位置・傾き・大小関係など）は十分確認できる(Barrada,

Olea and Abad, 2008)ため，本研究でもV 10を用

いた。また(23)式内に登場するQについては，本研究で想定している制限時間のあるテストでは各受験者が実際に受けるテストの⻑さが事前には分からないため，適切な値を設定する必要がある。必要以上にERmaxを抑制させた場合，制限時間が残った状態で出題可能な項目が尽きてしまい十分なパフォーマンスを観測できないため，事前に算出した平均解答時間をもとに多少のゆとりを持たせQ tlimit/20と設定した。 (2) 項目選択アルゴリズムのパラメータ設定 一部の項目選択アルゴリズムにおいてもテストの⻑さQが式中に登場する。2節で紹介したアルゴリズムはいずれもテストの⻑さが固定の場合を想定して作成されているが，本研究ではこれらを可変⻑のテストに適用する。この場合Qの正確な値は各個人によって異なり，また受験が終了するまで未知であるため，本研究では事前にそれぞれ以下のように設定した。 • ASBではQ tlimit/20と設定した。Q + 1問目以降は引き続き第Qブロックから出題していき，第 Qブロックの出題可能項目が無くなった時点で第 Q − 1ブロック，第Q − 2ブロックと戻っていく。

(11)

Response Time 0 10 20 30 40 50 60 0.000 0.010 0.020 0.030 図1 シミュレーション研究で使用したデータにおける解答時間の分布。60秒以上のデータはすべて60秒に変換している。 6. 合計解答時間がtlimitに達したら，最終的な推定値 ˆθiを求め，iを1増やし1.に戻る最尤法では，その時点までの解答がすべて正答あるいは誤答である場合に推定値が発散してしまうため，

Dodd (1990)の提案した方法(Barrada, Olea, Ponsoda

and Abad, 2008, 2010)を使用した。Dodd (1990)で

は，それまでの解答がすべて正答である場合，推定値を

ˆθiq ˆθi,q−1+(bmax− ˆθi,q−1)/2に更新し，全て誤答で

ある場合は ˆθiq ˆθ_i,q−1− ( ˆθ_i,q−1− b_min)/2に更新する。

なお，bmax (bmin)はそれぞれ項目プール内の全項目の中で最も困難度が高い（低い）項目の値である。 4.2 性能の評価指標 1節で述べたように，項目選択アルゴリズムの性能を評価する指標として，大きく分けると「特性値の推定精度」と「項目の出題回数のバランス」の二つが挙げられる。「特性値の推定精度」の指標には，RMSEおよびテスト情報量を用いる。RMSEは各試行において以下の式を計算し，これを条件・アルゴリズムごとに平均したものを用いる。 RMSE

�

1 N N

∑

i1 ( ˆθi− θi)2 (22) また，テスト情報量は，(2)式において真値θiの代わりに最終的な推定値 ˆθi を用いて各受験者ごとに算出した I( ˆθi)の平均を各試行で算出し，これを条件・アルゴリズムごとに平均したものを用いた。「項目の出題回数のバランス」にはORを算出する。OR算出時のQは，全受験者の平均解答数を用いた。これらの指標に加えて，「解答数の平均」を算出した。 4.3 その他の設定 (1) ERmaxの設定 ER の平均は最低でも Q/J 以上の値を取ることから，ERmax はQ/J以上1 以下の範囲で適切な値を設

定する必要がある。Barrada, Olea and Abad (2008)

は，ERmax が小さい値の時はわずかな変動が RMSE 等の指標に影響を与える一方で，ERmax が 1に近づくほど各指標の変動が鈍くなることを示した。この結果から，彼らはシミュレーションの条件として設定するERv max(v 1, · · · , V)を以下の式によって決定している。 ERv max Q J +

(

1 −Q J

) ∑

vf 1( f − 1)2

∑

V f 1( f − 1)2 (23) ERv maxはシミュレーション条件として設定される具体

的なERmaxの値を表し，必ずER1max<ER2max<· · · <

ERV

max 1となる。Vには任意の数を設定でき，この

値が大きいほどグラフはより細かい点でプロットされるため精密になる。実用上はV 10程度でグラフの特徴（位置・傾き・大小関係など）は十分確認できる(Barrada,

Olea and Abad, 2008)ため，本研究でもV 10を用

いた。また(23)式内に登場するQについては，本研究で想定している制限時間のあるテストでは各受験者が実際に受けるテストの⻑さが事前には分からないため，適切な値を設定する必要がある。必要以上にERmaxを抑制させた場合，制限時間が残った状態で出題可能な項目が尽きてしまい十分なパフォーマンスを観測できないため，事前に算出した平均解答時間をもとに多少のゆとりを持たせQ tlimit/20と設定した。 (2) 項目選択アルゴリズムのパラメータ設定 一部の項目選択アルゴリズムにおいてもテストの⻑さQが式中に登場する。2節で紹介したアルゴリズムはいずれもテストの⻑さが固定の場合を想定して作成されているが，本研究ではこれらを可変⻑のテストに適用する。この場合Qの正確な値は各個人によって異なり，また受験が終了するまで未知であるため，本研究では事前にそれぞれ以下のように設定した。 • ASBではQ tlimit/20と設定した。Q + 1問目以降は引き続き第Qブロックから出題していき，第 Qブロックの出題可能項目が無くなった時点で第 Q − 1ブロック，第Q − 2ブロックと戻っていく。 • PGではWqを以下の式で近似した。なお，tq−1は q − 1問目までの解答時間の合計である。この式による(10)式の近似の様子を図2に示した。 Wq

(

_t q−1 tlimit

)

2 (24) • PPではQを便宜的にtlimit/20と設定した。(10) 式と(13)式の間にはHqQWqという関係があるため，Hqの近似はWqの近似を単純にtlimit/20倍したものとなり，近似精度も図2に示したものと変わらない。 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Wq 0 50 100 150 200 0.0 0.2 0.4 0.6 0.8 1.0 tq−1 図2 Wqの近似。曲線はtlimit 240の場合のW_q を(24)式によって計算したもの，各点はQ 20の場合のWq を(10)式によって計算したものである。なお，Hqの近似についてもY軸のスケールを除いては全く同じ形をとる。 4.4 結果本節で提示する全ての図は，左列にCor(a, β) 0，右列にCor(a, β) 0.5となる条件の結果を表示し，上段にはCor(b, β) 0，下段にはCor(b, β) 0.5となる条件の結果を表示している。X軸はいずれもERmaxを表す。また，結果の線種はアルゴリズムの性質の大まかな分類を表す。情報量のみによって項目が選択される方法 (PFI, FI-L, KL-L)は実線，ORの上昇を抑制する方法 (PG, PP, ASB)は破線，比較対象であるNearestおよびRandomは点線，解答時間を用いるPFI-UTは一点鎖線で示した。 (1) RMSE 図3に，条件J 500, tlimit240における各アルゴリズムのRMSEを示した。Cor(a, β) 0の場合には， ORの上昇を抑制する方法に比べて情報量のみで項目を選択する方法のほうが僅かに小さい値となった。この結

果はBarrada, Olea, Ponsoda and Abad (2010)の結果

と一致する。また，ERmaxが小さくなるほどRMSEが大きくなっており，推定精度と項目の出題回数間のトレードオフの関係がこの図からも見て取れる。Nearest およびRandomを除くとASBが最も大きい値であった。PGおよびPPは確率的方法ではあるものの項目情報量を利用していることから，ASBと比べると推定精度が僅かに高くなっている。RMSEに関しては， PFI-UTが本研究で使用した全てのアルゴリズムの中で最も小さい値を示した。Fan, Wang, Chang and Douglas

(2012)のシミュレーションでは，PFI-UTがPFIと比べて短い時間で一定のテスト情報量に到達することを示しており，制限時間を考慮した場合でも同様の結果が得られることが本シミュレーションによって示された形となった。一方でCor(a, β) 0.5の場合には，情報量のみで項目を選択する方法（実線）の方がRMSEが大きく，さらにERmaxの上昇にしたがって値は大きくなることが示された。PG, PPおよびPFI-UTも同様にERmaxの上昇にしたがってRMSEが大きくなった。図4に示したように，項目プールのサイズが大きくなり出題可能な項目の自由度が増加するほどこの傾向は強くなるものと見られる。情報量のみで項目を選択する方法では，出題可能項目の自由度が増加するほど，項目情報量が多いが解答にかかる時間が⻑い項目が選択されやすくなるため，制限時間内の解答項目数が減少することで推定精度が低下すると考えられる。全アルゴリズムの中で唯一ASBのみはERmax の値によらず，またCor(a, β)の値に関わらず安定した値であった。なお，図5では条件 J 500, tlimit480での結果をまとめた。制限時間が⻑くなることで出題項目数が増加した結果，全てのアルゴリズムにおいてRMSE は小さくなった。一方で，アルゴリズム間の優劣関係には変化は見られなかった。Cor(b, β) 0.5の条件では， Cor(b, β) 0と比べてRMSEは小さくなった。本シミュレーションではCor(θ, τ) 0.5と設定したために生じた結果であると考えられる。 (2) テスト情報量 図6に，条件 J 500, tlimit240における各アルゴリズムのテスト情報量を示した。Cor(a, β) 0の場合には情報量のみで項目を選択する方法（実線）が破線で示した手法と比べて大きい値を示し，更にPFI-UTが最も大きい値を示した。加えてASBに比べてPGおよび

制限時間のある適応型テストにおける項目選択アルゴリズムの比較検討

一般研究論文

制限時間のある適応型テストにおける

項目選択アルゴリズムの比較検討

Comparison of Item Selection Algorithm in

Computerized Adaptive Testing with a Time Limit

分寺

杏介

Kyosuke Bunji

制限時間のある適応型テストにおける

項目選択アルゴリズムの比較検討

分寺 杏介

東京大学大学院教育学研究科

日本学術振興会

Comparison of Item Selection Algorithms in

Computerized Adaptive Testing with a Time Limit

制限時間のある適応型テストにおける

項目選択アルゴリズムの比較検討

分寺 杏介

東京大学大学院教育学研究科

日本学術振興会

Comparison of Item Selection Algorithms in

Computerized Adaptive Testing with a Time Limit

∑

∑

∫

∫

[

]

[

]

[

]

[

]







∑

∑

∑







∑

∑

∑







∑

∑

[

]

(

)

[(

)

(

)]

∑

∑

(

)

{

�

�

�

∑

(

) ∑

∑

�

�

�

∑

(

) ∑

∑

(

分寺杏介

_{東京大学大学院教育学研究科}

_{日本学術振興会}

分寺杏介

_{東京大学大学院教育学研究科}

_{日本学術振興会}

_∑