Correspondence concerning this article should be sent to: Kyosuke Bunji, Graduate School of Education, The University of Tokyo, 7-3-1, Hongo, Bunkyo-ku, Tokyo, Japan 113-0033. E-mail: [email protected]
一般研究論文
制限時間のある適応型テストにおける
項目選択アルゴリズムの比較検討
Comparison of Item Selection Algorithm in
Computerized Adaptive Testing with a Time Limit
分寺
杏介
1Kyosuke Bunji
11東京大学大学院教育学研究科 1日本学術振興会
1Graduate School of Education, The University of Tokyo
制限時間のある適応型テストにおける
項目選択アルゴリズムの比較検討
分寺 杏介
1 1東京大学大学院教育学研究科
1日本学術振興会
本研究では,適応型テストにおける項目選択アルゴリズムにおける特性値の推定精度および項目プール内の項目 の出題回数のバランスについて,一定の制限時間がある条件下にて比較検討を行った。シミュレーションの結 果,(1)解答時間の期待値を用いて項目情報量を補正するアルゴリズムで特性値推定の精度・項目の出題回数の バランスの両側面が向上すること,(2)項目識別力と解答にかかる時間に正の相関がある場合には,特に項目情 報量ベースで出題を決定するアルゴリズムでは平均解答数が減少すること,(3)そのような状況下ではOverlap Rateの上昇を抑える手法の方が高い精度で特性値推定が可能であること,(4) RMSEとテスト情報量ではアル ゴリズム間の優劣関係がわずかに異なること,などが明らかになった。 キーワード: 項目反応理論,適応型テスト,項目選択アルゴリズム,解答時間Comparison of Item Selection Algorithms in
Computerized Adaptive Testing with a Time Limit
Kyosuke Bunji1
1Graduate School of Education, The University of Tokyo
1Japan Society for the Promotion of Science
This study compared several item selection algorithms in a situation where a time limit exists in terms of estimation accuracy and item bank security. Simulation results show the following: (1) adjusting item information using the expected response time will improve both the estimation accuracy and the item bank security; (2) when item discrimination and expected response time are positively correlated, the mean numbers of the answered items decrease particularly in the algorithms which determine the next item according to the information; (3) under the condition in (2), algorithms that suppress the inflation of overlap rate demonstrate better estimation accuracy and; (4) the root-mean-square error and test information show slightly different results between algorithms.
制限時間のある適応型テストにおける
項目選択アルゴリズムの比較検討
分寺 杏介
1 1東京大学大学院教育学研究科
1日本学術振興会
本研究では,適応型テストにおける項目選択アルゴリズムにおける特性値の推定精度および項目プール内の項目 の出題回数のバランスについて,一定の制限時間がある条件下にて比較検討を行った。シミュレーションの結 果,(1)解答時間の期待値を用いて項目情報量を補正するアルゴリズムで特性値推定の精度・項目の出題回数の バランスの両側面が向上すること,(2)項目識別力と解答にかかる時間に正の相関がある場合には,特に項目情 報量ベースで出題を決定するアルゴリズムでは平均解答数が減少すること,(3)そのような状況下ではOverlap Rateの上昇を抑える手法の方が高い精度で特性値推定が可能であること,(4) RMSEとテスト情報量ではアル ゴリズム間の優劣関係がわずかに異なること,などが明らかになった。 キーワード: 項目反応理論,適応型テスト,項目選択アルゴリズム,解答時間Comparison of Item Selection Algorithms in
Computerized Adaptive Testing with a Time Limit
Kyosuke Bunji1
1Graduate School of Education, The University of Tokyo
1Japan Society for the Promotion of Science
This study compared several item selection algorithms in a situation where a time limit exists in terms of estimation accuracy and item bank security. Simulation results show the following: (1) adjusting item information using the expected response time will improve both the estimation accuracy and the item bank security; (2) when item discrimination and expected response time are positively correlated, the mean numbers of the answered items decrease particularly in the algorithms which determine the next item according to the information; (3) under the condition in (2), algorithms that suppress the inflation of overlap rate demonstrate better estimation accuracy and; (4) the root-mean-square error and test information show slightly different results between algorithms.
Keywords: Item Response Theory, Adaptive Testing, Item Selection Algorithm, Response Time
1. 問題と目的 近年,コンピュータを利用したテスト (Computer Based Testing: CBT)の利用が本邦でも増加の傾向 を見せている。CBTのメリットの一つに,それまで の項目反応の情報を利用してリアルタイムで特性値 を推定し,それに合わせた出題を行う適応型テスト
(Computerized Adaptive Testing: CAT)が挙げられ
る。一般的に適応型テストでは,受験者の特性値をよく 測定できる項目を逐次的に出題することにより,短時 間で効率的に特性値を推定することが可能である(e.g.,
McBride and Martin, 1983; Weiss, 1982)。
適応型テストは大きく分けると五つのフェイズから構
成される(Veldkamp and Matteucci, 2013)。
1. 特性値の初期値を決定する 2. 出題項目を選択する 3. 項目を出題する 4. 特性値を推定(更新)する 5. ある条件を満たした段階で出題を停止(終了)する これら5つのフェイズそれぞれについて複数のアルゴ リズムが提案されており,テスト実施者はそれらを適切 に組み合わせることが求められる。加えて,本来はテス トを実施する前段階の時点でテストの目的・対象などの 設定が必要であり,またテスト実施以外の場面におい ても,項目プールの作成・拡充,測定する構成概念の決 定,実施環境の整備など様々な点を考慮すべきである
(e.g., Mills and Stocking, 1996; Wise and Kingsbury,
2000)。しかし同時に,これらの問題は統計的な判断
が難しいことが多い (van der Linden, 2018)。一方で
Thissen and Mislevy (2000)によれば,テストのアルゴ
リズムは最小で以下の三点によって特徴づけられる。 • どのようにして1問目を選択するか • どのようにして次の項目を選択するか • どの段階でテストを終了するか これらのうち,1 問目の選択については上述の五つの フェイズのうち「特性値の初期値を決定する」および 「出題項目を選択する」の2点によって決定されること が多いが,初期値の決定方法については,尤度に基づく 最終的な特性値推定に大きな影響を与えないと考えられ
ている(Thissen and Mislevy, 2000)。またテストの終
了条件は,テストの目的・性質(出題数を同一にしたい, 一定時間内に終わらせたい,すべての受験者に対して一 定の推定精度を担保したい,など)に応じてテスト実施 者が決定すべきものであるため,異なる終了条件間での 性能の比較に大きな意味は無いと考えられる。以上を踏 まえ,本研究では特に出題項目を選択するアルゴリズム を対象として検討を行うこととする。 近年では項目選択アルゴリズムを評価する基準として 大きく「特性値の推定精度」と「項目の出題回数のバラン ス」の2点が考慮される事が多い。適応型テストにおけ る項目選択は本来,受験者の特性値をより正確に推定す ることが第一目的であると考えられる。そのために最も 広く用いられている項目選択アルゴリズムの一種に項目 情報量を使用した方法(Lord, 1977; Weiss, 1982)があ るが,これらの方法ではごく一部の項目のみが頻繁に出 題されることが知られている(Chang and Ying, 1999;
Way, 1998)。項目の出題回数の偏りは2つの点から避
けるべきものと考えられる(Barrada, Olea, Ponsoda
and Abad, 2009; Revuelta and Ponsoda, 1998)。一つ
は受験者が項目および正答を事前に知った上で解答す る事によって測定誤差が増加する点である。項目の出題 回数の合計を固定すると,一部の項目のみに偏った出題 がなされている場合,バランスよく出題された場合と 比べて一部項目が受験者に漏れてしまう可能性が高ま る。項目の出題回数の偏りによって生じるもう一つの問 題は,結果的に出題されない項目を作成するために費や したコストが無駄になってしまうという点である。これ らの問題によって項目プールの持続可能性が低下する ことを避けるため,項目選択アルゴリズムの内部で出題 回数の偏りを抑制する方法が数多く提案されてきた。そ れらの方法についてはGeorgiadou, Triantafillou and
Economides (2007)によるレビューが詳しいが,大きく
分けると以下の三つおよびこれらを組み合わせたものに 分類することができる。
• 項目選択基準(項目情報量など)に乱数を加える
方法(e.g., Revuelta and Ponsoda, 1998; Segall,
2004)
• 出題候補となるか否かを表すダミー変数を用いる方
法(e.g., Stocking and Lewis, 1995; van der Linden
and Veldkamp, 2004)
• 項目パラメータによる層化を行う方法(e.g., Chang and Ying, 1999; Chang, Jiahe and Ying, 2001)
このように,現在までに数多くの項目選択アルゴリ ズムが提案されており,それらの性能を比較するシ ミュレーション研究もいくつか存在する (e.g., Chen,
Ankenmann and Chang, 2000; Revuelta and
Pon-soda, 1998; 今井・菊地・平村, 2013; Murphy, Dodd
and Vaughn, 2010)。しかし,項目選択アルゴリズム の比較検討を行っている先行研究はいずれも終了条件 に「決められた項目数が出題されたら実施終了」もしく は「推定値の標準誤差などの指標が一定以下になった ら実施終了」のいずれかを設定している。Thissen and Mislevy (2000)にもある通り,テストの実施終了条件と しては上記の2つに加えて「制限時間が経過したら実施 終了」が考えられる。 また先行研究から,項目パラメータと解答時間の間 にある様々な関係が明らかになっている。Wang and Hanson (2005)では,解答にかかる時間を表現する項目 パラメータdjを導入した項目反応モデルにおいて,dj とaj およびbj の間にそれぞれ有意な正の相関が見ら れることを明らかにした。言い換えると,識別力および 困難度が高い項目ほど解答に時間がかかることを意味 している。またvan der Linden (2009)では,解答時間 に関する項目パラメータと項目困難度の間の正の相関 関係を明らかにした複数の研究についてレビューを記 している。また理論的側面からも,Tuerlinckx and De
Boeck (2005)は2パラメータロジスティックモデルと
Diffusion model (Ratcliff, 1978)の関係性から,認知心
理学的タスクにおいては項目識別力が高い項目ほど解答 時間の期待値が⻑くなるという関係性を示している。 このように,解答時間と項目識別力および項目困難度 の間に一定の関係があることは明白である。適応型テス トにおいて,項目数が固定されている場合もしくは推定 値の標準誤差が一定以下になるまで出題を続けるような 場合にはこの関係性は大きな問題にはならないが,制限 時間を設定した場合には受験者の特性値の推定に問題を 及ぼす可能性がある。仮に項目識別力が高い項目ほど解 答にかかる時間が⻑い場合には,(現在一般的によく用 いられる)項目情報量を基準とした項目選択アルゴリズ ムでは識別力が高く解答の所要時間も⻑い項目が優先的 に出題される事となり,結果として受験者一人が解く項 目数が減少し,受験者特性値の推定が不安定になる可能 性も考えられる。以上の点から制限時間のある適応型テ ストにおいては,先行研究で検討されてきた「決められ た項目数で終了」などの終了条件と比較して,特に項目 パラメータと解答にかかる時間に相関関係がある状況下 での受験者特性値の推定精度の結果が異なるものになる 可能性がある。 これらを踏まえ,本研究は代表的な項目選択アルゴリ ズム(一次元・非ベイズ的手法)について,制限時間の ある適応型テストにおいて「特性値の推定精度」および 「項目の出題回数のバランス」の2点から性能を比較検 討するシミュレーション研究を行うことを目的とする。 2. 項目選択アルゴリズム 本節では現在よく用いられている項目選択アルゴリズ ムおよびその発展形・拡張版アルゴリズムについて簡単 なレビューを行う。なお,以下に示すアルゴリズムの名 称の一部はBarrada, Olea, Ponsoda and Abad (2010)
に基づく。また,以後はテストの⻑さが全受験者でQ
に固定されている状況に基づいて各アルゴリズムの説明 を行う。4節ではテストの⻑さが個人ごとに変動する状 況でのシミュレーションを行うが,その際のQの設定 については4.3節に示した。
2.1 Point Fisher Information: PFI (Lord, 1977; Weiss, 1982) 項目選択アルゴリズムの多くは,フィッシャー情報量 を利用したものである。ある受験者iの特性値θi の最 尤推定値 ˆθiの分散は以下の形で表すことができる。 V[ ˆθi|θi] I(θ1 i) (1) ここで,I(θi)は真値θiにおけるフィッシャー情報量で ある。ここから,θiの推定精度を高めるためにはフィッ シャー情報量を最大化すると良いことがわかる。局所 独立の仮定が満たされている限り,真値 θi における フィッシャー情報量は以下のように単純な和で表すこと ができる。 I(θi)
∑
j∈Ji Ij(θi) (2) ここで Ji は受験者iが解答した全ての項目を表す。ま た,Ij(θi)は項目jのθiにおけるフィッシャー情報量で ある。(2)式の性質から,項目反応理論の分野ではIj(θi) を「項目情報量」,I(θi)を「テスト情報量」と呼ぶ。一 般的な2パラメータロジスティックモデルでは,受験者 iが項目 jに正答する確率P(Yij 1|θi)を以下の式で 表現する。 P(Yij1|θi) 1 + exp(−1.7a1 j(θi− bj)) (3) ここでaj,bj はそれぞれ項目識別力および項目困難度を 表す。このとき,真値θi の値に対して項目 jがもつ項 目情報量は以下の式によって計算可能である。 Ij(θi) 1.72a2jpj(θi)(1 − pj(θi)) (4)Ankenmann and Chang, 2000; Revuelta and
Pon-soda, 1998; 今井・菊地・平村, 2013; Murphy, Dodd
and Vaughn, 2010)。しかし,項目選択アルゴリズム の比較検討を行っている先行研究はいずれも終了条件 に「決められた項目数が出題されたら実施終了」もしく は「推定値の標準誤差などの指標が一定以下になった ら実施終了」のいずれかを設定している。Thissen and Mislevy (2000)にもある通り,テストの実施終了条件と しては上記の2つに加えて「制限時間が経過したら実施 終了」が考えられる。 また先行研究から,項目パラメータと解答時間の間 にある様々な関係が明らかになっている。Wang and Hanson (2005)では,解答にかかる時間を表現する項目 パラメータdjを導入した項目反応モデルにおいて,dj とaj およびbj の間にそれぞれ有意な正の相関が見ら れることを明らかにした。言い換えると,識別力および 困難度が高い項目ほど解答に時間がかかることを意味 している。またvan der Linden (2009)では,解答時間 に関する項目パラメータと項目困難度の間の正の相関 関係を明らかにした複数の研究についてレビューを記 している。また理論的側面からも,Tuerlinckx and De
Boeck (2005)は2パラメータロジスティックモデルと
Diffusion model (Ratcliff, 1978)の関係性から,認知心
理学的タスクにおいては項目識別力が高い項目ほど解答 時間の期待値が⻑くなるという関係性を示している。 このように,解答時間と項目識別力および項目困難度 の間に一定の関係があることは明白である。適応型テス トにおいて,項目数が固定されている場合もしくは推定 値の標準誤差が一定以下になるまで出題を続けるような 場合にはこの関係性は大きな問題にはならないが,制限 時間を設定した場合には受験者の特性値の推定に問題を 及ぼす可能性がある。仮に項目識別力が高い項目ほど解 答にかかる時間が⻑い場合には,(現在一般的によく用 いられる)項目情報量を基準とした項目選択アルゴリズ ムでは識別力が高く解答の所要時間も⻑い項目が優先的 に出題される事となり,結果として受験者一人が解く項 目数が減少し,受験者特性値の推定が不安定になる可能 性も考えられる。以上の点から制限時間のある適応型テ ストにおいては,先行研究で検討されてきた「決められ た項目数で終了」などの終了条件と比較して,特に項目 パラメータと解答にかかる時間に相関関係がある状況下 での受験者特性値の推定精度の結果が異なるものになる 可能性がある。 これらを踏まえ,本研究は代表的な項目選択アルゴリ ズム(一次元・非ベイズ的手法)について,制限時間の ある適応型テストにおいて「特性値の推定精度」および 「項目の出題回数のバランス」の2点から性能を比較検 討するシミュレーション研究を行うことを目的とする。 2. 項目選択アルゴリズム 本節では現在よく用いられている項目選択アルゴリズ ムおよびその発展形・拡張版アルゴリズムについて簡単 なレビューを行う。なお,以下に示すアルゴリズムの名 称の一部はBarrada, Olea, Ponsoda and Abad (2010)
に基づく。また,以後はテストの⻑さが全受験者でQ
に固定されている状況に基づいて各アルゴリズムの説明 を行う。4節ではテストの⻑さが個人ごとに変動する状 況でのシミュレーションを行うが,その際のQの設定 については4.3節に示した。
2.1 Point Fisher Information: PFI (Lord, 1977; Weiss, 1982) 項目選択アルゴリズムの多くは,フィッシャー情報量 を利用したものである。ある受験者iの特性値θi の最 尤推定値 ˆθiの分散は以下の形で表すことができる。 V[ ˆθi|θi] I(θ1 i) (1) ここで,I(θi)は真値θiにおけるフィッシャー情報量で ある。ここから,θiの推定精度を高めるためにはフィッ シャー情報量を最大化すると良いことがわかる。局所 独立の仮定が満たされている限り,真値 θi における フィッシャー情報量は以下のように単純な和で表すこと ができる。 I(θi)
∑
j∈Ji Ij(θi) (2) ここで Ji は受験者iが解答した全ての項目を表す。ま た,Ij(θi)は項目jのθiにおけるフィッシャー情報量で ある。(2)式の性質から,項目反応理論の分野ではIj(θi) を「項目情報量」,I(θi)を「テスト情報量」と呼ぶ。一 般的な2パラメータロジスティックモデルでは,受験者 iが項目 j に正答する確率P(Yij 1|θi)を以下の式で 表現する。 P(Yij1|θi) 1 + exp(−1.7a1 j(θi− bj)) (3) ここでaj,bjはそれぞれ項目識別力および項目困難度を 表す。このとき,真値θi の値に対して項目 jがもつ項 目情報量は以下の式によって計算可能である。 Ij(θi) 1.72a2jpj(θi)(1 − pj(θi)) (4) ここでpj(θi)は特性値θi をもつ受験者i が項目 j に 正答する確率である。(2)式よりI(θi)を最大化するた めにはIj(θi)が最大になる項目を順次選択していけば 良く,また(4)式よりそのような項目として項目識別 力ajが高い項目が選択されやすいことも明らかである。 実際には真値θi は不明であるため,適応型テストでは q(q 1, · · · , Q − 1)問目までに解答した時点での推定 値 ˆθiqにおける項目情報量Ij( ˆθiq)を最大化する項目を q + 1問目として出題する。すなわち,以下の式によっ て出題を逐次決定していく。 j arg max k∈Biq Ik( ˆθiq) (5) なおBiqはq問目までの解答が終了した時点で受験者i に出題可能な項目プール内の項目を指す。2.2 Fisher Information Weighted by Likeli-hood: FI-L (Veerkamp and Berger, 1997) PFIでは,各時点において最尤推定値の一点のみを 考慮して項目選択を行っている。(1)式に示された推定 値の分散はあくまでも真値θiにおける値であり,項目 パラメータに真値ではなく推定値を利用する場合およ び解答した項目数が少ない場合には,(1)式に示された 分散は ˆθi の分散の下限となる。また最尤推定値の一点 のみを用いた項目選択では,その時点での推定精度を考 慮することができない。テストの序盤では推定精度が十 分に高くないため,真値と大きく異なる値が推定される 可能性もあるが,解答した項目数の増加に伴い推定精度 は上昇し,漸近的に真値周辺の値に落ち着く。この情報 を考慮して項目選択を行うため,項目情報量を尤度関数 Liq(θ)で重み付けすることを考える。すなわちFI-Lで は以下の式によってq + 1問目を選択する。 j arg max k∈Biq
∫
∞ −∞Ik(θ)Liq(θ)d(θ) (6)なお,本研究ではVeerkamp and Berger (1997)になら い計算の簡略化のため,(6)式および下記(7)式におけ る積分を,θを(−5, 5)間の0.1刻みの各点について値 を計算した総和で代用している。
2.3 Kullback-Leibler Function Weighted by Likelihood: KL-L (Chang and Ying, 1996)
フィッシャー情報量はある一点θiと,非常に近い別 の一点θi+ ∆を区別する能力を表したものである。そ のため,テストの序盤で推定値 ˆθiが真値と大きく異な る場合には,フィッシャー情報量をベースにした方法で は真値周辺における二点を区別する能力を考慮すること ができず,効率的な項目選択を行うことができない。一 方カルバック・ライブラー(KL)情報量は,異なる二点 を区別する能力を確率分布全体について評価したもの であるため,ˆθi が真値と離れている場合でもより適切 な項目選択を行うことが可能である。以上の理由から,
Chang and Ying (1996)はフィッシャー情報量の代わ
りにKL情報量を項目選択基準として考える方法を提案 した。具体的には,KL情報量を尤度関数Liq(θ)で重み 付けした以下の式によってq + 1問目を決定するアルゴ リズムである。 j arg max k∈Biq
∫
∞ −∞KLk(θ|| ˆθiq)Liq(θ)d(θ) (7) ここでKLk(θ|| ˆθiq)は以下のように求められる。 KLk(θ|| ˆθiq) pk( ˆθiq) log[
pk( ˆθiq) pk(θ)]
+[
1 − pk( ˆθiq)]
log[
1 − pk( ˆθiq) 1 − pk(θ)]
(8) 2.4 Progressive Method: PG (Revuelta and Ponsoda, 1998; Barrada, Olea, Ponsoda and Abad, 2008) 1節にも示したように,項目情報量に基づく方法では 項目識別力aj が高い項目ばかりが選択される。ある項 目が出題されるためには,少なくとも項目情報量がθi の何らかの値においてBiq 内のすべての項目の中で最 大である必要がある。ここで項目の出題回数の偏りを抑 制するために,乱数による調整を加えることを考える。 PGでは,PFIをベースとした以下の式によってq + 1 問目の項目を選択する。 j arg max k∈Biq[
(1 − Wq)rk+WqIk( ˆθiq)]
(9) ここでrkはU[0, maxk∈BiqIk( ˆθiq)]に従う一様乱数であ る。またWq は項目情報量が項目選択に及ぼす影響の割合を表す重みである。Revuelta and Ponsoda (1998)
ではWq を,1問目で0,最終項目で1になるように調
整された一次関数としているが,本研究ではBarrada,
Olea, Ponsoda and Abad (2008)による以下の式を用
いる。 Wq
0∑
if q 1 q f 1( f − 1)t∑
Q f 1( f − 1)t if q > 1 (10)ここでtはWqの値が大きくなるスピードを調節する係 数である。θiqの推定が不安定な序盤にはWqは小さな 値をとるため,項目選択はよりランダムに行われる。解 答数が増加するほどθiqの推定は安定し,同時にWqも 徐々に大きくなる。その結果,テスト終盤ではPFIと 同様に項目情報量の大きい項目が選択されるようにな る。(10)式では tが小さいほど中盤でのWq の値が大 きくなる。これは中盤の項目選択に項目情報量が影響す る割合が大きくなることを意味する。従って,tが小さ いほどテスト中盤において情報量の大きい項目が選択 されやすくなり,同時に項目の出題回数のバランスが悪
化する。Barrada, Olea, Ponsoda and Abad (2010)で
は,t 1に設定することで推定精度には大きな影響を 与えることなく出題回数のバランスをある程度改善可能 であるとし,この値を使用している。
2.5 Proportional Method: PP (Segall, 2004; Barrada, Olea, Ponsoda and Abad, 2008)
あるθiの値において項目情報量が最大でなければ項 目が出題されないという問題点を解消するため,PPで は項目選択自体を確率的に行うことを考える。はじめに 各項目が選択される確率P(Sj)について,何らかの関数 Vjを用いて以下のように表す。 P(Sj)
∑
Vj k∈BiqVk (11) Segall (2004)ではVjを「項目jを出題した場合に ˆθiの 分散説明率がどれだけ上昇するか」によって表現してい るが,本研究ではBarrada, Olea, Ponsoda and Abad(2008)によって提案された以下の関数を用いる。 Vj Ij( ˆθiq)Hq (12) ここで,Hqは以下の式によって表される。 Hq
0 if q 1 Q∑
qf 1( f − 1)t∑
Q f 1( f − 1)t if q > 1 (13) Hq が1より小さい場合には項目情報量の差が圧縮され るため,項目選択がよりランダムに近づく。Hq 0の 場合には各項目の選択確率が均一になるため,第1問 は項目プールから完全にランダムに出題されることとな る。テストが進むに連れてHqは単調増加するため,後 半の項目ほど項目情報量の大きい項目が選択される確率 が上昇する。2.6 a-Stratified Multistage: AS (Chang and Ying, 1999) 項目情報量に基づく項目選択では,項目識別力aj の 高い項目に出題が偏る。これを防ぐため,ASではajの 低い項目から高い項目までバランスよく出題することを 考える。ajが高い項目は,困難度bj付近では大きい項 目情報量を持っているが,困難度bjと離れるほど急激 に項目情報量が低下する。そのためθiの推定値が真値 とかけ離れることの多い序盤では,aj が高い項目を選 択することで却って真値付近での項目情報量が低下する 可能性がある。以上より,ASでは序盤にはあえてajの 低い項目を提示し,θi の推定値が理論上真値に近づく テスト後半に向けて徐々にaj の高い項目を出題してい く。具体的には,以下のアルゴリズムで出題項目を決定 する。 1. 項目プール内の全項目をajによって昇順に並べる。 2. 並べ替えられた項目プールをQ個のブロックに分 割する。この段階で,例えば第1ブロックにはaj が最も小さい項目ばかりが含まれ,第Qブロック にはajが最大の項目が含まれる事となる。 3. q(q 1, · · · , Q) 問目は第 q ブロックの中から, |bj− ˆθiq|が最小となる項目を選択する。 なお,AS自体がajによる出題回数の偏りの抑制を目的 としており,また2.の段階で各ブロック内の項目のaj はある程度統制されているため,3.における項目選択で はaj を考慮しない。
2.7 a-Stratified with b-Blocking: ASB (Chang, Jiahe and Ying, 2001)
実際のデータでは,項目パラメータaj,bjが相関を 持つことは珍しくない。仮にaj とbjの間に正の相関が ある場合,ASによる項目選択では,前半のブロックに は易しい項目が多く後半のブロックには難しい項目が多 く配置される事となる。そこで,ASと同様の方法でbj についても層化を行うアルゴリズムを考える。具体的に は,以下の手順で出題項目を決定する。 1. 項目プール内の全項目をまずbj によって昇順に並 べる。 2. 並べ替えられた項目プールをR個の層に分割する。 RはQと同数である必要はない。この段階で,第 1層には易しい項目が集まり,反対に第R層には難 しい項目が集まる。 3. 各層について項目をajによって昇順に並べ,Q個
ここでtはWqの値が大きくなるスピードを調節する係 数である。θiqの推定が不安定な序盤にはWqは小さな 値をとるため,項目選択はよりランダムに行われる。解 答数が増加するほどθiqの推定は安定し,同時にWqも 徐々に大きくなる。その結果,テスト終盤ではPFIと 同様に項目情報量の大きい項目が選択されるようにな る。(10)式では tが小さいほど中盤でのWq の値が大 きくなる。これは中盤の項目選択に項目情報量が影響す る割合が大きくなることを意味する。従って,tが小さ いほどテスト中盤において情報量の大きい項目が選択 されやすくなり,同時に項目の出題回数のバランスが悪
化する。Barrada, Olea, Ponsoda and Abad (2010)で
は,t 1に設定することで推定精度には大きな影響を 与えることなく出題回数のバランスをある程度改善可能 であるとし,この値を使用している。
2.5 Proportional Method: PP (Segall, 2004; Barrada, Olea, Ponsoda and Abad, 2008)
あるθiの値において項目情報量が最大でなければ項 目が出題されないという問題点を解消するため,PPで は項目選択自体を確率的に行うことを考える。はじめに 各項目が選択される確率P(Sj)について,何らかの関数 Vjを用いて以下のように表す。 P(Sj)
∑
Vj k∈BiqVk (11) Segall (2004)ではVjを「項目jを出題した場合に ˆθiの 分散説明率がどれだけ上昇するか」によって表現してい るが,本研究ではBarrada, Olea, Ponsoda and Abad(2008)によって提案された以下の関数を用いる。 Vj Ij( ˆθiq)Hq (12) ここで,Hqは以下の式によって表される。 Hq
0 if q 1 Q∑
qf 1( f − 1)t∑
Q f 1( f − 1)t if q > 1 (13) Hqが1より小さい場合には項目情報量の差が圧縮され るため,項目選択がよりランダムに近づく。Hq 0の 場合には各項目の選択確率が均一になるため,第1問 は項目プールから完全にランダムに出題されることとな る。テストが進むに連れてHqは単調増加するため,後 半の項目ほど項目情報量の大きい項目が選択される確率 が上昇する。2.6 a-Stratified Multistage: AS (Chang and Ying, 1999) 項目情報量に基づく項目選択では,項目識別力aj の 高い項目に出題が偏る。これを防ぐため,ASではajの 低い項目から高い項目までバランスよく出題することを 考える。ajが高い項目は,困難度bj付近では大きい項 目情報量を持っているが,困難度bjと離れるほど急激 に項目情報量が低下する。そのためθi の推定値が真値 とかけ離れることの多い序盤では,aj が高い項目を選 択することで却って真値付近での項目情報量が低下する 可能性がある。以上より,ASでは序盤にはあえてajの 低い項目を提示し,θi の推定値が理論上真値に近づく テスト後半に向けて徐々にaj の高い項目を出題してい く。具体的には,以下のアルゴリズムで出題項目を決定 する。 1. 項目プール内の全項目をajによって昇順に並べる。 2. 並べ替えられた項目プールをQ個のブロックに分 割する。この段階で,例えば第1ブロックにはaj が最も小さい項目ばかりが含まれ,第Qブロック にはajが最大の項目が含まれる事となる。 3. q(q 1, · · · , Q) 問目は第 q ブロックの中から, |bj− ˆθiq|が最小となる項目を選択する。 なお,AS自体がajによる出題回数の偏りの抑制を目的 としており,また2.の段階で各ブロック内の項目のaj はある程度統制されているため,3.における項目選択で はajを考慮しない。
2.7 a-Stratified with b-Blocking: ASB (Chang, Jiahe and Ying, 2001)
実際のデータでは,項目パラメータaj,bjが相関を 持つことは珍しくない。仮にajとbjの間に正の相関が ある場合,ASによる項目選択では,前半のブロックに は易しい項目が多く後半のブロックには難しい項目が多 く配置される事となる。そこで,ASと同様の方法でbj についても層化を行うアルゴリズムを考える。具体的に は,以下の手順で出題項目を決定する。 1. 項目プール内の全項目をまずbjによって昇順に並 べる。 2. 並べ替えられた項目プールをR個の層に分割する。 RはQと同数である必要はない。この段階で,第 1層には易しい項目が集まり,反対に第R層には難 しい項目が集まる。 3. 各層について項目をajによって昇順に並べ,Q個 のブロックに分割する。 4. 各層において第qブロック(q 1, · · · , Q)に配置 された項目をまとめ一つのブロックとする。この 結果,項目プール全体はQ個のブロックに分割さ れる。 5. q問目は第qブロックの中から,|bj− ˆθiq|が最小 となる項目を選択する。 以上の手順をふむことで,各ブロック内にはbj の高い 項目から低い項目までバランスよく含まれ,ajの低い項 目から順に,項目困難度と各時点での ˆθiqが近い項目が 出題されることとなる。aとbが無相関の場合には,理 論上ASBはASと同じ結果になると考えられる。
2.8 Point Fisher Information per Unit Time: PFI-UT (Fan, Wang, Chang and Douglas, 2012)
これまでに紹介したアルゴリズムはいずれも解答にか かる時間を考慮していない。解答時間を考慮した項目選 択アルゴリズムとしては,解答時間の確率分布に基づく
モデル(van der Linden, 2006)を利用したものが有名
である。van der Linden (2006)では特性値θi を持つ
受験者iが項目jに解答する際の解答時間tij の確率密 度が対数正規分布に従うと仮定した。 f (tij|τi, αj, βj) αj tij√2π exp
[
−α 2 j 2 (log tij− βj+τi)2]
(14) ここで,αj, βj はそれぞれ解答時間の分散と平均を表す 項目パラメータ,τiは受験者iが項目に解答する速度に 関する受験者パラメータである。さらに,(3)式などの 通常の項目反応モデルによって推定されるθiと(14)式 によって推定されるτiが以下のように二変量正規分布 に従うとした。(
θi τi)
MVN[(
0 0)
,(
1 Cor(θ, τ) Cor(θ, τ) 1)]
(15) ここでCor(θ, τ)はθ, τ間の相関係数を表す。Fan, Wang, Chang and Douglas (2012)は(14)式を
利用して解答時間の期待値を算出し,項目情報量などの 項目選択基準を補正する方法を提案した。PFIなど単純 に情報量に基づくアルゴリズムでは,特性値推定に最も 寄与する項目が選択される一方で解答時間は全く考慮さ れないが,CATの本来の目的である「短い時間で効率 よく特性値を推定する」の観点から考えると,最も項目 情報量が大きいが解答に⻑い時間がかかる項目よりも, 単位時間あたりの項目情報量が最大である項目が望まし いと言える。 具体的なアルゴリズムの手順では,はじめに受験者i がq問目まで解答した時点におけるτi の推定値 ˆτiqを 以下の式で求める。 ˆτiq
∑
j∈Jiqα2j(βj− log tij)∑
j∈Jiqα2j (16) ここでJiqはq問目までに解答した全項目を表す。この とき,項目 jへの解答時間の期待値E[Tij| ˆτiq]は以下の ように求めることができる。 E[Tij| ˆτiq] exp(
βj− ˆτiq+2α12 j)
(17) これを用いて,PFI-UTでは以下の式に基づき「単位時 間あたりの項目情報量が最大である」項目を選択する。 j arg max k∈Biq Ik( ˆθiq) E[Tij| ˆτiq] (18) 3. 項目の出題回数のバランス 1節で述べたように,特定の項目が多く曝露されるこ とで,将来の受験者が項目を既知の状態で受験できてし まう危険性が高まる。項目の出題回数の指標として,各 項目ごとに算出される“item exposure rate” (ER)と, そのバランスの指標として項目プール全体に対して求められる“average item overlap” (OR; overlap rate)の
二つがある(Way, 1998)。ERは各項目が全受験者のう ち何割に出題されたかを表す。この割合が高いほど当該 の項目が多くの受験者の目に触れるため,結果として将 来の受験者に項目が事前に共有される可能性が高まって しまう。ORは,任意の二人の受験者の間で同じ項目が 出題される割合の期待値として定義される。仮に受験者 数と一人あたりの出題数が同じだとすると,この割合が 高いほど複数の受験者に共通の項目が出題されており, 一方で極端に出題回数の少ない項目が存在していること を表す。
Chen, Ankenmann and Spray (2003)は上述の二つ
の指標の関係から,ORがテストの⻑さQ,項目プール のサイズJおよびERの関数であり,特にJが十分に大 きい場合には以下の式で表される ˆ¯Tによって近似可能 であることを示した。 ˆ¯T JQSER2 + Q J (19)
Q/J は各項目のERの平均値である。また,SER2 は項 目プールのERの分散を表す。この式からORはS2ER が大きいほど高くなること,また最低でもQ/Jになる ということがわかる。前節にて紹介したPG, PP, AS, ASBなどはERの最大値およびORの上昇を抑制する ことを目的として考案されたアルゴリズムである。これ らの方法では必然的に項目情報量が比較的小さい項目が 一定の確率で使用されることになる。テストの⻑さが同 じ場合,項目情報量あるいはKL情報量が最大の項目を 選択した際にθi の推定精度が最大になることは明白で あり,一般的に特性値の推定精度とORはトレードオフ の関係にある。そのため,単純に情報量の大きい項目を 選択するアルゴリズムとORの抑制を目的としたアルゴ リズムを統一的な観点から比較することは難しかった。 これを解決する方法として,Barrada, Olea, Ponsoda
and Abad (2010)は「ERの上限が同じ状況での推定精
度の比較」を行うことを提案した。各アルゴリズムで
ERの上限を様々に変更させながら推定精度を確認する ことで,アルゴリズム間の優劣を確認することが可能と なる。通常はJ, Qが既知の場合アルゴリズムごとにER
も決まった値になるが,Barrada, Olea, Ponsoda and
Abad (2010) では“Item-eligibility Method”(van der
Linden and Veldkamp, 2004)を用いてERの上限を操
作した。 この方法では,まず「項目jが受験者iに出題される 確率」Pij(A)を考える。i − 1番目までの受験が終了し た時点で項目jの出題回数が多い場合,項目の漏洩の危 険性の観点からは,続く受験者iに項目jが出題される よりも,その時点で出題回数が少ない別の項目が出題さ れるのが望ましい。そのため,i − 1番目までの受験が 終了した時点で項目jのERが高い場合には,Pij(A)が 低くなるように補正をかける必要がある。しかし,通常 Pij(A)は項目選択アルゴリズム,項目プール内の全項目 および受験者特性値の分布に依存して決定するため,こ こで項目選択のプロセスを「受験者iがテストを開始す る前に出題候補を決め」「その中から各種アルゴリズム によって実際に出題する項目を選択する」という二段階 に分けることを考える。このときPij(A) Pij(A, E)は 「受験者iへの出題候補に項目jが含まれる確率」Pij(E) および「項目 jが出題候補である時に受験者i に実際 に出題される確率」Pij(A|E)の積で表現することがで きる。Pij(A|E)は項目選択アルゴリズム,出題候補と なった全項目に依存して決定するため,Pij(A)を調整す るためにはPij(E)を操作する必要がある。具体的には Pij(E)を,テスト実施者がERの上限として設定する任 意の値ERmaxを用いて以下のように設定する。 Pij(E) 1 if P1···i−1,j(A)
Pi−1,j(E) ≤ ERmax
ERmaxPPi−1,j(E)
1···i−1,j(A) if
P1···i−1,j(A)
Pi−1,j(E) >ERmax (20) ここでP1···i−1,j(A)はi − 1番目の受験者までに実際に 項目jが出題された割合を表す。受験者iへの出題候補 に項目 jを含むかは,U[0, 1]から一様乱数を発生させ, Pij(E)以下の値となるかどうかで決定する。受験者iの テスト開始前にこの手続きを項目プール内の全項目に 対して繰り返し,出題候補の暫定プールを作成する。そ の後,暫定プールに対して通常通り項目選択アルゴリズ ムを適用し,受験者iへの出題項目を決定する。 Item-eligibility Methodは前節で紹介した各項目選択アルゴ リズムと同時に使用することが可能であるため,これ を用いることで各アルゴリズムにおけるERmaxを統制 することが可能となる。なお,実用上はテスト実施者が テスト設計の様々な状況を鑑みてERmaxの値を任意に 決定することが求められる。例えばEggen (2001)では
SH法(Sympson and Hetter, 1985)におけるERmaxを
様々に操作し,過剰に出題されている項目・全く出題さ れない項目の割合をシミュレーションによって検証した 結果からERmax0.35という値に決定している。また Way (1998)では先行研究のレビューを踏まえ,ハイス テークスなテストではORを0.1 − 0.15程度に抑える べきであるとのガイドラインを示した。後述するシミュ レーションの結果,例えば図9の左上の結果に照らし合 わせると,この状況下でPFIを採用する場合はERmax を0.15 − 0.2程度に設定するとORが0.1 − 0.15程度に なる一方で,PGやPPを採用する際にはERmaxが1 でもORが0.15を上回ることはない。 本研究の目的はERmaxを特定の値に設定した際の各 アルゴリズムの性能を比較・評価することにある。次節
ではItem-eligibility Methodを使用しERmaxを様々な
値に操作するシミュレーション研究を行い,テスト実施 者が項目選択アルゴリズムおよびERmaxを決定する際 の一つの指針を提供する。 項目選択アルゴリズムとは別にORの上限を制御する 方法としては,他にも“Restricted Method”(Revuelta and Ponsoda, 1998)が挙げられる。この方法では,(20) 式の代わりに以下の式を用いて出題候補を決定する。
Q/J は各項目のERの平均値である。また,S2ER は項 目プールのERの分散を表す。この式からORはS2ER が大きいほど高くなること,また最低でもQ/Jになる ということがわかる。前節にて紹介したPG, PP, AS, ASBなどはERの最大値およびORの上昇を抑制する ことを目的として考案されたアルゴリズムである。これ らの方法では必然的に項目情報量が比較的小さい項目が 一定の確率で使用されることになる。テストの⻑さが同 じ場合,項目情報量あるいはKL情報量が最大の項目を 選択した際にθi の推定精度が最大になることは明白で あり,一般的に特性値の推定精度とORはトレードオフ の関係にある。そのため,単純に情報量の大きい項目を 選択するアルゴリズムとORの抑制を目的としたアルゴ リズムを統一的な観点から比較することは難しかった。 これを解決する方法として,Barrada, Olea, Ponsoda
and Abad (2010)は「ERの上限が同じ状況での推定精
度の比較」を行うことを提案した。各アルゴリズムで
ERの上限を様々に変更させながら推定精度を確認する ことで,アルゴリズム間の優劣を確認することが可能と なる。通常はJ, Qが既知の場合アルゴリズムごとにER
も決まった値になるが,Barrada, Olea, Ponsoda and
Abad (2010) では“Item-eligibility Method”(van der
Linden and Veldkamp, 2004)を用いてERの上限を操
作した。 この方法では,まず「項目 jが受験者iに出題される 確率」Pij(A)を考える。i − 1番目までの受験が終了し た時点で項目jの出題回数が多い場合,項目の漏洩の危 険性の観点からは,続く受験者iに項目jが出題される よりも,その時点で出題回数が少ない別の項目が出題さ れるのが望ましい。そのため,i − 1番目までの受験が 終了した時点で項目jのERが高い場合には,Pij(A)が 低くなるように補正をかける必要がある。しかし,通常 Pij(A)は項目選択アルゴリズム,項目プール内の全項目 および受験者特性値の分布に依存して決定するため,こ こで項目選択のプロセスを「受験者iがテストを開始す る前に出題候補を決め」「その中から各種アルゴリズム によって実際に出題する項目を選択する」という二段階 に分けることを考える。このときPij(A) Pij(A, E)は 「受験者iへの出題候補に項目jが含まれる確率」Pij(E) および「項目 jが出題候補である時に受験者i に実際 に出題される確率」Pij(A|E)の積で表現することがで きる。Pij(A|E)は項目選択アルゴリズム,出題候補と なった全項目に依存して決定するため,Pij(A)を調整す るためにはPij(E)を操作する必要がある。具体的には Pij(E)を,テスト実施者がERの上限として設定する任 意の値ERmaxを用いて以下のように設定する。 Pij(E) 1 if P1···i−1,j(A)
Pi−1,j(E) ≤ ERmax
ERmaxPPi−1,j(E)
1···i−1,j(A) if
P1···i−1,j(A)
Pi−1,j(E) >ERmax (20) ここでP1···i−1,j(A)はi − 1番目の受験者までに実際に 項目jが出題された割合を表す。受験者iへの出題候補 に項目 jを含むかは,U[0, 1]から一様乱数を発生させ, Pij(E)以下の値となるかどうかで決定する。受験者iの テスト開始前にこの手続きを項目プール内の全項目に 対して繰り返し,出題候補の暫定プールを作成する。そ の後,暫定プールに対して通常通り項目選択アルゴリズ ムを適用し,受験者iへの出題項目を決定する。 Item-eligibility Methodは前節で紹介した各項目選択アルゴ リズムと同時に使用することが可能であるため,これ を用いることで各アルゴリズムにおけるERmaxを統制 することが可能となる。なお,実用上はテスト実施者が テスト設計の様々な状況を鑑みてERmaxの値を任意に 決定することが求められる。例えばEggen (2001)では
SH法(Sympson and Hetter, 1985)におけるERmaxを
様々に操作し,過剰に出題されている項目・全く出題さ れない項目の割合をシミュレーションによって検証した 結果からERmax0.35という値に決定している。また Way (1998)では先行研究のレビューを踏まえ,ハイス テークスなテストではORを0.1 − 0.15程度に抑える べきであるとのガイドラインを示した。後述するシミュ レーションの結果,例えば図9の左上の結果に照らし合 わせると,この状況下でPFIを採用する場合はERmax を0.15 − 0.2程度に設定するとORが0.1 − 0.15程度に なる一方で,PGやPPを採用する際にはERmaxが1 でもORが0.15を上回ることはない。 本研究の目的はERmaxを特定の値に設定した際の各 アルゴリズムの性能を比較・評価することにある。次節
ではItem-eligibility Methodを使用しERmaxを様々な
値に操作するシミュレーション研究を行い,テスト実施 者が項目選択アルゴリズムおよびERmaxを決定する際 の一つの指針を提供する。 項目選択アルゴリズムとは別にORの上限を制御する 方法としては,他にも“Restricted Method”(Revuelta and Ponsoda, 1998)が挙げられる。この方法では,(20) 式の代わりに以下の式を用いて出題候補を決定する。 表1 シミュレーションの条件。ただし(J, tlimit) (1000, 480)となる条件については実施していない。 条件 水準 説明 N 500 受験者数 J 500, 1000 項目プールのサイズ tlimit 240, 480 制限時間(秒) Cor(a, β) 0, 0.5 aとβの相関 Cor(b, β) 0, 0.5 bとβの相関 Cor(θ, τ) 0.5 θとτの相関 ERv max (23)式で算出された値 ERの上限 Pij(E)
{
1 if P1···i−1,j(A) ≤ ERmax
0 if P1···i−1,j(A) > ERmax (21)
Restricted MethodはItem-eligibility Methodと比べ
てごくわずかに推定精度が高まる一方で,出題候補がそ れ以前の出題割合によって完全に決定される。そのため 一部項目は数人おきに規則的に出題されてしまうことか
ら,Item-eligibility Methodの使用を推奨する研究もあ
る(Barrada, Abad and Veldkamp, 2009)。
4. シミュレーション1)
表1に,本シミュレーション研究の条件設定をまとめ た。なお,基本的なシミュレーションの方法については
Barrada, Olea, Ponsoda and Abad (2010)を踏襲して
いる。
4.1 方法
2節に示したアルゴリズムについて,性能の比較を 行った。なおASの提案者であるChang 本人がその
“refinement” (Chang, Jiahe and Ying, 2001, p. 334)
としてASB を提案していることから,本シミュレー ションからASは除外している。以上七種に加え,比 較対象として「項目プールの中の全項目から完全ラン ダムに選択する(以後Random)」と「その時点での推 定値 ˆθiq と最も近い bj を持つ項目を選択する(以後 Nearest)」を加えた九種のアルゴリズムについて比較を 行う。Nearestは1パラメータモデルにおけるPFIで あると解釈することも可能であり,類似の方法が採用さ れている前例もある(e.g., Dodd, 1990; Owen, 1975)。 具体的なシミュレーションを以下に示す。表1に示した 各条件ごと,および各アルゴリズムごとに以下の手順を 50試行ずつ行い,後に示す性能の評価を行った。 (1) 真値の生成 項目パラメータの真値は以下の分布より乱数発生さ せた。 αj ∼ U[2, 4] aj bj βj ∼ MVN [ µ, Σ] µ ( 1.2 0 3 ) Σ �� � 0.252 0 0.125Cor(a, β) 0 12 0.5Cor(b, β) 0.125Cor(a, β) 0.5Cor(b, β) 0.52 �� � また,受験者パラメータの真値は(15)式の分布より乱数 発生させた。ただし,Cor(θ, τ)はFan, Wang, Chang
and Douglas (2012)より0.5とした。すなわち,特性 値(能力)が高い受験者ほど解答にかかる時間が短い状 況を想定している。 (2) 項目反応データの生成 生成した真値を用いて「各受験者が各項目に解答した 場合に,正答するか誤答するか・解答に何秒かかるか」 というデータを乱数生成した。なお,項目反応データ は(3)式のP(Yij|θi)を正答確率とするベルヌーイ乱数 を,また解答時間データは(14)式による対数正規乱数 を発生させた。なお,解答時間が対数正規分布に従う乱 数によって生成されるため,一定の確率で数百秒という 解答時間が観測される事となる。その結果以降の項目が 出題できず特性値推定が不安定になってしまうため,本 研究では60秒以上の解答時間が発生した場合には「当 該の項目には不正解,解答時間は60秒」というデータ に変換した。図1に,発生したデータにおける解答時間 のヒストグラムを示した。モンテカルロシミュレーショ ンによって算出した解答時間の期待値はおよそ25秒で あった。 (3) 受験者特性値の推定 特性値の推定は以下の手順で行った。 1. i 番目の受験者への出題候補を Item-eligibility Methodによって決定する 2. U[−0.5, 0.5]に従う一様乱数によって初期値 ˆθi0を 決定する 3. 各アルゴリズムに従って出題項目を決定する 4. 最尤法によって推定値 ˆθiqを(PFI-UTではˆτiqも) 計算する 5. q 問目までの合計解答時間が tlimit に達するまで 3–4.を繰り返す
Response Time 0 10 20 30 40 50 60 0.000 0.010 0.020 0.030 図1 シミュレーション研究で使用したデータにおけ る解答時間の分布。60秒以上のデータはすべて60秒 に変換している。 6. 合計解答時間がtlimitに達したら,最終的な推定値 ˆθiを求め,iを1増やし1.に戻る 最尤法では,その時点までの解答がすべて正答ある いは誤答である場合に推定値が発散してしまうため,
Dodd (1990)の提案した方法(Barrada, Olea, Ponsoda
and Abad, 2008, 2010)を使用した。Dodd (1990)で
は,それまでの解答がすべて正答である場合,推定値を
ˆθiq ˆθi,q−1+(bmax− ˆθi,q−1)/2に更新し,全て誤答で
ある場合は ˆθiq ˆθi,q−1− ( ˆθi,q−1− bmin)/2に更新する。
なお,bmax (bmin)はそれぞれ項目プール内の全項目の 中で最も困難度が高い(低い)項目の値である。 4.2 性能の評価指標 1節で述べたように,項目選択アルゴリズムの性能を 評価する指標として,大きく分けると「特性値の推定精 度」と「項目の出題回数のバランス」の二つが挙げられ る。「特性値の推定精度」の指標には,RMSEおよびテ スト情報量を用いる。RMSEは各試行において以下の 式を計算し,これを条件・アルゴリズムごとに平均した ものを用いる。 RMSE
�
�
�
1 N N∑
i1 ( ˆθi− θi)2 (22) また,テスト情報量は,(2)式において真値θiの代わり に最終的な推定値 ˆθi を用いて各受験者ごとに算出した I( ˆθi)の平均を各試行で算出し,これを条件・アルゴリ ズムごとに平均したものを用いた。「項目の出題回数の バランス」にはORを算出する。OR算出時のQは,全 受験者の平均解答数を用いた。これらの指標に加えて, 「解答数の平均」を算出した。 4.3 その他の設定 (1) ERmaxの設定 ER の平均は最低でも Q/J 以上の値を取ることか ら,ERmax はQ/J以上1 以下の範囲で適切な値を設定する必要がある。Barrada, Olea and Abad (2008)
は,ERmax が小さい値の時はわずかな変動が RMSE 等の指標に影響を与える一方で,ERmax が1 に近づ くほど各指標の変動が鈍くなることを示した。この結 果から,彼らはシミュレーションの条件として設定す るERv max(v 1, · · · , V)を以下の式によって決定して いる。 ERv max Q J +
(
1 −Q J) ∑
vf 1( f − 1)2∑
V f 1( f − 1)2 (23) ERv maxはシミュレーション条件として設定される具体的なERmaxの値を表し,必ずER1max<ER2max<· · · <
ERV
max 1となる。Vには任意の数を設定でき,この
値が大きいほどグラフはより細かい点でプロットされる ため精密になる。実用上はV 10程度でグラフの特徴 (位置・傾き・大小関係など)は十分確認できる(Barrada,
Olea and Abad, 2008)ため,本研究でもV 10を用
いた。また(23)式内に登場するQについては,本研究 で想定している制限時間のあるテストでは各受験者が実 際に受けるテストの⻑さが事前には分からないため,適 切な値を設定する必要がある。必要以上にERmaxを抑 制させた場合,制限時間が残った状態で出題可能な項目 が尽きてしまい十分なパフォーマンスを観測できないた め,事前に算出した平均解答時間をもとに多少のゆとり を持たせQ tlimit/20と設定した。 (2) 項目選択アルゴリズムのパラメータ設定 一部の項目選択アルゴリズムにおいてもテストの⻑ さQが式中に登場する。2節で紹介したアルゴリズム はいずれもテストの⻑さが固定の場合を想定して作成さ れているが,本研究ではこれらを可変⻑のテストに適用 する。この場合Qの正確な値は各個人によって異なり, また受験が終了するまで未知であるため,本研究では事 前にそれぞれ以下のように設定した。 • ASBではQ tlimit/20と設定した。Q + 1問目以 降は引き続き第Qブロックから出題していき,第 Qブロックの出題可能項目が無くなった時点で第 Q − 1ブロック,第Q − 2ブロックと戻っていく。
Response Time 0 10 20 30 40 50 60 0.000 0.010 0.020 0.030 図1 シミュレーション研究で使用したデータにおけ る解答時間の分布。60秒以上のデータはすべて60秒 に変換している。 6. 合計解答時間がtlimitに達したら,最終的な推定値 ˆθiを求め,iを1増やし1.に戻る 最尤法では,その時点までの解答がすべて正答ある いは誤答である場合に推定値が発散してしまうため,
Dodd (1990)の提案した方法(Barrada, Olea, Ponsoda
and Abad, 2008, 2010)を使用した。Dodd (1990)で
は,それまでの解答がすべて正答である場合,推定値を
ˆθiq ˆθi,q−1+(bmax− ˆθi,q−1)/2に更新し,全て誤答で
ある場合は ˆθiq ˆθi,q−1− ( ˆθi,q−1− bmin)/2に更新する。
なお,bmax (bmin)はそれぞれ項目プール内の全項目の 中で最も困難度が高い(低い)項目の値である。 4.2 性能の評価指標 1節で述べたように,項目選択アルゴリズムの性能を 評価する指標として,大きく分けると「特性値の推定精 度」と「項目の出題回数のバランス」の二つが挙げられ る。「特性値の推定精度」の指標には,RMSEおよびテ スト情報量を用いる。RMSEは各試行において以下の 式を計算し,これを条件・アルゴリズムごとに平均した ものを用いる。 RMSE
�
�
�
1 N N∑
i1 ( ˆθi− θi)2 (22) また,テスト情報量は,(2)式において真値θiの代わり に最終的な推定値 ˆθi を用いて各受験者ごとに算出した I( ˆθi)の平均を各試行で算出し,これを条件・アルゴリ ズムごとに平均したものを用いた。「項目の出題回数の バランス」にはORを算出する。OR算出時のQは,全 受験者の平均解答数を用いた。これらの指標に加えて, 「解答数の平均」を算出した。 4.3 その他の設定 (1) ERmaxの設定 ER の平均は最低でも Q/J 以上の値を取ることか ら,ERmax はQ/J以上1 以下の範囲で適切な値を設定する必要がある。Barrada, Olea and Abad (2008)
は,ERmax が小さい値の時はわずかな変動が RMSE 等の指標に影響を与える一方で,ERmax が 1に近づ くほど各指標の変動が鈍くなることを示した。この結 果から,彼らはシミュレーションの条件として設定す るERv max(v 1, · · · , V)を以下の式によって決定して いる。 ERv max Q J +
(
1 −Q J) ∑
vf 1( f − 1)2∑
V f 1( f − 1)2 (23) ERv maxはシミュレーション条件として設定される具体的なERmaxの値を表し,必ずER1max<ER2max<· · · <
ERV
max 1となる。Vには任意の数を設定でき,この
値が大きいほどグラフはより細かい点でプロットされる ため精密になる。実用上はV 10程度でグラフの特徴 (位置・傾き・大小関係など)は十分確認できる(Barrada,
Olea and Abad, 2008)ため,本研究でもV 10を用
いた。また(23)式内に登場するQについては,本研究 で想定している制限時間のあるテストでは各受験者が実 際に受けるテストの⻑さが事前には分からないため,適 切な値を設定する必要がある。必要以上にERmaxを抑 制させた場合,制限時間が残った状態で出題可能な項目 が尽きてしまい十分なパフォーマンスを観測できないた め,事前に算出した平均解答時間をもとに多少のゆとり を持たせQ tlimit/20と設定した。 (2) 項目選択アルゴリズムのパラメータ設定 一部の項目選択アルゴリズムにおいてもテストの⻑ さQが式中に登場する。2節で紹介したアルゴリズム はいずれもテストの⻑さが固定の場合を想定して作成さ れているが,本研究ではこれらを可変⻑のテストに適用 する。この場合Qの正確な値は各個人によって異なり, また受験が終了するまで未知であるため,本研究では事 前にそれぞれ以下のように設定した。 • ASBではQ tlimit/20と設定した。Q + 1問目以 降は引き続き第Qブロックから出題していき,第 Qブロックの出題可能項目が無くなった時点で第 Q − 1ブロック,第Q − 2ブロックと戻っていく。 • PGではWqを以下の式で近似した。なお,tq−1は q − 1問目までの解答時間の合計である。この式に よる(10)式の近似の様子を図2に示した。 Wq
(
t q−1 tlimit)
2 (24) • PPではQを便宜的にtlimit/20と設定した。(10) 式と(13)式の間にはHqQWqという関係がある ため,Hqの近似はWqの近似を単純にtlimit/20倍 したものとなり,近似精度も図2に示したものと変 わらない。 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Wq 0 50 100 150 200 0.0 0.2 0.4 0.6 0.8 1.0 tq−1 図2 Wqの近似。曲線はtlimit 240の場合のWq を(24)式によって計算したもの,各点はQ 20の場 合のWq を(10)式によって計算したものである。な お,Hqの近似についてもY軸のスケールを除いては 全く同じ形をとる。 4.4 結果 本節で提示する全ての図は,左列にCor(a, β) 0,右 列にCor(a, β) 0.5となる条件の結果を表示し,上段 にはCor(b, β) 0,下段にはCor(b, β) 0.5となる条 件の結果を表示している。X軸はいずれもERmaxを表 す。また,結果の線種はアルゴリズムの性質の大まかな 分類を表す。情報量のみによって項目が選択される方法 (PFI, FI-L, KL-L)は実線,ORの上昇を抑制する方法 (PG, PP, ASB)は破線,比較対象であるNearestおよ びRandomは点線,解答時間を用いるPFI-UTは一点 鎖線で示した。 (1) RMSE 図3に,条件J 500, tlimit240における各アルゴ リズムのRMSEを示した。Cor(a, β) 0の場合には, ORの上昇を抑制する方法に比べて情報量のみで項目を 選択する方法のほうが僅かに小さい値となった。この結果はBarrada, Olea, Ponsoda and Abad (2010)の結果
と一致する。また,ERmaxが小さくなるほどRMSEが 大きくなっており,推定精度と項目の出題回数間のト レードオフの関係がこの図からも見て取れる。Nearest およびRandomを除くとASBが最も大きい値であっ た。PGおよびPPは確率的方法ではあるものの項目情 報量を利用していることから,ASBと比べると推定精 度が僅かに高くなっている。RMSEに関しては, PFI-UTが本研究で使用した全てのアルゴリズムの中で最 も小さい値を示した。Fan, Wang, Chang and Douglas
(2012)のシミュレーションでは,PFI-UTがPFIと比 べて短い時間で一定のテスト情報量に到達することを示 しており,制限時間を考慮した場合でも同様の結果が得 られることが本シミュレーションによって示された形と なった。 一方でCor(a, β) 0.5の場合には,情報量のみで項 目を選択する方法(実線)の方がRMSEが大きく,さら にERmaxの上昇にしたがって値は大きくなることが示 された。PG, PPおよびPFI-UTも同様にERmaxの上 昇にしたがってRMSEが大きくなった。図4に示した ように,項目プールのサイズが大きくなり出題可能な項 目の自由度が増加するほどこの傾向は強くなるものと見 られる。情報量のみで項目を選択する方法では,出題可 能項目の自由度が増加するほど,項目情報量が多いが解 答にかかる時間が⻑い項目が選択されやすくなるため, 制限時間内の解答項目数が減少することで推定精度が低 下すると考えられる。 全アルゴリズムの中で唯一ASBのみはERmax の値 によらず,またCor(a, β)の値に関わらず安定した値で あった。なお,図5では条件 J 500, tlimit480での 結果をまとめた。制限時間が⻑くなることで出題項目数 が増加した結果,全てのアルゴリズムにおいてRMSE は小さくなった。一方で,アルゴリズム間の優劣関係に は変化は見られなかった。Cor(b, β) 0.5の条件では, Cor(b, β) 0と比べてRMSEは小さくなった。本シ ミュレーションではCor(θ, τ) 0.5と設定したために 生じた結果であると考えられる。 (2) テスト情報量 図6に,条件 J 500, tlimit240における各アルゴ リズムのテスト情報量を示した。Cor(a, β) 0の場合 には情報量のみで項目を選択する方法(実線)が破線で 示した手法と比べて大きい値を示し,更にPFI-UTが最 も大きい値を示した。加えてASBに比べてPGおよび