LRT-CAT を使った実テストによるアイテムバンクの検証 - CAT 開発フレームワーク第４段階での実践的研究

II. 実践編

8. CAT 開発フレームワーク第４段階での実践的研究

8.2. LRT-CAT を使った実テストによるアイテムバンクの検証

図46 終了項目数とRMP真値平均

しかし，CATを実装するのに常に理想的なアイテムバンクを維持することは極めて困難である．

現状でのアイテムバンクの弱点とCATによる能力推定の限界を把握した上で，現段階のアイテムバンクでCATを実装するとしたら，何項目実施すればよいかを探ることが現実的であると考える．

今回のシミュレーションの結果から，IRP指標β=2である項目が現アイテムバンクの弱点であり，

Rˆ=2の受験者の能力推定に限界があることがわかるので，それ以外のランクの受験者について，

何項目実施すればよいかを検討することにした．

シミュレーションデータから_R^ˆ=2のものを除いて集計しなおすと，終了項目数28までで，約

90%が終了条件を満たしていることがわかる（図47参照）．

図47 Rˆ =2以外の終了項目数

8.2.1. LRT-CATの実施条件

前節で述べたシミュレーションの結果から，現在のアイテムバンクでLRT-CATを実施した場合，

潜在ランクが2の能力の受験者を測定するには，IRP指標β=2である項目が不足しているため，他の潜在ランクの受験者より精度が低いことが分かった．しかし，それ以外の潜在ランクの受験生に対しては，28項目で約90％の受験者のRMPの変動がほぼ収束する（μ<0.05）ことがわかったので，終了条件を「ｍ=28」として実施することとした．

8.2.2. LRT-CATの受験協力者と実施手順

大学1年生180人が英語授業の課題の一部として，今回のLRT-CATを受験した．テストはMoodle

（Ver. 1.9）上で行われた．第3章で述べたLRT-CATアルゴリズムをMoodle上で実施するエンジンは，Moodle上でLRT-CATを実装するモジュール（秋山・木村・荘島, 2011）で行った．前節で述べたシミュレーションも，同モジュールの一部の機能を使って行われた．

学生は決められた期間内の好きな時間に，指定のMoodleにアクセスし，テストを1回だけ受験した（2回以上受けられない設定にした）．学生に対して，このテストはコンピュータが出題する問題の難易度を調整するCATであり，受験する者によって異なる問題が出題されること，異なる問題を解いても結果は統計的に調整され公平に評価されること，特に時間制限は設けないが必ず最後の問題まで解答することなどが事前に教場で説明された．

解答開始時刻と終了時刻を記録し，どのくらい時間をかけてテストに取り組んだか分かるようにした．各受験者にアイテムバンクのどの問題がどのような順番で出題されたか，それぞれの問題に正解したかどうかも記録された．また，全問解答後には，画面にRMPを提示した．RMPをどのように解釈したらよいかについても，事前に授業内で説明を行った．

8.2.3. LRT-CATの結果

LRT-CATで28問すべてに解答した180人のうち，所要時間が短すぎる5分未満の4人と，長すぎる50分以上の16人のデータを分析から除外した．160人分の受験結果を_Rˆごとに見ると，_Rˆ=5が

49人（31%）で一番多く，_Rˆ=3，_Rˆ=1，_Rˆ=4，_Rˆ=2の順で，_Rˆ=2が16人（10%）で一番少ない

（図48参照）．この_Rˆの分布は，図43に示したシミュレーションで真値として利用した第3次事前テストの受験協力者1575人のR_Tの分布によく似ている．両集団は異なる年度だが，いずれも大学1年生であり，複数の同じ大学の同じ専攻の学生であることから，十分納得できる．

RMPの推定がどの程度収束していたかについて，最終μの値をみると，約74%が0.05未満に収

まっているが，残りの25%は0.05以上であり，最大は0.14で，0.10以上のケースは約4%あった（図 49参照）．

図48 受験結果：_R^ˆ別人数

図49 μの分布

Rˆ別に整理しなおすと，0.10以上のケースは_R^ˆ=2（3件）と_R^ˆ=3（3件）の場合にだけ見られた．これは，先に述べたように，現在のアイテムバンクに_R^ˆ=2の能力の受験者を測定する項目

（IRP指標β=2である項目）が不足しているためだと考えられる（図50参照）．この潜在ランクが2の受験者を測定する項目（IRP指標β=2である項目）が不足している影響は，隣接する潜在ランクが3の受験者にも表れているように思われる．μが0.05未満にならないケースは，_R^ˆ=5 は1件（2%），_R^ˆ=1と_R^ˆ=4は6件（21%と23%）であるのに対して，_R^ˆ=2と_R^ˆ=3でそれぞれ 13件（81%）と16件（40%）と多くなっている．

実テストの結果からも，前節のシミュレーションによる分析結果と同様，現在のアイテムバンクの状況では，R2レベルの能力を効率よく判定できないことが分かった．その主な原因はIRP指標βが2の項目がアイテムバンクに少ないことであり，このレベルの困難度の項目をアイテムバンクに追加すべきであることが示唆される．

16 40

26 49

0 10 20 30 40 50 60

1 2 3 4 5

頻度

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 10 20 30 40

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15

頻度

図50 潜在ランク別最終μ

ドキュメント内潜在ランク理論を用いたコンピュータ適応型テスト (ページ 88-91)