• 検索結果がありません。

LRT-CAT を使った実テストによるアイテムバンクの検証

II. 実践編

8. CAT 開発フレームワーク第4段階での実践的研究

8.2. LRT-CAT を使った実テストによるアイテムバンクの検証

図46 終了項目数とRMP真値平均

しかし,CATを実装するのに常に理想的なアイテムバンクを維持することは極めて困難である.

現状でのアイテムバンクの弱点とCATによる能力推定の限界を把握した上で,現段階のアイテム バンクでCATを実装するとしたら,何項目実施すればよいかを探ることが現実的であると考える.

今回のシミュレーションの結果から,IRP指標β=2である項目が現アイテムバンクの弱点であり,

Rˆ=2の受験者の能力推定に限界があることがわかるので,それ以外のランクの受験者について,

何項目実施すればよいかを検討することにした.

シミュレーションデータからRˆ=2のものを除いて集計しなおすと,終了項目数28までで,約

90%が終了条件を満たしていることがわかる(図47参照).

図47 Rˆ =2以外の終了項目数

8.2.1. LRT-CATの実施条件

前節で述べたシミュレーションの結果から,現在のアイテムバンクでLRT-CATを実施した場合,

潜在ランクが2の能力の受験者を測定するには,IRP指標β=2である項目が不足しているため,他 の潜在ランクの受験者より精度が低いことが分かった.しかし,それ以外の潜在ランクの受験生 に対しては,28項目で約90%の受験者のRMPの変動がほぼ収束する(μ<0.05)ことがわかったの で,終了条件を「m=28」として実施することとした.

8.2.2. LRT-CATの受験協力者と実施手順

大学1年生180人が英語授業の課題の一部として,今回のLRT-CATを受験した.テストはMoodle

(Ver. 1.9)上で行われた.第3章で述べたLRT-CATアルゴリズムをMoodle上で実施するエンジン は,Moodle上でLRT-CATを実装するモジュール(秋山・木村・荘島, 2011)で行った.前節で述 べたシミュレーションも,同モジュールの一部の機能を使って行われた.

学生は決められた期間内の好きな時間に,指定のMoodleにアクセスし,テストを1回だけ受験 した(2回以上受けられない設定にした).学生に対して,このテストはコンピュータが出題する 問題の難易度を調整するCATであり,受験する者によって異なる問題が出題されること,異なる 問題を解いても結果は統計的に調整され公平に評価されること,特に時間制限は設けないが必ず 最後の問題まで解答することなどが事前に教場で説明された.

解答開始時刻と終了時刻を記録し,どのくらい時間をかけてテストに取り組んだか分かるよう にした.各受験者にアイテムバンクのどの問題がどのような順番で出題されたか,それぞれの問 題に正解したかどうかも記録された.また,全問解答後には,画面にRMPを提示した.RMPを どのように解釈したらよいかについても,事前に授業内で説明を行った.

8.2.3. LRT-CATの結果

LRT-CATで28問すべてに解答した180人のうち,所要時間が短すぎる5分未満の4人と,長すぎ る50分以上の16人のデータを分析から除外した.160人分の受験結果をRˆごとに見ると,Rˆ=5が

49人(31%)で一番多く,Rˆ=3,Rˆ=1,Rˆ=4,Rˆ=2の順で,Rˆ=2が16人(10%)で一番少ない

(図48参照).このRˆの分布は,図43に示したシミュレーションで真値として利用した第3次事 前テストの受験協力者1575人のRTの分布によく似ている.両集団は異なる年度だが,いずれも大 学1年生であり,複数の同じ大学の同じ専攻の学生であることから,十分納得できる.

RMPの推定がどの程度収束していたかについて,最終μの値をみると,約74%が0.05未満に収

まっているが,残りの25%は0.05以上であり,最大は0.14で,0.10以上のケースは約4%あった(図 49参照).

図48 受験結果:Rˆ別人数

図49 μの分布

Rˆ別に整理しなおすと,0.10以上のケースはRˆ=2(3件)とRˆ=3(3件)の場合にだけ見られ た.これは,先に述べたように,現在のアイテムバンクにRˆ=2の能力の受験者を測定する項目

(IRP指標β=2である項目)が不足しているためだと考えられる(図50参照).この潜在ランク が2の受験者を測定する項目(IRP指標β=2である項目)が不足している影響は,隣接する潜在 ランクが3の受験者にも表れているように思われる.μが0.05未満にならないケースは,Rˆ=5 は1件(2%),Rˆ=1とRˆ=4は6件(21%と23%)であるのに対して,Rˆ=2とRˆ=3でそれぞれ 13件(81%)と16件(40%)と多くなっている.

実テストの結果からも,前節のシミュレーションによる分析結果と同様,現在のアイテムバン クの状況では,R2レベルの能力を効率よく判定できないことが分かった.その主な原因はIRP指 標βが2の項目がアイテムバンクに少ないことであり,このレベルの困難度の項目をアイテムバン クに追加すべきであることが示唆される.

29

16 40

26 49

0 10 20 30 40 50 60

1 2 3 4 5

頻度

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 10 20 30 40

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15

頻度

μ

図50 潜在ランク別最終μ