先行研究との比較

第 6 章新しいアルゴリズムの評価

第4節先行研究との比較

KN-CATのアイテム選択アルゴリズムを本研究の情報量最大化基準MIに置き換えてシミュレーションを行った．理想に近い特性のアイテムバンクg150r5を使ってシミュレーションし，KN-CATのλアルゴリズムをMIに変更するとランク誤差が大きく改善した．さらに受験アイテム数の平均値も約55アイテムから約34アイテムに大幅に減少している．なお，

受験アイテム数の標準偏差はKN-CATが10.9，本研究のアルゴリズムが16.1，KN-CAT をMIに変更したものが9.3アイテムでややばらつきが小さくなった．

能力推定アルゴリズムについては，KN-CATの能力推定アルゴリズムMLを本研究で

提案する WML-LRT アルゴリズムに替えると，理想に近い特性のアイテムバンク g150r5

を使った場合，ランク誤差に 0.01 程度のごくわずかな減少がある．一方，受験アイテム数の平均値は約55 アイテムから約41 アイテムに大幅に減少した．なお，受験アイテム数の標準偏差はKN-CATが10.9，本研究の能力推定アルゴリズムWMLが16.1，KN-CAT の能力推定アルゴリズムMLをWMLに変更したものが17.7アイテムでWMLよりやや大きくなり，MLからの変化は大きくなった．

CATの推定誤差と受験アイテム数の間にはトレードオフがある．終了判定のしきい値を小さくすれば受験アイテム数を増加させ，結果的に推定誤差が減少する．しきい値を大きくして早く終了するように設定すれば，受験アイテム数は減り，推定誤差は増加する．シミュレーションでは，受験アイテム数に上限と下限を設けた．アイテムバンクのアイテムの6分の1を下限とし，25アイテムとした．上限は，アイテムバンクのアイテム数の2分の1の75 アイテムとした．シミュレーションの結果を見るといずれの受験アイテム数の平均値も設定された下限と上限から離れた中間の値になっており，これらの限界値は強い制約にはなっていないと考えられ，それぞれのアルゴリズムが受験アイテム数の制限を大きく受けずに働いていると考えられる．

KN-CATの終了判定アルゴリズムから本研究で提案したSERに変更した場合，ランク

誤差は変化していない．受験アイテム数の平均値の変化が1アイテム以下であることがその要因と考えられる．

(2) 実際のテストの回答データから作成したアイテムバンクの場合

テストを実際に実施する際の参考として「日本語を読むための語彙量テスト」の150アイテムの回答データから作成したアイテムバンクj150r5で上述のシミュレーションと同様の比

較を行った．初期設定は全く同じ結果であったが，項目選択，能力推定，終了判定については，アルゴリズムを差し替えることで上述の結果と異なった変化となった．

図6.5 実際のテストから作ったアイテムバンクj150r5を使ったシミュレーションの結果

(3) まとめ

理想に近い特性のアイテムバンクでKN-CATのアルゴリズムを本研究の項目選択アルゴリズムで置き換えた場合，受験アイテム数の平均値が大幅に減少したにも関わらず，ランク誤差が大幅に減少した．一方，KN-CATの能力推定アルゴリズムMLを本研究のWML で置き換えた場合，ランク誤差はほとんど改善されなかったが，受験アイテム数の平均値のみ大幅に減少した．

現実のテスト「日本語を読むための語彙量テスト」のアイテムバンクでKN-CATのアルゴリズムを本研究の項目選択アルゴリズムで置き換えた場合，受験アイテム数の平均値はほとんど変化がなく，ランク誤差が大幅に減少した．一方，KN-CATの能力推定アルゴリズム MLを本研究のWMLで置き換えた場合，ランク誤差はほとんど改善されず，受験アイテム数の平均値もほとんど変化しなかった．

二つのアイテムバンクで同じ傾向を示したのは，初期設定と項目選択のランク誤差である．したがって，この結果から言えることは，1) 初期設定はテストレット方式でRMPを設定してもRMPを一様分布としても性能に変化はないこと，2) 項目選択のアルゴリズムをMI に変更することでランク誤差が大幅に改善すること，の2点である．

ドキュメント内潜在ランク理論に基づくコンピュータ適応型テストのアルゴリズムに関する研究 (ページ 55-58)

第 6 章 新しいアルゴリズムの評価

第4節 先行研究との比較

(2) 実際のテストの回答データから作成したアイテムバンクの場合

(3) まとめ

第 6 章新しいアルゴリズムの評価

第4節先行研究との比較