• 検索結果がありません。

第 6 章 新しいアルゴリズムの評価

第4節 先行研究との比較

KN-CATのアイテム選択アルゴリズムを本研究の情報量最大化基準MIに置き換えて シミュレーションを行った.理想に近い特性のアイテムバンクg150r5を使ってシミュレーシ ョンし,KN-CATのλアルゴリズムをMIに変更するとランク誤差が大きく改善した.さらに 受験アイテム数の平均値も約55アイテムから約34アイテムに大幅に減少している.なお,

受験アイテム数の標準偏差はKN-CATが10.9,本研究のアルゴリズムが16.1,KN-CAT をMIに変更したものが9.3アイテムでややばらつきが小さくなった.

能力推定アルゴリズムについては,KN-CATの能力推定アルゴリズムMLを本研究で

提案する WML-LRT アルゴリズムに替えると,理想に近い特性のアイテムバンク g150r5

を使った場合,ランク誤差に 0.01 程度のごくわずかな減少がある.一方,受験アイテム数 の平均値は約55 アイテムから約41 アイテムに大幅に減少した.なお,受験アイテム数の 標準偏差はKN-CATが10.9,本研究の能力推定アルゴリズムWMLが16.1,KN-CAT の能力推定アルゴリズムMLをWMLに変更したものが17.7アイテムでWMLよりやや 大きくなり,MLからの変化は大きくなった.

CATの推定誤差と受験アイテム数の間にはトレードオフがある.終了判定のしきい値を 小さくすれば受験アイテム数を増加させ,結果的に推定誤差が減少する.しきい値を大きく して早く終了するように設定すれば,受験アイテム数は減り,推定誤差は増加する.シミュ レーションでは,受験アイテム数に上限と下限を設けた.アイテムバンクのアイテムの6分 の1を下限とし,25アイテムとした.上限は,アイテムバンクのアイテム数の2分の1の75 アイテムとした.シミュレーションの結果を見るといずれの受験アイテム数の平均値も設定さ れた下限と上限から離れた中間の値になっており,これらの限界値は強い制約にはなって いないと考えられ,それぞれのアルゴリズムが受験アイテム数の制限を大きく受けずに働 いていると考えられる.

KN-CATの終了判定アルゴリズムから本研究で提案したSERに変更した場合,ランク

誤差は変化していない.受験アイテム数の平均値の変化が1アイテム以下であることがそ の要因と考えられる.

(2) 実際のテストの回答データから作成したアイテムバンクの場合

テストを実際に実施する際の参考として「日本語を読むための語彙量テスト」の150アイ テムの回答データから作成したアイテムバンクj150r5で上述のシミュレーションと同様の比

較を行った.初期設定は全く同じ結果であったが,項目選択,能力推定,終了判定につい ては,アルゴリズムを差し替えることで上述の結果と異なった変化となった.

図6.5 実際のテストから作ったアイテムバンクj150r5を使ったシミュレーションの結果

(3) まとめ

理想に近い特性のアイテムバンクでKN-CATのアルゴリズムを本研究の項目選択アル ゴリズムで置き換えた場合,受験アイテム数の平均値が大幅に減少したにも関わらず,ラン ク誤差が大幅に減少した.一方,KN-CATの能力推定アルゴリズムMLを本研究のWML で置き換えた場合,ランク誤差はほとんど改善されなかったが,受験アイテム数の平均値の み大幅に減少した.

現実のテスト「日本語を読むための語彙量テスト」のアイテムバンクでKN-CATのアルゴ リズムを本研究の項目選択アルゴリズムで置き換えた場合,受験アイテム数の平均値はほ とんど変化がなく,ランク誤差が大幅に減少した.一方,KN-CATの能力推定アルゴリズム MLを本研究のWMLで置き換えた場合,ランク誤差はほとんど改善されず,受験アイテム 数の平均値もほとんど変化しなかった.

二つのアイテムバンクで同じ傾向を示したのは,初期設定と項目選択のランク誤差であ る.したがって,この結果から言えることは,1) 初期設定はテストレット方式でRMPを設定 してもRMPを一様分布としても性能に変化はないこと,2) 項目選択のアルゴリズムをMI に変更することでランク誤差が大幅に改善すること,の2点である.

関連したドキュメント