• 検索結果がありません。

潜在ランク理論に基づく コンピュータ適応型テスト

第1節 はじめに

本章では,潜在ランク理論(Latent Rank Theory, LRT; Shojima, 2007a)に基づくコ ンピュータ適応型テスト(Computerized Adaptive Test, CAT)のアルゴリズムについて,

シミュレーションによって評価され,実地においても試行された唯一の先行研究である木 村・永岡(2012)のCAT(以降,KN-CATと呼ぶ)について説明する.

KN-CATで用いられているアイテムバンクは,日本実用英語検定協会の2007年第1

回から2008年第1回までの4回分の準1級から3級の文法語彙問題のうち,多肢選択形 式の問題を選んで使用している.そのアイテムを3次にわたって予備テストを行い,受験し

た延べ2,867人の受験データを分析し,ラッシュモデルの適合度指標を用いて取捨選択さ

れた263アイテムで構築されている.

第2節 初期設定

KN-CATの初期設定は,受験者の能力の初期値をテストレットによって設定している.

能力ランクの中央の5つのランクについて,アイテム指標βがランクに等しいアイテムの中 からランダムにアイテムを選択し,5アイテムのテストレットを構成している.受験者のRMP の初期値はこのテストレットを受験させて得た推定値を設定する.

このアルゴリズムは,1) 中央の5つのランクからテストレット用に選択されるアイテムはア βが選択するランクに等しいものが先に選ばれるので,CAT

スに使うために温存しておきたい識別力の高いアイテムがテストレットに使われてしまう可 能性があること,2) それらのアイテムの露出度がほかのアイテムより高くなる可能性がある こと,3) テストレットに使用されるアイテムには,アイテム選択アルゴリズムが適用されず,ラ ンダムに選択されるため,テストレット方式を採用しない場合より効率が悪くなる可能性があ ること,などの懸念がある.

木村ほか(2012)は「実際の能力が初期能力推定値からずれていた場合,その後の項目 選択と能力推定が不適切に行われてしまうことが attenuation paradox(Load & Nivick,

1968)として知られている.この点を考慮して,LRT-CATの場合,最初の出題は1問では

なく,潜在ランクの中央付近の問題を複数問出題するテストレット形式とすることを提案す る.」と述べているが,潜在ランク理論に基づくCATにおいてattenuation paradoxが確 認されているわけではない.特に,小規模なアイテムバンクの場合は経験的にモデルのラ ンク数が小さく,attenuation paradoxは確認できないのではないかと考える.

第3節 アイテム選択

木村ほか(2012)は,熊谷(2010)のIRP指標の項目識別力aを拡張し,アイテムjの識 別力をランク尺度の全域にわたって表すλijを導入した.このλijは,

(4.1) と定義されている.ここでIRPjqは候補のアイテムjのIRPベクトル,RMPiqは推定中の 受験者のRMPベクトルである.式4.1は,IRPの差分の項が同じなのでまとめると,

(4.2)

となる.λijは,IRP ベクトルの隣り合う要素,つまりランクの正答確率の差を識別力とみなし,

隣り合うRMPベクトルの要素の算術平均をそれに重みとしてかけたものQ-1個の和をその アイテムの受験者能力における識別力とするものであると解釈できる.

λijを用いるアイテム選択アルゴリズム(以後,λアルゴリズムと呼ぶ)について木村ほか

(2012)は,「アイテムバンクに蓄えられた項目数が多くなると,計算負荷がサーバーにか かり過ぎるので,本研究ではIRP指標βが受験者iの暫定の潜在ランクの推定値±1の項 目に限定してλの値を計算し,その中で最小となる項目を選択する」としているが,乗算回 数は1アイテムあたりQ-1回であり,計算量は非常に少ない.一方,小規模なアイテムバン クの場合,βによって選択するアイテムを絞り込むと未出題アイテムリストにアイテムが残っ ているにも関わらず,出題できるアイテムがなくなり途中でテストを終了する事態になりかね ない.

木村ほか(2012)のλの定義の不便な点は,RMPベクトルやIRPベクトルがQ個の要 素を持つのに対し,λをベクトルの要素の和としてみた場合,そのベクトルはQ-1個の要素 しかないことである.もし,Q個の要素があれば,能力ランクRiの受験者iに対するアイテム jの識別力を求めることも可能であり,それを使ったアイテム選択アルゴリズムが成り立つは ずである.

また,λアルゴリズムについて木村ほか(2012)は「これは項目応答理論の項目選択ルー ルについて論じているVan der Linden(1998)の中に出てくる Maximum Expected Posterior Weighted Information という方法に相当すると考えられる」と述べているが,

選択候補のアイテムについて正答した場合,誤答した場合のテスト情報量を重みとして使う

Lindenのアルゴリズムとは異なる.

第4節 能力推定

KN-CATの能力推定アルゴリズムについて木村ほか(2012)は,CATの能力推定法に

ついて具体的に述べていない.ただし,初期テストレットの能力推定には,最尤推定法

(Maximum Likelihood estimation, ML; Shojima, 2007)の記述が引用されている.

一方,シミュレーション条件として「(3) 推定方法:SOM」と記しているので,木村ほかの誤 解があると思われる.KN-CATでは,本論文の著者が実装した潜在ランク理論版最尤推定 法(Maximum Likelihood estimation LRT version, ML-LRT)を採用していることは事 実であり,その詳細については第2章第4節で既に述べた.(式2.9から式2.12までを参 照)

第5節 終了判定

KN-CATの終了判定アルゴリズムは,RMPの変化と受験アイテム数の二つを条件とし

て使用している.潜在ランク理論に基づくCATの場合,能力の推定過程ではRMPのある ランクの正答率が増加し,最終的には1に近づくので,その変化の値が予め設定した閾値 より小さくなったとき終了と判定する.図4.1にその様子を示す.受験者が1アイテムずつ回 答するごとに暫定推定値であるRMPが変化し,6アイテム以降徐々に能力ランク3の確率 が高くなって1.0に近づいているのが分かる.

図4.1 潜在ランク理論に基づくCATの能力推定過程におけるRMPの変化の例

k-1アイテム目に推定したRMPとkアイテム目に推定したRMPの差ベクトルの要素の うち,絶対値が最も大きい値をμq(k)とし,これが0.05未満になり,かつ,指定アイテム数受 験したとき終了する.しきい値μq(k)は,

(4.3)

で与えられる.これはシミュレーションで使用された終了条件で,実際のテストでは,上記 の条件で実施したシミュレーションの結果に基づいて,最大受験アイテム数と最小受験アイ テム数を設定し,受験アイテム数のみを終了判定に使用している.

第6節 おわりに

KN-CATは,シミュレーションで性能を評価した上で実地のテストに使用された最初のも

のである.木村ほか(2012)で報告されたシミュレーションの結果では,推定された能力ラン クが真値と一致したケースは59.2%,真値±1と1ランク外れて推定されたケースが36.4%

と報告されている.推定された約4割の受験者の能力ランクが1以上ずれているという結果 である.

関連したドキュメント