潜在ランク理論に基づくコンピュータ適応型テスト

第1節はじめに

本章では，潜在ランク理論（Latent Rank Theory, LRT; Shojima, 2007a）に基づくコンピュータ適応型テスト（Computerized Adaptive Test, CAT）のアルゴリズムについて，

シミュレーションによって評価され，実地においても試行された唯一の先行研究である木村・永岡（2012）のCAT（以降，KN-CATと呼ぶ）について説明する．

KN-CATで用いられているアイテムバンクは，日本実用英語検定協会の2007年第1

回から2008年第1回までの4回分の準1級から3級の文法語彙問題のうち，多肢選択形式の問題を選んで使用している．そのアイテムを3次にわたって予備テストを行い，受験し

た延べ2,867人の受験データを分析し，ラッシュモデルの適合度指標を用いて取捨選択さ

れた263アイテムで構築されている．

第2節初期設定

KN-CATの初期設定は，受験者の能力の初期値をテストレットによって設定している．

能力ランクの中央の5つのランクについて，アイテム指標βがランクに等しいアイテムの中からランダムにアイテムを選択し，5アイテムのテストレットを構成している．受験者のRMP の初期値はこのテストレットを受験させて得た推定値を設定する．

このアルゴリズムは，1) 中央の5つのランクからテストレット用に選択されるアイテムはア βが選択するランクに等しいものが先に選ばれるので，CAT

スに使うために温存しておきたい識別力の高いアイテムがテストレットに使われてしまう可能性があること，2) それらのアイテムの露出度がほかのアイテムより高くなる可能性があること，3) テストレットに使用されるアイテムには，アイテム選択アルゴリズムが適用されず，ランダムに選択されるため，テストレット方式を採用しない場合より効率が悪くなる可能性があること，などの懸念がある．

木村ほか（2012）は「実際の能力が初期能力推定値からずれていた場合，その後の項目選択と能力推定が不適切に行われてしまうことが attenuation paradox（Load & Nivick,

1968）として知られている．この点を考慮して，LRT-CATの場合，最初の出題は1問では

なく，潜在ランクの中央付近の問題を複数問出題するテストレット形式とすることを提案する．」と述べているが，潜在ランク理論に基づくCATにおいてattenuation paradoxが確認されているわけではない．特に，小規模なアイテムバンクの場合は経験的にモデルのランク数が小さく，attenuation paradoxは確認できないのではないかと考える．

第3節アイテム選択

木村ほか（2012）は，熊谷（2010）のIRP指標の項目識別力aを拡張し，アイテムjの識別力をランク尺度の全域にわたって表すλijを導入した．このλijは，

(4.1) と定義されている．ここでIRPjqは候補のアイテムjのIRPベクトル，RMPiqは推定中の受験者のRMPベクトルである．式4.1は，IRPの差分の項が同じなのでまとめると，

(4.2)

となる．λijは，IRP ベクトルの隣り合う要素，つまりランクの正答確率の差を識別力とみなし，

隣り合うRMPベクトルの要素の算術平均をそれに重みとしてかけたものQ-1個の和をそのアイテムの受験者能力における識別力とするものであると解釈できる．

λijを用いるアイテム選択アルゴリズム（以後，λアルゴリズムと呼ぶ）について木村ほか

（2012）は，「アイテムバンクに蓄えられた項目数が多くなると，計算負荷がサーバーにかかり過ぎるので，本研究ではIRP指標βが受験者iの暫定の潜在ランクの推定値±1の項目に限定してλの値を計算し，その中で最小となる項目を選択する」としているが，乗算回数は1アイテムあたりQ-1回であり，計算量は非常に少ない．一方，小規模なアイテムバンクの場合，βによって選択するアイテムを絞り込むと未出題アイテムリストにアイテムが残っているにも関わらず，出題できるアイテムがなくなり途中でテストを終了する事態になりかねない．

木村ほか(2012)のλの定義の不便な点は，RMPベクトルやIRPベクトルがQ個の要素を持つのに対し，λをベクトルの要素の和としてみた場合，そのベクトルはQ-1個の要素しかないことである．もし，Q個の要素があれば，能力ランクRiの受験者iに対するアイテム jの識別力を求めることも可能であり，それを使ったアイテム選択アルゴリズムが成り立つはずである．

また，λアルゴリズムについて木村ほか（2012）は「これは項目応答理論の項目選択ルールについて論じているVan der Linden（1998）の中に出てくる Maximum Expected Posterior Weighted Information という方法に相当すると考えられる」と述べているが，

選択候補のアイテムについて正答した場合，誤答した場合のテスト情報量を重みとして使う

Lindenのアルゴリズムとは異なる．

第4節能力推定

KN-CATの能力推定アルゴリズムについて木村ほか（2012）は，CATの能力推定法に

ついて具体的に述べていない．ただし，初期テストレットの能力推定には，最尤推定法

（Maximum Likelihood estimation， ML; Shojima, 2007）の記述が引用されている．

一方，シミュレーション条件として「(3) 推定方法：SOM」と記しているので，木村ほかの誤解があると思われる．KN-CATでは，本論文の著者が実装した潜在ランク理論版最尤推定法（Maximum Likelihood estimation LRT version, ML-LRT）を採用していることは事実であり，その詳細については第2章第4節で既に述べた．（式2.9から式2.12までを参照）

第5節終了判定

KN-CATの終了判定アルゴリズムは，RMPの変化と受験アイテム数の二つを条件とし

て使用している．潜在ランク理論に基づくCATの場合，能力の推定過程ではRMPのあるランクの正答率が増加し，最終的には1に近づくので，その変化の値が予め設定した閾値より小さくなったとき終了と判定する．図4.1にその様子を示す．受験者が1アイテムずつ回答するごとに暫定推定値であるRMPが変化し，6アイテム以降徐々に能力ランク3の確率が高くなって1.0に近づいているのが分かる．

図4.1 潜在ランク理論に基づくCATの能力推定過程におけるRMPの変化の例

k-1アイテム目に推定したRMPとkアイテム目に推定したRMPの差ベクトルの要素のうち，絶対値が最も大きい値をμq(k)とし，これが0.05未満になり，かつ，指定アイテム数受験したとき終了する．しきい値μq(k)は，

(4.3)

で与えられる．これはシミュレーションで使用された終了条件で，実際のテストでは，上記の条件で実施したシミュレーションの結果に基づいて，最大受験アイテム数と最小受験アイテム数を設定し，受験アイテム数のみを終了判定に使用している．

第6節おわりに

KN-CATは，シミュレーションで性能を評価した上で実地のテストに使用された最初のも

のである．木村ほか(2012)で報告されたシミュレーションの結果では，推定された能力ランクが真値と一致したケースは59.2%，真値±1と1ランク外れて推定されたケースが36.4%

と報告されている．推定された約4割の受験者の能力ランクが1以上ずれているという結果である．

ドキュメント内潜在ランク理論に基づくコンピュータ適応型テストのアルゴリズムに関する研究 (ページ 33-38)

潜在ランク理論に基づく コンピュータ適応型テスト

第1節 はじめに

第2節 初期設定

第3節 アイテム選択

第4節 能力推定

第5節 終了判定

第6節 おわりに