潜在ランク理論に基づくコンピュータ適応型テストのアルゴリズムに関する研究

(1)

潜在ランク理論に基づくコンピュータ適応型テスト

のアルゴリズムに関する研究

著者

秋山實

学位授与機関

Tohoku University

学位授与番号

11301甲第15963号

URL

http://hdl.handle.net/10097/57685

(2)

博士学位論文

潜在ランク理論に基づく

コンピュータ適応型テストの

アルゴリズムに関する研究

秋山實

平成 25 年度

東北大学

(3)

Abstract

There is a desire to significantly reduce the time of testing without compromising the accuracy of the test. One solution is to employ computerized adaptive testing. If we administer computerized adaptive testing using whole items of conventional tests as an item bank, the accuracy will be the same as that obtained by a conventional test under the condition that the number of attempted items is less than half. Computerized adaptive testing requires an item bank, and this can be obtained by analyzing the answer data of a test based on a test theory. Most computerized adaptive test systems are based on item response theory. However, item response theory cannot be applied to small sample size data. Therefore, I focused on latent rank theory, which can estimate the parameters of small sample size data.

This study proposes algorithms of computerized adaptive testing based on the latent rank theory and verifies its validity. The target performance of the algorithms, using the item bank of 50 or fewer items in size, is the number of answered items to be less than 50% of the item bank and 10% or less of error.

In the latent rank theory, the measure of the ability of the examinees is an ordinal scale of a discrete value called the rank (hereinafter referred to as a rank scale). A rank membership profile is a vector representing the probability distribution of ability of examinees in the rank scale. In addition, an item reference profile is an item characteristic vector corresponding to the item characteristic curve in the item response theory. Computerized adaptive testing consists of initial setting, item selection, ability estimation, and termination condition.

(4)

In this study, I applied the algorithms of computerized adaptive testing based on the item response theory to the algorithms of that based on the latent rank theory. The statistic, which is the key in the algorithms of computerized adaptive testing based on the item response theory, is item information.

Therefore, I initially defined information in the latent rank theory, corresponding to that in the item response theory. In the item response theory, item information for two-parameter logistic model is Ij(θi) = aj2pijqij,

where aj is the slope of the item characteristic curve in θi. In the case of

the latent rank theory, item reference profile corresponds to item characteristic curve of the item response theory. However, because the scale of the latent rank theory is ordinal, it is not possible to obtain the difference. Therefore, I defined the discrimination power by the difference between the correct answer probabilities of rank adjacent to the examinee ability rank of the item reference profile. I defined Ij (Ri) = δRi,j2pijqij for the

item information using this definition of discrimination power. In addition, there was an assumption of additivity in the item response theory; the test information is defined as Itest = ΣIj(Ri). I proposed new algorithms for three

components of computerized adaptive testing using these definitions.

In this paper, I have proposed a maximum information criterion for item selection, weighted maximum likelihood estimation method for ability estimation, and standard error reduction criterion for the termination condition. Computerized adaptive testing based on the latent rank theory, which is constituted by proposed algorithms, was evaluated by means of Monte Carlo simulation. Simulation results indicated that the estimation error rate was 6.5% (in the case of rank 5 for 150 items) and 6.4% (in the case of rank 3 for 50 items). Moreover, in the case of rank 2, using item

(5)

bank with item numbers 20, 30, 40, and 50 showed that the number of answered items was below 50%, and the estimation error rate was below 10%.

(6)

第1 章序論 1 第1 節研究の背景 1 第2 節問題の所在と研究の目的 2 第3 節本論文の構成 3 第2 章潜在ランク理論 5 第1 節はじめに 5 第2 節潜在ランク理論のモデル 6 第3 節アイテムに関する特性パラメータの推定 9 第4 節受験者能力に関する特性パラメータの推定 11 第5 節モデル適合度指標 14 第6 節小さいサンプルサイズの場合のモデル適合度 15 第7 節おわりに 16 第3 章項目応答理論に基づくコンピュータ適応型テスト 18 第1 節はじめに 18 第2 節初期設定 20 第3 節アイテム選択 20 第4 節能力推定 21 第5 節終了判定 24 第6 節おわりに 25 第4 章潜在ランク理論に基づくコンピュータ適応型テスト 26 第1 節はじめに 26 第2 節初期設定 26 第3 節アイテム選択 27 第4 節能力推定 28 第5 節終了判定 29

(7)

第6 節おわりに 30 第5 章新しいアルゴリズムの提案 31 第1 節はじめに 31 第2 節正答確率 32 第3 節識別力ベクトルの定義 32 第4 節情報量の定義 33 第5 節アイテム選択 33 第6 節能力推定 34 第7 節終了判定 36 第8 節おわりに 37 第6 章新しいアルゴリズムの評価 38 第1 節はじめに 38 第2 節シミュレーションの方法 39 第3 節使用する回答データ 41 第4 節先行研究との比較 48 第5 節提案アルゴリズムの評価 51 第6 節おわりに 58 第6 章結論 60 参考文献 62 謝辞 64

(8)

第 1 章序論

第1節研究の背景

近年，ｅラーニングが普及し，多くのｅラーニングのソフトウェアはオンラインテスト，いわゆるCBT（Computer Based Testing）の機能を持っており，比較的手軽にオンラインテストができるようになってきた．CBT の長所は，１）自動採点ができ，採点に手間と時間がかからないこと，２）受験者はテストを受験した直後にその結果を知ることができること，３）テストアイテム（以下，単にアイテムという）を再利用することでテストの準備が省力化できること，４）マルチメディアを使い，「紙と鉛筆」による従来のテストでは実現できなかった聴解スキルを測るアイテムなどを実現できること，などがあげられる．このように CBT は，従来の「紙と鉛筆」によるテストに比べ多くの長所を有している．しかし，CBT も「紙と鉛筆」による従来のテストも全員が同じ問題を解くことには変わりはなく，メディアと配信方法の技術は進歩したがテストの本質的な部分では大きな進歩はない．ｅラーニングの普及と歩調を合わせて，インストラクショナル・デザイン（Instructional Design, ID）の概念やアプローチが普及してきている．ID に則ったコース設計をする場合，コースを教授項目の依存関係で構造化し，教授項目ごとにモジュール化する．このモジュールには，１）学習を始める前にその学習モジュールの内容を既に学習しているか否か確認するテストを設け，学習していれば，そのモジュールをスキップする，２）学習モジュールの学習が終わった後にその学習モジュールの内容を習得できているか確認するテストを設け，学習できていなければ，学習をやり直しさせる，ことでステップバイステップの学習を実現する．このような確認テストは学習モジュールの学習項目を網羅したテストアイテムで構成される．テストの信頼度を確保するためにはテストアイテムを増やす必要がある．しかし，

(9)

学習モジュールの学習時間に比べ，このようなテストに割ける時間は多くないので，テストアイテムを省かざるを得ない場合もあり，学習者が学習を進めていくうちに学習上のつまずきが生じてしまうという望ましくない結果を招くことになりかねない．一般的にも教育の過程で学習者の理解度を測りながら教授活動を進めていくことは行われているが，その手段としてテストは古くから行われており，今後も無くなることはないであろうし，テストを短時間で実施したいという要求は存在し続けると思われる．このような「短時間で，かつ，ある程度の信頼度でテストを実施したい」という要求に応えうる有力な解決策の一つとしてコンピュータ適応型テスト（Computerized Adaptive Test， CAT）がある．CAT は，リニアテスト（受験者全員に同じ問題を解かせる従来型のテスト）に比べ，半分以下の問題数でリニアテストと同程度の精度で能力を測定できるといわれている．しかし，CAT を実施するにはあらかじめアイテムの特性パラメータを推定しておく必要がある．そのようなアイテム群をアイテムバンクと呼ぶ．アイテムバンクを構築するには，あらかじめ，能力を測定する受験者とは別の受験者にテストを受験させ，その結果を分析してアイテムの特性パラメータを推定する．この時，適用するテスト理論・モデルに応じた，特性パラメータを推定するために必要十分な数の受験者に受験させることが必要である．

第2節問題の所在と研究の目的

現在，多くのCAT は項目応答理論（Item Response Theory）に基づいている．特性パラメータを推定するために必要なサンプルサイズは，1 パラメータロジスティックモデルで 20 問・200 名程度，2 パラメータロジスティックモデルで 30 問・600 人程度，3 パラメータロジスティックモデルで30問・2,000名程度と言われている．このような予備テスト（または，それに代わる過去のテスト）の回答データを得るためには時間とコストがかかるため，ある程度の規模で行うテストを除き，手軽に CAT を実施することは難しい状況にある．また，このような大きさのサンプルが得られない場合，テスト理論のモデルへの適合度が十分に得られず，たとえ特性パラメータが推定できたとしても，CAT を適切に機能させるために必要なアイテムバンクを構成することはできない． CATは，項目応答理論に基づくものに限定されているわけではなく，受験者の回答とア

(10)

イテムの特性パラメータから受験者の能力を推定することができれば，どのようなテスト理論に基づくものであっても実現することができる．潜在ランク理論（Latent Rank Theory，潜在ランク理論; Shojima，2007a）は，潜在変数に離散値の順序尺度（以降，ランク尺度と呼ぶ）を仮定するノンパラメトリックなテスト理論である．この潜在ランク理論の特長の一つは，サンプルサイズが小さくても特性パラメータの推定ができることである（秋山,2012）．このことから，「短時間である程度の精度でテストを実施したい」という要求が実現できる可能性がある．本研究の目的は，従来のテストをそのまま CAT のアイテムバンクにしてテストを実施するというシナリオを前提にして，「アイテム数50 以下のテストの結果を使ってパラメータを推定し，構築したアイテムバンクで誤差 10%以下，受験アイテム数が元のテストの 50%以下の実用的な性能を実現できる潜在ランク理論に基づくコンピュータ適応型テストのアルゴリズムを提案し，その有効性を検証する」ことである．なお，本研究では潜在ランク理論の二値モデルを対象とする．以降はすべて二値モデルについて述べている．

第3節本論文の構成

最後に，本論文の構成を示す．第2 章では，本研究で採用する新しいテスト理論である潜在ランク理論の基礎的事項について述べるとともに，その特長の一つである小さいサンプルサイズでもパラメータを推定できることを実際の受験データを分析した結果によって示す．第3 章では，現在主流となっている項目応答理論に基づく CAT のアルゴリズムを第 4 章以降の導入として説明する．第4 章では，潜在ランク理論に基づく CAT の先行研究を紹介する．第5 章では，潜在ランク理論に基づく CAT の新しいアルゴリズムを項目応答理論に基づくCAT のアルゴリズムの考え方を潜在ランク理論において適用するため，新しいアイテム指標を提案し，これを使用してアイテム情報量，テスト情報量を定義し，アイテム選択，能力推定，終了判定の3 つのアルゴリズムを新たに提案する．第 6 章では，先行研究のアルゴリズムと提案したアルゴリズムの比較を構成要素毎にシミュレーションによって行い，評価する．また，アイテム数が10 から 50，ランク数が 2 から 5 のアイテムバンク 40 種類それ

(11)

ぞれについて，終了条件の受験アイテム数を変えながらシミュレーションを行い，本研究で提案したアルゴリズムによるCAT の推定誤差が基準を満たす範囲を明らかにする．第 6 章では，本論文について総括する．

(12)

第 2 章潜在ランク理論

第1節はじめに

潜在ランク理論（Shojima, 2007a）は，新しいテスト理論である．受験者の能力を潜在ランクという離散値の順序尺度（以後，ランク尺度と呼ぶ）で表すことから潜在ランク理論と名付けられているが，提案された当初は，ニューラルテスト理論（Neural Test Theory, NTT）と名付けられた．特性パラメータを推定する際に自己組織化マップ（Self-Organizing Map, SOM; Kohonen, 1995）や生成ポトグラフィックマッピング（Generative topographic Mapping, GTM; Bishop，Svensen and Williams, 1998）というニューラルネットワークの一種のメカニズムを利用していたことに由来している．本章では，潜在ランク理論の概要，モデル，特性パラメータの推定について述べ，特長の一つである小さいサンプルサイズでも特性パラメータの推定ができることを「日本語を読むための語彙量テスト」（松下，2012）の回答データをEXAMETRIKA（Shojima, 2012）で分析することにより示す（秋山,2013）．

(13)

第2節潜在ランク理論のモデル

潜在ランク理論のモデルは，潜在変数に一次元の順序変数を仮定したノンパラメトリックなモデルである．したがって，数学的な表現によってモデルを与えることはできない．項目応答理論におけるモデルは，例えば，2 パラメータロジスティックモデルでは，能力 θiの受験者i がアイテム j を受験したときの正答確率Pj(θi)として， (2.1) で与えられる．ここで，aj，bjはアイテムjの識別力パラメータと項目困難度パラメータであり，Dはロジスティック関数で累積正規分布関数を近似する際の誤差補正用の定数である．潜在ランク理論のモデルは，ノンパラメトリックなモデルであり，数式で定義されるわけではないが，項目応答理論のモデルのようにある受験者があるアイテムを受験したときの正答確率によってモデルを与えるとしたら， (2.2) と表すことができる．ここで IRPj Riはアイテム j の特性を示すアイテム参照プロファイル

（Item Reference Profile, IRP）ベクトルの受験者 i の能力ランクRiに相当する要素である．

IRP ベクトルは Q 次元のベクトルである．Q はモデルのランク数であり，2 から 20 程度の範囲で目的やモデル適合度によって選択する．

能力ランクRiは，受験者の能力確率分布の中で最も高い確率となるランクであり，ランク

メンバーシッププロファイル（Rank Membership Profile, RMP）の最大の要素である． RMP は，モデルのランク数 Q と同じ次元のベクトルである．RMP を横軸に能力ランク，縦軸に確率をとって棒グラフで図示したのが図 2.1 である．基本的には単峰性の形状をしているが，受験者の能力特性によっては双峰性のグラフになる場合もある．RMP ベクトルの各要素の和は1 である．また，図 2.1 の場合，能力ランクは 2 である． IRPjの各要素はその対応するランクの能力を持つ受験者がこのアイテムを受験した場合の正答確率を表している．横軸に能力ランク，縦軸に正答確率をとって棒グラフで表した

(14)

のが図2.2 である．基本的には単調増加する形状をしている．ただし，横軸の能力ランクは順序尺度であり，ランクの間隔は不定である．項目応答理論の項目応答曲線（Item Characteristic Curve, ICC）は，ある能力 θ を持つ受験者がこのアイテムを受験した場合の正答確率を表しているのに対して，潜在ランク理論のIRP ベクトルは，ある能力ランク R を持つ受験者がこの項目を受験した場合の正答確率を表している．項目応答理論の ICC に対して項目特性ベクトル（Item Characteristic Vector, ICV）と考えることができる．

なお，式(2.2)は，潜在ランク理論のモデルを与えるものではなく，SOM や GTM のメカニズムを用いてIRP ベクトルを推定した後に結果として得られるものである．

(15)

図2.2 IRP の例：「日本語を読むための語彙量テスト」のアイテム I051 潜在ランク理論のアイテムの特性については，IRP 指標が項目応答理論の項目困難度や識別力，当て推量を表す特性パラメータに対応する指標として項目難易度，項目識別度，項目単調度が提案されている（熊谷，2007）．IRP 指標の例として某大学の英語語彙・語句テストのアイテムI154 の場合を図 2.3 に示す．項目識別度α は，隣接するランクで最も正答確率の差 a が大きいときの小さい方のランクであり，図2.3 では 4 である．a は 0.124 である．項目難易度β は，正答率が初めて基準値を超えるランクである．ただし，ランクが 1 や Q の場合0.5 未満でも β は 1，Q とする．図 2.3 では β は 5 である．その時の正答確率を b とする．項目応答理論ではICC において正答確率が 0.5 の時の θ の値を項目困難度 b としていることから，潜在ランク理論でもこの基準値を0.5 とするのが一般的である．図 2.3 では b は 0.488 である．項目単調度γ は，隣り合うランクのペアで正答率の差がマイナスになる割合であり，この例では2 / 4 = 0.5 である．減少部分の総和を c としている．この場合，c = 0.050 + 0.014 = 0.064 である．これらのアイテム指標の中で識別力と困難度を表す指標は潜在ランク理論に基づく CAT のアルゴリズムで使う統計量の候補として考えられるが，予備的なシミュレーションの結果では良い結果を示さなかったので，本研究では後述する新たな指標を提案する．

(16)

図2.3 IRP 指標の例：某大学の英語語彙・語句テストのアイテム I154

第3節アイテム特性パラメータの推定

潜在ランク理論の特性パラメータは，SOM や GTM のメカニズムを利用して推定することは先に述べた．荘島（植野・荘島，2010）は，SOM はサンプルデータが 1,000 程度以下の場合，GTM はそれ以上の場合に適用すると目安を示している．本研究では，小さなサンプルデータを扱うので SOM のメカニズムを使ってアイテムの特性パラメータを教師なし学習をさせることにより推定する．その手順を以下に述べる（植野・荘島, 2010）．受験者i の（i = 1,…,N）のアイテム j（j=1,…,n）に対する回答ベクトルをｕij とする．本研究では2 値モデルを扱っているので，正答の場合 1，誤答の場合は 0 である．SOM には入力層と競合層があり，SOM の競合層の出力は Q 個ある．Q は潜在ランク理論のモデルのランク数である．入力層はn 個のアイテムに対応して n 個の入力がある．全ての入力層は競合層に結合されるので，それを結ぶノードを考える．このノードはn 行×Q 列のマトリクスを構成するので，ランク参照マトリクス（Rank Reference Matrix, RRM）と呼び，V={vjq}

で表す．以下，SOM に受験者数 N の入力ベクトルuijをT 回繰り返し学習させることでV

の推定値を得る手順を示す．V(t,h)_は第_{t 番目の繰り返しの h 番目のデータを入力すること}

(17)

T ≧ N # 学習を N 回以上繰り返す FOR k = 1 TO n DO #V を初期化 FOR q = 1 TO Q DO Vkq(1,0) = q / (Q + 1) ENDFOR ENDFOR FOR t = 1 TO T DO # 教師なし学習 U(t-1)_{を受験者（行ベクトル）でランダムに並び替える} IF t > 1 DO U(t)_をU(t-1)_{で置換える} FOR h = 1 TO N DO uh(t)の勝者ランクRw(t,h)を選択する V(t,h) = V(t,h-1)₊₁_n_h(t) (u_h(t)_1’_Q – V(t,h-1)₎ ENDFOR ENDFOR (2.3) のようになる．（# 以降行端まではコメントである）ここで，勝者ランクは， (2.4) であり，uh(t)に最も近いランクを選択する．d(t,h,q)は，最小二乗距離 dLS(t,h,q)，最尤距離 dML(t,h,q)，最大事後距離dMAP(t,h,q)などがあり， (2.5) (2.6) (2.7) と定義されている． h(t)_{は近傍関数と呼ばれる関数で，}

(18)

(2.8) と定義されている．ここで，1n は長さ n の単位列ベクトル，1’Q は長さ Q の単位行ベクトルである．h(t)_{は勝者ランクとの距離に関する単調減少関数で，その減少する度合いは距離} が増加するほど大きくなる．このようにして得られた V マトリクスの行ベクトルが IRP ベクトルである．

第4節受験者能力に関する特性パラメータの推定

潜在ランク理論においてアイテムの特性パラメータが既知のテストの回答から受験者の能力を推定する方法としては，最尤推定法（Maximum Likelihood method， ML; 荘島， 2007b）と MAP（Maximum expectation A Preori; 荘島，2008）が提案されている．これを著者がプログラムとして実装したものを紹介する． ML 法で受験者の能力ランクを推定するには，以下のように求める．テストを構成するアイテムのIRP の各要素を vjq（j=0…n，q=1,…,Q），受験者 i の能力ランクを Ri，受験者i のアイテム j,…,n に対する回答の正誤を uij，とし，各ランクで uijが発生する確率（尤度）は， (2.9) である．尤度を最大にするw が受験者の能力ランクであるから， (2.10) として求まる．なお，RMP ベクトルについては，RMP ベクトルの各要素は各ランクの尤度と全体の尤度の比で求めることができるので，

(19)

(2.11) となる． ML 推定のアルゴリズムを疑似コードで表すと， LH_max = 0.0 w = 1 FOR q TO Q DO LH = 1.0 FOR j TO n DO IF uij == 0 THEN DO LH = LH * (1 - vqj) ELSE DO LH = LH * vqj ENDIF ENDFOR IF LH > LH_max THEN DO LH_max = LH w = q ENDIF ENDFOR RETURN w (2.12) となる．また，MAP 法については，受験者能力の事後分布の最大を求めることにより能力ランクを推定するが，ベイズの定理により，事後分布は，尤度に受験者の能力ランクの事前分布を重み付けとして得られるので，ML 法の式 2.9 に事前分布p(q)を乗じた，

(20)

(2.13) で与えられる．事前分布が一様分布であれば，ML 法と同じ結果を得る．事前分布は潜在ランク理論の場合，RMP ベクトルで与えられるので，前回推定値RMPi(n-1)を使えば， (2.14) となる．尤度を最大にするw が受験者の能力ランクであるから， (2.15) で求めることができる．なお，RMP ベクトルについては，その各要素は， (2.16) で得られる．疑似コードでアルゴリズムを示すと， LH_max = 0.0 w = 1 FOR q TO Q DO LH = 1.0 FOR j TO n DO IF uij == 0 THEN DO LH = LH * (1 - vqj) * RMPq(n-1) ELSE DO LH = LH * vqj * RMPq(n-1) ENDIF IF LH > LH_max THEN DO LH_max = LH (2.17)

(21)

w = q ENDIF ENDFOR RETURN w となる．ここでRMP(n-1)_{は前回推定値である．}

第5節モデル適合度指標

前節で述べたように潜在ランク理論の特性パラメータは，EXMETRIKA を用いて SOM のメカニズムで推定することができる．推定されたパラメータがどの程度モデルに適合しているかを検査する必要がある．十分なモデル適合度が得られなかった場合，潜在ランク理論に基づくCAT が正しく受験者の能力を推定できない可能性があるからである．適切な適合度指標が得られない場合，１）個々のアイテムや受験者のモデル適合度指標をみて適合度の悪いアイテムや受験者を除外する，２）ランク数を減す，などして適切なモデル適合度が得られるようにする必要がある．現時点では，潜在ランク理論のモデル適合度の指標は，潜在ランク理論に最適化した，あるいは，広く認知された指標はなく，構造方程式モデリング（Structural Equating Modeling, SEM）のモデル適合度指標（豊田，2008）を用いている．EXAMETRIKAでは，Χ2_{値，自由度Fおよびp値，それらを基に様々な補正を加えたSEMの枠組みの適合}

度指標である標準適合度指標（Normed Fit Index, NFI），相対度適合指標（Relative Fit Index, RNI），増分適合度指標（Increment Fit Index, IFI），タッカー・ルイス指標（Tucker-Lewis Index, TLI），比較適合度指標（Comparative Fix Index, CFI），近似誤差平均平方根（Root Mean Square Error of Approximation, RMSEA）,赤池情報量基準（Akaike Information Criterion, AIC），調整赤池情報量基準（Consistent Akaike Information Criterion, CAIC），ベイズ情報量基準（Bayes Information Criterion, BIC）を算出している（図2.4参照）．これらのモデル適合度指標のうち，NFIとRFIは，本研究の対象である小さいサンプルサイズのテストデータに関しては，経験的にランク数やサンプルサイズの変化に最も敏感に変化する指標である．潜在ランク理論モデルに関してはそ

(22)

れぞれ同じ傾向を示すので，以降はRFIを使用する．RFIは, RFI = 1 － F / Fi (2.18) で定義され，値が大きければ大きいほどモデル適合が良いとされている．Fは目的のモデルの自由度，Fiは独立モデルの自由度である．本研究では，回答データの分析の経験から，適合度は0.7以上であれば良好としている．図2.4 EXAMETRIKA で算出されるモデル適合度指標：EXAMETRIKA5.3 に添付されているEXAMPLE1 を分析した結果

第6節小さいサンプルサイズのモデル適合度

項目応答理論に比べて潜在ランク理論が優位な点は，小さいサンプルサイズのデータであっても，モデルのランク数を小さくすることによって，特性パラメータを推定できる点である．その理由は，潜在ランク理論が項目応答理論よりモデルの制約が少ないこと，ランク数を小さくすることで推定するパラメータが減ること，などが考えられる．項目応答理論では，受験者の能力分布が正規分布に従うという制約があるが，潜在ランク理論のモデルでは，個々のアイテムが独立であるという制約だけである．本節では，小さいサンプルサイズのデータであっても特性パラメータを推定できることを実データにより検証した手順と結果を示す（秋山，2013）．最初に，「日本語を読むための語彙量テスト」（松下, 2012）の 182 名のデータからランダムに160 名，80 名，40 名の受験者を抽出した．次に，それぞれのサンプルデータのサ

(23)

ブセット（150 アイテム－160 名，150 アイテム－80 名，150 アイテム－40 名）から 100 アイテム，50 アイテムを抽出して 9 通りの回答データを作成した．「日本語を読むための語彙量テスト」は，使用頻度順に1,000 語毎に 15 グループに分け 10 アイテムずつ，15,000 語までの150 アイテムで構成されているので，グループ毎にランダムに抽出することで，回答データの特性への影響をできるだけ少なくするよう配慮した．次に，EXAMETRIKAで分析可能なすべてのランク（ランク数2から20まで）について，上記の9 通りの回答データを分析した．その結果，RFI が 0.7 以上のランクは，図 2.5 に示すように広い範囲であった．「日本語を読むための語彙量テスト」の各アイテムは良い特性を持ったアイテムが多く，このような結果が得られたと考えられるので，この結果は上限に近いと考えた方が良いと思われる．モデル適合が良いのはどの範囲かという問いに対して一般的な回答は今のところない．この結果は一例に過ぎないが，大まかな傾向を知ることができる．図2.5 ランク数とモデル適合度指標 RFI

第7節おわりに

本章では，本論文の基礎である潜在ランク理論について，その尺度が離散値の順序尺度であること，特性パラメータはモデルのランク数と同じ次元を持つベクトルとして表される

(24)

こと，IRP は項目応答理論の ICC に相当するアイテム特性ベクトルであること，RMP は受験者の能力確率分布ベクトルとみることができること，などを述べた．その特長の一つであるサンプルサイズが小さい場合であっても特性パラメータを適切に推定できることを示した．

(25)

第 3 章項目応答理論に基づく

コンピュータ適応型テスト

第1節はじめに

本章では，コンピュータ適応型テスト（Computerized Adaptive Test，CAT）について述べる．CAT は，コンピュータテスト（Computer Based Test, CBT）の特徴に加え，1) 個々の受験者の能力を推定しながら，次に出題するアイテムを受験者の能力を推定するのに適したアイテムを選択して出題するため，受験するアイテム数がリニアテストに比べて大幅に少ない，2) 個々の受験者の能力や受験行動が異なるので，出題するアイテムも異なり，チーティングが行われにくい，3) 出題するアイテムを選択する過程でアイテムを使用する頻度を制限することができる，などの特長がある一方で，1) 測定したい範囲をカバーする十分な数のアイテムが必要である，2) 「紙と鉛筆」があれば実施できる従来のテストに比べ，ネットワークに接続されたパソコン，タブレットやスマートフォンなどの機器がなくては実施できないという面も持っている．

本章では，主流となっている項目応答理論（Item Response Theory）に基づく CAT について，その代表的なアルゴリズムを例に用いて紹介する．

CAT のフローチャートを図 3.1 に示す．この図には，初期設定，アイテム選択，能力推定，終了判定の4 つの CAT 特有の処理が示されている．その他に CBT と共通の処理として問題を提示する「出題」と受験者の回答を受け取って採点する「採点」の部分がある．

(26)

図3.1 CAT のフローチャートフローチャートに従って，CAT の動きを説明する． 1) CAT を受験開始すると，まず，「初期設定」で初期能力値や必要ならアイテムの制約をかけるなどしてアイテムバンクから使用可能なアイテムを未出題アイテムリストにセットし，回答リストをクリアする 2) 次に「アイテム選択」では，「初期設定」で設定された初期の能力値，または，「能力推定」で推定された暫定的な推定値を基に，未出題アイテムリストから，何らかの統計値を最大化，あるいは，最小化するようなアイテムを選択し，未出題アイテムリストから選択したアイテムを削除する 3) 選択されたアイテムが「出題」され，受験者の回答が「採点」される．この部分は CBT と共通の部分である 4) 「能力推定」では，回答リストに最新の回答の採点結果とアイテム ID を追加し，既回答のアイテムの特性値とそれに対する正誤パターンを用いて最尤推定法等のアルゴリズムで受験者の能力値を推定する 5) 「終了判定」では，最新の能力推定値や前回の推定値，標準誤差やその変化値

(27)

などを調べて，能力推定プロセスを終了させるかどうかを判定する 6) 終了と判定されなければ 2) に戻って 5) までの処理を繰り返す以上のCAT の能力推定プロセスは，アルゴリズムの基礎としてどのようなテスト理論を採用するかには依存しない．

第2節初期設定

初期設定は，CAT を受験開始した時点では，受験者の能力がわからない場合が多いので，以下のようなアルゴリズムで設定する場合が多い． (ア) 一律に固定値，例えば，最も頻度が高い能力値である θ = 0.0 とする． (イ) 最初に出題するアイテムがどの受験者でも同じになるのを避けるため，ある範囲（例えば-0.5 から+0.5 までの範囲）でランダムに θ を設定する． (ウ) 能力測定の範囲をカバーする数問の固定アイテム（初期テストレット）を出題し，得られた推定値を初期値として用いる．初期テストレットを使う場合は，テストレットとCAT の 2 段階方式とも見えるが，テストレットで初期値を推定して能力の初期値を設定するという意味では，テストレットの部分は初期設定の範疇とみることができる．テストレットは効率が悪い面もあるが，アイテムの内容のバランスをとる場合には有効な手段である．

第3節アイテム選択

アイテム選択は，CAT の構成要素の中でも CAT の性能を左右する部分である．能力を推定する過程で，推定中の暫定的な受験者能力を基に，真値に近い能力値を推定するよう次に出題するアイテムを選択する．真値に収束せず何らかの極値に収束する場合もあり，どのような統計量に着目するかが重要である．アイテム情報量を最大化する，暫定推定能力値におけるテスト情報量を最大化する，能力確率分布の事後期待値を最大化する，など様々なものが提案され，利用されている．項目応答理論に基づくCAT のアイテム選択アルゴリズムの一例として，情報量最大化基準（Maximum Information criteria，MI）がある．もっともポピュラーなアルゴリズムで，

(28)

多くのCAT で使用されている．このアルゴリズムは，受験者能力 θiの暫定推定値における

アイテムの情報量Ij(θi)，

(3.1)

が最大になるようなアイテムを次に出題すべきアイテムとして選択する（2 パラメータロジスティックモデルの場合）．

van der Linden(1998)は，選択候補のアイテム j を受験者がそれに正答した場合と誤答した場合のそれぞれの場合に推定される能力値における情報量で重み付けした事後期待値が最も大きいアイテムikを未出題リストRkから選択するアルゴリズム，情報量重み付け

事後期待値最大化基準（Maximum Expected Posterior Weighted Information criterion, MEPWI）を提案した．選択されるアイテム ikは， (3.2) で示される．このアルゴリズムは，MI に比べるとアイテム選択の処理の中で能力推定を 1 アイテムあたり2 回行っており，未出題アイテムが多い受験直後やアイテムバンクを構成するアイテム数が多い場合などでは格段に計算量が多く，特に受験者が多い場合にはCAT システムのレスポンスが悪くなると思われる．

第4節能力推定

能力推定は，CAT 推定精度を左右する部分である．能力推定アルゴリズムは，既に出題したアイテムの特性とそれらのアイテムに対する回答の採点結果を用いて受験者の能力を推定する．第 2 章ではリニアテストの場合について，潜在ランク理論の ML 推定法， MAP 推定法について述べた．CAT では，受験者が回答する都度，１アイテムずつ推定するアイテムが増加するので，推定誤差は徐々に少なくなってくる．しかし，能力推定の方法や特性は，固定長の従来方式のテストもCAT も同じである．

(29)

以下，項目応答理論に基づくCAT に使われる 2 パラメータロジスティックモデルの場合のML 推定法，MAP 推定法，WML 推定法について具体的に説明する（村木, 2012）．

ML 推定法は，受験者 i が n 個のアイテムを受験したときの回答パターン uij=(uij(1),…,uij(n))が発生する確率（尤度），

(3.3) が最も大きいθi を求める方法である．式 3.3 は対数をとって θi を求めてもよいので， (3.4) と表すことができる．θ iの最大値は，式3.4 の１階微分した式 (3.5) が0 となる点として求めればよい．2 パラメータロジスティックモデルの場合，第 1 次偏導関数は， (3.6) であるから，ニュートン・ラプソン法で解くことができる．ニュートン・ラプソン法に基づくt+1 回目の反復推定の更新式は， (3.7) であり，第2 次偏導関数は， (3.8) と簡潔になり，ニュートン・ラプソン法で尤度の最大値を与えるθi を求めることができる．

(30)

MAP 推定法は，受験者能力 θi の事後確率分布を最大にする θi を求める方法である．受験者の能力の事後確率分布は尤度関数と事前確率分布の積， (3.9) で表される．この事後確率分布を最大にするθiは，対数尤度関数の第1 次偏導関数を 0 として， (3.10) を満たすθiを求めればよい．θiの事前分布を正規分布と仮定すれば， (3.11) となり第1 次偏導関数は， (3.12) と簡潔になり，第2 次偏導関数も (3.13) と簡潔な式となる．そこでニュートン・ラプソン法に基づくt+1 回目の反復推定の更新式は， (3.14) となり，θiのMAP 推定値を求めることができる．MAP 推定法の事前確率分布は重み付けと解釈することができ，ML 推定法の事前確率分布による重み付け推定法ともいえる． WML 推定法（Warm, 1989）は， MAP 推定法の重みをテスト情報量の平方， (3.15) に代えたものとみなすことができる．Ij(θ)はアイテム情報関数であり，2 パラメータロジスティックモデルの場合，

(31)

(3.16) である．なお，ajはアイテム識別力である．

第5節終了判定

終了判定は，受験者の能力を推定する過程で変化する統計量そのもの，あるいは，その変化量を目安として，その値が一定値以下（または以上）になった時にテストの終了を判定するアルゴリズムを用いる．終了を判定する適切な統計量がない場合や受験者の受験時間を一定の時間内に収めたい場合，受験アイテム数の上限を指定し，上限に達した場合に終了と判定する方法をとる場合もあり，現実的な方法である．項目応答理論に基づく CAT で用いられている代表的なアルゴリズムは，標準誤差基準（Standard Error criterion, SE）や標準誤差低減量基準（Standard Error Reduction criterion, SER）である． 2 パラメータロジスティックモデルの場合アイテム情報量は， (3.17) で表され，式2.1 をpijに，qij = 1 - pijをqijに代入すれば， (3.18) となる．アイテムk まで受験したときの標準誤差SE は， (3.19) で求められ，これがあらかじめ定めた閾値に達したとき終了と判定する．これが標準誤差基準である．SE の変化量が一定値以下になった時に終了するのが，標準誤差低減量基準である．

(32)

第6節おわりに

本章では，項目応答理論に基づくCAT の動作フローと４つの構成要素について具体例を挙げて説明した．本章で述べたCAT の構成や動作は項目応答理論に限らず，ほとんどのテスト理論に基づくCAT にも当てはめることができる．

(33)

第 4 章潜在ランク理論に基づく

コンピュータ適応型テスト

第1節はじめに

本章では，潜在ランク理論（Latent Rank Theory, LRT; Shojima, 2007a）に基づくコンピュータ適応型テスト（Computerized Adaptive Test, CAT）のアルゴリズムについて，シミュレーションによって評価され，実地においても試行された唯一の先行研究である木村・永岡（2012）の CAT（以降，KN-CAT と呼ぶ）について説明する． KN-CAT で用いられているアイテムバンクは，日本実用英語検定協会の 2007 年第 1 回から2008 年第 1 回までの 4 回分の準 1 級から 3 級の文法語彙問題のうち，多肢選択形式の問題を選んで使用している．そのアイテムを3 次にわたって予備テストを行い，受験した延べ2,867 人の受験データを分析し，ラッシュモデルの適合度指標を用いて取捨選択された263 アイテムで構築されている．

第2節初期設定

KN-CAT の初期設定は，受験者の能力の初期値をテストレットによって設定している．能力ランクの中央の5 つのランクについて，アイテム指標 β がランクに等しいアイテムの中からランダムにアイテムを選択し，5 アイテムのテストレットを構成している．受験者の RMP の初期値はこのテストレットを受験させて得た推定値を設定する．このアルゴリズムは，1) 中央の 5 つのランクからテストレット用に選択されるアイテムはアイテム指標β が選択するランクに等しいものが先に選ばれるので，CAT の能力推定プロセ

(34)

スに使うために温存しておきたい識別力の高いアイテムがテストレットに使われてしまう可能性があること，2) それらのアイテムの露出度がほかのアイテムより高くなる可能性があること，3) テストレットに使用されるアイテムには，アイテム選択アルゴリズムが適用されず，ランダムに選択されるため，テストレット方式を採用しない場合より効率が悪くなる可能性があること，などの懸念がある．木村ほか（2012）は「実際の能力が初期能力推定値からずれていた場合，その後の項目選択と能力推定が不適切に行われてしまうことが attenuation paradox（Load & Nivick, 1968）として知られている．この点を考慮して，LRT-CAT の場合，最初の出題は 1 問ではなく，潜在ランクの中央付近の問題を複数問出題するテストレット形式とすることを提案する．」と述べているが，潜在ランク理論に基づくCAT において attenuation paradox が確認されているわけではない．特に，小規模なアイテムバンクの場合は経験的にモデルのランク数が小さく，attenuation paradox は確認できないのではないかと考える．

第3節アイテム選択

木村ほか（2012）は，熊谷（2010）の IRP 指標の項目識別力 a を拡張し，アイテム j の識別力をランク尺度の全域にわたって表すλijを導入した．このλijは， (4.1) と定義されている．ここでIRPjq は候補のアイテム j の IRP ベクトル，RMPiq は推定中の受験者のRMP ベクトルである．式 4.1 は，IRP の差分の項が同じなのでまとめると， (4.2) となる．λijは，IRP ベクトルの隣り合う要素，つまりランクの正答確率の差を識別力とみなし，隣り合うRMPベクトルの要素の算術平均をそれに重みとしてかけたものQ-1個の和をそのアイテムの受験者能力における識別力とするものであると解釈できる． λijを用いるアイテム選択アルゴリズム（以後，λ アルゴリズムと呼ぶ）について木村ほか

(35)

（2012）は，「アイテムバンクに蓄えられた項目数が多くなると，計算負荷がサーバーにかかり過ぎるので，本研究ではIRP 指標 β が受験者 i の暫定の潜在ランクの推定値±1 の項目に限定してλ の値を計算し，その中で最小となる項目を選択する」としているが，乗算回数は1 アイテムあたり Q-1 回であり，計算量は非常に少ない．一方，小規模なアイテムバンクの場合，β によって選択するアイテムを絞り込むと未出題アイテムリストにアイテムが残っているにも関わらず，出題できるアイテムがなくなり途中でテストを終了する事態になりかねない．木村ほか(2012)の λ の定義の不便な点は，RMP ベクトルや IRP ベクトルが Q 個の要素を持つのに対し，λ をベクトルの要素の和としてみた場合，そのベクトルは Q-1 個の要素しかないことである．もし，Q 個の要素があれば，能力ランク Riの受験者i に対するアイテム j の識別力を求めることも可能であり，それを使ったアイテム選択アルゴリズムが成り立つはずである．また，λ アルゴリズムについて木村ほか（2012）は「これは項目応答理論の項目選択ルールについて論じているVan der Linden（1998）の中に出てくる Maximum Expected Posterior Weighted Information という方法に相当すると考えられる」と述べているが，選択候補のアイテムについて正答した場合，誤答した場合のテスト情報量を重みとして使う Linden のアルゴリズムとは異なる．

第4節能力推定

KN-CAT の能力推定アルゴリズムについて木村ほか（2012）は，CAT の能力推定法について具体的に述べていない．ただし，初期テストレットの能力推定には，最尤推定法（Maximum Likelihood estimation， ML; Shojima, 2007）の記述が引用されている．一方，シミュレーション条件として「(3) 推定方法：SOM」と記しているので，木村ほかの誤解があると思われる．KN-CAT では，本論文の著者が実装した潜在ランク理論版最尤推定法（Maximum Likelihood estimation LRT version, ML-LRT）を採用していることは事実であり，その詳細については第2 章第 4 節で既に述べた．（式 2.9 から式 2.12 までを参照）

(36)

第5節終了判定

KN-CAT の終了判定アルゴリズムは，RMP の変化と受験アイテム数の二つを条件として使用している．潜在ランク理論に基づくCAT の場合，能力の推定過程では RMP のあるランクの正答率が増加し，最終的には1 に近づくので，その変化の値が予め設定した閾値より小さくなったとき終了と判定する．図4.1にその様子を示す．受験者が1アイテムずつ回答するごとに暫定推定値であるRMP が変化し，6 アイテム以降徐々に能力ランク 3 の確率が高くなって1.0 に近づいているのが分かる．図4.1 潜在ランク理論に基づく CAT の能力推定過程における RMP の変化の例 k-1 アイテム目に推定した RMP と k アイテム目に推定した RMP の差ベクトルの要素のうち，絶対値が最も大きい値をμq(k)とし，これが0.05 未満になり，かつ，指定アイテム数受験したとき終了する．しきい値μq(k)は，

(37)

(4.3) で与えられる．これはシミュレーションで使用された終了条件で，実際のテストでは，上記の条件で実施したシミュレーションの結果に基づいて，最大受験アイテム数と最小受験アイテム数を設定し，受験アイテム数のみを終了判定に使用している．

第6節おわりに

KN-CAT は，シミュレーションで性能を評価した上で実地のテストに使用された最初のものである．木村ほか(2012)で報告されたシミュレーションの結果では，推定された能力ランクが真値と一致したケースは59.2%，真値±1 と 1 ランク外れて推定されたケースが 36.4% と報告されている．推定された約4 割の受験者の能力ランクが 1 以上ずれているという結果である．

(38)

第 5 章新しいアルゴリズムの提案

第1節はじめに

本章では，潜在ランク理論(Latent Rank Theory, LRT; Shojima, 2007a)に基づくコンピュータ適応型テスト(Computerized Adaptive Test, CAT)の新しいアルゴリズムを提案する．新しいアルゴリズムを考案するためのアプローチとして，項目応答理論(Item Response Theory, IRT)の考え方を潜在ランク理論に適用する方法を採用した．潜在ランク理論は，離散的な項目応答理論で，項目応答理論の近似モデルであると捉えるのである．このアプローチでは，まず，アルゴリズムに使用する統計量として，情報量に相当する統計量を定義する．そのためにアイテムの特性を表す識別力を定義する．その後，情報量に着目したアルゴリズムをアイテム選択，能力推定，終了判定の３つの構成要素のアルゴリズムをそれぞれ提案する．アイテム選択については，項目応答理論の情報量最大化基準（Maximum

Information criterion, MI）の考え方を潜在ランク理論に適用した潜在ランク理論版情報量最大化基準（Maximum Information criterion LRT version, MI-LRT）を提案する．能力推定については，項目応答理論の重み付き最尤推定法（Weighted Maximum Likelihood estimation, WML）の考え方を潜在ランク理論に適用し，新たに定義したテスト情報量を重みとして採用した潜在ランク理論版重み付き最尤推定法（Weighted

Maximum Likelihood estimation LRT version, WML-LRT）を提案する．終了判定については，項目応答理論の標準誤差低減量基準（Standard Error Reduction criterion, SER）の考え方を潜在ランク理論に適用し，新たに定義したテスト情報量を使って標準誤

(39)

差を求め，その変化値を終了判定に使用する潜在ランク理論版標準誤差低減量基準（Standard Error Reduction criterion LRT version, SER-LRT）を提案する．

なお，初期設定に関しては，KN-CAT の初期テストレット方式は採用せず，単に受験者の能力確率分布を一様分布とする方式を採用した．すなわち，モデルのランク数をQ とすると，初期のRMP の各要素は 1 / Q とする方式である．これは KN-CAT の初期テストレットの能力推定時の初期値と同じである．

第2節正答確率

RMPi，能力ランクRiの受験者i がアイテム特性 IRPjを持つアイテムj を受験したときの正答確率は，第2 章の式 2.2 で IRP ベクトルの Riの要素として示したが，この他にも正答確率を定義することは可能である．それは，IRP と RMP の要素同士の積の和を正答確率とする， (5.1) である．受験者の能力を推定中のCAT のプロセスでは暫定的な RMP は各ランクの確率が大きく，それを反映した正答確率となる特徴があり，CAT のアルゴリズムの中で正答確率を計算する場合に有効である．一方，式2.2 の正答確率は，確定した能力ランクの受験者の正答確率を計算する場合に有効で，モンテカルロシミュレーションで回答を生成する場合などに用いる．

第3節識別力ベクトルの定義

項目応答理論のアイテムの識別力は，項目特性曲線の傾きであるが，潜在ランク理論の尺度は順序尺度であるため，隣接する各ランクの間隔は不定であり，傾きを計算することは意味がない．そこで隣り合うランクの正答確率の差を識別力に相当すると考える．しかし， 2 つあるので，平均値によって識別力を定義する．正答確率の差である

(40)

ので幾何平均ではなく算術平均をとる．さらに，各ランクにおける識別力を要素とした識別力ベクトルδ を定義する．モデルのランク数を Q としたとき，RMPiで表される能力を持つ受験者i に対するアイテム特性 IRPjを持つアイテムj の識別力ベクトルの各要素を (5.2) ただし， (5.3) と定義する．それぞれの要素は，能力ランクqの受験者に対するアイテムjの識別力を意味する．

第4節情報量の定義

項目応答理論のアイテム情報量は2 パラメータロジスティックモデルの場合，式3.1 で定義される．潜在ランク理論でも同様に，RMPiで表される能力を持ち，能力ランクRiを持つ受験者i に対するアイテム特性IRPjを持つアイテムj の情報量を前節で定義したアイテム識別力ベクトルδijを使って， (5.4) と定義する．テスト情報量についても項目応答理論と同様に，n 個のアイテムからなるテストのテスト情報量Itestは，テストを構成するアイテム1 からアイテム n までのアイテム情報量の総和として， (5.5) と定義する．

第5節アイテム選択

本研究では，項目応答理論のアイテム選択アルゴリズムから情報量最大化基準

(41)

報量最大化基準（Maximum Information criterion LRT version, MI-LRT）を提案する．

MI-LRT アルゴリズムは，k 番目に出題するアイテムとして 1 から k-1 アイテムまでの受験結果で推定した受験者i の能力ランクRi(k-1)とIRPi(k-1)から求めたIj(Ri(k-1))を最大にする

アイテム， (5.6) を選択する．なお，pij(k-1)は式5.2で与えられている正答確率である．MI-LRTアルゴリズムを疑似コードで表現すると， MI-LRT(RMP, 未出題アイテムリスト) Info_max = 0.0 Item_selected = “N/A” WHILE 未出題アイテムリストにアイテムあり DO 未出題リストからアイテム j を一つ取り出す Info = δjRi2pijqij # 式 5.4

IF info > info_max THEN DO Info_max = info Item_selected = アイテム j ENDIF ENDWHILE RETURN Item_selected (5.7) となる．

第6節能力推定

本研究では，ML 法の尤度にテスト情報関数の平方を重み付けした Warm の重み付け最尤度推定法(Weited maximum likelihood estimation method, WML )の考え方を潜在ランク理論に適用し，先に述べたテスト情報量を使って再定義した重み付け最尤度推定

(42)

法(Weighted maximum likelihood estimation method LRT version, WML-LRT)を提案する．

第2 章で紹介した最大事後分布法（Maximum A Posteriori, MAP）の重みを事後分布ではなく，テスト情報量の平方に置き換えたものが WML である（村木, 2011）． WML-LRT では，式 5.5 で定義したテスト情報量を使い，各ランクの尤度， (5.8) を求め，最大の尤度となるランクを受験者の能力ランク， (5.9) を得る．また，受験者のRMP ベクトルの各要素は， (5.10) で与えられる． WML-LRT の推定手順を疑似コードで示すと， LHtotal = 0.0 w = 1 FOR q TO Q DO LHq_max = 0.0 LHq = 1.0 FOR j TO n DO IF uij == 0 THEN DO LHq = LHq * (1 - vqj) ELSE DO LHq = LHq * vqj (5.11)

(43)

ENDIF ENDFOR LHq = LHq * SQRT[ Itest(n)(q)] IF LHq > LH_max THEN DO LHq_max = LHq w = q ENDIF LHtotal = LHtotal + LHq ENDFOR FOR q TO Q DO RMPq = LHq / LHtotal ENDFOR RETURN w, RMP となる．

第7節終了判定

本研究では，項目応答理論の標準誤差低減量基準（Standard Error Reduction criterion, SER）の考え方を潜在ランク理論に適用し，先に述べたテスト情報量による標準誤差を使って再定義した潜在ランク理論版標準誤差低減量基準（Standard Error Reduction criterion LRT version, SER-LRT）を提案する．

潜在ランク理論における標準誤差を項目応答理論の標準誤差に倣って (5.12) と仮定する．これを終了判定に使用する．SER は，k 番目のアイテム受験時の SE が k-1 番目のアイテム受験時からどれほど減少したか，その低減量がしきい値 ε を下回った時終了と判定する．すなわち， SER(k) _{= SE}(k)_{– SE}(k-1)_{< ε} _(5.13)

(44)

を満たしたとき能力推定の過程を終了させる．

第8節おわりに

潜在ランク理論におけるアイテムの識別力を新たに提案した．これを基にして潜在ランク理論に基づくCAT のアルゴリズムに使用する統計量として項目応答理論におけるアイテム情報量に相当する統計量のアイテム情報量を，さらに，それに基づいたテスト情報量を定義した．提案したアルゴリズムは，MI-LRT，WML-LRT，SER-LRT のいずれもアイテム情報量，あるいはテスト情報量に基礎を置いたアルゴリズムであるが，この情報量は CAT のアルゴリズムを記述するうえでの便宜上のものであり，必ずしもその名の意味するものではない． LRT-CAT のアルゴリズムが項目応答理論に基づく CAT 同様に機能するならば，定義したアイテム情報量もそれに近いものになっている可能性があるといえるであろう．

(45)

第 6 章新しいアルゴリズムの評価

第1節はじめに

本章では，第5 章で提案したアルゴリズムを検証し評価する．その手段としてモンテカルロシミュレーションを用いる．モンテカルロシミュレーションは乱数を使ったシミュレーション全般を指す．本研究では，潜在ランク理論のモデルに適合する理想的なアイテムバンクを構築するために，受験者の回答データとしてガットマン尺度のような回答パターンを使用し，これをEXAMETRIKA（Shojima, 2012）で分析して CAT のシミュレーションを行う．リニアテストの受験結果から推定した能力ランクを真値と仮定し，CAT の推定誤差を計算する．潜在ランク理論では，推定された能力ランクと真値の能力ランクを用いて誤差を計算する際に，真値との差を計算することができない．能力ランクは順序尺度であり，その差は不定だからである．そこで，N 回同じ条件で CAT のシミュレーションを行い，ランク誤差（Rank Error）を真値と不一致の試行の数Neとすると， rankError = Ne / N (6.1) と定義し，評価に用いる．なお，N は 100 とした．モンテカルロシミュレーションの目的は，シミュレーションを実施したアルゴリズムの性能を一般化して評価することである．アルゴリズムの評価にはアイテムバンクの特性による影響をできる限り受けないよう排除するため，使用するアイテムバンクと受験者集団の特性は理想的な特性を持った受験者集団とアイテムバンクを使用することが望ましい．評価の基準は，推定誤差と受験アイテム数である．推定誤差と受験アイテム数はトレードオフの関係にあり，本研究では，目的を記述する際に基準値として推定誤差 10%以下，受験アイテム数が元のリニアテストの50%以下と示した．これによってアルゴリズムを評価する．

(46)

評価に際しては，まず，先行研究のKN-CAT を比較対象とし，本研究で提案するアルゴリズムを構成要素毎に入れ替えてモンテカルロシミュレーションを行い，提案したアルゴリズムの効果を確認する．次に，提案したアイテム選択と能力推定のアルゴリズムの組み合わせでランク数と受験アイテム数を変化させてモンテカルロシミュレーションを行い，評価基準をクリアできる限界を明らかにする．

第2節シミュレーションの方法

本研究で使用するシミュレーションは，著者が作成した潜在ランク理論に基づく CAT のシミュレータLRT-CAT_sim（秋山, 2013）を使ってモンテカルロシミュレーションを行う． LRT-CAT_sim のシミュレーションの内容を疑似コードで表すと， LRT-CAT_sim( Test=g50, # g150 / g50 / g40 / g30 / g20 / g10 # j150 / j50 / j40 / j30 / j20 / j10 繰り返し回数=100, 初期設定=一様分布, # テストレット / 一様分布アイテム選択=MI-LRT, # MI-LRT / LAMBDA 能力推定=WML-LRT, # ML-LRT / WML-LRT 終了判定=SER-LRT, # SER-LRT / dRMP 閾値 = 0.000014, # 0.00014 / 0.004 最小受験アイテム数 = 25, 最大受験アイテム数 = 75) Itembank=テストを分析して得た IRP データ Examinees=テストを分析して得た RMP データ WHILE Examinees = NOT NULL DO Examinees から受験者を一人取り出す FOR i = 1 TO 繰り返し回数 DO Answereditems = NULL

(47)

Answerlist = NULL Itemlist=Itembank FOR q=1 TO Q DO RMPq0 = 1/Q ENDFOR IF 初期設定 == テストレット THEN DO テストレットを作成 Itemlist からテストレットに使用したアイテムを削除 Answerlist = 回答生成(‘RD’, Q, テストレット) Answereditems = テストレット RMP = 能力推定(テストレット,Answerlist, Examinee) ENDIF Ne=0 終了判定=FALSE WHILE 終了判定==FALSE DO

Item = 項目選択(Itemlist, Examinee, RMP k-1₎

Itemlist = Itemlist – Item

Answer = 回答生成(能力ランク, Item) Answereditems = Answereditems + Item Answerlist = Answerlist ＋ Answer

RMP(k)_{=能力推定(Answereditems, Answerlist,受験者, RMP}(k-1)₎ ENDWHILE 推定ランク = max（RMPqk） IF 推定ランク <> 真のランク THEN DO Ne = Ne +1 ENDIF 受験アイテム数を保存 ENDFOR

(48)

ランク誤差 = Ne / 繰り返し数ランク誤差を保存 ENDWHILE RETURN ランク誤差の平均と標準偏差，受験アイテム数 (6.2) となる．モンテカルロシミュレーションではモデルを表す式 2.2 により得た正答確率が区間[0.0, 1.0]の一様乱数より大きい場合正答，小さい場合誤答として回答を生成するが，ランク誤差を求めるため N 回繰り返しシミュレーションを実行する．アイテム選択，能力推定，終了判定の各アルゴリズムは，第4 章，第 5 章で述べたものの中から指定されたものを実行する．回答生成の部分を疑似コードで表すと，回答生成(能力ランク, Item)

IF Item の IRP（能力ランク） > 乱数[0.0, 1.0] THEN DO RETURN 1 ELSE DO RETURN 0 ENDIF (6.3) となる．

第3節使用する回答データ

シミュレーションで使用する回答データは，2種類である．一つは，純粋にアルゴリズムを評価するためのアイテムバンクを作るために用いる．アイテムを正答数の多い順に左から右に並べ，かつ，受験者を素点の高い順に上から下に並べた場合に1 の部分が左上を頂点にした直角二等辺三角形状になるガットマン尺度のような回答データ（図6.1参照）を使う．このような回答データは現実には発生することは極めてまれである．これを EXAMETRIKA で分析してアイテムの IRP と受験者の RMP を得て，潜在ランク理論に基づくCAT のモンテカルロシミュレーションに用いる．

(49)

なお，これらのアイテムがガットマン尺度に適合するということではなく，局所独立の制約は成立していると仮定している．このような回答パターンにすることで一意に理想に近い特性のIRP を持つアイテムバンクと理想に近い特性の RMP を持つ受験者集団のデータが得られる．なお，Item02 の Examinee09，Examinee10 と Item09，Item10 の

Examinee02 で 1,0 が逆転しているのは，EXAMETRIKA で分析する際に全て正答，全て誤答のアイテムや受験者が分析の対象外になるので，これを避けるために回答データのパターンをあえて崩している．回答データのサイズは，目標とするテストのサイズである50 アイテム 51 名のほか，限界を確認するため，ガットマン尺度のような回答パターンから生成した40 アイテム 41 名，30 アイテム31 名，20 アイテム 21 名，10 アイテム 11 名とした．一方，先行研究の KN-CAT と比較するため，項目応答理論が適用できる下限に近く，先行研究に近いサンプルサイズのデータとして150 アイテム 151 名を用意した．ランク数は，2 から 5 までとした．潜在ランク理論に基づく CAT は，小さいサンプルデータの場合，ランク数を小さくすることで推定するパラメータの数が少なくなり，SOM によるパラメータの推定が適切にでき，誤差や受験アイテム数が所期の範囲で動作するからである．以上，理想に近い特性を持つアイテムバンクと受験者集団について述べた．150アイテムでランク数5のアイテムバンクをg150r5，50アイテムから10アイテムでランク数5のアイテムバンクをそれぞれg50r5，g40r5，g30r5，g20r5，g10r5と呼ぶ． g10r5のIRPをグラフ化したものを例として図6.2に示す．単調増加制約，事後分布を一様分布として分析した．図6.1 ガットマン尺度のような回答データの例：10 アイテム 11 名の受験者の例

(50)

図6.2 g10r5のIRPのグラフ：EXAMETRIKAの分析結果シミュレーションで使用する回答データのもう一方は，実地に行ったテストの回答データである．使用したテストは「日本語を読むための語彙量テスト」（松下，2012）で、「日本語を読むための語彙データベース」（松下，2003）の15,000語を使用頻度によって15レベルに分け，それぞれのレベルの1,000語ごとに10語を語種のバランスを考慮して抽出し作成された150アイテムからなるテストである．このテストを多様なレベル・背景の263名の学習者が受験した．松下(2012)によれば，ラッシュ分析の結果、信頼できるテストであることが確認されている（Rasch reliability estimate = .93）．その代表的なアイテムの内容とIRPを表 6.1に示す．表の右の列が問題文と選択肢で，左肩の番号は，ハイフンの左が15レベルに分けたレベルで，ハイフンの右は各レベル10アイテムずつある同じレベルのアイテムの連番になっている．右の列がEXAMETRIKAで分析したときに出力されるIRPのグラフである．左のアイテムの内容と右のIRPは番号とアイテムIDがずれているが，同じアイテムのものである．レベルの低いアイテムは困難度が低く正答確率は1に近い．多くのアイテムのグラフが右肩上がりになっており，アイテムの識別力が高いことがわかる．回答データのサイズは，理想に近い特性を持つアイテムバンクと受験者集団の場合と同様に，目標とするテストのサイズである50アイテム50名のほか，限界を確認するため，素点および正答数で並び替えた上でデータを間引いて生成した「日本語を読むための語彙量テスト」のサブセットを50アイテム50名，40アイテム40名，30アイテム30名，20アイテム20 名，10アイテム10名とした．一方，先行研究のKN-CATと比較するため，項目応答理論が適用できる下限に近く，先行研究に近いサンプルサイズのデータとして150アイテム150名

潜在ランク理論に基づくコンピュータ適応型テストのアルゴリズムに関する研究

潜在ランク理論に基づくコンピュータ適応型テスト

のアルゴリズムに関する研究

著者

秋山 實

学位授与機関

Tohoku University

学位授与番号

11301甲第15963号

URL

http://hdl.handle.net/10097/57685

博士学位論文

潜在ランク理論に基づく

コンピュータ適応型テストの

アルゴリズムに関する研究

秋 山 實

平成 25 年度

東北大学

Abstract

目次

第 1 章 序論

第1節 研究の背景

第2節 問題の所在と研究の目的

第3節 本論文の構成

第 2 章 潜在ランク理論

第1節 はじめに

第2節 潜在ランク理論のモデル

第3節 アイテム特性パラメータの推定

第4節 受験者能力に関する特性パラメータの推定

第5節 モデル適合度指標

第6節 小さいサンプルサイズのモデル適合度

第7節 おわりに

第 3 章 項目応答理論に基づく

コンピュータ適応型テスト

第1節 はじめに

第2節 初期設定

第3節 アイテム選択

第4節 能力推定

第5節 終了判定

第6節 おわりに

第 4 章 潜在ランク理論に基づく

コンピュータ適応型テスト

第1節 はじめに

第2節 初期設定

第3節 アイテム選択

第4節 能力推定

第5節 終了判定

第6節 おわりに

第 5 章 新しいアルゴリズムの提案

第1節 はじめに

第2節 正答確率

第3節 識別力ベクトルの定義

第4節 情報量の定義

第5節 アイテム選択

第6節 能力推定

第7節 終了判定

第8節 おわりに

第 6 章 新しいアルゴリズムの評価

第1節 はじめに

第2節 シミュレーションの方法

第3節 使用する回答データ

秋山實

秋山實

第 1 章序論

第1節研究の背景

第2節問題の所在と研究の目的

第3節本論文の構成

第 2 章潜在ランク理論

第1節はじめに

第2節潜在ランク理論のモデル

第3節アイテム特性パラメータの推定

第4節受験者能力に関する特性パラメータの推定

第5節モデル適合度指標

第6節小さいサンプルサイズのモデル適合度

第7節おわりに

第 3 章項目応答理論に基づく

第1節はじめに

第2節初期設定

第3節アイテム選択

第4節能力推定

第5節終了判定

第6節おわりに

第 4 章潜在ランク理論に基づく

第1節はじめに

第2節初期設定

第3節アイテム選択

第4節能力推定

第5節終了判定

第6節おわりに

第 5 章新しいアルゴリズムの提案

第1節はじめに

第2節正答確率

第3節識別力ベクトルの定義

第4節情報量の定義

第5節アイテム選択

第6節能力推定

第7節終了判定

第8節おわりに

第 6 章新しいアルゴリズムの評価

第1節はじめに

第2節シミュレーションの方法

第3節使用する回答データ