多母集団推定 - 項目パラメタ推定 - 異なる難易度のテスト項目のIRT垂直尺度化 ―尺度化テストデザインによる垂直尺度構成―

2.3 項目パラメタ推定

2.3.7 多母集団推定

項目パラメタを推定するために集められた被検者が複数の異なる母集団からのサンプリングを想定し，さらに集団ごとに部分的に異なる項目に回答するようなケースを想定する。例えば学力が高い群が一部の難しい項目に回答し，低い群はその項目には回答せず，易しい項目だけに回答するようなケースである。項目パラメタの推定にはMMLE-EM 法を用いれば良いが，周辺化する際の事前分布は，母集団ごとに定める必要がある。この項目パラメタの推定方法は多母集団

（他群）モデルを扱う推定方法として知られており，この推定方法に対応しているプログラムとしては，BILOG-MGやEasy Estimation, lazy.irtxなどがある。

いま母集団についての変数𝑔 = {1, 2, … , 𝐺}を導入し，さらにその集団がどの項目を受検しているのかを判断するためにデザインマトリックス (design matrix) を導入する。デザインマトリッ

クスは母集団以外にも欠測値に対応した推定に用いることができる。デザインマトリックスの具体的な内容は集団×受検者×項目という3次元の配列 (array) であり，

𝑑_𝑔𝑖𝑗= {1，母集団𝑔に属する受検者𝑖の項目𝑗への反応が観測される場合 0，母集団𝑔に属する受検者𝑖の項目𝑗への反応が欠測している場合

という3次元配列である。デザイン行列を𝐃とおくと，対数尤度関数は，

ln𝐿(𝜹, 𝜽|𝐔, 𝐃) = ∑ ∑ ∑ 𝑢𝑖𝑗𝑑𝑔𝑖𝑗ln𝑃𝑗(𝜃_𝑖) + (1 − 𝑢_𝑖𝑗)𝑑𝑔𝑖𝑗ln𝑄𝑗(𝜃_𝑖)

𝐽

𝑗=1 𝑁

𝑖=1 𝐺

𝑔=1

, (2.60)

と書き換えられる。これにより受検者が回答していない項目における尤度を正しく欠測として処理できる。さらにMMLE-EMのEステップにおける計算も，母集団ごとに異なるパラメタの事前分布を設定する必要がある。平均と標準偏差によって決定される事前分布を仮定したとき，

その事前分布は，

ℎ(𝜃|𝜇_𝑔, 𝜎_𝑔), (2.61)

とおくものとする。すなわちEステップの期待対数完全データ尤度関数は，

E[ln𝐿𝑪(𝛅|𝐔, 𝐃, 𝜽)|𝐔, 𝐃; 𝜹_𝟎] = ∑ ∑ ∫ ln𝐿𝐶(𝜹𝒋|𝐮𝒊, 𝒅𝒈𝒊, 𝜃𝑖)𝑔(𝜃𝑖|𝐮𝒊, 𝛅𝟎, 𝜇𝑔, 𝜎𝑔)d𝜃

∞

−∞

𝑁

𝑖=1 𝐺

𝑔=1

, (2.62)

と書き換えられ，最終的に

E[ln𝐿𝑪(𝛅|𝐔, 𝐃, 𝜽)|𝐔, 𝐃; 𝜹_𝟎] = ∑ ∑ ∑[𝑟𝑔𝑗𝑟̂ ln𝑃𝑗(𝑌𝑔𝑟) + (𝑁̂ − 𝑟𝑔𝑟 𝑔𝑗𝑟̂ )ln𝑄𝑗(𝑌𝑔𝑟)]

𝑅

𝑟=1 𝐽

𝑗=1 𝐺

𝑔=1

, (2.63)

を計算する。ただし

𝑁̂ = ∑ 𝑑_𝑔𝑟 𝑔𝑖𝑗𝐺_𝑖𝑟

𝑖

, (2.64)

𝑟_𝑗𝑟

̂ = ∑ 𝑢_𝑖𝑗𝑑_𝑔𝑖𝑗𝐺_𝑖𝑟

𝑖

, (2.65)

である。ここでは E ステップの積分の離散近似の分点は十分に幅の広い分点をとることで全母集団共通のものを使用すると仮定する。

多母集団モデルの項目パラメタ推定では各 EM サイクルが終了した時点で集団ごとの平均と標準偏差を計算し，次回の E ステップで使用する分点の重みを再計算する必要がある。分点の重みを計算する場合，正規分布などの分布族を仮定するほか，分布の関数形を指定せずに式

(2.64) および式 (2.65) により計算される受検者の分点ごとのヒストグラムを規格化し，そこか

ら推定される多項分布を使用することもできる (前川, 1991)。

多母集団モデルの推定においても項目パラメタの推定値が発散するのを避けるため，尺度の単位と原点を固定しなくてはならない。ただしこの場合，いずれかの母集団の平均と標準偏差を EMサイクルの更新のたびに固定し続け，さらに他の母集団の事前分布のパラメタも尺度の不定性を利用して線形変換する必要がある。尺度の不定性については後述する。

3 垂直尺度化 (Vertical Scaling)

これまでは尺度に用いられる心理計量モデルについて紹介し，一部のモデルのパラメタの推定方法の数理的手法について述べてきた。潜在的な特性の測定が一度きりで，測定したい能力の範囲が比較的限定されているのであれば，ひとつのテストを実施し，そのパラメタを推定するだけで十分である。しかし能力の変化を測定するためには複数のテストの実施が必要で，垂直尺度のように複数の学年をまたぐような尺度を構成する場合には，異なるテスト得点を比較可能なものとし，単一の尺度としてまとめ上げる必要がある。特に垂直尺度を構成する為の手法を垂直

尺度化 (vertical scaling)と呼称する。しかし本来，尺度化 (scaling) というものが学力に限らず，

広く「能力，信念，嗜好，感覚など，物理，科学器計で直接計測できないものを数量として表そうという試みを指す (印東, 1995，p. 135）」ものだとすれば，垂直尺度化は尺度の構成方法のひとつでもあり，さらにテスト得点の対応づけの手法のひとつでもあるといえる。

垂直尺度化とは一言で述べれば，同じ構成概念を測定しているがテストの難易度が異なるような複数のテストスコアを共通尺度上に位置づける手法である。この手法は，例えば小学校や中学校で扱う国語や算数・数学のように，連続する学年で学ばれるものの，評価は学期や学年ごとで断続的に実施されているために，児童・生徒の学力の伸びを適切に評価することが困難であるという問題にひとつの解決策を与えることができる。あるいは，垂直尺度にしたがって学力の縦断的な変化を測定すれば，順位や平均点といった相対的で個人内の比較が難しい指標に依らずに評価可能である。

垂直尺度化のアイディア自体は20世紀中頃には既に存在するものの，時代や地域によって微妙に異なる定義がなされているために，周辺の概念と明確な区別がなされてこなかった。ここでは，まず垂直尺度化と密接な関わりを持つ対応づけ (linking) や等化 (equating) といった概念との比較を通して，垂直尺度化とは何であるのかを定義することを試みる。

次に，基本的な垂直尺度化のための手順を考える。垂直尺度化に限らず異なるテストのテスト得点を比較するためには何らかの共通情報を直接的，あるいは間接的に設ける必要がある。そしてデータ収集デザインとならんで重要であるのがテストデザインである。データ収集デザインがテスト全体についてのフレームを決めるとすれば，テストデザインは共通情報を持つふたつのテスト間に，どのように共通情報を配置するかについて決定する。そのためのデータ収集デザイン，テストデザインおよびそれらの長所・短所についてまとめ，さらに尺度調整 (calibration) 方法についても議論する。尺度調整方法はデータ収集デザインと関連して選択されるが，方法によって推定値が変化し，計算にかかるコストも違う。いくつかの尺度調整法の比較および，先行研究から得られた知見をまとめ，最後にこれまでの研究で指摘されている垂直尺度化の問題点や課題を指摘する。

ドキュメント内異なる難易度のテスト項目のIRT垂直尺度化 ―尺度化テストデザインによる垂直尺度構成― (ページ 69-73)