2.3 項目パラメタ推定
2.3.7 多母集団推定
項目パラメタを推定するために集められた被検者が複数の異なる母集団からのサンプリング を想定し,さらに集団ごとに部分的に異なる項目に回答するようなケースを想定する。例えば学 力が高い群が一部の難しい項目に回答し,低い群はその項目には回答せず,易しい項目だけに回 答するようなケースである。項目パラメタの推定にはMMLE-EM 法を用いれば良いが,周辺化 する際の事前分布は,母集団ごとに定める必要がある。この項目パラメタの推定方法は多母集団
(他群)モデルを扱う推定方法として知られており,この推定方法に対応しているプログラムと しては,BILOG-MGやEasy Estimation, lazy.irtxなどがある。
いま母集団についての変数𝑔 = {1, 2, … , 𝐺}を導入し,さらにその集団がどの項目を受検してい るのかを判断するためにデザインマトリックス (design matrix) を導入する。デザインマトリッ
クスは母集団以外にも欠測値に対応した推定に用いることができる。デザインマトリックスの 具体的な内容は集団×受検者×項目という3次元の配列 (array) であり,
𝑑𝑔𝑖𝑗= {1,母集団𝑔に属する受検者𝑖の項目𝑗への反応が観測される場合 0,母集団𝑔に属する受検者𝑖の項目𝑗への反応が欠測している場合
という3次元配列である。デザイン行列を𝐃とおくと,対数尤度関数は,
ln𝐿(𝜹, 𝜽|𝐔, 𝐃) = ∑ ∑ ∑ 𝑢𝑖𝑗𝑑𝑔𝑖𝑗ln𝑃𝑗(𝜃𝑖) + (1 − 𝑢𝑖𝑗)𝑑𝑔𝑖𝑗ln𝑄𝑗(𝜃𝑖)
𝐽
𝑗=1 𝑁
𝑖=1 𝐺
𝑔=1
, (2.60)
と書き換えられる。これにより受検者が回答していない項目における尤度を正しく欠測として 処理できる。さらにMMLE-EMのEステップにおける計算も,母集団ごとに異なるパラメタの 事前分布を設定する必要がある。平均と標準偏差によって決定される事前分布を仮定したとき,
その事前分布は,
ℎ(𝜃|𝜇𝑔, 𝜎𝑔), (2.61)
とおくものとする。すなわちEステップの期待対数完全データ尤度関数は,
E[ln𝐿𝑪(𝛅|𝐔, 𝐃, 𝜽)|𝐔, 𝐃; 𝜹𝟎] = ∑ ∑ ∫ ln𝐿𝐶(𝜹𝒋|𝐮𝒊, 𝒅𝒈𝒊, 𝜃𝑖)𝑔(𝜃𝑖|𝐮𝒊, 𝛅𝟎, 𝜇𝑔, 𝜎𝑔)d𝜃
∞
−∞
𝑁
𝑖=1 𝐺
𝑔=1
, (2.62)
と書き換えられ,最終的に
E[ln𝐿𝑪(𝛅|𝐔, 𝐃, 𝜽)|𝐔, 𝐃; 𝜹𝟎] = ∑ ∑ ∑[𝑟𝑔𝑗𝑟̂ ln𝑃𝑗(𝑌𝑔𝑟) + (𝑁̂ − 𝑟𝑔𝑟 𝑔𝑗𝑟̂ )ln𝑄𝑗(𝑌𝑔𝑟)]
𝑅
𝑟=1 𝐽
𝑗=1 𝐺
𝑔=1
, (2.63)
を計算する。ただし
𝑁̂ = ∑ 𝑑𝑔𝑟 𝑔𝑖𝑗𝐺𝑖𝑟
𝑖
, (2.64)
𝑟𝑗𝑟
̂ = ∑ 𝑢𝑖𝑗𝑑𝑔𝑖𝑗𝐺𝑖𝑟
𝑖
, (2.65)
である。ここでは E ステップの積分の離散近似の分点は十分に幅の広い分点をとることで全母 集団共通のものを使用すると仮定する。
多母集団モデルの項目パラメタ推定では各 EM サイクルが終了した時点で集団ごとの平均と 標準偏差を計算し,次回の E ステップで使用する分点の重みを再計算する必要がある。分点の 重みを計算する場合,正規分布などの分布族を仮定するほか,分布の関数形を指定せずに式
(2.64) および式 (2.65) により計算される受検者の分点ごとのヒストグラムを規格化し,そこか
ら推定される多項分布を使用することもできる (前川, 1991)。
多母集団モデルの推定においても項目パラメタの推定値が発散するのを避けるため,尺度の 単位と原点を固定しなくてはならない。ただしこの場合,いずれかの母集団の平均と標準偏差を EMサイクルの更新のたびに固定し続け,さらに他の母集団の事前分布のパラメタも尺度の不定 性を利用して線形変換する必要がある。尺度の不定性については後述する。
3 垂直尺度化 (Vertical Scaling)
これまでは尺度に用いられる心理計量モデルについて紹介し,一部のモデルのパラメタの推 定方法の数理的手法について述べてきた。潜在的な特性の測定が一度きりで,測定したい能力の 範囲が比較的限定されているのであれば,ひとつのテストを実施し,そのパラメタを推定するだ けで十分である。しかし能力の変化を測定するためには複数のテストの実施が必要で,垂直尺度 のように複数の学年をまたぐような尺度を構成する場合には,異なるテスト得点を比較可能な ものとし,単一の尺度としてまとめ上げる必要がある。特に垂直尺度を構成する為の手法を垂直
尺度化 (vertical scaling)と呼称する。しかし本来,尺度化 (scaling) というものが学力に限らず,
広く「能力,信念,嗜好,感覚など,物理,科学器計で直接計測できないものを数量として表そ うという試みを指す (印東, 1995,p. 135)」ものだとすれば,垂直尺度化は尺度の構成方法のひ とつでもあり,さらにテスト得点の対応づけの手法のひとつでもあるといえる。
垂直尺度化とは一言で述べれば,同じ構成概念を測定しているがテストの難易度が異なるよ うな複数のテストスコアを共通尺度上に位置づける手法である。この手法は,例えば小学校や中 学校で扱う国語や算数・数学のように,連続する学年で学ばれるものの,評価は学期や学年ごと で断続的に実施されているために,児童・生徒の学力の伸びを適切に評価することが困難である という問題にひとつの解決策を与えることができる。あるいは,垂直尺度にしたがって学力の縦 断的な変化を測定すれば,順位や平均点といった相対的で個人内の比較が難しい指標に依らず に評価可能である。
垂直尺度化のアイディア自体は20世紀中頃には既に存在するものの,時代や地域によって微 妙に異なる定義がなされているために,周辺の概念と明確な区別がなされてこなかった。ここで は,まず垂直尺度化と密接な関わりを持つ対応づけ (linking) や等化 (equating) といった概念と の比較を通して,垂直尺度化とは何であるのかを定義することを試みる。
次に,基本的な垂直尺度化のための手順を考える。垂直尺度化に限らず異なるテストのテスト 得点を比較するためには何らかの共通情報を直接的,あるいは間接的に設ける必要がある。そし てデータ収集デザインとならんで重要であるのがテストデザインである。データ収集デザイン がテスト全体についてのフレームを決めるとすれば,テストデザインは共通情報を持つふたつ のテスト間に,どのように共通情報を配置するかについて決定する。そのためのデータ収集デザ イン,テストデザインおよびそれらの長所・短所についてまとめ,さらに尺度調整 (calibration) 方法についても議論する。尺度調整方法はデータ収集デザインと関連して選択されるが,方法に よって推定値が変化し,計算にかかるコストも違う。いくつかの尺度調整法の比較および,先行 研究から得られた知見をまとめ,最後にこれまでの研究で指摘されている垂直尺度化の問題点 や課題を指摘する。