採用する IRT モデルの検討 - 第 2 研究の方法 - 学校評価の IRT スケールに基づく CS 分析法の開発

7.2 第 2 研究の方法

7.2.2 採用する IRT モデルの検討

𝑑_𝑗𝑖は，受験者𝑖の項目反応𝑥_𝑗𝑖と期待得点𝐸_𝑗𝑖との差を表す。𝑑_𝑗, 𝑑_𝑗′は，それぞれ全ての受験者から得られた𝑑_𝑗𝑖, 𝑑_𝑗′𝑖を要素とするベクトルである。𝑟(𝑑_𝑗, 𝑑_𝑗′)は，

𝑑_𝑗, 𝑑_𝑗′の相関係数を示し，これが Q3統計量𝑄_3𝑗𝑗′である。

2PLM の場合，Q3統計量の絶対値が 0.2 を超えると，項目間の局所依存の度合いが高いと判断される(Chen & Thissen, 1997；泉・倉本，2017)。GRM の場合，Q3統計量の絶対値が 0.36 を超えると項目間の局所依存の度合いが高いと判断される（Smits, Zitman, Cuijpers, Hollander-Gijsman, & Carlier，

2012；雲財・中村，2018）。この基準を用いて，局所独立性を確認した。

なお，特性値パラメタθの推定については，後述する7.4.3の検討を踏まえて EAP（Expected A Posteriori）推定法を用いた。

𝑃(𝑢_𝑗 = 𝑘|𝜃_𝑖) = 𝑃_𝑗𝑘(𝜃_𝑖) = 𝑃_𝑗𝑘^∗(𝜃_𝑖) − 𝑃_𝑗𝑘+1^∗ (𝜃_𝑖) (7.16)

𝑃_𝑗0^∗(𝜃_𝑖) = 1 (7.17)

𝑃_𝑗𝐾+1^∗ (𝜃_𝑖) = 0 (7.18) 𝑃_𝑗𝑘^∗(𝜃_𝑖) = 1

1 + 𝑒𝑥𝑝{−𝐷𝑎_𝑗(𝜃_𝑖− 𝑏_𝑗𝑘^∗ )} (7.19)

と，表される。ここで，𝐷は尺度因子(定数；本研究では 1.702 とする)であり，

𝑎_𝑗は項目𝑗の識別力パラメタ，𝑏_𝑗𝑘^∗ は項目𝑗において𝑘以上のカテゴリをとることに対する困難度パラメタであり，𝑃_𝑗𝑘^∗(𝜃_𝑖)は特性値が𝜃_𝑖である受験者𝑖が項目𝑗において𝑘以上と反応する確率である。

岩間他（2012）では，大学の情報環境利用に対する満足度について，多枝選

択型式の回答を「そう思わない」，「ややそう思わない」，「どちらでもない」の三つを 0，「ややそう思う」，「そう思う」の二つを 1，「知らない・使ったことがない」を欠測扱いとしてデータの加工を行って，IRT において一般的な２PLMを利用して CS分析に用いている。

本研究では，「あてはまる」「ややあてはまる」の二つを 1，「ややあてはまらない」「あてはまらない」を０としてデータ加工を行い２PLM を利用した場合と，4 件法をそのままのデータとして GRM を利用した場合の比較を行う。比較するのは，以下の 6点である。

(ⅰ)集団ごとの CS 分析の「個人総合満足度との関連度」と２PLM および GRM の識別力𝒂_𝒋との相関係数

IRT における識別力パラメタは，CS 分析における解析重要度（相関係数）

に対応しているので，集団ごとの CS 分析の「個人総合満足度との関連度」と２PLM の識別力𝑎_𝑗との相関係数と，集団ごとの CS 分析の「個人総合満足度との関連度」と GRM の識別力𝑎_𝑗との相関係数を比較した。この相関係数が高いモデルの方が，より CS分析との対応が良いことになる。

(ⅱ)集団ごとの CS 分析の「項目満足度」と２PLM の困難度𝒃_𝒋，GRM の境界値 パラメタの平均𝒃_𝒋，および GRM の３つの境界値パラメタのうちの𝒃_𝟐との相関 係数

IRTにおける困難度パラメタは，CS分析における項目満足度に対応してい

るので，集団ごとの CS 分析の「個人総合満足度との関連度」と２PLM の困難度𝑏_𝑗との相関係数，集団ごとの CS 分析の「個人総合満足度との関連度」と GRM の境界値パラメタの平均𝑏_𝑗との相関係数，集団ごとの CS 分析の「個人総合満足度との関連度」と GRM の３つの境界値パラメタのうちの𝑏₂との相関係数を比較した。この相関係数が高いモデルの方が，より CS分析との対応が良いことになる。

(ⅲ)集団ごとの学校評価アンケートの合計得点（個人藏合満足度）と２PLM で 推定した特性値𝜽および GRM で推定した特性値𝜽との散布図

IRT における特性値パラメタθは，アンケートの合計得点（個人総合満足

度）と対応しているので，集団ごとの学校評価アンケートの合計得点と２PLM で推定した特性値𝜃の散布図，および，集団ごとの学校評価アンケートの合計得点と GRM で推定した特性値𝜃の散布図を比較した。なお，特性値パラメタ θの推定については，後述する7.4.3の検討を踏まえてEAP推定法を用いた。

情報が圧縮されずに，より対応が取れているモデルがどちらかを確認する。

(ⅳ)集団ごとの２PLM で推定した特性値𝜽および GRM で推定した特性値𝜽との 散布図

集団ごとに２PLM で推定した特性値パラメタ𝜃の散布図と集団ごとに GRM で推定した特性値𝜃の散布図を比較した。同じ回答者の各モデルによる特性値パラメタθを直接比較することで，（ⅲ）での比較をより詳細に見ることになる。なお，特性値パラメタθの推定については，後述する 7.4.3の検討を踏まえて EAP 推定法を用いた。

(ⅴ)集団ごとの２PLM で推定した特性値𝜽の標準誤差および GRM で推定した 特性値𝜽の標準誤差との散布図

特性値パラメタθの標準誤差（Standard Error；SE）は，回答者の特性値パラメタθの推定の精度を表し（加藤他, 2014），この値が低いほど精度よく特性値パラメタ θ を推定できていると言える。どちらのモデルの方が，より精度よく特性値パラメタθを推定できているかを確認する。

なお，２PLM および GRM の場合の EAP 推定で求めた特性値パラメタθ の標準誤差（SE）は,

𝑆𝐸(𝜃_𝐸𝐴𝑃) = √∫ (𝜃 − 𝜃_𝐸𝐴𝑃)²𝑔(𝜃|𝑢)𝑑𝜃

+∞

−∞

(7.20)

で定義され，𝜃_𝐸𝐴𝑃は EAP 推定値である。この式中の積分計算は解析的に実行できないので，区分求積法により近似的に求められる。

(ⅵ)２PLM と GRM のテスト情報量

テスト情報関数における「テスト情報量が大きいところは，回答者の能力パラメタの推定の精度が良いところと解釈する」ことができる（加藤他, 2014）。

言い換えれば，テスト情報量の大きい特性値パラメタ θ の範囲が，精度よく特性値パラメタ θ を推定できている範囲であると言える。精度よく特性値パラメタ θ を推定できている範囲がより広いのはどちらのモデルなのかを確認する。

なお，２PLM の場合のテスト情報関数𝐼(𝜃)は，次の（7.21），（7.22）式で表され，

𝐼(𝜃) = ∑ 𝐼_𝑗(𝜃)

𝐽

𝑗=1

, (7.21)

𝐼_𝑗(𝜃) = {𝑃_𝑗^′(𝜃)}²

𝑃_𝑗(𝜃)𝑄_𝑗(𝜃) , (7.22)

テスト情報関数𝐼(𝜃)は，各項目の項目情報関数𝐼_𝑗(𝜃)の和に一致する。𝑃_𝑗(𝜃)は特性値θの回答者が項目𝑗に反応する確率であり，𝑄_𝑗(𝜃)は特性値θの回答者が項

目𝑗に反応しない確率である。𝑃_𝑗^′(𝜃)は𝑃_𝑗(𝜃)をθで微分した導関数である。

また，GRM の場合のテスト情報関数𝐼(𝜃)は，(7.21)式に加え，（7.23）式，

（7.24）式によって求められ，

𝐼_𝑗(𝜃) = ∑ 𝐼_𝑗𝑘(𝜃)

𝐾_𝑗

𝑘=0

, (7.23)

𝐼_𝑗𝑘(𝜃) = −{log𝑃_𝑗𝑘(𝜃)}^′′𝑃_𝑗𝑘(𝜃) ={𝑃_𝑗𝑘^′ (𝜃)}²− 𝑃_𝑗𝑘^′′(𝜃)𝑃_𝑗𝑘(𝜃)

𝑃_𝑗𝑘(𝜃) , (7.24)

テスト情報関数𝐼(𝜃)は，GRM でも各項目の項目情報関数𝐼_𝑗(𝜃)の和に一致する。

𝐼_𝑗𝑘(𝜃)はある項目𝑗の特定のカテゴリ𝑘に関する情報関数であり，𝑃_𝑗𝑘(𝜃)は特性値 θの回答者が項目𝑗にカテゴリ𝑘と反応する確率である。なお，𝑃_𝑗𝑘^′′(𝜃)は𝑃_𝑗𝑘(𝜃)を θで２階微分した導関数である。

これらのデータをもとに，２PLM と GRM のどちらを採用するべきかを検討した。なお，2PLM，GRM とも項目パラメタ，特性値パラメタの推定，特性値パラメタの SE の算出，テスト情報量の算出には EasyEstimation（熊谷,2009）

を用いた。その上で，以下を確認した。

(ⅶ)項目適合度の確認

項目がモデルに適合しているかを確認した。項目適合度の指標として， EasyEstimation（熊谷, 2009）で出力される Wright & Masters(1982)の OUTFIT 統計量，標準化した OUTFIT 統計量，INFIT統計量，標準化した INFIT 統計量の４つの指標を用いた。それぞれを算出する式は以下のとおりである。

（OUTFIT統計量） = 𝑣_𝑗 =∑^𝑁_𝑖=1𝒛_𝑖𝑗²

𝑁 − 1 (7.25)

（標準化した OUTFIT統計量） = 𝑡_𝑗 = (𝑙𝑛(𝒗_𝑗) + 𝒗_𝑗− 1)√𝑁 − 1

8 (7.26)

（INFIT統計量） = 𝑣^′_𝑗 =∑^𝑁_𝑖=1𝑊_𝑖𝑗𝒛_𝑖𝑗

∑^𝑁_𝑛=1𝑊_𝑖𝑗 (7.27)

（標準化した INFIT統計量） = 𝑡^′_𝑗 = 3 𝑞_𝑗(𝒗^′_𝑗

3− 1) +𝑞_𝑗

3 (7.28)

𝑑_𝑖𝑗 = 𝑥_𝑖𝑗− 𝐸_𝑖𝑗 (7.29)

𝐸_𝑖𝑗= ∑ 𝑘𝜋_𝑖𝑗𝑘

𝐾

𝑘=0

(7.30)

𝑊_𝑖𝑗 = ∑(𝑘 − 𝐸_𝑖𝑗)²𝜋_𝑖𝑗𝑘

𝐾

𝑘=0

(7.31)

𝑧_𝑖𝑗= 𝑑_𝑖𝑗

√𝑊𝑖𝑗

(7.32)

𝑞_𝑗 = √∑^𝑁_𝑖=1(𝐶_𝑖𝑗− 𝑊_𝑖𝑗²)

(∑^𝑁_𝑖=1𝑊_𝑖𝑗)² (7.33)

𝐶_𝑖𝑗 = ∑(𝑘 − 𝐸_𝑖𝑗)⁴𝜋_𝑖𝑗𝑘

𝐾

𝑘=0

(7.34)

なお，全受験者数が N 人で，受検者𝑖が項目𝑗に対する実際の反応が𝑥_𝑖𝑗である。

𝜋_𝑖𝑗𝑘は受検者𝑖が項目𝑗に回答カテゴリ𝑘と答える確率で，𝐸_𝑖𝑗はモデルから予測される受検者𝑖の項目𝑗への反応の期待得点を表し，𝑑_𝑖𝑗は受検者𝑖の項目𝑗に対する実際の反応と期待得点の残差である。𝑊_𝑖𝑗は受検者𝑖の項目𝑗に対する期待得点の分散であり，𝑞_𝑗は項目𝑗における加重平均平方の分散，𝐶_𝑖𝑗は受検者𝑖の項目𝑗における尖度である。それぞれ，項目𝑗について算出して，項目適合度の指標とする。

指標の基準としては，OUTFIT 統計量𝑣_𝑗と INFIT統計量𝑣′_𝑗は，0.75～1.3，標準化した OUTFIT 統計量𝑡_𝑗と標準化した INFIT 統計量𝑡′_𝑗は，-2.0～2.0 の範囲であればモデルに適合していると言われている（村木，2011）。採用したモデルで，項目適合度の４つの指標が上記の基準の範囲内となるか検証した。

7.2.3 特性値 θ の推定方法の検討

本研究で検討候補とした特性値θの推定方法は事後確率最大（Maximum A Posteriori；MAP）推定法と期待事後平均（Expected A Posteriori；EAP）推定法である。特性値θの推定方法は様々あり，他にも最尤推定法もあるが，テストでいえば全問正答，全問誤答（アンケートでいえば全て最高または最低の評価

を選択）の場合に，特性値θは最尤推定の際，発散し，具体的な数値を推定方法上，求めることができない。そのような場合でも，何らかの推定値を与えることができるのが，MAP 推定法と EAP 推定法といった特性値θに関する事前分布を利用できるベイズ推定の利点である（加藤他，2014）。MAP推定や EAP 推定であれば，上記のケースでも合理的な推論仮定に基づき何らかの推定値を与えられるため，貴重な分析対象データを有効に生かせると考え，検討候補とした。

なお，反応パタン𝑢が観察されたときのθの事後分布𝑓(𝜃|𝑢)は，ベイズの定理より，

𝑓(𝜃|𝑢) =𝑔(𝜃|𝜇_𝜃, 𝜎_𝜃)𝐿(𝑢|𝜃)

𝑓(𝑢) (7.35)

と，表される。𝑔(𝜃|𝜇_𝜃, 𝜎_𝜃)はθの事前分布であり，母平均𝜇_𝜃，母標準偏差𝜎_𝜃の正規分布を想定している。𝐿(𝑢|𝜃)は尤度関数であり，𝑓(𝑢)は反応パタン𝑢の周辺分布である。ここで，MAP推定法はこの事後分布の確率密度が最大となるθの値をθの推定値とする方法である。一方，EAP 推定法はこの事後分布の期待値（平均値）をθの推定値とする方法である。

検討の仕方として，個人適合度をもとに指標を考案した。先述の項目適合度の指標とした OUTFIT 統計量，標準化した OUTFIT 統計量，INFIT 統計量，

標準化した INFIT統計量の４つの指標は，それぞれ項目ごとに算出する統計量であった。この４つの指標は受検者個人ごとに算出することもでき，これを個人適合度という。集団ごとに，個人適合度の４つの指標のうち，少なくとも一つ以上の基準を満たしている人数割合を適合割合と考え，MAP 推定法と EAP 推定法を用いて，適合割合が高くなる方を本研究における特性値θの推定方法として採用する。

ドキュメント内学校評価の IRT スケールに基づく CS 分析法の開発 (ページ 52-58)