LCI 検定の評価 - LCI 検定 - テスト項目分析への応用

第 3 章 LCI 検定

3.4 LCI 検定の評価

前節では従来の局所独立性検定の誤りの原因をグラフィカル・モデルにより説明し，グラフィカル・モデルのCI検定のアプローチを用いた局所独立性検定としてLCI検定を提案した．本節ではLCI検定を従来手法と比較する．

3.4.1 方法と評価基準

LCI検定はCI検定の枠組みで二項目間が局所独立であるか局所従属であるかを判定する．CI検定で代表的なPCアルゴリズムおよびTPDAアルゴリズムでは，条件付き相互情報量を閾値εと比較し，ε未満ならば条件付き独立，ε以上ならば条件付き従属であると判定する．これは仮説検定の枠組みと異なるが「CI検定」（conditional independence test）とよばれている．

一方，Q₃統計量の無相関検定やIRT利用尤度比検定は仮説検定である．すなわち，検定対象の二項目が局所独立であるという帰無仮説を立て，検定統計量が棄却域の値ならば局所独立性の仮説を棄却する．

…

x1 x2 xm

Xi Xi'

所与 xi-1 x i+1

…

対象

図3.22: 条件からθ= ˆθ_jを消去した構造

0 100 200 300 400 500 600 700 800 900

0 0.05 0.1 0.15 0.2

Frequency

LCI

(a) completely independent (b) one pair dependent (c) two pairs dependent

図 3.23: 局所独立な項目間のLCI指標の度数分布（項目数7）

危険率

統計的仮説検定では，帰無仮説が真のときに検定統計量が棄却域の値となる確率を危険率または有意水準とよぶ．局所独立性の仮説検定の危険率は，二つの変数が真に局所独立であるときに，局所従属と誤って判定される確率である．LCI検定では，対象項目間が真に局所独立でも，標本誤差が原因でLCI指標が閾値ε以上の値になり，対象項目間が局所従属と誤って判定されることがあり得る．しかし，対象項目間が真に局所独立な場合の LCI指標の確率分布が求められないため，LCI検定の危険率を理論的に計算することができない．本論文では第3.2節でシミュレーションにより真に局所独立なデータを作成している．そこで，これらのデータに対するLCI指標の値がε以上となった割合を，LCI検定の「評価用危険率」として定義する．評価用危険率の計算に用いるεは，CI検定で一般的に用いられる0.01，0.05，0.10の3種類とする．

従来の局所独立性検定は仮説検定であるため，危険率の理論的計算が可能である．しかし本論文ではLCI検定と比較するために，LCI検定と同様の「評価用危険率」を定義する．

すなわち，LCI検定の評価用危険率の計算に用いるデータに従来手法を適用し，検定統計量の値が棄却域に入った割合を，「評価用危険率」と定義する．なお，従来手法の棄却域を設定するために定める危険率を，ここでは「有意水準」とよび，評価用危険率と区別する．

有意水準はαで表す．

検出力

統計的仮説検定では，危険率を一定に保ち，対立仮説が真のときに検定統計量が棄却域の値となる確率を検出力とよぶ．局所独立性の仮説検定の検出力は，二つの変数が真に局所従属であるときに，一定の危険率の下で局所従属と正しく判定される確率である．検出力の計算には危険率と対立仮説の下での検定統計量の確率分布が必要である．しかしLCI 検定ではいずれも理論的に計算することができない．本論文の第3.2節で作成したデータには，第3.2節の検定対象以外の項目間で真に局所従属なものがある．そこで，これらの真に局所従属なデータに対するLCI指標の値がε以上となった割合を，LCI検定の「評価用検出力」として定義する．

従来手法においても，評価用危険率がLCI検定と同等になる棄却域を求め，真に局所従属なデータに適用したときに検定統計量の値が棄却域に入った割合を，従来手法の評価用検出力として計算する．

3.4.2 結果と考察危険率

LCI検定および従来手法の評価用危険率を表3.2に示す．LCI検定の評価用危険率は，ε を0.01とした場合，有意水準が5%のときのIRT利用独立性検定とQ3統計量の中間程度であった．εを0.05および0.10としたLCI検定の評価用危険率は，いずれの従来手法よりも下回っていた．したがって，一般的な閾値を用いた場合，LCI検定は危険率の観点で，

従来手法と同等もしくは改善されているといえる．

構造別の評価用危険率を表3.3および表3.4に示す．項目数が7の場合，従来手法が前提とする局所独立構造である(a)では，εを0.05および0.01としたLCI検定の評価用危険率が，それぞれ有意水準を5%および1%としたIRT利用尤度比検定と同程度であった．局所独立構造でない(b)および(c)では，LCI検定の評価用危険率はいずれも従来手法を下回った．したがって，従来手法の前提である局所独立構造において，一般的な閾値のLCI 検定の危険率は従来手法と同程度であり，局所独立構造でない場合，LCI検定の危険率は従来手法より優れているといえる．

項目数が20の場合，局所独立構造である(d)およびほぼ局所独立構造である(e)では，ε を0.10および0.05としたときのLCI検定の評価用危険率がIRT利用尤度比検定を上回った．しかし，局所独立構造から大きく逸脱する(f)では，LCI検定の評価用危険率は従来手法を下回った．以上をまとめると，危険率が低く抑えられるというLCI検定の特徴は，

項目数が少ないテスト，あるいは局所従属性が多いテストにおいて顕著であるといえる．

評価用危険率が表3.2の値となる従来手法の臨界値を表3.5に示す．また，評価用危険率が5%および1%となるLCI検定の閾値および従来手法の臨界値も表3.5に示す．これらの値を用いて，以下でLCI検定と従来手法の評価用検出力を比較する．

検出力

LCI検定の閾値εおよび従来の局所独立性検定の臨界値が表3.5の値であるとき，それぞれの手法の評価用検出力を表3.6に示す．

0 50 100 150 200 250 300 350 400

0 0.05 0.1 0.15 0.2

Frequency

LCI

(d) completely independent (e) one pair dependent (f) nine pairs dependent

図3.24: 局所独立な項目間のLCI指標の度数分布（項目数20）

表 3.2: LCI検定および従来手法の評価用危険率

手法評価用危険率（%）

（ε= 0.01） 56.5

LCI検定（ε= 0.05） 16.7

（ε= 0.10） 0.3

IRT利用尤度比（G²）検定（α= 0.05） 42.5

（α= 0.01） 32.3

Q₃統計量の無相関検定（α= 0.05） 67.4

（α= 0.01） 58.6

表3.3: 構造別の評価用危険率（項目数: 7）

評価用危険率（%）手法構造(a) 構造(b) 構造(c)

（ε= 0.01） 38.1 26.3 14.7

LCI検定（ε= 0.05） 3.5 2.4 1.2

（ε= 0.10） 0.4 0.4 0.2

IRT利用尤度比（G²）検定（α= 0.05） 2.5 82.4 86.0

（α= 0.01） 0.4 75.5 80.0

Q3統計量の無相関検定（α= 0.05） 99.9 79.0 77.1

（α= 0.01） 99.9 73.9 71.4

表3.4: 構造別の評価用危険率（項目数: 20）

評価用危険率（%）手法構造(d) 構造(e) 構造(f)

（ε= 0.01） 89.8 83.6 35.8

LCI検定（ε= 0.05） 39.6 34.0 1.9

（ε= 0.10） 0.7 0.5 0.0

IRT利用尤度比（G²）検定（α= 0.05） 4.6 22.1 54.8

（α= 0.01） 0.9 13.3 42.3

Q3統計量の無相関検定（α= 0.05） 99.5 61.0 71.2

（α= 0.01） 99.4 50.3 63.4

表 3.5: 評価用危険率の値に対応するLCI検定の閾値および従来手法の臨界値手法

評価用危険率（%） LCI検定のε G²の臨界値 |Q3|の臨界値

56.5 0.0100 1.98 0.027

16.7 0.0500 19.59 0.083

0.3 0.1000 2879.29 0.396

5.0 0.0726 86.16 0.157

1.0 0.0904 505.65 0.280

価用検出力は9割近くの高い値を維持した．これに対し，評価用危険率が同じときの従来手法は，評価用検出力が7割に満たなかった．したがって，一般的な閾値を用いた場合の LCI検定は，従来手法と同等以上の検出力があるといえる．

評価用危険率が5%の場合，LCI検定の評価用検出力は9割以上で従来手法と同程度である．評価用危険率が1%の場合，LCI検定は9割以上の評価用検出力を維持したのに対し，従来手法の評価用検出力は8割を下回った．この結果より，一般的な危険率の場合でも，LCI検定は従来手法と同等以上の検出力を持つという結論が成り立つ．

以上より，LCI検定は危険率と検出力の両面で従来手法より優れているといえる．

ドキュメント内テスト項目分析への応用 (ページ 42-48)