63
64
に項目を除去して分析することにも問題があると言えるのだ。
65
第 6 章 残された課題
第3章,第4章の結果から,識別力パラメタの安定した推定という観点からは,二値型項 目として分析した場合でも多値型項目として分析した場合でも,分析結果はほとんど変わ らなかった。したがって,本研究の結果からは,部分点の扱いの違いが大きく識別力パラメ タの推定に影響する可能性は小さいことが示唆された。
一方,他の項目との連鎖性があり,局所独立の仮定を満たさない項目については,項目パ ラメタの推定に悪影響を及ぼすことが実証的に示された。第3章,第4章とも,構造的に局 所独立の仮定を逸脱する項目のペアが存在しない生物分野のテストデータに対する分析は,
受容可能な範囲に識別力パラメタが収まるなど,項目パラメタの推定が比較的上手く行っ ていたのに対し,連鎖性がある項目を含む数学分野,物理分野,化学分野は,いずれも識別 力パラメタの過大推定がみられた。しかも,識別力パラメタが過大推定された項目は,いず れも他の項目と構造的に完全連鎖,ないしは,部分連鎖という形で直接的な連鎖性がある項 目であった。本研究で用いたデータでは実質的同一項目というほどの強い関係性が存在す る ペアは なかっ たが,数 学分野 には完 全連鎖項 目のペ アが見 られた(item1_1_03 と
item1_1_04)。それ以外は部分連鎖項目とみなされる関係であったが,部分連鎖の関係にあ
っても識別力パラメタの過大推定につながらないケースも見られ,必ずしも一定した傾向 は見られなかった。したがって,どの程度の強さの関係性が識別力パラメタの過大推定につ ながるのか,識別力パラメタの推定という観点からは,どの程度の局所独立の仮定からの逸 脱であれば許されるのか,といった点に関しては,今後も検討していくべき課題であろう。
一方,第5章の分析からは,たとえ内容領域が広範囲に広がっていたとしても,項目数が ある程度確保できる場合には,識別力パラメタの推定が一定程度の範囲に収まるケースも 見出された。そこから,十分な項目数の確保が安定した識別力パラメタ推定への必要条件と なることが示唆された。
以上のことから,構造的に局所独立の仮定を満たすことができない連鎖性のある項目ペ アを含む理系記述式テストの場合,いかに項目数の確保をはかりながら,受容可能な程度の 項目パラメタの推定を行うか,という点が今後に残された検討課題と言える。項目の性能と いう意味で不良と考えられる項目であったとしても,項目が少ない中でさらに項目を減ら すという選択をとることは非常にリスクが高い。項目数が減るという意味では,不良項目を 削除することも連鎖性の見られる項目ペアをテストレットとすることも同じように適切と は言えないことになる。安定したパラメタ推定のためには,項目数を確保することが優先的 な重要課題であることが,ここまでの分析から得られた重要な示唆である。
局所依存の項目を含む場合に識別力パラメタの推定結果が安定しないのは,IRTの基本モ デルから考えると当然の結果と言えるが,理系記述式テストの場合,構造的に項目間の連鎖 性を抱えながら,十分な項目数を確保できないという問題を同時に抱えている。そこでIRT に基づくテストとしては典型的な選択式の二値型項目で,多数の項目数が確保されている
66
場合でも,第3章と同様の結果がみられるか否かについて,検討を加える必要がある。そこ で第Ⅱ部第7 章では,局所独立を満たさない項目を含む選択式テストへの IRT の適用を検 討する。
また,第5章では物理分野を選択した受験者のデータを用いて,数学分野,物理分野,化 学分野からなる尺度を構成した。実際には,物理分野の代わりに生物分野の問題を選択して 解答した受験者もいた。今回,第5章の分析では用いられなかった生物分野について,どの ように尺度化して比較可能な共通尺度としていくかが課題となるが,それについては,いく つかの考え方があるだろう。
まず,数学分野,化学分野を共通項目とし,共通項目による等化デザインで物理分野,生 物分野を一つの尺度とする方法が考えられる。そもそも項目数が多数確保できない理系記 述式テストの場合,共通項目となる試験問題の数をどの程度確保できるかということが課 題となる。多数の局所独立の関係にある選択式の二値型項目からなるテストの場合でも,共 通項目数がどの程度確保できれば十分な精度で対応付けが可能か,検討を加える必要があ る。そこで,第Ⅱ部第8章では,共通項目数がどの程度あれば十分な精度で対応付けが可能 となるのか,という観点からの検討を行う。
さらに,共通項目となっている尺度に選択項目の尺度を対応付けることも考えられる。本 研究の場合,具体的には数学分野ないしは化学分野の尺度に物理分野,生物分野の尺度を対 応付けるような方法が考えられる。異なる分野の尺度に対応付けを行った場合,もともとの 尺度における信頼性の精度 (信頼性) が対応付けられた得点の尺度でも保たれるか否かが 重要な観点となる。そこで第Ⅱ章の第 9 章では,佐藤・柴山 (2014) の信頼性指数を用い,
共通項目として用いられた数学分野,化学分野と本研究では選択項目であった物理分野,生 物分野の相互の対応付けの結果について,古典的テスト理論における信頼性の観点からの 検討を行うこととする。
67
第 II 部 理系記述式テストデータへの
IRT 適用の課題に対する多角的な検討
68