9.4 考察
9.4.3 理系記述式テストの対応付け
信頼性という観点から検討した場合,理系記述式テストデータは,分野を超えた対応づけ にはふさわしくないデータであることが示唆された。同じ理系というくくりであっても,測 定領域が異なると測定結果の間にさほど高い相関関係は期待できない。さらに,多数の項目 を実施することが困難な理系記述式テストでは,元の尺度においても高い信頼性指数を確 保することは難しい。
合教科・科目型テストといった形で項目数の確保を試みたとしても,異なる分野間の選択 を許すデザインではテスト結果としてあらわされる得点そのものが信用できない。たとえ,
IRT モデルで尺度化した場合の識別力パラメタ推定値が許容できる範囲の値に推定された
120
としても,肝心の被験者パラメタに疑念を残す結果となった。
121
結章
本研究の出発点として,現在行われている大学入試改革の政策的な議論が,はたしてテス トの学術的な研究成果を踏まえた上で現実的に実現可能な条件を設定した上で行われてい るものであるのか,という問題意識があった。IRTモデルに基づくテストにしても,実際に IRTの原理やモデルとしての性質,制約条件を踏まえた上で導入の議論がなされているのか どうか心もとないのではないか,という問いかけを序章で投げかけた。
現実には様々な課題,論点が交錯する中,本研究では理系記述式テストに焦点を絞ること とした。しかも,網羅的に実施条件を検討するのではなく,純粋にテスト理論的な観点から 二つの課題に絞り込んで検討を加えた。いずれも理系記述式テストが,IRTモデルが要請す るテストの性質に合致しないことを前提に,それを克服することができるのかどうか,とい った課題設定である。
本研究で検討の対象とした一つ目の課題は,理系記述式テストの項目の構造に焦点を当 てたものである。すなわち,理系記述式テストにおいては,IRTの根幹を成す局所独立の仮 定を構造的に満たさない設問構成が前提となっているが,そういった基本的な仮定の逸脱 に対してIRTモデルはどの程度頑健であるのか,ということがポイントである。
二つ目の課題は,項目数に焦点を当てたものである。すなわち,理系記述式テストは一つ の設問に対して解答に要する時間が長いため,項目数の確保が難しいが,少ない項目数でも IRTモデルを機能させることは可能なのか,という点である。
そして,評価の指標も極めて単純な視点を設定した。すなわち,識別力パラメタの過大推 定が起こるか否か,過大推定が起こるとすればそれを防ぐ方法があるのか,ということであ る。そもそも,多枝選択式のような客観式テストと比較した場合,理系記述式テストは部分 点を与えることができるのが利点であるが,部分点を再カテゴリ化することでその利点に あらかじめ制約をかけたとしても,可能な限り精度の良い推定を試みようとしたのが,本研 究の姿勢であった。
第 3 章では,テスト得点を二値型項目として扱い,二値モデルの IRT による分析を試み た。項目の構造が局所独立の仮定と矛盾しなかった生物分野を除き,連鎖性のある項目を含 んだ数学分野,物理分野,化学分野では識別力パラメタの推定は安定しなかった。第7章で 客観式テストに対して有効であることが示された,連鎖性のある項目をテストレットとみ なして多値データモデルによる分析を行った場合でも,識別力パラメタの推定に改善はみ られなかった。
第4章では,部分点の再カテゴリ化の問題に注目し,多値型項目として多値データのモデ ルを用いて分析を行ったが,結果は第3章とほぼ同様であった。連鎖性のある項目をテスト レットとみなした場合でも,推定の改善はみられなかった。
第 3 章,第 4 章において試みた二値型項目としての分析,一部に多値データとなるテス トレットを含む二値型項目,多値型項目としての分析,一部にテストレットを含む多値型項
122
目の分析,いずれにおいても共通の弱点は項目数が不足することであった。そこで,第5章 では,それまでテストの内容領域に基づく分野ごとに適用していた IRT モデルを,分野を 超えた合教科・科目型テストとして適用することによって項目数の確保を試みた。異なる分 野の項目の選択解答という形でデザインが複雑化することを避けるため,物理選択者に対 象を絞って数学分野,物理分野,化学分野からなる尺度を構成したところ,項目パラメタの 推定という側面では,一見許容可能な推定値が得られたようにみえた。
その結果を受け,第8章では,選択項目を共通項目に対応づけする場面を想定し,共通項 目数がどの程度あれば安定したパラメタ推定ができるか,という観点からシミュレーショ ンによる検討を行った。その結果,最低でも6~8項目の共通項目が必要であり,4を下回 る共通項目数だとパラメタ推定が不安定になるという結果となった。多数の項目の確保が 難しい理系記述式テストに対する適用を考えると,6~8 項目程度の共通項目数の確保とい う課題は簡単ではないが不可能とも言えないレベルと考えられる。
しかしながら,たとえ 8 項目程度の共通項目数が確保されたとしても,第9 章の結果か らは,異なる分野に対応づけを行う場合には,実用に耐ええないほどに信頼性が低下するこ とを覚悟しなければならないことが示された。
第1章で述べた通り,本研究は「理系記述式テストのような複雑な構造を備えるテスト形 式の出題にIRTに基づくCBTを適用するといった我が国では斬新かつ大胆な構想に対して,
フィージビリティ・スタディに踏み込む意味があるかどうかを検討するための最初の試金 石」と位置づけられるものである。すなわち,「テスト理論的に理系記述式テストにIRTを 適用しても問題がないこと,また,適切に運用するための現実的な最低条件等を提示できな ければ,構想自体が机上の空論に過ぎない」わけである。本研究では,様々な手段を尽くし て IRT モデル適用に向けて理系記述式テストの弱点を克服しようと試みたが,その最初の 段階ですら容易に克服できないことが分かった。この事実こそが本研究の最大の成果と言 える。
確かに,本研究は単なる一つのケーススタディに過ぎない。しかし,シミュレーションで はなく,実際に受験者が解答を行ったデータに基づく実証研究であるところに意義がある。
もちろん,各設問の難易度が適切であったか否か,というような,本研究で用いられたデー タに固有の問題点が残るかもしれない。受験者の能力分布に対して,その全範囲を適切に識 別するような設問を工夫して,新たにデータを取って再分析を行うすることも可能であろ う。しかし,本研究の結果から見ると,得られた知見が本研究で用いられたデータに固有の 問題であるとも言い切れない。すなわち,本研究で焦点を当てた二つのポイントは,典型的 な理系記述式テストに共通する性質と考えられるからである。
理系記述式テストの利点を生かしながら,IRTモデルに適合するようなテストを設計する ことは容易な作業ではない。第7章で示したように,IRTモデルによく適合する多数の項目 の中の一部に連鎖性のある項目が存在するような状況では,相互に連鎖する項目をテスト レットとして一つにまとめることによって,項目パラメタの異常推定の問題はある程度解
123
決できるかもしれない。しかし,理系記述式テストにおいては,肝心の項目数の確保という 課題がほぼ克服不可能な難題である。短時間で解答可能な設問を多数集めるような設計の テストを考えるならば,あえて記述式にする意味はない。さらに,客観式テストと異なり,
記述式の形式では採点者が必要となる。理系記述式テストで期待されるような高度な思考 力や表現力の発露を適切に評価するには,その分野のエキスパートが採点作業に相当の時 間を費やす必要がある。その上,複数の採点者が採点に当たったとしても,採点プロセスに おける誤差の混入はまぬかれない。コンピュータによる自動採点を開発しようにも,定型的 で標準的な解答が想定されるような設問では,あえて記述式を採用することの意義が問わ れる事態となるであろう。
このように,IRTモデルによる理系記述式テストの開発という課題は,相互に矛盾した条 件が重なっており,万人が満足できる解決策の得られないような構想なのだと言える。
もちろん,遠い将来において,現在は想像もつかないような解決策が提示され,IRTモデ ルに基づく理系記述式テストが運営されている状況が招来される可能性...
は何人たりとも否 定しようがないであろう。しかし,大学入試のハイステークスなテストというものは,単な る調査と異なり,個人の命運がかかるものである。何らかの失敗があれば,受験者にとって 不幸なだけでなく,社会的に激しく糾弾されることになる。展望のない可能性に依拠して安 易に手を付けられるものではない。まして,IRTモデルに基づく大規模テストには,事前に 項目パラメタが推定された膨大な数の項目を持つ秘匿された項目プールが必要となる。予 備調査のためにテスト項目が人目にさらされても設問が測定しようとする特性や能力の性 質に変化はないのか,項目を秘匿したままに予備調査が可能なのか,といった類の問題に対 する検討は,全く着手されていない状況である。
将来的に起こりうる問題を未然に防ぐことも重要な研究課題の一つである。その点では,
本研究が試みた分析は,限りなく成功の可能性が低いうえに高いコストが伴ういばらの道 に踏み込むことを防止するために設けられる道標の一つとしての役割を担うことになると 考える。