理系記述式テストへのIRT適用課題の検討

(1)

理系記述式テストへのIRT適用課題の検討

著者

泉毅

学位授与機関

Tohoku University

学位授与番号

11301甲第17114号

(2)

博士学位論文

理系記述式テストへの IRT 適用課題の検討

東北大学大学院

教育情報学教育部 B3FD1001

泉毅

(3)

(4)

i

序章 ………..………...1 第 I 部 理系記述式テストデータへの IRT 適用の課題 ... 4 第 1 章 第Ⅰ部の理論的背景 ... 5 1.1 問題と目的 ... 5 1.1.1 問題の所在... 5 1.1.2 テストの解答形式の分類 ... 6 1.1.3 理系記述式テスト ... 7 1.1.4 本研究の目的 ... 7 1.1.5 第Ⅰ部の構成 ... 8 1.2 IRT 適用で予想される技術的課題... 9 1.2.1 本研究で用いる IRT モデル ... 9 1.2.2 部分点の扱いに関する技術的問題 ... 10 1.2.3 局所独立の仮定に関する技術的問題点 ... 11 1.3 項目の連鎖性の分類 ... 13 1.3.1 実質的同一項目 ... 13 1.3.2 完全連鎖項目 ... 14 1.3.3 部分連鎖項目 ... 15 1.3.4 連鎖性がない項目 ... 16 第 2 章 第Ⅰ部における理系記述式テストと分析モデル ... 18 2.1 テスト問題の構成 ... 18 2.2 分析対象 ... 21 2.3 連鎖性の構造... 21 2.4 二値モデル・多値モデル適用に向けて ... 24 第 3 章 項目得点を二値とした場合の IRT モデルの適用 ... 25 3.1 目的 ... 25 3.2 方法 ... 25 3.2.1 分析対象... 25 3.2.2 項目得点のカテゴリ化 ... 25 3.2.3 分析モデル... 30

(5)

ii 3.2.4 分析方法... 30 3.3 結果 ... 30 3.3.1 スクリープロット ... 30 3.3.2 二値型項目としての分析による項目パラメタ・情報曲線 ... 33 3.3.3 一部項目をテストレットした場合の項目パラメタ・情報曲線 ... 37 3.4 考察 ... 41 第 4 章 項目得点を多値とした場合の IRT モデルの適用 ... 43 4.1 目的 ... 43 4.2 方法 ... 43 4.2.1 分析対象... 43 4.2.2 項目得点のカテゴリ化 ... 43 4.2.3 分析モデル... 48 4.2.4 分析方法... 48 4.3 結果 ... 48 4.3.1 多値型項目としての分析による項目パラメタ・情報曲線 ... 48 4.3.2 一部項目をテストレットした場合の項目パラメタ・情報曲線 ... 53 4.4 考察 ... 57 第 5 章 合教科・科目型テストへの IRT モデルの適用 ... 59 5.1 目的 ... 59 5.2 方法 ... 59 5.2.1 分析対象... 59 5.2.2 分析モデル... 60 5.2.3 分析方法... 60 5.3 結果 ... 60 5.3.1 スクリープロット ... 60 5.3.2 項目パラメタ ... 62 5.4 考察 ... 63 第 6 章 残された課題 ... 65 第 II 部 理系記述式テストデータへの IRT 適用の課題に対する多角的な検討 ... 67 第 7 章 局所独立性を満たさない項目を含んだ選択式テストデータの分析 ... 68 7.1 問題と目的 ... 68 7.1.1 背景 ... 68

(6)

iii 7.1.2 日本のテスト文化の特徴と局所独立性の問題 ... 68 7.1.3 先行研究... 68 7.1.4 局所依存性の強さがパラメタ推定に与える影響 ... 70 7.1.5 本研究の目的 ... 70 7.2 方法 ... 71 7.2.1 分析対象... 71 7.2.2 分析モデル... 72 7.2.3 テストデータの整形 ... 72 7.2.4 局所依存性の指標 ... 73 7.2.5 2PLM と GRM の比較 ... 73 7.3 結果と考察 ... 73 7.3.1 2PLM による分析 ... 74 7.3.2 GRM による分析 ... 78 7.3.3 Q3の比較，検討 ... 79 7.3.4 能力パラメタ推定値の比較 ... 81 7.3.5 テスト情報関数の比較 ... 85 7.4 まとめ ... 89 7.4.1 得られた研究結果と先行研究との比較 ... 89 7.4.2 極端に高い識別力パラメタの推定値に関する検討 ... 91 7.5 今後の課題 ... 96 第 8 章 共通項目数が等化の精度に及ぼす影響の検討 ... 97 8.1 問題と目的 ... 97 8.1.1 問題 ... 97 8.1.2 IRT モデル ... 97 8.1.3 等化の手法に関して ... 97 8.1.4 先行研究... 98 8.1.5 目的 ... 99 8.2 方法 ... 99 8.2.1 分析対象... 99 8.2.2 基本的な分析手順 ... 100 8.2.3 共通項目の項目識別力に着目した分析の分析手順 ... 102 8.2.4 受験者数に着目した分析の分析手順 ... 103 8.2.5 受験者集団の能力値差に着目した分析の分析手順 ... 103 8.3 結果と考察 ... 104 8.3.1 共通項目の項目識別力に着目した分析 ... 104

(7)

iv 8.3.2 受験者数に着目した分析 ... 107 8.3.3 受験者集団の能力値差に着目した分析 ... 109 8.4 まとめ ... 112 第 9 章 分野を超えたテストデータの対応付けにおける信頼性の検討 ... 115 9.1 問題と目的 ... 115 9.1.1 問題 ... 115 9.1.2 目的 ... 116 9.2 方法 ... 116 9.2.1 対応付け得点の測定の標準誤差・信頼性指数 ... 116 9.2.2 分析対象... 117 9.3 結果 ... 117 9.3.1 基礎統計量... 117 9.3.2 信頼性指数... 117 9.4 考察 ... 118 9.4.1 信頼性指数の分野間の特徴 ... 118 9.4.2 理系記述式テストにおける項目数の確保 ... 119 9.4.3 理系記述式テストの対応付け ... 119 結章 ………...121 引用文献 ………...124 巻末資料 ………...129 謝辞………... 124

(8)

1

序章

項目反応理論が適用される場面は，基本的に一問一答型の客観式テストである。しかし，近年，わが国の教育改革の議論を概観すると，近い将来，従来からの客観式テストの枠を超えた，様々な形式のテストに対しても項目反応理論 (Item Response Theory : IRT) による分析を行う必要性が予想される状況となっている。従来，少数の例外を除いてわが国のハイステークスな試験で IRT は積極的に活用されてこなかった。ところが，ここ数年の大学入試改革の議論の中でにわかに IRT の活用に対する期待が高まっている。例えば，2013 年 10 月に発表された教育再生実行会議の第四次提言 (教育再生実行会議，2013) において，大学入試の共通試験として，いわゆる達成度テスト (仮称) の導入が提言された。提言によれば，達成度テスト (仮称) には，基礎レベルと発展レベルの二つの水準が設定されている。そのうち，基礎レベル (仮称) は「高等学校の基礎的・共通的な学習の達成度を客観的に把握し，学校における指導改善に活かす」目的を持ったものとされ，「高等学校在学中に複数回受験できる仕組み」を検討することが提言された。一方，発展レベル (仮称) は「大学が求める学力水準の達成度の判定に積極的に活用」することを目的としたテストとされ，「試験として課す教科・科目を勘案し，複数回挑戦を可能」とすることが提言された。さらに，発展レベル (仮称) においては「将来的には，試験問題データを集積し CBT（Computer Based Testing）方式で実施することや，言語運用能力，数理論理力・分析力，問題解決能力等を測る問題の開発も検討する」とされている。注釈に記載された CBT の説明には「コンピューターママを利用した試験方式。数千～数万題の問題の中から，難易度が同じとなるよう問題を組み合わせて出題することにより，複数回受験しても安定した成績を示すことが可能となる（例 TOEFL，医学部共用試験）」とある。IRT に基づく運用が示唆されたものと推測される。 IRT への期待と同時並行的に，従来から一般的なテスト形式である記述式の問題に対する期待も高まってきた。教育再生実行会議における議論を受け，2014 年 3 月の中央教育審議会高大接続特別部会の審議経過報告 (中央教育審議会高大接続特別部会，2014) では，達成度テスト (仮称) の在り方として「記述式を導入すること」「紙媒体ではなくコンピュータによる出題・解答の方式を導入すること」の専門的な検討を進めることが必要とされた。テストの内容にも新機軸が求められており，例えば，「複数の教科・科目にまたがった内容に基づきその活用力や応用力を測る『合教科・科目型』や，教科の枠組みにとらわれない『総合型』の導入に向けて専門的な検討を進めるべきである」との記述が見られている。IRT という一般にはなじみのなかった学術用語も行政文書の中に散見されるようになってきた。例えば，「試験を複数回実施する場合，複数の試験間の得点を比較可能とすることが必要であり，IRT (項目反応理論) 等を用いた得点調整，得点表示方式」についての検討が必要である」といった具合である。

(9)

2 同年 12 月に出された中央教育審議会の答申 (中央教育審議会，2014) では，共通試験の名称が，それぞれ高等学校基礎学力テスト (仮称)，大学入学希望者学力評価テスト（仮称）と改称された。実質的な中身は高大接続テストと本質的に同じであり，「合教科・科目型」「多肢選択方式だけでなく，記述式を導入」といったアイデアが継承されている。さらに「年複数回実施」「CBT 方式での実施を前提に開発を行う」といった形でより踏み込んだ提案がなされている。中央教育審議会における議論が答申としてまとめられたことから，大学入試改革の議論は次の段階に進むこととなった。すなわち，制度設計にかかわる具体的な検討が答申を実施に移すことを目的とした高大接続システム改革会議に委ねられた状況となっている。2015 年 9 月の高大接続システム改革会議「中間まとめ」 (高大接続システム会議，2015) においても，IRT，CBT の導入に関する検討と同時に記述式テストの導入に関して議論がなされている。しかしながら，以上のような政策的な議論が，実際に IRT の原理やモデルとしての性質，制約条件を踏まえた上で行われているとは考えにくい。実際に，我が国のテスト文化の中で IRT を基盤とする試験を実施し，それを軌道に乗せていくには検討すべき課題は多い。例えば，村上 (2003) は，受験機会が複数設定され，それぞれの成績を同一の尺度上での比較することに関して，我が国では理論的基盤と試験を実施するためのバックアップ態勢が弱いことを指摘している。中教審答申で示されたような IRT に基づくテストを実用に供するまでには，我が国のテスト慣行に合わせて数々の実証的研究を行い，それに基づく議論を積み重ねていく必要がある。現在のところ，理系記述式テストに対して早急に IRT 適用が求められるような，記述式への期待と IRT への期待を直接的に結びつける議論が明示的に現れているとは言えない。しかしながら，大学入試改革に関する現在の議論の流れが今後も継続していくならば，早晩，理系記述式テストを念頭に置いた IRT の運用が議論の俎上に上ることは十分に考えられることである。そこで，本研究では既存の理系記述式テストデータの分析を通して，我が国の大学入試における記述式テストへの IRT 適用の課題を探り，その課題の一部についてテスト理論的な観点から実証的検討を加えることとした。本論文は，序章，第Ⅰ部，第Ⅱ部，結章から構成される。序章では，本研究の背景，また，全体の構成に関して述べる。次に，第Ⅰ部，第Ⅱ部の各章の関係イメージを図 1.に示す。第Ⅰ部は，第 1 章～第 6 章から構成される。第Ⅰ部では，理系記述式テストの実データを用い，記述式テストへの IRT の適用について主としてテスト理論的な観点から検討を加える。第 1 章は，第Ⅰ部の全体的な理論的背景について述べる。第 2 章では，第Ⅰ部における方法論について述べる。第 3 章では，理系記述式テストを二値データとみなして分析を行う。第 4 章では，理系記述式テストを多値データとみなして分析を行う。第 5 章では，第 3

(10)

3 章，第 4 章の結果を受け，分野を超えた合教科・科目型テストとして分析を行う。第 6 章では，第 3 章，第 4 章，第 5 章の結果を受け，理系記述式テストへの IRT 適用においてさらに検討すべき課題について述べる。第Ⅱ部では，第Ⅰ部の分析結果を踏まえ，第 6 章で提起された個々の課題について，客観式テストのデータも交え検討を加える。第 7 章では，局所独立性を満たさない項目による推定の問題について，客観式テストの数学を題材に検討を行う。第 8 章では，項目数の減少による推定の問題に関連したテーマを扱う。すなわち，共通項目法による等化，対応付けを考えた場合，少ない共通項目数で対応付けを行う問題点について，推定の精度に着目した検討を行う。第 9 章では，分野を超えた合教科・科目型テストにおける選択問題について，対応付けの結果，どのような性質となるのか，古典的テスト理論に基づく信頼性の観点から検討を行う。結章では，第Ⅰ部，第Ⅱ部から得た知見に関する総括を行う。 図 1. 第Ⅰ部と第Ⅱ部の各章関係イメージ図

(11)

4

第 I 部

理系記述式テストデータへの IRT 適用の課題

(12)

5

第 1 章

第Ⅰ部の理論的背景

1.1 問題と目的

1.1.1 問題の所在

本研究は，我が国の大学入試において，IRT の活用に関して期待が高まっていることを受け，従来は適用されていなかった形式のテスト問題へ IRT を適用する際の技術的な問題点のいくつかについて，テスト理論的な観点から検討することを目的とする。具体的には，本研究で対象とするのは，いわゆる記述式テストの中でも，理系分野のテストである。大学入試の場面で理系記述式テストが実施されているのは，大学独自に行われる個別試験である。基本的に，記述式テストは IRT になじまない。その理由は枚挙にいとまがない。例えば，問題作成に多大な労力がかかることが挙げられる。理系記述式テストの場合，通常は，一群の設問が一つの意味のある流れを持ったまとまりを構成しており，IRT の前提とする局所独立の仮定を満たさない構造となっている。また，一つ一つの設問が単なる記憶の再生ではなく，当該分野の知識・技能を組み合わせて考えさせる高度な思考力を要求するような場合も多く，一つの設問に対する解答に長時間を要する。結果的に，一人の受験者が多数の項目に解答できない。さらに，正解が一意に決まらないことから客観的な採点が行えず，採点者に起因する誤差も混入する。以上のように形式的な側面を考えただけでも，IRT が想定している相互に局所独立を満たす項目を大量に備えた項目プールを用いた大規模テストを構成するには，難しい性質を持っている。したがって，従来の我が国の大学入試の慣行に照らせば，記述式テストに IRT を適用することは考えられないことであった。ところが，序章で述べたように，大学入試における共通試験として構想されている大学入学希望者学力評価テスト (仮称）では，我が国における従来の大学入試の慣行や実現可能性の検討を一気に飛び越えて，IRT の実用化と同時に記述式の導入が提唱されている。現時点で早急に記述式テストが IRT で運用することが求められているわけではないが，例えば，共通試験の複数回実施という議論の流れの中で，異なる実施機会に得られたテスト成績を相互に比較可能にするために，何らかの形で一つの尺度としていく必要性がある，そのためには対応付けが必要だ，といった議論が突然巻き起こることもあり得る。そのように，近い将来，IRT に基づく大学入試の共通試験の導入にかかわる議論に備えて，あらかじめテスト理論的な観点から具体的な検討が余儀なくされる可能性は常に考えておかなければならない状況と言える。現在，様々なタイプのテストに IRT を適用する際の技術的問題点について，様々な角度から検討する基礎研究の積み上げの必要性に迫られているのである。すなわち，たとえ原理的に IRT の前提と矛盾するテストであったとしても導入せざるを得ないとすれば，IRT モデルで想定している仮定への逸脱がどの程度であれば実用的に許容されるの

(13)

6 か，といった観点からの検討をしておく必要があると考えられるのだ。本研究では，今後，IRT の適用が想定される類のテストの一つとして，理系記述式テストを取り上げる。2014 年末の中教審答申 (中央教育審議会，2014) で導入が提言され，本稿執筆現在には高大接続システム改革会議で議論が行われている大学入学希望者学力評価テスト (仮称) の導入を視野に入れた場合，理系記述式テストデータへの IRT 適用は，近い将来，わが国における現実のテスト場面が直面する課題の一つとなり得る。そこには，従来の教科・科目型のテストと同様に，複数の教科や科目にまたがる項目を集めた，いわゆる「合教科・科目」型のテストも含まれる。実際には，IRT に基づくテストの実施に際しては実施手続き上の問題だけでも検討すべき課題は山積している。その全てをクリアすることが導入の条件となるが，全ての問題点について網羅的に検討することは本研究の射程をはるかに超える。したがって，本研究では，議論の焦点を純粋にテスト理論的な観点に絞った上で．実際のテストデータを用いて理系記述式テストの IRT 適用に関する問題点について実証的に検証する。現実的に導入を検討する前の段階として，テスト理論的に理系記述式テストに IRT を適用しても問題がないこと，また，適切に運用するための現実的な最低条件等を提示できなければ，構想自体が机上の空論に過ぎないことになる。本研究は，我が国の大学入試における共通試験のような極めてハイステークスで数十万人規模の大規模な試験，しかも，理系記述式テストのような複雑な構造を備えるテスト形式の出題に IRT に基づく CBT を適用するといった我が国では斬新かつ大胆な構想に対して，フィージビリティ・スタディに踏み込む意味があるかどうかを検討するための最初の試金石と位置づけられるものである。そのような観点から，理系記述式テストへの IRT 適用を検討し，事例として適否を提示することは，この課題に対する取り組みとして社会的な意義があると考える。

1.1.2 テストの解答形式の分類

理系記述式テストに関する各論について述べる前に，テストの形式分類の中で本研究が対象とする理系記述式テストの位置づけについて確認をしておく。テストにおける解答形式1_{は選択式と解答構築式の 2 つに大別できる。選択式は，真偽式，} 多枝選択式に分けられる。解答構築式には筆記によって解答する記述式や，面接口述による解答などの筆記以外の方法による解答方式に分けられる。本研究で対象とする理系記述式テストは，基本的に解答構築式の中でも記述式に分類されるものが典型的である。記述式の代表的な方法としては，論文式，論述式，短答式，数式を用いた解答，図や絵を 1 _{質問紙への回答など，正誤の区別がない項目への応答も含む場合には「回答」という漢字を充てるのが} 一般的である。本研究は，大学入試の試験問題といった「正解」がある項目（設問）を対象とするため，一貫して「解答」という表記を用いる。

(14)

7 用いた解答，穴埋め式が挙げられる (日本テスト学会, 2007) 。日本テスト学会 (2007) は，解答者の主張をある程度まとまった文章で求める形式のことを論述式，与えられた質問に求められる解答が語句や数値などで簡単に答えられる質問形式を短答式としている。論述式の中には，通常は小論文と呼ばれる，ある程度の長さのまとまった文章を論題に合わせて自由に構成し，解答を作成するような形式の設問も含まれる。小論文の場合，模範解答や解答例が存在しても，正答，誤答という概念はあてはめにくい。そのような形式の設問について IRT を適用するケースも想定して研究を行う必要性は高いが，小論文形式の出題は本研究の対象とはしない。

1.1.3 理系記述式テスト

本研究で対象とする理系記述式テストとは，前節で述べたような短答式，数式を用いた解答，図や絵を用いた解答，穴埋め式などの解答形式で出題される理系分野の学力測定を目的とするテストを言う。本稿では，理系分野として高等学校の教育課程における数学，理科といった，大学入試におけるいわゆる受験科目となる教科で扱う範囲を想定している。なお，一つのテストの中に記述式で解答を求める設問とともに，真偽式や多枝選択式などの選択式の解答形式の設問も含まれることがあるが，本稿では，全体として理系記述式テストと呼ぶことにする。ちなみに，後述するように，本研究で分析に用いるテスト問題の項目の一部にも多枝選択式の設問が含まれている。現在，大学入試における共通試験として大学入試センター試験 (以後，「センター試験」と略記する) が存在しているが，センター試験は解答用紙としてマークシートを採用しており，形式的には客観的な採点が可能な出題となっている。したがって，理系記述式テストは，現在の制度では大学独自に出題する個別試験等で出題されている。多くは，数学や物理，化学，生物，地学などの理科の科目ないしは科目分野を出題範囲とする，教科・科目型の学力検査として出題されることが多いが，合教科・科目型の総合問題等として出題される場合もある。いずれも選択式のみのテストと比べて一項目の解答に要する時間が長く，多数の項目を出題することが難しい。項目間の関係も各設問が相互に独立な内容となる形式ではなく，一群の設問が一つのテーマを構成するいわゆる大問形式を取ることが標準となっている。

1.1.4 本研究の目的

本研究の目的は，大学入学希望者学力評価テスト (仮称) において構想されている実際の制度の下での IRT に基づく理系記述式テスト導入条件を網羅的に吟味することではない。 IRT に基づく理系記述式テストの導入には，複数回実施した場合の等化，採点の公平性，明確な採点基準の設定，多数の項目数の確保，項目プールの秘匿，学習指導要領の改訂に合わ

(15)

8 せた項目プールの更新等，運用上，実施上，あらかじめ解決されておくべき問題が多岐にわたって存在している。しかしながら，これらのことは本研究において検討の対象とするものではない。本研究が検討の対象とするのは，理系記述式テストデータの IRT モデルとの整合性に関する問題である。例えば，具体的には，設問が形式的に局所独立の仮定を満たすことが難しい場合，その逸脱がどの程度パラメタの推定に影響を及ぼすのか，といったことについて実際のデータを基に検討を加える。さらに，理系記述式テストの場合，正答，誤答の他，部分的に正しいと考えられる内容を含む解答に部分点を与えることが普通である。部分点をそのままにして IRT のモデルを適用するのは難しい場合が多いと考えられる。部分点をどのように扱えば，IRT モデルの分析に耐えられるのか，といったことも検討課題となる。この二つの問題点に関しては，改めて 1.2.2 節，1.2.3 節において詳述する。

1.1.5 第Ⅰ部の構成

第Ⅰ部においては，既存の理系記述式テストデータに IRT モデルをあてはめて分析し，その適用可能性を具体的に検討することが主題となる。序章でも述べたように，第Ⅰ部は第 1 章～第 6 章によって構成される。第 1 章では，ここまで論じてきたように，理系記述式テストを扱う社会的背景，理系記述式テストに関する特有の問題に鑑みて本稿全体の目的について述べる。次節では，本稿で扱う IRT モデルを分類したうえで，理系記述式テストへの IRT 適用の技術的な問題点，さらには，局所独立の仮定への逸脱である項目の連鎖性の構造ついて，理論的な分類を試みる。第 2 章では，第Ⅰ部で用いられる理系記述式テストデータについて紹介する。テスト問題の構成に関しては，作題者へのヒアリングに基づき，1.3 節で示すこととなる項目の連鎖性の分類に基づく構造を示す。さらに，作題者のヒアリングに基づき，第 3 章，第 4 章の分析の前段階の処理として，項目得点における部分点の併合やカテゴリ間の閾値に関する議論を行う。第 3 章では，第 2 章の方法論に基づき，理系記述式テストデータを二値型項目とみなした上で IRT による分析を行い，その結果について検討する。第 4 章では，第 2 章で述べられた方法論に基づき，理系記述テストデータを多値型項目とみなした IRT による分析を行い，その結果について検討する。第 5 章では，第 3 章，第 4 章における結果を受け，分野を超えたいわゆる合教科・科目型のテストデータを作成し，第 4 章と同様に多値データモデルの IRT による分析を行う。第 6 章では，第 3 章，第 4 章，第 5 章における理系記述式テストへの IRT 適用の事例を通して，理系記述式テストへの IRT 適用に関する考察，また課題を検討し，第Ⅱ部の議論へとつなげていく。

(16)

9

1.2 IRT 適用で予想される技術的課題

1.2.1 本研究で用いる IRT モデル

IRT では受験者の項目への解答に基づいて，被験者の能力パラメタおよび項目パラメタを推定する。本研究で分析の対象とする理系記述式テストに対しては，項目パラメタの推定に大きな負荷がかからない単純なモデルを用いることとした。具体的には，正誤のデータ，すなわち 2 カテゴリのデータを扱う二値モデルと，解答が 2 カテゴリよりも多く，部分点に対応することが可能な多値モデルを採用する。ニ値データを分析するモデルとしては，2PLM を使用する。2PLM とは，能力パラメタが 𝜃𝑖である受験者 𝑖 が項目 j に正答する確率𝑃𝑗(𝜃𝑖)を 𝑃𝑗(𝜃𝑖) = 1 1 + exp[−𝑎𝑗(𝜃𝑖− 𝑏𝑗)] (1.1) とするものである。ここで，𝑎𝑗，𝑏𝑗，は，それぞれ，項目 j の識別力パラメタおよび困難度 パラメタである。

また多値データを分析するモデルとして段階反応モデル (Graded Response Model, GRM: Samejima, 1969) を用いる。 𝑢𝑗 = 0,1,2, ⋯ , 𝑐, ⋯ , 𝐶 − 1 (1.2) 𝑃(𝑢𝑗= 𝑐|𝜃𝑖) = 𝑃𝑗𝑐(𝜃𝑖) = 𝑃𝑗𝑐∗(𝜃𝑖) − 𝑃𝑗𝑐+1∗ (𝜃𝑖) (1.3) 𝑃𝑗0∗(𝜃𝑖) = 1 (1.4) 𝑃𝑗𝐶∗(𝜃𝑖) = 0 (1.5) 𝑃𝑗𝑐∗(𝜃𝑖) = 1 1 + exp[ −𝑎𝑗(𝜃𝑖− 𝑏𝑗𝑐∗)] (1.6) 𝑢𝑗は，C 個の値をとる順序尺度の離散変数である。𝑃(𝑢𝑗 = 𝑐|𝜃𝑖)は，能力パラメタが𝜃𝑖である受験者が𝑢𝑗 = 𝑐と反応する確率を表している。𝑃𝑗𝑐(𝜃𝑖)は，能力パラメタが𝜃𝑖である受験者

(17)

10 𝑖が項目 j において c と反応する確率を表している。また，𝑃𝑗𝑐∗(𝜃𝑖)は，能力パラメタが𝜃𝑖であ る受験者𝑖が項目 j において c と反応する確率を表している。𝑎𝑗は，項目 j における識別力パ ラメタであり，𝑏𝑗𝑐∗は項目 j において c 以上のカテゴリをとることに対する困難度パラメタ ある。

1.2.2 部分点の扱いに関する技術的問題

1.1.4. 節で述べたように理系記述式テストに IRT を適用する際には，部分点の扱いに関する問題と局所独立の仮定に関する問題について検討しておく必要がある。以下の節では順次それらの問題について検討を加える。項目ごとの得点の度数分布に着目すると，部分点の与えられ方によってはカテゴリ数が非常に多くなる場合がある。さらに，ある得点のカテゴリに受験者がほとんどいないというケースもある。そのため採点の結果与えられた部分点を含む項目得点をそのままのカテゴリとして IRT を適用することには技術的な困難が予想される。これらの技術的な問題を解決するための方略として，部分点と部分点の間に閾値を設定し，カテゴリ数を減少させる方法が有効とみられる。その際，得点を正誤にあたる二値データとして扱うことが一つ目の案である。その場合には基本的な二値の IRT モデルが適用可能となる。もう一つの案は，カテゴリ数を元の部分点の数よりも少なくするが，二値までには絞らない方法である。その場合には多値データに対する IRT モデルを適用することが必要となる。正答，誤答の二値だけではなく，部分点が与えられて回答結果の分類が 2 カテゴリ以上になる場合，GRM，一般化部分得点モデル (Generalized Partial Credit Model: GPCM, Muraki, 1992) ，名義反応モデル (Nominal Response Model: NRM, Bock, 1972) 等の多値型のモデルが適用される。本研究では，2PLM の拡張モデルとして広く用いられる GRM を用いて分析を進めることとした。多枝選択式のテストデータに対し GRM を用いて分析を行った日本国内の研究としては，平井 (1993) ，平井・渡部 (1994) ，石塚・中畝・内田・前川 (2001) ，御園・水町 (2011) が挙げられる。しかし，これらの先行研究では記述式のテストデータに関する言及はなされていない。わが国において，記述式のテストデータに段階反応モデルを適用した先行研究は，管見の限り，平井・渡部 (1994) の小論文の採点データを GRM による分析を行った研究，また国語の記述式テストデータの GRM による分析 (柴山，2012) のみである。平井・渡部 (1994) は，カテゴリ採点の有効性の検討，また評定者の評価の特徴を把握することを主眼としており，評定者 11 人を項目と見立てた上での分析を行ったものである。そのため，本研究のように記述式テストの部分点に着目した段階反応モデルの適用が行われたわけではない。また，柴山 (2012) は記述式テストデータに対し GRM を適用したが，局所独立の仮定を満たさない項目に対する分析という観点からの研究ではない。

(18)

11

1.2.3 局所独立の仮定に関する技術的問題点

局所独立の仮定は，IRT を用いた分析を行う際に必要とされる重要な仮定の一つである。局所独立の仮定とは，「能力パラメタ𝜃𝑖が所与である場合には，項目反応は互いに独立である」という仮定である (豊田, 2002) 。これは，𝐽個の項目への項目反応𝑥1, 𝑥2, ⋯ 𝑥𝐽の条件付き同時確率𝑃 (𝑥1, 𝑥2, ⋯ , 𝑥𝐽|𝜃𝑖) が条件付き周辺確率の積に等しくなることである。つまり局所独立の仮定とは反応データについて， 𝑃(𝑥1, 𝑥2, ⋯ , 𝑥𝐽|𝜃𝑖) = ∏ 𝑃 (𝑥𝑗|𝜃𝑖) 𝐽 𝑗=1 (4.1) となることを仮定するというものである。大問形式での出題は長文問題のようなあるテーマに沿った出題，また前の問題が解けなければ後の問題が解けない出題等が考えられる。これらの形式では原理的に局所独立の仮定を満たすことができない。大問形式は多枝選択式テストにおいても用いられるが，本研究で扱う理系記述式テストを含むいわゆる記述式テストで多く用いられる出題形式である。これは，例えばあるリード文2_{を読ませ，それに関する複数の項目が出題される場合，数学のテストにおいて数式を展} 開させる場合などである。多枝選択式テストに多くみられる一問一答形式と比べるとまとまった思考の過程を見ることができるというメリットがある。大問形式は我が国の日本のテスト文化の一つとされている (荒井・前川，2005) 。

Yen (1993) は，局所独立の仮定を満たさないことを局所依存 (Local item dependence : LID) と呼び，LID を引き起こす原因を複数挙げている。その中で記述式かつ大問形式のテストにおいて， LID を引き起こす原因として考えられるものとしては，文脈依存 (Passage dependence) と項目間の連鎖性 (Item chaining) が挙げられる。

文脈依存とは，複数の項目間の間接的な相互関係性を指す。すなわち，大問形式のテストにおいては，一つのリード文のもとにある一定のテーマが与えられ，それに沿った複数の小問が出題されるのが典型的な出題形式と言える。それらの小問の間に直接的な関係性がなかったとしても同じリード文を共有していることから，ほかのリード文を共有する一群の設問との間に局所独立の仮定が満たされない構造となってしまう。Yen (1993) の概念を適用すると，そのようなケースが文脈依存の状態と考えられる。それに対して，項目の連鎖性とは，二つの項目間のより直接的な相互関係性を表す。例えば，数式を展開させるような設問の場合，直前の問題に正解できなければその次の設問に正 2_{「リード文」という用語は，教育現場では「次の文章を読んで，以下の問に答えよ。}_{」といった試験問題} の冒頭の一文を指す場合と「次の文章」に当たる問題文そのものをさす場合が混在しているようだ。ここでは，「問題文」の意味である。

(19)

12 答できないというような構造の主題形式がよくみられる。このような構造の項目の関係は Yen (1993) の概念を適用すると項目間の連鎖性が存在する場合であると考えられる。三つ以上の項目が連鎖性を持つ場合もあるが，それは二つの項目の間の連鎖の連続と考えればよいだろう。Yen (1993) は，連鎖性に関して「項目が段階的に構成されており，前の問題の正解が分かると，次 (next) の項目の正答率が上がる」と述べている。連鎖性と同様の概念として実験的独立性が挙げられる。Lord＆Novick (1968) は「ある項目の正誤が，他の項目の正誤に影響を与える」とき実験的独立性が欠如するとした。また南風原 (2000) は実験的独立性と局所独立性を同一視することは誤りであるが，実験的独立性が局所独立性の必要条件であることを示した。つまり実験的独立性が満たされていたとしても局所独立性が満たされない場合はあるが，実験的独立性が満たされない場合は局所独立性も満たされないということである。本研究では連鎖性を「任意の項目ペアにおいて，前の項目の正誤が，後の項目の正誤に影響すること」と定義し，実験的独立性の下位概念としてとらえる。つまり連鎖性がある項目は実験的独立性を満たさず，局所独立性を満たさないということである。文脈依存の関係にせよ，連鎖性にせよ，局所独立を仮定できないデータに IRT を適用すると，能力パラメタの推定誤差の増加 (登藤，2010) や項目識別力の過大推定 (Chen & Wang, 2007; Tuerlinckx & De Boeck, 2001) が起こるとされている。したがって，局所独立の仮定への侵犯の有無は，項目識別力の推定値が通常のテストで想定される値の範囲に収まっているか否かで判断することが可能と考えられる。

局所依存性の問題を解決する方法の一つとして，一つの大問に含まれる項目群をテストレット (Wainer & Kiely, 1987) にまとめる方法がある。テストレットとは，複数の項目をひとまとめとし，一つの項目とみなして扱うことを指す。具体的な分析の際には，局所独立性を満たさない項目群をテストレットとし，テストレットごとに多値型モデルによる分析を行うというものである。

テストレットに対して適用する多値型モデルとして，石塚ほか (2001) は GRM，Sireci, Thissen and Wainer (1991) は NRM，Yen (1993) は GPCM を用いた。この分析の利点として石塚ほか (2001) は，項目間の局所独立性の仮定を項目の集合であるテストレット間の局所独立性で置き換えることができるとしている。しかし，テストレットを用いるデメリットとして，複数の項目を一つの項目として扱うため項目数が減ることが挙げられる。本研究で分析の対象とする理系記述式テストにおいては，元来，多くの項目数を確保するのが難しい。したがって，分析過程の中で，モデルの精緻化と項目数のいずれを取るか，という選択に迫られることが考えられる。

(20)

13

1.3 項目の連鎖性の分類

Yen (1993) の局所依存に関する議論のうち，連鎖性と呼ばれるものは「二項目間に正答率の影響があること」とされるにとどまっており，項目の関係性と影響の強さに関しては，明示的に言及はなされていない。連鎖性の強さに影響を及ぼす二項目間の構造は一様ではない。構造の違いによって LID の程度にも違いがみられることが考えられる。そこで本研究では，現実のテスト場面に即して項目間の関係性の違いに着目し．項目の連鎖性を分類することを試みる。テストに含まれる任意の二つの項目のペアを，出題順に「前の項目」「後の項目」と表現する。受験者群のそれぞれの項目への「正答，誤答」の解答パタンについて，図 1-1 で示すような２×２のマトリックスとして表す。受験者の解答は，必ずこの「前の項目に正答かつ後の項目に正答」「前の項目に正答かつ後の項目に誤答」「前の項目に誤答かつ後の項目に正答」「前の項目に誤答かつ後の項目に誤答」四つのパタンのいずれかに属する。すなわち，項目ペアの連鎖性の違いをこの 4 パタンの出現頻度の違いとして表現する試みである。本節では，連鎖性の強さに基づき，項目ペアの連鎖性を以下の四分類法を提案する。

1.3.1 実質的同一項目

図 1-1. 項目ペア解答 4 パタン概念図

(21)

14 二つの項目に関する正答が同一の操作で同時に導かれるような関係を考える。極端な話，全く同じ設問が続けて出題されているようなケースである。前の項目の正答情報さえあれば後の項目には必ず正答できるため，前の項目に正答であった受験者は後の項目に正答する。逆に，前の項目に誤答であった受験者は後の項目にも誤答することになる。二つの項目の正誤情報は同一となり「前の項目に正答かつ後の項目に誤答」「前の項目に誤答かつ後の項目に正答」という二種類の解答パタンは原則として見られない。したがって，モデル上は，実際に出現するパタンが「前の項目に正答かつ後の項目に正答」と「前の項目に誤答かつ後の項目に誤答」という二つに限られることとなる。このような項目の連鎖のパタンを「実質的同一項目による連鎖項目ペア」と呼ぶ。概念図を図 1-2 に示す。 図 1-2. 実質的同一項目による連鎖項目ペアの解答パタン概念図

1.3.2 完全連鎖項目

次に，例えばセンター試験の数学のように前の項目の解答情報を用いて後の項目の解答を導くような項目構造が考えられる。この場合，前の項目に不正解であると後の項目は必ず不正解となる。このように，後の項目に正答するためには前の項目で正答していなければならない，といったような形で強い連鎖性を有している項目ペアを「完全連鎖項目ペア」とす

(22)

15 る。概念図を図 1-3. に示す。完全連鎖項目ペアの場合，前の項目に正答した受験者は後の項目にも正答する可能性がある。しかし，前の項目に誤答した受験者は，後の項目には正答することが出来ない。よって，完全連鎖項目ペアの場合，原理的には「前の項目に誤答かつ後の項目に正答」以外の三つの解答パタンの出現があり得る。 図 1-3. 完全連鎖型項目ペアの解答パタン概念図

1.3.3 部分連鎖項目

理系記述式テストの場合には，前の項目に部分的に正解し，その部分的な正解の情報を用いて後の項目にも部分的に正解するようなケースがみられる。また，前の項目と後の項目は基本的に独立した問題であるが，前の項目に正答した受験者の方が，後の項目が解きやすい，すなわち，前の項目が後の項目のヒントとなっているような構造も考えられる。さらに，客観式テスト，記述式テストにかかわらず，大半の受験者にとっては一連の連鎖型の項目として解くのが自然であったとしても，異なる解き方で正解に至る，いわゆる別解が存在する場合がある。すなわち，試験問題の構造によっては，前の項目には不正解であっても，多くの受験者がたどるプロセスとは異なる解法で正解に至る道筋を見出した一部の受験者が後の項目のみに正答することがあり得る。

(23)

16 「完全連鎖項目」ペアと比べると連鎖性が弱いと考えられるこのような項目ペアの関係性を「部分連鎖項目」と称することとする。概念図を図 1-4 に示す。部分連鎖項目ペアの場合，4 パタンすべての解答パタンをとる可能性がある。部分連鎖項目ペアの特徴としては，連鎖の度合いが強くなるにつれて「前の項目に正答かつ後の項目に誤答」の解答パタンが増加し，逆に「前の項目に誤答かつ後の項目に正答」のパタンが減少する。すなわち，完全連鎖項目ペアに近づいていく。逆に，連鎖の度合いが弱くなるにつれて「前の項目に誤答かつ後の項目に正答」の解答パタンが増加し，逆に「前の項目に正答かつ後の項目に誤答」のパタンが減少する。すなわち，直接的な連鎖のない，文脈依存の関係の項目ペアに近づいていく。 図 1-4. 部分連鎖項目ペアの解答パタン概念図

1.3.4 連鎖性がない項目

項目ペアに連鎖性がない場合は，4 パタンすべての解答パタンをとる。概念図を図 1-5.に示す。連鎖性がない項目ペアには，同じリード文を共有する等，他のいくつかの項目と文脈依存

(24)

17 性があるために，完全には局所独立を満たしていないケースがある。また，全ての項目について相互に構造的な関係性が見られない局所独立性が満たされたケースも考えられる。繰り返しになるが，通常の IRT モデルでは全ての項目に局所独立の関係が成立することを前提としているが，理系記述式テストは，構造的にそれが満たされない問題形式となっているのが通常である。 図 1-5. 連鎖のない項目ペアの解答パタン概念図

(25)

18

第 2 章

第Ⅰ部における理系記述式テストと分析モデル

2.1 テスト問題の構成

第Ⅰ部では倉元 (2003) で用いられた，大学入学試験問題開発研究のために実施されたテストデータを用いて分析を行う。このテストは大学進学を目指す高校 3 年生の生徒，約 2, 900 名の参加のもとに解答を得たものである (倉元, 2003) 。実際の問題内容は，巻末資料 1 に示す3_。総合問題Ⅰは数学分野からの出題である。総合問題Ⅱ□1は物理分野，総合問題Ⅱ□2 は化学分野，総合問題Ⅱ□3 は生物分野からの出題となっている。以後，本稿で数学分野，物理分野，化学分野，生物分野と表現するテストデータは，それぞれ総合問題Ⅰ，総合問題Ⅱ□1 ，総合問題Ⅱ□2 ，総合問題Ⅱ□3 を指す。数学分野は全員必答，総合問題Ⅱからは 3 問中 2 問の選択必答という形式であったが，ほとんどの受験者は化学分野に解答し，加えて物理分野ないしは生物分野のうち１つを選択して解答していた。出題形式としては，一部に選択式が含まれているものの，基本的にほとんどがいわゆる記述式と呼ばれる解答構築式の設問であった。理系分野からの出題であり，一部の例外を除いてほとんどが記述式での解答を求める典型的な理系記述式テストの出題形式となっていることから，本テストを理系記述式テストの一つの事例として位置づけることが可能と考えることとした。本節ではテスト問題の解答形式，配点，および，基礎統計量について述べる。各分野の項目番号は，巻末資料 1. の実際の問題用紙に記された項目番号と異なるため，対応関係を巻末資料 2. に記す。数学分野のテストは大問 1 に 3 項目 (item1_1_01～item1_1_03) ，大問 2 に 4 項目 (item1_2_01～item1_2_04) が含まれ，計 7 項目で構成されている。また，すべての項目は記述式の解答形式を取っている。巻末資料 1. に示す通り，7 項目中 6 項目は数式を用いた解答を求める設問であり，1 項目が図と数式を用いた解答であった。それぞれの項目には 10～ 20 点の配点がなされ，計 100 点満点として採点されていた。各項目の解答形式・配点・基礎統計量を表 2-1. に示す4_。 3_{本研究で分析に用いられたテストデータは，所有者の許諾を得た上で再分析したものである。また，試験} 問題は倉元 (2003) pp.149-167 に掲載されていたものを，著者の許諾を得て再掲したものである。なお，本研究で行ったテストデータの再分析に関しては，東北大学大学院教育情報学研究部研究倫理審査委員会より，平成 27 年 10 月 6 日付で審査結果「非該当（審査対象外）」との通知を受けている。 4_{表 2-1～表 2-4 は，巻末資料 1 の試験問題と受験者ごとの項目得点のデータに対して筆者が再分析を行っ} て得た結果を基に作成したものである。

(26)

19 表 2-1. 各項目の解答形式・配点・基礎統計量 (数学分野) 項目解答形式配点平均得点得点率標準偏差合計得点との相関係数 item1_1_01 数式を用いた解答 10 8.17 81.7% 3.23 0.56 item1_1_02 数式を用いた解答 10 6.71 67.1% 4.01 0.61 item1_1_03 数式を用いた解答 20 6.82 34.1% 7.90 0.79 item1_1_04 数式を用いた解答 10 1.95 19.5% 3.74 0.71 item1_2_01 図と数式を用いた解答 15 12.29 81.9% 5.08 0.47 item1_2_02 数式を用いた解答 15 2.57 17.2% 4.10 0.59 item1_2_03 数式を用いた解答 20 2.19 10.9% 4.01 0.56 物理分野のテストは大問 1 に 4 項目 (item2_1_01～item2_1_04) ，大問 2 に 2 項目 (item2_2_01，item2_2_02) ，大問 3 に 5 項目 (item2_3_01～item2_3_05) が含まれ，計 11 項目で構成されている。またそれぞれの項目には 3～9 点の配点がなされ，計 50 点満点であった。巻末資料 1. に示す通り，物理分野のテストでは 11 項目中 4 項目が多枝選択式の解答形式であった。その他の 7 項目は記述式の解答を求める設問であり，図を用いた解答，短答式，論述式が各 1 項目，数式を用いた解答が 4 項目であった。各項目の解答形式・配点・基礎統計量を表 2-2. に示す。 表 2-2. 各項目の解答形式・配点・基礎統計量 (物理分野) 項目解答形式配点平均得点得点率標準偏差合計得点との相関係数 Item2_1_01 多枝選択式 3 2.18 72.5% 1.34 0.22 Item2_1_02 多枝選択式 3 2.20 73.2% 1.33 0.28 Item2_1_03 多枝選択式 3 2.31 77.1% 1.26 0.18 Item2_1_04 多枝選択式 8 2.91 36.3% 2.65 0.66 Item2_2_01 図を用いた解答 3 0.06 2.0% 0.42 0.18 Item2_2_02 短答式 4 1.16 29.1% 1.63 0.53 Item2_3_01 数式を用いた解答 9 4.62 51.4% 3.80 0.79 Item2_3_02 論述式 3 0.38 12.7% 1.00 0.43 Item2_3_03 数式を用いた解答 4 0.86 21.6% 1.20 0.66 Item2_3_04 数式を用いた解答 5 0.65 13.1% 1.46 0.57 Item2_3_05 数式を用いた解答 5 0.04 0.8% 0.44 0.25

(27)

20 表 2-3. 各項目の解答形式・配点・基礎統計量 (化学分野) 項目解答形式配点平均得点得点率標準偏差合計得点との相関係数 Item3_1_01 穴埋め式 14 6.49 46.4% 3.18 0.75 Item3_1_02 数式を用いた解答 6 0.71 11.9% 1.87 0.60 Item3_1_03 数式を用いた解答 6 2.28 38.0% 2.79 0.70 Item3_2_01 論述式 3 0.78 26.0% 1.15 0.41 Item3_2_02 論述式 3 0.36 12.1% 0.80 0.25 Item3_2_03 穴埋め式 3 0.57 19.0% 1.18 0.41 Item3_2_04 短答式 3 0.27 9.0% 0.86 0.34 Item3_2_05 穴埋め式 6 2.96 49.4% 2.83 0.66 Item3_2_06 数式を用いた解答 6 0.02 0.3% 0.34 0.09 化学分野のテストは大問 1 に 3 項目 (item3_1_01～item3_1_03) ，大問 2 に 6 項目 (item3_2_01～item3_2_06) が含まれ，計 9 項目で構成されている。またそれぞれの項目には 3～14 点の配点がなされ，計 50 点満点であった。巻末資料 1. に示す通り，化学分野のテストは 9 項目すべてが記述式の解答を求める設問形式となっており，短答式が 1 項目，論述式が 2 項目，穴埋め式，数式を用いた解答が各 3 項目であった。各項目の解答形式・配点・基礎統計量を表 2-3. に示す。 表 2-4. 各項目の解答形式・配点・基礎統計量 (生物分野) 項目解答形式配点平均得点得点率標準偏差合計得点との相関係数 Item4_01 短答式 10 3.42 34.2% 3.29 0.54 Item4_02 論述式 10 4.48 44.8% 4.66 0.67 Item4_03 短答式 10 3.11 31.1% 4.39 0.65 Item4_04 短答式 10 1.37 13.7% 3.28 0.50 Item4_05 短答式 5 1.70 34.0% 2.37 0.41 Item4_06 短答式 5 3.34 66.7% 2.36 0.53 生物分野のテストは 6 項目 (item4_01～item4_06) から構成された。それぞれの項目には 5～10 点の配点がなされ，計 50 点であった。巻末資料 1. に示す通り，生物分野のテストは 6 項目すべて記述式の解答を求める設問形式を採っており，6 項目中 5 項目が短答式，1 項目が論述式であった。各項目の解答形式・配点・基礎統計量を表 2-4. に示す。

(28)

21

2.2 分析対象

先述の通り，第Ⅰ部で分析対象とするテストは，数学分野，物理分野，化学分野，生物分野からの出題がなされた。第 3 章，第 4 章では，先に挙げた 4 科目への，全項目無解答者を除いた解答データを分析の対象とした。分析対象者数を表 2-5. に示す。 表 2-5. 各テストの分析対象者数 分析対象者数数学 2733 物理 1776 化学 2639 生物 946

2.3 連鎖性の構造

各テストの作題者に各教科の連鎖性の構造に関してのヒアリングを行った5_{。その結果を} 図 2-1.～図 2-4. に示す。黒の項目は連鎖性のある項目を示す。矢印は連鎖の向きを示す。水色の項目は連鎖性のない項目である。

数学分野は，総合問題Ⅰ□1では，Item1_1_01 と Item1_1_02，Item1_1_02 と Item1_1_03 が部分連鎖の項目ペア，Item1_1_03 と Item1_1_04 が完全連鎖の項目ペアに当たることが分かった。また，総合問題Ⅰ□2では，Item1_2_01 は独立した項目であるとされた。Item1_2_02 と Item1_2_03 が完全連鎖の項目ペアであった。 5_{数学分野の大問 2 問のうち，総合問題Ⅰ}□₂_{の作題者である高屋敷一博先生はすでに他界され，故人とな} っているため，数学分野の連鎖性に関するヒアリングは総合問題Ⅰ□1の作題を担当した森田康夫先生（東北大学名誉教授）に対して行った。数学分野に関するヒアリングは，2014 年 11 月 7 日（金）に東北大学入試センター内入試開発室合同研究室で実施した。物理分野に関するヒアリングは，作題を担当した関川準之助先生（北海道函館中部高等学校〔当時〕）に対し，2015 年 1 月 24 日（土）に東北大学入試センター内入試開発室合同研究室と関川先生のご自宅を Skype で結んでテレビ会議の形式で実施した。化学分野に関するヒアリングは，作題を担当した奈良昌孝先生（青森県立五所川原工業高等学校校長［ヒアリング実施当時］）に対し，2015 年 3 月 5 日（木）に五所川原工業高校校長室にて実施した。生物分野に関するヒアリングは，作題を担当した小川瑞穂先生（埼玉大学名誉教授）に対し，2015 年 3 月 9 日（月）に東北大学入試センター内入試開発室合同研究室で実施した。いずれも，1～2 時間程度の時間を費やし，試験問題内容に関する解説とともに，問題の連鎖性の構造，部分点の与え方と再カテゴリの妥当性について意見を聴取したものである。なお，本研究で行ったヒアリングに関しては，東北大学大学院教育情報学研究部研究倫理審査委員会より，平成 27 年 10 月 6 日付で審査結果「非該当（審査対象外）」との通知を受けている。

(29)

22

図 2-1. 数学 7 項目の連鎖性の構造

物理分野は大問 1 と大問 2 に含まれる項目，すなわち Item2_1_01～Item2_1_04，Item2_2_01， Item2_2_02 は独立した項目であることが分かった。大問 3 に関しては，Item2_3_01 と Item2_3_02，Item2_3_03 と Item2_3_04，Item2_3_04 と Item2_3_05，が部分連鎖の項目ペアとされた。

図 2-2. 物理 11 項目の連鎖性の構造

化学分野は大問 1 において Item3_1_01 と Item3_1_02，Item3_1_01 と Item3_1_03 が部分連鎖の項目ペアとされた。また，大問 2 に関しては Item3_2_01，Item3_2_02，Item3_2_04 はほかの設問から独立した項目であった。Item3_2_03 と Item3_2_06，Item3_2_05 と Item3_2_06 は部分連鎖の項目ペアであるとされた。

(30)

23

図 2-3. 化学 9 項目の連鎖性の構造

図 2-4. 生物 6 項目の連鎖性の構造

生物分野は Item4_01～Item4_06 すべてが独立した項目であり，生物分野全体として構造的には局所独立が成立していた。

(31)

24

2.4 二値モデル・多値モデル適用に向けて

1.2.2 節では，大問形式を IRT によって分析を行う際に考慮すべき問題として，部分点を如何に扱うかという点，また局所独立の仮定に対してテストレットは有用であるかという点を挙げた。一般的に，記述式テストの項目数は少ないと考えられるため，IRT モデルに基づく分析のために項目数を減らすことは避けたいところである。生物分野以外は局所独立の仮定を満たさない構造となっているが，部分的に局所依存の関係にある項目群に対して IRT のモデルが頑健か否か検討する必要がある。そこで第 3 章では理系記述式のテストデータに対し，IRT モデルの中でもシンプルかつ広く扱われる 2PLM を用いて分析することとした。作題者へのヒアリングを通じて，部分点の間に閾値を設定して反応を二分し，各項目を二値データとみなした上で 2PLM による分析を行う。分析の結果，困難度パラメタもしくは識別力パラメタが通常でない値を示し，かつその項目が局所独立の仮定を満たさないと考えられる項目であった場合，その項目とペアである項目をテストレットとして再分析を行う。項目数が豊富にある場合，連鎖性があると考えられる項目ペアはすべてテストレットとすべきである。しかし，テストレットにした場合には項目数の減少が避けられない。そのため，困難度パラメタもしくは識別力パラメタが通常でない項目に関してのみテストレットとする。第 4 章では理系記述式テストデータに対し GRM での分析を行う。各項目は多値型項目として扱い，GRM での分析を行う。二値型項目の場合と多値型項目の場合，また局所独立の仮定を満たさない項目をテストレットとしない場合と，テストレットとする場合の結果から，理系記述式テストデータへの IRT の適用を検討する。

(32)

25

第 3 章

項目得点を二値とした場合の IRT モデルの適用

3.1 目的

本章では，理系記述式テストデータへの 2PLM 適用可能性を検討することを目的とする。 2PLM を適用して推定した困難度パラメタ，識別力パラメタが通常あり得ない推定値を示した場合には，局所独立を満たさない項目をテストレットとすることで，結果が改善するか否かの検討を行う。なお，本章ではそれぞれの分野を個別に分析の対象とする。すなわち，試験としては，伝統的に行われてきた教科・科目型のテストを念頭に置いたものである。

3.2 方法

3.2.1 分析対象

2.2. 節で示した，数学分野，物理分野，化学分野，生物分野の 4 分野への全項目無解答者を除いた解答データを分析の対象とした。すなわち，例えば，数学のみに解答した受験者がいた場合でも，削除せずに数学分野の分析に含めて分析を行った

3.2.2 項目得点のカテゴリ化

これらの項目は配点通りにカテゴライズすると，それぞれの項目がとるカテゴリ数は配点＋1 カテゴリとなる。しかし，採点は 1 点刻みに行われたわけではない。すなわち，該当者が存在していないカテゴリ，あるいは，該当者が少数で分析に耐えないと思われるカテゴリが数多く存在する構造となっている。したがって，たとえ多値データに基づく分析を行う場合でも，あらかじめ項目のカテゴリ数を絞る必要がある。さらに，本章では 2PLM を用いるため，カテゴリ数を 2 カテゴリにする必要がある。テスト項目の内容から見て合理的なカテゴライズを行うために，2.3 節で述べた各作題者へのヒアリングをもとに閾値を定めた。作題者には本テストの項目得点のヒストグラムを提示し，妥当な閾値について判断を仰いだ。その結果を用いて，すべての項目を 2 カテゴリとして分析を進めることとした。各教科の二値カテゴリ得点と配点における得点との対応，度数分布を表 3-1.～表 3-4. に示す。また，各項目のヒストグラムを巻末資料 3. に示す。

(33)

26 表 3-1. 数学 7 項目の二値カテゴリ得点と配点との対応 項目二値得点 0 二値得点 1 item1_1_01 0～9 896 人 (32.8％) 10 1837 人 (67.2％) item1_1_02 0～9 1248 人 (45.7％) 10 1485 人 (54.3％) item1_1_03 0～19 2193 人 (80.2％) 20 540 人 (19.8％) item1_1_04 0～9 2315 人 (84.7％) 10 418 人 (15.3％) item1_2_01 0～14 774 人 (28.3％) 15 1959 人 (71.7％) item1_2_02 0～14 2617 人 (95.8％) 15 116 人 (4.2％) item1_2_03 0～19 2729 人 (99.9％) 20 4 人 (0.1％)

(34)

27 表 3-2. 物理 11 項目の二値カテゴリ得点と配点との対応 項目二値得点 0 二値得点 1 item2_1_01 0～2 488 人 (27.5％) 3 1288 人 (72.5％) item2_1_02 0～2 476 人 (26.8％) 3 1300 人 (73.2％) item2_1_03 0～2 407 人 (22.9％) 3 1369 人 (77.1％) item2_1_04 0～3 1388 人 (78.2％) 4～8 388 人 (21.8％) item2_2_01 0～2 1741 人 (98.0％) 3 35 人 (2.0％) item2_2_02 0～3 1399 人 (78.8％) 4 377 人 (21.2％) item2_3_01 0～8 1162 人 (65.4％) 9 614 人 (34.6％) item2_3_02 0～2 1550 人 (87.3％) 3 226 人 (12.7％) item2_3_03 0～3 1675 人 (94.3％) 4 101 人 (5.7％) item2_3_04 0～4 1629 人 (91.7％) 5 147 人 (8.3％) item2_3_05 0～4 1764 人 (99.3％) 5 12 人 (0.7％)

(35)

28 表 3-3. 化学 9 項目の二値カテゴリ得点と配点との対応 項目二値得点 0 二値得点 1 Item3_1_01 0～7 1524 人 (57.7％) 8～14 1115 人 (42.3％) Item3_1_02 0～5 2380 人 (90.2％) 6 259 人 (9.8％) Item3_1_03 0～5 1742 人 (66.0％) 6 897 人 (34.0％) Item3_2_01 0～2 2267 人 (85.9％) 3 372 人 (14.1％) Item3_2_02 0～2 2476 人 (93.8％) 3 163 人 (6.2％) Item3_2_03 0～2 2139 人 (81.1％) 3 500 人 (18.9％) Item3_2_04 0～2 2401 人 (91.0％) 3 238 人 (9.0％) Item3_2_05 0～5 1477 人 (56.0％) 6 1162 人 (44.0％) Item3_2_06 0～3 2629 人 (99.6％) 4～6 10 人 (0.4％)

(36)

29 表 3-4. 生物 6 項目の二値カテゴリ得点と配点との対応 項目二値得点 0 二値得点 1 Item4_01 0～9 843 人 (89.1％) 10 103 人 (10.9％) Item4_02 0～9 581 人 (61.4％) 10 365 人 (38.6％) Item4_03 0～4 611 人 (64.6％) 5～10 335 人 (35.4％) Item4_04 0～4 796 人 (84.1％) 5～10 150 人 (15.9％) Item4_05 0～4 624 人 (66.0％) 5 322 人 (34.0％) Item4_06 0～4 315 人 (33.3％) 5 631 人 (66.7％)

(37)

30

3.2.3 分析モデル

本章では，まず，解答データを 2 段階にカテゴライズし，二値型項目として扱う。次に，推定結果として異常な項目パラメタ推定値が現れた場合に，複数の項目を一つのテストレットとしてまとめて多値モデルによる分析を行う。テストレットの得点は，テストレットに含まれる項目の項目得点の合計とした。本章においてはテストレットに含まれる項目はすべて二値型項目であることから，テストレットとした項目は「テストレットに含まれる項目数＋1」のカテゴリ数の多値データとなる。

3.2.4 分析方法

まず各教科の一次元性をスクリープロットによって確認する。次に二値型項目としてのテストデータを 2PLM によって分析し，項目パラメタの算出を行った。分析には IRTPRO ver.2.1 (Cai, Thissen & du Toit, 2011) を用いた。

IRT への適用に際して，識別力パラメタの推定値の通常想定される値を 0～2.0 とし，この値の範囲に収まるか，という観点から検討を行った。識別力パラメタの推定値 0～2.0 に収まらない場合，識別力の過大推定とみなすこととした。なお，被験者パラメタについては，標準正規分布を仮定して，推定を行った。次いで，識別力パラメタ推定値が通常の範囲に収まらなかった項目が局所独立の仮定を満たさない項目であれば，識別力パラメタ推定値が通常の範囲に収まらなかった項目を含む複数の項目をテストレットとして分析を行うこととした。

3.3 結果

3.3.1 スクリープロット

各分野の一次元性を確認するため，配点をもとにした素点合計点から求めたスクリープロットを描いた。数学分野のスクリープロットを図 3-1.，物理分野のスクリープロットを図 3-2.，化学分野のスクリープロットを図 3-3.，生物分野のスクリープロットを図 3-4. に示す。すべての分野において，一次元性があると判断し分析を進めた。

(38)

31

図 3-1. 数学分野 7 項目のスクリープロット

(39)

32

図 3-3. 化学分野 9 項目のスクリープロット

(40)

33

3.3.2 二値型項目としての分析による項目パラメタ・情報曲線

二値型項目を 2PLM で分析した結果の項目パラメタを表 3-5. ～表 3-8. に示す。また情報曲線を図 3-5. ～図 3-8. に示す。 表 3-5. 数学分野 7 項目（二値型）の項目パラメタ 項目 a s.e. b s.e. item1_1_01 1.68 0.11 -0.63 0.04 item1_1_02 1.28 0.08 -0.18 0.04 item1_1_03 3.26 0.30 -0.02 0.03 item1_1_04 4.34 0.90 0.78 0.03 item1_2_01 0.63 0.06 -1.61 0.15 item1_2_02 0.83 0.07 1.07 0.09 item1_2_03 0.85 0.07 1.51 0.12 図 3-5. 数学分野 7 項目（二値型）のテスト情報曲線と標準誤差

(41)

34 表 3-6. 物理分野 11 項目（二値型）の項目パラメタ 項目 a s.e. b s.e. item2_1_01 0.17 0.06 -5.61 2.06 item2_1_02 0.35 0.07 -2.93 0.55 item2_1_03 0.09 0.07 -14.28 11.29 item2_1_04 1.11 0.11 0.25 0.09 item2_2_01 1.09 0.29 4.07 0.97 item2_2_02 1.11 0.11 0.60 0.12 item2_3_01 2.43 0.21 -0.08 0.06 item2_3_02 1.42 0.14 1.79 0.16 item2_3_03 2.51 0.23 0.40 0.08 item2_3_04 2.24 0.28 1.05 0.14 item2_3_05 3.29 2.16 2.70 0.55 図 3-6. 物理分野 11 項目（二値型）のテスト情報曲線と標準誤差

(42)

35 表 3-7. 化学分野 9 項目（二値型）の項目パラメタ 項目 a s.e. b s.e. item3_1_01 1.34 0.09 0.32 0.04 item3_1_02 3.19 0.37 1.27 0.05 item3_1_03 1.75 0.12 0.28 0.03 item3_2_01 0.89 0.07 0.80 0.07 item3_2_02 0.61 0.07 2.23 0.22 item3_2_03 0.89 0.08 1.87 0.14 item3_2_04 1.08 0.10 2.53 0.19 item3_2_05 1.18 0.08 0.26 0.04 item3_2_06 1.20 0.39 5.24 1.38 図 3-7. 化学分野 9 項目（二値型）のテスト情報曲線と標準誤差

(43)

36 表 3-8. 生物分野 6 項目（二値型）の項目パラメタ 項目 a s.e. b s.e. item4_01 0.83 0.12 -0.42 0.10 item4_02 1.01 0.15 -0.03 0.08 item4_03 0.96 0.15 0.74 0.12 item4_04 1.09 0.17 1.86 0.23 item4_05 0.88 0.14 0.87 0.13 item4_06 1.82 0.30 -0.59 0.07 図 3-8. 生物分野 6 項目（二値型）のテスト情報曲線と標準誤差