多次元項目反応モデルにもとづく学力テストデータの構造分析

全文

(1)博士論文. 多次元項目反応モデルにもとづく学力テストデータの構造分析. 坂本. 佑太朗.

(2) 目. 次. 第 1 章. 序論 .................................................................... 1. 1.1. 「テスト」を巡る今日的状況 .......................................... 1. 1.2. テスト研究における下位領域の取り扱いとその重要性 ......... 3. 1.3. 本研究の目的 .............................................................. 4. 第 2 章 2.1. 理論と実際 ........................................................... 6 テスト開発の実際 ........................................................ 7. 2.1.1. テスト開発の全体像 ................................................ 7. 2.1.2. 項目開発 ............................................................... 9. 2.2. 理論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11. 2.2.1. IRT と CDM ......................................................... 12. 2.2.2. UIRT モデル ........................................................ 13. 2.2.3. MIRT モデル ........................................................ 24. 2.2.4. bi-factor モデル ................................................... 27. 2.2.5. テストの下位領域検討における MIRT の有効性 ........... 38. 第 3 章. 下位領域に着目した項目分析とテスト開発への応用可能性 . 40. 3.1. 問題と目的 ............................................................... 40. 3.2. 方法 ........................................................................ 44. 3.2.1. 使用データ .......................................................... 44. 3.2.2. モデル ................................................................ 45. 3.3. 結果 ........................................................................ 47. 3.3.1. 「知識」の場合 .................................................... 49. 3.3.2. 「推論」の場合 .................................................... 50. 3.3.3. 「応用」の場合 .................................................... 52. 3.4. テスト開発へのインプリケーション ............................... 54. 3.5. まとめと今後の課題 ................................................... 55. i.

(3) 第 4 章. 下位領域特有の潜在特性尺度値と素点との関連 ............ 64. 4.1. 問題と目的 ............................................................... 64. 4.2. 方法 ........................................................................ 65. 4.2.1. 使用データ .......................................................... 65. 4.2.2. モデル ................................................................ 66. 4.3. 結果 ........................................................................ 68. 4.3.1. CTT に基づいた項目分析結果 .................................. 68. 4.3.2. MIRT 分析結果 ..................................................... 68. 4.3.3. 潜在特性尺度値への影響 ........................................ 72. 4.4. まとめと今後の課題 ................................................... 77. 付録 A ............................................................................ 79 付録 B ............................................................................ 80 第 5 章. 下位領域に焦点を当てた学力の要因分析 ..................... 81. 5.1. 問題と目的 ............................................................... 81. 5.2. 方法 ........................................................................ 85. 5.2.1. 使用データ .......................................................... 85. 5.2.2. テストデータの構造の確認 ..................................... 86. 5.2.3. 授業方法が学力に与える影響 .................................. 88. 5.3. 結果 ........................................................................ 90. 5.4. まとめと今後の課題 ................................................... 98. 第 6 章 6.1. 総合考察 ........................................................... 102 本研究の成果 ........................................................... 102. 6.1.1. 「テストを作る」場面へのインプリケーション .......... 104. 6.1.2. 「テストを使う」場面へのインプリケーション .......... 105. 6.2. 本研究の限界と今後の課題 .......................................... 107. 参考文献 ...................................................................... 108 初出一覧 ...................................................................... 122. ii.

(4) 第 1 章序論. 1.1. 「テスト」を巡る今日的状況. 社会におけるさまざまな意思決定ツールとして使用される「テスト」は，テスト開発（ test development）と呼ばれる「テストを作る」場面と，テスト結果を解釈し示唆を導き出す「テストを使う」場面に大別できる。前者については，「テスト」の品質担保，改善に寄与する学問領域である心理測定学（ P s y c h o m e t r i c s ），後者については教育社会学的研究がそれぞれ該当する。とりわけ，後者の教育社会学的領域では，あくまで品質が担保された「テスト」であることが前提となって議論が展開され，研究対象であるテスト得点が，品質保証された，たしかな「テスト」によって測定されたものであるかどうかについては，ほとんど関心が寄せられない。実際に，教育社会学的領域において，心理測定学の存在自体が十分に認知されてきたは言い難いという指摘もある（広田， 20 1 7 ）。これに加え，わが国においては，そもそも「テストを作る」機能を担保する心理測定学の存在自体の認知が低いというのが現状と言える。具体的には，わが国における大学入学者選抜制度に関する議論の中で「テストの専門家」として「教育（心理）測定の専門家」が十分に認知されてこなかった歴史がある（木村， 2 0 0 6 ）。また，高等教育において心理測定に関する専門的な教育が不十分であるという状況でもある（木村， 20 1 0 ）。そのため，わが国においては「学力」「性格特性」「パーソナリティ」といった構成概念（ construct）を「テスト」によってどのように測定するか，という観点なしにそれを巡った 1.

(5) 議論が行われてしまう。具体的には，あたかもこれまでなかったものであるかのように「新しい能力」が次々と提唱されることが広くみられている（松下編， 2 0 1 0 ；中村， 2 0 1 9 ）。また，心理学的研究における尺度開発においても，「類似あるいは酷似した構成概念が複数存在する」（髙本・服部， 2 0 1 5 ）ことや，「構成概念の乱立」（南風原， 2 0 1 1 ；平井， 2 0 0 6 ；宇佐美， 2016；吉田， 2002）という問題が指摘されている。今現在でも，その状況は続いており，研究者は今一度新尺度開発の必要性を問うべきだと議論されているさなかである（仲嶺・上條， 2 0 1 9 ）。このように，心理学的な構成概念は目に見えないものであるがゆえに，ややもするとそれを巡った議論が個人の経験や勘，思い込みに依拠するものとなってしまう危険性がある。したがって，心理学的特性に関する議論は科学的根拠に基づいて（ evidence based）慎重に進めるべきであると指摘できる。このような状況を踏まえると，心理測定学の技術的知見に立脚しないまま，「テストを作る」，「テストを使う」ことがともに将来的に続いてしまうことで，個人や組織の未来に影響を与えてしまうことが懸念される。両場面においても，そもそも測定したい構成概念を捉えられているか（妥当性（ v a l i d i t y ）），その精度は担保されているか（信頼性（ r e l i a b i l i t y ））は常に考慮されるべきである。すなわち，石井（ 2014）. が指摘するように，「テストで評価する」だけで. なく「テストを評価する」ことの重要性を再認識することが依然として課題であると指摘できる。実際，「テストを評価する」試みとして，心理測定学的には特異項目機能（ differential item functioning）や項目パラメータドリフト（ i tem p a ra meter drif t）という研究テーマとしても，テストの妥当性検証的な試みが最近わが国でも見られ 2.

(6) るようになってきた（坂本・酒匂・今城， 2 0 1 7：並木・川端， 20 1 9 ）。次節では，テストデータの分析という観点に焦点を移し，「テストを評価する」上での重要な分析視点として下位領域（ subscale）の存在を取り上げていくことにする。なお，本研究における「下位領域」は，あるテストにおいて設定される測定内容や領域ごとの複数の項目群のことを指す。下位領域は，「下位テスト（ s u b t e s t ）」（池田， 1 9 8 2 ）等と呼ばれることもあるが，本研究では，一つの構成概念を測定することを目指して作成されたテストにおいて設定される複数の測定領域，ということを前提とするため，「下位領域」と呼ぶことにする。. 1.2. テスト研究における下位領域の取り扱いとその重要性. テストデータの分析の際には，当該のテストが一つの構成概念を測定しているという前提のもとで，古典的テスト理論（ C l a s s i c a l Te s t T h e o r y ，以下，「 C T T 」）にもとづいた項目分析，また項目反応理論（ I t e m R e s p o n s e T h e o r y, 以下，「 I R T 」； L o r d , 1 9 5 2 ）にもとづいた項目分析を行うことが多い。たとえば，学力テストの場合では，数学のテストであればそのテスト全体が「数学力」を測定しているという仮定のもとで，受検者の項目への正答・誤答などの反応データに対して分析が行われる。本研究では，このようなテスト全体，あるいは分析対象となる項目群が一つの構成概念を測定しているという仮定の下で行う. IRT 分析のことを. UIRT 分析. （ unidimensional IRT）と呼ぶことにする。しかし，実際のテストでは，測定内容別にテストを構成する下位領域が設定されることが多い。具体的には，先の数学のテストの例で言えば，「数と式」「数量関係」「図形」といったように，学習指導要領で定める内容的な区分に応じて，下 3.

(7) 位領域が設定される。たとえば正答・誤答の 2 値データの場合，分析対象となるテストにおいて下位領域が複数設定されていたとしても，項目反応データにもとづくテトラコリック相関係数行列における固有値の減衰状況からテスト全体として一次元性が認められる場合には，下位領域ごとの影響を考慮せずに項目分析が行われる。しかしながら，近年の多次元 I R T（ m u l t i d i m e n s i o n a l I R T ，以下，「 MIRT」；R e c k a s e , 2 0 0 9 ）の理論的発展を背景に，下位領域に関する知見を獲得することを目的として， UIRT 分析に加えて MIRT にもとづいた分析結果も同時に報告すべきであると指摘されている（ Reise, C o o k & M o o r e , 2 0 1 5 ）。下位領域に着目した最近の調査報告として，たとえば， PISA2015 では，読解力（ reading literacy）の下位領域に着目し，下位領域ごとの平均正答率に関して議論がなされている（国立教育政策研究所， 2 0 1 6 ）。また，心理測定学的立場からの事例として，柴山・佐藤・熊谷・澁谷・板宮・江尻（ 2 0 1 8 ）では，下位領域に属する項目数が少なくなることによる信頼性の低下と正確な学力分布を把握できないという問題に着目している。具体的には， IRT を基盤とした推算値（ plausible v a l u e s , 以下，「 P V s 」）の援用により，下位領域ごとの学力分布を推定する試みを行っている。このような事実から，テストの下位領域をいかに扱うかは，学力テスト研究において必須な分析視点であると言える。. 1.3. 本研究の目的. 本研究の目的は，学力テストの下位領域が測定する「学力」を定量的に表現し，それによって，テスト開発場面（「テストを作る」）と，学力の要因分析（「テストを使う」）に対するインプリケーションを導き出すことである。まず第 2 章でテス 4.

(8) ト開発の実際を俯瞰し，それを支える技術的基盤としての IRT について整理する。その際，複数の構成概念を測定するテストデータ分析に適用可能な MIRT にも触れる。第 3 章では，国際数学・理科教育動向調査（ Tr e n d s i n I n t e r n a t i o n a l M a t h e m a t i c s a n d S c i e n c e S t u d y ，以下，「 T I M S S 」）のデータを用いて，下位領域に焦点を当てた項目分析を試みる。 MIRT により，テスト全体が測定する学力と，下位領域が測定する学力とを分離して捉えることで，項目ごとにどちらの要素を強く反映しているかを特定することができる。その結果を用いて，テスト開発場面にどう活かせていけるか，実務への応用可能性を導く。次に第 4 章では，わが国における学習指導要領にもとづいて設計された新潟県全県学力調査データを使って，下位領域ごとの学力を抽出し，その潜在特性尺度値（以下，「 𝜃」）と素点（ r a w s c o r e ）との関連性を検証す. る。厳密に言えば，素点には，テスト全体が測定する学力と下位領域が測定する学力に関する両方の要素が含まれることになる。一方，テスト全体の学力を統制した上での下位領域に関する 𝜃は下位領域の影響のみを反映しているため，両者の. スコアの意味合いは異なる。そこで，テストに設定される領域ごとに両者の関係について検証していく。さらに，第 5 章では， TIMSS データを対象に， MIRT にもとづいて下位領域の 𝜃を推定した上で，それに対する要因分析を試みる。具体的. には，授業方法の違いが下位領域の学力に与える影響について焦点を当てて検証する。その際に，下位領域ごとに. UIRT. 分析を行うことで得られた 𝜃も用いて，比較検討していく。これにより，下位領域のテストの次元性への影響を踏まえ，改めて学力をどのように捉え，議論すればよいのかに関する指針を得ることを目指す。最後に，終章では本章の成果を踏まえ，「テストを作る」「テストを使う」両場面へのインプリケーションを整理し，今後の展望を行う。 5.

(9) 第 2 章理論と実際. 本章では，テスト開発のプロセスを俯瞰したうえで，テスト開発場面において必須となる心理測定モデル（ psychometric model）としての IRT に関する理論的整理を行う。具体的には，テスト開発の全体像を捉えた上で，特に項目開発（ item development）に焦点を当てながら，そのプロセスを整理する。そのあと， IRT の理論的枠組みを整理していく。なお，テストを支える心理測定モデルに関する議論の前提として，テストは大きく 2 つの目的のもとで開発・実施されるということを念頭に置く必要がある。まず 1 つ目は，テストの目的が，集団の傾向を把握することにある場合である。たとえば， PISA や TIMSS のような大規模学力調査が該当する。2 つ目は，受検者の能力開発を目的とする場合である。これは，主には特定の集団に対しての小規模なテスト（クラスルームレベルでのテスト等）のことを指しており，テスト結果は受検者へフィードバックされることを前提としている。これらを心理測定モデルに落とし込むと，前者については受検者の能力を連続変数として扱う IRT が代表的な心理測定モデルとしてあげられる。後者についても IRT が利用されることが多いが，最近では受検者の能力を離散変数として扱う認知診断モデル（ Cognitive. Diagnostic. Mo d e l ，以下，. 「 C D M 」； L e i g h t o n & G i e r l , 2 0 0 7 ）も注目されている。本章では，両者の特徴を整理したうえで，集団の傾向をより精緻に把握することを目的とする IRT に焦点を絞り，理論的整理を行うこととする。. 6.

(10) 2.1 2.1.1. テスト開発の実際テスト開発の全体像. テスト開発を実際に推進するアクターとして，サイコメトリシャン（ p s y c h o m e t r i c i a n ），作問者（ i t e m w r i t e r ），テスト実施団体，テストディベロッパー（ test developer）の大きく 4 つに分類することができる（上松， 2 0 1 9 ）。サイコメトリシャン. テストディベロッパー作問者. Figure 2.1. テスト実施団体. テスト開発にかかわる 4 つのアクター。. 注）上松（ 2019）をもとに筆者が一部修正して作成。. Lane, Raymond, Haladyna and Dowing （ 2016）による，テスト開発の全体的なプロセスの整理（ Ta b l e 2 . 1 ）と照らし合わせると，サイコメトリシャンは主に「テストデザインと版組み」「得点化」等の心理測定学的側面を中心とした機能を持つと言える。作問者は項目開発過程における中心的存在であり，テスト開発の肝ともいえるアクターとである（ L a n e , e t a l . , 2 0 1 8 ）。テスト実施団体は主に「テストアドミニストレーション」を中心とした役割をもち，テストディベロッパーは，これら 4 つのアクター間のコミュニケーションを円滑に保ち，心理測定学的基盤のもとテスト開発全体を推進する役割を持つ（上松， 2 0 1 9 ）。. 7.

(11) Table 2.1 テスト開発の 12 要素テスト開発の要素. 詳細. 全体的な設計. テストのすべての構成要素とその理論的根拠、意図されたテスト得点の解釈と使用用途の妥当性、ならびに心理測定学的なテストの品質を評価するための方法論を含む、テスト開発全体に関する詳細な設計を行う。. 測定領域の定義とその明確化. 測定領域の命名とその定義を行う。テストが測定する知識、スキル、能力に関して明確な言語化を行う。. 測定内容の特定. 項目開発、版組み、得点化などに落とし込むために、テストの測定内容を開発する。. 項目開発. 適した項目の形式と素材を明らかにする。項目を開発し、その項目を使用するための妥当性検証を行う。. テストデザインと版組み. テストの測定内容、出題形式、得点化のルール、尺度化や等化などのテスト仕様にもとづいたテスト形式をデザインする。. テストプロダクション. 明快で正確であり、利用しやすいテスト形式を作成する. テストアドミニストレーション. 標準化された方法でテスト運営を行う。運営の際、妥当性を阻害するようなことは避ける。. 得点化. 品質保証のポリシー、得点化ならびに項目反応データセットを作成するプロセスを確立する。判断が必要な場合には、正確かつ一貫した得点化を行う。. 得点のカットライン検討. テストの目的に矛盾がない形で、テスト得点の正当なカットラインを置く。. テスト得点の報告. 利用しやすく、かつ理解しやすいテスト得点の報告書を開発する。. テストの安全性. テスト開発と運営におけるテストの安全性を保証するためのポリシーと手順を確立する。. テストドキュメンテーション. テクニカルレポート、また妥当性・公平性・技術的な適切さを支える文書を作成する。. 注） Lane, et al.（ 2016）を筆者和訳。. なお， Ta b l e 2 . 1 の 1 2 要素は順に行われるのではなく，それぞれ独立に同時並行的に行われることもある。たとえば「テスト得点（ t e s t s c o r e ）の報告」は，「全体設計」や「測定内容の定義とその明確化」にもかかわる要素である（ Lane, et a l . , 2 0 1 6 ）。 8.

(12) 本章では，この 12 要素のうち，項目開発に焦点を当て，作問者がどのようにして項目開発に関与し，何が効率的なテスト開発に繋がるかについて整理する。. 2.1.2. 項目開発. 項目開発は，大学入学者選抜や学力調査，人事測定等あらゆるテスト開発場面において中心的存在である（ L a n e , e t a l . , 20 1 8 ）。しかし，これまで学術的研究の対象としてそれほど注目されておらず，項目を作成することは「芸術」（E b e l , 1 9 5 1 ）とも言われてきた。最近では，その「芸術」に対して心理測定学的なアプローチがとられるようになり，研究が蓄積されてきているが，依然として等化（ equating）などの心理測定学的研究に比べると知見の蓄積が少ないというのが現状といえる（ R o d r i g u e z , 2 0 1 6 ）。そのような状況の中で，項目開発の実務的側面に対して心理測定学的な観点を考慮しながら研究が進められてきたのが，項目作成のガイドライン（ item writing guideline; Haladyna & Rodriguez, 2013）である。実際の項目開発場面では，内容領域専門家（ s u b j e c t - m a t t e r e x p e r t s ，以下，「 S M E s 」）と作問者が協働しながら進められる（ L a n e , e t a l . , 2 0 1 8 ）。 S M E s はテスト開発（項目開発）のプロセス全体において責任がある立場であると言える。具体的には，テストの測定内容だけではなく，心理測定学的な領域にも精通しており，項目作成（ i t e m w r i t i n g ），項目における文章や図表の配置，作問者が作成した項目，またプレテスト後の項目のレビューまで幅広く項目開発の実務に関与する。 Figure 2.2 に一般的なテスト開発のプロセスを整理した。なお，図中の実線はテスト開発の基本的な流れ，点線は項目プール中の既存項目や，プレテストの項目分析で除外された 9.

(13) 項目を改変することを示す。また，破線は作成項目を本番のテストに入れ込み，プレテストの効率化を図ることを意味している。. Figure 2.2. テスト開発のプロセス。. 注）加藤・山田・川端（ 2014）を一部改変。. SMEs は項目作成をメインで担当する作問者をマネジメントし項目開発を推進していくが，そこで重要となるのが項目作成のガイドラインと言える。特に作問者として初心者の段階に作成する項目は，欠陥のある項目（ flawed item）となりやすく，本来当該のテストが測定したい構成概念を測定できないなどの影響があることがわかっている（ Rodriguez, 20 1 8 ）。そのため，作問者は項目作成のガイドラインにしたがって訓練され，実務的なワークショップ，経験を積んだ作問者によるフィードバックを受けることが推奨されている（ L a n e , e t a l . , 2 0 1 8 ）。テスト開発の実務場面においては，作問者が各自項目を作 10.

(14) 成した上で，項目作成の会議の中で SMEs とともに議論し，項目が確定されていくステップとなる（藤田， 2 0 1 3 ）。そのため，項目作成のガイドラインにおいて，当該のテストで測りたい構成概念の定義，それを測定するための項目の具体例まで提示することにより，作問者間の認識を合わせておくことが重要であると指摘できる。また，項目作成後はプレテストを経て項目プールへ格納され，テスト実施へと接続される。プレテストでは，サイコメトリシャンが当該テストの目的等によって選択された心理測定モデルにしたがって項目分析を行い，項目の取捨選択が行われる。つまり，効率的にテスト開発を進めることは，このプレテストから項目プールへの採用率を高めることでもあると言える。そのため，サイコメトリシャンによる心理測定モデルにもとづく項目分析結果から，ある構成概念を測るための項目としてどのような項目の場合は識別力や困難度が担保され（逆に担保されないのか）についても，項目作成のガイドライン上に反映させておくことは重要であると言える。. 2.2. 理論. 2 . 1 節で整理したように，テスト開発のプロセス，特に項目開発時には，科学的に裏付けられた心理測定モデルが必要不可欠である。テスト開発にかかわるアクターは，心理測定モデルを基盤として，科学性を担保したテスト開発を推進することが求められる。そこで，2 . 2 節では心理測定モデルとしての I R T と C D M の違いを概観する。その上で，本研究の目的に照らし， IRT に焦点を絞って理論的枠組みを整理することとする。. 11.

(15) 2.2.1. IRT と CDM. 大規模学力調査等において集団統計量の推定に関心がある場合，テスト項目の特性と受検者の 𝜃をパラメータとして推定することが求められる。 IRT は，この両者のコンビネーションに関する確率モデルであると言える（ M i s l e v y, 2 0 1 9 ）。したがって，I R T では基本的に受検者の 𝜃がどのような要素から成立しているのか，つまり当該のテスト項目を正答するために必要な認知能力やスキルを意味するアトリビュート（ attribute）ごとのパラメータや，当該アトリビュートに関する習得状況等の認知的なプロセスについては原則モデル化されない。一方，C D M ではテスト項目とそれに対応するカテゴリカルなアトリビュートを定義し，受検者の認知的なプロセスの解明に関心がある（ R u p p , Te m p l i n & H e n s o n , 2 0 1 0 ）。項目とアトリビュートとの関係性を示す行列を Q 行列と呼び，その具体例を Figure 2.1 に示す。. アトリビュート1. アトリビュート2. アトリビュート3. アトリビュート4. アトリビュート5. 項目1. 1. 0. 0. 0. 0. 項目2. 1. 1. 0. 0. 0. 項目3. 1. 0. 0. 0. 1. 項目4. 0. 1. 1. 0. 0. 項目5. 0. 0. 0. 1. 1. Figure 2.1. 項目とアトリビュートとの関係を示す Q 行列の例。. たとえば，項目 1 に正答するためにはアトリビュート 1 の習得が必要となる。また，項目 2 ではアトリビュート 1 とアトリビュート 2 の習得が必要となる，というように複数のアトリビュートが一つの項目に紐づく場合もある。なお， CDM ではこの Q 行列それ自体の設定が重要となるため，その設定 12.

(16) には当該テストの測定内容に精通した専門家が中心となって設定されることが推奨される（ L e e , S a w a k i , 2 0 0 9 ）。なお， CDM の包括的な整理は山口・岡田（ 2017）を参照されたい。なお， IRT の文脈においても， CDM のような認知心理学（ c o g n i t i v e p s y c h o l o g y ）的な考え方を取り入れる試みもある。いわば認知心理学と心理測定学をハイブリッドしたものと指摘でき，認知的 IRT（ cognitive IRT； Embretson, 1998）とも言われている。たとえば， 2.2.2 節で示す IRT における項目の困難度に関するパラメータを，アトリビュートの和の形に分解する線形ロジスティックテストモデル（ l i n e a r l o g i s t i c t e s t m o d e l ，以下，「 L L T M 」； F i s c h e r, 1 9 8 3 ）がある。その他にも， L LT M を M I R T モデルに取り入れた一般化複合潜在特性モデル（ general. component. latent. trait. model ；. Embretson,1984）等も提案されている。本研究においては，項目への反応に関する認知的プロセスの解明ではなく，認知的プロセスを通して得られる 𝜃に関心がある。そのため，C D M や認知的 I R T については扱わないこととする。そこで，2 . 2 . 2 節ではまず U I R T の各種モデルに触れたうえで，複数の構成概念を測定する場合に適用可能な MIRT モデルについて整理していく。. 2.2.2 2.2.2.1. UIRT モデル 2 値型 UIRT モデル. IRT の各モデルに入る前に CTT について触れておく。CTT は， 20 世紀初頭から IRT が登場する 1950 年頃までに発展した心理測定モデルである。C T T では，受検者 𝑖のテスト得点 𝑦௜ は，真の得点 𝑡௜ と測定誤差 𝑒௜ から成り立つことを仮定する。 13.

(17) 𝑦௜ = 𝑡௜ + 𝑒௜ .. (2.1). CTT におけるテスト項目の性能を評価する指標として，項目の識別力については点双列相関係数（ point biserial corr e l a t i o n c o e f f i c i e n t ，以下，「 P. B I S 」）や，双列相関係数（ b i s e r i a l c o r r e l a t i o n c o e f f i c i e n t ，以下，「 B I S 」），項目の困難度に関する指標としては通過率などがある。しかしながら，これらの指標はともに受検者集団に依存するものであること，またテスト得点（素点）がテストに含まれる項目に依存するという性質があることが CTT の抱える問題点として知られている（加藤他， 2 0 1 4 ）。また，一般に CTT に基づくテストでは，正答した項目に対して重み付けをしてテスト得点を算出することが多い。このとき，厳密に言えば C T T による素点は順序尺度（ o r d i n a l s c a l e ）であり，本来，加減乗除の計算は統計的に許されない。あくまで，テスト得点が間隔尺度上（ interval scale）にあるとみなした上での対応であることには注意が必要である。このような CTT における問題点を克服するのが IRT である。 I R T の特徴は，受検者集団に依存しない 𝜃と，テスト項目の特. 性を表す項目パラメータを統計的に分離できることであると言える。また，順序尺度であるテスト得点を間隔尺度へ変換可能であることも，その特徴であると言える（村木 , 2 0 1 1 ）。以下では，まず正答・誤答の 2 値（ dichotomous）データに対する IRT モデルを整理していく。 I R T では一次元性の仮定（ u n i d i m e n s i o n a l i t y a s s u m p t i o n ）と局所独立の仮定（ local independence assumption）という 2 つの仮定を置く。一次元性の仮定とは，対象となる項目の集合としてのテストが一つの構成概念を測定しているという仮定である。局所独立の仮定とは， 𝜃を一つの値に固定したと. き，各テストの項目への反応は互いに独立であるという仮定 14.

(18) である。一次元性の仮定は，各項目への反応傾向を決める唯一の要因が一つのパラメータであることを意味しており，各項目への反応傾向が系統的に左右されることがなくなる。したがって，局所独立の仮定は一次元性の仮定から必然的に導かれるものであるとも言える（加藤他， 2 0 1 4 ）。 IRT の起源は， Lord（ 1952）が，正規分布の累積分布関数を用いて，項目特性曲線（ item characteristic cu rve, 以下，「 I C C 」）を表現したところにある。項目についての添え字を 𝑗， 𝑎௝ を項目識別力パラメータ（以下，「識別力」）， 𝑏௝ を項目困. 難度パラメータ（以下，「困難度」）とすると， 2 パラメータの正規累積モデルは，. ௔ೕ ൫ఏି௕ೕ ൯. 𝑃௝ (𝜃) = න. ିஶ. 1. 1 exp ൬− 𝑧 ଶ ൰, 2 √2𝜋. (2.2). と表現できる。しかしながら，（ 2 . 2 ）式は積分を含む正規累積モデルであるため，その後の数学的な取り扱いが複雑になってしまう。そこで現在では，（ 2 . 3 ）式で表されるようにロジスティックモデルが一般的である。 ௔ೕ ൫ఏି௕ೕ ൯. න. ିஶ. 1. 1 1 exp ൬− 𝑧 ଶ ൰ ≈ . 2 √2𝜋 1 + exp ቀ−𝐷𝑎௝ ൫𝜃 − 𝑏௝ ൯ቁ. (2.3). このとき，尺度因子 𝐷 = 1.7の場合に， 𝜃の全域で 2 つの関数. の違いが. 0.01 以下になることが知られている。最近では，. 𝐷 = 1.7を用いなくてもパラメータ値全体の尺度が変わるだけ. で特別な支障はないため 𝐷 = 1.0とされることも多い（村木， 2 0 1 1 ）。そのため，本節においては簡単のため，「 𝐷」はこれ以降省略することとする。. IRT モデルの中で一般的によく利用されているのは 2 パラ 15.

(19) メータ・ロジスティックモデル（以下，「 2 P L モデル」）である。. 𝑃௝ (𝜃) =. 1. 1 + exp ቀ−𝑎௝ ൫𝜃 − 𝑏௝ ൯ቁ. .. (2.4). このとき，𝜃を独立変数としてグラフ化したものが I C C であ. る。たとえば， 2PL モデルにおいて識別力 =1.8 に固定して，困難度のみ変化させてみると， Fi gure 2.3 のように ICC を描くことができる。. Figure 2.3. 2PL の ICC の例。. 注）識別力 =1.8 に固定し，困難度のみ変化させている。. このとき横軸は 𝜃，縦軸はその項目に正答する確率 𝑃௝ (𝜃)を表 16.

(20) している。𝜃が大きくなればなるほど，項目に正答する確率 𝑃௝ (𝜃) も大きくなるという単調増加の性質も確認できる。また，識. 別力が一定のとき，困難度が大きくなるにしたがって， ICC が右に平行移動している様子が読み取れる。さらに，数学的に言えば困難度は I C C の変曲点にあたり，𝜃と困難度の値が一致する受検者がテスト項目 𝑗に正答する確率は， 𝑃௝ ൫𝑏௝ ൯ = 0.5,. (2.5). となり，F i g u r e 2 . 3 における点線の矢印がそれを示している。次に，識別力の値を変化させ，困難度 =0 と固定したときの ICC は， Figure 2.4 のようになる。. Figure 2.4. 2PL の ICC の例。. 注）識別力を変化させ，困難度 =0 に固定している。. 17.

(21) F i g u r e 2 . 4 では困難度が 0 に固定されているので， 𝜃 = 0の. 受検者がこれらの 5 つの項目に正答する確率は 0.5 であるが，識別力を変化させることにより ICC の傾きだけが異なっていることに注目されたい。また，客観式テストにおいては 𝜃に関係なく，偶然的に項目. に正答する当て推量の現象がしばしば問題視されることがある。それを統計的にモデル化したものが 3 パラメータ・ロジスティックモデル（以下， 3PL モデル）である。. 𝑃௝ (𝜃) = 𝑐௝ +. 1 − 𝑐௝. 1 + exp ቀ−𝑎௝ ൫𝜃 − 𝑏௝ ൯ቁ. .. (2.6). このとき， 𝑐௝ は当て推量パラメータ（以下，「当て推量」）を示. す。当て推量は，多枝選択のテストでランダムに一つの選択枝を選んだ時に偶然正答する確率を示している。しかし，多枝選択の惑わしの程度が異なるため，当て推量の値が常に選択枝の数の逆数になるとは限らず，経験的にはその値よりやや低い値に近づく（ L o r d , 1 9 7 4 ）。また，当て推量は必ずしも単調に漸近線に接近するのではなく，一時当て推量の値よりもさらに低い値に下がって再びあがってくるとも言われている。それは，その付近の 𝜃をもつ受検者はまったく当てずっぽうに答えているわけではなく，誤った選択枝を正解と考えて選択している受検者が多いためと考えられているが， 3PL モデルではそこまでの詳細な情報をモデル化できていない（池田， 1 9 9 4 ）。なお，当て推量を安定して推定できない場合には識別力と困難度の推定値に影響を与えることが知られている。したがって， 3PL モデルを安定して精度よく推定するためには 2PL モデルより多くのサンプル数を必要とすることになる。これらの理由から，テスト項目が多枝選択式ゆえに 3PL モデルを 18.

(22) 安易に使用することには注意が必要であり， 3PL モデルがデータに適合しない場合には 2PL モデルを採用することも考慮されるべきである（村木， 2 0 1 1 ）。さらに，困難度のみをパラメータ化した 1 パラメータ・ロジスティックモデル（以下，「 1 P L モデル」）がある。. 𝑃௝ (𝜃) =. 1. 1 + exp ቀ−𝑎൫𝜃 − 𝑏௝ ൯ቁ. .. (2.7). このとき識別力は全項目で共通であるため添え字 𝑗がついていないことに注意が必要である。 1PL モデルはラッシュモデ. ル（ rasch model）とは数学的には同一であるが，歴史的な背景が異なっている。ラッシュモデルについての詳細は F i s c h e r and Molenaar（ 1995）を参照されたい。 I R T モデルでは項目パラメータを用いて， 𝜃に応じ，フィッ. シャー情報量の意味での情報（ information）をどれほど保有しているかを示す項目情報関数（ i t e m i n f o r m a t i o n f u n c t i o n ，以下，「 I I F 」）を定義することができる。従来， C T T では信頼性係数の下限値を与えるクロンバックの 𝛼や，信頼性係数の予測値を 𝑝̂ ，テスト得点の標準偏差を 𝑠௬ とするとき，測定の標準誤差（ s t a n d a r d e r r o r o f m e a s u r e m e n t ，以下，「 S E M 」），. SEM = 𝑠௬ ඥ1 − 𝑝̂ ,. (2.8). によって測定の精度を推定することができた。しかしながら，これらはテスト全体に関する指標であり，受検者集団に依存するという性質を持っていた。一方 IRT では，たとえば 2PL では IIF を，. 19.

(23) 𝐼௝ (𝜃) =. {𝑃′(𝜃)}ଶ 𝑃௝ (𝜃)𝑄௝ (𝜃). ଶ. ൛𝑎௝ 𝑃௝ (𝜃)𝑄௝ (𝜃)ൟ = 𝑃௝ (𝜃)𝑄௝ (𝜃) = 𝑎௝ଶ 𝑃௝ (𝜃)𝑄௝ (𝜃),. (2.9). として定義することができる。このとき，𝑃′(𝜃)は 𝑃(𝜃)を 𝜃で微分した導関数である。これにより， 𝜃に対応する情報量を検討することができる。具体的に図示すれば Figure 2.5 となる。. Figure 2.5. IIF の具体例。. （ 2.9）式から識別力の値が大きいほど項目情報量が大きくなることが理論的に導かれているが， Figure 2.5 からも識別力が高い項目 1 と項目 3 は識別力が低い項目 2 よりも項目情 20.

(24) 報量が大きいことが確認できる。なお，項目情報量が最大となっているのは，横軸 𝜃が困難度の値に一致するときである 1 。この項目情報量をテスト全体の項目数分を足し合わせたも. のがテスト情報量（ t e s t i n f o r m a t i o n f u n c t i o n ，以下，「 T I F 」）である。 ௡. ଶ. ௡. ൛𝑃௝ᇱ (𝜃)ൟ 𝐼 (𝜃 ) = ෍ = ෍ 𝐼௝ (𝜃). 𝑃௝ (𝜃)𝑄௝ (𝜃) ௝ୀଵ. (2.10). ௝ୀଵ. このとき，（ 2 . 1 0 ）式が成り立つのは I R T における局所独立の仮定が満たされているときであることに注意されたい。 F i g u r e 2 . 5 で示した 3 項目を使って T I F を図示すれば，F i g u r e 2.6 となる。. Figure 2.6. 1. TIF の具体例。. 3 P L では情報量の最大値は 𝜃が困難度の値に一致するときではなく，. ややそれより低いところに最大値が表れる。その理由として，当て推量をモデル化することの影響から，項目情報量が低くなっていると考えられる（ E m b r e t s o n & R e i s e , 2 0 0 0 ）。. 21.

(25) このとき， 𝜃が 0 . 3 付近で情報量が最大になっていることか. ら，それ周辺の受検者に対して最も精度がよいテストである. と判断できる。その理由として，真の能力パラメータが 𝜃である受検者の最尤推定量 𝜃෠ の誤差分散は， T I F を用いて， 𝑉൫𝜃෠ ห𝜃൯ =. 1 , 𝐼(𝜃). ( 2 . 11 ). と表されるからである。さらに，𝜃෠ の推定の標準誤差（ s t a n d a r d e r r o r o f e s t i m a t i o n ，. 以下，「 S E 」）は， T I F の逆数の平方根，. 𝑆𝐸൫𝜃෠ ห𝜃൯ =. 1. ඥ𝐼(𝜃଴ ). ,. (2.12). で定義される。つまり，（ 2 . 1 0 ）式によってテスト情報量が大きくなればなるほど，その 𝜃付近の受検者にとっての推定に関する誤差が小さくなることが理論的に導ける。. 2.2.2.2. 多値型 UIRT モデル. 前節では，正答・誤答の 2 値データに対する IRT モデルについて整理した。しかしながら実際には，反応データが段階的なカテゴリを持つ場合や部分点を与えたいテストである場合もある。そのような多型型（ polytomous）の項目反応データに対する I R T モデルとして段階反応モデル（ g r a d e d r e s p o n s e m o d e l ，以下，「 G R M 」； S a m e j i m a , 1 9 6 9 ）がある。 G R M では，項目反応 𝑥୨ がカテゴリ 𝑘(𝑘 = 0,1, ⋯ , 𝐾) 以上となる確率を考える。項. 目 𝑗においてカテゴリ 𝑘 以上となる確率は， 2 P L モデルを用い 22.

(26) て，. ା( ) 𝑃௝௞ 𝜃 =. 1. 1 + exp ቀ−𝑎௝ ൫𝜃 − 𝑏௝௞ ൯ቁ. ,. (2.13). と表される。これを境界特性曲線（ boundary characteristic c u r v e ，以下，「 B C C 」）と呼び，モデル上， ା( ) 𝑃௝଴ 𝜃 = 1,. ା( ) 𝑃௝௄ 𝜃 = 0,. (2.14) (2.15). とする。 B C C を使って，各項目のカテゴリごとに 𝜃と当該カテゴリに. 反応する確率を示す，項目反応カテゴリ特性曲線（ item re-. s p o n s e c a t e g o r y c h a r a c t e r i s t i c c u r v e ，以下，「 I R C C C 」）を導くことができる。具体的には，受検者がカテゴリ 𝑘となる反応する確率は，受検者がカテゴリ 𝑘 − 1以上と反応する確率からカテゴリ 𝑘以上と反応する確率の差， ା ( ) ା( ) 𝑃௝௞ (𝜃) = 𝑃௝௞ିଵ 𝜃 −𝑃௝௞ 𝜃 ,. (2.16). で与えられる。多値型項目反応モデルは，GRM の他にも，部分得点モデル（ p a r t i a l c r e d i t m o d e l ； M a s t e r s , 1 9 8 2 ），一般化部分得点モデル（ g e n e r a l i z e d p a r t i a l c r e d i t m o d e l ； M u r a k i , 1 9 9 2 ），評定尺度モデル（ rating scale model； Andrich, 1978）などがある。多値型 IRT モデルに関する包括的な整理は Nering and Ostini（ 2010）に詳しい。. 23.

(27) 2.2.3. MIRT モデル. 2 . 2 . 2 節では，テスト全体が一つの構成概念を測定していることを前提としたうえでの IRT モデルを整理した。しかしながら，多くのテストでは，その回答の背後には多次元性が内在していると考えられている（ A c k e r m a n , G i e r l & Wa l k e r, 20 0 5 ; Ya o & B o u g h t o n , 2 0 0 9 ）。そのような多次元性が仮定できる場合に適用可能な IRT モデルが MIRT モデルである。後述する補償型（ compensatory） MIRT はカテゴリカル因子分析と数学的に等価であることが知られており（荘島， 20 0 3 ; Ta k a n e & D e L e e u w, 1 9 8 7 ）， M I R T と因子分析はその分析目的によって使い分けられる。具体的には， MIRT の場合は，項目と受検者のインタラクション，つまり識別力や困難度に関心がある場合に使用される。一方，因子分析は分析対象データの次元性の確認が主目的となる（ R e c k a s e , 2 0 0 9 ）。本研究では，テストデータの構造分析を踏まえ，その後の項目パラメータならびに受検者の 𝜃を推定することが目的となるため，本節では Reckase（ 2009）を参考に， MIRT に焦点を当て，その理論的枠組みを整理する。 MIRT は一般に補償型モデル（ compensatory）と非補償型（ n o n c o m p e n s a t o r y ）モデルに大別される。補償型モデルは，複数の能力を測定するテストにおいて，ある能力が低い場合でも他の能力が十分高ければ当該の項目には正答しやすいという仮定を置くモデルである。つまり，数学的にはそれぞれの次元同士は和の関係にある。一方，非補償型モデルは当該の項目に正答するためには，ある能力のみが高いだけでは達成されないことをモデル化しており，数学的にはそれぞれの次元同士の積によって正答確率を定義していることに特徴がある。本章では，補償型多次元 2 値 2 P L モデル（以下，「 M2PL モデル」）， 24.

(28) 𝑃൫𝑢௜௝ = 1ห𝜽𝒊 , 𝒂𝒋 , 𝑑௝ ൯ =. exp൫𝒂𝒋 𝜽′𝒊 + 𝑑௝ ൯. , 1 + exp൫𝒂𝒋 𝜽′𝒊 + 𝑑௝ ൯. (2.17). を採用する。このとき 𝑢௜௝ は受検者 𝑖の項目 𝑗に対する反応を示し，また次元数を 𝑚とすると 𝒂𝒋 は 1 × 𝑚の項目 𝑗の識別力パラメータベクトル， 𝜽𝒊 は 1 × 𝑚の受検者 𝑖の 𝜃ベクトル， 𝑑௝ は困難度に関連するパラメータ（スカラー）を示している。 𝑑௝ は（ 2 . 4 ）式に. おける 𝑎(𝜃 − 𝑏) を展開した −𝑎𝑏 に相当する。したがって， 𝑑௝ は UIRT モデルにおける困難度と同じ解釈はできないことに注意が必要である。 MIRT. の場合には多次元困難度. （ m u l t i d i m e n s i o n a l d i f f i c u l t y, 以下，「 M D I F F 」），. 𝑀𝐷𝐼𝐹𝐹௝ = −. 𝑑௝. ௠ ଶ 𝑎௝௩ ට𝛴௩ୀଵ. ,. (2.18). を算出することによって，項目の困難度としての解釈が可能となる。次に， MIRT における項目情報量は，. 𝐼ఈ (𝜽) =. [∇ఈ 𝑃(𝜽)]ଶ , 𝑃(𝜽)𝑄(𝜽). (2.19). として定義されている。 𝛼は 𝜽座標軸における 𝜽がなす角のベクトル， ∇ఈ は導関数を示す。（ 2 . 1 9 ）式の導関数 ∇ఈ 𝑃(𝜽)は， ∇ఈ 𝑃(𝜽) =. 𝜕𝑃(𝜽) 𝜕𝑃(𝜽) 𝜕𝑃(𝜽) cos𝛼ଵ + cos𝛼ଶ + ⋯ + cos𝛼௠ , 𝜕𝜃ଵ 𝜕𝜃ଶ 𝜕𝜃௠. (2.20). として与えられる。 M2PL モデルは 2PL モデルの多次元空間 25.

(29) への拡張として捉えられるので，. ∇ఈ 𝑃 (𝜽) = 𝑎ଵ 𝑃(𝜽)𝑄(𝜽)𝑐𝑜𝑠𝛼ଵ + 𝑎ଶ 𝑃(𝜽)𝑄(𝜽)𝑐𝑜𝑠𝛼ଶ + ⋯ であり，. (2.21). + 𝑎௠ 𝑃(𝜽)𝑄(𝜽)𝑐𝑜𝑠𝛼௠ , ௠. ∇ఈ 𝑃 (𝜽) = 𝑃 (𝜽)𝑄(𝜽) ෍ 𝑎௩ 𝑐𝑜𝑠𝛼௩ ,. (2.22). ௩ୀଵ. と表現できる。（ 2 . 2 2 ）式を（ 2 . 1 9 ）式に代入することで項目情報量関数を定義することができる。 ௠. ଶ. ଶ [𝑃(𝜽)𝑄(𝜽) ∑௠ ௩ୀଵ 𝑎௩ 𝑐𝑜𝑠𝛼௩ ] 𝐼ఈ (𝜽) = = 𝑃(𝜽)𝑄(𝜽) ൭෍ 𝑎௩ 𝑐𝑜𝑠𝛼௩ ൱ . 𝑃 (𝜽)𝑄(𝜽). (2.23). ௩ୀଵ. （ 2.23）式から， MIRT の場合でも識別力の値によって項目情報量が規定されることがわかる。なお，項目特性曲面（ item characteristic surface）の傾きがもっとも急となる，つまり項目情報量が最大となるのは， ௠. ଶ 𝐼ఈ max(𝜽) = 𝑃௝ (𝜽)𝑄௝ (𝜽) ෍ 𝑎௝௩ ,. (2.24). ௩ୀଵ. のときとなる。（ 2 . 2 4 ）式より，特定の項目における同一モデル内での次元間の情報量の比較は，識別力の 2 乗値の比較をすることで可能となることがわかる。. 26.

(30) 2.2.4. bi-factor モデル. MIRT モデルにもとづくテストデータの分析では，測定領域に関する事前の仮説がある場合，確認的（ confirmatory）な MIRT 分析を実行することも可能である。たとえば，テスト全体が測定している能力（一般因子（ g e n e r a l f a c t o r ））と，それに加えて領域別の能力（グループ因子（ g r o u p f a c t o r ））が測定している能力という仮説がある場合，識別力を行列で表記すると，. 𝑎ଵଵ 𝑎 𝒂 = ൦ ଶଵ 𝑎ଷଵ 𝑎ସଵ. 𝑎ଵଶ 𝑎ଶଶ 0 0. 0 0 ൪, 𝑎ଷଷ 𝑎ସଷ. (2.25). となる。これは一般に b i - f a c t o r 2 モデル（ G i b b o n s & H e d e c k e r, 19 9 2 ； H o l z i n g e r & S w i n e f o r d , 1 9 3 7 ）と言われており，M I R T モデルに包含できる。 bi-factor モデルのイメージを. Figure. 2.7 示す。. Figure 2.7 bi-factorモデルのイメージ。. Holzinger and Swineford（ 1937）において “ bi-factor” を使用していることから，本研究では“ b i - f a c t o r ”を用いる。日本語では，浅野（ 1 9 7 2 ），堀（ 2 0 0 3 ），印東（ 1 9 5 0 ）にあるように，「双因子」とされることが多い（青木・清水 , 2 0 1 5 ）。 2. 27.

(31) bi-factor モデル自体は Holzinger and Swineford（ 1937）が嚆矢であるが，それ以降心理測定の領域でそれほど注目されてこなかった歴史がある（ R e i s e , 2 0 1 2 ）。しかしながら，最近ではわが国においてもテスト開発や測定尺度の内部構造の検討に. bi-factor モデルが使用されることは心理測定学的. にも適切な方法であると指摘され（清水・青木， 2 0 1 5 ），改めてその有効性が注目されてきている。また，知能テストにおける最近の先行研究（ G o l a y, R e v e r t e , R o s s i e r, F a v e z & Lecerf, 2013 ; McGrill & Canivez, 2018）においても，テストデータの構造の検証のために bi-factor モデルが使用され，その有用性への認知は高まってきていると指摘できる。なお， bi-f actor モデルは階層因子分析（ h iera rchi ca l f a ctor an al ysis）の一種であるとも捉えられる。しかし本研究では，テスト全体が測定する能力（学力）と，それだけでは説明されない下位領域特有の能力（学力）という解釈可能性を考慮し，階層因子分析ではなく b i - f a c t o r モデルに焦点を絞り，議論を進めることにする。ここでは，下位領域に焦点を当てたテストデータ分析における，b i-f a ctor モデルの有効性を導き出すため，主に IRT の理論的発展に関連付けて， bi-factor モデルの理論的変遷を整理していく。なお， bi-factor モデルの思想それ自体は， IRT だけではなく，因子分析（ factor analysis）や構造方程式モデリング（ s t r u c t u r a l e q u a t i o n m o d e l i n g ，以下，「 S E M 」）とも密接に関連している。 Holzinger and Swineford （ 1937）以降， bi-factor モデルの IRT の側面における理論的発展を踏まえると以下の通り 4 つのフェーズに分類できる。 1 . b i - f a c t o r モデルの起源（ H o l z i n g e r a n d S w i n e f o r d（ 1 9 3 7 ）まで） 2 . I R T モデルとの融合（ G i b b o n s a n d H e d e c k e r（ 1 9 9 2 ）ま 28.

(32) で） 3. 多値型への対応（ Gibbons, et al.（ 2007）まで） 4. bi-factor モデルの拡張（ Jennrich and Bentler（ 2012）まで）次節から，上記の 4 つのフェーズごとに整理していくことにする。. 2.2.4.1. b i - f a c t o r モデルの起源（ H o l z i n g e r a n d S w i n e f o r d. （ 1937）まで）. 「学力」「性格」といった人間の心理学的特性の測定において，その道具とされてきたのは因子分析であると言える。その基礎となる相関係数（ c o r r el a ti on ）は， G al t on（ 1 86 9 ）が嚆矢であり，その後， Galton の弟子であった K. Pearson が現在広く使われている（標本）相関係数を確立した。相関係数をもとにして， Spearman（ 1904 ）は，知能はすべての科目（観測変数）に共通な一般因子と，その科目（観測変数）独自の独自因子からなるという 2 因子説を唱えた。この知能の 2 因子説は，テスト得点のばらつきがそれぞれのテストに共通に作用する一つの因子と，独自に作用する独自因子（ unique factor）のばらつきによって説明されると仮定するものであるため，実質的には因子分析の一因子モデルと等価である。このとき独自因子は，特殊因子（ s p e c i f i c f a c t o r ）と測定誤差の和として定義される（柳井・繁桝・前川・市川, 20 0 1 ）。この一因子モデルに対し， Thurstone（ 1938）はそれぞれの観測変数は複数の因子によって説明されるという多因子説を唱えた。ちなみに，この 1930 年代には Hotelling（ 1933, 19 3 6 ）により主成分分析と正準相関分析， F i s c h e r （ 1 9 3 6 ）により判別分析が発表されている。したがって，1930 年代は 29.

(33) 心理学的データに関する分析手法がさかんに提案された時期であると言える。このような 1930 年代において， Holzinger and Swineford （ 1 9 3 7 ）は， S p e a r m a n（ 1 9 0 4 ）を拡張した b i - f a c t o r モデルを提案している。 H o l z i n g e r a n d S w i n e f o r d（ 1 9 3 7 ）は，すべての観測変数に共通する一般因子と，それに加えて，2 つ以上の観測変数に影響するグループ因子の存在を仮定している。このとき，グループ因子同士は直交，さらに一般因子とそれぞれのグループ因子も直交とされている。いま 𝑛個の観測変数. があるとすると， Spearman （ 1904 ）では，観測変数全体の分散が一般因子と個々の変数に対応する 𝑛個の独自因子の分散で説明された。 bi-factor モデルは，仮定する因子数の総数を 𝑠個（ただし，独自因子は含めない）とすると，すべての観. 測変数に影響する一つの一般因子と， 𝑛個の独自因子，さらに 𝑠 − 1個（ 𝑛 > 𝑠 − 1）のグループ因子からなる仮定を置く。これによって，あるテストデータに b i - f a c t o r モデルを適用する場合には，そのテストに含まれる項目に回答するために必要な共通の能力と，そのテストを構成する何らかの下位領域等に関する能力を同時に評価することができることになる（ H o l z i n g e r & S w i n e f o r d , 1 9 3 7 ; 清水・青木， 2 0 1 5 ）。さらに，H o l z i n g e r a n d S w i n e f o r d（ 1 9 3 7 ）は “ . . . a n o r d i n a r y reading comprehension test and a verbal intelligence test will be highly correlated, and these two labels almost useless as indexes of these traits considered as two abili t i e s . F o r e c o n o m i c a l m e a s u r e m e n t , s i m p l i c i t y, a n d p a r s i m o n y,. uncorrelated. factors. are. in dispensable.”. （ Holzinger and Swineford, 1937, pp.42）と指摘する。つまり，異なる能力「ラベル」をもつ複数のテスト間（下位領域間）の相関が高いとき，それらは実質的には共通する能力を測定していることを意味している。そのような場合には，名 30.

(34) 付けられている「ラベル」それ自体は特に意味のない（ u s e l e s s ）ものとなる。しかし， bi-factor モデルを使うことで，. 一つ. のテストを構成する下位領域間に共通する能力を一般因子として統制できる。そうすることで，グループ因子として下位領域として定められた能力を，一般因子との相対関係で捉えられることを意味している。ただし，bi-factor モデルは，“Bi-factor frame of referenc e may. serve. as. a. guide. to. the. construction. of. tests. as. m e a s u r e s o f f a c t o r a b i l i t y, a s w e l l a s a v e r y s i m p l e a n d easy basis for analysis.”（ Holzinger & Swineford, 1937, pp.42）と指摘されるように，因子分析的に，テストデータの能力構造を明らかにするためのツールとして開発されている。つまり，受検者個人の 𝜃に対する関心はなく， b i - f a c t o r モデ. ルを適用することによって，当該の能力「ラベル」通りの実質的に意味のある 𝜃が得られるかどうかについての言及はなされていない。あくまでテストデータの構造を捉えるための分析にとどまっていることに注意が必要である。. 2.2.4.2. I R T との融合（ G i b b o n s a n d H e d e c k e r（ 1 9 9 2 ）まで）. H o l z i n g e r a n d S w i n e f o r d（ 1 9 3 7 ）以降，心理学的特性に関する測定論的研究は， Guilford ， Allport ， Eysenk. らが. Kretschmer の性格類型論を異なる立場で議論する方向に向かっていた。その後， Guttman （ 1952 ）が多群因子分析法（ multiple group method）を提案し， 1960 年代には SEM，またその枠組みの中での確認的因子分析（ confirmatory factor analysis）の手法が発達した。 19 8 0 年代に入ると，従来の相関係数行列を使った因子分析法の限界を超え， IRT の文脈から，項目反応データを使った完全情報項目因子分析（ full information item factor anal31.

(35) y s i s ）（ B o c k , G i b b o n s , & M u r a k i , 1 9 8 8 ）が提案された。一般に，相関係数行列を使った因子分析では，正答あるいは誤答という 2 値データの場合は φ 係数，あるいはテトラコリック相関係数が用いられる。φ 係数を使用した場合，分析対象となる項目の困難度が一定でない場合，分析結果の因子にそのテストデータの「困難度」因子が抽出されてしまう可能性があることが知られている。そこで，現在ではテトラコリック相関係数がテストデータ分析では用いられることが多い。たしかに，この方法による推定値は実用上十分な精度を持つことは知られている（ P a r r y & M c A r d l e , 1 9 9 1 ）。しかしながら，厳密にはテトラコリック相関係数行列の推定値が正定値とならず固有値が計算できない場合があること，受検者がどの項目に正答・誤答したのかという情報が含まれないという問題も指摘されている（加藤他，2 0 1 4；柳井他，2 0 0 1 ）。B o c k , e t a l . （ 1 9 8 8 ）の “ f u l l i n f o r m a t i o n” が意味するのは，このテトラコリック相関係数では表現できなかった「受検者がどの項目に正答・誤答したのかという情報」を指しており，より精緻な項目分析が可能となった。なお，テスト項目全体に影響する一般因子と，それに加えたグループ因子が存在するテストデータがあるとき，それは局所独立（ local independence）の仮定を満たしていないこととなる。そのデータに対して U I R T 分析を行うと， 𝜃の平均. と標準偏差は正しく推定されないため，そのような構造をもつテストデータの扱いは課題として指摘されていた（ B o c k , e t a l . , 1 9 8 8 ）。そこで，bi-factor 構造を 2 値のテストデータ分析の文脈で応用したのが G i bb on s an d H e d ek e（ r 1 9 9 2 ）である。H o l z i n g e r and Swineford（ 1937）以降， bi-factor モデルは対象となる変数が連続変数である場合に用いられてきた（ J ö r e s k o g , 196 9 ）。 G i b b o n s a n d H e d e k e r （ 1 9 9 2 ）は，これを正答・誤 32.

(36) 答のテストデータへの応用を提案したこととなる。また，パラメータの推定という側面では，b i - f a c t o r モデルの場合には，推定する次元は一般因子 𝜃ଵ と 𝜃ଶ ⋯ 𝜃௦ のうちの一つであり，合計. 2 次元のみとなる。そのため，周辺最尤推定法（ marginal m a x i m u m l i k e l i h o o d e s t i m a t i o n ）によって項目パラメータを推定する際には都合がよいとされている（ Gibbons & Hedek e r, 1 9 9 2 ; S t u a r t , 1 9 5 8 ）。 Gibbons and Hedeker（ 1992）ではアメリカの大学入学者選抜試験である ACT の受検者からランダムサンプリングした 1,000 名の理科（ 20 項目）のデータに適用し，単純な多因子構造よりも. bi-factor モデルのほうがあてはまりがよいこと. を確認している。また，学力テストだけではなくハミルトンうつ病評価尺度（ Hamilton Depression Rating Scale）にも適用し，同様に b i - f a c t o r モデルがもっともあてはまりがよいことを確認した。このように，現実のさまざまなテストデータにおいて. bi-factor 構造が支持されるということが指摘さ. れた。. 2.2.4.3. 多値型への対応（ Gibbons, et al.（ 2007）まで）. IRT の文脈において 2 値データにおける bi-factor モデルが Gibbons and Hedeker（ 1992）によって提案されたが，多値データに関してはその拡張がなされていなかった。 Gibbons and Hedeker（ 1992）から 3 年後の 1995 年に， Muraki and Carlson （ 1995 ）によって，多値型データに対する完全情報項目因子分析が提案された。 Muraki and Carlson（ 1995）では， S a m e j i ma（ 1 9 6 9 ）の G R M の多次元への拡張が試みられた。のちに，他の多値型項目反応モデルにおいても多次元への拡張が行われるようになっていく（たとえば S c h w a r z , 2 0 0 6 ）。 33. Ya o. &.

(37) 多値型の MIRT モデルの嚆矢となった Muraki and Carlson （ 1995）から 12 年後に， Gibbons,et al.（ 2007）によって，多値型項目反応データに関する. bi-factor モデルが提案され. た。 Gibbons, et al.（ 2007）は項目パラメータの推定上，一般因子とそれ以外のグループ因子の合計 2 次元のみになることが. bi-factor モデルの魅力的な部分であることを改めて指摘. している。また，たとえばメンタルヘルス測定尺度など多次元テストデータが想定されるテストデータに対しても応用可能であることを示している。しかしながら， bi-factor モデルを通して得られるグループ因子の項目パラメータは，グループ因子ごと（下位領域ごと）に IRT 分析を行った場合に比べて過小に推定されてしまう。この現象については， bi-factor 構造を仮定することにより，一般因子を統制しているため起こることであり， bi-factor モデルを通して得られるグループ因子の 𝜃は，下位領域特有の影響を反映するものとして解釈できる。グループ因子の 𝜃に焦点を当てたテスト研究は今後の課題とされた（ G i b b o n s , e t a l . , 2 0 0 7 ）。. 2.2.4.4. bi-factor モデルの拡張. (Jennrich and Bentler. (2012) まで. Gibbons, et al. （ 2007 ）によって多値型データに対する bi-factor 構造を仮定した分析が可能となった。しかし，分析の対象は単一の母集団かつテスト項目は一般因子に加えて，複数のグループ因子のうちいずれか一つには必ず属することが仮定されていた。 C a i , Ya n g a n d H a n s e n （ 2 0 1 1 ）は，多母集団かつ 2 値，名義尺度データに対応でき，さらにグループ因子についての制約を柔軟に付すことができる IRT モデルを提案した。 34.

(38) いま，6 つのテスト項目があり，項目 1 から 3 はグループ因子 1，項目 4 から 6 はグループ因子 2 に属するとする。このとき， bi-factor 構造は， 𝑎ଵ଴ 𝑎 ⎛ ଶ଴ 𝑎 ⎜ ଷ଴ ⎜𝑎ସ଴ 𝑎ହ଴ ⎝𝑎଺଴. 𝑎ଵଵ 𝑎ଶଵ 𝑎ଷଵ 0 0 0. 0 0 ⎞ 0 ⎟, 𝑎ସଶ ⎟ 𝑎ହଶ 𝑎଺ଶ ⎠. (2.26). と示すことができた。 C a i , e t a l . （ 2 0 11 ）は， 𝑎ଵ଴ 𝑎 ⎛ ଶ଴ 𝑎 ⎜ ଷ଴ ⎜𝑎ସ଴ 𝑎ସ଴ ⎝𝑎଺଴. 𝑎ଵଵ 𝑎ଵଵ 0 0 0 0. 0 0 ⎞ 0 ⎟, 𝑎ସ଴ ⎟ 𝑎ସ଴ 0 ⎠. (2.27). のような “ b i - f a c t o r l i k e” 構造を提案している。具体的には，（ 2.27）式では，項目 3 と 6 にはグループ因子の識別力は仮定されていない。また，項目 1 と 2 におけるグループ因子の識別力は同一という仮定が置かれ，項目 4 と 5 では，一般因子とグループ因子の識別力が同一であるという仮定が置かれていることとなる。このような柔軟なモデリングを多母集団に拡張した中で行うことができる。これにより，たとえば一般因子に関する識別力が項目間で同一かどうかを検証することや，異なる集団間での識別力の程度を検証できることにつながる。なお，（ 2 . 2 7 ）式をパス図で示すと F i g u r e 2 . 8 のようになる。. 35.