多次元項目反応モデルにもとづく学力テストデータの構造分析
全文
(2) 目. 次. 第 1 章. 序 論 .................................................................... 1. 1.1. 「 テ ス ト 」 を 巡 る 今 日 的 状 況 .......................................... 1. 1.2. テ ス ト 研 究 に お け る 下 位 領 域 の 取 り 扱 い と そ の 重 要 性 ......... 3. 1.3. 本 研 究 の 目 的 .............................................................. 4. 第 2 章 2.1. 理 論 と 実 際 ........................................................... 6 テ ス ト 開 発 の 実 際 ........................................................ 7. 2.1.1. テ ス ト 開 発 の 全 体 像 ................................................ 7. 2.1.2. 項 目 開 発 ............................................................... 9. 2.2. 理 論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11. 2.2.1. IRT と CDM ......................................................... 12. 2.2.2. UIRT モ デ ル ........................................................ 13. 2.2.3. MIRT モ デ ル ........................................................ 24. 2.2.4. bi-factor モ デ ル ................................................... 27. 2.2.5. テ ス ト の 下 位 領 域 検 討 に お け る MIRT の 有 効 性 ........... 38. 第 3 章. 下 位 領 域 に 着 目 し た 項 目 分 析 と テ ス ト 開 発 へ の 応 用 可 能 性 . 40. 3.1. 問 題 と 目 的 ............................................................... 40. 3.2. 方 法 ........................................................................ 44. 3.2.1. 使 用 デ ー タ .......................................................... 44. 3.2.2. モ デ ル ................................................................ 45. 3.3. 結 果 ........................................................................ 47. 3.3.1. 「 知 識 」 の 場 合 .................................................... 49. 3.3.2. 「 推 論 」 の 場 合 .................................................... 50. 3.3.3. 「 応 用 」 の 場 合 .................................................... 52. 3.4. テ ス ト 開 発 へ の イ ン プ リ ケ ー シ ョ ン ............................... 54. 3.5. ま と め と 今 後 の 課 題 ................................................... 55. i.
(3) 第 4 章. 下 位 領 域 特 有 の 潜 在 特 性 尺 度 値 と 素 点 と の 関 連 ............ 64. 4.1. 問 題 と 目 的 ............................................................... 64. 4.2. 方 法 ........................................................................ 65. 4.2.1. 使 用 デ ー タ .......................................................... 65. 4.2.2. モ デ ル ................................................................ 66. 4.3. 結 果 ........................................................................ 68. 4.3.1. CTT に 基 づ い た 項 目 分 析 結 果 .................................. 68. 4.3.2. MIRT 分 析 結 果 ..................................................... 68. 4.3.3. 潜 在 特 性 尺 度 値 へ の 影 響 ........................................ 72. 4.4. ま と め と 今 後 の 課 題 ................................................... 77. 付 録 A ............................................................................ 79 付 録 B ............................................................................ 80 第 5 章. 下 位 領 域 に 焦 点 を 当 て た 学 力 の 要 因 分 析 ..................... 81. 5.1. 問 題 と 目 的 ............................................................... 81. 5.2. 方 法 ........................................................................ 85. 5.2.1. 使 用 デ ー タ .......................................................... 85. 5.2.2. テ ス ト デ ー タ の 構 造 の 確 認 ..................................... 86. 5.2.3. 授 業 方 法 が 学 力 に 与 え る 影 響 .................................. 88. 5.3. 結 果 ........................................................................ 90. 5.4. ま と め と 今 後 の 課 題 ................................................... 98. 第 6 章 6.1. 総 合 考 察 ........................................................... 102 本 研 究 の 成 果 ........................................................... 102. 6.1.1. 「 テ ス ト を 作 る 」 場 面 へ の イ ン プ リ ケ ー シ ョ ン .......... 104. 6.1.2. 「 テ ス ト を 使 う 」 場 面 へ の イ ン プ リ ケ ー シ ョ ン .......... 105. 6.2. 本 研 究 の 限 界 と 今 後 の 課 題 .......................................... 107. 参 考 文 献 ...................................................................... 108 初 出 一 覧 ...................................................................... 122. ii.
(4) 第 1 章 序論. 1.1. 「テスト」を巡る今日的状況. 社会におけるさまざまな意思決定ツールとして使用される 「 テ ス ト 」 は , テ ス ト 開 発 ( test development) と 呼 ば れ る 「テストを作る」場面と,テスト結果を解釈し示唆を導き出 す 「 テ ス ト を 使 う 」 場 面 に 大 別 で き る 。 前 者 に つ い て は ,「 テ スト」の品質担保,改善に寄与する学問領域である心理測定 学 ( P s y c h o m e t r i c s ), 後 者 に つ い て は 教 育 社 会 学 的 研 究 が そ れぞれ該当する。とりわけ,後者の教育社会学的領域では, あくまで品質が担保された「テスト」であることが前提とな って議論が展開され,研究対象であるテスト得点が,品質保 証された,たしかな「テスト」によって測定されたものであ るかどうかについては,ほとんど関心が寄せられない。実際 に,教育社会学的領域において,心理測定学の存在自体が十 分に 認 知 され て き た は 言 い 難 い と い う指 摘も ある (広 田, 20 1 7 )。 こ れ に 加 え ,わ が 国 に お い て は ,そ も そ も「 テ ス ト を 作 る 」 機能を担保する心理測定学の存在自体の認知が低いというの が現状と言える。具体的には,わが国における大学入学者選 抜制度に関する議論の中で「テストの専門家」として「教育 (心理)測定の専門家」が十分に認知されてこなかった歴史 が あ る ( 木 村 , 2 0 0 6 )。 ま た , 高 等 教 育 に お い て 心 理 測 定 に 関 す る 専 門 的 な 教 育 が 不 十 分 で あ る と い う 状 況 で も あ る( 木 村 , 20 1 0 )。 そ の た め , わ が 国 に お い て は 「 学 力 」「 性 格 特 性 」「 パ ー ソ ナ リ テ ィ 」 と い っ た 構 成 概 念 ( construct) を 「 テ ス ト 」 に よ ってどのように測定するか,という観点なしにそれを巡った 1.
(5) 議論が行われてしまう。具体的には,あたかもこれまでなか ったものであるかのように「新しい能力」が次々と提唱され る こ と が 広 く み ら れ て い る ( 松 下 編 , 2 0 1 0 ; 中 村 , 2 0 1 9 )。 ま た , 心 理 学 的 研 究 に お け る 尺 度 開 発 に お い て も ,「 類 似 あ る い は 酷 似 し た 構 成 概 念 が 複 数 存 在 す る 」( 髙 本 ・ 服 部 , 2 0 1 5 ) こ と や ,「 構 成 概 念 の 乱 立 」( 南 風 原 , 2 0 1 1 ; 平 井 , 2 0 0 6 ; 宇 佐 美 , 2016; 吉 田 , 2002) と い う 問 題 が 指 摘 さ れ て い る 。 今 現在でも,その状況は続いており,研究者は今一度新尺度開 発の必要性を問うべきだと議論されているさなかである(仲 嶺 ・ 上 條 , 2 0 1 9 )。 このように,心理学的な構成概念は目に見えないものであ るがゆえに,ややもするとそれを巡った議論が個人の経験や 勘,思い込みに依拠するものとなってしまう危険性がある。 したがって,心理学的特性に関する議論は科学的根拠に基づ い て ( evidence based) 慎 重 に 進 め る べ き で あ る と 指 摘 で き る。 このような状況を踏まえると,心理測定学の技術的知見に 立 脚 し な い ま ま ,「 テ ス ト を 作 る 」,「 テ ス ト を 使 う 」 こ と が と もに将来的に続いてしまうことで,個人や組織の未来に影響 を与えてしまうことが懸念される。両場面においても,そも そ も 測 定 し た い 構 成 概 念 を 捉 え ら れ て い る か ( 妥 当 性 ( v a l i d i t y )), そ の 精 度 は 担 保 さ れ て い る か ( 信 頼 性 ( r e l i a b i l i t y )) は 常 に 考 慮 さ れ る べ き で あ る 。 す な わ ち , 石 井 ( 2014). が 指 摘 す る よ う に ,「 テ ス ト で 評 価 す る 」 だ け で. なく「テストを評価する」ことの重要性を再認識することが 依然として課題であると指摘できる。 実 際 ,「 テ ス ト を 評 価 す る 」 試 み と し て , 心 理 測 定 学 的 に は 特 異 項 目 機 能 ( differential item functioning) や 項 目 パ ラ メ ー タ ド リ フ ト( i tem p a ra meter drif t)と い う 研 究 テ ー マ と し ても,テストの妥当性検証的な試みが最近わが国でも見られ 2.
(6) る よ う に な っ て き た ( 坂 本 ・ 酒 匂 ・ 今 城 , 2 0 1 7: 並 木 ・ 川 端 , 20 1 9 )。次 節 で は ,テ ス ト デ ー タ の 分 析 と い う 観 点 に 焦 点 を 移 し ,「 テ ス ト を 評 価 す る 」 上 で の 重 要 な 分 析 視 点 と し て 下 位 領 域 ( subscale) の 存 在 を 取 り 上 げ て い く こ と に す る 。 なお,本研究における「下位領域」は,あるテストにおい て設定される測定内容や領域ごとの複数の項目群のことを指 す 。 下 位 領 域 は ,「 下 位 テ ス ト ( s u b t e s t )」( 池 田 , 1 9 8 2 ) 等 と呼ばれることもあるが,本研究では,一つの構成概念を測 定することを目指して作成されたテストにおいて設定される 複 数 の 測 定 領 域 , と い う こ と を 前 提 と す る た め ,「 下 位 領 域 」 と呼ぶことにする。. 1.2. テスト研究における下位領域の取り扱いとその重要性. テストデータの分析の際には,当該のテストが一つの構成 概念を測定しているという前提のもとで,古典的テスト理論 ( C l a s s i c a l Te s t T h e o r y , 以 下 ,「 C T T 」) に も と づ い た 項 目 分 析 , ま た 項 目 反 応 理 論 ( I t e m R e s p o n s e T h e o r y, 以 下 , 「 I R T 」; L o r d , 1 9 5 2 ) に も と づ い た 項 目 分 析 を 行 う こ と が 多 い。たとえば,学力テストの場合では,数学のテストであれ ばそのテスト全体が「数学力」を測定しているという仮定の もとで,受検者の項目への正答・誤答などの反応データに対 して分析が行われる。本研究では,このようなテスト全体, あるいは分析対象となる項目群が一つの構成概念を測定して いる と い う 仮 定 の 下 で 行 う. IRT 分 析 の こ と を. UIRT 分 析. ( unidimensional IRT) と 呼 ぶ こ と に す る 。 しかし,実際のテストでは,測定内容別にテストを構成す る下位領域が設定されることが多い。具体的には,先の数学 の テ ス ト の 例 で 言 え ば ,「 数 と 式 」「 数 量 関 係 」「 図 形 」 と い っ たように,学習指導要領で定める内容的な区分に応じて,下 3.
(7) 位領域が設定される。たとえば正答・誤答の 2 値データの場 合,分析対象となるテストにおいて下位領域が複数設定され ていたとしても,項目反応データにもとづくテトラコリック 相関係数行列における固有値の減衰状況からテスト全体とし て一次元性が認められる場合には,下位領域ごとの影響を考 慮せずに項目分析が行われる。しかしながら,近年の多次元 I R T( m u l t i d i m e n s i o n a l I R T ,以 下 , 「 MIRT」 ;R e c k a s e , 2 0 0 9 ) の理論的発展を背景に,下位領域に関する知見を獲得するこ と を 目 的 と し て , UIRT 分 析 に 加 え て MIRT に も と づ い た 分 析 結 果 も 同 時 に 報 告 す べ き で あ る と 指 摘 さ れ て い る ( Reise, C o o k & M o o r e , 2 0 1 5 )。 下位 領 域に 着 目し た 最 近 の 調 査 報 告 と し て , た と え ば , PISA2015 で は , 読 解 力 ( reading literacy) の 下 位 領 域 に 着 目し,下位領域ごとの平均正答率に関して議論がなされてい る ( 国 立 教 育 政 策 研 究 所 , 2 0 1 6 )。 ま た , 心 理 測 定 学 的 立 場 か ら の 事 例 と し て ,柴 山 ・ 佐 藤 ・ 熊 谷 ・ 澁 谷 ・ 板 宮 ・ 江 尻( 2 0 1 8 ) では,下位領域に属する項目数が少なくなることによる信頼 性の低下と正確な学力分布を把握できないという問題に着目 し て い る 。 具 体 的 に は , IRT を 基 盤 と し た 推 算 値 ( plausible v a l u e s , 以 下 ,「 P V s 」) の 援 用 に よ り , 下 位 領 域 ご と の 学 力 分 布を推定する試みを行っている。このような事実から,テス トの下位領域をいかに扱うかは,学力テスト研究において必 須な分析視点であると言える。. 1.3. 本研究の目的. 本 研 究 の 目 的 は ,学 力 テ ス ト の 下 位 領 域 が 測 定 す る「 学 力 」 を 定 量 的 に 表 現 し , そ れ に よ っ て , テ ス ト 開 発 場 面 (「 テ ス ト を 作 る 」) と , 学 力 の 要 因 分 析 (「 テ ス ト を 使 う 」) に 対 す る イ ンプリケーションを導き出すことである。まず第 2 章でテス 4.
(8) ト開 発 の 実際 を 俯 瞰 し , そ れ を 支 え る技 術的 基盤 とし ての IRT に つ い て 整 理 す る 。 そ の 際 , 複 数 の 構 成 概 念 を 測 定 す る テ ス ト デ ー タ 分 析 に 適 用 可 能 な MIRT に も 触 れ る 。 第 3 章 で は , 国 際 数 学 ・ 理 科 教 育 動 向 調 査 ( Tr e n d s i n I n t e r n a t i o n a l M a t h e m a t i c s a n d S c i e n c e S t u d y , 以 下 ,「 T I M S S 」) の デ ー タを 用 い て, 下 位 領 域 に 焦 点 を 当 て た項 目分 析を 試み る。 MIRT に よ り , テ ス ト 全 体 が 測 定 す る 学 力 と , 下 位 領 域 が 測 定する学力とを分離して捉えることで,項目ごとにどちらの 要素を強く反映しているかを特定することができる。その結 果を用いて,テスト開発場面にどう活かせていけるか,実務 への応用可能性を導く。次に第 4 章では,わが国における学 習指導要領にもとづいて設計された新潟県全県学力調査デー タを使って,下位領域ごとの学力を抽出し,その潜在特性尺 度 値 ( 以 下 ,「 𝜃」) と 素 点 ( r a w s c o r e ) と の 関 連 性 を 検 証 す. る。厳密に言えば,素点には,テスト全体が測定する学力と 下位領域が測定する学力に関する両方の要素が含まれること になる。一方,テスト全体の学力を統制した上での下位領域 に 関 す る 𝜃は 下 位 領 域 の 影 響 の み を 反 映 し て い る た め ,両 者 の. スコアの意味合いは異なる。そこで,テストに設定される領 域ごとに両者の関係について検証していく。さらに,第 5 章 で は , TIMSS デ ー タ を 対 象 に , MIRT に も と づ い て 下 位 領 域 の 𝜃を 推 定 し た 上 で , そ れ に 対 す る 要 因 分 析 を 試 み る 。 具 体 的. には,授業方法の違いが下位領域の学力に与える影響につい て焦点を当てて検証する。その際に,下位領域ごとに. UIRT. 分 析 を 行 う こ と で 得 ら れ た 𝜃も 用 い て , 比 較 検 討 し て い く 。 こ れにより,下位領域のテストの次元性への影響を踏まえ,改 めて学力をどのように捉え,議論すればよいのかに関する指 針を得ることを目指す。最後に,終章では本章の成果を踏ま え ,「 テ ス ト を 作 る 」「 テ ス ト を 使 う 」 両 場 面 へ の イ ン プ リ ケ ーションを整理し,今後の展望を行う。 5.
(9) 第 2 章 理論と実際. 本章では,テスト開発のプロセスを俯瞰したうえで,テス ト 開 発 場 面 に お い て 必 須 と な る 心 理 測 定 モ デ ル ( psychometric model) と し て の IRT に 関 す る 理 論 的 整 理 を 行う。具体的には,テスト開発の全体像を捉えた上で,特に 項 目 開 発 ( item development) に 焦 点 を 当 て な が ら , そ の プ ロ セ ス を 整 理 す る 。 そ の あ と , IRT の 理 論 的 枠 組 み を 整 理 し ていく。 なお,テストを支える心理測定モデルに関する議論の前提 として,テストは大きく 2 つの目的のもとで開発・実施され るということを念頭に置く必要がある。まず 1 つ目は,テス トの目的が,集団の傾向を把握することにある場合である。 た と え ば , PISA や TIMSS の よ う な 大 規 模 学 力 調 査 が 該 当 す る。2 つ目は,受検者の能力開発を目的とする場合である。 これは,主には特定の集団に対しての小規模なテスト(クラ スルームレベルでのテスト等)のことを指しており,テスト 結果は受検者へフィードバックされることを前提としている。 これらを心理測定モデルに落とし込むと,前者については 受 検 者 の 能 力 を 連 続 変 数 と し て 扱 う IRT が 代 表 的 な 心 理 測 定 モ デ ル と し て あ げ ら れ る 。 後 者 に つ い て も IRT が 利 用 さ れ る ことが多いが,最近では受検者の能力を離散変数として扱う 認 知 診 断 モ デ ル ( Cognitive. Diagnostic. Mo d e l , 以 下 ,. 「 C D M 」; L e i g h t o n & G i e r l , 2 0 0 7 ) も 注 目 さ れ て い る 。 本 章 では,両者の特徴を整理したうえで,集団の傾向をより精緻 に 把 握 す る こ と を 目 的 と す る IRT に 焦 点 を 絞 り , 理 論 的 整 理 を行うこととする。. 6.
(10) 2.1 2.1.1. テスト開発の実際 テスト開発の全体像. テスト開発を実際に推進するアクターとして,サイコメト リ シ ャ ン ( p s y c h o m e t r i c i a n ), 作 問 者 ( i t e m w r i t e r ), テ ス ト 実 施 団 体 ,テ ス ト デ ィ ベ ロ ッ パ ー( test developer)の 大 き く 4 つ に 分 類 す る こ と が で き る ( 上 松 , 2 0 1 9 )。 サイコ メトリ シャン. テスト ディベ ロッパ ー 作問者. Figure 2.1. テスト 実施団 体. テ ス ト 開 発 に か か わ る 4 つ の ア ク タ ー。. 注 ) 上 松 ( 2019) を も と に 筆 者 が 一 部 修 正 し て 作 成 。. Lane, Raymond, Haladyna and Dowing ( 2016) に よ る , テ ス ト 開 発 の 全 体 的 な プ ロ セ ス の 整 理 ( Ta b l e 2 . 1 ) と 照 ら し 合わせると,サイコメトリシャンは主に「テストデザインと 版 組 み 」「 得 点 化 」 等 の 心 理 測 定 学 的 側 面 を 中 心 と し た 機 能 を 持つと言える。作問者は項目開発過程における中心的存在で あ り ,テ ス ト 開 発 の 肝 と も い え る ア ク タ ー と で あ る( L a n e , e t a l . , 2 0 1 8 )。 テ ス ト 実 施 団 体 は 主 に 「 テ ス ト ア ド ミ ニ ス ト レ ー シ ョ ン 」を 中 心 と し た 役 割 を も ち ,テ ス ト デ ィ ベ ロ ッ パ ー は , これら 4 つのアクター間のコミュニケーションを円滑に保ち, 心理測定学的基盤のもとテスト開発全体を推進する役割を持 つ ( 上 松 , 2 0 1 9 )。. 7.
(11) Table 2.1 テ ス ト 開 発 の 12 要 素 テスト開発の要素. 詳細. 全体的な設計. テストのすべての構成要素とその理論的根拠、意図されたテ スト得点の解釈と使用用途の妥当性、ならびに心理測定学的 なテストの品質を評価するための方法論を含む、テスト開発 全体に関する詳細な設計を行う。. 測定領域の定義とその明確化. 測定領域の命名とその定義を行う。テストが測定する知識、 スキル、能力に関して明確な言語化を行う。. 測定内容の特定. 項目開発、版組み、得点化などに落とし込むために、テスト の測定内容を開発する。. 項目開発. 適した項目の形式と素材を明らかにする。項目を開発し、そ の項目を使用するための妥当性検証を行う。. テストデザインと版組み. テストの測定内容、出題形式、得点化のルール、尺度化や等 化などのテスト仕様にもとづいたテスト形式をデザインす る。. テストプロダクション. 明快で正確であり、利用しやすいテスト形式を作成する. テストアドミニストレーション. 標準化された方法でテスト運営を行う。運営の際、妥当性を 阻害するようなことは避ける。. 得点化. 品質保証のポリシー、得点化ならびに項目反応データセット を作成するプロセスを確立する。判断が必要な場合には、正 確かつ一貫した得点化を行う。. 得点のカットライン検討. テストの目的に矛盾がない形で、テスト得点の正当なカット ラインを置く。. テスト得点の報告. 利用しやすく、かつ理解しやすいテスト得点の報告書を開発 する。. テストの安全性. テスト開発と運営におけるテストの安全性を保証するための ポリシーと手順を確立する。. テストドキュメンテーション. テクニカルレポート、また妥当性・公平性・技術的な適切さ を支える文書を作成する。. 注 ) Lane, et al.( 2016) を 筆 者 和 訳 。. な お , Ta b l e 2 . 1 の 1 2 要 素 は 順 に 行 わ れ る の で は な く , そ れ ぞ れ 独 立 に 同 時 並 行 的 に 行 わ れ る こ と も あ る 。た と え ば「 テ ス ト 得 点 ( t e s t s c o r e ) の 報 告 」 は ,「 全 体 設 計 」 や 「 測 定 内 容 の 定 義 と そ の 明 確 化 」 に も か か わ る 要 素 で あ る ( Lane, et a l . , 2 0 1 6 )。 8.
(12) 本 章 で は ,こ の 12 要 素 の う ち ,項 目 開 発 に 焦 点 を 当 て ,作 問者がどのようにして項目開発に関与し,何が効率的なテス ト開発に繋がるかについて整理する。. 2.1.2. 項目開発. 項目開発は,大学入学者選抜や学力調査,人事測定等あら ゆ る テ ス ト 開 発 場 面 に お い て 中 心 的 存 在 で あ る( L a n e , e t a l . , 20 1 8 )。し か し ,こ れ ま で 学 術 的 研 究 の 対 象 と し て そ れ ほ ど 注 目 さ れ て お ら ず ,項 目 を 作 成 す る こ と は「 芸 術 」 (E b e l , 1 9 5 1 ) とも言われてきた。最近では,その「芸術」に対して心理測 定学的なアプローチがとられるようになり,研究が蓄積され て き て い る が , 依 然 と し て 等 化 ( equating) な ど の 心 理 測 定 学的研究に比べると知見の蓄積が少ないというのが現状とい え る ( R o d r i g u e z , 2 0 1 6 )。 そのような状況の中で,項目開発の実務的側面に対して心 理測定学的な観点を考慮しながら研究が進められてきたのが, 項 目 作 成 の ガ イ ド ラ イ ン ( item writing guideline; Haladyna & Rodriguez, 2013) で あ る 。 実 際 の 項 目 開 発 場 面 で は , 内 容 領 域 専 門 家 ( s u b j e c t - m a t t e r e x p e r t s , 以 下 ,「 S M E s 」) と 作 問 者 が 協 働 し な が ら 進 め ら れ る ( L a n e , e t a l . , 2 0 1 8 )。 S M E s はテスト開発(項目開発)のプロセス全体において責任があ る立場であると言える。具体的には,テストの測定内容だけ ではなく,心理測定学的な領域にも精通しており,項目作成 ( i t e m w r i t i n g ), 項 目 に お け る 文 章 や 図 表 の 配 置 , 作 問 者 が 作成した項目,またプレテスト後の項目のレビューまで幅広 く項目開発の実務に関与する。 Figure 2.2 に 一 般 的 な テ ス ト 開 発 の プ ロ セ ス を 整 理 し た 。 なお,図中の実線はテスト開発の基本的な流れ,点線は項目 プール中の既存項目や,プレテストの項目分析で除外された 9.
(13) 項目を改変することを示す。また,破線は作成項目を本番の テストに入れ込み,プレテストの効率化を図ることを意味し ている。. Figure 2.2. テ ス ト 開 発 の プ ロ セ ス 。. 注 ) 加 藤 ・ 山 田 ・ 川 端 ( 2014) を 一 部 改 変 。. SMEs は 項 目 作 成 を メ イ ン で 担 当 す る 作 問 者 を マ ネ ジ メ ン トし項目開発を推進していくが,そこで重要となるのが項目 作成のガイドラインと言える。特に作問者として初心者の段 階 に 作 成 す る 項 目 は , 欠 陥 の あ る 項 目 ( flawed item) と な り やすく,本来当該のテストが測定したい構成概念を測定でき な い な ど の 影 響 が あ る こ と が わ か っ て い る ( Rodriguez, 20 1 8 )。そ の た め ,作 問 者 は 項 目 作 成 の ガ イ ド ラ イ ン に し た が って訓練され,実務的なワークショップ,経験を積んだ作問 者 に よ る フ ィ ー ド バ ッ ク を 受 け る こ と が 推 奨 さ れ て い る ( L a n e , e t a l . , 2 0 1 8 )。 テスト開発の実務場面においては,作問者が各自項目を作 10.
(14) 成 し た 上 で , 項 目 作 成 の 会 議 の 中 で SMEs と と も に 議 論 し , 項 目 が 確 定 さ れ て い く ス テ ッ プ と な る ( 藤 田 , 2 0 1 3 )。 そ の た め,項目作成のガイドラインにおいて,当該のテストで測り たい構成概念の定義,それを測定するための項目の具体例ま で提示することにより,作問者間の認識を合わせておくこと が重要であると指摘できる。 また,項目作成後はプレテストを経て項目プールへ格納さ れ,テスト実施へと接続される。プレテストでは,サイコメ トリシャンが当該テストの目的等によって選択された心理測 定モデルにしたがって項目分析を行い,項目の取捨選択が行 われる。つまり,効率的にテスト開発を進めることは,この プレテストから項目プールへの採用率を高めることでもある と言える。そのため,サイコメトリシャンによる心理測定モ デルにもとづく項目分析結果から,ある構成概念を測るため の項目としてどのような項目の場合は識別力や困難度が担保 され(逆に担保されないのか)についても,項目作成のガイ ドライン上に反映させておくことは重要であると言える。. 2.2. 理論. 2 . 1 節 で 整 理 し た よ う に ,テ ス ト 開 発 の プ ロ セ ス ,特 に 項 目 開発時には,科学的に裏付けられた心理測定モデルが必要不 可欠である。テスト開発にかかわるアクターは,心理測定モ デルを基盤として,科学性を担保したテスト開発を推進する ことが求められる。 そ こ で ,2 . 2 節 で は 心 理 測 定 モ デ ル と し て の I R T と C D M の 違 い を 概 観 す る 。 そ の 上 で , 本 研 究 の 目 的 に 照 ら し , IRT に 焦点を絞って理論的枠組みを整理することとする。. 11.
(15) 2.2.1. IRT と CDM. 大規模学力調査等において集団統計量の推定に関心がある 場 合 ,テ ス ト 項 目 の 特 性 と 受 検 者 の 𝜃を パ ラ メ ー タ と し て 推 定 す る こ と が 求 め ら れ る 。 IRT は , こ の 両 者 の コ ン ビ ネ ー シ ョ ン に 関 す る 確 率 モ デ ル で あ る と 言 え る ( M i s l e v y, 2 0 1 9 )。 し た が っ て ,I R T で は 基 本 的 に 受 検 者 の 𝜃が ど の よ う な 要 素 か ら 成 立しているのか,つまり当該のテスト項目を正答するために 必 要 な 認 知 能 力 や ス キ ル を 意 味 す る ア ト リ ビ ュ ー ト ( attribute) ご と の パ ラ メ ー タ や , 当 該 ア ト リ ビ ュ ー ト に 関 する習得状況等の認知的なプロセスについては原則モデル化 されない。 一 方 ,C D M で は テ ス ト 項 目 と そ れ に 対 応 す る カ テ ゴ リ カ ル なアトリビュートを定義し,受検者の認知的なプロセスの解 明 に 関 心 が あ る ( R u p p , Te m p l i n & H e n s o n , 2 0 1 0 )。 項 目 と アトリビュートとの関係性を示す行列を Q 行列と呼び,その 具 体 例 を Figure 2.1 に 示 す 。. アトリビュート1. アトリビュート2. アトリビュート3. アトリビュート4. アトリビュート5. 項目1. 1. 0. 0. 0. 0. 項目2. 1. 1. 0. 0. 0. 項目3. 1. 0. 0. 0. 1. 項目4. 0. 1. 1. 0. 0. 項目5. 0. 0. 0. 1. 1. Figure 2.1. 項 目 と ア ト リ ビ ュ ー ト と の 関 係 を 示す Q 行 列 の 例 。. たとえば,項目 1 に正答するためにはアトリビュート 1 の 習得が必要となる。また,項目 2 ではアトリビュート 1 とア トリビュート 2 の習得が必要となる,というように複数のア ト リ ビ ュ ー ト が 一 つ の 項 目 に 紐 づ く 場 合 も あ る 。 な お , CDM ではこの Q 行列それ自体の設定が重要となるため,その設定 12.
(16) には当該テストの測定内容に精通した専門家が中心となって 設 定 さ れ る こ と が 推 奨 さ れ る ( L e e , S a w a k i , 2 0 0 9 )。 な お , CDM の 包 括 的 な 整 理 は 山 口 ・ 岡 田 ( 2017) を 参 照 さ れ た い 。 な お , IRT の 文 脈 に お い て も , CDM の よ う な 認 知 心 理 学 ( c o g n i t i v e p s y c h o l o g y )的 な 考 え 方 を 取 り 入 れ る 試 み も あ る 。 いわば認知心理学と心理測定学をハイブリッドしたものと指 摘 で き , 認 知 的 IRT( cognitive IRT; Embretson, 1998) と も 言 わ れ て い る 。 た と え ば , 2.2.2 節 で 示 す IRT に お け る 項 目の困難度に関するパラメータを,アトリビュートの和の形 に 分 解 す る 線 形 ロ ジ ス テ ィ ッ ク テ ス ト モ デ ル( l i n e a r l o g i s t i c t e s t m o d e l , 以 下 ,「 L L T M 」; F i s c h e r, 1 9 8 3 ) が あ る 。 そ の 他 に も , L LT M を M I R T モ デ ル に 取 り 入 れ た 一 般 化 複 合 潜 在 特 性 モ デ ル ( general. component. latent. trait. model ;. Embretson,1984) 等 も 提 案 さ れ て い る 。 本研究においては,項目への反応に関する認知的プロセス の 解 明 で は な く ,認 知 的 プ ロ セ ス を 通 し て 得 ら れ る 𝜃に 関 心 が あ る 。そ の た め ,C D M や 認 知 的 I R T に つ い て は 扱 わ な い こ と とする。 そ こ で ,2 . 2 . 2 節 で は ま ず U I R T の 各 種 モ デ ル に 触 れ た う え で , 複 数 の 構 成 概 念 を 測 定 す る 場 合 に 適 用 可 能 な MIRT モ デ ルについて整理していく。. 2.2.2 2.2.2.1. UIRT モ デ ル 2 値 型 UIRT モ デ ル. IRT の 各 モ デ ル に 入 る 前 に CTT に つ い て 触 れ て お く 。CTT は , 20 世 紀 初 頭 か ら IRT が 登 場 す る 1950 年 頃 ま で に 発 展 し た 心 理 測 定 モ デ ル で あ る 。C T T で は ,受 検 者 𝑖の テ ス ト 得 点 𝑦 は , 真 の 得 点 𝑡 と 測 定 誤 差 𝑒 か ら 成 り 立 つ こ と を 仮 定 す る 。 13.
(17) 𝑦 = 𝑡 + 𝑒 .. (2.1). CTT に お け る テ ス ト 項 目 の 性 能 を 評 価 す る 指 標 と し て , 項 目 の 識 別 力 に つ い て は 点 双 列 相 関 係 数 ( point biserial corr e l a t i o n c o e f f i c i e n t , 以 下 ,「 P. B I S 」) や , 双 列 相 関 係 数 ( b i s e r i a l c o r r e l a t i o n c o e f f i c i e n t , 以 下 ,「 B I S 」), 項 目 の 困 難 度 に 関 す る 指 標 と し て は 通 過 率 な ど が あ る 。し か し な が ら , これらの指標はともに受検者集団に依存するものであること, またテスト得点(素点)がテストに含まれる項目に依存する と い う 性 質 が あ る こ と が CTT の 抱 え る 問 題 点 と し て 知 ら れ て い る ( 加 藤 他 , 2 0 1 4 )。 ま た ,一 般 に CTT に 基 づ く テ ス ト で は ,正 答 し た 項 目 に 対 して重み付けをしてテスト得点を算出することが多い。この と き ,厳 密 に 言 え ば C T T に よ る 素 点 は 順 序 尺 度( o r d i n a l s c a l e ) であり,本来,加減乗除の計算は統計的に許されない。あく ま で , テ ス ト 得 点 が 間 隔 尺 度 上 ( interval scale) に あ る と み なした上での対応であることには注意が必要である。 こ の よ う な CTT に お け る 問 題 点 を 克 服 す る の が IRT で あ る 。 I R T の 特 徴 は , 受 検 者 集 団 に 依 存 し な い 𝜃と , テ ス ト 項 目 の 特. 性を表す項目パラメータを統計的に分離できることであると 言える。また,順序尺度であるテスト得点を間隔尺度へ変換 可 能 で あ る こ と も , そ の 特 徴 で あ る と 言 え る ( 村 木 , 2 0 1 1 )。 以 下 で は , ま ず 正 答 ・ 誤 答 の 2 値 ( dichotomous) デ ー タ に 対 す る IRT モ デ ル を 整 理 し て い く 。 I R T で は 一 次 元 性 の 仮 定( u n i d i m e n s i o n a l i t y a s s u m p t i o n ) と 局 所 独 立 の 仮 定 ( local independence assumption) と い う 2 つの仮定を置く。一次元性の仮定とは,対象となる項目の 集合としてのテストが一つの構成概念を測定しているという 仮 定 で あ る 。 局 所 独 立 の 仮 定 と は , 𝜃を 一 つ の 値 に 固 定 し た と. き,各テストの項目への反応は互いに独立であるという仮定 14.
(18) である。一次元性の仮定は,各項目への反応傾向を決める唯 一の要因が一つのパラメータであることを意味しており,各 項目への反応傾向が系統的に左右されることがなくなる。し たがって,局所独立の仮定は一次元性の仮定から必然的に導 か れ る も の で あ る と も 言 え る ( 加 藤 他 , 2 0 1 4 )。 IRT の 起 源 は , Lord( 1952) が , 正 規 分 布 の 累 積 分 布 関 数 を 用 い て , 項 目 特 性 曲 線 ( item characteristic cu rve, 以 下 , 「 I C C 」) を 表 現 し た と こ ろ に あ る 。 項 目 に つ い て の 添 え 字 を 𝑗, 𝑎 を 項 目 識 別 力 パ ラ メ ー タ ( 以 下 ,「 識 別 力 」), 𝑏 を 項 目 困. 難 度 パ ラ メ ー タ ( 以 下 ,「 困 難 度 」) と す る と , 2 パ ラ メ ー タ の正規累積モデルは,. ೕ ൫ఏିೕ ൯. 𝑃 (𝜃) = න. ିஶ. 1. 1 exp ൬− 𝑧 ଶ ൰, 2 √2𝜋. (2.2). と 表 現 で き る 。 し か し な が ら ,( 2 . 2 ) 式 は 積 分 を 含 む 正 規 累 積モデルであるため,その後の数学的な取り扱いが複雑にな っ て し ま う 。 そ こ で 現 在 で は ,( 2 . 3 ) 式 で 表 さ れ る よ う に ロ ジスティックモデルが一般的である。 ೕ ൫ఏିೕ ൯. න. ିஶ. 1. 1 1 exp ൬− 𝑧 ଶ ൰ ≈ . 2 √2𝜋 1 + exp ቀ−𝐷𝑎 ൫𝜃 − 𝑏 ൯ቁ. (2.3). こ の と き , 尺 度 因 子 𝐷 = 1.7の 場 合 に , 𝜃の 全 域 で 2 つ の 関 数. の違いが. 0.01 以 下 に な る こ と が 知 ら れ て い る 。 最 近 で は ,. 𝐷 = 1.7を 用 い な く て も パ ラ メ ー タ 値 全 体 の 尺 度 が 変 わ る だ け. で 特 別 な 支 障 は な い た め 𝐷 = 1.0と さ れ る こ と も 多 い ( 村 木 , 2 0 1 1 )。 そ の た め , 本 節 に お い て は 簡 単 の た め ,「 𝐷」 は こ れ 以 降省略することとする。. IRT モ デ ル の 中 で 一 般 的 に よ く 利 用 さ れ て い る の は 2 パ ラ 15.
(19) メ ー タ ・ ロ ジ ス テ ィ ッ ク モ デ ル ( 以 下 ,「 2 P L モ デ ル 」) で あ る。. 𝑃 (𝜃) =. 1. 1 + exp ቀ−𝑎 ൫𝜃 − 𝑏 ൯ቁ. .. (2.4). こ の と き ,𝜃を 独 立 変 数 と し て グ ラ フ 化 し た も の が I C C で あ. る 。 た と え ば , 2PL モ デ ル に お い て 識 別 力 =1.8 に 固 定 し て , 困 難 度 の み 変 化 さ せ て み る と , Fi gure 2.3 の よ う に ICC を 描 くことができる。. Figure 2.3. 2PL の ICC の 例 。. 注 ) 識 別 力 =1.8 に 固 定 し , 困 難 度 の み 変 化 さ せ て い る 。. こ の と き 横 軸 は 𝜃, 縦 軸 は そ の 項 目 に 正 答 す る 確 率 𝑃 (𝜃)を 表 16.
(20) し て い る 。𝜃が 大 き く な れ ば な る ほ ど ,項 目 に 正 答 す る 確 率 𝑃 (𝜃) も大きくなるという単調増加の性質も確認できる。また,識. 別 力 が 一 定 の と き , 困 難 度 が 大 き く な る に し た が っ て , ICC が右に平行移動している様子が読み取れる。さらに,数学的 に 言 え ば 困 難 度 は I C C の 変 曲 点 に あ た り ,𝜃と 困 難 度 の 値 が 一 致 す る 受 検 者 が テ ス ト 項 目 𝑗に 正 答 す る 確 率 は , 𝑃 ൫𝑏 ൯ = 0.5,. (2.5). と な り ,F i g u r e 2 . 3 に お け る 点 線 の 矢 印 が そ れ を 示 し て い る 。 次 に , 識 別 力 の 値 を 変 化 さ せ , 困 難 度 =0 と 固 定 し た と き の ICC は , Figure 2.4 の よ う に な る 。. Figure 2.4. 2PL の ICC の 例 。. 注 ) 識 別 力 を 変 化 さ せ , 困 難 度 =0 に 固 定 し て い る 。. 17.
(21) F i g u r e 2 . 4 で は 困 難 度 が 0 に 固 定 さ れ て い る の で , 𝜃 = 0の. 受 検 者 が こ れ ら の 5 つ の 項 目 に 正 答 す る 確 率 は 0.5 で あ る が , 識 別 力 を 変 化 さ せ る こ と に よ り ICC の 傾 き だ け が 異 な っ て い ることに注目されたい。 ま た , 客 観 式 テ ス ト に お い て は 𝜃に 関 係 な く , 偶 然 的 に 項 目. に正答する当て推量の現象がしばしば問題視されることがあ る。それを統計的にモデル化したものが 3 パラメータ・ロジ ス テ ィ ッ ク モ デ ル ( 以 下 , 3PL モ デ ル ) で あ る 。. 𝑃 (𝜃) = 𝑐 +. 1 − 𝑐. 1 + exp ቀ−𝑎 ൫𝜃 − 𝑏 ൯ቁ. .. (2.6). こ の と き , 𝑐 は 当 て 推 量 パ ラ メ ー タ ( 以 下 ,「 当 て 推 量 」) を 示. す。当て推量は,多枝選択のテストでランダムに一つの選択 枝を選んだ時に偶然正答する確率を示している。しかし,多 枝選択の惑わしの程度が異なるため,当て推量の値が常に選 択枝の数の逆数になるとは限らず,経験的にはその値よりや や 低 い 値 に 近 づ く ( L o r d , 1 9 7 4 )。 ま た , 当 て 推 量 は 必 ず し も 単調に漸近線に接近するのではなく,一時当て推量の値より もさらに低い値に下がって再びあがってくるとも言われてい る 。 そ れ は , そ の 付 近 の 𝜃を も つ 受 検 者 は ま っ た く 当 て ず っ ぽ うに答えているわけではなく,誤った選択枝を正解と考えて 選 択 し て い る 受 検 者 が 多 い た め と 考 え ら れ て い る が , 3PL モ デルではそこまでの詳細な情報をモデル化できていない(池 田 , 1 9 9 4 )。 なお,当て推量を安定して推定できない場合には識別力と 困難度の推定値に影響を与えることが知られている。したが っ て , 3PL モ デ ル を 安 定 し て 精 度 よ く 推 定 す る た め に は 2PL モデルより多くのサンプル数を必要とすることになる。これ ら の 理 由 か ら , テ ス ト 項 目 が 多 枝 選 択 式 ゆ え に 3PL モ デ ル を 18.
(22) 安 易 に 使 用 す る こ と に は 注 意 が 必 要 で あ り , 3PL モ デ ル が デ ー タ に 適 合 し な い 場 合 に は 2PL モ デ ル を 採 用 す る こ と も 考 慮 さ れ る べ き で あ る ( 村 木 , 2 0 1 1 )。 さらに,困難度のみをパラメータ化した 1 パラメータ・ロ ジ ス テ ィ ッ ク モ デ ル ( 以 下 ,「 1 P L モ デ ル 」) が あ る 。. 𝑃 (𝜃) =. 1. 1 + exp ቀ−𝑎൫𝜃 − 𝑏 ൯ቁ. .. (2.7). こ の と き 識 別 力 は 全 項 目 で 共 通 で あ る た め 添 え 字 𝑗が つ い て い な い こ と に 注 意 が 必 要 で あ る 。 1PL モ デ ル は ラ ッ シ ュ モ デ. ル ( rasch model) と は 数 学 的 に は 同 一 で あ る が , 歴 史 的 な 背 景 が 異 な っ て い る 。ラ ッ シ ュ モ デ ル に つ い て の 詳 細 は F i s c h e r and Molenaar( 1995) を 参 照 さ れ た い 。 I R T モ デ ル で は 項 目 パ ラ メ ー タ を 用 い て , 𝜃に 応 じ , フ ィ ッ. シ ャ ー 情 報 量 の 意 味 で の 情 報( information)を ど れ ほ ど 保 有 し て い る か を 示 す 項 目 情 報 関 数( i t e m i n f o r m a t i o n f u n c t i o n , 以 下 ,「 I I F 」) を 定 義 す る こ と が で き る 。 従 来 , C T T で は 信 頼 性 係 数 の 下 限 値 を 与 え る ク ロ ン バ ッ ク の 𝛼や ,信 頼 性 係 数 の 予 測 値 を 𝑝̂ , テ ス ト 得 点 の 標 準 偏 差 を 𝑠௬ と す る と き , 測 定 の 標 準 誤 差 ( s t a n d a r d e r r o r o f m e a s u r e m e n t , 以 下 ,「 S E M 」),. SEM = 𝑠௬ ඥ1 − 𝑝̂ ,. (2.8). に よ っ て 測 定 の 精 度 を 推 定 す る こ と が で き た 。し か し な が ら , これらはテスト全体に関する指標であり,受検者集団に依存 す る と い う 性 質 を 持 っ て い た 。 一 方 IRT で は , た と え ば 2PL で は IIF を ,. 19.
(23) 𝐼 (𝜃) =. {𝑃′(𝜃)}ଶ 𝑃 (𝜃)𝑄 (𝜃). ଶ. ൛𝑎 𝑃 (𝜃)𝑄 (𝜃)ൟ = 𝑃 (𝜃)𝑄 (𝜃) = 𝑎ଶ 𝑃 (𝜃)𝑄 (𝜃),. (2.9). と し て 定 義 す る こ と が で き る 。こ の と き ,𝑃′(𝜃)は 𝑃(𝜃)を 𝜃で 微 分 し た 導 関 数 で あ る 。 こ れ に よ り , 𝜃に 対 応 す る 情 報 量 を 検 討 す る こ と が で き る 。 具 体 的 に 図 示 す れ ば Figure 2.5 と な る 。. Figure 2.5. IIF の 具 体 例 。. ( 2.9) 式 か ら 識 別 力 の 値 が 大 き い ほ ど 項 目 情 報 量 が 大 き く な る こ と が 理 論 的 に 導 か れ て い る が , Figure 2.5 か ら も 識 別 力が高い項目 1 と項目 3 は識別力が低い項目 2 よりも項目情 20.
(24) 報量が大きいことが確認できる。なお,項目情報量が最大と な っ て い る の は , 横 軸 𝜃が 困 難 度 の 値 に 一 致 す る と き で あ る 1 。 この項目情報量をテスト全体の項目数分を足し合わせたも. の が テ ス ト 情 報 量( t e s t i n f o r m a t i o n f u n c t i o n ,以 下 , 「 T I F 」) である。 . ଶ. . ൛𝑃ᇱ (𝜃)ൟ 𝐼 (𝜃 ) = = 𝐼 (𝜃). 𝑃 (𝜃)𝑄 (𝜃) ୀଵ. (2.10). ୀଵ. このとき, ( 2 . 1 0 )式 が 成 り 立 つ の は I R T に お け る 局 所 独 立 の 仮 定 が 満 た さ れ て い る と き で あ る こ と に 注 意 さ れ た い 。 F i g u r e 2 . 5 で 示 し た 3 項 目 を 使 っ て T I F を 図 示 す れ ば ,F i g u r e 2.6 と な る 。. Figure 2.6. 1. TIF の 具 体 例 。. 3 P L で は 情 報 量 の 最 大 値 は 𝜃が 困 難 度 の 値 に 一 致 す る と き で は な く ,. や や そ れ よ り 低 い と こ ろ に 最 大 値 が 表 れ る 。 そ の 理 由 と し て , 当 て 推 量 を モ デ ル 化 す る こ と の 影 響 か ら , 項 目 情 報 量 が 低 く な っ て い る と 考 え ら れ る ( E m b r e t s o n & R e i s e , 2 0 0 0 )。. 21.
(25) こ の と き , 𝜃が 0 . 3 付 近 で 情 報 量 が 最 大 に な っ て い る こ と か. ら,それ周辺の受検者に対して最も精度がよいテストである. と 判 断 で き る 。 そ の 理 由 と し て , 真 の 能 力 パ ラ メ ー タ が 𝜃で あ る 受 検 者 の 最 尤 推 定 量 𝜃 の 誤 差 分 散 は , T I F を 用 い て , 𝑉൫𝜃 ห𝜃൯ =. 1 , 𝐼(𝜃). ( 2 . 11 ). と表されるからである。 さ ら に ,𝜃 の 推 定 の 標 準 誤 差( s t a n d a r d e r r o r o f e s t i m a t i o n ,. 以 下 ,「 S E 」) は , T I F の 逆 数 の 平 方 根 ,. 𝑆𝐸൫𝜃 ห𝜃൯ =. 1. ඥ𝐼(𝜃 ). ,. (2.12). で 定 義 さ れ る 。 つ ま り ,( 2 . 1 0 ) 式 に よ っ て テ ス ト 情 報 量 が 大 き く な れ ば な る ほ ど ,そ の 𝜃付 近 の 受 検 者 に と っ て の 推 定 に 関 する誤差が小さくなることが理論的に導ける。. 2.2.2.2. 多 値 型 UIRT モ デ ル. 前 節 で は , 正 答 ・ 誤 答 の 2 値 デ ー タ に 対 す る IRT モ デ ル に ついて整理した。しかしながら実際には,反応データが段階 的なカテゴリを持つ場合や部分点を与えたいテストである場 合もある。 そ の よ う な 多 型 型 ( polytomous) の 項 目 反 応 デ ー タ に 対 す る I R T モ デ ル と し て 段 階 反 応 モ デ ル( g r a d e d r e s p o n s e m o d e l , 以 下 ,「 G R M 」; S a m e j i m a , 1 9 6 9 ) が あ る 。 G R M で は , 項 目 反 応 𝑥୨ が カ テ ゴ リ 𝑘(𝑘 = 0,1, ⋯ , 𝐾) 以 上 と な る 確 率 を 考 え る 。 項. 目 𝑗に お い て カ テ ゴ リ 𝑘 以 上 と な る 確 率 は , 2 P L モ デ ル を 用 い 22.
(26) て,. ା( ) 𝑃 𝜃 =. 1. 1 + exp ቀ−𝑎 ൫𝜃 − 𝑏 ൯ቁ. ,. (2.13). と 表 さ れ る 。 こ れ を 境 界 特 性 曲 線 ( boundary characteristic c u r v e , 以 下 ,「 B C C 」) と 呼 び , モ デ ル 上 , ା( ) 𝑃 𝜃 = 1,. ା( ) 𝑃 𝜃 = 0,. (2.14) (2.15). とする。 B C C を 使 っ て ,各 項 目 の カ テ ゴ リ ご と に 𝜃と 当 該 カ テ ゴ リ に. 反 応 す る 確 率 を 示 す , 項 目 反 応 カ テ ゴ リ 特 性 曲 線 ( item re-. s p o n s e c a t e g o r y c h a r a c t e r i s t i c c u r v e , 以 下 ,「 I R C C C 」) を 導 く こ と が で き る 。 具 体 的 に は , 受 検 者 が カ テ ゴ リ 𝑘と な る 反 応 す る 確 率 は , 受 検 者 が カ テ ゴ リ 𝑘 − 1以 上 と 反 応 す る 確 率 か ら カ テ ゴ リ 𝑘以 上 と 反 応 す る 確 率 の 差 , ା ( ) ା( ) 𝑃 (𝜃) = 𝑃ିଵ 𝜃 −𝑃 𝜃 ,. (2.16). で与えられる。 多 値 型 項 目 反 応 モ デ ル は ,GRM の 他 に も ,部 分 得 点 モ デ ル ( p a r t i a l c r e d i t m o d e l ; M a s t e r s , 1 9 8 2 ), 一 般 化 部 分 得 点 モ デ ル ( g e n e r a l i z e d p a r t i a l c r e d i t m o d e l ; M u r a k i , 1 9 9 2 ), 評 定 尺 度 モ デ ル ( rating scale model; Andrich, 1978) な ど が あ る 。 多 値 型 IRT モ デ ル に 関 す る 包 括 的 な 整 理 は Nering and Ostini( 2010) に 詳 し い 。. 23.
(27) 2.2.3. MIRT モ デ ル. 2 . 2 . 2 節 で は ,テ ス ト 全 体 が 一 つ の 構 成 概 念 を 測 定 し て い る こ と を 前 提 と し た う え で の IRT モ デ ル を 整 理 し た 。 し か し な がら,多くのテストでは,その回答の背後には多次元性が内 在 し て い る と 考 え ら れ て い る ( A c k e r m a n , G i e r l & Wa l k e r, 20 0 5 ; Ya o & B o u g h t o n , 2 0 0 9 )。 そ の よ う な 多 次 元 性 が 仮 定 で き る 場 合 に 適 用 可 能 な IRT モ デ ル が MIRT モ デ ル で あ る 。 後 述 す る 補 償 型 ( compensatory) MIRT は カ テ ゴ リ カ ル 因 子分 析 と 数学 的 に 等 価 で あ る こ と が 知ら れて おり (荘 島, 20 0 3 ; Ta k a n e & D e L e e u w, 1 9 8 7 ), M I R T と 因 子 分 析 は そ の 分 析 目 的 に よ っ て 使 い 分 け ら れ る 。 具 体 的 に は , MIRT の 場 合は,項目と受検者のインタラクション,つまり識別力や困 難度に関心がある場合に使用される。一方,因子分析は分析 対 象 デ ー タ の 次 元 性 の 確 認 が 主 目 的 と な る( R e c k a s e , 2 0 0 9 )。 本研究では,テストデータの構造分析を踏まえ,その後の項 目 パ ラ メ ー タ な ら び に 受 検 者 の 𝜃を 推 定 す る こ と が 目 的 と な る た め , 本 節 で は Reckase( 2009) を 参 考 に , MIRT に 焦 点 を当て,その理論的枠組みを整理する。 MIRT は 一 般 に 補 償 型 モ デ ル ( compensatory) と 非 補 償 型 ( n o n c o m p e n s a t o r y )モ デ ル に 大 別 さ れ る 。補 償 型 モ デ ル は , 複数の能力を測定するテストにおいて,ある能力が低い場合 でも他の能力が十分高ければ当該の項目には正答しやすいと いう仮定を置くモデルである。つまり,数学的にはそれぞれ の次元同士は和の関係にある。一方,非補償型モデルは当該 の項目に正答するためには,ある能力のみが高いだけでは達 成されないことをモデル化しており,数学的にはそれぞれの 次元同士の積によって正答確率を定義していることに特徴が あ る 。本 章 で は ,補 償 型 多 次 元 2 値 2 P L モ デ ル( 以 下 , 「 M2PL モ デ ル 」), 24.
(28) 𝑃൫𝑢 = 1ห𝜽𝒊 , 𝒂𝒋 , 𝑑 ൯ =. exp൫𝒂𝒋 𝜽′𝒊 + 𝑑 ൯. , 1 + exp൫𝒂𝒋 𝜽′𝒊 + 𝑑 ൯. (2.17). を 採 用 す る 。こ の と き 𝑢 は 受 検 者 𝑖の 項 目 𝑗に 対 す る 反 応 を 示 し , ま た 次 元 数 を 𝑚と す る と 𝒂𝒋 は 1 × 𝑚の 項 目 𝑗の 識 別 力 パ ラ メ ー タ ベ ク ト ル , 𝜽𝒊 は 1 × 𝑚の 受 検 者 𝑖の 𝜃ベ ク ト ル , 𝑑 は 困 難 度 に 関 連 す る パ ラ メ ー タ ( ス カ ラ ー ) を 示 し て い る 。 𝑑 は ( 2 . 4 ) 式 に. お け る 𝑎(𝜃 − 𝑏) を 展 開 し た −𝑎𝑏 に 相 当 す る 。 し た が っ て , 𝑑 は UIRT モ デ ル に お け る 困 難 度 と 同 じ 解 釈 は で き な い こ と に 注 意 が 必 要 で あ る 。 MIRT. の 場 合 に は 多 次 元 困 難 度. ( m u l t i d i m e n s i o n a l d i f f i c u l t y, 以 下 ,「 M D I F F 」),. 𝑀𝐷𝐼𝐹𝐹 = −. 𝑑. ଶ 𝑎௩ ට𝛴௩ୀଵ. ,. (2.18). を算出することによって,項目の困難度としての解釈が可能 となる。 次 に , MIRT に お け る 項 目 情 報 量 は ,. 𝐼ఈ (𝜽) =. [∇ఈ 𝑃(𝜽)]ଶ , 𝑃(𝜽)𝑄(𝜽). (2.19). と し て 定 義 さ れ て い る 。 𝛼は 𝜽座 標 軸 に お け る 𝜽が な す 角 の ベ ク ト ル , ∇ఈ は 導 関 数 を 示 す 。( 2 . 1 9 ) 式 の 導 関 数 ∇ఈ 𝑃(𝜽)は , ∇ఈ 𝑃(𝜽) =. 𝜕𝑃(𝜽) 𝜕𝑃(𝜽) 𝜕𝑃(𝜽) cos𝛼ଵ + cos𝛼ଶ + ⋯ + cos𝛼 , 𝜕𝜃ଵ 𝜕𝜃ଶ 𝜕𝜃. (2.20). と し て 与 え ら れ る 。 M2PL モ デ ル は 2PL モ デ ル の 多 次 元 空 間 25.
(29) への拡張として捉えられるので,. ∇ఈ 𝑃 (𝜽) = 𝑎ଵ 𝑃(𝜽)𝑄(𝜽)𝑐𝑜𝑠𝛼ଵ + 𝑎ଶ 𝑃(𝜽)𝑄(𝜽)𝑐𝑜𝑠𝛼ଶ + ⋯ であり,. (2.21). + 𝑎 𝑃(𝜽)𝑄(𝜽)𝑐𝑜𝑠𝛼 , . ∇ఈ 𝑃 (𝜽) = 𝑃 (𝜽)𝑄(𝜽) 𝑎௩ 𝑐𝑜𝑠𝛼௩ ,. (2.22). ௩ୀଵ. と 表 現 で き る 。( 2 . 2 2 ) 式 を ( 2 . 1 9 ) 式 に 代 入 す る こ と で 項 目 情報量関数を定義することができる。 . ଶ. ଶ [𝑃(𝜽)𝑄(𝜽) ∑ ௩ୀଵ 𝑎௩ 𝑐𝑜𝑠𝛼௩ ] 𝐼ఈ (𝜽) = = 𝑃(𝜽)𝑄(𝜽) ൭ 𝑎௩ 𝑐𝑜𝑠𝛼௩ ൱ . 𝑃 (𝜽)𝑄(𝜽). (2.23). ௩ୀଵ. ( 2.23) 式 か ら , MIRT の 場 合 で も 識 別 力 の 値 に よ っ て 項 目 情報量が規定されることがわかる。 な お , 項 目 特 性 曲 面 ( item characteristic surface) の 傾 き がもっとも急となる,つまり項目情報量が最大となるのは, . ଶ 𝐼ఈ max(𝜽) = 𝑃 (𝜽)𝑄 (𝜽) 𝑎௩ ,. (2.24). ௩ୀଵ. の と き と な る 。( 2 . 2 4 ) 式 よ り , 特 定 の 項 目 に お け る 同 一 モ デ ル内での次元間の情報量の比較は,識別力の 2 乗値の比較を することで可能となることがわかる。. 26.
(30) 2.2.4. bi-factor モ デ ル. MIRT モ デ ル に も と づ く テ ス ト デ ー タ の 分 析 で は , 測 定 領 域 に 関 す る 事 前 の 仮 説 が あ る 場 合 , 確 認 的 ( confirmatory) な MIRT 分 析 を 実 行 す る こ と も 可 能 で あ る 。 た と え ば , テ ス ト 全 体 が 測 定 し て い る 能 力( 一 般 因 子( g e n e r a l f a c t o r ))と , そ れ に 加 え て 領 域 別 の 能 力 ( グ ル ー プ 因 子 ( g r o u p f a c t o r )) が測定している能力という仮説がある場合,識別力を行列で 表記すると,. 𝑎ଵଵ 𝑎 𝒂 = ൦ ଶଵ 𝑎ଷଵ 𝑎ସଵ. 𝑎ଵଶ 𝑎ଶଶ 0 0. 0 0 ൪, 𝑎ଷଷ 𝑎ସଷ. (2.25). と な る 。こ れ は 一 般 に b i - f a c t o r 2 モ デ ル( G i b b o n s & H e d e c k e r, 19 9 2 ; H o l z i n g e r & S w i n e f o r d , 1 9 3 7 )と 言 わ れ て お り ,M I R T モ デ ル に 包 含 で き る 。 bi-factor モ デ ル の イ メ ー ジ を. Figure. 2.7 示 す 。. Figure 2.7 bi-factorモ デ ル の イ メ ー ジ 。. Holzinger and Swineford( 1937) に お い て “ bi-factor” を 使 用 し て い る こ と か ら ,本 研 究 で は“ b i - f a c t o r ”を 用 い る 。日 本 語 で は , 浅 野 ( 1 9 7 2 ), 堀 ( 2 0 0 3 ), 印 東 ( 1 9 5 0 ) に あ る よ う に ,「 双 因 子 」 と さ れ る こ と が 多 い ( 青 木 ・ 清 水 , 2 0 1 5 )。 2. 27.
(31) bi-factor モ デ ル 自 体 は Holzinger and Swineford( 1937) が嚆矢であるが,それ以降心理測定の領域でそれほど注目さ れ て こ な か っ た 歴 史 が あ る ( R e i s e , 2 0 1 2 )。 し か し な が ら , 最近ではわが国においてもテスト開発や測定尺度の内部構造 の検討に. bi-factor モ デ ル が 使 用 さ れ る こ と は 心 理 測 定 学 的. に も 適 切 な 方 法 で あ る と 指 摘 さ れ ( 清 水 ・ 青 木 , 2 0 1 5 ), 改 め てその有効性が注目されてきている。また,知能テストにお け る 最 近 の 先 行 研 究 ( G o l a y, R e v e r t e , R o s s i e r, F a v e z & Lecerf, 2013 ; McGrill & Canivez, 2018) に お い て も , テ ス ト デ ー タ の 構 造 の 検 証 の た め に bi-factor モ デ ル が 使 用 さ れ , そ の 有 用 性 へ の 認 知 は 高 ま っ て き て い る と 指 摘 で き る 。な お , bi-f actor モ デ ル は 階 層 因 子 分 析 ( h iera rchi ca l f a ctor an al ysis) の 一 種 で あ る と も 捉 え ら れ る 。 し か し 本 研 究 で は , テ スト全体が測定する能力(学力)と,それだけでは説明され な い 下 位 領 域 特 有 の 能 力( 学 力 )と い う 解 釈 可 能 性 を 考 慮 し , 階 層 因 子 分 析 で は な く b i - f a c t o r モ デ ル に 焦 点 を 絞 り ,議 論 を 進めることにする。 ここでは,下位領域に焦点を当てたテストデータ分析にお け る ,b i-f a ctor モ デ ル の 有 効 性 を 導 き 出 す た め ,主 に IRT の 理 論 的 発 展 に 関 連 付 け て , bi-factor モ デ ル の 理 論 的 変 遷 を 整 理 し て い く 。 な お , bi-factor モ デ ル の 思 想 そ れ 自 体 は , IRT だ け で は な く , 因 子 分 析 ( factor analysis) や 構 造 方 程 式 モ デ リ ン グ ( s t r u c t u r a l e q u a t i o n m o d e l i n g , 以 下 ,「 S E M 」) とも密接に関連している。 Holzinger and Swineford ( 1937) 以 降 , bi-factor モ デ ル の IRT の 側 面 に お け る 理 論 的 発 展 を 踏 ま え る と 以 下 の 通 り 4 つのフェーズに分類できる。 1 . b i - f a c t o r モ デ ル の 起 源( H o l z i n g e r a n d S w i n e f o r d( 1 9 3 7 ) まで) 2 . I R T モ デ ル と の 融 合 ( G i b b o n s a n d H e d e c k e r( 1 9 9 2 ) ま 28.
(32) で) 3. 多 値 型 へ の 対 応 ( Gibbons, et al.( 2007) ま で ) 4. bi-factor モ デ ル の 拡 張 ( Jennrich and Bentler( 2012) まで) 次節から,上記の 4 つのフェーズごとに整理していくこと にする。. 2.2.4.1. b i - f a c t o r モ デ ル の 起 源( H o l z i n g e r a n d S w i n e f o r d. ( 1937) ま で ). 「 学 力 」「 性 格 」 と い っ た 人 間 の 心 理 学 的 特 性 の 測 定 に お い て,その道具とされてきたのは因子分析であると言える。そ の 基 礎 と な る 相 関 係 数 ( c o r r el a ti on ) は , G al t on( 1 86 9 ) が 嚆 矢 で あ り , そ の 後 , Galton の 弟 子 で あ っ た K. Pearson が 現在広く使われている(標本)相関係数を確立した。 相 関 係 数 を も と に し て , Spearman( 1904 ) は , 知 能 は す べての科目(観測変数)に共通な一般因子と,その科目(観 測変数)独自の独自因子からなるという 2 因子説を唱えた。 この知能の 2 因子説は,テスト得点のばらつきがそれぞれの テストに共通に作用する一つの因子と,独自に作用する独自 因 子 ( unique factor) の ば ら つ き に よ っ て 説 明 さ れ る と 仮 定 するものであるため,実質的には因子分析の一因子モデルと 等 価 で あ る 。こ の と き 独 自 因 子 は ,特 殊 因 子( s p e c i f i c f a c t o r ) と測定誤差の和として定義される(柳井・繁桝・前川・市川, 20 0 1 )。 こ の 一 因 子 モ デ ル に 対 し , Thurstone( 1938) は そ れ ぞ れ の観測変数は複数の因子によって説明されるという多因子説 を 唱 え た 。 ち な み に , こ の 1930 年 代 に は Hotelling( 1933, 19 3 6 ) に よ り 主 成 分 分 析 と 正 準 相 関 分 析 , F i s c h e r ( 1 9 3 6 ) に よ り 判 別 分 析 が 発 表 さ れ て い る 。し た が っ て ,1930 年 代 は 29.
(33) 心理学的データに関する分析手法がさかんに提案された時期 であると言える。 こ の よ う な 1930 年 代 に お い て , Holzinger and Swineford ( 1 9 3 7 ) は , S p e a r m a n( 1 9 0 4 ) を 拡 張 し た b i - f a c t o r モ デ ル を 提 案 し て い る 。 H o l z i n g e r a n d S w i n e f o r d( 1 9 3 7 ) は , す べ ての観測変数に共通する一般因子と,それに加えて,2 つ以 上の観測変数に影響するグループ因子の存在を仮定している。 このとき,グループ因子同士は直交,さらに一般因子とそれ ぞ れ の グ ル ー プ 因 子 も 直 交 と さ れ て い る 。い ま 𝑛個 の 観 測 変 数. が あ る と す る と , Spearman ( 1904 ) で は , 観 測 変 数 全 体 の 分 散 が 一 般 因 子 と 個 々 の 変 数 に 対 応 す る 𝑛個 の 独 自 因 子 の 分 散 で 説 明 さ れ た 。 bi-factor モ デ ル は , 仮 定 す る 因 子 数 の 総 数 を 𝑠個 ( た だ し , 独 自 因 子 は 含 め な い ) と す る と , す べ て の 観. 測 変 数 に 影 響 す る 一 つ の 一 般 因 子 と , 𝑛個 の 独 自 因 子 , さ ら に 𝑠 − 1個 ( 𝑛 > 𝑠 − 1) の グ ル ー プ 因 子 か ら な る 仮 定 を 置 く 。 こ れ に よ っ て ,あ る テ ス ト デ ー タ に b i - f a c t o r モ デ ル を 適 用 す る 場 合には,そのテストに含まれる項目に回答するために必要な 共通の能力と,そのテストを構成する何らかの下位領域等に 関 す る 能 力 を 同 時 に 評 価 す る こ と が で き る こ と に な る ( H o l z i n g e r & S w i n e f o r d , 1 9 3 7 ; 清 水 ・ 青 木 , 2 0 1 5 )。 さ ら に ,H o l z i n g e r a n d S w i n e f o r d( 1 9 3 7 )は “ . . . a n o r d i n a r y reading comprehension test and a verbal intelligence test will be highly correlated, and these two labels almost useless as indexes of these traits considered as two abili t i e s . F o r e c o n o m i c a l m e a s u r e m e n t , s i m p l i c i t y, a n d p a r s i m o n y,. uncorrelated. factors. are. in dispensable.”. ( Holzinger and Swineford, 1937, pp.42) と 指 摘 す る 。 つ ま り,異なる能力「ラベル」をもつ複数のテスト間(下位領域 間)の相関が高いとき,それらは実質的には共通する能力を 測定していることを意味している。そのような場合には,名 30.
(34) 付 け ら れ て い る「 ラ ベ ル 」そ れ 自 体 は 特 に 意 味 の な い( u s e l e s s ) も の と な る 。 し か し , bi-factor モ デ ル を 使 う こ と で ,. 一つ. のテストを構成する下位領域間に共通する能力を一般因子と して統制できる。そうすることで,グループ因子として下位 領域として定められた能力を,一般因子との相対関係で捉え られることを意味している。 た だ し ,bi-factor モ デ ル は ,“Bi-factor frame of referenc e may. serve. as. a. guide. to. the. construction. of. tests. as. m e a s u r e s o f f a c t o r a b i l i t y, a s w e l l a s a v e r y s i m p l e a n d easy basis for analysis.”( Holzinger & Swineford, 1937, pp.42)と 指 摘 さ れ る よ う に ,因 子 分 析 的 に , テ ス ト デ ー タ の 能力構造を明らかにするためのツールとして開発されている。 つ ま り , 受 検 者 個 人 の 𝜃に 対 す る 関 心 は な く , b i - f a c t o r モ デ. ルを適用することによって,当該の能力「ラベル」通りの実 質 的 に 意 味 の あ る 𝜃が 得 ら れ る か ど う か に つ い て の 言 及 は な されていない。あくまでテストデータの構造を捉えるための 分析にとどまっていることに注意が必要である。. 2.2.4.2. I R T と の 融 合 ( G i b b o n s a n d H e d e c k e r( 1 9 9 2 ) ま で ). H o l z i n g e r a n d S w i n e f o r d( 1 9 3 7 ) 以 降 , 心 理 学 的 特 性 に 関 す る 測 定 論 的 研 究 は , Guilford , Allport , Eysenk. ら が. Kretschmer の 性 格 類 型 論 を 異 な る 立 場 で 議 論 す る 方 向 に 向 か っ て い た 。 そ の 後 , Guttman ( 1952 ) が 多 群 因 子 分 析 法 ( multiple group method) を 提 案 し , 1960 年 代 に は SEM, ま た そ の 枠 組 み の 中 で の 確 認 的 因 子 分 析 ( confirmatory factor analysis) の 手 法 が 発 達 し た 。 19 8 0 年 代 に 入 る と ,従 来 の 相 関 係 数 行 列 を 使 っ た 因 子 分 析 法 の 限 界 を 超 え , IRT の 文 脈 か ら , 項 目 反 応 デ ー タ を 使 っ た 完 全 情 報 項 目 因 子 分 析 ( full information item factor anal31.
(35) y s i s )( B o c k , G i b b o n s , & M u r a k i , 1 9 8 8 ) が 提 案 さ れ た 。 一 般に,相関係数行列を使った因子分析では,正答あるいは誤 答という 2 値データの場合は φ 係数,あるいはテトラコリッ ク相関係数が用いられる。φ 係数を使用した場合,分析対象 となる項目の困難度が一定でない場合,分析結果の因子にそ のテストデータの「困難度」因子が抽出されてしまう可能性 があることが知られている。そこで,現在ではテトラコリッ ク相関係数がテストデータ分析では用いられることが多い。 たしかに,この方法による推定値は実用上十分な精度を持つ こ と は 知 ら れ て い る ( P a r r y & M c A r d l e , 1 9 9 1 )。 し か し な が ら,厳密にはテトラコリック相関係数行列の推定値が正定値 とならず固有値が計算できない場合があること,受検者がど の項目に正答・誤答したのかという情報が含まれないという 問 題 も 指 摘 さ れ て い る( 加 藤 他 ,2 0 1 4; 柳 井 他 ,2 0 0 1 )。B o c k , e t a l . ( 1 9 8 8 ) の “ f u l l i n f o r m a t i o n” が 意 味 す る の は , こ の テ トラコリック相関係数では表現できなかった「受検者がどの 項目に正答・誤答したのかという情報」を指しており,より 精緻な項目分析が可能となった。 なお,テスト項目全体に影響する一般因子と,それに加え たグループ因子が存在するテストデータがあるとき,それは 局 所 独 立 ( local independence) の 仮 定 を 満 た し て い な い こ と と な る 。 そ の デ ー タ に 対 し て U I R T 分 析 を 行 う と , 𝜃の 平 均. と標準偏差は正しく推定されないため,そのような構造をも つ テ ス ト デ ー タ の 扱 い は 課 題 と し て 指 摘 さ れ て い た( B o c k , e t a l . , 1 9 8 8 )。 そ こ で ,bi-factor 構 造 を 2 値 の テ ス ト デ ー タ 分 析 の 文 脈 で 応 用 し た の が G i bb on s an d H e d ek e( r 1 9 9 2 )で あ る 。H o l z i n g e r and Swineford( 1937) 以 降 , bi-factor モ デ ル は 対 象 と な る 変 数 が 連 続 変 数 で あ る 場 合 に 用 い ら れ て き た ( J ö r e s k o g , 196 9 )。 G i b b o n s a n d H e d e k e r ( 1 9 9 2 ) は , こ れ を 正 答 ・ 誤 32.
(36) 答のテストデータへの応用を提案したこととなる。また,パ ラ メ ー タ の 推 定 と い う 側 面 で は ,b i - f a c t o r モ デ ル の 場 合 に は , 推 定 す る 次 元 は 一 般 因 子 𝜃ଵ と 𝜃ଶ ⋯ 𝜃௦ の う ち の 一 つ で あ り , 合 計. 2 次 元 の み と な る 。 そ の た め , 周 辺 最 尤 推 定 法 ( marginal m a x i m u m l i k e l i h o o d e s t i m a t i o n )に よ っ て 項 目 パ ラ メ ー タ を 推 定 す る 際 に は 都 合 が よ い と さ れ て い る ( Gibbons & Hedek e r, 1 9 9 2 ; S t u a r t , 1 9 5 8 )。 Gibbons and Hedeker( 1992) で は ア メ リ カ の 大 学 入 学 者 選 抜 試 験 で あ る ACT の 受 検 者 か ら ラ ン ダ ム サ ン プ リ ン グ し た 1,000 名 の 理 科 ( 20 項 目 ) の デ ー タ に 適 用 し , 単 純 な 多 因 子 構造よりも. bi-factor モ デ ル の ほ う が あ て は ま り が よ い こ と. を確認している。また,学力テストだけではなくハミルトン う つ 病 評 価 尺 度 ( Hamilton Depression Rating Scale) に も 適 用 し ,同 様 に b i - f a c t o r モ デ ル が も っ と も あ て は ま り が よ い ことを確認した。このように,現実のさまざまなテストデー タにおいて. bi-factor 構 造 が 支 持 さ れ る と い う こ と が 指 摘 さ. れた。. 2.2.4.3. 多 値 型 へ の 対 応 ( Gibbons, et al.( 2007) ま で ). IRT の 文 脈 に お い て 2 値 デ ー タ に お け る bi-factor モ デ ル が Gibbons and Hedeker( 1992) に よ っ て 提 案 さ れ た が , 多 値 デ ー タ に 関 し て は そ の 拡 張 が な さ れ て い な か っ た 。 Gibbons and Hedeker( 1992) か ら 3 年 後 の 1995 年 に , Muraki and Carlson ( 1995 ) に よ っ て , 多 値 型 デ ー タ に 対 す る 完 全 情 報 項 目 因 子 分 析 が 提 案 さ れ た 。 Muraki and Carlson( 1995) で は , S a m e j i ma( 1 9 6 9 ) の G R M の 多 次 元 へ の 拡 張 が 試 み ら れ た。のちに,他の多値型項目反応モデルにおいても多次元へ の 拡 張 が 行 わ れ る よ う に な っ て い く ( た と え ば S c h w a r z , 2 0 0 6 )。 33. Ya o. &.
(37) 多 値 型 の MIRT モ デ ル の 嚆 矢 と な っ た Muraki and Carlson ( 1995) か ら 12 年 後 に , Gibbons,et al.( 2007) に よ っ て , 多値型項目反応データに関する. bi-factor モ デ ル が 提 案 さ れ. た。 Gibbons, et al.( 2007) は 項 目 パ ラ メ ー タ の 推 定 上 , 一 般 因子とそれ以外のグループ因子の合計 2 次元のみになること が. bi-factor モ デ ル の 魅 力 的 な 部 分 で あ る こ と を 改 め て 指 摘. している。また,たとえばメンタルヘルス測定尺度など多次 元テストデータが想定されるテストデータに対しても応用可 能 で あ る こ と を 示 し て い る 。 し か し な が ら , bi-factor モ デ ル を通して得られるグループ因子の項目パラメータは,グルー プ 因 子 ご と ( 下 位 領 域 ご と ) に IRT 分 析 を 行 っ た 場 合 に 比 べ て 過 小 に 推 定 さ れ て し ま う 。 こ の 現 象 に つ い て は , bi-factor 構造を仮定することにより,一般因子を統制しているため起 こ る こ と で あ り , bi-factor モ デ ル を 通 し て 得 ら れ る グ ル ー プ 因 子 の 𝜃は ,下 位 領 域 特 有 の 影 響 を 反 映 す る も の と し て 解 釈 で き る 。グ ル ー プ 因 子 の 𝜃に 焦 点 を 当 て た テ ス ト 研 究 は 今 後 の 課 題 と さ れ た ( G i b b o n s , e t a l . , 2 0 0 7 )。. 2.2.4.4. bi-factor モ デ ル の 拡 張. (Jennrich and Bentler. (2012) ま で. Gibbons, et al. ( 2007 ) に よ っ て 多 値 型 デ ー タ に 対 す る bi-factor 構 造 を 仮 定 し た 分 析 が 可 能 と な っ た 。 し か し , 分 析 の対象は単一の母集団かつテスト項目は一般因子に加えて, 複数のグループ因子のうちいずれか一つには必ず属すること が 仮 定 さ れ て い た 。 C a i , Ya n g a n d H a n s e n ( 2 0 1 1 ) は , 多 母 集団かつ 2 値,名義尺度データに対応でき,さらにグループ 因 子 に つ い て の 制 約 を 柔 軟 に 付 す こ と が で き る IRT モ デ ル を 提案した。 34.
(38) いま,6 つのテスト項目があり,項目 1 から 3 はグループ 因 子 1, 項 目 4 か ら 6 は グ ル ー プ 因 子 2 に 属 す る と す る 。 こ の と き , bi-factor 構 造 は , 𝑎ଵ 𝑎 ⎛ ଶ 𝑎 ⎜ ଷ ⎜𝑎ସ 𝑎ହ ⎝𝑎. 𝑎ଵଵ 𝑎ଶଵ 𝑎ଷଵ 0 0 0. 0 0 ⎞ 0 ⎟, 𝑎ସଶ ⎟ 𝑎ହଶ 𝑎ଶ ⎠. (2.26). と 示 す こ と が で き た 。 C a i , e t a l . ( 2 0 11 ) は , 𝑎ଵ 𝑎 ⎛ ଶ 𝑎 ⎜ ଷ ⎜𝑎ସ 𝑎ସ ⎝𝑎. 𝑎ଵଵ 𝑎ଵଵ 0 0 0 0. 0 0 ⎞ 0 ⎟, 𝑎ସ ⎟ 𝑎ସ 0 ⎠. (2.27). の よ う な “ b i - f a c t o r l i k e” 構 造 を 提 案 し て い る 。 具 体 的 に は , ( 2.27) 式 で は , 項 目 3 と 6 に は グ ル ー プ 因 子 の 識 別 力 は 仮 定されていない。また,項目 1 と 2 におけるグループ因子の 識別力は同一という仮定が置かれ,項目 4 と 5 では,一般因 子とグループ因子の識別力が同一であるという仮定が置かれ ていることとなる。このような柔軟なモデリングを多母集団 に拡張した中で行うことができる。これにより,たとえば一 般因子に関する識別力が項目間で同一かどうかを検証するこ とや,異なる集団間での識別力の程度を検証できることにつ な が る 。 な お ,( 2 . 2 7 ) 式 を パ ス 図 で 示 す と F i g u r e 2 . 8 の よ うになる。. 35.
図
関連したドキュメント
An application is given to a mixed problem of general parbolic partial differential equations with fractional order.. Keywords and phrases: Fractional integral and
When S satisfies the Type II condition, N is closed under both ordinary matrix product and Hadamard (entry-wise) product, and N becomes a commutative algebra (with unity element)
To overcome the drawbacks associated with current MSVM in credit rating prediction, a novel model based on support vector domain combined with kernel-based fuzzy clustering is
シートの入力方法について シート内の【入力例】に基づいて以下の項目について、入力してください。 ・住宅の名称 ・住宅の所在地
Section 7 deals with an ap- plication to normal martingales, and in the appendix (Section 8) we prove the forward-backward Itˆ o type change of variable formula which is used in
This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on
Wro ´nski’s construction replaced by phase semantic completion. ASubL3, Crakow 06/11/06
: Test Type: In Vitro mammalian Cell Gene Mutation Test Metabolic activation: with and without metabolic activation Result: negative. : Test Type: Chromosome aberration test