日本テスト学会誌 Vol.15, No.1
2019 日本テスト学会誌 Vol.15, No.1 121 - 134
Correspondence concerning this article should be sent to: Toshiaki Kawaguchi, University of Teacher Education Fukuoka, 1-1, Akamabunkyo-machi, Munakata-shi, Fukuoka, Japan 811-4192. E-mail: [email protected]
事例研究論文
項目反応理論と潜在クラス成長分析による自治体学力調査の再分析
算数・数学の学力格差とその変容
Reanalysis of Local Authority Achievement Test with IRT and LCGA
Trends of Mathematics Achievement Score Gap
川口 俊明1,松尾 剛1,礒部 年晃2,樋口 裕介1
Toshiaki Kawaguchi1, Go Matsuo1, Toshiaki Isobe2, and Yusuke Higuchi1
1福岡教育大学,2筑紫野市教育委員会
項目反応理論と潜在クラス成長分析による自治体学力調査の再分析
算数・数学の学力格差とその変容
川口 俊明1,松尾 剛1,礒部 年晃2,樋口 裕介1 1福岡教育大学,2筑紫野市教育委員会 本稿は,ある自治体(A 市と仮称する)が実施した算数・数学の学力調査に,項目反応理論(IRT)による等 化(Equating)を適用し,その結果を潜在クラス成長分析(LCGA)で分析することを通して,小学 4 年生から 中学3 年生までの学力格差の変容を明らかにしている。主な知見は以下の通りである。第一に,LCGA による分 析の結果,小学4 年生から中学 3 年生までの学力の変化は,四つのグループに分類できた。グループ間の学力差 は4 年生の時点から存在し,変化の軌跡が他のグループと交わることは無かった。第二に,グループによって所 属する子どもの特徴が異なっており,学力が低いほど,就学援助を受けている割合が高かった。また,男子の学 力は,上下に二極化している傾向が見られた。IRT を利用しない場合,学力格差の拡大は十分に観測できなかっ たため,IRT を利用しない学力格差研究は,格差を過小評価している可能性がある。 キーワード:項目反応理論,自治体学力調査,等化,学力格差,数学Reanalysis of Local Authority Achievement Test with IRT and LCGA
Trends of Mathematics Achievement Score Gap
Toshiaki Kawaguchi1, Go Matsuo1, Toshiaki Isobe2, and Yusuke Higuchi1
1University of Teacher Education Fukuoka,2Chikushino City Board of Education
In this paper, we apply "Equating" by Item Response Theory (IRT) to some mathematics achievement surveys carried out by A City educational administration. Besides, to analyze with Latent Class Growth Analysis (LCGA), we investigate the trends of achievement gap from fourth to ninth grade. Findings are as follows. First, as a result of the analysis with LCGA, the changes of academic ability from fourth to ninth grade are divided into four groups. The differences in educational achievement among these four groups have already appeared at the time of fourth grade, and the trajectory of one group does not intersect with that of another group. Second, the characteristics of children differ among the four groups. The lower the academic ability is, the higher the proportion of those receiving schooling aid is. Also, our analysis suggests that boys' academic ability tend to be polarized. Without IRT, we cannot found growing achievement gaps, it is possible that analysis without IRT underestimates inequality.
日本テスト学会誌 Vol.15, No.1
項目反応理論と潜在クラス成長分析による自治体学力調査の再分析
算数・数学の学力格差とその変容
川口 俊明1,松尾 剛1,礒部 年晃2,樋口 裕介1 1福岡教育大学,2筑紫野市教育委員会 本稿は,ある自治体(A 市と仮称する)が実施した算数・数学の学力調査に,項目反応理論(IRT)による等 化(Equating)を適用し,その結果を潜在クラス成長分析(LCGA)で分析することを通して,小学 4 年生から 中学3 年生までの学力格差の変容を明らかにしている。主な知見は以下の通りである。第一に,LCGA による分 析の結果,小学4 年生から中学 3 年生までの学力の変化は,四つのグループに分類できた。グループ間の学力差 は4 年生の時点から存在し,変化の軌跡が他のグループと交わることは無かった。第二に,グループによって所 属する子どもの特徴が異なっており,学力が低いほど,就学援助を受けている割合が高かった。また,男子の学 力は,上下に二極化している傾向が見られた。IRT を利用しない場合,学力格差の拡大は十分に観測できなかっ たため,IRT を利用しない学力格差研究は,格差を過小評価している可能性がある。 キーワード:項目反応理論,自治体学力調査,等化,学力格差,数学Reanalysis of Local Authority Achievement Test with IRT and LCGA
Trends of Mathematics Achievement Score Gap
Toshiaki Kawaguchi1, Go Matsuo1, Toshiaki Isobe2, and Yusuke Higuchi1
1University of Teacher Education Fukuoka,2Chikushino City Board of Education
In this paper, we apply "Equating" by Item Response Theory (IRT) to some mathematics achievement surveys carried out by A City educational administration. Besides, to analyze with Latent Class Growth Analysis (LCGA), we investigate the trends of achievement gap from fourth to ninth grade. Findings are as follows. First, as a result of the analysis with LCGA, the changes of academic ability from fourth to ninth grade are divided into four groups. The differences in educational achievement among these four groups have already appeared at the time of fourth grade, and the trajectory of one group does not intersect with that of another group. Second, the characteristics of children differ among the four groups. The lower the academic ability is, the higher the proportion of those receiving schooling aid is. Also, our analysis suggests that boys' academic ability tend to be polarized. Without IRT, we cannot found growing achievement gaps, it is possible that analysis without IRT underestimates inequality.
Keywords:Item Response Theory, Local Authority Achievement Test, Equating, Achievement Gap, Mathematics
川口 俊明、松尾 剛、礒部 年晃、樋口 裕介 項目反応理論と潜在クラス成長分析による自治体学力調査の再分析 算数・数学の学力格差とその変容 1.はじめに 近年,教育社会学,教育経済学領域を中心に,学力 格差の変容を分析するために,同一個人を追跡するパ ネルデータの蓄積の重要性が指摘されている(中西, 2015)。パネルデータに基づいた学力格差の研究も進み つつあり,最新の研究は,日本にも諸外国と同様に, 学力格差が存在するのみならず,それが時間の経過と ともに拡大する傾向があることを明らかにしてきた (数実, 2017; 中西, 2017)。自治体の中にも,自ら継 続的な学力調査を運営することで,教育施策のために 学力格差の変容を分析するところが現れており(日本 財団, 2018),今後日本でも,教育研究・施策の両面に おいて,学力の経時的な変化に注目した分析が増加し ていくと予想される。 ただ,こうした学力の経時的な分析において課題に なるのが,異なる学年に対して行われた学力調査の得 点を比較できるのか,という問題である(数実, 2017; 石川・伊藤・植村・田端・外山・中室・分寺・星野・ 松岡・山口, 2017)。 諸外国の学力調査では,異なる 時点間の学力を比較可能にするために,項目反応理論 (Item Response Theory: IRT)が利用されてきた。一 方,日本の小中学校における学力調査の現状を鑑みる と,後に触れるようないくつかの課題があり,設計段 階からIRTに基づいた学力調査を運用し,学力格差の 変容を把握することは容易ではない。そのため,IRT に基づかずに設計された学力調査の結果を,どのよう に学力の経時的な分析に活かすかという課題は,今後 も重要な教育研究の課題になると考えられる。 そこで本稿では, IRTに基づかずに設計された既存 の学力調査から,受験者の能力の違いを反映した能力 母数を同一尺度上に再構成(=等化)することにより, 学力格差の変容を把握することを試みる。具体的には, ある自治体で実施されている算数・数学の学力調査に 着目し,各テストを等化するためのアンカーテストを 実施する。その上で,IRTに基づく事後等化と,潜在
クラス成長分析(Latent Class Growth Analysis: LCGA)による分析を加えることで,小学4年生から中
学3年生までの学力格差の変容を明らかにする。
本稿の構成は,次の通りである。まず2節では,学力
格差の変容に関する日本の研究の問題点について,古 典的テスト理論(Classical Test Theory: CTT)の課題
と,IRTの日本の学校教育における運用可能性という 観点から論じる。次に3節で,本稿で実施した調査の設 計について述べ,4節で得られたデータの分析を行う。 5節では,これらをまとめ,本稿の知見を述べる。 なお,日本語の「学力」という表現は多義的(苅谷・ 志水, 2004)だが,本稿で扱うのは学力調査にIRTを利 用することで推計された受験者の「能力値」である。 以下で扱う「学力」という表現も,あくまで「算数・ 数学の学力調査から推計される受験者の能力値」であ ることに留意されたい。 2.CTT の問題点と IRT の運用可能性 日本の既存の学力研究の問題点は,そのほとんどが CTTによって運用されているという点にある(石川ほ か, 2017)。CTTの詳細な定義は省略するが,日本の小 中学校で一般的に利用されている「100点満点のテスト」 を想像すればよい。学力格差の変容を把握するという 観点から見たときに,CTTの大きな欠点は,異なるテ ストの結果を比較することが難しいという点である。 一般に,異なる学年には,異なる内容のテストが出題 される。さらに学年の進行に伴い,子どもの学力は向 上するはずだから,CTTに基づいた学力テストで点数 が上昇したとしても,それが子どもの学力が向上した ためなのか,それともテストの難易度が下がったため なのか,区別することができない。 こうしたCTTの課題に対し,「異質な受験者が,異な る項目を,異なる日時に,異なる場所で受験したにも かかわらず,統一した処遇を受けることができる(豊 田, 2012,p.16)」テストを開発するために利用されて いるテスト理論がIRTである。IRTは,TIMSS等の国 際学力調査でも利用されており,異なる時点間の学力 を比較することを可能にしている(Martin, Mullis and Hooper, 2016)。また,埼玉県が2015年から実施 している埼玉県学力調査においても,IRTが利用され ており,小学4年生から中学3年生までの学力の変化が 把握されている(石川ほか, 2017)。今後,データが蓄 積されれば,貴重な知見となるだろう。ただ,同調査 は始まったばかりであり,同一個人の学力の変化を追 跡できるデータは,十分には蓄積されていない。 加えて,日本の小中学校教育において,設計段階か らIRTを利用したテストを運用し,学力格差の変容を 把握するには,少なくとも以下の三つの課題が存在し ている。一つ目は,木村(2010)が論じるように,日 本には「テストの専門家」が少ないという点である。
1990年代以降の教員養成系改革の流れの中で,教育に 関するテストの専門家を養成することは困難になって おり(木村, 2010),教育行政はもちろん,研究者が学 力調査を実施する場合でさえ,テストの専門家のアド バイスを受けることは難しい状況にある。そのため, 数実(2017)や中西(2017)といった先行研究がそう であるように,CTTに依拠して設計された学力調査を もとに,学力の経時的な分析を行わざるをえない場面 は,今後も生じると考えられる。 二つ目は,日本の「テスト文化」の特性上,IRTを 組み込んだ学力の経時的な変化を把握するテストが実 施しづらいという点である。日本の「テスト文化」の 特性の一つに,「すべてのテスト項目が実施直後に公開 される」というものがある(柴山, 2008, p.3)。これは 全国学力調査にも見られる特性であるが,そこには, 公開されたテスト項目を「指導のために」利用したい という教員・学校の要望が少なからず反映されている (川口, 2018, p.33)。他方,IRTを利用して経時的な学 力調査を設計する際は,とくに各年度の難易度を調整 するための項目(本稿ではこれをアンカー項目と呼ぶ) を厳重に秘匿する必要がある。たとえば埼玉県学力調 査は,すべてのテスト項目を非公開にすることで,学 力の経時的な分析を可能にしている(石川ほか, 2017) が,こうした方法はテスト項目の公開を望む学校の要 望とは矛盾しており,学校現場の理解を得ることは容 易ではないと思われる。 三つ目は,仮にIRTに基づく学力調査を実施できた としても,学力格差の変容を把握するには,児童生徒 のSES(保護者の学歴や年収など)に関わる情報を併 せて取得しなければならないという点である。耳塚 (2007)も指摘するように,日本の学校においてSES に関わる情報を取得することは難しい。埼玉県学力調 査ですら,得られるSESの情報は「家庭にある本の冊 数」や「通塾しているかどうか」にとどまっており, 保護者の年収・学歴に関わる変数を入手できていない。 学力格差の存在が指摘されて久しいが,日本で継続的 に実施されている学力調査の中で,児童生徒の詳細な SESが把握できるものは,決して多くないのである1)。 なお,SESに限らず男女の学力差も,学力格差の研究
で重要な論点の一つである(Buchmann, DiPrete and McDaniel, 2008)。日本を対象にした算数・数学の調 査では,中学校段階で男子の平均点が女子を上回るこ とを報告した伊佐・知念(14)や,男子の学力の上 下差が女子に比べてやや大きいことを指摘した北條 (2015)といった研究があるが,これらは経時的な学 力の変化を考慮しているわけではない。そこで本稿で は,性別と学力の変容との関係についても検討する。 ここまで論じてきたような事情からIRTに基づいて 設計され,かつ児童生徒のSESの情報を取得した学力 調査を日本で期待することは,今後も相当に難しいと 考えられる。そこで,本稿が提案するのが,自治体が 独自に実施してきた既存の学力調査のデータを,事後 的にIRTを用いて等化し,さらにSESの情報を加える ことで,学力格差の変容を捉えるというものである。 もちろん多くの自治体の学力調査は,IRTの枠組みで 実施されているわけではない。しかし,例えばセンタ ー試験の点数を等化することで,学力低下を実証しよ うとした研究のように,事後的にIRTを適用して学力 調査のデータを等化することは可能である(吉村・荘 島・杉野・野沢・清水・齋藤・根岸・岡部・サイモン, 2005)。 ただし,自治体学力調査にIRTを適用する場合,次 の2点に留意する必要があると思われる。一つは,測定 する概念の妥当性に関する問題である。自治体の学力 調査は,もともと受験する学年が明確に想定されてい る。学力調査の内容は,その学年までに履修した内容 に限定されており,学習指導要領の範囲を超える「学 力」を測定することは想定されていない。そのため, 小学4年生向けのテストで測定した「学力」と中学3年 生向けのテストで測定した「学力」が,はたして同一 のものなのかどうか検討する必要がある。本稿では, 教科の中では比較的,小中学校を通して同一の「学力」 を測定していると考えられる算数・数学を対象に,IRT を適用することにした。 もう一つは,IRTの前提に関わる問題である。一般 的な学力調査で利用されるIRTには,局所独立の仮定, および測定対象の一次元性という前提がある(加藤・ 山田・川端, 2014,p.138)。局所独立の仮定とは,受 験者の能力が等しい時に,項目間の反応には相関がな く互いに独立であるということである。登藤(2012) は局所独立性が満たされない状況である局所依存性を 引き起こす要因を3つのタイプに分類している。例えば, 大問形式の出題によって,大問内の項目間に相関が生 じてしまうといったことも局所依存性が生じる状況の 一つである2)。測定対象の一次元性とは,出題されてい るテスト項目のすべてが,単一の構成概念を測定して いるという仮定であり,これが満たされない場合,IRT を利用することはできない。自治体学力調査は,これ らの前提を考慮して設計されているわけではないから,
日本テスト学会誌 Vol.15, No.1 1990年代以降の教員養成系改革の流れの中で,教育に 関するテストの専門家を養成することは困難になって おり(木村, 2010),教育行政はもちろん,研究者が学 力調査を実施する場合でさえ,テストの専門家のアド バイスを受けることは難しい状況にある。そのため, 数実(2017)や中西(2017)といった先行研究がそう であるように,CTTに依拠して設計された学力調査を もとに,学力の経時的な分析を行わざるをえない場面 は,今後も生じると考えられる。 二つ目は,日本の「テスト文化」の特性上,IRTを 組み込んだ学力の経時的な変化を把握するテストが実 施しづらいという点である。日本の「テスト文化」の 特性の一つに,「すべてのテスト項目が実施直後に公開 される」というものがある(柴山, 2008, p.3)。これは 全国学力調査にも見られる特性であるが,そこには, 公開されたテスト項目を「指導のために」利用したい という教員・学校の要望が少なからず反映されている (川口, 2018, p.33)。他方,IRTを利用して経時的な学 力調査を設計する際は,とくに各年度の難易度を調整 するための項目(本稿ではこれをアンカー項目と呼ぶ) を厳重に秘匿する必要がある。たとえば埼玉県学力調 査は,すべてのテスト項目を非公開にすることで,学 力の経時的な分析を可能にしている(石川ほか, 2017) が,こうした方法はテスト項目の公開を望む学校の要 望とは矛盾しており,学校現場の理解を得ることは容 易ではないと思われる。 三つ目は,仮にIRTに基づく学力調査を実施できた としても,学力格差の変容を把握するには,児童生徒 のSES(保護者の学歴や年収など)に関わる情報を併 せて取得しなければならないという点である。耳塚 (2007)も指摘するように,日本の学校においてSES に関わる情報を取得することは難しい。埼玉県学力調 査ですら,得られるSESの情報は「家庭にある本の冊 数」や「通塾しているかどうか」にとどまっており, 保護者の年収・学歴に関わる変数を入手できていない。 学力格差の存在が指摘されて久しいが,日本で継続的 に実施されている学力調査の中で,児童生徒の詳細な SESが把握できるものは,決して多くないのである1)。 なお,SESに限らず男女の学力差も,学力格差の研究
で重要な論点の一つである(Buchmann, DiPrete and McDaniel, 2008)。日本を対象にした算数・数学の調 査では,中学校段階で男子の平均点が女子を上回るこ とを報告した伊佐・知念(14)や,男子の学力の上 下差が女子に比べてやや大きいことを指摘した北條 (2015)といった研究があるが,これらは経時的な学 力の変化を考慮しているわけではない。そこで本稿で は,性別と学力の変容との関係についても検討する。 ここまで論じてきたような事情からIRTに基づいて 設計され,かつ児童生徒のSESの情報を取得した学力 調査を日本で期待することは,今後も相当に難しいと 考えられる。そこで,本稿が提案するのが,自治体が 独自に実施してきた既存の学力調査のデータを,事後 的にIRTを用いて等化し,さらにSESの情報を加える ことで,学力格差の変容を捉えるというものである。 もちろん多くの自治体の学力調査は,IRTの枠組みで 実施されているわけではない。しかし,例えばセンタ ー試験の点数を等化することで,学力低下を実証しよ うとした研究のように,事後的にIRTを適用して学力 調査のデータを等化することは可能である(吉村・荘 島・杉野・野沢・清水・齋藤・根岸・岡部・サイモン, 2005)。 ただし,自治体学力調査にIRTを適用する場合,次 の2点に留意する必要があると思われる。一つは,測定 する概念の妥当性に関する問題である。自治体の学力 調査は,もともと受験する学年が明確に想定されてい る。学力調査の内容は,その学年までに履修した内容 に限定されており,学習指導要領の範囲を超える「学 力」を測定することは想定されていない。そのため, 小学4年生向けのテストで測定した「学力」と中学3年 生向けのテストで測定した「学力」が,はたして同一 のものなのかどうか検討する必要がある。本稿では, 教科の中では比較的,小中学校を通して同一の「学力」 を測定していると考えられる算数・数学を対象に,IRT を適用することにした。 もう一つは,IRTの前提に関わる問題である。一般 的な学力調査で利用されるIRTには,局所独立の仮定, および測定対象の一次元性という前提がある(加藤・ 山田・川端, 2014,p.138)。局所独立の仮定とは,受 験者の能力が等しい時に,項目間の反応には相関がな く互いに独立であるということである。登藤(2012) は局所独立性が満たされない状況である局所依存性を 引き起こす要因を3つのタイプに分類している。例えば, 大問形式の出題によって,大問内の項目間に相関が生 じてしまうといったことも局所依存性が生じる状況の 一つである2)。測定対象の一次元性とは,出題されてい るテスト項目のすべてが,単一の構成概念を測定して いるという仮定であり,これが満たされない場合,IRT を利用することはできない。自治体学力調査は,これ らの前提を考慮して設計されているわけではないから, 川口 俊明、松尾 剛、礒部 年晃、樋口 裕介 項目反応理論と潜在クラス成長分析による自治体学力調査の再分析 算数・数学の学力格差とその変容 IRTを適用する前に,条件が満たされているかどうか 確認する必要がある。 3.方法 3.1. 分析対象 本稿で分析するのは,西日本のある自治体(以下,A 市と呼称する)の2016年度の中学3年生が,過去に受 けてきた算数・数学の学力調査である。A市は,全国学 力・学習状況調査が始まって以降,独自の算数・数学 に関する学力調査を「児童生徒が教科の基礎的な学力 を身につけているかどうか確認する」ために,小学4 年生・小学6年生・中学1年生に対して実施してきた。 そのため,A市の2016年度の中学3年生は,独自の学力 調査(小4・小6・中1)と,2016年度の全国学力・学 習状況調査(中3)を受験している。 本稿では,これら4回の学力調査の得点を等化し,さ らに受験者のSESの情報を加えることで,学力格差の 変容を捉えることを試みる。異なる学年を対象に設計 された算数・数学の学力調査が,同一の「学力」を測 定していると仮定することの是非については,算数・ 数学教育の専門家を中心に検討を行った。その結果, 国際学力調査であるTIMSSのように,必ずしも学習指 導要領を想定していない調査であっても日本で実施さ れている前例があることから,学年を超えた算数・数 学の学力を想定し,その伸びを測定することは可能で あると判断した。また,出題されているテスト項目を 検討したところ,「学年を超えた算数・数学の学力の測 定」という枠組みから大きく外れるテスト項目は確認 できなかったため,全項目を分析対象とすることにし た。 なお,自治体の特定を防ぐため,以下の記述には 標本抽出やサンプルサイズを曖昧にしている箇所が ある。 3.2. 等化のためのテストデザイン 4回の学力調査は,それぞれ異なるテスト項目から構 成されており,そのままでは等化を行うことができな い。そこで本稿では,各テストから複数のテスト項目 を抜き出して作成したアンカーテストを別に実施し, その結果を利用して,4回の学力調査の得点を等化する ことにした。ただし,2016年度の中学3年生にとって 過去4回の学力調査のテスト項目は既知であるため,ア ンカーテストの対象は,2016年度の小学5年生,およ び中学2年生から選ぶことにした。アンカーテストの対 象は,A市の小中学校から協力校を募り,調査に応じた 学校(各学年,約1000名ずつ)に対して実施した。具 体的なテストデザインは図1のようになる。なお,「小 学5年生対象のアンカーテスト」「小学4年生対象の自治 体テスト」といった具合にテスト名称が長くなるため, 以下では,図1の「anc5」「g4」といった略称を用いる。 また,アンカーテストの対象校が,A市全体と比較して 顕著に成績が高い/低い学校だった場合,等化に問題 が生じる可能性があるため,g4からg9のデータを使い, アンカーテスト対象校とそれ以外の学校の平均点を比 較したところ,有意な差は見られなかった。 図 1.等化デザイン (【 】内はテストの略称,()内は項目数) 3.3. アンカーテスト項目の選定 アンカーテストの項目は,過去4回の学力調査のテス ト項目に加えて,2016年度の全国学力調査の小学校6 年生の問題を含めて構成した。これは,アンカーテス トを実施する際に,A市教育委員会からアンカーテスト の結果をテスト受験校の「役に立つ」ものにしてほし いという要請があり,数年前のテストだけでなく,小 2016 年度 中 3 アンカーテスト 【anc5】(18) 2016 年度 小 5(909 名) 2016 年度 3 学期に実施 自治体テスト【g4】(26) 2011 年度小 4(悉皆実施) 2011 年度 2 学期に実施 自治体テスト【g6】(24) 2013 年度小 6(悉皆実施) 2013 年度 2 学期に実施 自治体テスト【g7】(30) 2014 年度中 1(悉皆実施) 2014 年度 2 学期に実施 全国学力調査【g9】(51) 2016 年度中 3(悉皆実施) 2016 年度 1 学期に実施 アンカーテスト 【anc8】(27) 2016 年度 中 2(987 名) 2016 年度 3 学期に実施
学校を対象とした直近の全国学力調査の項目もアンカ ーテストに含めたためである。アンカーテストの実施 時間も40分程度に限られていたため,既存のg4からg9 のテストに項目反応理論の2PLを適用して識別度・困 難度を計算した後,識別度が高い項目について,でき るだけ困難度がばらつくように4~5題を抽出してアン カーテストを構成した。また,小学5年生と中学2年生 の反応の違いを検討するため,anc5とanc8の項目は, できるだけ重複するように設計している。 各テストの項目数は,図1の括弧内に示したとおりで ある。全国学力調査の項目数が他の倍以上の値を示し ているが,これはA問題とB問題を区別せずに扱ってい るからである。一般に,全国学力調査のA問題は知識を 問い,B問題は活用する力を問うとされているが,後に 述べる本稿の分析結果からは,両者を区別する積極的 な理由は見いだせなかった。 3.4. テストの分析方法 アンカーテストに用いる項目母数の推定,テストの 等化,潜在特性尺度値の推定にはR3.5.2 (R Core Team, 2018) と mirt パッケージ(Chalmers, 2012) を利用 した。項目母数の推定は,2PLを用いて行った。2PL は,ICCの推定に際して,項目の困難度(≒テスト項 目の難しさ)と識別度(≒テスト項目が,困難度付近 の能力の受験者を弁別できる程度)の二つを想定する モデルである(加藤・山田・川端, 2014,p.76)。mirt では,受験者の能力値(θ)の推定は,2PLでは,式 (1)によって行われる。 𝑃𝑃(𝜃𝜃|𝛼𝛼, 𝑑𝑑) =1+exp(−(𝛼𝛼𝛼𝛼+𝑑𝑑))1 (1) 一方,通常の2PLでは,exp()の中は尺度因子𝐷𝐷, 識別度(𝑎𝑎),困難度(𝑏𝑏)を用いて,−𝐷𝐷𝑎𝑎(𝜃𝜃 − 𝑏𝑏)と表 されることが多い。この通常の2PLモデルに合わせて mirtのパラメタを解釈できるようにするため,奥村ほ か(2015)に倣い,𝛼𝛼を𝐷𝐷(= 1.702)で除した識別度(𝑎𝑎) と,𝑑𝑑を−𝐷𝐷𝛼𝛼で除した困難度(𝑏𝑏)を算出した。 IRTを利用した等化法は,大きく分けると,①個別 に項目パラメータを推定した後,共通項目における項 目パラメータを手がかりに等化を行う個別推定と,② 複数の受験者グループに対して,別々の平均・標準偏 差を仮定する同時推定の二つがある(光永, 2017, pp.152-165)。本稿ではanc5とanc8のそれぞれがg4か らg6に共通項目を持つという設計上,後者の同時推定 を採用した。学力の推定にはEAP(expected a posteriori)法を用いた。 3.5. SES および性別についての調査 SESに関する情報は,2016年度の中学3年生を対象 に実施された,SESに関する調査研究のデータを利用 している。この調査は,文部科学省委託事業として2016 年度の2学期に実施された調査である(福岡教育大学 2017)。同調査では,生徒自身に対する質問紙調査に加 え,生徒の保護者に対して学歴・年収といったSESを 尋ねる質問紙調査が実施された(保護者質問紙の回収 率は約80%)。加えて,自治体の教育委員会を通して, 標本となった全生徒の就学援助受給の有無に関する情 報も得られている。標本抽出は学級単位で行われ,調 査対象となった自治体のすべての学校から,学級数に 応じて1ないし2学級が抽出されている。 本稿が分析対象とするA市は,この文部科学省委託事 業による調査の対象に含まれている。そこで,当該デ ータを再利用することを,文部科学省,およびA市教育 委員会に許可を得て,今回の分析に使用した。なお, 生徒の抽出確率が各学校の学級数に応じて変動するた め,推定を行う際は,weightによる補正,および学校 を単位とするクラスター標準誤差を利用している。 4回の学力調査のデータ,およびSESに関する情報を 接続する際は,個々の児童生徒の氏名を利用している。 ただし,個人情報保護の関係上,研究者側は氏名デー タを持たず,いったん氏名を教育委員会側でIDに変換 してもらい,それをもとに接続するという手順をとっ た。そのため,同姓同名の場合や,何らかの事情で姓 が変わった場合は接続できず,データが欠損している。 小学4年生から中学3年生まで,すべてのデータが揃 う生徒の数は3361名である。これは,文部科学省委託 事業のために抽出されたA市の生徒の約72%に当たる。 データが欠損した理由は,先に述べた①氏名が異なる ために接続できないという理由の他に,②転入生であ る,③何らかの理由による欠席,④特別な支援が必要 な生徒であり,そもそも学力調査の対象では無かった, 等が考えられる。特に③のケースを中心に,分析に何 らかのバイアスが生じる可能性は否定できないが,② から④を区別する情報は,A市教育委員会から得られな かった。そのため今回は,一時点でも欠損したデータ
日本テスト学会誌 Vol.15, No.1 学校を対象とした直近の全国学力調査の項目もアンカ ーテストに含めたためである。アンカーテストの実施 時間も40分程度に限られていたため,既存のg4からg9 のテストに項目反応理論の2PLを適用して識別度・困 難度を計算した後,識別度が高い項目について,でき るだけ困難度がばらつくように4~5題を抽出してアン カーテストを構成した。また,小学5年生と中学2年生 の反応の違いを検討するため,anc5とanc8の項目は, できるだけ重複するように設計している。 各テストの項目数は,図1の括弧内に示したとおりで ある。全国学力調査の項目数が他の倍以上の値を示し ているが,これはA問題とB問題を区別せずに扱ってい るからである。一般に,全国学力調査のA問題は知識を 問い,B問題は活用する力を問うとされているが,後に 述べる本稿の分析結果からは,両者を区別する積極的 な理由は見いだせなかった。 3.4. テストの分析方法 アンカーテストに用いる項目母数の推定,テストの 等化,潜在特性尺度値の推定にはR3.5.2 (R Core Team, 2018) と mirt パッケージ(Chalmers, 2012) を利用 した。項目母数の推定は,2PLを用いて行った。2PL は,ICCの推定に際して,項目の困難度(≒テスト項 目の難しさ)と識別度(≒テスト項目が,困難度付近 の能力の受験者を弁別できる程度)の二つを想定する モデルである(加藤・山田・川端, 2014,p.76)。mirt では,受験者の能力値(θ)の推定は,2PLでは,式 (1)によって行われる。 𝑃𝑃(𝜃𝜃|𝛼𝛼, 𝑑𝑑) =1+exp(−(𝛼𝛼𝛼𝛼+𝑑𝑑))1 (1) 一方,通常の2PLでは,exp()の中は尺度因子𝐷𝐷, 識別度(𝑎𝑎),困難度(𝑏𝑏)を用いて,−𝐷𝐷𝑎𝑎(𝜃𝜃 − 𝑏𝑏)と表 されることが多い。この通常の2PLモデルに合わせて mirtのパラメタを解釈できるようにするため,奥村ほ か(2015)に倣い,𝛼𝛼を𝐷𝐷(= 1.702)で除した識別度(𝑎𝑎) と,𝑑𝑑を−𝐷𝐷𝛼𝛼で除した困難度(𝑏𝑏)を算出した。 IRTを利用した等化法は,大きく分けると,①個別 に項目パラメータを推定した後,共通項目における項 目パラメータを手がかりに等化を行う個別推定と,② 複数の受験者グループに対して,別々の平均・標準偏 差を仮定する同時推定の二つがある(光永, 2017, pp.152-165)。本稿ではanc5とanc8のそれぞれがg4か らg6に共通項目を持つという設計上,後者の同時推定 を採用した。学力の推定にはEAP(expected a posteriori)法を用いた。 3.5. SES および性別についての調査 SESに関する情報は,2016年度の中学3年生を対象 に実施された,SESに関する調査研究のデータを利用 している。この調査は,文部科学省委託事業として2016 年度の2学期に実施された調査である(福岡教育大学 2017)。同調査では,生徒自身に対する質問紙調査に加 え,生徒の保護者に対して学歴・年収といったSESを 尋ねる質問紙調査が実施された(保護者質問紙の回収 率は約80%)。加えて,自治体の教育委員会を通して, 標本となった全生徒の就学援助受給の有無に関する情 報も得られている。標本抽出は学級単位で行われ,調 査対象となった自治体のすべての学校から,学級数に 応じて1ないし2学級が抽出されている。 本稿が分析対象とするA市は,この文部科学省委託事 業による調査の対象に含まれている。そこで,当該デ ータを再利用することを,文部科学省,およびA市教育 委員会に許可を得て,今回の分析に使用した。なお, 生徒の抽出確率が各学校の学級数に応じて変動するた め,推定を行う際は,weightによる補正,および学校 を単位とするクラスター標準誤差を利用している。 4回の学力調査のデータ,およびSESに関する情報を 接続する際は,個々の児童生徒の氏名を利用している。 ただし,個人情報保護の関係上,研究者側は氏名デー タを持たず,いったん氏名を教育委員会側でIDに変換 してもらい,それをもとに接続するという手順をとっ た。そのため,同姓同名の場合や,何らかの事情で姓 が変わった場合は接続できず,データが欠損している。 小学4年生から中学3年生まで,すべてのデータが揃 う生徒の数は3361名である。これは,文部科学省委託 事業のために抽出されたA市の生徒の約72%に当たる。 データが欠損した理由は,先に述べた①氏名が異なる ために接続できないという理由の他に,②転入生であ る,③何らかの理由による欠席,④特別な支援が必要 な生徒であり,そもそも学力調査の対象では無かった, 等が考えられる。特に③のケースを中心に,分析に何 らかのバイアスが生じる可能性は否定できないが,② から④を区別する情報は,A市教育委員会から得られな かった。そのため今回は,一時点でも欠損したデータ 川口 俊明、松尾 剛、礒部 年晃、樋口 裕介 項目反応理論と潜在クラス成長分析による自治体学力調査の再分析 算数・数学の学力格差とその変容 は,すべて削除して分析した。 学力格差の変容を分析する際は,就学援助受給の有 無,及び性別に着目する。先に述べたように,そもそ も接続の際にデータが欠損していることから,回収率 が80%程度の保護者質問紙の学歴・年収といった設問 を利用すると,さらに欠損が増加してしまう。そこで 今回は,欠損の無い就学援助受給の有無をSES指標と して分析を行うことにした。子どもの性別については, 生徒質問紙において回答を求め,欠損はほぼ0であった。 4.分析結果 4.1. アンカーテストの項目母数の検討 図 2.各テストのスクリープロット 分析対象となるテストがIRTの前提となる,項目反 応の局所独立性,および測定対象の一次元性を満たす か検討した。大問形式のテスト項目がg4,g6にそれぞ れ一つ(関連するテスト項目は,それぞれ二つ),g7 に三つ(関連するテスト項目は,二つ,三つ,三つの 合計八つ)存在したため,局所依存の程度を測るため に、先述したIRTの2PLモデルにおいて推定された項目 母数を用いてQ3統計量を計算した。これらの項目でQ3 統計量の値が0.2を大きく上回っていたことから局所 依存性が高いと判断し(加藤・山田・川端, 2014),該 当するテスト項目への回答は,完全正答を正答,それ 以外はすべて誤答とした。 さらに,全国学力調査の項目のうち,推定が不安定 になることを避けるため,総正答数と関連の薄い1項目 (I-T相関が0.1未満)を削除した。最終的に利用した テスト項目数は,g4から順に,25,23,25,50項目で ある。もともとの項目数と比べて,減少した項目数は1, 1,5,1であり,g7がやや多いものの,テストで測定 されている学力は,ほぼ変わっていないと考えられる。 ここで,テトラコリック相関係数行列から固有値を算 出し,スクリープロットを描くことで一次元性の確認 を行った(図2)。あわせてアンカーテストを含むすべ てのテストでクロンバックのアルファ係数を算出した ところ,いずれも0.8を超えており,すべてのテストで 十分な内的一貫性があることが確認できた(表1)。 表 1.クロンバックのアルファ係数 g4 g6 g7 g9 anc5 anc8 アルファ係数 0.85 0.88 0.91 0.93 0.91 0.84 以上を確認した後,IRTの2PLを用いて,テストごと に各項目の識別度・困難度を再推定した。なお,受験 者の能力分布には,正規分布を仮定した。当て推量で 正答する確率を考慮する3パラメータ・ロジスティック モデル(3PL)による推計も行ったが,推定結果はほ とんど変わらなかった。これは,ほとんどのテスト項 目が記述式であり,3PLが仮定する当て推量で正答で きるテスト項目が少なかったことに由来すると思われ る。 図 3.テスト情報関数
図3は,g4からg9の各テストが,どの学力層を識別 することに優れているかを示す,テスト情報量のグラ フである。小学生を対象にしたテスト(g4とg6)は難 易度-1前後に,中学生を対象にしたテスト(g7とg9) は難易度0前後に,それぞれピークが生じている。総じ て難易度0から-1付近で情報量が大きいことから,こ れらのテストが学力のやや低い層を識別することに優 れていることがわかる。既に述べたように,A市教育委 員会は,独自の学力調査を実施する理由を「児童生徒 の基礎的な学力を把握する」こととしており,図3は, テストの難易度が目的にかなっていたことを示してい る。また,2016年度の全国学力・学習状況調査(g9) についても,そのテストの難易度は高くなく,基本的 には,A市の学力調査と同じく基礎的な学習事項を確認 しようとしていることが読み取れる。これは同時に, 学力の高い層の得点の推定値に誤差が大きいことを意 味しており,分析結果の解釈には注意が必要である。 表2はテスト項目の困難度・識別度である。すべての テスト項目の困難度・識別度を示すのは煩雑になるた め,ここでは等化に利用した項目(アンカー項目)の み示す。 表2の結果から,個々のアンカー項目が適切かどうか を検討する。まずanc5とanc8を比較すると,Q1から Q15のほとんどの項目で困難度はほぼ同じか,低下す る傾向にある。また,g4からanc5,あるいはanc8に関 する項目(Q7からQ10)については困難度が大きく低 下している。これらの傾向は,学年の進行とともに学 力が向上していることを表しているものと考えられる。 anc5とg6,およびanc8に関連するQ11からQ15の項 表 2.アンカー項目の推定値 項目の概要 番号 個別推定 同時推定
g4 anc5 g6 g7 anc8 g9 困難度(SE) 識別度(SE) 文章題 Q1 -0.803 -1.158 -0.078 (0.05) 0.935 (0.07) 計算(小数) Q2 -0.715 -0.699 0.196 (0.04) 1.242 (0.08) 数の大きさ Q3 -1.064 -0.955 -0.100 (0.05) 0.857 (0.06) 数の大きさ Q4 -0.916 -0.901 -0.011 (0.04) 1.223 (0.09) 角度 Q5 -0.574 -0.576 0.323 (0.05) 0.731 (0.05) 角度 Q6 0.122 0.112 1.037 (0.06) 0.759 (0.05) 計算(分数) Q7 -0.164 -0.886 -0.731 -0.138 (0.02) 0.792 (0.03) 文章題(□を使った計算) Q8 -0.163 -0.985 -1.173 -0.159 (0.02) 0.808 (0.03) 文章題(□を使った計算) Q9 0.483 -0.649 -0.649 0.403 (0.02) 0.959 (0.03) 単位換算 Q10 0.102 -0.480 -0.894 0.132 (0.02) 0.725 (0.02) 計算(分数) Q11 -1.384 -0.912 -0.854 -0.147 (0.02) 1.023 (0.04) 計算(分数と小数) Q12 -0.275 -0.049 -0.190 0.707 (0.03) 1.124 (0.04) 約数 Q13 -0.575 -0.557 -0.543 0.253 (0.03) 0.850 (0.03) 円周の長さ Q14 0.486 0.145 -0.071 0.976 (0.04) 1.008 (0.04) 文章題(計算式中の空白を埋める) Q15 -0.209 0.001 -0.189 0.751 (0.03) 1.351 (0.05) 図形 Q16 0.618 0.168 1.315 (0.05) 0.991 (0.04) 反比例 Q17 0.145 0.150 1.152 (0.04) 1.279 (0.05) 扇形の弧の長さ Q18 0.045 0.363 1.122 (0.04) 1.152 (0.04) 計算(方程式) Q19 -0.408 -0.594 0.482 (0.03) 1.263 (0.05) 図形 Q20 0.508 0.239 1.490 (0.05) 0.984 (0.04) 図形 Q21 0.175 0.136 1.134 (0.04) 1.235 (0.04) 反比例 Q22 0.291 0.295 1.294 (0.05) 1.876 (0.14) 図形(証明) Q23 0.293 0.319 1.315 (0.05) 0.778 (0.03) 図形(証明) Q24 0.351 0.456 1.441 (0.05) 1.146 (0.04) ※個別推定は困難度のみ表示している。また,推定はすべて 2PL である
日本テスト学会誌 Vol.15, No.1 図3は,g4からg9の各テストが,どの学力層を識別 することに優れているかを示す,テスト情報量のグラ フである。小学生を対象にしたテスト(g4とg6)は難 易度-1前後に,中学生を対象にしたテスト(g7とg9) は難易度0前後に,それぞれピークが生じている。総じ て難易度0から-1付近で情報量が大きいことから,こ れらのテストが学力のやや低い層を識別することに優 れていることがわかる。既に述べたように,A市教育委 員会は,独自の学力調査を実施する理由を「児童生徒 の基礎的な学力を把握する」こととしており,図3は, テストの難易度が目的にかなっていたことを示してい る。また,2016年度の全国学力・学習状況調査(g9) についても,そのテストの難易度は高くなく,基本的 には,A市の学力調査と同じく基礎的な学習事項を確認 しようとしていることが読み取れる。これは同時に, 学力の高い層の得点の推定値に誤差が大きいことを意 味しており,分析結果の解釈には注意が必要である。 表2はテスト項目の困難度・識別度である。すべての テスト項目の困難度・識別度を示すのは煩雑になるた め,ここでは等化に利用した項目(アンカー項目)の み示す。 表2の結果から,個々のアンカー項目が適切かどうか を検討する。まずanc5とanc8を比較すると,Q1から Q15のほとんどの項目で困難度はほぼ同じか,低下す る傾向にある。また,g4からanc5,あるいはanc8に関 する項目(Q7からQ10)については困難度が大きく低 下している。これらの傾向は,学年の進行とともに学 力が向上していることを表しているものと考えられる。 anc5とg6,およびanc8に関連するQ11からQ15の項 表 2.アンカー項目の推定値 項目の概要 番号 個別推定 同時推定
g4 anc5 g6 g7 anc8 g9 困難度(SE) 識別度(SE) 文章題 Q1 -0.803 -1.158 -0.078 (0.05) 0.935 (0.07) 計算(小数) Q2 -0.715 -0.699 0.196 (0.04) 1.242 (0.08) 数の大きさ Q3 -1.064 -0.955 -0.100 (0.05) 0.857 (0.06) 数の大きさ Q4 -0.916 -0.901 -0.011 (0.04) 1.223 (0.09) 角度 Q5 -0.574 -0.576 0.323 (0.05) 0.731 (0.05) 角度 Q6 0.122 0.112 1.037 (0.06) 0.759 (0.05) 計算(分数) Q7 -0.164 -0.886 -0.731 -0.138 (0.02) 0.792 (0.03) 文章題(□を使った計算) Q8 -0.163 -0.985 -1.173 -0.159 (0.02) 0.808 (0.03) 文章題(□を使った計算) Q9 0.483 -0.649 -0.649 0.403 (0.02) 0.959 (0.03) 単位換算 Q10 0.102 -0.480 -0.894 0.132 (0.02) 0.725 (0.02) 計算(分数) Q11 -1.384 -0.912 -0.854 -0.147 (0.02) 1.023 (0.04) 計算(分数と小数) Q12 -0.275 -0.049 -0.190 0.707 (0.03) 1.124 (0.04) 約数 Q13 -0.575 -0.557 -0.543 0.253 (0.03) 0.850 (0.03) 円周の長さ Q14 0.486 0.145 -0.071 0.976 (0.04) 1.008 (0.04) 文章題(計算式中の空白を埋める) Q15 -0.209 0.001 -0.189 0.751 (0.03) 1.351 (0.05) 図形 Q16 0.618 0.168 1.315 (0.05) 0.991 (0.04) 反比例 Q17 0.145 0.150 1.152 (0.04) 1.279 (0.05) 扇形の弧の長さ Q18 0.045 0.363 1.122 (0.04) 1.152 (0.04) 計算(方程式) Q19 -0.408 -0.594 0.482 (0.03) 1.263 (0.05) 図形 Q20 0.508 0.239 1.490 (0.05) 0.984 (0.04) 図形 Q21 0.175 0.136 1.134 (0.04) 1.235 (0.04) 反比例 Q22 0.291 0.295 1.294 (0.05) 1.876 (0.14) 図形(証明) Q23 0.293 0.319 1.315 (0.05) 0.778 (0.03) 図形(証明) Q24 0.351 0.456 1.441 (0.05) 1.146 (0.04) ※個別推定は困難度のみ表示している。また,推定はすべて 2PL である 川口 俊明、松尾 剛、礒部 年晃、樋口 裕介 項目反応理論と潜在クラス成長分析による自治体学力調査の再分析 算数・数学の学力格差とその変容 目では,Q11,Q12,Q15など,anc5(小学5年生)よ りg6(小学6年生)の方が困難度が高くなっている項目 も見られた。この理由として考えられるのは,A市のテ スト政策である。今回分析対象としたA市の学力調査は, 2011年(g4の実施年)から本格的に導入され,以後は, 毎年度実施されている。そのため,時を経るにつれ,A 市の教員がテストを意識した授業を行うようになった 結果,全体の学力が向上している可能性がある。とく に,Q11,Q12は計算問題,Q15は計算式中の空白を埋 める問題なので,反復練習で正答率が向上した可能性 が考えられる。 g7とanc8が関わるQ17からQ20は,Q17で困難度は ほぼ変わらず,Q18は困難度が大きく上昇している。 他方でQ19とQ20は困難度が低下した。Q18は中学1年 生で扱う「弧」の長さを尋ねる項目であり,「弧」とい う言葉の意味が定着しないままに中学2年生になった 生徒がアンカーテストの対象校に多かったことが原因 と考えられる。 最後にanc8とg9に関連するQ21からQ24については, 項目の困難度はそれほど変わらない。これは,anc8の 実施時期が中学2年生の3学期末,全国学力調査が中学3 年生の4月中旬であったため,受験者の学力に大きな変 化がなかったことを表していると考えられる。 図4.等化後のテスト情報量 以上のように,テストの実施に伴う様々な条件の影 響のために,必ずしも全ての項目の困難度が学年の進 行とともに低下する傾向を示すわけではなかった。し かし,できるだけ多くの項目を等化のために利用する という観点から,すべての項目を利用して同時推定に よる等化処理を行った。同時推定の際にも,個別推定 の場合と同じく,2PLを利用し,能力値の分布に正規 分布を仮定した。この同時推定で等化された学力は, 小学4年生の平均値を0としたものになる。最終的な推 定値は,表2の右端に記載した。また,等化後のテスト 情報量を図4に示した。個々のテスト情報量の形状は図 3とほとんど変わらないが,等化処理によりピークはg4, g6,g7,g9の順に大きくなっていく。学年の進行とと もにテストの難易度が上昇するのは自然であり,等化 処理が妥当であることを示していると考えられる。 4.2. 学力格差の変容 各年度の学力(小4の平均を0として等化),就学援助 受給の有無(受給有=1,無=0の就援ダミー),男女(男 子=1,女子=0の男子ダミー)について記述統計量を 示した(表3)。小4から中1にかけて学力が向上してい く傾向があることが読み取れるが,中1と中3の学力は ほとんど変わりがない。 表 3.記述統計量(Weight 無し)
N Min Max Mean SD g4 成績 3361 -4.13 3.43 0.00 1.01 g6 成績 3361 -2.25 4.60 1.32 1.00 g7 成績 3361 -2.01 5.42 1.70 1.14 g9 成績 3361 -2.14 4.78 1.69 1.04 就援ダミー 3361 0 1 0.26 0.44 男子ダミー 3361 0 1 0.51 0.50 図5は,小学4年生から中学3年生までの学力変化を示 したものである。図5の線分は,上から順に上位25% (Q1),50%(Q2),75%(Q3)の値を示している。 表3と同様に,A市の子どもの算数・数学の学力は,小 学4年生から中学1年生まで向上し,その後は停滞して いることがわかる。 次に図6は,就学援助受給の有無で子どもを分類した。 図中の実線は受給有,破線は受給無を示しており,各 グループ内での上位25%,50%,75%がそれぞれQ1, Q2,Q3となっている。図6の結果より,小学4年生か ら中学3年生まで,どの段階でも就学援助受給有のグル
ープの方が学力が低いことがわかる。また,受給の有 無による学力の差は,小学4年生から存在している傾向 を読みとることができる。 図 5.小 4 から中 3 までの学力変化 図 6.小 4 から中 3 までの学力変化と就学援助の有無 続けてLCGAによる分析を行った。図5に示されてい るように,学力格差は小学4年生から一貫して存在して いるようである。しかし,その中には,小学4年生から 急激に学力を向上させる群や,逆に学力を落とす群な ど,質の異なる受験者集団が含まれている可能性が考 えられる。LCGAを使えば,こうした異なる群の軌跡 を検討することが可能である。 なお,個人ごとに推定した能力推定値をもとに集団 の分散を計算するとバイアスが生じるため,推定には 個人の能力推定値の事後分布からランダムサンプリン グして得られた値を用いることが望ましいとされてい る(von Davier, Gonzalez and Mislevy, 2009)。そこ で,PISAやTIMSSで利用されている推算値(Plausible Values: PVs)を生成した(Wu, 2005)。本稿では, TIMSSに倣い,五つのPVsを生み出し,それを分析に 利用した(Martin, Mullis and Hooper, 2016)。
LCGAの分析に際しては,はじめに潜在的な群の数 を決定した後,各群の特徴を分析する。図5・図6の結 果より,学力の変化に線形よりも非線形の変化を仮定 した方が適切であると判断し,全体に二次の成長モデ ルを仮定した分析を行った3)。推定結果は省略するが, 線形の成長を仮定した場合,二次の場合よりAIC・BIC の値が高く,モデルの当てはまりが悪かった。また, 推定された各群の平均値は,実際の標本の値とほぼ変 わらないため,二次の成長モデルを仮定したことは妥 当であると考えられる。 分析結果は,表4,表5,図7の通りである。表4には, 群の数(N)を増やしていったときに,モデルの適合 度指標がどのように変化するかを示した。L0-Testは, 群の数を一つ減らしたときと比べて,モデルが有意に 改善しているかどうかを検定する手法である。表4の結 果より,群の数を4とするのが,もっとも適切だと判断 した。なお,群の数を5以上に設定した場合,所属する 人数が全体の5%以下の群が現れるため,実務的な意味 が薄いことを確認している。 表 4.群の数と適合度の変化
N 自由度 AIC BIC Entropy L0-Test 1 9 48980 49035 - - 2 15 43749 43841 0.82 0.00 3 21 42059 42189 0.81 0.00 4 27 41449 41615 0.78 0.00 5 33 41251 41453 0.76 0.13 図7は,小学4年生から中学3年生までの,各群の推定 される平均値を描いている。図7から,群間の学力差は 小学4年生の時点で既に発生しており,その差が学年の
日本テスト学会誌 Vol.15, No.1 ープの方が学力が低いことがわかる。また,受給の有 無による学力の差は,小学4年生から存在している傾向 を読みとることができる。 図 5.小 4 から中 3 までの学力変化 図 6.小 4 から中 3 までの学力変化と就学援助の有無 続けてLCGAによる分析を行った。図5に示されてい るように,学力格差は小学4年生から一貫して存在して いるようである。しかし,その中には,小学4年生から 急激に学力を向上させる群や,逆に学力を落とす群な ど,質の異なる受験者集団が含まれている可能性が考 えられる。LCGAを使えば,こうした異なる群の軌跡 を検討することが可能である。 なお,個人ごとに推定した能力推定値をもとに集団 の分散を計算するとバイアスが生じるため,推定には 個人の能力推定値の事後分布からランダムサンプリン グして得られた値を用いることが望ましいとされてい る(von Davier, Gonzalez and Mislevy, 2009)。そこ で,PISAやTIMSSで利用されている推算値(Plausible Values: PVs)を生成した(Wu, 2005)。本稿では, TIMSSに倣い,五つのPVsを生み出し,それを分析に 利用した(Martin, Mullis and Hooper, 2016)。
LCGAの分析に際しては,はじめに潜在的な群の数 を決定した後,各群の特徴を分析する。図5・図6の結 果より,学力の変化に線形よりも非線形の変化を仮定 した方が適切であると判断し,全体に二次の成長モデ ルを仮定した分析を行った3)。推定結果は省略するが, 線形の成長を仮定した場合,二次の場合よりAIC・BIC の値が高く,モデルの当てはまりが悪かった。また, 推定された各群の平均値は,実際の標本の値とほぼ変 わらないため,二次の成長モデルを仮定したことは妥 当であると考えられる。 分析結果は,表4,表5,図7の通りである。表4には, 群の数(N)を増やしていったときに,モデルの適合 度指標がどのように変化するかを示した。L0-Testは, 群の数を一つ減らしたときと比べて,モデルが有意に 改善しているかどうかを検定する手法である。表4の結 果より,群の数を4とするのが,もっとも適切だと判断 した。なお,群の数を5以上に設定した場合,所属する 人数が全体の5%以下の群が現れるため,実務的な意味 が薄いことを確認している。 表 4.群の数と適合度の変化
N 自由度 AIC BIC Entropy L0-Test 1 9 48980 49035 - - 2 15 43749 43841 0.82 0.00 3 21 42059 42189 0.81 0.00 4 27 41449 41615 0.78 0.00 5 33 41251 41453 0.76 0.13 図7は,小学4年生から中学3年生までの,各群の推定 される平均値を描いている。図7から,群間の学力差は 小学4年生の時点で既に発生しており,その差が学年の 川口 俊明、松尾 剛、礒部 年晃、樋口 裕介 項目反応理論と潜在クラス成長分析による自治体学力調査の再分析 算数・数学の学力格差とその変容 進行と共に拡大していく傾向を読みとることができる。 特にA群に属する子どもの伸びが大きく,逆にD群の伸 びが鈍い。 表 5.各群の全体に占める割合と特徴 群 占める 割合 群の特徴 各群の推定値 就援率 男子割合 g4 g6 g7 g9 A 0.18 0.09(0.02) 0.56(0.02) 0.97 2.58 2.99 2.99 B 0.37 0.18(0.02) 0.47(0.02) 0.33 1.73 2.09 2.13 C 0.34 0.33(0.02) 0.49(0.02) -0.40 0.81 1.12 1.18 D 0.10 0.46(0.03) 0.58(0.03) -1.29 -0.24 0.03 0.02 ( )内は標準誤差 図 7.LCGA による各群の平均点の推定値 次に,学力格差という点については,表5より,就学 援助受給有の子どもの割合は,A群からD群にかけて一 貫して増加しており,A群で9%であるのに対し,D群 では46%に達していることがわかる。SESによって, どの群に属するかが左右されているということであり, 就学援助を受給している家庭の子どもに対する支援が 必要であることを示唆する結果になっている。 最後に男女差を見てみると,A群とD群で男子の割合 が高い。つまり,男子の学力は上下に二極化する傾向 が見られると言うことである。世界的には「男子の低 学力」が注目を集めている(多賀, 2018)が,A市では, それとはやや異なる現象が生じているようである。な ぜこうした現象が生じるのか,今回のデータから考察 することは難しいが,本稿の分析結果は,あらためて 男女の学力差とその変化に注目した分析が必要である ことを示している。 4.3. IRT を利用しない場合の推定結果 最後に,IRTを利用せずに推定を行った場合,推定 がどのように変化するか検討しておく。以下では,IRT を利用せずに,各年度の点数を平均0,標準偏差1のz 得点に変換したものを従属変数とし,LCGAによる分 析を行う。細かな推定値は省略するが,分析結果は図8, 表6のようになる。 図 8.LCGA による各群の平均点の推定値 (z 得点を利用した場合) 表 6.各群の全体に占める割合と特徴 群 占める 割合 群の特徴 各群の推定値 就援率 男子割合 g4 g6 g7 g9 A 0.44 0.13(0.01) 0.51(0.01) 0.72 0.87 0.90 0.90 B 0.37 0.29(0.02) 0.49(0.01) -0.15 -0.24 -0.26 -0.26 C 0.18 0.42(0.03) 0.55(0.02) -1.27 -1.38 -1.38 -1.30 ( )内は標準誤差 IRTを利用した場合と比べると,z得点を利用した分 析結果では,学力の向上を把握することが困難である。
IRTを利用しない場合,集団内の相対的な位置しか把 握できないため,学力の継時的な向上や停滞といった 現象が十分に捉えきれなかったのではないかと考えら れる。 5.まとめと考察 本稿では,学力格差の変容を明らかにするために, IRTを利用した自治体学力調査の等化と,LCGAによ る分析を行った。また,IRTを利用せず,z得点による 分析を行った場合,どのように分析が変化するかにつ いても検討を加えた。以下にここまでに得られた知見 をまとめる。 第一に,LCGAによる分析の結果,小学4年生から中 学3年生までの学力変化は四つの群に分かれることが 明らかになった。群間の学力差は,小学4年生から存在 し,途中で他の群と交差する(≒急激に学力が向上す る群や,学力が低下する群が存在する)わけではなか った。 第二に,四つの群間で子どもの特徴が異なり,学力 下位の群ほど就学援助を受給している割合が高かった。 また,もっとも上位の群と下位の群に男子が多く,男 子の学力が上下に二極化している可能性が示唆された。 第三に,z得点を従属変数として分析を行った場合と は異なり,IRTを利用することによって継時的な学力 の変化を把握することが可能であることが確認された。 次に,本稿より導くことができる,学術的・実践的 な示唆を述べる。第一に,学力研究におけるIRTの有 用性である。本稿の分析結果は,IRTを利用した分析 の方が,IRTを利用しない分析と比べて,より学力格 差の存在を明らかにしやすいことを示している。より 詳細な学力格差の研究を行うために,IRTを導入する 価値は十分にあると考えられる。 第二に指摘すべきは,学力格差に対する早期介入の 必要性である。LCGAによる分析を踏まえれば,学力 差は小学4年生時点からすでに発生しており,その差は 中学3年生まで縮小する様子は見られない。中西(2017) においても学力格差を縮小するためには早期の介入が 必要であると指摘されているが,本稿の分析結果はあ らためてそのことを裏付けている。 第三に,自治体が運用する学力調査の在り方に関す るものである。本稿が利用したデータは,学力調査や 就学援助受給の有無など,すでにA市教育委員会が保持 していた情報が中心である。北野(2015)は日本の教育 行政が実施する学力調査は問題作成を始め,十分に練 られていないものが多いと指摘しているが,本稿の分 析結果は,CTTの枠組みで設計された既存の学力調査 であっても,データを接続・再分析を行うことで,学 力格差に対する有益な知見を得ることが可能であるこ とを示している。学力調査を適切に分析できる人材を 養成・確保することが,日本の教育行政の急務だと言 えるだろう。 なお,本稿の課題としては,共通項目の数が4から5 と少ないことが挙げられる。今回は,アンカーテスト 実施校に対する情報提供に配慮し,分析には直接関係 しないテスト項目を含めたことで,全体の共通項目が 圧迫されたという事情がある。今後,アンカーテスト の意義と必要性について,学校現場の理解を得ていか なければならない。 また,IRTで事後等化を行う場合,2節で触れたよう に,異なるテスト間で同一の「学力」が測定されてい るという前提が必要になる。日本の小中学校教育では, たとえば社会の小学5年生で地理,6年生で歴史を習う といったケースが考えられるが,このとき,小学5年生 の社会の学力と,6年生の学力を,同じ学力と扱ってよ いかどうかは議論が必要であろう。さらに,全国学力 調査を含め,今回対象とした学力調査は,基礎的な学 力に焦点を当てる傾向があったが,学力調査のターゲ ットが,こうした基礎的な学力に限られていてもかま わないのか,という論点もあり得る。CTTを利用する にせよ,学力調査によって「何を測るのか」という点 については,今後,さらなる議論が求められる。 最後になるが,日本では,IRTに関する知見は,日 本テスト学会や教育心理学会など,関連学会でこそ注 目を集めるものの,それ以外の教育学諸領域で関心を 引くことが少なかったように思われる(光永, 2017, p.206)。そこには,IRTが他領域の研究者にとって難 解であることに加え,その分析上の利点が広く伝わっ ていないことが大きな要因となっていないだろうか。 本稿の分析は,学力格差の実態把握という教育社会学, あるいは教育経済学領域の課題において,IRTが十分 に貢献しうることを示すものになっている。本稿が, テストを専門とする人々のみならず,テストを専門と しない人々にとってもIRTの重要性とその意義を伝え るものになれば幸いである。