項目反応理論と潜在クラス成長分析による自治体学力調査の再分析算数・数学の学力格差とその変容

(1)

日本テスト学会誌 Vol.15, No.1

2019 日本テスト学会誌 Vol.15, No.1 121 - 134

Correspondence concerning this article should be sent to: Toshiaki Kawaguchi, University of Teacher Education Fukuoka, 1-1, Akamabunkyo-machi, Munakata-shi, Fukuoka, Japan 811-4192. E-mail: [email protected]

事例研究論文

項目反応理論と潜在クラス成長分析による自治体学力調査の再分析

算数・数学の学力格差とその変容

Reanalysis of Local Authority Achievement Test with IRT and LCGA

Trends of Mathematics Achievement Score Gap

川口俊明1_，松尾_剛1_，礒部_年晃2_，樋口_裕介1

Toshiaki Kawaguchi1_{, Go Matsuo}1_{, Toshiaki Isobe}2_{, and Yusuke Higuchi}1

1_{福岡教育大学，}2_{筑紫野市教育委員会}

(2)

項目反応理論と潜在クラス成長分析による自治体学力調査の再分析

算数・数学の学力格差とその変容

川口俊明1_，松尾_剛1_，礒部_年晃2_，樋口_裕介1 1_{福岡教育大学，}2_{筑紫野市教育委員会} 本稿は，ある自治体（A 市と仮称する）が実施した算数・数学の学力調査に，項目反応理論（IRT）による等化（Equating）を適用し，その結果を潜在クラス成長分析（LCGA）で分析することを通して，小学 4 年生から中学3 年生までの学力格差の変容を明らかにしている。主な知見は以下の通りである。第一に，LCGA による分析の結果，小学4 年生から中学 3 年生までの学力の変化は，四つのグループに分類できた。グループ間の学力差は4 年生の時点から存在し，変化の軌跡が他のグループと交わることは無かった。第二に，グループによって所属する子どもの特徴が異なっており，学力が低いほど，就学援助を受けている割合が高かった。また，男子の学力は，上下に二極化している傾向が見られた。IRT を利用しない場合，学力格差の拡大は十分に観測できなかったため，IRT を利用しない学力格差研究は，格差を過小評価している可能性がある。キーワード：項目反応理論，自治体学力調査，等化，学力格差，数学

Reanalysis of Local Authority Achievement Test with IRT and LCGA

Trends of Mathematics Achievement Score Gap

1_{University of Teacher Education Fukuoka,}2_{Chikushino City Board of Education}

In this paper, we apply "Equating" by Item Response Theory (IRT) to some mathematics achievement surveys carried out by A City educational administration. Besides, to analyze with Latent Class Growth Analysis (LCGA), we investigate the trends of achievement gap from fourth to ninth grade. Findings are as follows. First, as a result of the analysis with LCGA, the changes of academic ability from fourth to ninth grade are divided into four groups. The differences in educational achievement among these four groups have already appeared at the time of fourth grade, and the trajectory of one group does not intersect with that of another group. Second, the characteristics of children differ among the four groups. The lower the academic ability is, the higher the proportion of those receiving schooling aid is. Also, our analysis suggests that boys' academic ability tend to be polarized. Without IRT, we cannot found growing achievement gaps, it is possible that analysis without IRT underestimates inequality.

(3)

日本テスト学会誌 Vol.15, No.1

項目反応理論と潜在クラス成長分析による自治体学力調査の再分析

算数・数学の学力格差とその変容

川口俊明1_，松尾_剛1_，礒部_年晃2_，樋口_裕介1 1_{福岡教育大学，}2_{筑紫野市教育委員会} 本稿は，ある自治体（A 市と仮称する）が実施した算数・数学の学力調査に，項目反応理論（IRT）による等化（Equating）を適用し，その結果を潜在クラス成長分析（LCGA）で分析することを通して，小学 4 年生から中学3 年生までの学力格差の変容を明らかにしている。主な知見は以下の通りである。第一に，LCGA による分析の結果，小学4 年生から中学 3 年生までの学力の変化は，四つのグループに分類できた。グループ間の学力差は4 年生の時点から存在し，変化の軌跡が他のグループと交わることは無かった。第二に，グループによって所属する子どもの特徴が異なっており，学力が低いほど，就学援助を受けている割合が高かった。また，男子の学力は，上下に二極化している傾向が見られた。IRT を利用しない場合，学力格差の拡大は十分に観測できなかったため，IRT を利用しない学力格差研究は，格差を過小評価している可能性がある。キーワード：項目反応理論，自治体学力調査，等化，学力格差，数学

Reanalysis of Local Authority Achievement Test with IRT and LCGA

Trends of Mathematics Achievement Score Gap

1_{University of Teacher Education Fukuoka,}2_{Chikushino City Board of Education}

In this paper, we apply "Equating" by Item Response Theory (IRT) to some mathematics achievement surveys carried out by A City educational administration. Besides, to analyze with Latent Class Growth Analysis (LCGA), we investigate the trends of achievement gap from fourth to ninth grade. Findings are as follows. First, as a result of the analysis with LCGA, the changes of academic ability from fourth to ninth grade are divided into four groups. The differences in educational achievement among these four groups have already appeared at the time of fourth grade, and the trajectory of one group does not intersect with that of another group. Second, the characteristics of children differ among the four groups. The lower the academic ability is, the higher the proportion of those receiving schooling aid is. Also, our analysis suggests that boys' academic ability tend to be polarized. Without IRT, we cannot found growing achievement gaps, it is possible that analysis without IRT underestimates inequality.

Keywords：Item Response Theory, Local Authority Achievement Test, Equating, Achievement Gap, Mathematics

川口俊明、松尾剛、礒部年晃、樋口裕介項目反応理論と潜在クラス成長分析による自治体学力調査の再分析算数・数学の学力格差とその変容 1．はじめに近年，教育社会学，教育経済学領域を中心に，学力格差の変容を分析するために，同一個人を追跡するパネルデータの蓄積の重要性が指摘されている（中西, 2015）。パネルデータに基づいた学力格差の研究も進みつつあり，最新の研究は，日本にも諸外国と同様に，学力格差が存在するのみならず，それが時間の経過とともに拡大する傾向があることを明らかにしてきた（数実, 2017; 中西, 2017）。自治体の中にも，自ら継続的な学力調査を運営することで，教育施策のために学力格差の変容を分析するところが現れており（日本財団_{, 2018），今後日本でも，教育研究・施策の両面に} おいて，学力の経時的な変化に注目した分析が増加していくと予想される。ただ，こうした学力の経時的な分析において課題になるのが，異なる学年に対して行われた学力調査の得点を比較できるのか，という問題である（数実, 2017; 石川・伊藤・植村・田端・外山・中室・分寺・星野・松岡・山口, 2017）。諸外国の学力調査では，異なる時点間の学力を比較可能にするために，項目反応理論（Item Response Theory: IRT）が利用されてきた。一方，日本の小中学校における学力調査の現状を鑑みると，後に触れるようないくつかの課題があり，設計段階からIRTに基づいた学力調査を運用し，学力格差の変容を把握することは容易ではない。そのため，IRT に基づかずに設計された学力調査の結果を，どのように学力の経時的な分析に活かすかという課題は，今後も重要な教育研究の課題になると考えられる。そこで本稿では， IRTに基づかずに設計された既存の学力調査から，受験者の能力の違いを反映した能力母数を同一尺度上に再構成（＝等化）することにより，学力格差の変容を把握することを試みる。具体的には，ある自治体で実施されている算数・数学の学力調査に着目し，各テストを等化するためのアンカーテストを実施する。その上で，_{IRTに基づく事後等化と，潜在}

クラス成長分析（_{Latent Class Growth Analysis:} LCGA）による分析を加えることで，小学4年生から中

学3年生までの学力格差の変容を明らかにする。

本稿の構成は，次の通りである。まず2節では，学力

格差の変容に関する日本の研究の問題点について，古典的テスト理論（Classical Test Theory: CTT）の課題

と，IRTの日本の学校教育における運用可能性という観点から論じる。次に3節で，本稿で実施した調査の設計について述べ，4節で得られたデータの分析を行う。 5節では，これらをまとめ，本稿の知見を述べる。なお，日本語の「学力」という表現は多義的（苅谷・志水_{, 2004）だが，本稿で扱うのは学力調査にIRTを利} 用することで推計された受験者の「能力値」である。以下で扱う「学力」という表現も，あくまで「算数・数学の学力調査から推計される受験者の能力値」であることに留意されたい。 2．CTT の問題点と IRT の運用可能性日本の既存の学力研究の問題点は，そのほとんどが CTTによって運用されているという点にある（石川ほか, 2017）。CTTの詳細な定義は省略するが，日本の小中学校で一般的に利用されている「100点満点のテスト」を想像すればよい。学力格差の変容を把握するという観点から見たときに，CTTの大きな欠点は，異なるテストの結果を比較することが難しいという点である。一般に，異なる学年には，異なる内容のテストが出題される。さらに学年の進行に伴い，子どもの学力は向上するはずだから，_{CTTに基づいた学力テストで点数} が上昇したとしても，それが子どもの学力が向上したためなのか，それともテストの難易度が下がったためなのか，区別することができない。こうしたCTTの課題に対し，「異質な受験者が，異なる項目を，異なる日時に，異なる場所で受験したにもかかわらず，統一した処遇を受けることができる（豊田_{, 2012，p.16）」テストを開発するために利用されて} いるテスト理論がIRTである。IRTは，TIMSS等の国際学力調査でも利用されており，異なる時点間の学力を比較することを可能にしている（Martin, Mullis and Hooper, 2016）。また，埼玉県が2015年から実施している埼玉県学力調査においても，IRTが利用されており，小学4年生から中学3年生までの学力の変化が把握されている（石川ほか, 2017）。今後，データが蓄積されれば，貴重な知見となるだろう。ただ，同調査は始まったばかりであり，同一個人の学力の変化を追跡できるデータは，十分には蓄積されていない。加えて，日本の小中学校教育において，設計段階からIRTを利用したテストを運用し，学力格差の変容を把握するには，少なくとも以下の三つの課題が存在している。一つ目は，木村（2010）が論じるように，日本には「テストの専門家」が少ないという点である。

(4)

1990年代以降の教員養成系改革の流れの中で，教育に関するテストの専門家を養成することは困難になっており（木村, 2010），教育行政はもちろん，研究者が学力調査を実施する場合でさえ，テストの専門家のアドバイスを受けることは難しい状況にある。そのため，数実（2017）や中西（2017）といった先行研究がそうであるように，CTTに依拠して設計された学力調査をもとに，学力の経時的な分析を行わざるをえない場面は，今後も生じると考えられる。二つ目は，日本の「テスト文化」の特性上，IRTを組み込んだ学力の経時的な変化を把握するテストが実施しづらいという点である。日本の「テスト文化」の特性の一つに，「すべてのテスト項目が実施直後に公開される」というものがある（柴山, 2008, p.3）。これは全国学力調査にも見られる特性であるが，そこには，公開されたテスト項目を「指導のために」利用したいという教員・学校の要望が少なからず反映されている（川口, 2018, p.33）。他方，IRTを利用して経時的な学力調査を設計する際は，とくに各年度の難易度を調整するための項目（本稿ではこれをアンカー項目と呼ぶ）を厳重に秘匿する必要がある。たとえば埼玉県学力調査は，すべてのテスト項目を非公開にすることで，学力の経時的な分析を可能にしている（石川ほか, 2017）が，こうした方法はテスト項目の公開を望む学校の要望とは矛盾しており，学校現場の理解を得ることは容易ではないと思われる。三つ目は，仮にIRTに基づく学力調査を実施できたとしても，学力格差の変容を把握するには，児童生徒の_{SES（保護者の学歴や年収など）に関わる情報を併} せて取得しなければならないという点である。耳塚（2007）も指摘するように，日本の学校においてSES に関わる情報を取得することは難しい。埼玉県学力調査ですら，得られるSESの情報は「家庭にある本の冊数」や「通塾しているかどうか」にとどまっており，保護者の年収・学歴に関わる変数を入手できていない。学力格差の存在が指摘されて久しいが，日本で継続的に実施されている学力調査の中で，児童生徒の詳細な SESが把握できるものは，決して多くないのである1)_。なお，SESに限らず男女の学力差も，学力格差の研究

で重要な論点の一つである（Buchmann, DiPrete and McDaniel, 2008）。日本を対象にした算数・数学の調査では，中学校段階で男子の平均点が女子を上回ることを報告した伊佐・知念（14）や，男子の学力の上下差が女子に比べてやや大きいことを指摘した北條（2015）といった研究があるが，これらは経時的な学力の変化を考慮しているわけではない。そこで本稿では，性別と学力の変容との関係についても検討する。ここまで論じてきたような事情からIRTに基づいて設計され，かつ児童生徒の_{SESの情報を取得した学力} 調査を日本で期待することは，今後も相当に難しいと考えられる。そこで，本稿が提案するのが，自治体が独自に実施してきた既存の学力調査のデータを，事後的にIRTを用いて等化し，さらにSESの情報を加えることで，学力格差の変容を捉えるというものである。もちろん多くの自治体の学力調査は，IRTの枠組みで実施されているわけではない。しかし，例えばセンター試験の点数を等化することで，学力低下を実証しようとした研究のように，事後的にIRTを適用して学力調査のデータを等化することは可能である（吉村・荘島・杉野・野沢・清水・齋藤・根岸・岡部・サイモン, 2005）。ただし，自治体学力調査にIRTを適用する場合，次の2点に留意する必要があると思われる。一つは，測定する概念の妥当性に関する問題である。自治体の学力調査は，もともと受験する学年が明確に想定されている。学力調査の内容は，その学年までに履修した内容に限定されており，学習指導要領の範囲を超える「学力」を測定することは想定されていない。そのため，小学4年生向けのテストで測定した「学力」と中学3年生向けのテストで測定した「学力」が，はたして同一のものなのかどうか検討する必要がある。本稿では，教科の中では比較的，小中学校を通して同一の「学力」を測定していると考えられる算数・数学を対象に，IRT を適用することにした。もう一つは，IRTの前提に関わる問題である。一般的な学力調査で利用されるIRTには，局所独立の仮定，および測定対象の一次元性という前提がある（加藤・山田・川端, 2014，p.138）。局所独立の仮定とは，受験者の能力が等しい時に，項目間の反応には相関がなく互いに独立であるということである。登藤（2012）は局所独立性が満たされない状況である局所依存性を引き起こす要因を_{3つのタイプに分類している。例えば，} 大問形式の出題によって，大問内の項目間に相関が生じてしまうといったことも局所依存性が生じる状況の一つである2)_{。測定対象の一次元性とは，出題されてい} るテスト項目のすべてが，単一の構成概念を測定しているという仮定であり，これが満たされない場合，IRT を利用することはできない。自治体学力調査は，これらの前提を考慮して設計されているわけではないから，

(5)

日本テスト学会誌 Vol.15, No.1 1990年代以降の教員養成系改革の流れの中で，教育に関するテストの専門家を養成することは困難になっており（木村, 2010），教育行政はもちろん，研究者が学力調査を実施する場合でさえ，テストの専門家のアドバイスを受けることは難しい状況にある。そのため，数実（2017）や中西（2017）といった先行研究がそうであるように，CTTに依拠して設計された学力調査をもとに，学力の経時的な分析を行わざるをえない場面は，今後も生じると考えられる。二つ目は，日本の「テスト文化」の特性上，IRTを組み込んだ学力の経時的な変化を把握するテストが実施しづらいという点である。日本の「テスト文化」の特性の一つに，「すべてのテスト項目が実施直後に公開される」というものがある（柴山, 2008, p.3）。これは全国学力調査にも見られる特性であるが，そこには，公開されたテスト項目を「指導のために」利用したいという教員・学校の要望が少なからず反映されている（川口, 2018, p.33）。他方，IRTを利用して経時的な学力調査を設計する際は，とくに各年度の難易度を調整するための項目（本稿ではこれをアンカー項目と呼ぶ）を厳重に秘匿する必要がある。たとえば埼玉県学力調査は，すべてのテスト項目を非公開にすることで，学力の経時的な分析を可能にしている（石川ほか, 2017）が，こうした方法はテスト項目の公開を望む学校の要望とは矛盾しており，学校現場の理解を得ることは容易ではないと思われる。三つ目は，仮にIRTに基づく学力調査を実施できたとしても，学力格差の変容を把握するには，児童生徒の_{SES（保護者の学歴や年収など）に関わる情報を併} せて取得しなければならないという点である。耳塚（2007）も指摘するように，日本の学校においてSES に関わる情報を取得することは難しい。埼玉県学力調査ですら，得られるSESの情報は「家庭にある本の冊数」や「通塾しているかどうか」にとどまっており，保護者の年収・学歴に関わる変数を入手できていない。学力格差の存在が指摘されて久しいが，日本で継続的に実施されている学力調査の中で，児童生徒の詳細な SESが把握できるものは，決して多くないのである1)_。なお，SESに限らず男女の学力差も，学力格差の研究

で重要な論点の一つである（Buchmann, DiPrete and McDaniel, 2008）。日本を対象にした算数・数学の調査では，中学校段階で男子の平均点が女子を上回ることを報告した伊佐・知念（14）や，男子の学力の上下差が女子に比べてやや大きいことを指摘した北條（2015）といった研究があるが，これらは経時的な学力の変化を考慮しているわけではない。そこで本稿では，性別と学力の変容との関係についても検討する。ここまで論じてきたような事情からIRTに基づいて設計され，かつ児童生徒の_{SESの情報を取得した学力} 調査を日本で期待することは，今後も相当に難しいと考えられる。そこで，本稿が提案するのが，自治体が独自に実施してきた既存の学力調査のデータを，事後的にIRTを用いて等化し，さらにSESの情報を加えることで，学力格差の変容を捉えるというものである。もちろん多くの自治体の学力調査は，IRTの枠組みで実施されているわけではない。しかし，例えばセンター試験の点数を等化することで，学力低下を実証しようとした研究のように，事後的にIRTを適用して学力調査のデータを等化することは可能である（吉村・荘島・杉野・野沢・清水・齋藤・根岸・岡部・サイモン, 2005）。ただし，自治体学力調査にIRTを適用する場合，次の2点に留意する必要があると思われる。一つは，測定する概念の妥当性に関する問題である。自治体の学力調査は，もともと受験する学年が明確に想定されている。学力調査の内容は，その学年までに履修した内容に限定されており，学習指導要領の範囲を超える「学力」を測定することは想定されていない。そのため，小学4年生向けのテストで測定した「学力」と中学3年生向けのテストで測定した「学力」が，はたして同一のものなのかどうか検討する必要がある。本稿では，教科の中では比較的，小中学校を通して同一の「学力」を測定していると考えられる算数・数学を対象に，IRT を適用することにした。もう一つは，IRTの前提に関わる問題である。一般的な学力調査で利用されるIRTには，局所独立の仮定，および測定対象の一次元性という前提がある（加藤・山田・川端, 2014，p.138）。局所独立の仮定とは，受験者の能力が等しい時に，項目間の反応には相関がなく互いに独立であるということである。登藤（2012）は局所独立性が満たされない状況である局所依存性を引き起こす要因を_{3つのタイプに分類している。例えば，} 大問形式の出題によって，大問内の項目間に相関が生じてしまうといったことも局所依存性が生じる状況の一つである2)_{。測定対象の一次元性とは，出題されてい} るテスト項目のすべてが，単一の構成概念を測定しているという仮定であり，これが満たされない場合，IRT を利用することはできない。自治体学力調査は，これらの前提を考慮して設計されているわけではないから，川口俊明、松尾剛、礒部年晃、樋口裕介項目反応理論と潜在クラス成長分析による自治体学力調査の再分析算数・数学の学力格差とその変容 IRTを適用する前に，条件が満たされているかどうか確認する必要がある。 3．方法 3.1. 分析対象本稿で分析するのは，西日本のある自治体（以下，A 市と呼称する）の2016年度の中学3年生が，過去に受けてきた算数・数学の学力調査である。A市は，全国学力・学習状況調査が始まって以降，独自の算数・数学に関する学力調査を「児童生徒が教科の基礎的な学力を身につけているかどうか確認する」ために，小学₄ 年生・小学6年生・中学1年生に対して実施してきた。そのため，A市の2016年度の中学3年生は，独自の学力調査（小4・小6・中1）と，2016年度の全国学力・学習状況調査（中3）を受験している。本稿では，これら4回の学力調査の得点を等化し，さらに受験者のSESの情報を加えることで，学力格差の変容を捉えることを試みる。異なる学年を対象に設計された算数・数学の学力調査が，同一の「学力」を測定していると仮定することの是非については，算数・数学教育の専門家を中心に検討を行った。その結果，国際学力調査であるTIMSSのように，必ずしも学習指導要領を想定していない調査であっても日本で実施されている前例があることから，学年を超えた算数・数学の学力を想定し，その伸びを測定することは可能であると判断した。また，出題されているテスト項目を検討したところ，「学年を超えた算数・数学の学力の測定」という枠組みから大きく外れるテスト項目は確認できなかったため，全項目を分析対象とすることにした。なお，自治体の特定を防ぐため，以下の記述には標本抽出やサンプルサイズを曖昧にしている箇所がある。 3.2. 等化のためのテストデザイン 4回の学力調査は，それぞれ異なるテスト項目から構成されており，そのままでは等化を行うことができない。そこで本稿では，各テストから複数のテスト項目を抜き出して作成したアンカーテストを別に実施し，その結果を利用して，4回の学力調査の得点を等化することにした。ただし，2016年度の中学3年生にとって過去4回の学力調査のテスト項目は既知であるため，アンカーテストの対象は，2016年度の小学5年生，および中学2年生から選ぶことにした。アンカーテストの対象は，A市の小中学校から協力校を募り，調査に応じた学校（各学年，約_{1000名ずつ）に対して実施した。具} 体的なテストデザインは図1のようになる。なお，「小学5年生対象のアンカーテスト」「小学4年生対象の自治体テスト」といった具合にテスト名称が長くなるため，以下では，図1の「anc5」「g4」といった略称を用いる。また，アンカーテストの対象校が，A市全体と比較して顕著に成績が高い／低い学校だった場合，等化に問題が生じる可能性があるため，g4からg9のデータを使い，アンカーテスト対象校とそれ以外の学校の平均点を比較したところ，有意な差は見られなかった。図 1．等化デザイン（【】内はテストの略称，（）内は項目数） 3.3. アンカーテスト項目の選定アンカーテストの項目は，過去4回の学力調査のテスト項目に加えて，2016年度の全国学力調査の小学校6 年生の問題を含めて構成した。これは，アンカーテストを実施する際に，A市教育委員会からアンカーテストの結果をテスト受験校の「役に立つ」ものにしてほしいという要請があり，数年前のテストだけでなく，小 2016 年度中 3 アンカーテスト【anc5】（18） 2016 年度小 5（909 名） 2016 年度 3 学期に実施自治体テスト【g4】（26） 2011 年度小 4（悉皆実施） 2011 年度 2 学期に実施自治体テスト【g6】（24） 2013 年度小 6（悉皆実施） 2013 年度 2 学期に実施自治体テスト【g7】（30） 2014 年度中 1（悉皆実施） 2014 年度 2 学期に実施全国学力調査【g9】（51） 2016 年度中 3（悉皆実施） 2016 年度 1 学期に実施アンカーテスト【anc8】（27） 2016 年度中 2（987 名） 2016 年度 3 学期に実施

(6)

学校を対象とした直近の全国学力調査の項目もアンカーテストに含めたためである。アンカーテストの実施時間も40分程度に限られていたため，既存のg4からg9 のテストに項目反応理論の2PLを適用して識別度・困難度を計算した後，識別度が高い項目について，できるだけ困難度がばらつくように4～5題を抽出してアンカーテストを構成した。また，小学5年生と中学2年生の反応の違いを検討するため，anc5とanc8の項目は，できるだけ重複するように設計している。各テストの項目数は，図1の括弧内に示したとおりである。全国学力調査の項目数が他の倍以上の値を示しているが，これはA問題とB問題を区別せずに扱っているからである。一般に，全国学力調査の_{A問題は知識を} 問い，B問題は活用する力を問うとされているが，後に述べる本稿の分析結果からは，両者を区別する積極的な理由は見いだせなかった。 3.4. テストの分析方法アンカーテストに用いる項目母数の推定，テストの等化，潜在特性尺度値の推定にはR3.5.2 (R Core Team, 2018) と mirt パッケージ(Chalmers, 2012) を利用した。項目母数の推定は，2PLを用いて行った。2PL は，ICCの推定に際して，項目の困難度（≒テスト項目の難しさ）と識別度（≒テスト項目が，困難度付近の能力の受験者を弁別できる程度）の二つを想定するモデルである（加藤・山田・川端, 2014，p.76）。mirt では，受験者の能力値（θ）の推定は，2PLでは，式（_{1）によって行われる。} 𝑃𝑃(𝜃𝜃|𝛼𝛼, 𝑑𝑑) =_{1+exp⁡(−(𝛼𝛼𝛼𝛼+𝑑𝑑))}1 ⁡ （1）一方，通常の2PLでは，exp（）の中は尺度因子𝐷𝐷，識別度（_{𝑎𝑎），困難度（𝑏𝑏）を用いて，−𝐷𝐷𝑎𝑎(𝜃𝜃 − 𝑏𝑏)と表} されることが多い。この通常の2PLモデルに合わせて mirtのパラメタを解釈できるようにするため，奥村ほか（_{2015）に倣い，𝛼𝛼を𝐷𝐷(= 1.702)で除した識別度（𝑎𝑎）} と，_{𝑑𝑑を−𝐷𝐷𝛼𝛼で除した困難度（𝑏𝑏）を算出した。} IRTを利用した等化法は，大きく分けると，①個別に項目パラメータを推定した後，共通項目における項目パラメータを手がかりに等化を行う個別推定と，② 複数の受験者グループに対して，別々の平均・標準偏差を仮定する同時推定の二つがある（光永, 2017， pp.152-165）。本稿ではanc5とanc8のそれぞれがg4からg6に共通項目を持つという設計上，後者の同時推定を採用した。学力の推定にはEAP（expected a posteriori）法を用いた。 3.5. SES および性別についての調査 SESに関する情報は，2016年度の中学3年生を対象に実施された，SESに関する調査研究のデータを利用している。この調査は，文部科学省委託事業として2016 年度の2学期に実施された調査である（福岡教育大学 2017）。同調査では，生徒自身に対する質問紙調査に加え，生徒の保護者に対して学歴・年収といった_SESを尋ねる質問紙調査が実施された（保護者質問紙の回収率は約80%）。加えて，自治体の教育委員会を通して，標本となった全生徒の就学援助受給の有無に関する情報も得られている。標本抽出は学級単位で行われ，調査対象となった自治体のすべての学校から，学級数に応じて1ないし2学級が抽出されている。本稿が分析対象とするA市は，この文部科学省委託事業による調査の対象に含まれている。そこで，当該データを再利用することを，文部科学省，およびA市教育委員会に許可を得て，今回の分析に使用した。なお，生徒の抽出確率が各学校の学級数に応じて変動するため，推定を行う際は，weightによる補正，および学校を単位とするクラスター標準誤差を利用している。 4回の学力調査のデータ，およびSESに関する情報を接続する際は，個々の児童生徒の氏名を利用している。ただし，個人情報保護の関係上，研究者側は氏名データを持たず，いったん氏名を教育委員会側でIDに変換してもらい，それをもとに接続するという手順をとった。そのため，同姓同名の場合や，何らかの事情で姓が変わった場合は接続できず，データが欠損している。小学4年生から中学3年生まで，すべてのデータが揃う生徒の数は3361名である。これは，文部科学省委託事業のために抽出されたA市の生徒の約72％に当たる。データが欠損した理由は，先に述べた①氏名が異なるために接続できないという理由の他に，②転入生である，③何らかの理由による欠席，④特別な支援が必要な生徒であり，そもそも学力調査の対象では無かった，等が考えられる。特に③のケースを中心に，分析に何らかのバイアスが生じる可能性は否定できないが，② から④を区別する情報は，A市教育委員会から得られなかった。そのため今回は，一時点でも欠損したデータ

(7)

日本テスト学会誌 Vol.15, No.1 学校を対象とした直近の全国学力調査の項目もアンカーテストに含めたためである。アンカーテストの実施時間も40分程度に限られていたため，既存のg4からg9 のテストに項目反応理論の2PLを適用して識別度・困難度を計算した後，識別度が高い項目について，できるだけ困難度がばらつくように4～5題を抽出してアンカーテストを構成した。また，小学5年生と中学2年生の反応の違いを検討するため，anc5とanc8の項目は，できるだけ重複するように設計している。各テストの項目数は，図1の括弧内に示したとおりである。全国学力調査の項目数が他の倍以上の値を示しているが，これはA問題とB問題を区別せずに扱っているからである。一般に，全国学力調査の_{A問題は知識を} 問い，B問題は活用する力を問うとされているが，後に述べる本稿の分析結果からは，両者を区別する積極的な理由は見いだせなかった。 3.4. テストの分析方法アンカーテストに用いる項目母数の推定，テストの等化，潜在特性尺度値の推定にはR3.5.2 (R Core Team, 2018) と mirt パッケージ(Chalmers, 2012) を利用した。項目母数の推定は，2PLを用いて行った。2PL は，ICCの推定に際して，項目の困難度（≒テスト項目の難しさ）と識別度（≒テスト項目が，困難度付近の能力の受験者を弁別できる程度）の二つを想定するモデルである（加藤・山田・川端, 2014，p.76）。mirt では，受験者の能力値（θ）の推定は，2PLでは，式（_{1）によって行われる。} 𝑃𝑃(𝜃𝜃|𝛼𝛼, 𝑑𝑑) =_{1+exp⁡(−(𝛼𝛼𝛼𝛼+𝑑𝑑))}1 ⁡ （1）一方，通常の2PLでは，exp（）の中は尺度因子𝐷𝐷，識別度（_{𝑎𝑎），困難度（𝑏𝑏）を用いて，−𝐷𝐷𝑎𝑎(𝜃𝜃 − 𝑏𝑏)と表} されることが多い。この通常の2PLモデルに合わせて mirtのパラメタを解釈できるようにするため，奥村ほか（_{2015）に倣い，𝛼𝛼を𝐷𝐷(= 1.702)で除した識別度（𝑎𝑎）} と，_{𝑑𝑑を−𝐷𝐷𝛼𝛼で除した困難度（𝑏𝑏）を算出した。} IRTを利用した等化法は，大きく分けると，①個別に項目パラメータを推定した後，共通項目における項目パラメータを手がかりに等化を行う個別推定と，② 複数の受験者グループに対して，別々の平均・標準偏差を仮定する同時推定の二つがある（光永, 2017， pp.152-165）。本稿ではanc5とanc8のそれぞれがg4からg6に共通項目を持つという設計上，後者の同時推定を採用した。学力の推定にはEAP（expected a posteriori）法を用いた。 3.5. SES および性別についての調査 SESに関する情報は，2016年度の中学3年生を対象に実施された，SESに関する調査研究のデータを利用している。この調査は，文部科学省委託事業として2016 年度の2学期に実施された調査である（福岡教育大学 2017）。同調査では，生徒自身に対する質問紙調査に加え，生徒の保護者に対して学歴・年収といった_SESを尋ねる質問紙調査が実施された（保護者質問紙の回収率は約80%）。加えて，自治体の教育委員会を通して，標本となった全生徒の就学援助受給の有無に関する情報も得られている。標本抽出は学級単位で行われ，調査対象となった自治体のすべての学校から，学級数に応じて1ないし2学級が抽出されている。本稿が分析対象とするA市は，この文部科学省委託事業による調査の対象に含まれている。そこで，当該データを再利用することを，文部科学省，およびA市教育委員会に許可を得て，今回の分析に使用した。なお，生徒の抽出確率が各学校の学級数に応じて変動するため，推定を行う際は，weightによる補正，および学校を単位とするクラスター標準誤差を利用している。 4回の学力調査のデータ，およびSESに関する情報を接続する際は，個々の児童生徒の氏名を利用している。ただし，個人情報保護の関係上，研究者側は氏名データを持たず，いったん氏名を教育委員会側でIDに変換してもらい，それをもとに接続するという手順をとった。そのため，同姓同名の場合や，何らかの事情で姓が変わった場合は接続できず，データが欠損している。小学4年生から中学3年生まで，すべてのデータが揃う生徒の数は3361名である。これは，文部科学省委託事業のために抽出されたA市の生徒の約72％に当たる。データが欠損した理由は，先に述べた①氏名が異なるために接続できないという理由の他に，②転入生である，③何らかの理由による欠席，④特別な支援が必要な生徒であり，そもそも学力調査の対象では無かった，等が考えられる。特に③のケースを中心に，分析に何らかのバイアスが生じる可能性は否定できないが，② から④を区別する情報は，A市教育委員会から得られなかった。そのため今回は，一時点でも欠損したデータ川口俊明、松尾剛、礒部年晃、樋口裕介項目反応理論と潜在クラス成長分析による自治体学力調査の再分析算数・数学の学力格差とその変容は，すべて削除して分析した。学力格差の変容を分析する際は，就学援助受給の有無，及び性別に着目する。先に述べたように，そもそも接続の際にデータが欠損していることから，回収率が_{80%程度の保護者質問紙の学歴・年収といった設問} を利用すると，さらに欠損が増加してしまう。そこで今回は，欠損の無い就学援助受給の有無をSES指標として分析を行うことにした。子どもの性別については，生徒質問紙において回答を求め，欠損はほぼ0であった。 4．分析結果 4.1. アンカーテストの項目母数の検討図 2．各テストのスクリープロット分析対象となるテストがIRTの前提となる，項目反応の局所独立性，および測定対象の一次元性を満たすか検討した。大問形式のテスト項目がg4，g6にそれぞれ一つ（関連するテスト項目は，それぞれ二つ），g7 に三つ（関連するテスト項目は，二つ，三つ，三つの合計八つ）存在したため，局所依存の程度を測るために、先述した_{IRTの2PLモデルにおいて推定された項目} 母数を用いてQ3統計量を計算した。これらの項目でQ3 統計量の値が0.2を大きく上回っていたことから局所依存性が高いと判断し（加藤・山田・川端, 2014），該当するテスト項目への回答は，完全正答を正答，それ以外はすべて誤答とした。さらに，全国学力調査の項目のうち，推定が不安定になることを避けるため，総正答数と関連の薄い1項目（I-T相関が0.1未満）を削除した。最終的に利用したテスト項目数は，g4から順に，25，23，25，50項目である。もともとの項目数と比べて，減少した項目数は1， 1，5，1であり，g7がやや多いものの，テストで測定されている学力は，ほぼ変わっていないと考えられる。ここで，テトラコリック相関係数行列から固有値を算出し，スクリープロットを描くことで一次元性の確認を行った（図2）。あわせてアンカーテストを含むすべてのテストでクロンバックのアルファ係数を算出したところ，いずれも0.8を超えており，すべてのテストで十分な内的一貫性があることが確認できた（表1）。表 1．クロンバックのアルファ係数 g4 g6 g7 g9 anc5 anc8 アルファ係数 0.85 0.88 0.91 0.93 0.91 0.84 以上を確認した後，IRTの2PLを用いて，テストごとに各項目の識別度・困難度を再推定した。なお，受験者の能力分布には，正規分布を仮定した。当て推量で正答する確率を考慮する3パラメータ・ロジスティックモデル（3PL）による推計も行ったが，推定結果はほとんど変わらなかった。これは，ほとんどのテスト項目が記述式であり，3PLが仮定する当て推量で正答できるテスト項目が少なかったことに由来すると思われる。図 3．テスト情報関数

(8)

図3は，g4からg9の各テストが，どの学力層を識別することに優れているかを示す，テスト情報量のグラフである。小学生を対象にしたテスト（g4とg6）は難易度－1前後に，中学生を対象にしたテスト（g7とg9）は難易度0前後に，それぞれピークが生じている。総じて難易度_{0から－1付近で情報量が大きいことから，こ} れらのテストが学力のやや低い層を識別することに優れていることがわかる。既に述べたように，A市教育委員会は，独自の学力調査を実施する理由を「児童生徒の基礎的な学力を把握する」こととしており，図3は，テストの難易度が目的にかなっていたことを示している。また，2016年度の全国学力・学習状況調査（g9）についても，そのテストの難易度は高くなく，基本的には，A市の学力調査と同じく基礎的な学習事項を確認しようとしていることが読み取れる。これは同時に，学力の高い層の得点の推定値に誤差が大きいことを意味しており，分析結果の解釈には注意が必要である。表2はテスト項目の困難度・識別度である。すべてのテスト項目の困難度・識別度を示すのは煩雑になるため，ここでは等化に利用した項目（アンカー項目）のみ示す。表2の結果から，個々のアンカー項目が適切かどうかを検討する。まずanc5とanc8を比較すると，Q1から Q15のほとんどの項目で困難度はほぼ同じか，低下する傾向にある。また，g4からanc5，あるいはanc8に関する項目（Q7からQ10）については困難度が大きく低下している。これらの傾向は，学年の進行とともに学力が向上していることを表しているものと考えられる。 anc5とg6，およびanc8に関連するQ11からQ15の項表 2．アンカー項目の推定値項目の概要番号個別推定同時推定

g4 anc5 g6 g7 anc8 g9 困難度（SE）識別度（SE）文章題 Q1 -0.803 -1.158 -0.078 (0.05) 0.935 (0.07) 計算（小数） Q2 -0.715 -0.699 0.196 (0.04) 1.242 (0.08) 数の大きさ Q3 -1.064 -0.955 -0.100 (0.05) 0.857 (0.06) 数の大きさ Q4 -0.916 -0.901 -0.011 (0.04) 1.223 (0.09) 角度 Q5 -0.574 -0.576 0.323 (0.05) 0.731 (0.05) 角度 Q6 0.122 0.112 1.037 (0.06) 0.759 (0.05) 計算（分数） Q7 -0.164 -0.886 -0.731 -0.138 (0.02) 0.792 (0.03) 文章題（□を使った計算） Q8 -0.163 -0.985 -1.173 -0.159 (0.02) 0.808 (0.03) 文章題（□を使った計算） Q9 0.483 -0.649 -0.649 0.403 (0.02) 0.959 (0.03) 単位換算 Q10 0.102 -0.480 -0.894 0.132 (0.02) 0.725 (0.02) 計算（分数） Q11 -1.384 -0.912 -0.854 -0.147 (0.02) 1.023 (0.04) 計算（分数と小数） Q12 -0.275 -0.049 -0.190 0.707 (0.03) 1.124 (0.04) 約数 Q13 -0.575 -0.557 -0.543 0.253 (0.03) 0.850 (0.03) 円周の長さ Q14 0.486 0.145 -0.071 0.976 (0.04) 1.008 (0.04) 文章題（計算式中の空白を埋める） Q15 -0.209 0.001 -0.189 0.751 (0.03) 1.351 (0.05) 図形 Q16 0.618 0.168 1.315 (0.05) 0.991 (0.04) 反比例 Q17 0.145 0.150 1.152 (0.04) 1.279 (0.05) 扇形の弧の長さ Q18 0.045 0.363 1.122 (0.04) 1.152 (0.04) 計算（方程式） Q19 -0.408 -0.594 0.482 (0.03) 1.263 (0.05) 図形 Q20 0.508 0.239 1.490 (0.05) 0.984 (0.04) 図形 Q21 0.175 0.136 1.134 (0.04) 1.235 (0.04) 反比例 Q22 0.291 0.295 1.294 (0.05) 1.876 (0.14) 図形（証明） Q23 0.293 0.319 1.315 (0.05) 0.778 (0.03) 図形（証明） Q24 0.351 0.456 1.441 (0.05) 1.146 (0.04) ※個別推定は困難度のみ表示している。また，推定はすべて 2PL である

(9)

日本テスト学会誌 Vol.15, No.1 図3は，g4からg9の各テストが，どの学力層を識別することに優れているかを示す，テスト情報量のグラフである。小学生を対象にしたテスト（g4とg6）は難易度－1前後に，中学生を対象にしたテスト（g7とg9）は難易度0前後に，それぞれピークが生じている。総じて難易度_{0から－1付近で情報量が大きいことから，こ} れらのテストが学力のやや低い層を識別することに優れていることがわかる。既に述べたように，A市教育委員会は，独自の学力調査を実施する理由を「児童生徒の基礎的な学力を把握する」こととしており，図3は，テストの難易度が目的にかなっていたことを示している。また，2016年度の全国学力・学習状況調査（g9）についても，そのテストの難易度は高くなく，基本的には，A市の学力調査と同じく基礎的な学習事項を確認しようとしていることが読み取れる。これは同時に，学力の高い層の得点の推定値に誤差が大きいことを意味しており，分析結果の解釈には注意が必要である。表2はテスト項目の困難度・識別度である。すべてのテスト項目の困難度・識別度を示すのは煩雑になるため，ここでは等化に利用した項目（アンカー項目）のみ示す。表2の結果から，個々のアンカー項目が適切かどうかを検討する。まずanc5とanc8を比較すると，Q1から Q15のほとんどの項目で困難度はほぼ同じか，低下する傾向にある。また，g4からanc5，あるいはanc8に関する項目（Q7からQ10）については困難度が大きく低下している。これらの傾向は，学年の進行とともに学力が向上していることを表しているものと考えられる。 anc5とg6，およびanc8に関連するQ11からQ15の項表 2．アンカー項目の推定値項目の概要番号個別推定同時推定

g4 anc5 g6 g7 anc8 g9 困難度（SE）識別度（SE）文章題 Q1 -0.803 -1.158 -0.078 (0.05) 0.935 (0.07) 計算（小数） Q2 -0.715 -0.699 0.196 (0.04) 1.242 (0.08) 数の大きさ Q3 -1.064 -0.955 -0.100 (0.05) 0.857 (0.06) 数の大きさ Q4 -0.916 -0.901 -0.011 (0.04) 1.223 (0.09) 角度 Q5 -0.574 -0.576 0.323 (0.05) 0.731 (0.05) 角度 Q6 0.122 0.112 1.037 (0.06) 0.759 (0.05) 計算（分数） Q7 -0.164 -0.886 -0.731 -0.138 (0.02) 0.792 (0.03) 文章題（□を使った計算） Q8 -0.163 -0.985 -1.173 -0.159 (0.02) 0.808 (0.03) 文章題（□を使った計算） Q9 0.483 -0.649 -0.649 0.403 (0.02) 0.959 (0.03) 単位換算 Q10 0.102 -0.480 -0.894 0.132 (0.02) 0.725 (0.02) 計算（分数） Q11 -1.384 -0.912 -0.854 -0.147 (0.02) 1.023 (0.04) 計算（分数と小数） Q12 -0.275 -0.049 -0.190 0.707 (0.03) 1.124 (0.04) 約数 Q13 -0.575 -0.557 -0.543 0.253 (0.03) 0.850 (0.03) 円周の長さ Q14 0.486 0.145 -0.071 0.976 (0.04) 1.008 (0.04) 文章題（計算式中の空白を埋める） Q15 -0.209 0.001 -0.189 0.751 (0.03) 1.351 (0.05) 図形 Q16 0.618 0.168 1.315 (0.05) 0.991 (0.04) 反比例 Q17 0.145 0.150 1.152 (0.04) 1.279 (0.05) 扇形の弧の長さ Q18 0.045 0.363 1.122 (0.04) 1.152 (0.04) 計算（方程式） Q19 -0.408 -0.594 0.482 (0.03) 1.263 (0.05) 図形 Q20 0.508 0.239 1.490 (0.05) 0.984 (0.04) 図形 Q21 0.175 0.136 1.134 (0.04) 1.235 (0.04) 反比例 Q22 0.291 0.295 1.294 (0.05) 1.876 (0.14) 図形（証明） Q23 0.293 0.319 1.315 (0.05) 0.778 (0.03) 図形（証明） Q24 0.351 0.456 1.441 (0.05) 1.146 (0.04) ※個別推定は困難度のみ表示している。また，推定はすべて 2PL である川口俊明、松尾剛、礒部年晃、樋口裕介項目反応理論と潜在クラス成長分析による自治体学力調査の再分析算数・数学の学力格差とその変容目では，Q11，Q12，Q15など，anc5（小学5年生）よりg6（小学6年生）の方が困難度が高くなっている項目も見られた。この理由として考えられるのは，A市のテスト政策である。今回分析対象としたA市の学力調査は， 2011年（g4の実施年）から本格的に導入され，以後は，毎年度実施されている。そのため，時を経るにつれ，A 市の教員がテストを意識した授業を行うようになった結果，全体の学力が向上している可能性がある。とくに，Q11，Q12は計算問題，Q15は計算式中の空白を埋める問題なので，反復練習で正答率が向上した可能性が考えられる。 g7とanc8が関わるQ17からQ20は，Q17で困難度はほぼ変わらず，_{Q18は困難度が大きく上昇している。} 他方でQ19とQ20は困難度が低下した。Q18は中学1年生で扱う「弧」の長さを尋ねる項目であり，「弧」という言葉の意味が定着しないままに中学2年生になった生徒がアンカーテストの対象校に多かったことが原因と考えられる。最後にanc8とg9に関連するQ21からQ24については，項目の困難度はそれほど変わらない。これは，anc8の実施時期が中学_{2年生の3学期末，全国学力調査が中学3} 年生の4月中旬であったため，受験者の学力に大きな変化がなかったことを表していると考えられる。図4．等化後のテスト情報量以上のように，テストの実施に伴う様々な条件の影響のために，必ずしも全ての項目の困難度が学年の進行とともに低下する傾向を示すわけではなかった。しかし，できるだけ多くの項目を等化のために利用するという観点から，すべての項目を利用して同時推定による等化処理を行った。同時推定の際にも，個別推定の場合と同じく，2PLを利用し，能力値の分布に正規分布を仮定した。この同時推定で等化された学力は，小学4年生の平均値を0としたものになる。最終的な推定値は，表2の右端に記載した。また，等化後のテスト情報量を図4に示した。個々のテスト情報量の形状は図 3とほとんど変わらないが，等化処理によりピークはg4， g6，g7，g9の順に大きくなっていく。学年の進行とともにテストの難易度が上昇するのは自然であり，等化処理が妥当であることを示していると考えられる。 4.2. 学力格差の変容各年度の学力（小4の平均を0として等化），就学援助受給の有無（受給有＝1，無＝0の就援ダミー），男女（男子＝1，女子＝0の男子ダミー）について記述統計量を示した（表3）。小4から中1にかけて学力が向上していく傾向があることが読み取れるが，中1と中3の学力はほとんど変わりがない。表 3．記述統計量（Weight 無し）

N Min Max Mean SD g4 成績 3361 -4.13 3.43 0.00 1.01 g6 成績 3361 -2.25 4.60 1.32 1.00 g7 成績 3361 -2.01 5.42 1.70 1.14 g9 成績 3361 -2.14 4.78 1.69 1.04 就援ダミー 3361 0 1 0.26 0.44 男子ダミー 3361 0 1 0.51 0.50 図5は，小学4年生から中学3年生までの学力変化を示したものである。図5の線分は，上から順に上位25％（Q1），50％（Q2），75％（Q3）の値を示している。表3と同様に，A市の子どもの算数・数学の学力は，小学4年生から中学1年生まで向上し，その後は停滞していることがわかる。次に図_{6は，就学援助受給の有無で子どもを分類した。} 図中の実線は受給有，破線は受給無を示しており，各グループ内での上位25％，50％，75％がそれぞれQ1， Q2，Q3となっている。図6の結果より，小学4年生から中学3年生まで，どの段階でも就学援助受給有のグル

(10)

ープの方が学力が低いことがわかる。また，受給の有無による学力の差は，小学4年生から存在している傾向を読みとることができる。図 5．小 4 から中 3 までの学力変化図 6．小 4 から中 3 までの学力変化と就学援助の有無続けてLCGAによる分析を行った。図5に示されているように，学力格差は小学4年生から一貫して存在しているようである。しかし，その中には，小学4年生から急激に学力を向上させる群や，逆に学力を落とす群など，質の異なる受験者集団が含まれている可能性が考えられる。LCGAを使えば，こうした異なる群の軌跡を検討することが可能である。なお，個人ごとに推定した能力推定値をもとに集団の分散を計算するとバイアスが生じるため，推定には個人の能力推定値の事後分布からランダムサンプリングして得られた値を用いることが望ましいとされている（von Davier, Gonzalez and Mislevy, 2009）。そこで，PISAやTIMSSで利用されている推算値（Plausible Values: PVs）を生成した（Wu, 2005）。本稿では， TIMSSに倣い，五つのPVsを生み出し，それを分析に利用した（Martin, Mullis and Hooper, 2016）。

LCGAの分析に際しては，はじめに潜在的な群の数を決定した後，各群の特徴を分析する。図_{5・図6の結} 果より，学力の変化に線形よりも非線形の変化を仮定した方が適切であると判断し，全体に二次の成長モデルを仮定した分析を行った3)_{。推定結果は省略するが，} 線形の成長を仮定した場合，二次の場合よりAIC・BIC の値が高く，モデルの当てはまりが悪かった。また，推定された各群の平均値は，実際の標本の値とほぼ変わらないため，二次の成長モデルを仮定したことは妥当であると考えられる。分析結果は，表4，表5，図7の通りである。表4には，群の数（N）を増やしていったときに，モデルの適合度指標がどのように変化するかを示した。L0-Testは，群の数を一つ減らしたときと比べて，モデルが有意に改善しているかどうかを検定する手法である。表4の結果より，群の数を4とするのが，もっとも適切だと判断した。なお，群の数を5以上に設定した場合，所属する人数が全体の_{5％以下の群が現れるため，実務的な意味} が薄いことを確認している。表 4．群の数と適合度の変化

N 自由度 AIC BIC Entropy L0-Test 1 9 48980 49035 - - 2 15 43749 43841 0.82 0.00 3 21 42059 42189 0.81 0.00 4 27 41449 41615 0.78 0.00 5 33 41251 41453 0.76 0.13 図7は，小学4年生から中学3年生までの，各群の推定される平均値を描いている。図7から，群間の学力差は小学4年生の時点で既に発生しており，その差が学年の

(11)

日本テスト学会誌 Vol.15, No.1 ープの方が学力が低いことがわかる。また，受給の有無による学力の差は，小学4年生から存在している傾向を読みとることができる。図 5．小 4 から中 3 までの学力変化図 6．小 4 から中 3 までの学力変化と就学援助の有無続けてLCGAによる分析を行った。図5に示されているように，学力格差は小学4年生から一貫して存在しているようである。しかし，その中には，小学4年生から急激に学力を向上させる群や，逆に学力を落とす群など，質の異なる受験者集団が含まれている可能性が考えられる。LCGAを使えば，こうした異なる群の軌跡を検討することが可能である。なお，個人ごとに推定した能力推定値をもとに集団の分散を計算するとバイアスが生じるため，推定には個人の能力推定値の事後分布からランダムサンプリングして得られた値を用いることが望ましいとされている（von Davier, Gonzalez and Mislevy, 2009）。そこで，PISAやTIMSSで利用されている推算値（Plausible Values: PVs）を生成した（Wu, 2005）。本稿では， TIMSSに倣い，五つのPVsを生み出し，それを分析に利用した（Martin, Mullis and Hooper, 2016）。

LCGAの分析に際しては，はじめに潜在的な群の数を決定した後，各群の特徴を分析する。図_{5・図6の結} 果より，学力の変化に線形よりも非線形の変化を仮定した方が適切であると判断し，全体に二次の成長モデルを仮定した分析を行った3)_{。推定結果は省略するが，} 線形の成長を仮定した場合，二次の場合よりAIC・BIC の値が高く，モデルの当てはまりが悪かった。また，推定された各群の平均値は，実際の標本の値とほぼ変わらないため，二次の成長モデルを仮定したことは妥当であると考えられる。分析結果は，表4，表5，図7の通りである。表4には，群の数（N）を増やしていったときに，モデルの適合度指標がどのように変化するかを示した。L0-Testは，群の数を一つ減らしたときと比べて，モデルが有意に改善しているかどうかを検定する手法である。表4の結果より，群の数を4とするのが，もっとも適切だと判断した。なお，群の数を5以上に設定した場合，所属する人数が全体の_{5％以下の群が現れるため，実務的な意味} が薄いことを確認している。表 4．群の数と適合度の変化

N 自由度 AIC BIC Entropy L0-Test 1 9 48980 49035 - - 2 15 43749 43841 0.82 0.00 3 21 42059 42189 0.81 0.00 4 27 41449 41615 0.78 0.00 5 33 41251 41453 0.76 0.13 図7は，小学4年生から中学3年生までの，各群の推定される平均値を描いている。図7から，群間の学力差は小学4年生の時点で既に発生しており，その差が学年の川口俊明、松尾剛、礒部年晃、樋口裕介項目反応理論と潜在クラス成長分析による自治体学力調査の再分析算数・数学の学力格差とその変容進行と共に拡大していく傾向を読みとることができる。特にA群に属する子どもの伸びが大きく，逆にD群の伸びが鈍い。表 5．各群の全体に占める割合と特徴群占める割合群の特徴各群の推定値就援率男子割合 g4 g6 g7 g9 A 0.18 0.09(0.02) 0.56(0.02) 0.97 2.58 2.99 2.99 B 0.37 0.18(0.02) 0.47(0.02) 0.33 1.73 2.09 2.13 C 0.34 0.33(0.02) 0.49(0.02) -0.40 0.81 1.12 1.18 D 0.10 0.46(0.03) 0.58(0.03) -1.29 -0.24 0.03 0.02 （）内は標準誤差図 7．LCGA による各群の平均点の推定値次に，学力格差という点については，表5より，就学援助受給有の子どもの割合は，A群からD群にかけて一貫して増加しており，A群で9％であるのに対し，D群では_{46％に達していることがわかる。SESによって，} どの群に属するかが左右されているということであり，就学援助を受給している家庭の子どもに対する支援が必要であることを示唆する結果になっている。最後に男女差を見てみると，A群とD群で男子の割合が高い。つまり，男子の学力は上下に二極化する傾向が見られると言うことである。世界的には「男子の低学力」が注目を集めている（多賀, 2018）が，A市では，それとはやや異なる現象が生じているようである。なぜこうした現象が生じるのか，今回のデータから考察することは難しいが，本稿の分析結果は，あらためて男女の学力差とその変化に注目した分析が必要であることを示している。 4.3. IRT を利用しない場合の推定結果最後に，IRTを利用せずに推定を行った場合，推定がどのように変化するか検討しておく。以下では，IRT を利用せずに，各年度の点数を平均0，標準偏差1のz 得点に変換したものを従属変数とし，LCGAによる分析を行う。細かな推定値は省略するが，分析結果は図8，表_{6のようになる。} 図 8．LCGA による各群の平均点の推定値（z 得点を利用した場合）表 6．各群の全体に占める割合と特徴群占める割合群の特徴各群の推定値就援率男子割合 g4 g6 g7 g9 A 0.44 0.13(0.01) 0.51(0.01) 0.72 0.87 0.90 0.90 B 0.37 0.29(0.02) 0.49(0.01) -0.15 -0.24 -0.26 -0.26 C 0.18 0.42(0.03) 0.55(0.02) -1.27 -1.38 -1.38 -1.30 （）内は標準誤差 IRTを利用した場合と比べると，z得点を利用した分析結果では，学力の向上を把握することが困難である。

(12)

IRTを利用しない場合，集団内の相対的な位置しか把握できないため，学力の継時的な向上や停滞といった現象が十分に捉えきれなかったのではないかと考えられる。 5．まとめと考察本稿では，学力格差の変容を明らかにするために， IRTを利用した自治体学力調査の等化と，LCGAによる分析を行った。また，IRTを利用せず，z得点による分析を行った場合，どのように分析が変化するかについても検討を加えた。以下にここまでに得られた知見をまとめる。第一に，_{LCGAによる分析の結果，小学4年生から中} 学3年生までの学力変化は四つの群に分かれることが明らかになった。群間の学力差は，小学4年生から存在し，途中で他の群と交差する（≒急激に学力が向上する群や，学力が低下する群が存在する）わけではなかった。第二に，四つの群間で子どもの特徴が異なり，学力下位の群ほど就学援助を受給している割合が高かった。また，もっとも上位の群と下位の群に男子が多く，男子の学力が上下に二極化している可能性が示唆された。第三に，z得点を従属変数として分析を行った場合とは異なり，IRTを利用することによって継時的な学力の変化を把握することが可能であることが確認された。次に，本稿より導くことができる，学術的・実践的な示唆を述べる。第一に，学力研究におけるIRTの有用性である。本稿の分析結果は，_{IRTを利用した分析} の方が，IRTを利用しない分析と比べて，より学力格差の存在を明らかにしやすいことを示している。より詳細な学力格差の研究を行うために，IRTを導入する価値は十分にあると考えられる。第二に指摘すべきは，学力格差に対する早期介入の必要性である。LCGAによる分析を踏まえれば，学力差は小学4年生時点からすでに発生しており，その差は中学_{3年生まで縮小する様子は見られない。中西(2017)} においても学力格差を縮小するためには早期の介入が必要であると指摘されているが，本稿の分析結果はあらためてそのことを裏付けている。第三に，自治体が運用する学力調査の在り方に関するものである。本稿が利用したデータは，学力調査や就学援助受給の有無など，すでにA市教育委員会が保持していた情報が中心である。北野(2015)は日本の教育行政が実施する学力調査は問題作成を始め，十分に練られていないものが多いと指摘しているが，本稿の分析結果は，CTTの枠組みで設計された既存の学力調査であっても，データを接続・再分析を行うことで，学力格差に対する有益な知見を得ることが可能であることを示している。学力調査を適切に分析できる人材を養成・確保することが，日本の教育行政の急務だと言えるだろう。なお，本稿の課題としては，共通項目の数が4から5 と少ないことが挙げられる。今回は，アンカーテスト実施校に対する情報提供に配慮し，分析には直接関係しないテスト項目を含めたことで，全体の共通項目が圧迫されたという事情がある。今後，アンカーテストの意義と必要性について，学校現場の理解を得ていかなければならない。また，IRTで事後等化を行う場合，2節で触れたように，異なるテスト間で同一の「学力」が測定されているという前提が必要になる。日本の小中学校教育では，たとえば社会の小学5年生で地理，6年生で歴史を習うといったケースが考えられるが，このとき，小学5年生の社会の学力と，_{6年生の学力を，同じ学力と扱ってよ} いかどうかは議論が必要であろう。さらに，全国学力調査を含め，今回対象とした学力調査は，基礎的な学力に焦点を当てる傾向があったが，学力調査のターゲットが，こうした基礎的な学力に限られていてもかまわないのか，という論点もあり得る。CTTを利用するにせよ，学力調査によって「何を測るのか」という点については，今後，さらなる議論が求められる。最後になるが，日本では，_{IRTに関する知見は，日} 本テスト学会や教育心理学会など，関連学会でこそ注目を集めるものの，それ以外の教育学諸領域で関心を引くことが少なかったように思われる（光永, 2017， p.206）。そこには，IRTが他領域の研究者にとって難解であることに加え，その分析上の利点が広く伝わっていないことが大きな要因となっていないだろうか。本稿の分析は，学力格差の実態把握という教育社会学，あるいは教育経済学領域の課題において，_IRTが十分に貢献しうることを示すものになっている。本稿が，テストを専門とする人々のみならず，テストを専門としない人々にとってもIRTの重要性とその意義を伝えるものになれば幸いである。

項目反応理論と潜在クラス成長分析による自治体学力調査の再分析 算数・数学の学力格差とその変容

事例研究論文

項目反応理論と潜在クラス成長分析による自治体学力調査の再分析

算数・数学の学力格差とその変容

Reanalysis of Local Authority Achievement Test with IRT and LCGA

Trends of Mathematics Achievement Score Gap

項目反応理論と潜在クラス成長分析による自治体学力調査の再分析

算数・数学の学力格差とその変容

Reanalysis of Local Authority Achievement Test with IRT and LCGA

Trends of Mathematics Achievement Score Gap

項目反応理論と潜在クラス成長分析による自治体学力調査の再分析

算数・数学の学力格差とその変容

Reanalysis of Local Authority Achievement Test with IRT and LCGA

Trends of Mathematics Achievement Score Gap

項目反応理論と潜在クラス成長分析による自治体学力調査の再分析算数・数学の学力格差とその変容