小学1 年生から中学3 年生を対象とした学力テストの垂直尺度化

(1)

項目反応理論（item response theory: 以下，IRT とする ; Embretson & Reise, 2000）は，テスト項目の特徴を示すパラメタと能力値などの潜在変数を分離することにより，異なったテスト項目を受験した集団間での受験者の能力値の比較を可能とした。例えば，国際教育到達度評価学会の「国際数学・理科教育動向調査（Trends in International Mathematics and Science Study: 以下， TIMSS とする ; Martin, Mullis, & Foy, 2008）や，経済協力開発機構（OECD）の「国際的な生徒の学習到達度調査（Programme for International Student Assessment: 以下，PISA とする）は，IRT を用いることにより，異なったテスト項目を受験した国の間の比較や，同じ国の中での学力の経年比較ができるように計画されている（OECD, 2017）。アメリカの「全米学力調査（National Assessment of Educational Progress: NAEP）」

においても，IRT 分析の導入が，全米の集団間や集団

小学 1 年生から中学 3 年生を対象とした

学力テストの垂直尺度化

1, 2, 3

山口一大

4_{日本学術振興会（法政大学）}

_{敷島千鶴}

_帝京大学

星野崇宏

繁桝算男

赤林英夫

　慶應義塾大学

Vertical scaling of academic ability tests for elementary school first year students through junior high school third year students

Kazuhiro Yamaguchi （Japan Society for the Promotion of Science, Hosei University）, Chizuru Shikishima （Teikyo University）, Takahiro Hoshino, Kazuo Shigemasu, and Hideo Akabayashi （Keio University） This study aimed to vertically scale the mathematics and Japanese academic ability tests of the Japan Child Panel Survey (JCPS) for elementary school first year students through junior high school third year students (grades 1-9 in the U.S.). We used an anchoring test design based on the item response theory. Two test samples were used: JCPS test participants (n = 3,916) and anchoring test participants (n = 7,210). After estimating the item parameters with a two-parameter logistic item response model, the equating coefficients were estimated with the Haebara method. The tests were scaled for elementary school fifth year (grade 5) in the end. The number of items included in the final analyses was 94 for mathematics and 108 for Japanese language studies. The mean level of estimated individual latent academic ability progressed according to grade level. Therefore, the JCPS tests appear to be able to capture the developmental changes of students from elementary school to junior high school. Future research should examine the relationship between children’s academic development and various factors, such as psychological traits or family environment, using the JCPS research data.

Key words: vertical scaling, Japan Child Panel Survey, item response theory.

The Japanese Journal of Psychology

J-STAGE Advanced published date: July 10, 2019

Correspondence concerning this article should be sent to: Kazuhiro Yamaguchi, Japan Society for the Promotion of Science (Hosei University), Aiharacho, Machida Tokyo 194-0298, Japan. （E-mail: kazuhiro.yamaguchi.57@hosei.ac.jp） 1_{本研究は，日本学術振興会科学研究費補助金（基盤研究 S,} 課題番号 16H06323, 研究代表者赤林英夫および，特別研究員奨励費，課題番号 18J01312，研究代表者山口一大）の助成を受けた。 2_{本研究で実施された調査は，慶應義塾大学経済研究所研究倫} 理審査委員会の承認を受けて行われた（受理番号 15001， 17005）。 3_{共通尺度テスト項目及びパラメタ等の情報は，慶應義塾大} 学経済研究所こどもの機会均等研究センターを通じ，一定の条件の下で利用可能とする予定である。 4_{アンカーテストの実施に協力をいただいた港区・杉並区教育} 委員会と同区の小中学校に心から感謝します。

(2)

内における学力の差異の検討を可能にしている（Yamamoto & Mazzeo, 1992）。

こうした学力の比較を可能にする操作はリンキングや等化（von Davier, 2011; Dorans, Pommerich, & Holland, 2007; Kolen & Brennan, 2014）と呼ばれる。IRT モデルに依拠した 1 次元尺度の等化係数の推定方法としては，線形変換に基づく方法が主流であり，Mean-Mean 法や Mean-Sigma 法，項目特性曲線に基づく Haebara 法（Haebara, 1980）や，Stocking-Lord 法（Stocking & Lord, 1983）が用いられることが多い。個人の学力の発達変化を記述する際には，テストの難易度が個人の学力の向上に伴い徐々に高くなることが一般的であり，こうした状況に適した尺度構成の方法は垂直尺度化と呼ばれる。垂直尺度化は，異なった難易度をもつ 2 つ以上の尺度を同一の次元に尺度化する方法である。また，同程度の難易度をもつ 2 つ以上の尺度を同一の次元の尺度に変換し，潜在特性を比較可能にする方法を等化とよぶ。個人の特性のみならず，家庭環境や学校の変数が個人の学力形成にどのように関係し，それを通じて，社会経済的不平等はどのようなメカニズムにより世代間で連関するのかという関心は，社会科学や行動科学の諸領域においてかねてより高かった（赤林・直井・敷島， 2016）。特に近年，PISA・TIMSS など，異なる国の間で等化された学力尺度に基づき，家庭背景（所得水準や親の学歴など）と学力の連関の程度を国際比較することが可能になったことから（OECD, 2013），その背景にある社会的・制度的要因に関する研究が爆発的に進んでいる（Ermisch, Jantti, & Smeeding, 2011）。同時に，次のステップとして，家庭背景と学力の連関が子どものどの発達段階で顕著になるのか，国ごとにその背景要因は共通しているのかが，関心を集めるようになってきた（Bradbury, Corak, Waldfogel, & Washbrook, 2015）。

学力の発達変化と，それを通じた世代間の社会経済的不平等の連鎖を追うためには，垂直尺度化されたテストや心理尺度が必要不可欠な道具となる。その理由の第一は，同一の尺度で計測された学力があることで，ある教育・社会制度が子どもの学力に与える効果を，子どもの発達段階によらず統一的に推計できることである。理由の第二は，学力が子どもの将来のアウトカム（所得，就業，健康など）に与える影響を，学力が計測された学年に依存せずに推計できることである。そして第三に，それらを通じ，社会経済的不平等が学力や心理を通じて世代間で連鎖するメカニズムを統一的尺度で表現し，教育政策等の費用効果分析に進むことができることがある。そこで，子どもを対象としたパネル調査・コーホート調査の開発が準国家的に進んでいる欧米諸国を中心に，学力の分布を同じ尺度で追跡できるようにする努力が続けられてきた。例えば米国では，National

Education Longitudinal Study of 1988 や Early Childhood Longitudinal Study，カナダでは National Longitudinal Survey for Children and Youth，ドイツでは National Educational Panel Study が，子どもの追跡調査を大規模に展開する過程で，垂直尺度化されたテストスコアを構築している。これらのデータに基づき，調査に参加する世帯の子どもの学力を複数回測定し，IRT 分析を施すことにより，例えば，幼児教育と子どもの学力の間の因果関係を同定する試みが行われてきている（Magnuson, Ruhm, & Waldfogel, 2007）。

国内で垂直尺度化された尺度としては，芝・野口・柴山（1985）の語彙理解力尺度（小学 1 年生から中学 3 年生），藤森（1991）の算数尺度（小学 3 年生から 5 年生），喜岡（1991）の計算課題（小学 1 年生から 6 年生）などがあるが，そこで推定された学力と，その子どもの心理，あるいは家庭や学校の教育環境との関連は報告されていない。より最近では，埼玉県学力調査において，IRT に基づき尺度化された学力テストが導入された（石川他， 2017）。この調査は埼玉県全域の小中学校を対象にしており，小学 3 年生から中学 3 年生の国語と数学，英語（中学 2 年生以上）の大規模データが存在する。しかし，埼玉県学力調査は 2015 年に始まった学校調査であり，現在のところ，発達変化の詳細を追えるほどのデータは蓄積されていない。また，詳細な子どもの家庭背景との連結もなされていない。このように我が国にも，異なるテスト問題における異なる学年間の学力比較を可能としたテストは存在するものの，個人の特性変数・家庭環境や学校の変数と学力変化を多変量分析するための調査デザインはいまだ十分に整備されているとは言い難い。実際，2001 年に開始された 21 世紀出生児縦断調査は我が国を代表する大規模コーホート調査といえるが，学力の計測は含まれていない。我が国で，こうした個人の特性変数・家庭環境や学校の変数を含んだパネル調査として，日本子どもパネル調査（Japan Child Panel Survey: 以下，JCPS とする ; 赤林他，2016）が存在する。JCPS では，全国の小中学生とその親を対象とした追跡調査を継続的に施行してきている。JCPS の本体となる日本家計パネル調査（Japan Household Panel Survey: 以下，JHPS とする）は，

全国に居住する成人期男女が構成する母集団より，層化 2 段無作為抽出された約 10,000 名とその配偶者を対象とし，対象者の世帯を長期間フォローアップすることにより，我が国の経済行動の動的変化の解明を目指す家計調査である（樋口・宮内・McKenzie, 2010）。 JCPS は JHPS の付帯調査として，JHPS 参加者の中で小学校あるいは中学校に就学する子どもをもつ者（親）とその子どもを対象とし，2010 年にスタートした親子パネル調査である（赤林他， 2016）。

(3)

このように JCPS は標本調査ではあるが，代表性の高いサンプルを得ており，さらに小学 1 年生から中学 3 年生まで繰り返し参加する個人データで構成されることから，個人の学力の発達変化の解明に適した調査デザインを有しているといえる。子どもの調査には小学 1 年生から中学 3 年生まで学年別の算数・数学（以下，単純化のため数学とする）と国語の学力テストが導入されており（敷島・直井・山下・赤林， 2011），これまでに延べ 4,000 名に近い学力データが蓄積されている。しかしながら，それらの学力データは垂直尺度化されていない。それゆえ，テスト項目が異なる学年間で学力を厳密に比較することはできず，発達変化を精緻に検討することもできなかった。小学生から中学生の義務教育期における子どもの学力の変化を的確に捉え，豊富な家庭背景のパネル情報とリンクすることができれば，子どものアウトカムと家庭との関連を動的に分析することが可能となる。そのためには，まず，小学 1 年生から中学 3 年生までの学力を測定する共通尺度の作成が求められる。本研究は，これまで JCPS で蓄積してきた学力データを学年を超えて一次元化するためにも，JCPS で用いられてきた既存の数学と国語の学力テスト問題を垂直尺度化し，小学 1 年生から中学 3 年生までの 9 学年にわたる一次元尺度を作成することを目的とする。さらに，作成した垂直尺度を用いて，個々人の数学・国語の潜在的能力を推定し，その推定値が集団としては学年とともに向上しているかを確認する。加えて，数学と国語の能力の相関関係（敷島他， 2011）も検討する。そうすることにより，近年の妥当性の概念（平井， 2016; Messick, 1995）が扱う様々な側面の証拠集めの観点から，本研究で作成する尺度の妥当性について議論を行う。 方　　法 データ収集方法 データ収集デザイン　垂直尺度化を行うためには， 2 つ以上のテストに対して，異なった問題項目に同じ受験者が解答したり，異なった受験者が同じテスト項目に解答するようにデータを収集する必要がある。より具体的には，共通受験者計画，共通項目計画，アンカーテスト計画の 3 つのデータ収集法が一般的である（加藤・山田・川端， 2014）。本研究では，既に作成されている 9 学年分の JCPS の数学と国語のテストを尺度化するため，アンカーテスト計画を採用し，異なった学年向けに作成されたテストから複数の項目を抜き出して新たにアンカーテストを作成した。作成に際しては，敷島他（2011）で開発され，2010 年から 2016 年までの JCPS 学力テストにおいて収集されてきたテストデータをもとに，隣接する学年との共通項目が，各学年のテストの半分程度になるよう項目を抽出した。その際，極端に高い正答率の項目を避けつつ，各学年において未習の内容を出題しないように留意した。また，テストの採点は正答・誤答の 2 値として，項目間に論理的に依存関係がある場合には，依存関係にある全ての項目に正答している場合にのみ正答とし，分析上は 1 つの項目として扱った。テスト解答者　本研究では 2 種類のサンプルのテストデータを用いた。1 つは，JCPS が実施してきた学力テストに解答した小中学生，そしてもう 1 つは，アンカーテストに解答した小中学生である。 JCPS では，JHPS に参加する一部あるいはすべての義務教育段階である小学校あるいは中学校に就学する子どものいる対象者に対し，任意の調査協力を呼びかけ，それに応じた親子を対象としている。小学 1 年生から中学 3 年生の子ども個人を単位とし，2010・ 2011・2012・2013・2014・2016 年に，親と子どもがそれぞれの調査票に対し，調査員が出向き手渡し後，あるいは郵送後，各家庭において解答した。数学と国語の学力テストは，各学年別に一貫して同一の問題セットで実施し，子どもの調査票に含めた。実施にあたっては，親，あるいは高学年では子ども本人が 20 分間計測し（数学と国語の学力テストに加えて 4 問の推論課題を含む），子どもが時間内にひとりで解答すること，そして，解答した子どもの調査票は，速やかに子ども自身が同封されたシールで 4 箇所を封緘した後，親に渡すことを求めた。本研究では，この学力テストに参加したのべ 3,916 名（2,061 個人）の解答を分析に用いた（Table 1）。 Table 1 各調査への参加人数テストの種類小学中学合計 1 年 2 年 3 年 4 年 5 年 6 年 1 年 2 年 3 年 JCPS 376 401 466 427 489 449 454 437 417 3,916 アンカー 818 832 750 812 750 771 864 874 739 7,210 合計 1,194 1,233 1,216 1,239 1,239 1,220 1,318 1,311 1,156 11,126

(4)

アンカーテストの解答者は，教育委員会と学校長が本研究への協力に同意した都内 2 区の区立小学校の 1 年生から 6 年生，ならびに区立中学校の 1 年生から 3 年生である。調査は 2017 年に実施し，各学年別のテスト用紙を，学校へ生徒数分送付した。担任教員が各学級においてインストラクションを読み上げ，調査票を配布し，テストを実施した後，各学校より，生徒が無記名で解答した調査票が返送された。解答時間は，小学生が 15 分間，中学生が 20 分間であった。本研究では，この学校調査に参加した 7,210 名の解答を分析に用いた（Table 1）。 JCPS テストおよびアンカーテストは，どちらも解答者が当該学年の学習指導要領範囲の学習を終了したと考えられる 2 月末以降に行われた。テストの採点は，いずれも，各調査票につき 2 名の研究者あるいは研究補助者が独立に，一貫した採点基準に基づき行った。 2 名の採点結果が不一致のケースは，個票に戻り，複数名で正誤の再検討を行った。また，テストの後部に無解答が多いという傾向はみられなかったため，制限時間内で解答を終了することができず誤答となった可能性について考慮することは行わなかった。項目の構造 JCPS の数学の学力テストは，数概念の理解を問う問題，図表やグラフを読み取る問題，計算問題，数や図形操作に関する文章問題から構成されている。国語の学力テストは，漢字の読み書き問題，語彙・文法・表現を問う問題から構成されている。数学・国語とも，小学 1 年生から中学 3 年生まで，学年ごとに学習指導要領に即した異なる問題群が用意されている。小学 1 年生から小学 3 年生までは，学習ドリル製作会社に要望を伝え，オリジナル問題の作成を依頼した。小学 4 年生から中学 3 年生までは，都道府県で独自に実施された都道府県別学力テストから，適切と思われる問題を抽出して利用した。各学年のテストの信頼性と妥当性は，敷島他（2011）において確認されている。小学 1 年生から中学 3 年生まで合わせた数学の項目数は 105，国語の項目数は 116 であった5_{。このうち，} 小学 4 年生から小学 6 年生の数学のテストに該当する項目群のみを抜粋し，その構造を Table 2 に掲載した。例えば，JCPS 小学 5 年生のテスト 9 項目のうち 2 項目は，JCPS 小学 4 年生との，別の 2 項目は JCPS 小学 6 年生との共通問題である。そして，残り 5 項目のうち 4 項目がアンカーテストに抽出され，小学 5 年生と 6 年生に実施された。他の学年も同様に，JCPS テストで既に学年間に重複のある項目以外から項目を抽出して，隣接する学年で共通項目となるよう，各学年 5_{数学，国語のテスト構造は osf.io/kxqd5 に示した。} のアンカーテストを構成した。分析方法 使用モデル　共通尺度作成には 2 パラメタロジス ティック（2PL）モデルを用いた。潜在変数モデルを扱うことができる汎用的な統計ソフト Mplus ver. 8 （Asparouhov, & Muthén, 2016; Muthén & Muthén, 1998–

2017）を用いてパラメタの推定を行った。 尺度化方法　尺度化する集団が多く，能力値パラメ タの範囲が広くなる可能性があることを鑑み，Kolen & Brennan（2014）の推奨に従って学年ごとに項目パラメタを推定した。各学年での推定尺度値の平均を 0，分散を 1 に固定し，Mplus の周辺最尤推定法により 2PL モデルの項目パラメタの推定値を得た。また，極端に識別力パラメタの推定値が高過ぎる（5 以上の）項目は推定に問題がある可能性があるため分析から除外し，再度パラメタ推定を行った。数学では 3 項目，国語では 2 項目を削除し，最終的に，数学 94 項目，国語 108 項目を分析に利用した。隣接 2 版間の尺度化には等化係数を伴う方法を選択し，Haebara 法により等化係数の推定を行った。垂直尺度化においては， Karkee, Lewis, Hoskens, Yao, & Haug（2003）が個別推定による方法を推奨している。さらに，等化係数の推定方法について，Lee & Ban（2010）は，項目特性曲線に基づく方法の比較を比較し，Stocking-Lord 法と Haebara 法には推定精度にほとんど差がないものの，やや Haebara 法の方法のほうが尺度化に伴う誤差が小さいことを報告している。こうした点に鑑みて，本研究では Haebara 法が最適であると判断した。Haebara 法による等化係数の推定は，R パッケージの irtoys （Partchev, Maris, & Hattori, 2017）の sca 関数を用いて

実行した。尺度化の際には，小学 5 年生を基準集団とした。すなわち，最終的な尺度は，小学 5 年生尺度の平均を原点 0.0 とし単位が 1 となるように尺度化を行った。具体的手続きとしては，小学 2 年生テストを基準に小学 1 年生テストを垂直尺度化し，小学 1・2 年生共通尺度を作成した。次に，小学 3 年生テストを基準に小学 1・2 年生共通尺度を垂直尺度化するという作業を繰り返し，小学 1 年生から小学 5 年生までの共通尺度を作成した。小学 6 年生以上については，まず，中学 2 年生テストを基準に中学 3 年生テストを垂直尺度化し，中学 2・3 年生共通尺度を作成した。さらに，中学 1 年生テストを基準に，中学 2・3 年生共通尺度を垂直尺度化するという手続きを繰り返し，小学 6 年生から中学 3 年生までの共通尺度を作成した。最後に，小学 1 年生から小学 5 年生の共通尺度を基準に小学 6 年生から中学 3 年生までの共通尺度を垂直尺度化し，最終的な共通尺度を得た。Table 3 に，どの尺度からどの尺度への垂直尺度化を実行したかを示した。本研

(5)

究の手続きにおいては，小学 5 年生の項目パラメタは変換されておらず，尺度の基準になっているため，目的とした共通尺度の原点は小学 5 年生の能力の平均と考えられる。等化係数の推定値を等化元と等化先ごとに Table 3 に示した。数学テストの等化係数の傾きの推定値は 0.839 から 1.464，切片の推定値は –0.574 から 0.797 であった。国語テストの等化係数の傾きの推定値は 0.851 から 1.142，切片の推定値は –0.601 から 0.485 であった。いずれのテストにおいても，傾きの推定値が極端であったり，0 に近過ぎる値などはみられなかった。切片についても，極端な推定値はみられなかった。能力値パラメタの推定は，Haebara 法によって推定された等化係数を用いて垂直尺度化を行った後の項目パラメタを全て固定し，Mplus の推定尺度得点の推定方法である期待事後推定（EAP 推定）を用いて実行した。 Table 2 数学テスト問題構造（小学 4・5・6 年生）問題概要小学 4 年生小学 5 年生小学 6 年生 JCPS アンカー JCPS アンカー JCPS アンカー同じ段の掛け算の大小〇引き算（文章題）〇 3 桁の引き算の筆算〇棒グラフの読み取り 1 〇棒グラフの読み取り 2 〇 3 桁の引き算〇〇 2 桁の掛け算〇余りのある割り算〇〇 100 倍の計算〇小数点のある引き算（選択式）〇〇〇億の倍数（選択式）〇〇〇 mm を cm に変換（選択式）〇〇〇億と万の計算〇〇余りのある割り算（文章題）〇〇〇余りのある割り算（選択式）〇〇〇整数から分数の引き算〇〇足し算と掛け算〇〇〇 1/100 の計算〇〇〇 100 倍する前の数（選択式）〇〇〇分数と整数の大小〇〇小数の掛け算（文章題）〇〇〇小数の余りのある割り算（選択式）〇分数の足し算〇分数の割り算 1 〇整数と小数の余りのある割り算〇〇分数の大小（選択式）〇分数と小数の大小〇〇〇約数の列挙〇〇％の計算（文章題）〇〇割り算（文章題）〇〇分数の割り算 2 〇

(6)

結　　果 記述統計量項目削除の手続きを経て最終的に使用された数学テストの項目の正答率の記述統計量と，各学年のテスト項目群から構成されたテトラコリック相関行列から求 めた Cronbach α 係数および相関係数行列の固有値を， テストの種類と学年別に示した（Table 4）。JCPS テストでは 9 から 18 項目が含まれ，アンカーテストでは 8 から 13 項目が含まれていた。JCPS テストでは，小学 1 年生から 3 年生の平均正答率は .85 を上回っており，比較的高い値であった。しかし，小学 3 年生から 6 年生は .700 から .766，中学生は .639 から .655 であり，学年が上がるにつれて，全体的に正答率が低下していく傾向がみられた。アンカーテストにおいては，小学 1 年生から 3 年生では .828 から .877，小学 4 年生から 6 年生では .779 から .795，中学生では .596 から .736 の正答率を示した。JCPS とアンカーテストの正答率の傾向は類似していたものの，中学生では若干異なっていた。 各学年の数学のテスト項目の Cronbach α 係数は， JCPS テストで小学 4 年生の .793 から中学 2 年生の .931 のレンジにあり，全学年の平均は .869 であった。アンカーテストでは小学 1 年生の .781 から中学 2 年生の .946 のレンジにあり，全学年の平均は .872 と，どちらも高い内的一貫性が確認された（Table 4）。 国語のテストの正答率の記述統計量，Cronbach α 係 数および固有値は Table 5 に示した。JCPS テストでは 12 から 18 項目が含まれ，アンカーテストでは 8 から 14 項目が含まれていた。数学テストとは異なり，学年と正答率の関係は明確にはみられず，JCPS 中学 2 年生のテストが .643 であったものの，それ以外の JCPS テストでは .700 以上であった。国語のアンカーテストでは，中学 1 年生のテストの平均正答率が .598 であり，最も低かった。また，アンカーテストにおいて JCPS テストよりも若干低い傾向がみられた。アンカーテストでは，JCPS テストにおいて正答率が高過ぎていた項目は除外されたが，隣接する学年と重複させる項目を選定するにあたり，解答者の学年の学習指導要領範囲を超えた設問となることを避けるために，項目の多くが下の学年との重複となり，結果として困難度を低めたことが考えられる。 各学年の国語のテスト項目の Cronbach α 係数の値 はやはり大きく，JCPS テストでは中学 3 年生の .846 から小学 1 年生の .924 のレンジにあり，全学年の平均は .886，アンカーテストでは中学 3 年生の .810 から小学 6 年生の .919 のレンジにあり，全学年の平均は .877 であった（Table 5）。さらに，テスト別，学年別に，数学と国語のテストの第 1，第 2，第 3 固有値の大きさを示し，テストの次元性を確認した（Table 4, 5）。どのテストにおいても，第 1 から第 2 固有値の間の減衰が最も大きく，第 2 と第 3 固有値の間の減衰は相対的に小さいことが示された。このことから，本研究で使用した各テストは一次元であると判断した。共通尺度化された項目パラメタ最終的に得られた数学テスト各項目の識別力パラメタの推定値は，0.301 から 3.474 のレンジにあり，平 均値は 1.378（SD = 0.625）であった。国語テスト各項 目の識別力パラメタは，0.378 から 5.233 にあり，平 均値は 1.745（SD = 0.773）であった。小学 1 年生の国 語に，4 を超える識別力の高い 2 項目が含まれたものの，比較的安定した推定ができたと考えられる。数学・国語テスト各項目の困難度パラメタについて Table 3 数学・国語テストの等化係数の推定値元の尺度等化先新尺度数学テストの等化係数国語テストの等化係数傾き切片傾き切片小学 1 年生テスト小学 2 年生テスト小学 1・2 年生尺度 1.464 0.125 0.888 –0.315 小学 1・2 年生尺度小学 3 年生テスト小学 1 ─ 3 年生尺度 1.079 –0.378 1.058 –0.601 小学 1 ─ 3 年生尺度小学 4 年生テスト小学 1 ─ 4 年生尺度 0.839 –0.574 0.851 –0.218 小学 1 ─ 4 年生尺度小学 5 年生テスト小学 1 ─ 5 年生尺度 0.978 –0.264 0.984 –0.274 中学 3 年生テスト中学 2 年生テスト中学 2・3 年生尺度 0.851 0.303 0.890 0.485 中学 2・3 年生尺度中学 1 年生テスト中学 1 ─ 3 年生尺度 0.993 0.451 1.088 0.233 中学 1 ─ 3 年生尺度小学 6 年生テスト小学 6 年生・中学 1 ─_{3 年生尺度} 1.062 –0.186 0.795 –0.178 小学 6 年生・中学 1 ─ 3 年生尺度小学 1 ─ 5 年生尺度共通尺度 1.379 0.797 1.142 0.478

(7)

Table 4 数学テストの正答率の要約統計量，Cronbach α および固有値 テストの種類学年項目数 M SD Cronbach α 第 1 固有値第 2 固有値第 3 固有値 JCPS 小学 1 年生 14 .884 .094 .815 4.254 1.903 1.857 小学 2 年生 17 .890 .096 .877 6.072 2.708 1.591 小学 3 年生 18 .865 .148 .876 6.545 1.810 1.606 小学 4 年生 10 .766 .147 .793 3.533 1.246 1.018 小学 5 年生 9 .749 .112 .855 4.226 0.932 0.794 小学 6 年生 10 .700 .198 .884 4.973 0.928 0.846 中学 1 年生 10 .649 .162 .872 4.784 1.109 0.876 中学 2 年生 10 .655 .139 .931 6.179 0.788 0.716 中学 3 年生 10 .639 .124 .922 5.902 0.846 0.759 アンカー小学 1 年生 10 .877 .094 .781 3.426 1.204 1.130 小学 2 年生 13 .849 .121 .849 4.843 1.259 1.090 小学 3 年生 13 .828 .149 .877 5.450 1.484 1.256 小学 4 年生 11 .794 .127 .841 4.385 1.053 1.029 小学 5 年生 10 .795 .098 .852 4.328 0.922 0.798 小学 6 年生 10 .779 .179 .899 5.311 1.049 0.777 中学 1 年生 9 .596 .235 .883 4.753 0.757 0.695 中学 2 年生 11 .681 .106 .946 7.183 0.813 0.640 中学 3 年生 8 .736 .068 .918 5.104 0.783 0.622 Table 5 国語テストの正答率の要約統計量，Cronbach α および固有値 テストの種類学年項目数 M SD Cronbach α 第 1 固有値第 2 固有値第 3 固有値 JCPS 小学 1 年生 18 .888 .110 .924 8.062 1.906 1.662 小学 2 年生 12 .783 .171 .890 5.546 1.553 1.118 小学 3 年生 18 .828 .147 .917 7.633 2.098 1.395 小学 4 年生 13 .790 .156 .876 5.444 1.556 1.366 小学 5 年生 13 .808 .168 .894 5.929 1.308 1.145 小学 6 年生 13 .775 .094 .896 5.987 1.458 1.047 中学 1 年生 13 .767 .157 .866 5.252 1.533 1.146 中学 2 年生 15 .643 .236 .865 5.613 1.767 1.227 中学 3 年生 15 .718 .232 .846 5.029 1.420 1.394 アンカー小学 1 年生 14 .861 .127 .908 6.571 1.736 0.975 小学 2 年生 12 .763 .215 .911 6.150 1.077 0.788 小学 3 年生 12 .757 .156 .881 5.272 1.153 0.940 小学 4 年生 10 .681 .104 .892 5.147 0.877 0.754 小学 5 年生 9 .690 .121 .895 4.938 0.964 0.657 小学 6 年生 10 .739 .100 .919 5.847 0.977 0.655 中学 1 年生 9 .598 .109 .847 4.229 1.105 0.801 中学 2 年生 9 .695 .151 .828 3.863 1.164 0.794 中学 3 年生 8 .819 .130 .810 3.481 1.217 0.822

(8)

は，JCPS 各学年テストの枠組みから，推定値の要約統計量を学年別に Table 6 に示した。数学のテストにおいては，全体的に困難度が負の値を示していた（Table 6）。小学 5 年生を基準集団として尺度化を行ったため，相対的に項目の困難度が低く推定されたと考えられる。これは，項目の平均正答率が高かったこととも整合している。また，数学テストの困難度パラメタは学年とともに高くなる傾向が示された。数学テストでは，小学 1 年生から小学 3 年生までのテスト項目は極めて容易であり，困難度が –3 を下回っていた。ただし，中学 2 年生や 3 年生のテストでは 0.389 や 0.815 といった値を示し，相対的に見て難しい問題が出題されていたと考えられる。国語テストにおいては，困難度の推定値の平均がすべて負の値であり，比較的容易な項目が揃っていた可能性が示唆される（Table 6）。ただし，困難度の推定値の平均値は –2.704 から –0.047 であり，数学テストよりも困難度の幅が小さいテストになっていた。 Figure 1 に数学・国語テストのすべての項目を含めたテスト情報曲線を示した。識別力が大きい項目の影響を検討するために，識別力が 5 以上の国語 1 項目，あるいは 4 以上の国語 2 項目を削除した場合のテスト情報曲線も合わせて示した。数学・国語どちらのテストも，能力値が –3 から –2.5 付近の推定精度が高くなるテストであることが示唆された。さらに，国語テストにおいては，ピークの位置は項目削除前後で大きな変化がないものの，項目削除に伴う情報量の減少がみられた。このことから，国語のテスト情報量曲線のピークの高さには，識別力の推定値が大きい項目の存在が影響をしているものの，テスト全体としては依然として垂直尺度化後の困難度 –3 から –2.5 の区間に多くの情報を持っていると考えられ Table 6 JCPS 数学・国語テストの尺度化後の項目困難度の要約統計量学年数学テスト国語テスト項目数 M SD 項目数 M SD 小学 1 年生 12 –4.505 1.280 18 –2.704 0.576 小学 2 年生 17 –3.259 1.085 12 –2.191 1.210 小学 3 年生 17 –3.260 1.934 16 –2.093 1.153 小学 4 年生 10 –1.879 0.807 13 –2.019 1.372 小学 5 年生 9 –1.290 0.634 13 –1.862 1.251 小学 6 年生 8 –1.196 0.950 13 –1.084 0.780 中学 1 年生 10 –0.256 1.221 13 –0.959 1.208 中学 2 年生 10 0.389 0.725 15 –0.385 1.960 中学 3 年生 10 0.815 0.587 15 –0.047 1.709 Figure 1. JCPS 数学・国語テストのテスト情報曲線。

(9)

る。このことから，数学・国語のどちらのテストの能力値の推定においても，能力値が高い層の解答者の能力値推定よりも，比較的能力値が低い層の解答者の能力を推定することに適したテストであると考えることができる。尺度化されたテストによる学年別の能力値分布数学・国語それぞれの各学年の能力値パラメタの推定値の要約統計量を，JCPS テストとアンカーテスト別に Table 7 に示した。数学能力に関して，学年が上がるにつれて，平均値が上昇する傾向がみられた。ただし，中学 1 年生は小学校 6 年生よりも低い推定値であり，この傾向はアンカーテストにおいてより顕著であった。国語能力に関しても，学年とともに平均値が上昇していることが示された。アンカーテストにおいては，やはり小学 6 年生から中学 1 年生にかけて平均値が低下していた。困難度パラメタの推定値とは異なり，能力値パラメタの推定値は全体的に高いものであった。数学と国語の能力値の相関係数は，JCPS テストで学年別では .394（中学 1 年生）から .555（小学 6 年生）の範囲にあり，全学年では .710 であった。アンカーテストでは .425（小学 1 年生）から .579（小学 6 年生）にあり，全学年では .723 であった。 考　　察 本研究では，JCPS が実施してきた既存の小学 1 年生から中学 3 年生までの数学および国語の学力テストに，垂直尺度化を施すことを目的とした。Haebara 法を用いて，学年別に推定した項目パラメタを尺度化した。項目パラメタの推定値から JCPS の学力テストは困難度が低い傾向が示された。また，能力値パラメタの推定値から，JCPS の学力テストが学力の発達変化を捉えうるテストであることが確認された。数学・国語のどちらの能力においても，小学校から中学校に上がった際に，その平均値が低下していた点は興味深い。こうした現象が生じた理由として，サンプルの一部が小学生 6 年時に中学校受験を経験し，集中的な学習が，一時的に学力を向上させていた可能性が指摘できる。また，JCPS サンプルは私立や国立の小中学校に通学する子どもを含むが，アンカーテストの解答者は，全員が東京都内の区立の小中学校に通学しているため，小学校と中学校の解答者では母集団の属性が異なっていた可能性も否定できない。中学 1 年生に比べ小学 6 年生の高い平均的学力をより顕著に示したのが，アンカーテスト解答者であったことから考えると，私立や国立の中学校に進学した生徒は，アンカーテストには含まれなかったため，中学 1 年生時点での欠測が生じている可能性がある。そのため，ここでは 2 種類のテストに参加した中学生の違いという，クロスセクショナルな選択バイアスを考えることになる。このような場合，アンカーテストに参加する中学生は区立中学に通っているため，「区立ではない中学に在籍するために参加しない確率」が，中学時点で測定された学力および属性に依存するランダムな欠測（missing at random: MAR）であるという仮定が成立するならば，解析上大きな問題にはならない（高井・星野・野間， 2016）。この仮定については，今後の精緻な検討が課題である。本研究の展望として，この尺度化された JCPS 学力テストを用いることにより，我が国の小学 1 年生から中学 3 年生まで学年という枠組みを超えた子どもの潜在的学力を変数とした分析が可能となる。加えて，異なる時期に異なる集団から測定した学力レベルを比較することにより，時代効果やコーホート効果を検証することもできる。そして，同一個人から複数時点，学 Table 7 数学・国語能力の推定値の要約統計量数学国語学年 JCPS アンカー JCPS アンカー M SD M SD M SD M SD 小学 1 年生 –1.288 0.721 –1.172 0.652 –1.184 0.708 –1.248 0.742 小学 2 年生 –1.082 0.770 –1.121 0.746 –0.871 0.792 –1.004 0.792 小学 3 年生 –0.843 0.733 –0.682 0.709 –0.512 0.798 –0.406 0.784 小学 4 年生 –0.353 0.745 –0.249 0.760 –0.316 0.801 –0.232 0.854 小学 5 年生 –0.087 0.827 0.056 0.791 –0.087 0.839 0.056 0.843 小学 6 年生 0.526 0.892 0.719 0.784 0.324 0.900 0.491 0.909 中学 1 年生 0.491 0.958 0.348 0.912 0.451 0.800 0.245 0.835 中学 2 年生 1.100 1.013 1.122 1.058 0.533 0.857 0.482 0.815 中学 3 年生 1.422 0.978 1.643 0.912 1.080 0.739 0.888 0.738

(10)

力と別の変数を繰り返し測定したパネルデータを，動態的に分析することにより，今まで明らかにすることのできなかった子どもの学力を規定する要因の特定が可能となる。これらの新しい知見は，社会科学や行動科学の諸領域において，飛躍的成果をもたらすことを期待させる。とはいえ，推定された能力値の平均は，テスト情報関数で最も推定精度がよい能力値の範囲から大きくずれているため，本テストの利用においては，能力の高い解答者層の能力の評価には慎重になる必要がある。今後，既存の問題のタイプと正答率を吟味し，学習指導要領の範囲内という制限の中で，高い応用力を要する，より困難度の高い新しい項目を含めたテストを構成することによって，能力値の推定精度を向上させる工夫が必要であろう。また，等質性を高めるために異質な項目を精査して，修正する必要もあると考えられる。加えて，数学能力値と国語能力値の学年を超えて安定した相関関係は，両科目それぞれの一次元性を支持すると共に，2 科目に共通する一般的能力の存在を示唆している。このことは，妥当性の外的側面の証拠の 1 つとして考えられる。同時に，各テストは学習指導要領を踏まえた基礎的学力の一側面を反映したものであり，内容的側面の証拠があると考えられる。さらに，各テストが高い一次元性と信頼性を示したことは，構造的側面での証拠になり得る。また，JCPS テストとアンカーテストという異なる方法のテストにみられた一貫性は，一般化可能性の側面からの証拠の 1 つと考えることもできる。今後は，本研究で検討しきれなかった解答プロセス面での証拠や，より詳細な他の変数との関係に関する証拠，そしてテスト実施の結果に関した証拠を検討し，尺度化した一次元の能力がどのような能力を反映したものなのか，探究していくことが必要であろう。 利益相反の開示について なお，本論文に関して，開示すべき利益相反関連事項はない。 引用文献 赤林英夫・直井道生・敷島千鶴（編）（2016）．学力・心理・家庭環境の経済分析―全国小中学生の追跡調査から見えてきたもの―　有斐閣

Asparouhov, T., & Muthén, B. (2016). IRT in Mplus.

Technical appendix. Los Angeles, CA: Muthén &

Muthén. Retrieved from https://www.statmodel.com/ download/MplusIRT.pdf (May 22, 2018)

Bradbury, B., Corak, M., Waldfogel, J., & Washbrook, E. (2015). Too many children left behind: The U.S.

achievement gap in comparative perspective. New

York: Russell Sage Foundation.

von Davier, A. A. (2011). Statistical models for test

equat-ing, scalequat-ing, and linking. New York: Springer.

Dorans, N. J., Pommerich, M., & Holland, P. W. (Eds.). (2007). Linking and aligning scores and scales. New York: Springer-Verlag.

Embretson, S. E., & Reise, S. P. (2000). Item response

theo-ry for psychologists. Mahwah, NJ: Erlbaum.

Ermisch, J., Jantti, M., & Smeeding, T. (2011). From

par-ents to children: The intergenerational transmission of advantage. New York: Russell Sage Foundation.

藤森進（1991）．小学校 3 年生から 5 年生の算数学力 尺度の作成　心理学研究， 62, 82–87. https://doi. org/10.4992/jjpsy.62.82

Haebara, T. (1980). Equating logistic ability scales by a weighted least squares method. Japanese Psychological

Research, 22, 144–149. https://doi.org/10.4992/psy-cholres1954.22.144 樋口美雄・宮内環・McKenzie, C. R.（編）（2010）．貧困のダイナミズム―日本の税社会保障・雇用政策と家計行動―　慶應義塾大学出版会平井洋子（2016）．妥当性理論の歴史的変遷と心理学研究への適用に関する考察―Standards を中心に―　首都大学東京人文学報， 512, 15–26. 石川善樹・伊藤寛武・植村理・田端紳・外山理沙子・中室牧子…山口一大（2017）．子どもの能力を計測するための学力テストの現在と展望―エビデンスに基づく教育政策に向けて―　RIETI Policy Discussion Paper Series, 17, 1–56. Retrieved from https://www.rieti.go.jp/jp/publications/pdp/17p010.pdf （2018 年 5 月 22 日）

Karkee, T., Lewis, D. M., Hoskens, M., Yao, L., & Haug, C. (2003). Separate versus concurrent calibration meth-ods in vertical scaling. Paper presented at the Annual

Meeting of the National Council on Measurement in Education (Chicago, IL). Retrieved from http://files.

eric.ed.gov/fulltext/ED478167.pdf (May 22, 2018) 加藤健太郎・山田剛・川端一光（2014）．R による項目反応理論　オーム社喜岡恵子（1991）．項目反応理論に基づく計算課題の 難易度の推定　教育心理学研究， 39, 204–213. https://doi.org/10.5926/jjep1953.39.2_204

Kolen, M. J., & Brennan, R. L. (2014). Test equating,

scal-ing, and linking: Method and practice (3rd ed.). New

York: Springer-Verlag. https://doi.org/10.1007/978-1-4939-0317-7

Lee, W., & Ban, J. (2010). A comparison of IRT linking procedures. Applied Measurement in Education, 23, 23–48. https://doi.org/10.1080/08957340903423537 Magnuson, K. A., Ruhm, C., & Waldfogel, J. (2007). Does

prekindergarten improve school preparation and per-formance? Economics of Education Review, 26, 33– 51. https://doi.org/10.1016/j.econedurev.2005.09.008 Martin, M. O., Mullis, I. V., & Foy, P. (2008). TIMSS 2007

in-ternational mathematics report. Findings from IEA’s Trends in International Mathematics and Science Study at the Fourth and Eighth Grades. Chestnut Hill, MA:

(11)

College. Retrieved from http://timss.bc.edu/TIMSS2007/ PDF/TIMSS2007_InternationalMathematicsReport.pdf (May 22, 2018)

Messick, S. (1995). Validity of psychological assessment.

American Psychologist, 50, 741–749.

Muthén, L. K., & Muthén, B. O. (1998–2017). Mplus user’s

guide (8th ed.). Los Angeles, CA: Muthén & Muthén.

OECD (2013). PISA 2012 results: Excellence through

equi-ty: Giving every student the chance to succeed (Vol.

II). Paris: OECD Publishing. http://dx.doi. org/10.1787/9789264201132-en

OECD (2017). Scaling PISA data. In OECD (Ed.), PISA

2015 Technical report (pp. 127–185). Retrieved from https://www.oecd.org/pisa/sitedocument/PISA-2015-Technical-Report-Chapter-9-Scaling-PISA-Data.pdf (May 22, 2018)

Partchev, I., Maris, M., & Hattori, T. (2017). irtoys: A

col-lection of functions related to item response theory (IRT). R package version 0.2.1.

芝祐順・野口裕之・柴山直（1985）．語彙理解力の発達に関する追跡的研究　東京大学教育学部紀 要， 25, 27–40. 敷島千鶴・直井道生・山下絢・赤林英夫（2011）． JHPS お子様に関する特別調査―学力テストの信頼性と妥当性の検討―　樋口美雄・宮内環・ C. R. McKenzie・慶應義塾大学パネルデータ設計・解析センター（編）教育・健康と貧困のダイナミズム―所得格差に与える税社会保障制度の効果 ―（pp. 23–48）　慶應義塾大学出版会

Stocking, M. L., & Lord, F. M. (1983). Developing a com-mon metric in item response theory. Applied

Psychological Measurement, 7, 201–210. https://doi. org/10.1177/014662168300700208

高井啓二・星野崇宏・野間久史（2016）．欠測データの統計科学―医学と社会科学への応用― 岩波書店

Yamamoto, K., & Mazzeo, J. (1992). Item response theory scale linking in NAEP. Journal of Educational

Statistics, 17, 155–173.

小学1 年生から中学3 年生を対象とした学力テストの垂直尺度化