• 検索結果がありません。

小学1 年生から中学3 年生を対象とした学力テストの垂直尺度化

N/A
N/A
Protected

Academic year: 2021

シェア "小学1 年生から中学3 年生を対象とした学力テストの垂直尺度化"

Copied!
11
0
0

読み込み中.... (全文を見る)

全文

(1)

項目反応理論(item response theory: 以下,IRT とする ; Embretson & Reise, 2000)は,テスト項目の特徴を示 すパラメタと能力値などの潜在変数を分離することに より,異なったテスト項目を受験した集団間での受験 者の能力値の比較を可能とした。例えば,国際教育到 達度評価学会の「国際数学・理科教育動向調査(Trends in International Mathematics and Science Study: 以 下, TIMSS とする ; Martin, Mullis, & Foy, 2008)や,経済 協力開発機構(OECD)の「国際的な生徒の学習到達 度調査(Programme for International Student Assessment: 以下,PISA とする)は,IRT を用いることにより, 異なったテスト項目を受験した国の間の比較や,同じ 国の中での学力の経年比較ができるように計画されて い る(OECD, 2017)。 ア メ リ カ の「 全 米 学 力 調 査 (National Assessment of Educational Progress: NAEP)」

においても,IRT 分析の導入が,全米の集団間や集団

小学 1 年生から中学 3 年生を対象とした

学力テストの垂直尺度化

1, 2, 3

山口 一大

4 日本学術振興会(法政大学) 

敷島 千鶴

 帝京大学

星野 崇宏

 

繁桝 算男

 

赤林 英夫

 慶應義塾大学

Vertical scaling of academic ability tests for elementary school first year students through junior high school third year students

Kazuhiro Yamaguchi (Japan Society for the Promotion of Science, Hosei University), Chizuru Shikishima (Teikyo University), Takahiro Hoshino, Kazuo Shigemasu, and Hideo Akabayashi (Keio University) This study aimed to vertically scale the mathematics and Japanese academic ability tests of the Japan Child Panel Survey (JCPS) for elementary school first year students through junior high school third year students (grades 1-9 in the U.S.). We used an anchoring test design based on the item response theory. Two test samples were used: JCPS test participants (n = 3,916) and anchoring test participants (n = 7,210). After estimating the item parameters with a two-parameter logistic item response model, the equating coefficients were estimated with the Haebara method. The tests were scaled for elementary school fifth year (grade 5) in the end. The number of items included in the final analyses was 94 for mathematics and 108 for Japanese language studies. The mean level of estimated individual latent academic ability progressed according to grade level. Therefore, the JCPS tests appear to be able to capture the developmental changes of students from elementary school to junior high school. Future research should examine the relationship between children’s academic development and various factors, such as psychological traits or family environment, using the JCPS research data.

Key words: vertical scaling, Japan Child Panel Survey, item response theory.

The Japanese Journal of Psychology

J-STAGE Advanced published date: July 10, 2019

Correspondence concerning this article should be sent to: Kazuhiro Yamaguchi, Japan Society for the Promotion of Science (Hosei University), Aiharacho, Machida Tokyo 194-0298, Japan. (E-mail: kazuhiro.yamaguchi.57@hosei.ac.jp) 1 本研究は,日本学術振興会科学研究費補助金(基盤研究 S, 課題番号 16H06323, 研究代表者 赤林 英夫および,特別研究員奨 励費,課題番号 18J01312,研究代表者 山口 一大)の助成を受けた。 2 本研究で実施された調査は,慶應義塾大学経済研究所研究倫 理審査委員会の承認を受けて行われた (受理番号 15001, 17005)。 3 共通尺度テスト項目及びパラメタ等の情報は,慶應義塾大 学経済研究所こどもの機会均等研究センターを通じ,一定の条 件の下で利用可能とする予定である。 4 アンカーテストの実施に協力をいただいた港区・杉並区教育 委員会と同区の小中学校に心から感謝します。

(2)

内 に お け る 学 力 の 差 異 の 検 討 を 可 能 に し て い る (Yamamoto & Mazzeo, 1992)。

こうした学力の比較を可能にする操作はリンキング や等化(von Davier, 2011; Dorans, Pommerich, & Holland, 2007; Kolen & Brennan, 2014)と呼ばれる。IRT モデル に依拠した 1 次元尺度の等化係数の推定方法として は,線形変換に基づく方法が主流であり,Mean-Mean 法や Mean-Sigma 法,項目特性曲線に基づく Haebara 法(Haebara, 1980) や,Stocking-Lord 法(Stocking & Lord, 1983)が用いられることが多い。 個人の学力の発達変化を記述する際には,テストの 難易度が個人の学力の向上に伴い徐々に高くなること が一般的であり,こうした状況に適した尺度構成の方 法は垂直尺度化と呼ばれる。垂直尺度化は,異なった 難易度をもつ 2 つ以上の尺度を同一の次元に尺度化す る方法である。また,同程度の難易度をもつ 2 つ以上 の尺度を同一の次元の尺度に変換し,潜在特性を比較 可能にする方法を等化とよぶ。 個人の特性のみならず,家庭環境や学校の変数が個 人の学力形成にどのように関係し,それを通じて,社 会経済的不平等はどのようなメカニズムにより世代間 で連関するのかという関心は,社会科学や行動科学の 諸領域においてかねてより高かった(赤林・直井・敷島, 2016)。特に近年,PISA・TIMSS など,異なる国の間 で等化された学力尺度に基づき,家庭背景(所得水準 や親の学歴など)と学力の連関の程度を国際比較する ことが可能になったことから(OECD, 2013),その背 景にある社会的・制度的要因に関する研究が爆発的に 進んでいる(Ermisch, Jantti, & Smeeding, 2011)。同時に, 次のステップとして,家庭背景と学力の連関が子ども のどの発達段階で顕著になるのか,国ごとにその背景 要因は共通しているのかが,関心を集めるようになっ てきた(Bradbury, Corak, Waldfogel, & Washbrook, 2015)。

学力の発達変化と,それを通じた世代間の社会経済 的不平等の連鎖を追うためには,垂直尺度化されたテ ストや心理尺度が必要不可欠な道具となる。その理由 の第一は,同一の尺度で計測された学力があることで, ある教育・社会制度が子どもの学力に与える効果を, 子どもの発達段階によらず統一的に推計できることで ある。理由の第二は,学力が子どもの将来のアウトカ ム(所得,就業,健康など)に与える影響を,学力が 計測された学年に依存せずに推計できることである。 そして第三に,それらを通じ,社会経済的不平等が学 力や心理を通じて世代間で連鎖するメカニズムを統一 的尺度で表現し,教育政策等の費用効果分析に進むこ とができることがある。 そこで,子どもを対象としたパネル調査・コーホー ト調査の開発が準国家的に進んでいる欧米諸国を中心 に,学力の分布を同じ尺度で追跡できるようにする努 力 が 続 け ら れ て き た。 例 え ば 米 国 で は,National

Education Longitudinal Study of 1988 や Early Childhood Longitudinal Study, カ ナ ダ で は National Longitudinal Survey for Children and Youth, ド イ ツ で は National Educational Panel Study が,子どもの追跡調査を大規 模に展開する過程で,垂直尺度化されたテストスコア を構築している。これらのデータに基づき,調査に参 加する世帯の子どもの学力を複数回測定し,IRT 分析 を施すことにより,例えば,幼児教育と子どもの学力 の間の因果関係を同定する試みが行われてきている (Magnuson, Ruhm, & Waldfogel, 2007)。

国内で垂直尺度化された尺度としては,芝・野口・ 柴山(1985)の語彙理解力尺度(小学 1 年生から中学 3 年生),藤森(1991)の算数尺度 (小学 3 年生から 5 年生),喜岡(1991)の計算課題(小学 1 年生から 6 年生)などがあるが,そこで推定された学力と,その 子どもの心理,あるいは家庭や学校の教育環境との関 連は報告されていない。より最近では,埼玉県学力調 査において,IRT に基づき尺度化された学力テストが 導入された(石川他, 2017)。この調査は埼玉県全域 の小中学校を対象にしており,小学 3 年生から中学 3 年生の国語と数学,英語(中学 2 年生以上)の大規模 データが存在する。しかし,埼玉県学力調査は 2015 年に始まった学校調査であり,現在のところ,発達変 化の詳細を追えるほどのデータは蓄積されていない。 また,詳細な子どもの家庭背景との連結もなされてい ない。 このように我が国にも,異なるテスト問題における 異なる学年間の学力比較を可能としたテストは存在す るものの,個人の特性変数・家庭環境や学校の変数と 学力変化を多変量分析するための調査デザインはいま だ十分に整備されているとは言い難い。実際,2001 年に開始された 21 世紀出生児縦断調査は我が国を代 表する大規模コーホート調査といえるが,学力の計測 は含まれていない。 我が国で,こうした個人の特性変数・家庭環境や学 校の変数を含んだパネル調査として,日本子どもパネ ル調査(Japan Child Panel Survey: 以下,JCPS とする ; 赤林他,2016)が存在する。JCPS では,全国の小中 学生とその親を対象とした追跡調査を継続的に施行し てきている。JCPS の本体となる日本家計パネル調査 (Japan Household Panel Survey: 以下,JHPS とする)は,

全国に居住する成人期男女が構成する母集団より,層 化 2 段無作為抽出された約 10,000 名とその配偶者を 対象とし,対象者の世帯を長期間フォローアップする ことにより,我が国の経済行動の動的変化の解明を目 指す家計調査である(樋口・宮内・McKenzie, 2010)。 JCPS は JHPS の付帯調査として,JHPS 参加者の中で 小学校あるいは中学校に就学する子どもをもつ者(親) とその子どもを対象とし,2010 年にスタートした親 子パネル調査である(赤林他, 2016)。

(3)

このように JCPS は標本調査ではあるが,代表性の 高いサンプルを得ており,さらに小学 1 年生から中学 3 年生まで繰り返し参加する個人データで構成される ことから,個人の学力の発達変化の解明に適した調査 デザインを有しているといえる。子どもの調査には小 学 1 年生から中学 3 年生まで学年別の算数・数学(以 下,単純化のため数学とする)と国語の学力テストが 導入されており(敷島・直井・山下・赤林, 2011), これまでに延べ 4,000 名に近い学力データが蓄積され ている。しかしながら,それらの学力データは垂直尺 度化されていない。それゆえ,テスト項目が異なる学 年間で学力を厳密に比較することはできず,発達変化 を精緻に検討することもできなかった。 小学生から中学生の義務教育期における子どもの学 力の変化を的確に捉え,豊富な家庭背景のパネル情報 とリンクすることができれば,子どものアウトカムと 家庭との関連を動的に分析することが可能となる。そ のためには,まず,小学 1 年生から中学 3 年生までの 学力を測定する共通尺度の作成が求められる。本研究 は,これまで JCPS で蓄積してきた学力データを学年 を超えて一次元化するためにも,JCPS で用いられて きた既存の数学と国語の学力テスト問題を垂直尺度化 し,小学 1 年生から中学 3 年生までの 9 学年にわたる 一次元尺度を作成することを目的とする。 さらに,作成した垂直尺度を用いて,個々人の数学・ 国語の潜在的能力を推定し,その推定値が集団として は学年とともに向上しているかを確認する。加えて, 数学と国語の能力の相関関係(敷島他, 2011)も検討 する。そうすることにより,近年の妥当性の概念(平 井, 2016; Messick, 1995)が扱う様々な側面の証拠集 めの観点から,本研究で作成する尺度の妥当性につい て議論を行う。 方  法 データ収集方法 データ収集デザイン 垂直尺度化を行うためには, 2 つ以上のテストに対して,異なった問題項目に同じ 受験者が解答したり,異なった受験者が同じテスト項 目に解答するようにデータを収集する必要がある。よ り具体的には,共通受験者計画,共通項目計画,アン カーテスト計画の 3 つのデータ収集法が一般的である (加藤・山田・川端, 2014)。 本研究では,既に作成されている 9 学年分の JCPS の数学と国語のテストを尺度化するため,アンカーテ スト計画を採用し,異なった学年向けに作成されたテ ストから複数の項目を抜き出して新たにアンカーテス トを作成した。作成に際しては,敷島他(2011)で開 発され,2010 年から 2016 年までの JCPS 学力テスト において収集されてきたテストデータをもとに,隣接 する学年との共通項目が,各学年のテストの半分程度 になるよう項目を抽出した。その際,極端に高い正答 率の項目を避けつつ,各学年において未習の内容を出 題しないように留意した。 また,テストの採点は正答・誤答の 2 値として,項 目間に論理的に依存関係がある場合には,依存関係に ある全ての項目に正答している場合にのみ正答とし, 分析上は 1 つの項目として扱った。 テスト解答者  本研究では 2 種類のサンプルのテストデータを用い た。1 つは,JCPS が実施してきた学力テストに解答 した小中学生,そしてもう 1 つは,アンカーテストに 解答した小中学生である。 JCPS では,JHPS に参加する一部あるいはすべての 義務教育段階である小学校あるいは中学校に就学する 子どものいる対象者に対し,任意の調査協力を呼びか け,それに応じた親子を対象としている。小学 1 年生 か ら 中 学 3 年 生 の 子 ど も 個 人 を 単 位 と し,2010・ 2011・2012・2013・2014・2016 年に,親と子どもが それぞれの調査票に対し,調査員が出向き手渡し後, あるいは郵送後,各家庭において解答した。数学と国 語の学力テストは,各学年別に一貫して同一の問題 セットで実施し,子どもの調査票に含めた。実施にあ たっては,親,あるいは高学年では子ども本人が 20 分間計測し(数学と国語の学力テストに加えて 4 問の 推論課題を含む),子どもが時間内にひとりで解答す ること,そして,解答した子どもの調査票は,速やか に子ども自身が同封されたシールで 4 箇所を封緘した 後,親に渡すことを求めた。本研究では,この学力テ ストに参加したのべ 3,916 名(2,061 個人)の解答を 分析に用いた(Table 1)。 Table 1 各調査への参加人数 テストの種類 小学 中学 合計 1 年 2 年 3 年 4 年 5 年 6 年 1 年 2 年 3 年 JCPS 376 401 466 427 489 449 454 437 417 3,916 アンカー 818 832 750 812 750 771 864 874 739 7,210 合計 1,194 1,233 1,216 1,239 1,239 1,220 1,318 1,311 1,156 11,126

(4)

アンカーテストの解答者は,教育委員会と学校長が 本研究への協力に同意した都内 2 区の区立小学校の 1 年生から 6 年生,ならびに区立中学校の 1 年生から 3 年生である。調査は 2017 年に実施し,各学年別のテ スト用紙を,学校へ生徒数分送付した。担任教員が各 学級においてインストラクションを読み上げ,調査票 を配布し,テストを実施した後,各学校より,生徒が 無記名で解答した調査票が返送された。解答時間は, 小学生が 15 分間,中学生が 20 分間であった。本研究 では,この学校調査に参加した 7,210 名の解答を分析 に用いた(Table 1)。 JCPS テストおよびアンカーテストは,どちらも解 答者が当該学年の学習指導要領範囲の学習を終了した と考えられる 2 月末以降に行われた。テストの採点は, いずれも,各調査票につき 2 名の研究者あるいは研究 補助者が独立に,一貫した採点基準に基づき行った。 2 名の採点結果が不一致のケースは,個票に戻り,複 数名で正誤の再検討を行った。また,テストの後部に 無解答が多いという傾向はみられなかったため,制限 時間内で解答を終了することができず誤答となった可 能性について考慮することは行わなかった。 項目の構造 JCPS の数学の学力テストは,数概念の理解を問う 問題,図表やグラフを読み取る問題,計算問題,数や 図形操作に関する文章問題から構成されている。国語 の学力テストは,漢字の読み書き問題,語彙・文法・ 表現を問う問題から構成されている。数学・国語とも, 小学 1 年生から中学 3 年生まで,学年ごとに学習指導 要領に即した異なる問題群が用意されている。小学 1 年生から小学 3 年生までは,学習ドリル製作会社に要 望を伝え,オリジナル問題の作成を依頼した。小学 4 年生から中学 3 年生までは,都道府県で独自に実施さ れた都道府県別学力テストから,適切と思われる問題 を抽出して利用した。各学年のテストの信頼性と妥当 性は,敷島他(2011)において確認されている。 小学 1 年生から中学 3 年生まで合わせた数学の項目 数は 105,国語の項目数は 116 であった5。このうち, 小学 4 年生から小学 6 年生の数学のテストに該当する 項目群のみを抜粋し,その構造を Table 2 に掲載した。 例えば,JCPS 小学 5 年生のテスト 9 項目のうち 2 項 目は,JCPS 小学 4 年生との,別の 2 項目は JCPS 小 学 6 年生との共通問題である。そして,残り 5 項目の うち 4 項目がアンカーテストに抽出され,小学 5 年生 と 6 年生に実施された。他の学年も同様に,JCPS テ ストで既に学年間に重複のある項目以外から項目を抽 出して,隣接する学年で共通項目となるよう,各学年 5 数学,国語のテスト構造は osf.io/kxqd5 に示した。 のアンカーテストを構成した。 分析方法 使用モデル 共通尺度作成には 2 パラメタロジス ティック(2PL)モデルを用いた。潜在変数モデルを 扱うことができる汎用的な統計ソフト Mplus ver. 8 (Asparouhov, & Muthén, 2016; Muthén & Muthén, 1998–

2017)を用いてパラメタの推定を行った。 尺度化方法 尺度化する集団が多く,能力値パラメ タの範囲が広くなる可能性があることを鑑み,Kolen & Brennan(2014)の推奨に従って学年ごとに項目パ ラメタを推定した。各学年での推定尺度値の平均を 0, 分散を 1 に固定し,Mplus の周辺最尤推定法により 2PL モデルの項目パラメタの推定値を得た。また,極 端に識別力パラメタの推定値が高過ぎる(5 以上の) 項目は推定に問題がある可能性があるため分析から除 外し,再度パラメタ推定を行った。数学では 3 項目, 国語では 2 項目を削除し,最終的に,数学 94 項目, 国語 108 項目を分析に利用した。隣接 2 版間の尺度化 には等化係数を伴う方法を選択し,Haebara 法により 等化係数の推定を行った。垂直尺度化においては, Karkee, Lewis, Hoskens, Yao, & Haug(2003)が個別推 定による方法を推奨している。さらに,等化係数の推 定方法について,Lee & Ban(2010)は,項目特性曲 線に基づく方法の比較を比較し,Stocking-Lord 法と Haebara 法には推定精度にほとんど差がないものの, やや Haebara 法の方法のほうが尺度化に伴う誤差が小 さいことを報告している。こうした点に鑑みて,本研 究では Haebara 法が最適であると判断した。Haebara 法による等化係数の推定は,R パッケージの irtoys (Partchev, Maris, & Hattori, 2017)の sca 関数を用いて

実行した。 尺度化の際には,小学 5 年生を基準集団とした。す なわち,最終的な尺度は,小学 5 年生尺度の平均を原 点 0.0 とし単位が 1 となるように尺度化を行った。具 体的手続きとしては,小学 2 年生テストを基準に小学 1 年生テストを垂直尺度化し,小学 1・2 年生共通尺 度を作成した。次に,小学 3 年生テストを基準に小学 1・2 年生共通尺度を垂直尺度化するという作業を繰 り返し,小学 1 年生から小学 5 年生までの共通尺度を 作成した。小学 6 年生以上については,まず,中学 2 年生テストを基準に中学 3 年生テストを垂直尺度化 し,中学 2・3 年生共通尺度を作成した。さらに,中 学 1 年生テストを基準に,中学 2・3 年生共通尺度を 垂直尺度化するという手続きを繰り返し,小学 6 年生 から中学 3 年生までの共通尺度を作成した。最後に, 小学 1 年生から小学 5 年生の共通尺度を基準に小学 6 年生から中学 3 年生までの共通尺度を垂直尺度化し, 最終的な共通尺度を得た。Table 3 に,どの尺度から どの尺度への垂直尺度化を実行したかを示した。本研

(5)

究の手続きにおいては,小学 5 年生の項目パラメタは 変換されておらず,尺度の基準になっているため,目 的とした共通尺度の原点は小学 5 年生の能力の平均と 考えられる。 等化係数の推定値を等化元と等化先ごとに Table 3 に示した。数学テストの等化係数の傾きの推定値は 0.839 から 1.464,切片の推定値は –0.574 から 0.797 であった。国語テストの等化係数の傾きの推定値は 0.851 から 1.142,切片の推定値は –0.601 から 0.485 であった。いずれのテストにおいても,傾きの推定値 が極端であったり,0 に近過ぎる値などはみられな かった。切片についても,極端な推定値はみられなかっ た。 能力値パラメタの推定は,Haebara 法によって推定 された等化係数を用いて垂直尺度化を行った後の項目 パラメタを全て固定し,Mplus の推定尺度得点の推定 方法である期待事後推定(EAP 推定)を用いて実行 した。 Table 2 数学テスト問題構造(小学 4・5・6 年生) 問題概要 小学 4 年生 小学 5 年生 小学 6 年生 JCPS アンカー JCPS アンカー JCPS アンカー 同じ段の掛け算の大小 〇 引き算(文章題) 〇 3 桁の引き算の筆算 〇 棒グラフの読み取り 1 〇 棒グラフの読み取り 2 〇 3 桁の引き算 〇 〇 2 桁の掛け算 〇 余りのある割り算 〇 〇 100 倍の計算 〇 小数点のある引き算(選択式) 〇 〇 〇 億の倍数(選択式) 〇 〇 〇 mm を cm に変換(選択式) 〇 〇 〇 億と万の計算 〇 〇 余りのある割り算(文章題) 〇 〇 〇 余りのある割り算(選択式) 〇 〇 〇 整数から分数の引き算 〇 〇 足し算と掛け算 〇 〇 〇 1/100 の計算 〇 〇 〇 100 倍する前の数(選択式) 〇 〇 〇 分数と整数の大小 〇 〇 小数の掛け算(文章題) 〇 〇 〇 小数の余りのある割り算(選択式) 〇 分数の足し算 〇 分数の割り算 1 〇 整数と小数の余りのある割り算 〇 〇 分数の大小(選択式) 〇 分数と小数の大小 〇 〇 〇 約数の列挙 〇 〇 %の計算(文章題) 〇 〇 割り算(文章題) 〇 〇 分数の割り算 2 〇

(6)

結  果 記述統計量 項目削除の手続きを経て最終的に使用された数学テ ストの項目の正答率の記述統計量と,各学年のテスト 項目群から構成されたテトラコリック相関行列から求 めた Cronbach α 係数および相関係数行列の固有値を, テストの種類と学年別に示した(Table 4)。JCPS テス トでは 9 から 18 項目が含まれ,アンカーテストでは 8 から 13 項目が含まれていた。JCPS テストでは,小 学 1 年生から 3 年生の平均正答率は .85 を上回ってお り,比較的高い値であった。しかし,小学 3 年生から 6 年生は .700 から .766,中学生は .639 から .655 であり, 学年が上がるにつれて,全体的に正答率が低下してい く傾向がみられた。アンカーテストにおいては,小学 1 年生から 3 年生では .828 から .877,小学 4 年生から 6 年生では .779 から .795,中学生では .596 から .736 の正答率を示した。JCPS とアンカーテストの正答率 の傾向は類似していたものの,中学生では若干異なっ ていた。 各学年の数学のテスト項目の Cronbach α 係数は, JCPS テストで小学 4 年生の .793 から中学 2 年生の .931 のレンジにあり,全学年の平均は .869 であった。ア ンカーテストでは小学 1 年生の .781 から中学 2 年生 の .946 のレンジにあり,全学年の平均は .872 と,ど ちらも高い内的一貫性が確認された(Table 4)。 国語のテストの正答率の記述統計量,Cronbach α 係 数および固有値は Table 5 に示した。JCPS テストでは 12 から 18 項目が含まれ,アンカーテストでは 8 から 14 項目が含まれていた。数学テストとは異なり,学 年と正答率の関係は明確にはみられず,JCPS 中学 2 年生のテストが .643 であったものの,それ以外の JCPS テストでは .700 以上であった。国語のアンカー テストでは,中学 1 年生のテストの平均正答率が .598 であり,最も低かった。また,アンカーテストにおい て JCPS テストよりも若干低い傾向がみられた。アン カーテストでは,JCPS テストにおいて正答率が高過 ぎていた項目は除外されたが,隣接する学年と重複さ せる項目を選定するにあたり,解答者の学年の学習指 導要領範囲を超えた設問となることを避けるために, 項目の多くが下の学年との重複となり,結果として困 難度を低めたことが考えられる。 各学年の国語のテスト項目の Cronbach α 係数の値 はやはり大きく,JCPS テストでは中学 3 年生の .846 から小学 1 年生の .924 のレンジにあり,全学年の平 均は .886,アンカーテストでは中学 3 年生の .810 か ら小学 6 年生の .919 のレンジにあり,全学年の平均 は .877 であった(Table 5)。 さらに,テスト別,学年別に,数学と国語のテスト の第 1,第 2,第 3 固有値の大きさを示し,テストの 次元性を確認した(Table 4, 5)。どのテストにおいても, 第 1 から第 2 固有値の間の減衰が最も大きく,第 2 と 第 3 固有値の間の減衰は相対的に小さいことが示され た。このことから,本研究で使用した各テストは一次 元であると判断した。 共通尺度化された項目パラメタ 最終的に得られた数学テスト各項目の識別力パラメ タの推定値は,0.301 から 3.474 のレンジにあり,平 均値は 1.378(SD = 0.625)であった。国語テスト各項 目の識別力パラメタは,0.378 から 5.233 にあり,平 均値は 1.745(SD = 0.773)であった。小学 1 年生の国 語に,4 を超える識別力の高い 2 項目が含まれたもの の,比較的安定した推定ができたと考えられる。 数学・国語テスト各項目の困難度パラメタについて Table 3 数学・国語テストの等化係数の推定値 元の尺度 等化先 新尺度 数学テストの 等化係数 国語テストの 等化係数 傾き 切片 傾き 切片 小学 1 年生テスト 小学 2 年生テスト 小学 1・2 年生尺度 1.464 0.125 0.888 –0.315 小学 1・2 年生尺度 小学 3 年生テスト 小学 1 ─ 3 年生尺度 1.079 –0.378 1.058 –0.601 小学 1 ─ 3 年生尺度 小学 4 年生テスト 小学 1 ─ 4 年生尺度 0.839 –0.574 0.851 –0.218 小学 1 ─ 4 年生尺度 小学 5 年生テスト 小学 1 ─ 5 年生尺度 0.978 –0.264 0.984 –0.274 中学 3 年生テスト 中学 2 年生テスト 中学 2・3 年生尺度 0.851 0.303 0.890 0.485 中学 2・3 年生尺度 中学 1 年生テスト 中学 1 ─ 3 年生尺度 0.993 0.451 1.088 0.233 中学 1 ─ 3 年生尺度 小学 6 年生テスト 小学 6 年生・中学 1 ─3 年生尺度 1.062 –0.186 0.795 –0.178 小学 6 年生・中学 1 ─ 3 年生尺度 小学 1 ─ 5 年生尺度 共通尺度 1.379 0.797 1.142 0.478

(7)

Table 4 数学テストの正答率の要約統計量,Cronbach α および固有値 テストの種類 学年 項目数 M SD Cronbach α 第 1 固有値 第 2 固有値 第 3 固有値 JCPS 小学 1 年生 14 .884 .094 .815 4.254 1.903 1.857 小学 2 年生 17 .890 .096 .877 6.072 2.708 1.591 小学 3 年生 18 .865 .148 .876 6.545 1.810 1.606 小学 4 年生 10 .766 .147 .793 3.533 1.246 1.018 小学 5 年生 9 .749 .112 .855 4.226 0.932 0.794 小学 6 年生 10 .700 .198 .884 4.973 0.928 0.846 中学 1 年生 10 .649 .162 .872 4.784 1.109 0.876 中学 2 年生 10 .655 .139 .931 6.179 0.788 0.716 中学 3 年生 10 .639 .124 .922 5.902 0.846 0.759 アンカー 小学 1 年生 10 .877 .094 .781 3.426 1.204 1.130 小学 2 年生 13 .849 .121 .849 4.843 1.259 1.090 小学 3 年生 13 .828 .149 .877 5.450 1.484 1.256 小学 4 年生 11 .794 .127 .841 4.385 1.053 1.029 小学 5 年生 10 .795 .098 .852 4.328 0.922 0.798 小学 6 年生 10 .779 .179 .899 5.311 1.049 0.777 中学 1 年生 9 .596 .235 .883 4.753 0.757 0.695 中学 2 年生 11 .681 .106 .946 7.183 0.813 0.640 中学 3 年生 8 .736 .068 .918 5.104 0.783 0.622 Table 5 国語テストの正答率の要約統計量,Cronbach α および固有値 テストの種類 学年 項目数 M SD Cronbach α 第 1 固有値 第 2 固有値 第 3 固有値 JCPS 小学 1 年生 18 .888 .110 .924 8.062 1.906 1.662 小学 2 年生 12 .783 .171 .890 5.546 1.553 1.118 小学 3 年生 18 .828 .147 .917 7.633 2.098 1.395 小学 4 年生 13 .790 .156 .876 5.444 1.556 1.366 小学 5 年生 13 .808 .168 .894 5.929 1.308 1.145 小学 6 年生 13 .775 .094 .896 5.987 1.458 1.047 中学 1 年生 13 .767 .157 .866 5.252 1.533 1.146 中学 2 年生 15 .643 .236 .865 5.613 1.767 1.227 中学 3 年生 15 .718 .232 .846 5.029 1.420 1.394 アンカー 小学 1 年生 14 .861 .127 .908 6.571 1.736 0.975 小学 2 年生 12 .763 .215 .911 6.150 1.077 0.788 小学 3 年生 12 .757 .156 .881 5.272 1.153 0.940 小学 4 年生 10 .681 .104 .892 5.147 0.877 0.754 小学 5 年生 9 .690 .121 .895 4.938 0.964 0.657 小学 6 年生 10 .739 .100 .919 5.847 0.977 0.655 中学 1 年生 9 .598 .109 .847 4.229 1.105 0.801 中学 2 年生 9 .695 .151 .828 3.863 1.164 0.794 中学 3 年生 8 .819 .130 .810 3.481 1.217 0.822

(8)

は,JCPS 各学年テストの枠組みから,推定値の要約 統計量を学年別に Table 6 に示した。数学のテストに おいては,全体的に困難度が負の値を示していた (Table 6)。小学 5 年生を基準集団として尺度化を行っ たため,相対的に項目の困難度が低く推定されたと考 えられる。これは,項目の平均正答率が高かったこと とも整合している。また,数学テストの困難度パラメ タは学年とともに高くなる傾向が示された。数学テス トでは,小学 1 年生から小学 3 年生までのテスト項目 は極めて容易であり,困難度が –3 を下回っていた。 ただし,中学 2 年生や 3 年生のテストでは 0.389 や 0.815 といった値を示し,相対的に見て難しい問題が出題さ れていたと考えられる。 国語テストにおいては,困難度の推定値の平均がす べて負の値であり,比較的容易な項目が揃っていた可 能性が示唆される(Table 6)。ただし,困難度の推定 値の平均値は –2.704 から –0.047 であり,数学テスト よりも困難度の幅が小さいテストになっていた。 Figure 1 に数学・国語テストのすべての項目を含め たテスト情報曲線を示した。識別力が大きい項目の影 響を検討するために,識別力が 5 以上の国語 1 項目, あるいは 4 以上の国語 2 項目を削除した場合のテスト 情報曲線も合わせて示した。数学・国語どちらのテス トも,能力値が –3 から –2.5 付近の推定精度が高く なるテストであることが示唆された。 さらに,国語テストにおいては,ピークの位置は項 目削除前後で大きな変化がないものの,項目削除に伴 う情報量の減少がみられた。このことから,国語のテ スト情報量曲線のピークの高さには,識別力の推定値 が大きい項目の存在が影響をしているものの,テスト 全体としては依然として垂直尺度化後の困難度 –3 か ら –2.5 の区間に多くの情報を持っていると考えられ Table 6 JCPS 数学・国語テストの尺度化後の項目困難度の要約統計量 学年 数学テスト 国語テスト 項目数 M SD 項目数 M SD 小学 1 年生 12 –4.505 1.280 18 –2.704 0.576 小学 2 年生 17 –3.259 1.085 12 –2.191 1.210 小学 3 年生 17 –3.260 1.934 16 –2.093 1.153 小学 4 年生 10 –1.879 0.807 13 –2.019 1.372 小学 5 年生 9 –1.290 0.634 13 –1.862 1.251 小学 6 年生 8 –1.196 0.950 13 –1.084 0.780 中学 1 年生 10 –0.256 1.221 13 –0.959 1.208 中学 2 年生 10 0.389 0.725 15 –0.385 1.960 中学 3 年生 10 0.815 0.587 15 –0.047 1.709 Figure 1. JCPS 数学・国語テストのテスト情報曲線。

(9)

る。このことから,数学・国語のどちらのテストの能 力値の推定においても,能力値が高い層の解答者の能 力値推定よりも,比較的能力値が低い層の解答者の能 力を推定することに適したテストであると考えること ができる。 尺度化されたテストによる学年別の能力値分布 数学・国語それぞれの各学年の能力値パラメタの推 定値の要約統計量を,JCPS テストとアンカーテスト 別に Table 7 に示した。数学能力に関して,学年が上 がるにつれて,平均値が上昇する傾向がみられた。た だし,中学 1 年生は小学校 6 年生よりも低い推定値で あり,この傾向はアンカーテストにおいてより顕著で あった。国語能力に関しても,学年とともに平均値が 上昇していることが示された。アンカーテストにおい ては,やはり小学 6 年生から中学 1 年生にかけて平均 値が低下していた。困難度パラメタの推定値とは異な り,能力値パラメタの推定値は全体的に高いもので あった。 数学と国語の能力値の相関係数は,JCPS テストで 学年別では .394(中学 1 年生)から .555(小学 6 年生) の範囲にあり,全学年では .710 であった。アンカー テストでは .425(小学 1 年生)から .579(小学 6 年生) にあり,全学年では .723 であった。 考  察 本研究では,JCPS が実施してきた既存の小学 1 年 生から中学 3 年生までの数学および国語の学力テスト に,垂直尺度化を施すことを目的とした。Haebara 法 を用いて,学年別に推定した項目パラメタを尺度化し た。項目パラメタの推定値から JCPS の学力テストは 困難度が低い傾向が示された。また,能力値パラメタ の推定値から,JCPS の学力テストが学力の発達変化 を捉えうるテストであることが確認された。 数学・国語のどちらの能力においても,小学校から 中学校に上がった際に,その平均値が低下していた点 は興味深い。こうした現象が生じた理由として,サン プルの一部が小学生 6 年時に中学校受験を経験し,集 中的な学習が,一時的に学力を向上させていた可能性 が指摘できる。また,JCPS サンプルは私立や国立の 小中学校に通学する子どもを含むが,アンカーテスト の解答者は,全員が東京都内の区立の小中学校に通学 しているため,小学校と中学校の解答者では母集団の 属性が異なっていた可能性も否定できない。中学 1 年 生に比べ小学 6 年生の高い平均的学力をより顕著に示 したのが,アンカーテスト解答者であったことから考 えると,私立や国立の中学校に進学した生徒は,アン カーテストには含まれなかったため,中学 1 年生時点 での欠測が生じている可能性がある。そのため,ここ では 2 種類のテストに参加した中学生の違いという, クロスセクショナルな選択バイアスを考えることにな る。このような場合,アンカーテストに参加する中学 生は区立中学に通っているため,「区立ではない中学 に在籍するために参加しない確率」が,中学時点で測 定された学力および属性に依存するランダムな欠測 (missing at random: MAR)であるという仮定が成立す るならば,解析上大きな問題にはならない(高井・星 野・野間, 2016)。この仮定については,今後の精緻 な検討が課題である。 本研究の展望として,この尺度化された JCPS 学力 テストを用いることにより,我が国の小学 1 年生から 中学 3 年生まで学年という枠組みを超えた子どもの潜 在的学力を変数とした分析が可能となる。加えて,異 なる時期に異なる集団から測定した学力レベルを比較 することにより,時代効果やコーホート効果を検証す ることもできる。そして,同一個人から複数時点,学 Table 7 数学・国語能力の推定値の要約統計量 数学 国語 学年 JCPS アンカー JCPS アンカー M SD M SD M SD M SD 小学 1 年生 –1.288 0.721 –1.172 0.652 –1.184 0.708 –1.248 0.742 小学 2 年生 –1.082 0.770 –1.121 0.746 –0.871 0.792 –1.004 0.792 小学 3 年生 –0.843 0.733 –0.682 0.709 –0.512 0.798 –0.406 0.784 小学 4 年生 –0.353 0.745 –0.249 0.760 –0.316 0.801 –0.232 0.854 小学 5 年生 –0.087 0.827 0.056 0.791 –0.087 0.839 0.056 0.843 小学 6 年生 0.526 0.892 0.719 0.784 0.324 0.900 0.491 0.909 中学 1 年生 0.491 0.958 0.348 0.912 0.451 0.800 0.245 0.835 中学 2 年生 1.100 1.013 1.122 1.058 0.533 0.857 0.482 0.815 中学 3 年生 1.422 0.978 1.643 0.912 1.080 0.739 0.888 0.738

(10)

力と別の変数を繰り返し測定したパネルデータを,動 態的に分析することにより,今まで明らかにすること のできなかった子どもの学力を規定する要因の特定が 可能となる。これらの新しい知見は,社会科学や行動 科学の諸領域において,飛躍的成果をもたらすことを 期待させる。 とはいえ,推定された能力値の平均は,テスト情報 関数で最も推定精度がよい能力値の範囲から大きくず れているため,本テストの利用においては,能力の高 い解答者層の能力の評価には慎重になる必要がある。 今後,既存の問題のタイプと正答率を吟味し,学習指 導要領の範囲内という制限の中で,高い応用力を要す る,より困難度の高い新しい項目を含めたテストを構 成することによって,能力値の推定精度を向上させる 工夫が必要であろう。また,等質性を高めるために異 質な項目を精査して,修正する必要もあると考えられ る。 加えて,数学能力値と国語能力値の学年を超えて安 定した相関関係は,両科目それぞれの一次元性を支持 すると共に,2 科目に共通する一般的能力の存在を示 唆している。このことは,妥当性の外的側面の証拠の 1 つとして考えられる。同時に,各テストは学習指導 要領を踏まえた基礎的学力の一側面を反映したもので あり,内容的側面の証拠があると考えられる。さらに, 各テストが高い一次元性と信頼性を示したことは,構 造的側面での証拠になり得る。また,JCPS テストと アンカーテストという異なる方法のテストにみられた 一貫性は,一般化可能性の側面からの証拠の 1 つと考 えることもできる。今後は,本研究で検討しきれなかっ た解答プロセス面での証拠や,より詳細な他の変数と の関係に関する証拠,そしてテスト実施の結果に関し た証拠を検討し,尺度化した一次元の能力がどのよう な能力を反映したものなのか,探究していくことが必 要であろう。 利益相反の開示について なお,本論文に関して,開示すべき利益相反関連事 項はない。 引 用 文 献 赤林 英夫・直井 道生・敷島 千鶴(編)(2016).学力・ 心理・家庭環境の経済分析―全国小中学生の追 跡調査から見えてきたもの― 有斐閣

Asparouhov, T., & Muthén, B. (2016). IRT in Mplus.

Technical appendix. Los Angeles, CA: Muthén &

Muthén. Retrieved from https://www.statmodel.com/ download/MplusIRT.pdf (May 22, 2018)

Bradbury, B., Corak, M., Waldfogel, J., & Washbrook, E. (2015). Too many children left behind: The U.S.

achievement gap in comparative perspective. New

York: Russell Sage Foundation.

von Davier, A. A. (2011). Statistical models for test

equat-ing, scalequat-ing, and linking. New York: Springer.

Dorans, N. J., Pommerich, M., & Holland, P. W. (Eds.). (2007). Linking and aligning scores and scales. New York: Springer-Verlag.

Embretson, S. E., & Reise, S. P. (2000). Item response

theo-ry for psychologists. Mahwah, NJ: Erlbaum.

Ermisch, J., Jantti, M., & Smeeding, T. (2011). From

par-ents to children: The intergenerational transmission of advantage. New York: Russell Sage Foundation.

藤森 進(1991).小学校 3 年生から 5 年生の算数学力 尺度の作成 心理学研究, 62, 82–87. https://doi. org/10.4992/jjpsy.62.82

Haebara, T. (1980). Equating logistic ability scales by a weighted least squares method. Japanese Psychological

Research, 22, 144–149. https://doi.org/10.4992/psy-cholres1954.22.144 樋口 美雄・宮内 環・McKenzie, C. R.(編)(2010). 貧困のダイナミズム―日本の税社会保障・雇用 政策と家計行動― 慶應義塾大学出版会 平井 洋子(2016).妥当性理論の歴史的変遷と心理学 研究への適用に関する考察―Standards を中心 に― 首都大学東京人文学報, 512, 15–26. 石川 善樹・伊藤 寛武・植村 理・田端 紳・外山 理沙子・ 中室 牧子…山口 一大(2017).子どもの能力を計 測するための学力テストの現在と展望―エビデ ンスに基づく教育政策に向けて― RIETI Policy Discussion Paper Series, 17, 1–56. Retrieved from https://www.rieti.go.jp/jp/publications/pdp/17p010.pdf (2018 年 5 月 22 日)

Karkee, T., Lewis, D. M., Hoskens, M., Yao, L., & Haug, C. (2003). Separate versus concurrent calibration meth-ods in vertical scaling. Paper presented at the Annual

Meeting of the National Council on Measurement in Education (Chicago, IL). Retrieved from http://files.

eric.ed.gov/fulltext/ED478167.pdf (May 22, 2018) 加藤 健太郎・山田 剛・川端 一光(2014).R による 項目反応理論 オーム社 喜岡 恵子(1991).項目反応理論に基づく計算課題の 難 易 度 の 推 定  教 育 心 理 学 研 究, 39, 204–213. https://doi.org/10.5926/jjep1953.39.2_204

Kolen, M. J., & Brennan, R. L. (2014). Test equating,

scal-ing, and linking: Method and practice (3rd ed.). New

York: Springer-Verlag. https://doi.org/10.1007/978-1-4939-0317-7

Lee, W., & Ban, J. (2010). A comparison of IRT linking procedures. Applied Measurement in Education, 23, 23–48. https://doi.org/10.1080/08957340903423537 Magnuson, K. A., Ruhm, C., & Waldfogel, J. (2007). Does

prekindergarten improve school preparation and per-formance? Economics of Education Review, 26, 33– 51. https://doi.org/10.1016/j.econedurev.2005.09.008 Martin, M. O., Mullis, I. V., & Foy, P. (2008). TIMSS 2007

in-ternational mathematics report. Findings from IEA’s Trends in International Mathematics and Science Study at the Fourth and Eighth Grades. Chestnut Hill, MA:

(11)

College. Retrieved from http://timss.bc.edu/TIMSS2007/ PDF/TIMSS2007_InternationalMathematicsReport.pdf (May 22, 2018)

Messick, S. (1995). Validity of psychological assessment.

American Psychologist, 50, 741–749.

Muthén, L. K., & Muthén, B. O. (1998–2017). Mplus user’s

guide (8th ed.). Los Angeles, CA: Muthén & Muthén.

OECD (2013). PISA 2012 results: Excellence through

equi-ty: Giving every student the chance to succeed (Vol.

II). Paris: OECD Publishing. http://dx.doi. org/10.1787/9789264201132-en

OECD (2017). Scaling PISA data. In OECD (Ed.), PISA

2015 Technical report (pp. 127–185). Retrieved from https://www.oecd.org/pisa/sitedocument/PISA-2015-Technical-Report-Chapter-9-Scaling-PISA-Data.pdf (May 22, 2018)

Partchev, I., Maris, M., & Hattori, T. (2017). irtoys: A

col-lection of functions related to item response theory (IRT). R package version 0.2.1.

芝 祐順・野口 裕之・柴山 直(1985).語彙理解力の 発達に関する追跡的研究 東京大学教育学部紀 要, 25, 27–40. 敷島 千鶴・直井 道生・山下 絢・赤林 英夫(2011). JHPS お子様に関する特別調査―学力テストの 信頼性と妥当性の検討― 樋口 美雄・宮内 環・ C. R. McKenzie・ 慶應義塾大学パネルデータ設計・ 解析センター(編)教育・健康と貧困のダイナミ ズム―所得格差に与える税社会保障制度の効果 ―(pp. 23–48) 慶應義塾大学出版会

Stocking, M. L., & Lord, F. M. (1983). Developing a com-mon metric in item response theory. Applied

Psychological Measurement, 7, 201–210. https://doi. org/10.1177/014662168300700208

高井 啓二・星野 崇宏・野間 久史(2016).欠測デー タの統計科学―医学と社会科学への応用― 岩波書店

Yamamoto, K., & Mazzeo, J. (1992). Item response theory scale linking in NAEP. Journal of Educational

Statistics, 17, 155–173.

Table 4 数学テストの正答率の要約統計量,Cronbach α および固有値 テストの種類 学年 項目数 M SD Cronbach α 第 1 固有値 第 2 固有値 第 3 固有値 JCPS 小学 1 年生 14 .884 .094 .815 4.254 1.903 1.857 小学 2 年生 17 .890 .096 .877 6.072 2.708 1.591 小学 3 年生 18 .865 .148 .876 6.545 1.810 1.606 小学 4 年生 10 .766 .147 .7

参照

関連したドキュメント

[r]

1年生を対象とした薬学早期体験学習を9 月に 実 施し,辰巳化 学( 株 )松 任 第 一 工 場,参天製薬(株)能登工場 ,

高校生 (直営&FC) 大学生 中学生 (直営&FC)..

2018 年度 2019 年度 2020 年度 2021 年度 2022 年度 2023 年度 2024 年度 2018 年度入学生 1 年次 2 年次 3 年次 4 年次. 2019 年度入学生 1 年次 2 年次

支援級在籍、または学習への支援が必要な中学 1 年〜 3

一貫教育ならではの ビッグブラ ザーシステム 。大学生が学生 コーチとして高等部や中学部の

●2014 年度に文部科学省からスーパーグローバル・ハイスクール(SGH)の指 定を受け、GGP(General Global Program 全生徒対象)

今年度は 2015