共通項目数が等化の精度に及ぼす影響 : 大規模学力テストデータを用いた探索的研究
全文
(2) タである。Pj (θ)は,θの能力パラメータを持つ受験者. いものとなっている。. が,テスト項目 j に対して応答した時に求められる正答確. これに対し,項目応答理論では,古典的テスト理論の. 率を表す。 b j はテスト項目 j の項目困難度パラメータであ. 等化の条件について考慮せず,等化を行うことができる。. る。 Dは1.7の定数である。a j はテスト項目 j の項目弁別. 項目応答理論によって等化する場合,テスト間に同一. 力パラメータである。. の受験者を設定するか,テスト間に同一の問題項目を設. このように,項目応答理論では,受験者の能力パラ. 置する必要がある。前者を共通受験者デザインといい,. メータと,項目の特性を表す項目パラメータとを分けた. 後者を共通項目デザイン,または係留テストデザインと. モデルとなっている。. いう。ただし,共通受験者デザインでは,両方のテスト. 項目応答理論の他のモデルとして,多肢選択式問題に. を受ける受験者の学習効果や疲労の問題がある。このた. おいて答えが分からずに当て推量で正答する確率をモデ. め,実際にテストの等化を行う場面では,共通項目デザ. ルに組み込んだ 3 パラメータ・ロジスティック・モデル. インの方が多く用いられている。. (以下,3PLMと記述する),項目困難度パラメータのみ. 項目応答理論における,代表的な等化の方法としては,. を扱う 1 パラメータ・ロジスティック・モデルがある。. 4 つのものがある。同時尺度調整法,困難度固定法,困. 3PLMは当て推量が考えられる場合にモデルとデータがよ. 難度等化法,特性曲線等化法である。(Petersen ,Kolen,&. で. Hoover, 1989)(4)今回は,同時尺度調整法を用いる。同時尺. は,3PLMでは標本数が最小で1000から2000必要であるこ. 度調整法は,1 回の推定で全ての作業が終了するが,他. と,当て推量が考えられることを前提としていることか. の方法は項目母数の推定をテストごとに行った上で改め. ら,限定的な状況でのみ使えるモデルとなっている。今. て等化をする必要があり手続き的に複雑になるためであ. 回の研究では,より一般的と考えられる 2 パラメータ・. る。(藤森, 1997)(5). ロジスティック・モデルを用いて研究を行っている。. 同時尺度調整法は, 2 つのテストに含まれる項目の各. く適合するという利点を持つ。しかし,大友(1996). (3). パラメータが一度に推定される。このとき,共通項目や. Ⅰ-3. 共通受験者が 2 つのテストのデータをつなぐ役割を果た. 等化の意味とその手法. 資格や検定のためのテストは,毎回同じ測定領域を持. し,得られる結果は両テストに共通の尺度上のものにな. つが,異なった問題,異なった受験者によって成り立っ. るというものである。. ている。この場合,異なるテスト間の点数の解釈が問題 となる。例えば,4 月に実施された英語のテストで100問. Ⅰ-4. 中50問正解したとする。続いて,同じ領域の英語のテス. ここで,共通項目デザインによるテストを新たに作成. トの問題を 9 月に実施し,100問中60問正解した場合,本. しようと考えた場合,共通項目をテスト全体の中でどれ. 等化に関する問題と先行研究. 当に能力が上がっているのかを明らかにすることはでき. だけ設ければよいのかという問題が生まれる。豊田(2002). ない。なぜなら,テスト間の困難度の差が考慮されてい. (6). によると,共通項目数の目安として最低 5 つ必要である. ないので, 9 月の問題が易しかったために正答数が上がっ. としている。しかし,これは絶対的な基準であるとはい. たと解釈できてしまうからである。. えない。. このような問題を解決するためには,それぞれのテス. 等化の精度という観点からは,共通項目数は多いほう. トの得点を同一の尺度上の値に変換して表すことが必要. が良いとされる。しかし,共通項目が多すぎる場合,等. である。これが,テストの等化である。. 化するテストがほとんど同じものになるために,複数の. 等化は,古典的テスト理論によって行うこともできる。. テストに分ける意味合いが薄れる。 2 つの異なるテスト. しかし,古典的テスト理論においては,問題点が指摘さ. を 1 つの尺度にのせることができるという利点を得るに. (3). れている。大友(1996) では,素点が等化される場合に. は,共通項目数は,等化の精度を維持したうえで,少な. は,等化するテストが平行であるか,テストの信頼性が. い方がよいということになる。. 全く等しいものでなければ,公平性条件の必要条件を満. 藤森(1997). たすことはできないとしている。平行テストとは,同一. よって垂直的等化による能力パラメータの精度について. の尺度に変換したあとで,平均値と標準偏差が等しく,. 検討した結果,共通項目数が多くなるにつれて等化の成. (5). ,藤森(1998). (7). では,シミュレーションに. しかもいかなる外部基準との相関も等しい 2 つのテスト. 績が改善すること,共通項目として,6 ~ 8 個の共通項. を指す。公平性条件とは,同一の能力を持っている受験. 目が必要であることを報告した。しかし,このテストの. 者集団にとって,テスト X の得点分布と,等化されたあ. データは,項目パラメータと受験者の能力パラメータの. とのテスト Y に関する得点分布とは,同じものでなけれ. 真値が分かっているという想定でのシミュレーションに. ばならないということである。. よる分析となっている。そのため,実際に得られたテス. この条件は,現実のテストの実施場面を考えると厳し. トデータにおいては,この目安が適用されない可能性が. - 50 -.
(3) 考えられる。 一方,前川ら(2002) (8),熊谷ら(2007). (9). のように実際の. テストデータを用いて等化を行った研究もあるが,これ らは等化の精度に着目した研究ではない。 以上の先行研究を踏まえ,本研究では実際のテスト データを用いて,共通項目数が等化の精度に及ぼす影響 について分析を行う。 ただし,共通項目数以外にも等化の精度に影響を与え る要因もある。藤森(1998) (7)では,全体の項目数,共通項 目の項目弁別力,受験者数,受験者集団の能力値差がこ れに関係すると述べられている。 本研究では共通項目数に加え,受験者数,共通項目の. 図2.1 全てが共通項目である元データ. 項目パラメータ,受験者集団の能力値差,の 4 つを等化. この図は,10人の受験者集団 A が 9 項目のテストX を,. の精度の要因として分析した。. 10人の受験者集団 Bが 9 項目のテストYを受験したテスト. Ⅱ 方法. データをあらわしている。テスト X とテスト Y は,全て. Ⅱ-1. 同一の項目となっている。. 分析対象. 本研究では,(株)ベネッセコーポレーションで実施され. 共通項目デザインによる等化を行うテストデータとし. た,高校一年生の基礎学力を測定するための多肢選択形. て,全てが共通項目であるというのは考えにくい。なぜ. 式のテストを使用する。本研究で使用したテストデータ. なら,全ての項目が同一ならば,2 つのテストの受験者を. は,2008年と2009年度に実施された,英語,国語の 2 教. 同一の集団とみなして分析することができるため,等化. 科のテストデータである。なお,2008年と2009年で同一. の必要がないからである。そのため,テストデータを部. のテスト項目が用いられている。. 分的に欠損させ,2 つのテスト間に非共通項目を設定し た。共通項目がテスト全体の半分を占めるようにテスト. 表2.1 用いたテストデータ. データの削除を行った。これを図式したものとして,図 2.2に示す。. Ⅱ-2 基本的な分析手順 本研究では,3 つの分析を行った。(1)共通項目の項目弁 別力に着目した分析,(2)受験者数に着目した分析,(3)受 験者集団の能力値差に着目した分析,である。ただし, 各分析に共通して,共通項目数が減少した場合,どの程 図2.2非共通項目を設けるように テストデータを削除した場合. 度等化の精度が低下するのかについて検討している。こ れらの 3 つの分析に共通する分析手順について説明する。 まず,受験者数を一定にする。2008年度と2009年度の. 図2.2では,点線で囲まれたテストデータを削除するこ. テストデータから,それぞれ同一の受験者数分のデータ. とで,非共通項目を作っている。この操作で得られたテ. を無作為に抽出した。. ストデータを,ここでは基準テストと呼ぶ。基準テスト. 次に,非共通項目を作成する。非共通項目とは,共通. を等化し,受験者 i の能力パラメータを求める。ここで. 項目ではない項目を指す。本研究で用いる 2 つのテスト. 得られる受験者の能力パラメータをθ*iとする。なお,能. データは,全てが共通項目となっている。これを簡易化. 力パラメータの分析には,BILOG-MG(Zimowski, Muraki,. して説明するために図2.1に示した。. Mislevy, & Bock, 2003)を用いた。 - 51 -.
(4) 次に,基準テストよりも共通項目数の少ないデータを作. つの分析によって確認する。. 成する。その際,全体の項目数を変えずに,共通項目の. 以上の手順をまとめると,次のようになる。. 数を減らしている。全体の項目数を変えないのは,項目. 手順 1:それぞれの年度の受験者数を固定する。. 数が変わることによる等化の精度への影響を統制するた. 手順 2:非共通項目を設け,基準テストを設定する。. めである。. 手順 3:基準テストよりも,共通項目数の少ないデー . タを設定する。. 手順 4:それぞれのデータから得られた能力パラメー . タから等化の精度を求める。. Ⅱ-3 共通項目の項目弁別力に着目した分析の分析手順 この分析では,共通項目の項目弁別力の高低が等化の精 度にどの程度影響を与えているのかについて検討する。 ここでは,それぞれのテストデータの受験者数を2000人 として分析を行った。これは,大友(1996) (3)にある3PLM に必要とされる最小標本数が1000から2000であることを 根拠にしている。この研究では,2PLMによる分析を行う が,標本数2000であれば2PLMの分析として十分な標本数 が得られると考えられる。 Ⅱ-2節における手順 3 では,共通項目を非共通項目に. 図2.3 共通項目の一部を非共通項目とみなした場合. するよう,テストデータの整形を行っている。しかし, 図 2.3では,Y年度テスト項目のY4の項目を,新たに設. どの項目から非共通項目にするかによって,等化の精度. けた項目Y10としている。このことにより,X4とY4は本. が変わることが予想される。. 来共通項目であるが,Y4をY10として,非共通項目とみ. そのため,あらかじめ元々のテストデータを分析し,. なして分析することになる。これにより,全体の項目数. テストの項目弁別力を得た上で,どの共通項目から非共. を変えずに,共通項目の数を減らすことができる。以上. 通項目にするのかを検討した。. の工程で共通項目数を減らし,共通項目数が2,4,6,8,10,12. 項目弁別力を得るために,1 つのテストデータあたり無. の場合のテストデータを作り,それぞれ等化を行う。ま. 作為に25000人ずつ抽出し,2PLMによる分析を行った。. た,等化後に得られるそれぞれの受験者iの能力パラメー. 得られた項目弁別力の小さい順に,共通項目を並び替. ^ i. タをθ とする。. える。このテストデータから,項目の弁別力の違いをも. 最後に,等化の精度を算出する。等化の精度が悪くな. とに,3 種類のテストデータを作る。. ると,基準テストから得られた受験者 i の能力パラメー. まず,共通項目として,項目弁別力の低いものを残す. タθ*i と,共通項目数を減らした場合のテストデータから. ため,項目弁別力の高いものから順に 2 つ共通項目を減. ^. 得られた受験者 i の能力パラメータθiには差が生じると. らす項目弁別力の低グループを作る。. ^ 考えられる。θ*とθの差の指標として,De. 次に,共通項目として,項目弁別力の高いものを残す. i. Impara(2001). (10). i. Ayala, Plake &. ため,項目弁別力の低いものから順に 2 つ共通項目を減. を参考に次式とした。. らす項目弁別力の高グループを作る。 最後に,共通項目として,項目弁別力の中程度のもの を残すため,共通項目の項目弁別力の最も高いものと最 RMSEとは,平均二乗誤差(Root Mean Square Error)のこ. も低いものを順に 1 つずつ共通項目減らす,項目弁別力. とである。これは,比較したい値同士の間に平均的にど. の中グループを作った。. れだけ差があるかを示したものである。. このそれぞれについて,共通項目数がテスト全体の. 式中の n はテストの総受験者数を指す。また,θ*i は, ^ i. 半 分 を 基 準 テ ス ト の 共 通 項 目 数 と し, 共 通 項 目 数 を. 基準テストで得られた受験者iの能力パラメータを,θ は. 12,10,8,6,4,2と変化させた場合,受験者集団の能力パラ. 共通項目数を減らしたテストデータから得られた受験者 i. メータがどのように変化するのかについて検討する。基. の能力パラメータを表す。これを各受験者で差を取り,2. 準テストの共通項目数は,英語は20項目,国語は15項目. 乗したものを平均した値の平方根がRMSEとなる。. となっている。共通項目数がテスト全体の半分を占める. このRMSEが,共通項目の項目弁別力,受験者数,受験. 場合を基準としたのは,現実のテスト実施場面で考えら. 者集団の能力値差によって,どのように変化するのか 3. れる共通項目数として十分大きい数であると考えられる. - 52 -.
(5) ためである。ここでは,RMSEについて計18のケースを検. 表3.1 各教科の共通項目の項目弁別力. 討することになる。. Ⅱ-4 受験者数に着目した分析の分析手順 この分析では,できるだけ項目弁別力の影響を受けな いように統制を加え,受験者数が等化の精度に与える影 響について考える。このためには,Ⅱ- 3 節で紹介した, 共通項目に残す項目の項目弁別力の高,中,低のいずれ かにそろえる必要がある。ここでは,中程度の方法に揃 えることにした。これは,項目弁別力が等化の精度に特 に大きな影響を与える場合,項目弁別力の高,低にそろ えると,RMSEの値が極端に高いものや低いものになり, 比較検討するのが難しくなることが考えられるためであ る。 比 較 す る 受 験 者 数 は,500,1000,2000,5000の 4 つ と し た。 こ れ ら の そ れ ぞ れ に つ い て, 共 通 項 目 数 が 2,4,6,8,10,12の 6 つのテストデータと,共通項目数が半分 である場合の受験者の能力パラメータについて調べる。 そのため,計24のRMSEを検討することになる。. Ⅱ-5 受験者集団の能力値差に着目した分析の分析手順 Ⅱ- 2 節の手順 1 では,受験者数を統一するため,無作 為に受験者を抽出していた。ここでは受験者集団で能力 値差がある場合を想定するため,受験者をある能力パラ メータの範囲で抽出することにする。このため,元々の データについて項目応答理論により分析し,受験者の能 力パラメータを求めておく。 次に,受験者の抽出方法を 3 つに分け,テストデータ を作成する。受験者集団の能力値差が「小さい」,「中程. さらに,共通項目の項目弁別力に着目した分析で得ら. 度」,「大きい」の 3 種類のテストデータを作成する。. れた英語と国語のRMSEの値について,表3.2,表3.3と図. 能 力 値 差 小 : 両方の年度で受験者を無作為に抽出す. 3.1,図3.2にまとめた。. る。 能力値差中:一方の年度はθが 2 以下,もう一方の年. 表3.2 英語における弁別力別のRMSE. 度はθが -2 以上の受験者を無作為に抽出する。 能力値差大:一方の年度はθが 1 以下,もう一方の年 度はθが -1 以上の受験者を無作為に抽出する。 これらのそれぞれについて,共通項目数が2,4,6,8,10,12 の 6 つのテストデータと,基準テストの能力パラメータ について調べる。ここでは,計18のRMSEを比較すること になる。また,受験者数は2000に,共通項目の項目弁別 力については,Ⅱ- 4と同様に,中程度のものに統一した。. Ⅲ 結果と考察 Ⅲ-1 共通項目の項目弁別力に着目した分析 この分析は,共通項目に残す項目の項目弁別力の高さ について,高,中,低の 3 つに分けたうえで共通項目数 の検討を加えたものである。実際に共通項目がどの程度 の項目弁別力であったのかを,表3.1に示す。 - 53 -. 表3.3 国語における弁別力別のRMSE.
(6) わっても,RMSEは大きく変化しなかった。項目弁別力の 高い項目を共通項目にしたとしても,等化の精度を大き く改善できない場合があると考えられる。 次に 2 教科のうち,弁別力の違いにより,RMSEに特に 差が見られた英語に注目する。項目弁別力の低い場合と 高い場合で,最もRMSEの差が大きかったのは,共通項目 数が 2 の場合である。この差は,0.0433となる。今回の分 析では,共通項目の項目弁別力の低いものから高いもの に変えた場合,RMSEでいうと最大0.04程度等化の精度を 改善している。. Ⅲ-2 受験者数に着目した分析. 図3.1 英語における弁別力別のRMSE. この分析は,受験者数が,500,1000,2000,5000のそ れぞれの場合における等化の精度について着目したもの である。共通項目に残す項目の項目弁別力は,共通項目 の項目弁別力に着目した分析における中程度のものに統 一している。受験者数に着目した分析で得られたRMSEの 値について,表3.4,表3.5と図3.3,図3.4にまとめた。 表3.4 英語における受験者数別のRMSE. 図3.2 国語における弁別力別のRMSE. 共通項目の項目弁別力に着目した分析に対する考察 分析の結果,等化の精度の指標としたRMSEが得られ た。これは,基準テストから得られた能力パラメータ に対して,基準テストよりも共通項目を減らしたテスト. 表3.5 国語における受験者数別のRMSE. データから得られた能力パラメータが,平均的にどの程 度ずれているかを表す。 表3.2, 表3.3, よ り, 英 語 のRMSEの 一 番 大 き い 値 が 0.0587であるのに対し,国語の場合は0.0270となっている ことから,英語と国語を比べると,国語の方が推定の精 度がよい。これは,全体的に国語における共通項目の弁 別力が英語に比べて高いためであると考えられる。 全ての教科について,共通項目数が多くなると,弁別 力の高低にかかわらず,RMSEの値が小さくなる傾向がみ られた。つまり,共通項目数が増えると,等化の精度が よくなる傾向があるということである。 英語の項目弁別力が中程度である場合,図3.1,共通項 目数が 4 から 6 にかけて大幅なRMSEの減少がみられるこ とがわかる。この分析においては,共通項目数の目安と して 6 以上あるとよいと考えられる。 また英語では,項目弁別力が高いほど,等化の精度が よくなる傾向がみられる。しかし,国語では,図3.2よ り,部分的に弁別力が高いテストデータのRMSEが低い方 のRMSEを上回るところも見られる。また,弁別力が変 - 54 -. 図3.3 英語における受験者数別のRMSE.
(7) 項目弁別力は,共通項目の項目弁別力に着目した分析に おける中程度のものに統一している。また,受験者数は 2000に統一している。 ここで,受験者集団の能力値差がどの程度生まれたの かを示すため,表3.6に各教科のそれぞれの受験者集団の 平均(標準偏差)とその差を示す。 表3.6 各テストデータの受験者の 能力パラメータθの平均(SD)と平均値差. 図3.4 国語における受験者数別のRMSE. 受験者数に着目した分析に対する考察 共通項目の項目弁別力に着目した分析と同様に,図3.3 と図3.4をみると,共通項目数が多くなるほど,RMSEの 値が小さくなる,つまり等化の精度が高くなる傾向が見 られた。 英語では図3.3より,共通項目数が 6 から 8 であるとき にかけて,受験者数が500のテストデータのRMSEが大幅 に減少している。また,国語では,図3.4より,共通項目 数が 4 から 6 であるときにかけて,受験者数が500のテス トデータのRMSEが大幅に減少している。これらのことを 踏まえると,この分析において,共通項目数の目安とし て, 6 から 8 以上が望ましいと考えられる。 英語と国語に関して,受験者数が少なくなるほど,等 化の精度が悪くなる傾向が見られた。ただし,受験者数 が2000と5000の場合,RMSEの値が逆転しているところも 見られる。ここから,受験者数は2000程度であれば,等 化の精度という観点では十分な数とみなすことができる と考えられる。 また,英語では受験者数が500の場合,国語では500,. 受験者集団の能力値差に着目した分析で得られたRMSE. 1000の場合,共通項目数が 4 以下の場合,特にRMSEの. の値については,表3.7,表3.8と図3.5,図3.6にまとめた。. 値が高くなっていることが分かる。受験者数が2000を下 回り,共通項目数が 4 以下の場合,等化の精度に注意す. 表3.7 英語における能力値差別のRMSE. る必要があると考えられる。 英語において,受験者数が500と5000の間で最もRMSE の差が大きかったのは,共通項目数が 4 の場合である。 この差は,0.0594となる。同様に,国語では共通項目が 4 の 場 合 に, 受 験 者 数 が500と5000の 間 のRMSEの 差 が 0.0691となっている。 表3.8 国語における能力値差別のRMSE. Ⅲ-3 受験者集団の能力値差に着目した分析 この分析は,受験者集団の能力値差が小さい場合,大 きい場合,中程度の場合について着目したものである。 このため,各教科の受験者の能力値をあらかじめ分析 し,能力値差を設けた場合のテストデータを作成する必 要があった。この分析において,共通項目に残す項目の - 55 -.
(8) においては,共通項目数の目安として,6 から 8 以上が望 ましいと考えられる。. Ⅳ 全体考察 本研究の分析全体を通じて,共通項目数が多いほど等 化の精度がよくなるという傾向を確認することができ た。ただし,英語,国語の場合,共通項目数が 8 項目よ りも多い場合,等化の精度は大きく向上していない。特 に等化の精度が大きく変動したのは,共通項目数が 2 か ら 6 の間の場合であった。. 図3.5 英語における能力値差別のRMSE. 共通項目数を増やすことによって,等化の精度をよく することが効果的に働くのは,共通項目数が特に 6 以下 の場合であるといえる。 ただし,今回の分析にあたって,元のテストデータに あった項目を一部削除することで,非共通項目を作って いる。そのため,今回の分析は総項目数の多くない場合 であるといえる。 項目弁別力,受験者数,受験者集団間の能力値差が等 化の精度に及ぼす影響について比較検討する。 本研究において,項目弁別力が等化の精度に大幅な影. 図3.6 国語における能力値差別のRMSE. 響を及ぼすについては,大きなものは見られなかった。 英語では,共通項目の項目弁別力の低いテストデータと. 受験者集団の能力値差に着目した分析に対する考察. 高いテストデータで,最大0.04程度のRMSEの差が確認で. 表3.7,表3.8より,共通項目の項目弁別力に着目した. きた。しかし,国語では大きな差が確認されなかった。. 分析,受験者数に着目した分析と比べると,大きな値に. 一方,受験者数が等化の精度に及ぼす影響について. なっていることが分かる。特に,英語の能力値差が大き. は,英語,国語共にRMSEの差を確認することができた。. いテストデータの共通項目数が 2 の場合のRMSEは0.3579. 受験者数が500と5000の間で,英語では0.06程度,国語で. と,本研究中で最も大きい値となった。また,国語にお. は0.07程度の差が最大で見られる。ただし,受験者数が. いても,共通項目数が 2 の場合,RMSEが0.2740と,英語. 2000を超える場合,英語と国語ではRMSEに大きな差が見. についで大きな値を示している。. られない。. 英語と国語に関して,受験者集団間の能力値差が大き. 項目弁別力,受験者数と比較すると,受験者集団間に. いほど,また,共通項目数が少ないほど等化の精度が悪. 能力値差がある場合,等化の精度が大幅に悪化すること. くなる傾向が図3.10,図3.11から読み取れる。特に,共通. が確認できた。能力値差が大きく,共通項目数が 2 の場. 項目数が 2 である時,急激にRMSEの値が高くなってい. 合,RMSEの値は英語で0.3579,国語では0.2740と,本研. る。英語の場合,共通項目が 2 の時の,能力値差が小さ. 究で特に高い値を示した。能力値差が低い場合と比較す. い場合と大きい場合のRMSEの差が,0.3269となってい. ると,英語では0.3269,国語では0.2471と,RMSEの差と. る。同様に,国語の場合は0.2470となった。. いう観点からも大きな値を示した。. 英語では図3.10より,能力値差が大,中のテストデータ. 共通項目の項目弁別力が低い場合や受験者数が少ない. について,共通項目数が 2 から 4 であるときにかけて,. 場合よりも,受験者集団間に能力値差がある場合,特に. 受験者数が500のテストデータのRMSEが大幅に減少して. 等化の精度が悪くなるということが考えられる。このこ. いる。しかし,能力値差が大きいテストデータの場合,. とから,垂直的等化を行う場合や,テストを長期的に経. RMSEの値は共通項目数が 4 の場合でも0.1程度となって. 年比較する場合など,受験者集団の能力値が集団間で異. いる。共通項目の項目弁別力に着目した分析,受験者数. なる場合,等化の精度に注意する必要があると考えられ. に着目した分析のRMSEの値と比べると,RMSEの値は未. る。. だ高いといえる。RMSEが0.1よりも小さくなることを等. 本研究では,英語や国語の他に,数学の分析も行って. 化の精度の基準として考えると,英語では共通項目数が 4. いた。しかし,ソフトウェアで解が収束せず,適切なパ. から 6 以上,国語では共通項目数が,8 以上が望ましいと. ラメータの推定値を求めることができなかった項目があっ. いうことになる。これらのことを踏まえると,この分析. たことと,項目弁別力の推定値が極端に高い項目があっ. - 56 -.
(9) たことから,数学のテストデータを分析に含めることが. ー謝 辞ー. できなかった。項目弁別力の推定値が極端に高い項目. 本論文は平成22年度岡山大学教育学部卒業論文を加筆. は,今回の数学の問題で局所独立の仮定を満たしていな. 修正したものである。ベネッセコーポレーションの金森. いと考えられる項目であった。項目応答理論による分析. 保智様,対馬英樹様,木内祐輔様をはじめ,研究にご協. を行う場合,一次元性や局所独立の仮定について確認す. 力いただきました皆様に心より感謝申し上げます。. るだけでなく,分析した後に,どの項目が項目応答理論. ー文 献ー. に適しているのかについて十分吟味することが重要であ. (1) 孫媛「テスト得点の精度を吟味する古典的テスト理. ると考えられる。. 論」 渡部洋編『心理統計の技法』 福村出版, pp.99-112,. Ⅴ 今後の課題. 2002. 本研究では,分析で扱ったテストデータは,各教科で,. (2) Hambleton, R. K., Swaminathan, H., & Rogers, H. J.. 1 つのテストだけであった。他のテストデータを分析する. Fundamentals of Item Response Theory., Newbury Park CA:. ことができれば,今回の分析で得られた結果の確認や,. Sage Press, 1991. 比較検討を行うことができる。また,今回は数学のテス. (3) 大友賢二『―言語テスト・データの新しい分析法― 項目応答理論入門』 大修館書店, 1996. トデータについて,適切な推定値を得ることができな かったが,他の数学のテストデータと比較することで,. (4) Petersen, N. S., Kolen, M. J., & Hoover, H. D. In R. L.. このことが今回扱ったテスト問題によるたまたまの結果. Linn (ed.), Scaling, norming, and equating., Educational. なのか,数学という教科の特性によるものなのかといっ. measurement 3rd ed., New York American Council on. た検討を加えることができるだろう。. Education and Macmillan., pp.221-262, 1989池田ほか編訳. 今回の研究では,共通項目の項目困難度が等化の精度. 『教育測定学』第 3 版, みくに出版, 1992. に及ぼす影響について触れることができなかった。豊田. (5) 藤森進「同時尺度調整法による垂直的等化のシミュ. (6). (2002) は共通項目として,困難度母数の値の違いの大き. レーションによる検討」岡山大学教育学部学術研究委員. い項目が望ましいとしている。今回の研究で,受験者集. 会『岡山大学教育学部研究集録』, 97, pp.173-177, 1997. 団の能力値差が大きい場合に等化の精度が悪くなってい. (6) 豊田秀樹『項目応答理論[入門編]―テストと測定の科 学―』 朝倉書店, 2002. た。ここで,共通項目の困難度にばらつきを持たせるこ とで,どの程度等化の精度が改善することができるのか. (7) 藤森進「同時尺度調整法による垂直的等化の検討」 文教大学人間科学部『人間科学研究』,20,34-47 1998. について,検討を加えることができる。 本研究では,共通項目数,共通項目の項目弁別力,受. (8) 前川眞一・菊池賢一・内田照久・中畝菜穂子・石塚. 験者数,受験者集団間の能力値差によって,等化の精度. 智一「大学入試センター試験得点の標準化の試み―項目. がどのように変化するのかについて分析を行った。この. 応答理論による方法―」『大学入試研究ジャーナル』13, pp.81-87, 2003. 他に,推定の方法,等化の方法,モデルの選択,テス トデータのモデルの適合度など,等化の精度に影響する. (9) 熊谷龍一・山口大輔・小林万里子・別府正彦・脇田. と考えられる要素は多岐にわたる。例えば,本研究では. 貴文・野口裕「大規模英語学力テストにおける年度間・. 2PLMによる分析を行ったが,3PLMによる分析を行えば,. 年度内比較―大学受験生の英語学力の推移―」 『日本テ スト学会誌』3, pp.84-90, 2007. 共通項目の当て推量パラメータが等化の精度に与える影 響について検討することもできる。さらに,今回の結果. (10) De Ayala, R. J., Plake, B. S., & Impara, J. C. The impact. は本研究で用いたテストの受験者の能力パラメータから. of omitted responses on the accuracy of ability estimation in. 算出したものである。本研究で示した指針は,本研究で. item response theory. Journal of Educational Measurement,. 扱ったような一般的な高校生の基礎学力を測るテストに. Vol.38, pp.213-234, 2001. おいては有用であると考えられる。しかし、指針とする 共通項目数は,相対的な受験者の能力パラメータによっ て変わってくる可能性があるため,この指針を一般化す ることはできない。 しかし,実データを用いた等化の精度の研究を探索的 に進め,様々なテストデータや異なるモデルについて検 討を加えることで,特定の状況だけでなく,多様なテス ト開発の場面に合った有用な知見を得ることができるだ ろう。 - 57 -.
(10)
関連したドキュメント
In this paper we develop a general decomposition theory (Section 5) for submonoids and subgroups of rings under ◦, in terms of semidirect, reverse semidirect and general
On the other hand, when M is complete and π with totally geodesic fibres, we can also obtain from the fact that (M,N,π) is a fibre bundle with the Lie group of isometries of the fibre
Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:
This paper develops a recursion formula for the conditional moments of the area under the absolute value of Brownian bridge given the local time at 0.. The method of power series
Answering a question of de la Harpe and Bridson in the Kourovka Notebook, we build the explicit embeddings of the additive group of rational numbers Q in a finitely generated group
Then it follows immediately from a suitable version of “Hensel’s Lemma” [cf., e.g., the argument of [4], Lemma 2.1] that S may be obtained, as the notation suggests, as the m A
In our previous paper [Ban1], we explicitly calculated the p-adic polylogarithm sheaf on the projective line minus three points, and calculated its specializa- tions to the d-th
Our method of proof can also be used to recover the rational homotopy of L K(2) S 0 as well as the chromatic splitting conjecture at primes p > 3 [16]; we only need to use the