MH法による学力テストデータの差異項目機能分析
著者 井上 俊哉, 孫 媛
雑誌名 東京家政大学研究紀要 1 人文社会科学
巻 45
ページ 1‑13
発行年 2005
出版者 東京家政大学
URL http://id.nii.ac.jp/1653/00009157/
MH法による学力テストデータの差異項目機能分析
井上俊哉1,孫媛2
(平成16年9月30日受理)
DIF Analysis of High School Achievement Test Based on
Mantel−Haenszel Procedure INouE, Shunya and SuN Yuan
(Received on September 30,2004)
キーワード:項目バイアス,差異項目機能,学力テスト,Mante1−Haenszel(MH)法, R Key words:Item bias, Differential item functioning(DIF), Achievement test,
Mantel・Haenszel(MH)procedure, R
1.問題と目的一・一 DIF研究の意義
1.1 テストバイアスと項目バイアス
テストは何らかの目的を持って行われ,テスト得点は,
その目的のために利用される.たとえば,学期末の英語 学力テストは,学期中に学んだ内容の理解・習得の程度 を把握するために行われ,80点をとった受験者は60点 の受験者より英語の学力が高い,と判断される.だが,
測定を意図する対象とは別の要因によって,テスト得点 の変動が生じることがある.たとえば,英語の学力テス
トがコンピュータで実施され,解答の際に,コンピュー タ操作の特殊な技能が必要とされるならば,コンピュー タ技能に慣れない受験者群の成績が,英語の学力のため ではなく,コンピュータ技能の不足のたあに劣るかもし れない.このように,テストの得点が測定目的と無関係 な要因の影響を受け,特定の集団が不利益を被るとき,
そのテストはバイアスを持つといわれる.重要な決定を 伴うテスト実施においては,テストにバイアスがないか
どうか,慎重に検討する必要がある.
テストバイアスはテスト全体の得点に関する偏りであ るが,テストに含まれる一っ一っの項目にっいての項目 バイアスも,テスト開発に当たって検討すべきものであ る.かって,米国のSATの類推問題中に, DECOY:
DUCK::という単語の対の間に成り立っのと同じ関係を
1 教養部
2 国立情報学研究所
持っ対を,(A)net:butterfly,(B)web:spider,(C)
lure:fish,(D)lasso:rope,(E)detour:shortcutか ら選べ,という項目があった(正解はC).この項目の 解答データを分析したところ,SATの250〜500点の各 得点において,男性受験者の正答率が女性受験者の正答 率を.15〜.20程度上回っていたという.SATの得点が 等しいグループ内で比較しているので,SATで測られ る能力については同等であるはずの男女において,正答 率の大きな差が生じる理由は,狩りや釣りなどアウトド ア活動への興味や経験の差に起因すると推測される.類 推能力を問うテストに含まれていながら,男女の経験の 差を反映してしまうこの項目はバイアスを持っと結論さ れ,以後SATの項目プールから削除された.
集団間の得点差がテストバイアスあるいは項目バイア スであるかどうかを決定するには,最終的には,テスト 得点あるいは項目得点が,テストの目的に添わない要因 によって偏っているという主観的な判断が必要になる.
テストバイアスと項目バイアスの間の大きな違いは,統 計的な偏りを同定するための外的基準の有無である.テ ストバイアスの場合には,テスト得点の集団差がバイア スに該当するかどうかは,終始,主観的に検討するしか ない.これに対して,項目バイアスの場合には,テスト 得点を外的基準として用いることによって,「テストで 測ろうとしている能力においては同等なのに,この項目 においては正答率の差がある.したがって,その差異は テストで測ろうとしているのとは無関係な要因による」
という形で,バイアスが存在する可能性を統計的に示す
ことができる(テスト全体にはバイアスがないことが前 提となる).こうした事情から,バイアスに関する統計 的・方法論的な研究は,ほとんどが項目バイアスに関す るものとなっている.
1.2 項目バイアスからDIFへ
項目バイアスへの関心は古く,20世紀初頭にBinetは 知能検査項目のあるものが(Binetのテストで測定を意 図した)心的能力(mental capacity)ではなく,家庭 や学校での文化的訓練の違いを反映し,低い社会階層出 身の子に不利であると気づいていた1).アメリカでも,
Eellsら(1951)2)が知能テスト項目の中に,学習機会の 少ない子に不利なものがあると指摘するなどの例がある.
バイアス研究は,1960年代以降,アメリカの社会情勢 の変化をうけて活性化する.1950年代後半に始まった 黒人の諸権利獲得運動が1960年代に入って本格化し,
1964年の公民権法成立に至る.黒人の運動に触発され,
他のマイノリティ(ヒスパニック,アジア系,ネイティ ブアメリカンなど)の運動が活発化するのも1960年代 だし,ニューフェミニズムもこの時期に重なる3).こ のような中,性や人種の違いによる不公平を排除する努 力の一環として,ETSが1964年からSATの項目バイア ス探索をテスト開発過程のルーティンとするなど,この 時期以降,バイアスの問題はテスト開発において決定的 に重要な課題となっていく.とくに社会的な影響力の大 きいテストを開発する場合には,項目バイアスの有無に っいて吟味することが不可欠となっており,項目バイア ス探索のための統計的方法も,1960,70年代以降,数多 く提案されている.
ところで,ある項目がバイアスを持っと決定するため には,「その項目が一方の集団にとって相対的に難しく,
かっ,困難の原因がテストの構成概念と関連しない
(Camilli&Shepard,19944), p.16)」ことを示す必要 がある.前半部分(項目が一方の集団にとって相対的に 難しく)については,集団差を統計的な手法で客観的に 示すことができるが,後者(困難の原因がテストの構成 概念と関連しない)にっいては主観的な判断が必要にな る,先に挙げたSAT項目の例(DECOY:DUCK)では,
正答率の集団差の原因が,男女の経験や興味の違いに基 づくという解釈が自然であり,バイアス項目であるとの 決定がなされた.しかし,統計的な集団差が見出されて も,その原因を解釈できなかったり,あるいは,その集
団差がテスト開発の目的を逸脱するものではないと判断 される場合もある.客観的・統計的手法の研究が盛んに なる過程で,統計的に見出された集団差を指すために,
「項目バイアス」とは別の語を当てようという議論が起 こってくる.初期の例として,Angoff(1982)5)がitem discrepancy methodsという語を胴いているほか,
1980年代には,differential item performance, differ−
ential item functioning(dif)等,さまざまな用語が使 われている.1{011and&Thayer(1988)6)は,その名も
Differential Item functioning という,それまでの 関連研究を集大成した本の序文において「difを示す項
目の多くにっいて必ずしもバイアスという言葉がふさわ しくない.したがって,テスト項目における集団差を指 すには,difという中立的な用語を使う方がよい」と述 べ,このころからDIF(差異項目機能)の用語が一般的 に用いられるようになっていく(PsyclNFOデータベー スでのDIF初出は,1986年である).
DIFを見いだす統計的手法は数多く提案されている.
今日よく使われる手法に共通する特徴は,テスト全体の 得点あるいは潜在特性値で2集団をマッチングした上で,
項目正答率の集団差を示そうとしていることである.2つ の集団からテスト全体の得点が同じ人だけを取り出して 比較(マッチング)してもなお現れる集団差は,テスト で測定を意図している構成概念とは無関係な要因の関与 を示しており,DIFの定義にも合致している.なお,
DIF分析では,比較される2集団のうち,白人,男性な ど「多数派・主流派」を参照集団(Reference group),
黒人,ヒスパニック,女性など「少数派」を焦点集団
(Focal group)とよぶのが通例である.
1.3 DIFを用いた応用研究
これまで見てきたようにアメリカでは,テストの公正 さを確保するという観点から出発して,項目バイアスを 統計的に見出すDIF手法に関する多くの研究が行われ ている.社会的公正さが強く求められる大規模テストで は,バイアスの可能性を極力排除せねばならないが,バ イアス検出を主観判断だけで行うには限界がある.通常,
主観のみでバイアスを探すよりも統計的方法を用いる方 が,数多くのバイアスの可能性のある項目(DIF項目)
を検出することができる.Ellis(1989)7)は,翻訳テス ト開発の文脈からであるが,バイアスの入らないように 多大の労力・時間をかけて項目を翻訳してもなおDIF
項目が見出されることから,テスト開発の初期の段階で DIF分析をすることを提案している.そして, DIFが 見出された後に,集団による偏りの原因を追及すればよ いというわけである.見出された偏りにっいて,たとえ ば,ETSのSchmitt(1988)8)は, SAT:▽の項目を内容分 析し,白人とヒスパニックの間のDIFの原因を検討し ている.また,Bolt(2000)9)はSAT−Mの男女差にっい て,項目の形式などの影響を探っている.このように,
20世紀後半以降,米国の大規模テスト開発のさまざま な局面において,DIFは必須の道具となっている.
だが,DIFを単に項目バイアスを見っける道具と限定 的に考える必要はない.DIF概念が項目バイアス概念か
ら独立した経緯はすでに記したとおりだが,テスト開発 過程で不適切な項目を発見することを越えて,DIFは有 効であり得る.Angoff(1993)10)は,「各国TOEFLデー タの分析」「文化差の検討」「平行テストの項目準備」な どいくっもの応用例を挙げている.実際,欧米では,翻 訳等価性の研究(Ellis,19897);Budgell et al.,199511)
など)をはじめとして,テスト開発の文脈以外でDIFを 活用する研究が増えている(翻訳等価性研究とは,オリ
ジナルのテストを別の言語に翻訳した場合,対応する項 目が同等の意味を持っかどうかを検討するものである).
日本では,おそらくバイアスへの関心が低かったこと もあり,欧米に比べ,DIFに関心が向けられるのは遅かっ た.1995年に,孫・井上12)がアメリカのDIF研究を紹 介し,池田13)が記述式問題を含む国語テストについて 採点者の違いを検討するためにDIFを応用したのが初
期の例である.その後,野口(2001)14),服部ら(2002)15)
などの研究報告があるほか,渡辺・野口(1999)16)には,
組織コミットメントの日米比較にDIFを応用した例が 紹介されている.また,2001年,2002年の日本心理学 会大会ワークショップでは,抑うっ検査(CES−D)への 回答の日米比較(岩田,200117)),日中米法意識の国際 比較調査への適用(藤本・野口,200218))などの研究報 告が行われた.
1.4 本研究の目的
上に見たように,日本でのDIF研究は一部で注目さ れっっあるが,もっともよく用いられるテストであり,
DIF分析の本来の対象でもある学力テストについては,
あまり研究が行われていない.池田(1995)13)が小学生の 国語テストを扱っているほかでは,例外的に,服部ら
(2002)15)が高校生の学力テストデータに関心を向けて いるが,適用された科目名や参照集団と焦点集団が何で あるか,などの情報が公開されていない.日本の学力テ ストにおいて,男女差によるDIFの可能性があるのか ないのかなど,基礎的な分析結果を公に積み重ねること は大事なことであろう.このたび,ある教育機関の協力 を得て全国規模の高校学力テストデータを利用する機会 を得たので,そのデータについて,男女の違いによる DIFの有無に関する検討を行うことを,本研究の第一の
目的とする.
また,日本のDIF研究ではIRT(項目反応理論)に基 づく検出法を適用したものが多い.IRTに基づく方法 は,理論的にはもっとも魅力的なものではあるが,適用 するにはテストデータが一次元性などIRTのモデルに 適合している必要がある.また,被験者も多数必要であ
り,特別あっらえのプログラムを必要とするなど,利用 する上での敷居はかなり高い.現実にDIFを適用した い場面で,IRTに基づく方法の必要条件がすべて満た されるのはかなり難しいとも考えられる.そこで,本研 究では,適用する上での条件が緩やかで,より簡便な MH法を適用することにした.欧米ではむしろ主流であ るMH法の有効性を示すことを,本研究の第2の目的と
する.
本研究で用いたデータでは,受験者の学校別について の情報も利用可能であった.そこで,学校の違いにより 参照集団と焦点集団を分けて,学校によるDIFを検討 することを,本研究の第3の目的とする.学校間で見出 されるDIFは,その科目の教育・指導における学校の 重要な特徴を示している可能性があり,学校による指導 の軽重などを見分ける上でDIFが有効な道具になるか
もしれない.
2.方法 2.1データ
今回利用が可能であったのは,全国15の公立高校3年 生4,718名を対象に実施された学力検査データ(2001年 6〜7月に実施)である.15の高校はいずれも共学で,
便宜上A校から0校としてコーディングしてある.5教 科9科目のデータが存在したが,理科にっいては物理・
化学・生物からの選択,社会にっいては世界史,日本史,
地理からの選択で,被験者数が減ってしまうために除外 し,国語,数学,英語の各科目について,DIF分析を加
えた.いずれの科目も多肢選択のマークシート形式テス ト,2値データである.なお,結果の項で示してある各 科目の出題領域にっいては,出題者による分類をそのま ま用いている.
分析で注目する集団として,まず性を取り上げた(男 性を参照集団,女性を焦点集団とした).また,学校差 にも注目した.今回は,15の学校のうち,受験者数が 比較的多く平均的な学力を持っ学校「J」からの受験者 を焦点集団,それ以外の受験者を参照集団とした.
2.2 DIFの検出法
DIFの検出について,多くの手法が提案されてし)る.
この10数年の間に利用されているものとして,IRTに 基づく方法,MH法,ロジスティック回帰を用いる方法,
SIBTESTなどがある.すでに触れたように,日本での DIF応用ではIRTに基づく方法を用いるものが多いが,
IRTに基づく方法は, DIFの応用研究を広く進める上 では,少々厳しい条件が前提となっている.これに対し て,本研究で採用したMantel−Haenszel(MH)法(Holland
&Thayer,198819))は,(1)概念的に比較的単純でわか りやすく,(2)特殊なプログラムの必要性が低い(SPSS などの一般的な統計パッケージで解析することが可能),
(3)DIFの有意性検定とDIFの大きさを示す統計量をと もに備えており(MH以前の方法ではいずれかしか示せ ないものが多かった),(4)サンプルサイズが比較的少 なくて済む(各群200名程度以上で良いとされる)など,
適用する上での敷居を低くする多くの長所を持つ.実際,
米国では,IRTに基づく方法以上に広く用いられてい る.ただし,項目数が少ないときに,第一種の誤りの確 率が膨らむことに注意が必要とされる.また,DIFを均 一DIFと不均一DIFに区別することがあるが,このう ち不均一DIFを想定しない方法なので,不均一一一 DIFを 見出すのは苦手であることも,MH法の短所として指摘
されている.
表1 得点」における連関表
正答i誤答
参照集団
. .._一_L−__−
@AjiBjo
NRj
,焦点集団 …一一一一一一bj ¥一一一一
NFl
L且一Nl」iN。j
Tl
MH法では,正答数得点をいくっかの水準に区切り,
各水準にっいて求められる連関表(表1)から,式(1)に 従って,MH_X2を計算する.
12・,一写叫α・2(1)
MH−xz=
var(Aj)
そして,MH−X2が自由度1のカイニ乗分布に近似す ることを利用して,DIFの有無を検定する.ここで,
va・(・,)一輪w%(Tj.1)(2)
であるが,分母からわかるように,得点j水準の人数が 1名以下(T、≦1)のとき,計算することができない,ま た,DIFの大きさを評価するためには,
鉱・lil;鞍 ③
を計算する.∂MHはDIFがないときには1になる. DIF の大きさを評価する統計量としては,っぎの△MHが広
く用いられている.
バ
ムMH=−2.35(ln a MH) (4)
ここで,−2.35が乗じられているのは,ETSが古くか ら用いてきた△尺度に合わせるためである.△MHの絶 対値が大きいほど大きなDIF,符号にっいては,正のと
きには焦点集団に有利な項目,負のときには参照集団に 有利な項目と解釈することができる.ETSではDIFを その大きさによって,「△M。=0という仮説が採択され る,あるいは仮説が棄却されても1△M。1<1のとき,A水 準(無視できる)DIF」「1△M。1が1.0よりも有意に大き
く,しかも1△MHI≧1.5のとき, C水準(大きな)DIF)」
「AにもCにも該当しないとき,B水準(中程度の)DIF)」
20)
).本研のように3水準に分類している(Zieky,1993 究でも,DIFの大きさにっいて判断する際にこの基準を 用いるが,すると△MHに関する検定が必要になる.そ こで,Phillips&Holland(1987)21)に従って求あた△M,
の標準誤差を利用して△M。の信頼区間を計算し,△MH の符号が正のときには,信頼区間の下限が0あるいは1 を上回るかどうか,負のときには信頼区間の上限が0あ るいは一1を下回るかどうかによって,△MH=0あるいは 1△.,1=1の仮説について判断することにした.
MHの計算は, SPSSなどの統計パッケージを用いれ ば,容易に行うことができる.だが,たとえばSPSSの
出力ではDIF分析に必要のない統計量が出力される一 方で,欠かせない△MHは出力されないなど,作業効率 の上でいくらか問題がある.そこで,本研究ではDIF 分析を行うプログラムを,近年注目されっっあるフリー の統計パッケージRの関数として自作した(R関数の作 成に当たっては,主として,間瀬ほか,200422)とSpector,
199423)を参考にした).このように,さまざまな方法で,
安く実施できること,自らプログラミングすることがそ れほど難しくないことなども,MH法を選択する大きな 理由になる.なお,テスト開発時にMH法を利用する 場合には,purifyといって,見出されたDIF項目をテ スト全体から除外した上で分析を繰り返すという手順が 推奨されているが,本研究ではテスト開発が目的ではな いので,purifyは行っていない.
3.結果 3.1 国語
国語を受験した者は4,177名である.正答率がもっと も低かったのは項目22の0.18,正答率が高かったのは,
項目2(0,93)と項目3(0.95)などで,その他の項目の正 答率は,0.31から0.80の間であった.また,国語合計 点(正答数得点)の分布は,図1の通りで,平均は13.38,
標準偏差は3。57であった.
次元性を確認するために,相関行列の固有値を求めた ところ,図2のようであった.第7固有値までが1を超 えており,尺度全体が一次元であるとはいいにくい.ま た,クロンバックのαはO.65で,項目数のわりにはか なり低いといわざるをえない.
8マOOn OO四
♂己oコσε店 OO一
o
Hlsto9「8m olkokugo
5 G 10 15 20
図1:国語正答数得点の分布
30@
固有値20@幡m o5
12 13 14 15 16 17 18 192021 22 23
成分番号
図2:国語23項目間の相関行列の固有値 3.1.1 性別
4,177名のうち,男性2,121名,女性2,056名である.
それぞれの平均は,13.10と13.68で女性の平均がわず かに高い.正答数得点0点から23点の両端付近で,そ の得点をとったものが1名以下であり,式(1)によりMH−
X2を計算できないため,3点刻み(O−2,3−5,…,21−
23点の8区分)に得点をまとめ,男性を参照集団,女性 を焦点集団としてMH統計量を計算した(表2).△MH に着目するとき,全般的にDIFの大きさは目立たず, C 水準に該当する項目9のみかなり大きなDIFを示して 表2:国語テストのDIF分析(参照集団:男,焦点集団:女)
出題領域 蝸H一κ2 P伍
△」咽95覧
オ頼区聞下限 △闘
△㎜95鷲 オ頼区聞上限 判定
1現代文・評 2,342 Oj26 ・0。556 尋,247 0,062 A
2 0,275 0,600 一〇,429 0,185 0,BOO A
3 0,683 0,409 』,395 0,340 1,075 A
4 2,110 0,146 一〇.543 ・0,234 0,075 A
5 5,574 0,018 ℃,708 ℃,389 ℃,071 A
6 11,516 0,001 一tO55 ℃.672 4,208 A
7 t155 0,283 尋,145 0,190 0,525 A
6.●■9 0,068. ・..・・
0︐794■ ﹄︐047・
0,264 A
9 .●● 鰯●●● o
サ代文・1、° 101,057 O,000●・・●●.0 o狽U48 ●09●●Q,053 ・曹・o■・9■ ■●曜
@ 2.458
・,巳 ・ 幽
@ C
10 2,B41 0,092 一〇.604 む,202 0,039 A
11
0,086 0,767 』.247 0,050 0,347 A
12
0,003 0,953 ・0.291 0,014 0,319 A
.」睾
t5470■
む200 0107 A
14 ..
テ文 . ■Q,548 0O.羽0
・ P 噂
E0,056 隔O,278
. ■● 0
@ 0.611
●● ■
̀
15
0,012 0。9羽 一〇.327 む,022 0,202 A
16
4,378 0,036 0,028 0,350 0,672 A
17
21,040 0,000 0,518 0,901 1,2a4 A 杷
tB91・
Oj69 ・0099 0256 0611 A
ig
曙o ・ ■
剳カ R,201....
噂 ,
O,074
o ●・ ●o■書●曹
E0.626 ■・ ● ■ o
x,302
O o● ■
@ 0.022
o ● ■
@ A
2021 14,521 0,000 ℃,942 ・0,624 η,305 A
4,520 0,033 0,031 0,333 0,636 A
22 3,376 0,066 む,790 4,387 0,016 A
23 0.捌 0,671 ・0.375 尋071 0233 A
いる.項目9の△M。の符号は正で,焦点集団=女性に有 利であることがわかる.図3は,合計点を横軸にとり,
男女別に項目9の正答率をグラフにしたものであるが,
これを見ると,5点以上のほとんどの得点において,女 性の正答率が上回っていることがわかる.項目9は「も どかしかった」という語句の意味を問う問題であるが,
1.o
o,e
O.6
o.4
O.2
1
{
o.o
O123456769101塾12131415、617181920212223 図3 項目9に関する得点別正答率(男女別)
DIFの生じた原因を解釈するのは難しい.項目10も語 句(「際どい」)の意味を問う問題であるが,こちらの
△MHはむしろ参照集団(男性)に有利であることを示す 負の値であり,語句の問題だから女性に有利などの解釈 には無理がある.そのほか△MHの符号に着目していく とき気づくのは,古文領域では5項目中4項目で正,漢
文領域では5項目中4項目で負となっており,女性は古 文が,男性は漢文が相対的に得意という傾向を読み取る
ことができる.
3.1.2 学校別
4,177名のうち,学校J以外3,837名,学校J340名で ある.それぞれの平均は,13.37と13.48であった.性 別の場合と同様,3点刻みで得点をまとめて,学校J以 外を参照集団,学校Jを焦点集団として,MH統計量を 計算した(表3).学校別については,水準Bに該当す る項目10を除くと,残る22項目はすべて水準Aに該当 し,目立って大きなDIFは見出せない.項目10は,性 別の項にも記したとおり,語句の問題である.あえて傾 向をいえば,現代文・評論に関する大問1で,△M。に正 の符号が多く,学校J(焦点集団)は,この領域での得 点が総合点のわりに高いということを見て取ることはで 表3 国語テストのDIF分析(参照集団:学校J以外,焦点集団 学校J)
出題領域 MH−X2 P値 △MH95%M頼区聞下限 △践胴 △MH95%M頼区闇上限 判定
1 現代文・評 3,386 0,066 心.018 0,566 t150 A
2 1,748 0,186 一〇.347 0,947 2,240 A
3 0282 0,595 ℃958 0,517 t991 A
4 1,497 0,221 心,194 0,364 0,923 A
5 4,904 0,027 0,089 0,672 1255 A
6 0,147 0,701 一〇.553 0,175 0,903 A
7 0,050 0,822 一{〕.524 0,092 0,707 A
8 0.コ5a 0,697 .α693 の,130 9,434 A
. 9 ,サ代文・小 1,681 0,195 ヨ1.137 ooS},464 印 0.209 A
10 12,763 0,000 0,467 1,022 1,578 B
11 4,191 0,041 司」15 qO.576 一〇.037 A
12 0,877 0,349 一〇,828 4},278 0,271 A
13 _0、91ヱ 0,896 』505 0,055 0,616 A
7 , ● ● ■ , ■, , ・ ● ・・・ .o・o .9 ● ,,
14古文 9,437 O,002 二1.543 の,948 ℃,353 A
15 1,287 0,257 蓬},911 一〇.345 0,222 A
16 1,215 0,270 《),244 0,345 0,934 A
17 O,710 0,400 司,032 一〇.332 0,368 A
18 3,456 0,063 刈,222 ℃,600 0,023 A
. ,噛 哺oo■ oの ・ ・ o oo ・OO o 吻■■ 傅・●.o, ,, o ●99
19漢文 0,137 0,712 運),45B 0,132 0,723 A
20 0,083 0,773 く),671 《},101 0,469 A
21 0,440 0,507 一〇352 0,208 0,768 A
22 0,906 0,341 司,134 《},387 0,360 A
23 0,247 0,619 一〇,396 0,159 0,714 A
表4:数学テストのDIF分析(参照集団:男,焦点集団:女)
出題領域 MH−x2 P値 △…95鮎M頼区間下限 △… △囲95%棊葛謚ヤ上限 判定
1 2次関数とグラフ 1,455 O,228 司,514 {L604 O,306 A
22次関数の値の変化 O,102 O,749 一C,407 く).063 O,281 A
3数と式 1,926 O,165 べ),695 ・C.293 o,109 A
4数と式 2,897 O,089 《).660 4),310 O,040 A
5 数と式 5,394 0,020 司).832 く}.455 運〕.077 0 A・ ●o ..
, 6
三角比と図形 9,561 ◎,OO2 O,385 1,022 1,658 B
7 三角比 6,697 o,010 0,207 o,800 1,394 A
8三角比と図形 O,313 0,576 一◎.651 《〕,155 O,341 A
9三角比と図形 o,ooo 0,999 つ,454 O,012 O,479 A
10 三角比と図形 1,033 O,310 ・つ,565 く)」98 O,169 A
11 三角比と図形 2,974 O,085 く⊃.937 つ,446 O,046 A
■ o・騨
@ 12 9●●o o ・●・ ●
Q次関数の値の変化 ●●り騨o●@ 5,546
●● ■ 脚 ●
@ O.019
賜 ● ・
@ 0,082
■ … .,
@0,449 ooooooo o
@ O.817 ,● ・.・・.,@ A
132次関数の値の変化 1,603 O,205 .C,129 O,259 O,646 A
, o● 膚
@ 14
o o ・
}形と方程式
● ● .
@ 8.820
騨 ・9.
@ O.OO3
■ ●o ●●●
@ 0222
,● 0
@ 0.636 ●■●●σ●9 騨■●, .●
@ 1.050 ● 0 9,,o
@ A 15
P6
図形と方程式 }形と方程式
O,927 O,301
O,336 O,583
嫁),1go S),382
0200
O,172
O,590 O,725
AA
17図形と方程式 4,981 O,026 .O,888 く),477 4).066 A
きる.
因子のスクリープロット
3.2 数学
数学を受験した者は,3,981名であった.正答率がもっ とも低かったのは項目16の0.16,もっとも高かったの は項目1の0.96で,その他の項目にっいては,0.21から 0.88の間であった.全3,981名の正答数の分布は,図4 の通りで,平均は9.70,標準偏差は4.04であった.
図5は,相関行列の固有値に関するスクリー図である.
第5固有値までが1を超えており,一次元性が確保され ているとはいいにくい.また,クロンバックのαは0.85
であった.
3.2.1 性別
3,981名のうち,男性2,021名,女性1,960名である.
◎Qn 00n
台5&ε﹂ OO︐
o
Hl8togr●m ot SUUgtku
コ固有値
戒分番号
図5:数学17項目間の相関行列の固有値 男性の平均10.14,女性の平均9.25で若干男性の平均が 高かった.数学では,性別および学校別のいずれについ ても,0点から17点のすべての得点水準にっいて,MH−
x2を計算することが可能だったので,得点をまとめる ことはせずに,MH統計量を計算した.なお,2点ある いは3点でまとめて分析を行っても,今回行った1点刻 みの結果と大筋において差は見られなかった.
性別に関する分析の結果は表4の通りである.項目6 で△MHが1を超え, B水準に該当しているほかは,目立っ て大きなDIF項目は見いだせない.大問1の5項目の符 号がすべて負であり,2次関数や数と式に関するこれら の項目群が参照集団(男性)に有利であった傾向が見て 取れる.
3.2.2 学校別
学校J以外3,678名,学校J303名にっいて, MH分
。 ・ 1。 15 析を行った(表5).それぞれの平均は,9.69と9.88で 図4:数学正答数得点の分布 学校Jの平均がわずかに高かった.比較的大きなDIF 表5:数学テストのDIF分析(参照集団:学校J以外,焦点集団:学校J)
出題領域 M巨一κ2 P値 △棚95%
M頼区間下限 △囲
△MH95%
M頼区間上限 判定
→
2次関数とグラフ 1,333 0,248 一〇,713 1,522 3,758 A
22次関数の値の変化 7.72書 0,005 O,280 0,958 1,636 A
3 数と式 8939 O,OO3 0,470 1,296 2,122 B
4 数と式 0,831 0,362 イ}.323 O,330 O,982 A
5数と式 3,813 0,051 0,034 0,721 1,409 A
6三角比と図形 t209 0,272 斗874 一{⊃.728 O,418 A
7三角比 6,404 o.o書1 弓〜.447 斗407 {),368 B
8三角比と図形 2,742 α098 4.6.3 {).742 O,129 A
9三角比と図形 2,902 0,088 斗683 心.808 O,066 A
↑o 三角比と図形 8,333 0,004 一t773 司.063 イ〕.353 B
讐b
三角比と図形 0338 056↑ 4208 ・{}.310 0587 A
書22次関数の値の変化 075τ 0,386 イ〕,357 0,341 狽n40・ ■ 一一 印一}̀
↑32次関数の値の変化 1,357 O,244 く),259 O,470 1」99 A
14図形と方程式 2.5璽5 0.t13 4,413 .ュ),653 ・ ,ソ107 A
書5図形と方程式 0,418 0.5↑8 一C993 {L269 O,454 A
↑6図形と方程式 0.讐6 0,733 4〕.742 O,216 1,173 A
17 図形と方程式 1,241 0,265 一1.257 {).471 0,315 A
を示す項目が多く,項目3,7,10の3項目がB水準に 該当している.また,目立っのは,領域ごとに符号に一 定の傾向が見られることである.△MHの符号は,2次関 数,数と式などで正(焦点集団,すなわち学校Jに有利),
三角比や図形の問題で負(学校Jに不利)になっている.
学校Jで行われた授業が2次関数などに重点があり,三 角比や図形が相対的に軽く扱われた可能性を示唆する.
項目3に関して,学校Jとそれ以外の学校別に描い た正答率グラフを見ると,大部分の得点範囲において,
学校Jの受験者の正答率が高めに出ていることがわかる
(図6).逆に学校Jに不利なDIFが見られる項目7では,
ほとんどの得点水準において,学校Jの正答率が他の学 校よりも低くなっている(図7).
1.0
.∠
o.e グメ
0。6
O.4
0.2
0.O
o 1 ? 3 4 5 6 , 8 9 10 el 12 13 e4 Ts t6 17
図6:項目3に関する得点別正答率(学校別)
1.0
0.0
0.6
0.4
11,■,ima 一 1 、汐晒純^
7yv
,.冨
ま17.39,
§§§Ω漏
む5茜2覧
8
標準偏差は6.48である.
HlstQgfem o「●lga
6 tn . on ea aft 35
図8:英語正答数得点の分布
次元性を確認するたあに,相関行列の固有値を求めた ところ,図9のようであった.第5固有値までが1を超 えているが,スクリー図から判断して,国語や数学と比 べると尺度全体が一次元に近くなっている.クロンバッ
クのαはO.85である.
固有僚
因子のスケリープロット
0.2 噸学校J
一学校J以外
0.O
O 1 2 3 4 5 6 , 8 9 10 11 12 13 14 t5 16 11
図7:項目7に関する得点別正答率(学校別)
3.3 英語
英語を受験した者は4,153名であった.正答率がもっ とも低かったのは項目1の0.17,もっとも高かったのは 項目17の0.94,その他は0.32から0.73の間で,国語や 数学と比べると,正答率が極端に低い,あるいは高い項 目は少ない.英語合計点の分布は,図8の通りで,平均
一Nωbe°v■ceU=部δ;覇G5お68曽器窃掌描霧巴富冨8望認器
成分看号
図9:英語33項目間相関行列の固有値 3.3.1 性別
英語の受験者4,153名のうち,男性2,111名,女性 2,042名である.男女の平均は,それぞれ17.05と17.73 で,女性の平均がわずかに高かった.なお,0点から33点 のうち,両端付近の得点をとった被験者数が極めて少な く,国語の場合と同様,MH統計量を計算できないとい う問題が起こったため,英語では得点を2点刻みでまと めてDIF分析を行っている.(性別・学校別とも)
性別に関しては,△MHの大きさはあまり大きくなく,
唯一B水準に該当する項目17(△M。=1,680)以外は,す べてA水準に該当する(表6).
表6 英語テストのDIF分析(参照集団 男,焦点集団 女)
定判
AAAAAAAAAAAAAAAABAAAAAAAAAAAAAAAA
限%上59摺剛区△頼 信脳35嗣88%85詳2395器85盤器︒5伯︒6563︒η磐恰3996引26碧6658薦婁・︒窮舅・︒蟹・︒・︒㎎・︒弩・︒・︒・︒㎝・︑麗・︒・︒餉
726312856670572408812255582294970 8 4︐0717071412614500780479367176390β−2β﹂6の3﹄鴻﹄−鴻3£鴻燈渇3£2圃23の︒22ゆ2鴻2の﹂っ0心っ︒っ︒000・っ0っ℃?︒っっ︒℃︒︒℃っっ︒0心︒︒︒
027748670787551946387639341897229 7fO7191837173872315590948024928224ゆ2βjj82ゆ﹂﹂﹂4﹂β8﹂8﹂73沿7﹂ゆ3ββ2n鴻022司っ心司℃£っ︒030っっ・002℃︒℃︒心℃っっっ心℃£
陥 118060083615830402977807622309303029060062073070000599173596784901 ゆ9℃﹂超︒05つBβP恩心03D3っ40鴻4︒0ρっのOb90︒600﹂000000000000000000000000000000000 〆↑胴117791412899157551126432335649745313417634110iO3662654585035265165︒1鴻77β20 3£ ︒5ββ﹂23鴻Oゆ恩﹂7石ββゆ38ゆの33つ21024030307007348003025140210302001 2 1 1 21 域樋題出 ggggg呂ggトトトト ㎎㎎㎎㎎ ㎎㎎崩漁・⁝蘭南・⁝陥廟ンンンン 調詣画 醐醐塞器加総胎霧 霧雛灘離難護嚢難駄難灘嫌器難灘
123456789012345678901234567890123 111111111122222222223333
表7 英語テストのDIF分析(参照集団 学校J以外,焦点集団 学校J)
定判
ABAAAAAAAAAACBAAAAAAAAAAAABAAAAAA
88
U。ヲ2358語碧龍゜6η男ゆ5︒︒6器゜99365器6︒6︒肝5353醜5︒硲74β2β﹂ ︒452﹂ 544 ︒94β2 ︒1β9﹂のn4β7 ︒39 ︒6ゆ2﹂60つ011110つつ112つOOOつOOlO心OOOつOOOOOO
㎝勝霧護㎝紮懸謹講甥㎜甜鷲溜譜罐髄翻︐ . . o . ● ・ ・ . ・ ・ ︐ ︐ ・ ° . ° ° ・ ︐ p . ° ︐ ︐ ■ o . . e ● ・ 昌︒司︒︒︒︒︒心つ℃︒01司心︒つ心︒o︒つ心つ︒︒司︒︒つ心つ︒
嚇刷△ 574432378401907450412584698568585餌5556°9︒5°232罰鴛鴇醸3︒99麗33%︒8蜷μ2935お155︒°6器56・ . . ● ・ ○ . . c ° ● 6 ■ ● ・ ° ○ . ° . ° ワ . . ° ・ ・ . ° ︐ ︐ 幽 ゜℃司つ︒︒心︒心司司︒︒−ぞ心つ司司つつつ↓司つつつ司つ心司つ↓つ
厳 8017972254180005916967494444301269︒∞98°2°3︒6°︒95∞°2°︒α゜︒︒︒器憾゜24︒四侶餌69銘゜︒v85°8釦蛋● . ︐ ・ ︐ . . ● ・ ︐ ︐ ・ ・ ● ● ︐ ・ ● ・ ● ︐ ° ° ■ ° ・ ・ ︐ . ° ・ ︒ .OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO
ノ臣M醤㎝猛器゜4殉諸完2658餌蚤㍊堰96鵜引゜539馴桝5528馴゜50ゆつ9234ρβコ追β︒37のε92お90お50﹄744︒8£Oの︒9の030443907515930015012240008103110 1 1 0﹂ウら
域領題出 99999999灘 講蕪蕪難難難難難難㎞驚離篶鰭MM麗M
123456789012345678901234567890123 111111111122222222223333
3.3.2 学校別
英語の受験者4,153名のうち,学校J以外からの受験 者が3,812名,学校Jからは341名である.それぞれの 平均は,17.46と16.52で,学校Jの受験者の平均がや や低い.
学校別に関しては(表7),項目13がC水準,項目2,
項目14と項目27がB水準で,性別の場合と比べ,大き めのDIF項目がいくっか見られる. C水準に該当する 項目13に関して得点別正答率を学校別にグラフ化した のが図10である,正答数がごく低い(英語学力が低い)
受験者層を除くと,ほとんどの得点水準において,学校 Jの受験者の正答率が高いことがわかる.この項目は,
When did you catch the boy[]apples from the garden? の空欄部分に, stea1, stealing, to be stealing, to stealのいずれが適切かを問うものである.
学校Jはほかの文法に関する項目でも(例外はあるが)
正の△MHを示すことが多く,文法に強調点を置いた授 業を進行している,などの可能性も考えられる.
1
08
06
04
02
…° J噸
0
2468101214161820222425283032
図10:項目13に関する得点別正答率(学校別)
4.まとめと考察
本研究で用いたMH法はIRTに基づく方法と比べる と,適用のための条件は緩やかである.それでも,今回 用いたデータは,①項目数が少ない(とくに数学),② 多次元で正答数得点の持つ意味が曖昧になっている可能 性がある,③いくっかの大問では複数の項目への解答が 互いに連動しているなど,得られた結果を解釈する上で 若干の注意は必要である.だが,DIF分析のために,こ れだけ多くの被験者に学力検査を実施することは非常に 困難であり,データの提供を受けて行われた今回の分析 から得られた結果は,日本のDIF研究のための貴重な
資料になりうると考える.
まず,国語23項目データの性別による分析では,1項 目を除き,A水準(無視できるDIF)と判定された.だ が,1項目のみは,C水準に相当するかなり大きなDIF を示している.なぜそのような差異が生じているのか本 データから推測することが難しく,項目バイアスの定義 には当てはまらないかもしれないが,重要な決定を伴う テストにおいて,このようなDIFが生じているとした ら,無視できない問題であろう(ETSでは,相応の理由 がないかぎりC水準項目はテストから除外するという),
また,1項目ずっで見ると,△MHの絶対値はかならずし も大きくないが,古文や漢文などの領域で見ると,同じ 領域に属する項目で符号がほぼ一致しており,いくつか の項目がまとまってDIFを示している可能性がある.
このような複数項目で生じる差異は,DBF(Differential Bundle Functioning)と呼ばれ, SIBTEST(Shealy&
Stout,199324))というプログラムで分析すると把握す ることができる.同じ国語学力の中でも,男性,女性そ れぞれに有利な領域が存在する可能性にっいて,今後,
SIBTESTを用いて解析することが望まれる.また,国 語23項目データの学校別による分析でも,1項目がB 水準に該当するほかはA水準DIFであり,全体として は,大きなDIFは見られない.学校別では学校Jの
△M。の符号が現代文・評論項目で正であるものが多く,
学校Jにおいて,こうした領域の指導に重点がおかれて いる可能性が示唆される.
数学17項目データの性別による分析では,1っのB 水準項目以外は,A水準項目であるが,ここでも領域に よる△MHの符号の偏りが観察される.とくに,「2次関 数」や「数と式」の項目で構成される大問1の全項目で,
男性に有利であることを示す負の符号となっている.
(ただし,大問1のうち2項目は互いに関連があり,そ の影響も考える必要はある.)科目内での領域について 男女DIFを検討した先行研究として,カナダの大規模 学力テストの数学(mathematics)と理科(science)にっ いて,SIBTESTを用いて分析した例がある(Boughton ら,200025)).Boughtonらは,9年生の男女それぞれ 6,000名から得られた数学テストデータ(全50項目)を5つ の領域(Number systemsand operations, ratio and pro−portlons, measurementand geometry, data man−
agement, algebra)ごとに項目群(これをbundleと呼ぶ)
としてまとめて,SIBTESTによって検証的に分析を行っ
(10)