雑誌名東京家政大学研究紀要 1 人文社会科学

(1)

MH法による学力テストデータの差異項目機能分析

著者井上俊哉, 孫媛

雑誌名東京家政大学研究紀要 1 人文社会科学

巻 45

ページ 1‑13

発行年 2005

出版者東京家政大学

URL http://id.nii.ac.jp/1653/00009157/

(2)

MH法による学力テストデータの差異項目機能分析

井上俊哉1，孫媛2

（平成16年9月30日受理）

DIF Analysis of High School Achievement Test Based on

Mantel−Haenszel Procedure INouE， Shunya and SuN Yuan

（Received on September 30，2004）

キーワード：項目バイアス，差異項目機能，学力テスト，Mante1−Haenszel（MH）法， R Key words：Item bias， Differential item functioning（DIF）， Achievement test，

Mantel・Haenszel（MH）procedure， R

1．問題と目的一・一 DIF研究の意義

1．1 テストバイアスと項目バイアス

テストは何らかの目的を持って行われ，テスト得点は，

その目的のために利用される．たとえば，学期末の英語学力テストは，学期中に学んだ内容の理解・習得の程度を把握するために行われ，80点をとった受験者は60点の受験者より英語の学力が高い，と判断される．だが，

測定を意図する対象とは別の要因によって，テスト得点の変動が生じることがある．たとえば，英語の学力テス

トがコンピュータで実施され，解答の際に，コンピュータ操作の特殊な技能が必要とされるならば，コンピュータ技能に慣れない受験者群の成績が，英語の学力のためではなく，コンピュータ技能の不足のたあに劣るかもしれない．このように，テストの得点が測定目的と無関係な要因の影響を受け，特定の集団が不利益を被るとき，

そのテストはバイアスを持つといわれる．重要な決定を伴うテスト実施においては，テストにバイアスがないか

どうか，慎重に検討する必要がある．

テストバイアスはテスト全体の得点に関する偏りであるが，テストに含まれる一っ一っの項目にっいての項目バイアスも，テスト開発に当たって検討すべきものである．かって，米国のSATの類推問題中に， DECOY：

DUCK：：という単語の対の間に成り立っのと同じ関係を

1 教養部

2 国立情報学研究所

持っ対を，（A）net：butterfly，（B）web：spider，（C）

lure：fish，（D）lasso：rope，（E）detour：shortcutから選べ，という項目があった（正解はC）．この項目の解答データを分析したところ，SATの250〜500点の各得点において，男性受験者の正答率が女性受験者の正答率を．15〜．20程度上回っていたという．SATの得点が等しいグループ内で比較しているので，SATで測られる能力については同等であるはずの男女において，正答率の大きな差が生じる理由は，狩りや釣りなどアウトドア活動への興味や経験の差に起因すると推測される．類推能力を問うテストに含まれていながら，男女の経験の差を反映してしまうこの項目はバイアスを持っと結論され，以後SATの項目プールから削除された．

集団間の得点差がテストバイアスあるいは項目バイアスであるかどうかを決定するには，最終的には，テスト得点あるいは項目得点が，テストの目的に添わない要因によって偏っているという主観的な判断が必要になる．

テストバイアスと項目バイアスの間の大きな違いは，統計的な偏りを同定するための外的基準の有無である．テストバイアスの場合には，テスト得点の集団差がバイアスに該当するかどうかは，終始，主観的に検討するしかない．これに対して，項目バイアスの場合には，テスト得点を外的基準として用いることによって，「テストで測ろうとしている能力においては同等なのに，この項目においては正答率の差がある．したがって，その差異はテストで測ろうとしているのとは無関係な要因による」

という形で，バイアスが存在する可能性を統計的に示す

(3)

ことができる（テスト全体にはバイアスがないことが前提となる）．こうした事情から，バイアスに関する統計的・方法論的な研究は，ほとんどが項目バイアスに関するものとなっている．

1．2 項目バイアスからDIFへ

項目バイアスへの関心は古く，20世紀初頭にBinetは知能検査項目のあるものが（Binetのテストで測定を意図した）心的能力（mental capacity）ではなく，家庭や学校での文化的訓練の違いを反映し，低い社会階層出身の子に不利であると気づいていた1）．アメリカでも，

Eellsら（1951）2）が知能テスト項目の中に，学習機会の少ない子に不利なものがあると指摘するなどの例がある．

バイアス研究は，1960年代以降，アメリカの社会情勢の変化をうけて活性化する．1950年代後半に始まった黒人の諸権利獲得運動が1960年代に入って本格化し，

1964年の公民権法成立に至る．黒人の運動に触発され，

他のマイノリティ（ヒスパニック，アジア系，ネイティブアメリカンなど）の運動が活発化するのも1960年代だし，ニューフェミニズムもこの時期に重なる3）．このような中，性や人種の違いによる不公平を排除する努力の一環として，ETSが1964年からSATの項目バイアス探索をテスト開発過程のルーティンとするなど，この時期以降，バイアスの問題はテスト開発において決定的に重要な課題となっていく．とくに社会的な影響力の大きいテストを開発する場合には，項目バイアスの有無にっいて吟味することが不可欠となっており，項目バイアス探索のための統計的方法も，1960，70年代以降，数多く提案されている．

ところで，ある項目がバイアスを持っと決定するためには，「その項目が一方の集団にとって相対的に難しく，

かっ，困難の原因がテストの構成概念と関連しない

（Camilli＆Shepard，19944）， p．16）」ことを示す必要がある．前半部分（項目が一方の集団にとって相対的に難しく）については，集団差を統計的な手法で客観的に示すことができるが，後者（困難の原因がテストの構成概念と関連しない）にっいては主観的な判断が必要になる，先に挙げたSAT項目の例（DECOY：DUCK）では，

正答率の集団差の原因が，男女の経験や興味の違いに基づくという解釈が自然であり，バイアス項目であるとの決定がなされた．しかし，統計的な集団差が見出されても，その原因を解釈できなかったり，あるいは，その集

団差がテスト開発の目的を逸脱するものではないと判断される場合もある．客観的・統計的手法の研究が盛んになる過程で，統計的に見出された集団差を指すために，

「項目バイアス」とは別の語を当てようという議論が起こってくる．初期の例として，Angoff（1982）5）がitem discrepancy methodsという語を胴いているほか，

1980年代には，differential item performance， differ−

ential item functioning（dif）等，さまざまな用語が使われている．1｛011and＆Thayer（1988）6）は，その名も

Differential Item functioning という，それまでの関連研究を集大成した本の序文において「difを示す項

目の多くにっいて必ずしもバイアスという言葉がふさわしくない．したがって，テスト項目における集団差を指すには，difという中立的な用語を使う方がよい」と述べ，このころからDIF（差異項目機能）の用語が一般的に用いられるようになっていく（PsyclNFOデータベースでのDIF初出は，1986年である）．

DIFを見いだす統計的手法は数多く提案されている．

今日よく使われる手法に共通する特徴は，テスト全体の得点あるいは潜在特性値で2集団をマッチングした上で，

項目正答率の集団差を示そうとしていることである．2つの集団からテスト全体の得点が同じ人だけを取り出して比較（マッチング）してもなお現れる集団差は，テストで測定を意図している構成概念とは無関係な要因の関与を示しており，DIFの定義にも合致している．なお，

DIF分析では，比較される2集団のうち，白人，男性など「多数派・主流派」を参照集団（Reference group），

黒人，ヒスパニック，女性など「少数派」を焦点集団

（Focal group）とよぶのが通例である．

1．3 DIFを用いた応用研究

これまで見てきたようにアメリカでは，テストの公正さを確保するという観点から出発して，項目バイアスを統計的に見出すDIF手法に関する多くの研究が行われている．社会的公正さが強く求められる大規模テストでは，バイアスの可能性を極力排除せねばならないが，バイアス検出を主観判断だけで行うには限界がある．通常，

主観のみでバイアスを探すよりも統計的方法を用いる方が，数多くのバイアスの可能性のある項目（DIF項目）

を検出することができる．Ellis（1989）7）は，翻訳テスト開発の文脈からであるが，バイアスの入らないように多大の労力・時間をかけて項目を翻訳してもなおDIF

(4)

項目が見出されることから，テスト開発の初期の段階で DIF分析をすることを提案している．そして， DIFが見出された後に，集団による偏りの原因を追及すればよいというわけである．見出された偏りにっいて，たとえば，ETSのSchmitt（1988）8）は， SAT：▽の項目を内容分析し，白人とヒスパニックの間のDIFの原因を検討している．また，Bolt（2000）9）はSAT−Mの男女差にっいて，項目の形式などの影響を探っている．このように，

20世紀後半以降，米国の大規模テスト開発のさまざまな局面において，DIFは必須の道具となっている．

だが，DIFを単に項目バイアスを見っける道具と限定的に考える必要はない．DIF概念が項目バイアス概念か

ら独立した経緯はすでに記したとおりだが，テスト開発過程で不適切な項目を発見することを越えて，DIFは有効であり得る．Angoff（1993）10）は，「各国TOEFLデータの分析」「文化差の検討」「平行テストの項目準備」などいくっもの応用例を挙げている．実際，欧米では，翻訳等価性の研究（Ellis，19897）；Budgell et al．，199511）

など）をはじめとして，テスト開発の文脈以外でDIFを活用する研究が増えている（翻訳等価性研究とは，オリ

ジナルのテストを別の言語に翻訳した場合，対応する項目が同等の意味を持っかどうかを検討するものである）．

日本では，おそらくバイアスへの関心が低かったこともあり，欧米に比べ，DIFに関心が向けられるのは遅かった．1995年に，孫・井上12）がアメリカのDIF研究を紹介し，池田13）が記述式問題を含む国語テストについて採点者の違いを検討するためにDIFを応用したのが初

期の例である．その後，野口（2001）14），服部ら（2002）15）

などの研究報告があるほか，渡辺・野口（1999）16）には，

組織コミットメントの日米比較にDIFを応用した例が紹介されている．また，2001年，2002年の日本心理学会大会ワークショップでは，抑うっ検査（CES−D）への回答の日米比較（岩田，200117）），日中米法意識の国際比較調査への適用（藤本・野口，200218））などの研究報告が行われた．

1．4 本研究の目的

上に見たように，日本でのDIF研究は一部で注目されっっあるが，もっともよく用いられるテストであり，

DIF分析の本来の対象でもある学力テストについては，

あまり研究が行われていない．池田（1995）13）が小学生の国語テストを扱っているほかでは，例外的に，服部ら

（2002）15）が高校生の学力テストデータに関心を向けているが，適用された科目名や参照集団と焦点集団が何であるか，などの情報が公開されていない．日本の学力テストにおいて，男女差によるDIFの可能性があるのかないのかなど，基礎的な分析結果を公に積み重ねることは大事なことであろう．このたび，ある教育機関の協力を得て全国規模の高校学力テストデータを利用する機会を得たので，そのデータについて，男女の違いによる DIFの有無に関する検討を行うことを，本研究の第一の

目的とする．

また，日本のDIF研究ではIRT（項目反応理論）に基づく検出法を適用したものが多い．IRTに基づく方法は，理論的にはもっとも魅力的なものではあるが，適用するにはテストデータが一次元性などIRTのモデルに適合している必要がある．また，被験者も多数必要であ

り，特別あっらえのプログラムを必要とするなど，利用する上での敷居はかなり高い．現実にDIFを適用したい場面で，IRTに基づく方法の必要条件がすべて満たされるのはかなり難しいとも考えられる．そこで，本研究では，適用する上での条件が緩やかで，より簡便な MH法を適用することにした．欧米ではむしろ主流であるMH法の有効性を示すことを，本研究の第2の目的と

する．

本研究で用いたデータでは，受験者の学校別についての情報も利用可能であった．そこで，学校の違いにより参照集団と焦点集団を分けて，学校によるDIFを検討することを，本研究の第3の目的とする．学校間で見出されるDIFは，その科目の教育・指導における学校の重要な特徴を示している可能性があり，学校による指導の軽重などを見分ける上でDIFが有効な道具になるか

もしれない．

2．方法 2．1データ

今回利用が可能であったのは，全国15の公立高校3年生4，718名を対象に実施された学力検査データ（2001年 6〜7月に実施）である．15の高校はいずれも共学で，

便宜上A校から0校としてコーディングしてある．5教科9科目のデータが存在したが，理科にっいては物理・

化学・生物からの選択，社会にっいては世界史，日本史，

地理からの選択で，被験者数が減ってしまうために除外し，国語，数学，英語の各科目について，DIF分析を加

(5)

えた．いずれの科目も多肢選択のマークシート形式テスト，2値データである．なお，結果の項で示してある各科目の出題領域にっいては，出題者による分類をそのまま用いている．

分析で注目する集団として，まず性を取り上げた（男性を参照集団，女性を焦点集団とした）．また，学校差にも注目した．今回は，15の学校のうち，受験者数が比較的多く平均的な学力を持っ学校「J」からの受験者を焦点集団，それ以外の受験者を参照集団とした．

2．2 DIFの検出法

DIFの検出について，多くの手法が提案されてし）る．

この10数年の間に利用されているものとして，IRTに基づく方法，MH法，ロジスティック回帰を用いる方法，

SIBTESTなどがある．すでに触れたように，日本での DIF応用ではIRTに基づく方法を用いるものが多いが，

IRTに基づく方法は， DIFの応用研究を広く進める上では，少々厳しい条件が前提となっている．これに対して，本研究で採用したMantel−Haenszel（MH）法（Holland

＆Thayer，198819））は，（1）概念的に比較的単純でわかりやすく，（2）特殊なプログラムの必要性が低い（SPSS などの一般的な統計パッケージで解析することが可能），

（3）DIFの有意性検定とDIFの大きさを示す統計量をともに備えており（MH以前の方法ではいずれかしか示せないものが多かった），（4）サンプルサイズが比較的少なくて済む（各群200名程度以上で良いとされる）など，

適用する上での敷居を低くする多くの長所を持つ．実際，

米国では，IRTに基づく方法以上に広く用いられている．ただし，項目数が少ないときに，第一種の誤りの確率が膨らむことに注意が必要とされる．また，DIFを均一DIFと不均一DIFに区別することがあるが，このうち不均一DIFを想定しない方法なので，不均一一一 DIFを見出すのは苦手であることも，MH法の短所として指摘

されている．

表1 得点」における連関表

正答i誤答

参照集団

．．．＿一＿L−＿＿−

@AjiBjo

NRj

，焦点集団 ^{…一一一一一一}bj ^{¥一一一一}

NFl

L且一Nl」iN。j

Tl

MH法では，正答数得点をいくっかの水準に区切り，

各水準にっいて求められる連関表（表1）から，式（1）に従って，MH＿X2を計算する．

12・，一写叫α・2（1）

MH−xz＝

var（Aj）

そして，MH−X2が自由度1のカイニ乗分布に近似することを利用して，DIFの有無を検定する．ここで，

va・（・，）一輪w％（Tj．1）（2）

であるが，分母からわかるように，得点j水準の人数が 1名以下（T、≦1）のとき，計算することができない，また，DIFの大きさを評価するためには，

鉱・lil；鞍 ③

を計算する．∂MHはDIFがないときには1になる． DIF の大きさを評価する統計量としては，っぎの△MHが広

く用いられている．

バ

ムMH＝−2．35（ln a MH） ^（4）

ここで，−2．35が乗じられているのは，ETSが古くから用いてきた△尺度に合わせるためである．△MHの絶対値が大きいほど大きなDIF，符号にっいては，正のと

きには焦点集団に有利な項目，負のときには参照集団に有利な項目と解釈することができる．ETSではDIFをその大きさによって，「△M。＝0という仮説が採択される，あるいは仮説が棄却されても1△M。1＜1のとき，A水準（無視できる）DIF」「1△M。1が1．0よりも有意に大き

く，しかも1△MHI≧1．5のとき， C水準（大きな）DIF）」

「AにもCにも該当しないとき，B水準（中程度の）DIF）」

20）

）．本研のように3水準に分類している（Zieky，1993 究でも，DIFの大きさにっいて判断する際にこの基準を用いるが，すると△MHに関する検定が必要になる．そこで，Phillips＆Holland（1987）21）に従って求あた△M，

の標準誤差を利用して△M。の信頼区間を計算し，△MH の符号が正のときには，信頼区間の下限が0あるいは1 を上回るかどうか，負のときには信頼区間の上限が0あるいは一1を下回るかどうかによって，△MH＝0あるいは 1△．，1＝1の仮説について判断することにした．

MHの計算は， SPSSなどの統計パッケージを用いれば，容易に行うことができる．だが，たとえばSPSSの

(6)

出力ではDIF分析に必要のない統計量が出力される一方で，欠かせない△MHは出力されないなど，作業効率の上でいくらか問題がある．そこで，本研究ではDIF 分析を行うプログラムを，近年注目されっっあるフリーの統計パッケージRの関数として自作した（R関数の作成に当たっては，主として，間瀬ほか，200422）とSpector，

199423）を参考にした）．このように，さまざまな方法で，

安く実施できること，自らプログラミングすることがそれほど難しくないことなども，MH法を選択する大きな理由になる．なお，テスト開発時にMH法を利用する場合には，purifyといって，見出されたDIF項目をテスト全体から除外した上で分析を繰り返すという手順が推奨されているが，本研究ではテスト開発が目的ではないので，purifyは行っていない．

3．結果 3．1 国語

国語を受験した者は4，177名である．正答率がもっとも低かったのは項目22の0．18，正答率が高かったのは，

項目2（0，93）と項目3（0．95）などで，その他の項目の正答率は，0．31から0．80の間であった．また，国語合計点（正答数得点）の分布は，図1の通りで，平均は13．38，

標準偏差は3。57であった．

次元性を確認するために，相関行列の固有値を求めたところ，図2のようであった．第7固有値までが1を超えており，尺度全体が一次元であるとはいいにくい．また，クロンバックのαはO．65で，項目数のわりにはかなり低いといわざるをえない．

8マOOn OO四

♂己oコσε店 OO一

o

Hlsto9「8m olkokugo

5 G 10 15 20

図1：国語正答数得点の分布

30@

固有値20@幡m o5

12 13 14 15 16 17 18 192021 22 23

成分番号

図2：国語23項目間の相関行列の固有値 3．1．1 性別

4，177名のうち，男性2，121名，女性2，056名である．

それぞれの平均は，13．10と13．68で女性の平均がわずかに高い．正答数得点0点から23点の両端付近で，その得点をとったものが1名以下であり，式（1）によりMH−

X2を計算できないため，3点刻み（O−2，3−5，…，21−

23点の8区分）に得点をまとめ，男性を参照集団，女性を焦点集団としてMH統計量を計算した（表2）．△MH に着目するとき，全般的にDIFの大きさは目立たず， C 水準に該当する項目9のみかなり大きなDIFを示して表2：国語テストのDIF分析（参照集団：男，焦点集団：女）

出題領域蝸H一κ2 P伍

△」咽95覧

ｵ頼区聞下限 ^△闘

△㎜95鷲ｵ頼区聞上限判定

1^{現代文・評} 2，342 Oj26 ・0。556 尋，247 0，062 A

2 0，275 0，600 一〇，429 0，185 0，BOO A

3 0，683 0，409 』，395 0，340 1，075 A

4 2，110 0，146 一〇．543 ・0，234 0，075 A

5 5，574 0，018 ℃，708 ℃，389 ℃，071 A

6 11，516 0，001 一tO55 ℃．672 4，208 A

7 t155 0，283 尋，145 0，190 0，525 A

6．●■9 0，068．・．．・・

0︐794■ ﹄︐047・

0，264 A

9 ．●● 鰯●●● o

ｻ代文・1、° 101，057 O，000^{●・・●●．0} ^o狽U48 ^●09●●Q，053 ・曹・o■・9■ ■●曜

@ 2．458

・，巳・幽

@ C

10 2，B41 0，092 一〇．604 む，202 0，039 A

11

0，086 0，767 』．247 0，050 0，347 A

12

0，003 0，953 ・0．291 0，014 0，319 A

．」睾

t5470■

む200 0107 A

14 _．．

ﾃ文 ^{． ■}Q，548 ⁰O．羽0

・ P 噂

E0，056 ^隔O，278

． ■● 0

@ 0．611

●● ■

̀

15

0，012 0。9羽一〇．327 む，022 0，202 A

16

4，378 0，036 0，028 0，350 0，672 A

17

21，040 0，000 0，518 0，901 1，2a4 A 杷

tB91・

Oj69 ・0099 0256 0611 A

ig

曙o ・ ■

剳ｶ R，201^．．．．

噂，

O，074

o ●・ ●o■書●曹

E0．626 ■・ ● ■ o

x，302

O o● ■

@ 0．022

o ● ■

@ A

2021 14，521 0，000 ℃，942 ・0，624 η，305 A

4，520 0，033 0，031 0，333 0，636 A

22 3，376 0，066 む，790 4，387 0，016 A

23 0．捌 0，671 ・0．375 尋071 0233 A

いる．項目9の△M。の符号は正で，焦点集団＝女性に有利であることがわかる．図3は，合計点を横軸にとり，

男女別に項目9の正答率をグラフにしたものであるが，

これを見ると，5点以上のほとんどの得点において，女性の正答率が上回っていることがわかる．項目9は「もどかしかった」という語句の意味を問う問題であるが，

(7)

1．o

o，e

O．6

o．4

O．2

1

｛

o．o

O123456769101塾12131415、617181920212223 図3 項目9に関する得点別正答率（男女別）

DIFの生じた原因を解釈するのは難しい．項目10も語句（「際どい」）の意味を問う問題であるが，こちらの

△MHはむしろ参照集団（男性）に有利であることを示す負の値であり，語句の問題だから女性に有利などの解釈には無理がある．そのほか△MHの符号に着目していくとき気づくのは，古文領域では5項目中4項目で正，漢

文領域では5項目中4項目で負となっており，女性は古文が，男性は漢文が相対的に得意という傾向を読み取る

ことができる．

3．1．2 学校別

4，177名のうち，学校J以外3，837名，学校J340名である．それぞれの平均は，13．37と13．48であった．性別の場合と同様，3点刻みで得点をまとめて，学校J以外を参照集団，学校Jを焦点集団として，MH統計量を計算した（表3）．学校別については，水準Bに該当する項目10を除くと，残る22項目はすべて水準Aに該当し，目立って大きなDIFは見出せない．項目10は，性別の項にも記したとおり，語句の問題である．あえて傾向をいえば，現代文・評論に関する大問1で，△M。に正の符号が多く，学校J（焦点集団）は，この領域での得点が総合点のわりに高いということを見て取ることはで表3 国語テストのDIF分析（参照集団：学校J以外，焦点集団学校J）

出題領域 MH−X2 ^P値 ^△MH95％_{M頼区聞下限} ^△践胴 ^△MH95％_{M頼区闇上限} ^判定

1 現代文・評 3，386 0，066 心．018 0，566 t150 A

2 1，748 0，186 ^一〇．347 0，947 2，240 A

3 0282 0，595 ℃958 ^0，517 t991 A

4 1，497 0，221 心，194 0，364 0，923 A

5 4，904 0，027 0，089 0，672 1255 A

6 0，147 0，701 ^一〇．553 0，175 0，903 A

7 0，050 0，822 ^{一｛〕．524} 0，092 0，707 A

8 0．コ5a 0，697 ．α693 の，130 9，434 A

． 9 ，ｻ代文・小 1，681 0，195 ^ヨ1．137 ^oo^S｝，464 ^{印 0．209} A

10 12，763 0，000 0，467 1，022 1，578 B

11 4，191 0，041 司」15 ^qO．576 ^一〇．037 A

12 0，877 0，349 ^一〇，828 ^4｝，278 ^0，271 A

13 ＿0、91ヱ 0，896 』505 ^0，055 ^0，616 A

7 ， ● ● ■ ， ■，，・ ● ・・・．o・o ．9 ● ，，

14^古文 9，437 O，002 ^二1．543 の，948 ℃，353 A

15 1，287 0，257 ^蓬｝，911 ^一〇．345 0，222 A

16 ^1，215 0，270 ^《），244 0，345 0，934 A

17 O，710 0，400 司，032 ^一〇．332 0，368 A

18 3，456 0，063 刈，222 ℃，600 0，023 A

．，噛哺oo■ oの・・ o oo ・OO o 吻■■ 傅・●．o，，， o ●99

19漢文 0，137 0，712 ^運），45B 0，132 0，723 A

20 0，083 0，773 ^く），671 ^《｝，101 0，469 A

21 0，440 0，507 一〇352 0，208 0，768 A

22 0，906 0，341 司，134 ^《｝，387 0，360 A

23 0，247 0，619 ^一〇，396 0，159 0，714 A

表4：数学テストのDIF分析（参照集団：男，焦点集団：女）

出題領域 MH−x2 ^P値 ^△…95鮎_{M頼区間下限} ^△… ^△囲95％_{棊葛謚ﾔ上限} ^判定

1 2次関数とグラフ 1，455 O，228 司，514 ｛L604 O，306 A

22次関数の値の変化 O，102 O，749 一C，407 く）．063 O，281 A

3数と式 1，926 O，165 ^べ），695 ^・C．293 o，109 A

4数と式 2，897 O，089 ^《）．660 ^4），310 O，040 A

5 数と式 5，394 0，020 ^司）．832 ^く｝．455 運〕．077 0 A・ ●o ．．

， 6

三角比と図形 9，561 ◎，OO2 O，385 1，022 1，658 B

7 三角比 6，697 o，010 0，207 o，800 1，394 A

8三角比と図形 O，313 0，576 ^一◎．651 ^《〕，155 ^O，341 A

9三角比と図形 o，ooo 0，999 つ，454 O，012 O，479 A

10 三角比と図形 1，033 O，310 ^・つ，565 く）」98 O，169 A

11 三角比と図形 2，974 O，085 ^く⊃．937 つ，446 O，046 A

■ o・騨

@ 12 9●●o o ・●・ ●

Q次関数の値の変化 ^{●●り騨o●}@ 5，546

●● ■ 脚 ●

@ O．019

賜 ● ・

@ 0，082

■ … ．，

@0，449 ooooooo o

@ O．817 ^{，● ・．・・．，}@ A

132次関数の値の変化 1，603 O，205 ^．C，129 O，259 O，646 A

， o● 膚

@ 14

o o ・

}形と方程式

● ● ．

@ 8．820

騨・9．

@ O．OO3

■ ●o ●●●

@ 0222

，● 0

@ 0．636 ●■●●σ●9 騨■●，．●

@ 1．050 ● 0 9，，o

@ A 15

P6

図形と方程式 }形と方程式

O，927 O，301

O，336 O，583

嫁），1go S），382

0200

O，172

O，590 O，725

AA

17図形と方程式 4，981 O，026 ^．O，888 ^く），477 ^4）．066 A

(8)

きる．

因子のスクリープロット

3．2 数学

数学を受験した者は，3，981名であった．正答率がもっとも低かったのは項目16の0．16，もっとも高かったのは項目1の0．96で，その他の項目にっいては，0．21から 0．88の間であった．全3，981名の正答数の分布は，図4 の通りで，平均は9．70，標準偏差は4．04であった．

図5は，相関行列の固有値に関するスクリー図である．

第5固有値までが1を超えており，一次元性が確保されているとはいいにくい．また，クロンバックのαは0．85

であった．

3．2．1 性別

3，981名のうち，男性2，021名，女性1，960名である．

◎Qn 00n

台5＆ε﹂ OO︐

o

Hl8togr●m ot SUUgtku

コ固有値

戒分番号

図5：数学17項目間の相関行列の固有値男性の平均10．14，女性の平均9．25で若干男性の平均が高かった．数学では，性別および学校別のいずれについても，0点から17点のすべての得点水準にっいて，MH−

x2を計算することが可能だったので，得点をまとめることはせずに，MH統計量を計算した．なお，2点あるいは3点でまとめて分析を行っても，今回行った1点刻みの結果と大筋において差は見られなかった．

性別に関する分析の結果は表4の通りである．項目6 で△MHが1を超え， B水準に該当しているほかは，目立って大きなDIF項目は見いだせない．大問1の5項目の符号がすべて負であり，2次関数や数と式に関するこれらの項目群が参照集団（男性）に有利であった傾向が見て取れる．

3．2．2 学校別

学校J以外3，678名，学校J303名にっいて， MH分

。・ 1。 15 析を行った（表5）．それぞれの平均は，9．69と9．88で図4：数学正答数得点の分布学校Jの平均がわずかに高かった．比較的大きなDIF 表5：数学テストのDIF分析（参照集団：学校J以外，焦点集団：学校J）

出題領域 M巨一κ2 P値 ^△棚95％

M頼区間下限 ^△囲

△MH95％

M頼区間上限 ^判定

→

2次関数とグラフ 1，333 0，248 ^一〇，713 1，522 3，758 A

2_{2次関数の値の変化} 7．72書 0，005 O，280 0，958 1，636 A

3 数と式 8939 ^O，OO3 0，470 1，296 2，122 B

4 数と式 0，831 0，362 イ｝．323 O，330 O，982 A

5数と式 3，813 0，051 0，034 0，721 1，409 A

6三角比と図形 t209 0，272 斗874 ^{一｛⊃．728} ^O，418 A

7三角比 6，404 o．o書1 弓〜．447 斗407 ^｛），368 ^B

8三角比と図形 2，742 α098 4．6．3 ｛）．742 O，129 A

9三角比と図形 2，902 0，088 斗683 ^心．808 ^O，066 A

↑o 三角比と図形 8，333 0，004 一t773 司．063 ^イ〕．353 B

讐b

三角比と図形 0338 056↑ 4208 ^{・｛｝．310} 0587 A

書22次関数の値の変化 075τ 0，386 ^イ〕，357 0，341 狽n40^{・ ■} ^{一一印一｝}̀

↑32次関数の値の変化 1，357 O，244 く），259 O，470 1」99 A

14図形と方程式 2．5璽5 0．t13 4，413 ^．^ｭ），653 ^{・，}ｿ107 A

書5図形と方程式 0，418 0．5↑8 一C993 ｛L269 O，454 A

↑6図形と方程式 0．讐6 0，733 4〕．742 O，216 1，173 A

17 図形と方程式 1，241 0，265 一1．257 ｛）．471 0，315 A

(9)

を示す項目が多く，項目3，7，10の3項目がB水準に該当している．また，目立っのは，領域ごとに符号に一定の傾向が見られることである．△MHの符号は，2次関数，数と式などで正（焦点集団，すなわち学校Jに有利），

三角比や図形の問題で負（学校Jに不利）になっている．

学校Jで行われた授業が2次関数などに重点があり，三角比や図形が相対的に軽く扱われた可能性を示唆する．

項目3に関して，学校Jとそれ以外の学校別に描いた正答率グラフを見ると，大部分の得点範囲において，

学校Jの受験者の正答率が高めに出ていることがわかる

（図6）．逆に学校Jに不利なDIFが見られる項目7では，

ほとんどの得点水準において，学校Jの正答率が他の学校よりも低くなっている（図7）．

1．0

．∠

o．e グメ

0。6

O．4

0．2

0．O

o 1 ？ 3 4 5 6 ， 8 9 10 el 12 13 e4 Ts t6 17

図6：項目3に関する得点別正答率（学校別）

1．0

0．0

0．6

0．4

11，■，ima 一 1 、汐晒純＾

7yv

，．冨

ま17．39，

§§§Ω漏

む5茜2覧

8

標準偏差は6．48である．

HlstQgfem o「●lga

6 tn ． on ea aft 35

図8：英語正答数得点の分布

次元性を確認するたあに，相関行列の固有値を求めたところ，図9のようであった．第5固有値までが1を超えているが，スクリー図から判断して，国語や数学と比べると尺度全体が一次元に近くなっている．クロンバッ

クのαはO．85である．

固有僚

因子のスケリープロット

0．2 噸学校J

一学校J以外

0．O

O 1 2 3 4 5 6 ， 8 9 10 11 12 13 14 t5 16 11

3．3 英語

英語を受験した者は4，153名であった．正答率がもっとも低かったのは項目1の0．17，もっとも高かったのは項目17の0．94，その他は0．32から0．73の間で，国語や数学と比べると，正答率が極端に低い，あるいは高い項目は少ない．英語合計点の分布は，図8の通りで，平均

一Nωbe°v■ceU＝部δ；覇G5お68曽器窃掌描霧巴富冨8望認器

成分看号

図9：英語33項目間相関行列の固有値 3．3．1 性別

英語の受験者4，153名のうち，男性2，111名，女性 2，042名である．男女の平均は，それぞれ17．05と17．73 で，女性の平均がわずかに高かった．なお，0点から33点のうち，両端付近の得点をとった被験者数が極めて少なく，国語の場合と同様，MH統計量を計算できないという問題が起こったため，英語では得点を2点刻みでまとめてDIF分析を行っている．（性別・学校別とも）

性別に関しては，△MHの大きさはあまり大きくなく，

唯一B水準に該当する項目17（△M。＝1，680）以外は，すべてA水準に該当する（表6）．

(10)

表6 英語テストのDIF分析（参照集団男，焦点集団女）

定判

AAAAAAAAAAAAAAAABAAAAAAAAAAAAAAAA

限％上59摺剛区△頼信脳35嗣88％85詳2395器85盤器︒5伯︒6563︒η磐恰3996引26碧6658薦婁・︒窮舅・︒蟹・︒・︒㎎・︒弩・︒・︒・︒㎝・︑麗・︒・︒餉

726312856670572408812255582294970 8 4︐0717071412614500780479367176390β−2β﹂6の3﹄鴻﹄−鴻3￡鴻燈渇3￡2圃23の︒22ゆ2鴻2の﹂っ0心っ︒っ︒000・っ0っ℃？︒っっ︒℃︒︒℃っっ︒0心︒︒︒

027748670787551946387639341897229 7fO7191837173872315590948024928224ゆ2βjj82ゆ﹂﹂﹂4﹂β8﹂8﹂73沿7﹂ゆ3ββ2n鴻022司っ心司℃￡っ︒030っっ・002℃︒℃︒心℃っっっ心℃￡

陥 118060083615830402977807622309303029060062073070000599173596784901 ゆ9℃﹂超︒05つBβP恩心03D3っ40鴻4︒0ρっのOb90︒600﹂000000000000000000000000000000000 〆↑胴117791412899157551126432335649745313417634110iO3662654585035265165︒1鴻77β20 3￡ ︒5ββ﹂23鴻Oゆ恩﹂7石ββゆ38ゆの33つ21024030307007348003025140210302001 2 1 1 21 域樋題出 ggggg呂ggトトトト㎎㎎㎎㎎㎎㎎崩漁・⁝蘭南・⁝陥廟ンンンン調詣画醐醐塞器加総胎霧霧雛灘離難護嚢難駄難灘嫌器難灘

123456789012345678901234567890123 111111111122222222223333

表7 英語テストのDIF分析（参照集団学校J以外，焦点集団学校J）

定判

ABAAAAAAAAAACBAAAAAAAAAAAABAAAAAA

88

U。ｦ2358語碧龍゜6η男ゆ5︒︒6器゜99365器6︒6︒肝5353醜5︒硲74β2β﹂ ︒452﹂ 544 ︒94β2 ︒1β9﹂のn4β7 ︒39 ︒6ゆ2﹂60つ011110つつ112つOOOつOOlO心OOOつOOOOOO

㎝勝霧護㎝紮懸謹講甥㎜甜鷲溜譜罐髄翻︐ ．． o ． ● ・・．・・ ︐ ︐ ・ ° ． ° ° ・ ︐ p ． ° ︐ ︐ ■ o ．． e ● ・昌︒司︒︒︒︒︒心つ℃︒01司心︒つ心︒o︒つ心つ︒︒司︒︒つ心つ︒

嚇刷△ 574432378401907450412584698568585餌5556°9︒5°232罰鴛鴇醸3︒99麗33％︒8蜷μ2935お155︒°6器56・．． ● ・ ○ ．． c ° ● 6 ■ ● ・ ° ○ ． ° ． ° ワ．． ° ・・． ° ︐ ︐ 幽゜℃司つ︒︒心︒心司司︒︒−ぞ心つ司司つつつ↓司つつつ司つ心司つ↓つ

厳 8017972254180005916967494444301269︒∞98°2°3︒6°︒95∞°2°︒α゜︒︒︒器憾゜24︒四侶餌69銘゜︒v85°8釦蛋● ． ︐ ・ ︐ ．． ● ・ ︐ ︐ ・・ ● ● ︐ ・ ● ・ ● ︐ ° ° ■ ° ・・ ︐ ． ° ・ ︒ ．OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO

ノ臣M醤㎝猛器゜4殉諸完2658餌蚤㍊堰96鵜引゜539馴桝5528馴゜50ゆつ9234ρβコ追β︒37のε92お90お50﹄744︒8￡Oの︒9の030443907515930015012240008103110 1 1 0﹂ウら

域領題出 99999999灘講蕪蕪難難難難難難㎞驚離篶鰭MM麗M

123456789012345678901234567890123 111111111122222222223333

(11)

3．3．2 学校別

英語の受験者4，153名のうち，学校J以外からの受験者が3，812名，学校Jからは341名である．それぞれの平均は，17．46と16．52で，学校Jの受験者の平均がやや低い．

学校別に関しては（表7），項目13がC水準，項目2，

項目14と項目27がB水準で，性別の場合と比べ，大きめのDIF項目がいくっか見られる． C水準に該当する項目13に関して得点別正答率を学校別にグラフ化したのが図10である，正答数がごく低い（英語学力が低い）

受験者層を除くと，ほとんどの得点水準において，学校 Jの受験者の正答率が高いことがわかる．この項目は，

When did you catch the boy［］apples from the garden？の空欄部分に， stea1， stealing， to be stealing， to stealのいずれが適切かを問うものである．

学校Jはほかの文法に関する項目でも（例外はあるが）

正の△MHを示すことが多く，文法に強調点を置いた授業を進行している，などの可能性も考えられる．

1

08

06

04

02

…° J噸

0

2468101214161820222425283032

4．まとめと考察

本研究で用いたMH法はIRTに基づく方法と比べると，適用のための条件は緩やかである．それでも，今回用いたデータは，①項目数が少ない（とくに数学），② 多次元で正答数得点の持つ意味が曖昧になっている可能性がある，③いくっかの大問では複数の項目への解答が互いに連動しているなど，得られた結果を解釈する上で若干の注意は必要である．だが，DIF分析のために，これだけ多くの被験者に学力検査を実施することは非常に困難であり，データの提供を受けて行われた今回の分析から得られた結果は，日本のDIF研究のための貴重な

資料になりうると考える．

まず，国語23項目データの性別による分析では，1項目を除き，A水準（無視できるDIF）と判定された．だが，1項目のみは，C水準に相当するかなり大きなDIF を示している．なぜそのような差異が生じているのか本データから推測することが難しく，項目バイアスの定義には当てはまらないかもしれないが，重要な決定を伴うテストにおいて，このようなDIFが生じているとしたら，無視できない問題であろう（ETSでは，相応の理由がないかぎりC水準項目はテストから除外するという），

また，1項目ずっで見ると，△MHの絶対値はかならずしも大きくないが，古文や漢文などの領域で見ると，同じ領域に属する項目で符号がほぼ一致しており，いくつかの項目がまとまってDIFを示している可能性がある．

このような複数項目で生じる差異は，DBF（Differential Bundle Functioning）と呼ばれ， SIBTEST（Shealy＆

Stout，199324））というプログラムで分析すると把握することができる．同じ国語学力の中でも，男性，女性それぞれに有利な領域が存在する可能性にっいて，今後，

SIBTESTを用いて解析することが望まれる．また，国語23項目データの学校別による分析でも，1項目がB 水準に該当するほかはA水準DIFであり，全体としては，大きなDIFは見られない．学校別では学校Jの

△M。の符号が現代文・評論項目で正であるものが多く，

学校Jにおいて，こうした領域の指導に重点がおかれている可能性が示唆される．

数学17項目データの性別による分析では，1っのB 水準項目以外は，A水準項目であるが，ここでも領域による△MHの符号の偏りが観察される．とくに，「2次関数」や「数と式」の項目で構成される大問1の全項目で，

男性に有利であることを示す負の符号となっている．

（ただし，大問1のうち2項目は互いに関連があり，その影響も考える必要はある．）科目内での領域について男女DIFを検討した先行研究として，カナダの大規模学力テストの数学（mathematics）と理科（science）にっいて，SIBTESTを用いて分析した例がある（Boughton ら，200025））．Boughtonらは，9年生の男女それぞれ 6，000名から得られた数学テストデータ（全50項目）を5つの領域（Number systemsand operations， ratio and pro−portlons， measurementand geometry， data man−

agement， algebra）ごとに項目群（これをbundleと呼ぶ）

としてまとめて，SIBTESTによって検証的に分析を行っ

（10）

雑誌名 東京家政大学研究紀要 1 人文社会科学

MH法による学力テストデータの差異項目機能分析

著者 井上 俊哉, 孫 媛