英文文書分析への項目反応理論の応用

(1)

英文文書分析への項目反応理論の応用

著者橋本直樹

雑誌名英語英文学研究

巻 21

ページ 13‑23

発行年 2015‑09

出版者東京家政大学人文学部英語コミュニケーション学科

URL http://id.nii.ac.jp/1653/00009714/

(2)

英文文書分析への項目反応理論の応用

橋本直樹

概要

This short paper shows that the item response theory is applicable to analyses of the English documents. English Letter frequencies of two groups are compared.

Keywords: 項目反応理論，頻度，項目，バイログ(IRT, frequency, Item, BILOG)

§１．はじめに

本稿では、項目反応理論を英文の文書分析に適用することを試みる。文書分析は、科学的に分析する方法が多く考案されている。その多くは統計分析に基づく方法である。文書の全体的あるいは総合的な特色や傾向を把握することにかなり成功している。また複数の文書間の相違なども理解でき、特にベイズ推定法を用いる方法では大きな成果が得られている (Mosteller & Wallace )。本論文では、このように多くの試みがなされている文書分析に全く別の手法を適用することを行う。その手法はテスト理論で既に確立された一つの方法、項目反応理論である。以下これをIRTと略記する。IRTは、Web上でのテストであるTOEFLなどで採用されているテスト手法である。その大きな特徴は、各被験者に異なる設問を解答させても、その被験者の能力値を得ることができる。これが可能なのは、項目プールとよばれる多くの出題問題を蓄え、その問題ごとの難易度を既知としているからである。TOEFLなどのテストでは、被験者ごとにその能力値に近い設問をリアルタイムに選択し解答させるため、その能力値を測る精度

(3)

同士の能力差は測定できないからである。本稿では、このようなIRTの全体的手法を適用するのではなく、そのはじめの段階で構成される各項目に対する評価方法を用いる。§２では、本稿で用いるIRTのレビューをし、§

３で分析データの作成過程を示す。§４では、ソフトウェアBILOG-MGによる分析方法およびその結果を示す。

§２．分析方法

項目反応理論(Item Response Theory, 以下IRT) は、現在テストの評価、

作成に使われている方法の１つである。TOEFL等に使用されている確立した方法である。

分析にはIRTの基本的な概念と計算法を用いる。このため、既存の市販ソフトを利用した。段階反応理論は用いないので、BILOG-MGを用いた。

このソフトウェアは、我々が求める量を即時に計算し出力してくれるが、

入力データを構成するのが少し難しい。分厚いマニュアルまたはそのpdf ファイルを熟読する必要がある。バージョンによってもかなりの差異があるので注意する。我々が用いたのはBILOG-MG 3.11である。BILOG-MGは、

最尤法、ベイズ推定法等のいくつかの方法で分析できるが、本稿では、最尤法でかつ１、２パラメータのLogisticモデルを用いた。これは、項目特

性曲線(ICC)の正規累積モデルをロジスティック関数で近似したモデルで

ある。ICC は、横軸に特性値、縦軸に反応確率（正答確率）をとった２次元のグラフである。項目ｊの２パラメータのロジスティック関数は、

と書ける(豊田)。a^jを識別力、b^jを困難度という。θはlatent trait(潜在特性)を表す。また、D は、通常は、D=1.7に選ぶ。項目とは、設問のことである。１パラメータモデルでは、a^jが定数となるので、より一般的に以下２パラメータモデルの場合を説明する。

)) ( exp(

1 ) 1

( j j

j Da b

p = + − −

θ θ

(4)

i番目の被験者の項目j に対するデータをu^ijとする。通常これは、１、

０の値をとる。テストの場合では正解の場合は１、不正解の場合は０とする。また、これをベクトルで表した量をuⁱとするとき、尤度関数(likelihood function)は、次式で定義される。

ここでi は被験者、j は項目をあらわす。２パラメータモデルを用いると、

p^j(θⁱ)は、aⁱ、bⁱに依存するので、

とすると

ここで、a, bはベクトルで

a=^t(a¹, a², ..., aⁿ) 、b=^t(b¹, b², ..., bⁿ)

とする。本稿では、周辺最尤推定法をとるのでθの分布を

と仮定する。これは、θの平均と標準偏差は任意に決めてよいからである。

このg(θ)を用いてθについて積分した関数

を定義する。これは、uが得られる確率を表す。この関数によりa, b を推定する方法が周辺最尤推定法である。これをEM法(Bock & Aitkin)及び

Newton法で求めるソフトウェアとしてBILOG-MGがある。そこでは、す

べてのｊに対して

ij

ij u

i j u i n

j j

i

i p p

L ⁻

= −

=

∏

₁ ⁽ ⁾ ⁽¹ ⁽ ⁾⁾¹

)

|

(u θ θ θ

ij

ij u

i j u i j i i i

ij a b p p

u

f( |θ , , )= (θ) (1− (θ ))¹⁻

) , ,

| ( ) , ,

| (

1 ij i j j

n i j

i f u a b

L^u θ ^a^b ⁼

∏

₌ θ

2 2 1

2 ) 1

( ^θ

θ = π e⁻ g

θ θ

θ f u a b d

g

f ^N

i

n

j ij i i i

∏ ∫ ∏

=

∞

− =

=

1 1

) , ,

| ( ) ( )

, , (uab

(5)

をEMアルゴリズムにより数値解法を行う。そしてその値を用いて最尤推定値θⁱを

から求める。

§３．分析データ

本稿では、IRTを適用できる文書データを如何に作成するかという点を苦心した。IRTは元来テスト理論なので、文書そのものの特徴を掴む方法としては困難が伴う。Hashimoto(2013)で提示した文書データに基づいて、

IRTが適用できるデータを作成した。そのデータは、A. PoeのPoetry と Prose の合計137作品のそれぞれについてアルファベットの出現順を求めそれを集計したものである。各文章の最初から1文字ずつ選択し、それを 26文字のアルファベットごとにカウントし加算する。同じく出現数の多い順に並べ替えをして出力する。これを行うプログラムをＣ言語で作成した。

コンパイラは、Microsoft Visual Studio 2010 Toolの中のVisual Studio コマンドプロンプトを用い、それによりコンパイルした。プログラムを実行することにより、各文章毎にその出現率順の列が得られる。

次に、全体の文書データから出現頻度の高い順に４つのアルファベットを選択した。それらは、e, t, a, o となる。上位４つだけを選択したのは、

分析を簡単にしてその内容を理解しやすくするためと、それ以下の順位の出現割合は、かなりばらつきがあるので、全体的な特徴を掴みにくいと考えたからである。この e, t, a, o のデータを基準データとして、次に

Poetry, Prose のそれぞれの出現アルファベット順と比較する。個々の１か

ら4番目までの順がそれぞれ、e, t, a, o と同じならば1、異なる場合は0 とする４つの数字を作成する。例えば、ある文書データのアルファベットの

=0

∂

= ∂

∂

j

j b

f a

f

0

∂ =

∂

i

L θ

(6)

出現順が、e, a, t, i ならば1 0 0 0 また、別のデータ例として e, t , i, o ならば、1101などとする。この作業により0, 1 の数値データを作成する。こ

れが1111の場合には、e, t, a, o の順と同じことを示しており、0000の場合

は、すべての順が異なることを意味する。これらを集計すると次の表になる。

表１順位データ

このデータの作成目的は、IRTを適用可能にするためである。

Poetry 頻度

Prose 頻度

0000 1 0

0001 1 0

0010 1 2

0011 0 0

0100 0 0

0101 0 0

0110 0 0

0111 0 0

1000 13 2

1001 3 0

1010 2 0

1011 0 0

1100 14 22

1101 6 8

1110 4 20

1111 4 34

(7)

§４．BILOG‑MGによる分析及び結果

§２で述べた方法を計算処理できるソフトウェアは複数存在する。本稿では段階反応理論は用いないため、かなり以前から存在しその処理内容がよくわかっているソフトウェアBILOG-MG(Mislevy)を用いた。このソフト

ウェアはWindows XPやWindows 7 でも稼働する。本論文の主目的は

A.Poe の Poetry とProse の文章で使われるアルファベット使用率の差異を客観的に見ることが可能かどうかを調べることである。その使用率の重要さについては前掲の論文(Hashimoto)に述べてある。数量的なものでこの差異を示すことができれば1つの客観的方法を提示したことになる。そのためにIRTを適用することを試みた。

BILOG-MGでは、入力データとそれを処理するプログラムの両方を用意

する必要がある。入力データのファイルは、その処理法と密接に関連する。

一方、BILOG-MGには、約10個ほどのプログラム例とそのデータ例が付属

している。本稿では、その中のEXAMPLE02に見習って処理を進めること

にした。EXAMPLE02は、英語のスペリングテストの結果が男女間で差異

があるかどうかを調べる例である。これらのサンプルは、入力プログラムの作成に大変役立った。プログラムは、多くの条件を、ある一定の順序に従って指定する必要があるからで、処理を可能にするためには、マニュアルを熟読する必要がある。プログラムが不完全であると処理が途中で中断してしまう。

入力データは、テキストファイルとして構成する。スペースも重要で数値がずれないように揃える。表１のPoetry 及びProse の頻度は、各項目パターンの重み(weight)として扱い同じ項目データが出現しないように扱う(以下の表２を参照）。10列目は、その重みである。3列目の1, 2 は Poetry, Prose のグループの違いを示す。各項目には1から16番目までの番号を振る。これは1列目と2列目で表す。

(8)

表２入力データ

これらの準備の下で、次のようなプログラムで分析処理を行った。

[ BILOG-MG処理プログラム]

>COMMENT

Poe word orders are pesented. 1st is Poetry. 2nd is Prose.

>GLOBAL DFName = 'C:\BLGdata\POE.DAT', NPArm = 1,

NWGht = 3,

11 0000 1 21 0001 1 31 0010 1 41 0011 0 51 0100 0 61 0101 0 71 0110 0 81 0111 0 91 1000 13 101 1001 3 111 1010 2 121 1011 0 131 1100 14 141 1101 6 151 1110 4 161 1111 4

12 0000 0 22 0001 0 32 0010 2 42 0011 0 52 0100 0 62 0101 0 72 0110 0 82 0111 0 92 1000 2 102 1001 0 112 1010 0 122 1011 0 132 1100 22 142 1101 8 152 1110 20 162 1111 34

(9)

SAVe;

>SAVE PARm = 'C:\BLGdata\POE.PAR', DIF = 'C:\BLGdata\POE.DIF';

>LENGTH NITems = (4);

>INPUT NTOtal = 4, TYPe = 2, NIDchar = 2, NGRoup = 2, DIF;

>ITEMS INAmes = (PK1(1)PK4);

>TEST1 TNAme = 'POE', INUmber = (1(1)4);

>GROUP1 GNAme = 'POETRY', LENgth = 4,

INUmbers = (1(1)4);

>GROUP2 GNAme = 'PROSE', LENgth = 4,

INUmbers = (1(1)4);

(2A1,I1,T10,F2.0,T5,4A1)

>CALIB NQPt = 10, CYCles = 50, CRIt = 0.36, NEWTON=5, REFERENCE=1, PLOt = 1;

(10)

ここでは、１パラメータロジスティック関数で処理を行い、EMサイクルとNewtonサイクルの精度を0.36とした。当初この精度は、0.0050で処理をしたが、Newtonサイクルが収束しない。またEMサイクルとNewton サイクルの精度を別個に指定することはできないので、精度を0.36と落して収束させた。この精度では、EMサイクルは2回、Newtonサイクルは9回で収束する。このときa = 1.173 となり、Poetry とProse の困難度の平均値は、それぞれ0.000、-2.947 となる。これらより等化係数を求め、Poetry と

Prose の困難度の変換をすると次のような結果になる。

DIFは、２つのグループの困難度の差を示す。

表３困難度の比較(精度=0.36)

一方、精度を上げるとNewtonサイクルが収束しない。このためNewtonサイクルの回数を1回に制限した。収束するほとんどの場合は、1回で所定の精度が得られるからである。そのため、精度を0.005とした。この場合の処理では、EMサイクルが26回で収束する。Newtonサイクルを1回で打ち切った場合のその精度は、0.02 であった。前述の分析精度0.36よりもかなり良い結果である。この場合a=1.019 となり，Poetry とProse の困難度の平均値は、それぞれ0.000、-2.076 となる。等化係数からPoetry とProse の困難度を変換すると次の結果になる。

Item b(Poetry) b(Prose) DIF

PK1 - 2.836 - 2.910 - 0.074

PK2 - 0.339 - 1.626 - 1.287

PK3 1.384 1.502 0.119

PK4 1.016 2.258 1.242

(11)

表４困難度の比較(精度=0.005)

表３、４共にPoetry のグループとProseのグループの間にかなり大きな差がみられる。テスト理論で困難度というのは、テストの難易度を表している。本稿ではその解釈はできないが、２つのグループ間でのアルファベットの出現率の差が存在するか否かはわかる。各アルファベットの1から4 番目までの出現ごとに差が大きいということは、２つのグループ間での使用単語が大きく異なっている結果と思われる。特にPK2 の"t" は、他の文字と比べて差が大きい。なお、表３と表４では、DIF の値に少し相違があるが、DIFの最大のものと2番目に大きいものは同一である。精度を落としても変わらない点はこれらの表でみられる。

項目特性曲線やフィッシャー情報関数（テスト情報関数）の図も

BILOG-MGで求めることができるが省略した。また、2パラメータモデル

で上述の分析を行うことも可能である。しかし、等化係数による変換が複雑になるため結果の明快さが薄れる。

文書を分析するためのデータをあたかもテストのようなデータに変換すれば、IRTを適用することが可能であり、文書の特徴を掴むことができる。

Item b(Poetry) b(Prose) DIF

PK1 - 3.093 - 2.656 0.437

PK2 - 0.379 - 1.905 - 1.526

PK3 1.468 1.318 - 0.150

PK4 1.077 2.317 1.239

(12)

参考文献

Bock, R.D. & Aitkin, M. (1981) Marginal maximum likelihood estimation of an EM algorithm. Psychrometrika, 46, 443-459

Hashimoto, N, On Cryptography of 'The Gold Bug' , 英語英文学研究、19号（2013）pp 15-68

Mislevy, R.J., & Bock, R.D. (1990) PC-BILOG3 : Item analysis and test scor- ing with binary logistic models. Mooresville IN : Scientific Software Inc.

Mislevy, R.J. (1984) Estimating latent distributions. Psychrometri ka, 49, 359-381.

Mislevy, R.J. (1986) Bays modal estimation in item response models.

Psychrometrika, 51, 177-195.

Mosteller, F & Wallace, D.L. (1963) Inference in an authorship problem, Journal of the American Statistical Association, 58, 275-309

豊田秀樹(2002) 『項目反応理論[入門編]』朝倉書店