英文文書分析への項目反応理論の応用
著者 橋本 直樹
雑誌名 英語英文学研究
巻 21
ページ 13‑23
発行年 2015‑09
出版者 東京家政大学人文学部英語コミュニケーション学科
URL http://id.nii.ac.jp/1653/00009714/
英文文書分析への項目反応理論の応用
橋本 直樹
概要
This short paper shows that the item response theory is applicable to analyses of the English documents. English Letter frequencies of two groups are compared.
Keywords: 項目反応理論,頻度,項目,バイログ(IRT, frequency, Item, BILOG)
§1.はじめに
本稿では、項目反応理論を英文の文書分析に適用することを試みる。文 書分析は、科学的に分析する方法が多く考案されている。その多くは統計 分析に基づく方法である。文書の全体的あるいは総合的な特色や傾向を把 握することにかなり成功している。また複数の文書間の相違なども理解で き、特にベイズ推定法を用いる方法では大きな成果が得られている (Mosteller & Wallace )。本論文では、このように多くの試みがなされてい る文書分析に全く別の手法を適用することを行う。その手法はテスト理論 で既に確立された一つの方法、項目反応理論である。以下これをIRTと略 記する。IRTは、Web上でのテストであるTOEFLなどで採用されているテ スト手法である。その大きな特徴は、各被験者に異なる設問を解答させて も、その被験者の能力値を得ることができる。これが可能なのは、項目プ ールとよばれる多くの出題問題を蓄え、その問題ごとの難易度を既知とし ているからである。TOEFLなどのテストでは、被験者ごとにその能力値に 近い設問をリアルタイムに選択し解答させるため、その能力値を測る精度
同士の能力差は測定できないからである。本稿では、このようなIRTの全 体的手法を適用するのではなく、そのはじめの段階で構成される各項目に 対する評価方法を用いる。§2では、本稿で用いるIRTのレビューをし、§
3で分析データの作成過程を示す。§4では、ソフトウェアBILOG-MGに よる分析方法およびその結果を示す。
§2.分析方法
項目反応理論(Item Response Theory, 以下IRT) は、現在テストの評価、
作成に使われている方法の1つである。TOEFL等に使用されている確立し た方法である。
分析にはIRTの基本的な概念と計算法を用いる。このため、既存の市販 ソフトを利用した。段階反応理論は用いないので、BILOG-MGを用いた。
このソフトウェアは、我々が求める量を即時に計算し出力してくれるが、
入力データを構成するのが少し難しい。分厚いマニュアルまたはそのpdf ファイルを熟読する必要がある。バージョンによってもかなりの差異があ るので注意する。我々が用いたのはBILOG-MG 3.11である。BILOG-MGは、
最尤法、ベイズ推定法等のいくつかの方法で分析できるが、本稿では、最 尤法でかつ1、2パラメータのLogisticモデルを用いた。これは、項目特
性曲線(ICC)の正規累積モデルをロジスティック関数で近似したモデルで
ある。ICC は、横軸に特性値、縦軸に反応確率(正答確率)をとった2次 元のグラフである。項目jの2パラメータのロジスティック関数は、
と書ける(豊田)。ajを識別力、bjを困難度という。θはlatent trait(潜在特 性)を表す。また、D は、通常は、D=1.7に選ぶ。項目とは、設問のことで ある。1パラメータモデルでは、ajが定数となるので、より一般的に以下 2パラメータモデルの場合を説明する。
)) ( exp(
1 ) 1
( j j
j Da b
p = + − −
θ θ
i番目の被験者の項目j に対するデータをuijとする。通常これは、1、
0の値をとる。テストの場合では正解の場合は1、不正解の場合は0とす る。また、これをベクトルで表した量をuiとするとき、尤度関数(likeli- hood function)は、次式で定義される。
ここでi は被験者、j は項目をあらわす。2パラメータモデルを用いると、
pj(θi)は、ai、biに依存するので、
とすると
ここで、a, bはベクトルで
a=t(a1, a2, ..., an) 、b=t(b1, b2, ..., bn)
とする。本稿では、周辺最尤推定法をとるのでθの分布を
と仮定する。これは、θの平均と標準偏差は任意に決めてよいからである。
このg(θ)を用いてθについて積分した関数
を定義する。これは、uが得られる確率を表す。この関数によりa, b を 推定する方法が周辺最尤推定法である。これをEM法(Bock & Aitkin)及び
Newton法で求めるソフトウェアとしてBILOG-MGがある。そこでは、す
べてのjに対して
ij
ij u
i j u i n
j j
i
i p p
L −
= −
=
∏
1 ( ) (1 ( ))1)
|
(u θ θ θ
ij
ij u
i j u i j i i i
ij a b p p
u
f( |θ , , )= (θ) (1− (θ ))1−
) , ,
| ( ) , ,
| (
1 ij i j j
n i j
i f u a b
Lu θ ab =
∏
= θ2 2 1
2 ) 1
( θ
θ = π e− g
θ θ
θ f u a b d
g
f N
i
n
j ij i i i
∏ ∫ ∏
=
∞
∞
− =
=
1 1
) , ,
| ( ) ( )
, , (uab
をEMアルゴリズムにより数値解法を行う。そしてその値を用いて最尤推 定値θiを
から求める。
§3.分析データ
本稿では、IRTを適用できる文書データを如何に作成するかという点を 苦心した。IRTは元来テスト理論なので、文書そのものの特徴を掴む方法 としては困難が伴う。Hashimoto(2013)で提示した文書データに基づいて、
IRTが適用できるデータを作成した。そのデータは、A. PoeのPoetry と Prose の合計137作品のそれぞれについてアルファベットの出現順を求め それを集計したものである。各文章の最初から1文字ずつ選択し、それを 26文字のアルファベットごとにカウントし加算する。同じく出現数の多い 順に並べ替えをして出力する。これを行うプログラムをC言語で作成した。
コンパイラは、Microsoft Visual Studio 2010 Toolの中のVisual Studio コマ ンドプロンプトを用い、それによりコンパイルした。プログラムを実行す ることにより、各文章毎にその出現率順の列が得られる。
次に、全体の文書データから出現頻度の高い順に4つのアルファベット を選択した。それらは、e, t, a, o となる。上位4つだけを選択したのは、
分析を簡単にしてその内容を理解しやすくするためと、それ以下の順位の 出現割合は、かなりばらつきがあるので、全体的な特徴を掴みにくいと考 えたからである。この e, t, a, o のデータを基準データとして、次に
Poetry, Prose のそれぞれの出現アルファベット順と比較する。個々の1か
ら4番目までの順がそれぞれ、e, t, a, o と同じならば1、異なる場合は0 と する4つの数字を作成する。例えば、ある文書データのアルファベットの
=0
∂
= ∂
∂
∂
j
j b
f a
f
0
∂ =
∂
i
L θ
出現順が、e, a, t, i ならば1 0 0 0 また、別のデータ例として e, t , i, o な らば、1101などとする。この作業により0, 1 の数値データを作成する。こ
れが1111の場合には、e, t, a, o の順と同じことを示しており、0000の場合
は、すべての順が異なることを意味する。これらを集計すると次の表にな る。
表1 順位データ
このデータの作成目的は、IRTを適用可能にするためである。
Poetry 頻度
Prose 頻度
0000 1 0
0001 1 0
0010 1 2
0011 0 0
0100 0 0
0101 0 0
0110 0 0
0111 0 0
1000 13 2
1001 3 0
1010 2 0
1011 0 0
1100 14 22
1101 6 8
1110 4 20
1111 4 34
§4.BILOG‑MGによる分析及び結果
§2で述べた方法を計算処理できるソフトウェアは複数存在する。本稿 では段階反応理論は用いないため、かなり以前から存在しその処理内容が よくわかっているソフトウェアBILOG-MG(Mislevy)を用いた。このソフト
ウェアはWindows XPやWindows 7 でも稼働する。本論文の主目的は
A.Poe の Poetry とProse の文章で使われるアルファベット使用率の差異 を客観的に見ることが可能かどうかを調べることである。その使用率の重 要さについては前掲の論文(Hashimoto)に述べてある。数量的なものでこ の差異を示すことができれば1つの客観的方法を提示したことになる。そ のためにIRTを適用することを試みた。
BILOG-MGでは、入力データとそれを処理するプログラムの両方を用意
する必要がある。入力データのファイルは、その処理法と密接に関連する。
一方、BILOG-MGには、約10個ほどのプログラム例とそのデータ例が付属
している。本稿では、その中のEXAMPLE02に見習って処理を進めること
にした。EXAMPLE02は、英語のスペリングテストの結果が男女間で差異
があるかどうかを調べる例である。これらのサンプルは、入力プログラム の作成に大変役立った。プログラムは、多くの条件を、ある一定の順序に 従って指定する必要があるからで、処理を可能にするためには、マニュア ルを熟読する必要がある。プログラムが不完全であると処理が途中で中断 してしまう。
入力データは、テキストファイルとして構成する。スペースも重要で数 値がずれないように揃える。表1のPoetry 及びProse の頻度は、各項目 パターンの重み(weight)として扱い同じ項目データが出現しないように扱 う(以下の表2を参照)。10列目は、その重みである。3列目の1, 2 は Poetry, Prose のグループの違いを示す。各項目には1から16番目までの番 号を振る。これは1列目と2列目で表す。
表2 入力データ
これらの準備の下で、次のようなプログラムで分析処理を行った。
[ BILOG-MG処理プログラム]
>COMMENT
Poe word orders are pesented. 1st is Poetry. 2nd is Prose.
>GLOBAL DFName = 'C:\BLGdata\POE.DAT', NPArm = 1,
NWGht = 3,
11 0000 1 21 0001 1 31 0010 1 41 0011 0 51 0100 0 61 0101 0 71 0110 0 81 0111 0 91 1000 13 101 1001 3 111 1010 2 121 1011 0 131 1100 14 141 1101 6 151 1110 4 161 1111 4
12 0000 0 22 0001 0 32 0010 2 42 0011 0 52 0100 0 62 0101 0 72 0110 0 82 0111 0 92 1000 2 102 1001 0 112 1010 0 122 1011 0 132 1100 22 142 1101 8 152 1110 20 162 1111 34
SAVe;
>SAVE PARm = 'C:\BLGdata\POE.PAR', DIF = 'C:\BLGdata\POE.DIF';
>LENGTH NITems = (4);
>INPUT NTOtal = 4, TYPe = 2, NIDchar = 2, NGRoup = 2, DIF;
>ITEMS INAmes = (PK1(1)PK4);
>TEST1 TNAme = 'POE', INUmber = (1(1)4);
>GROUP1 GNAme = 'POETRY', LENgth = 4,
INUmbers = (1(1)4);
>GROUP2 GNAme = 'PROSE', LENgth = 4,
INUmbers = (1(1)4);
(2A1,I1,T10,F2.0,T5,4A1)
>CALIB NQPt = 10, CYCles = 50, CRIt = 0.36, NEWTON=5, REFERENCE=1, PLOt = 1;
ここでは、1パラメータロジスティック関数で処理を行い、EMサイクル とNewtonサイクルの精度を0.36とした。当初この精度は、0.0050で処理を したが、Newtonサイクルが収束しない。またEMサイクルとNewton サ イクルの精度を別個に指定することはできないので、精度を0.36と落して 収束させた。この精度では、EMサイクルは2回、Newtonサイクルは9回で 収束する。このときa = 1.173 となり、Poetry とProse の困難度の平均値 は、それぞれ0.000、-2.947 となる。これらより等化係数を求め、Poetry と
Prose の困難度の変換をすると次のような結果になる。
DIFは、2つのグループの困難度の差を示す。
表3 困難度の比較(精度=0.36)
一方、精度を上げるとNewtonサイクルが収束しない。このためNewtonサ イクルの回数を1回に制限した。収束するほとんどの場合は、1回で所定の 精度が得られるからである。そのため、精度を0.005とした。この場合の 処理では、EMサイクルが26回で収束する。Newtonサイクルを1回で打ち 切った場合のその精度は、0.02 であった。前述の分析精度0.36よりもかな り良い結果である。この場合a=1.019 となり,Poetry とProse の困難度の 平均値は、それぞれ0.000、-2.076 となる。等化係数からPoetry とProse の 困難度を変換すると次の結果になる。
Item b(Poetry) b(Prose) DIF
PK1 - 2.836 - 2.910 - 0.074
PK2 - 0.339 - 1.626 - 1.287
PK3 1.384 1.502 0.119
PK4 1.016 2.258 1.242
表4 困難度の比較(精度=0.005)
表3、4共にPoetry のグループとProseのグループの間にかなり大きな 差がみられる。テスト理論で困難度というのは、テストの難易度を表して いる。本稿ではその解釈はできないが、2つのグループ間でのアルファベ ットの出現率の差が存在するか否かはわかる。各アルファベットの1から4 番目までの出現ごとに差が大きいということは、2つのグループ間での使 用単語が大きく異なっている結果と思われる。特にPK2 の"t" は、他の文 字と比べて差が大きい。なお、表3と表4では、DIF の値に少し相違があ るが、DIFの最大のものと2番目に大きいものは同一である。精度を落とし ても変わらない点はこれらの表でみられる。
項目特性曲線やフィッシャー情報関数(テスト情報関数)の図も
BILOG-MGで求めることができるが省略した。また、2パラメータモデル
で上述の分析を行うことも可能である。しかし、等化係数による変換が複 雑になるため結果の明快さが薄れる。
文書を分析するためのデータをあたかもテストのようなデータに変換す れば、IRTを適用することが可能であり、文書の特徴を掴むことができる。
Item b(Poetry) b(Prose) DIF
PK1 - 3.093 - 2.656 0.437
PK2 - 0.379 - 1.905 - 1.526
PK3 1.468 1.318 - 0.150
PK4 1.077 2.317 1.239
参考文献
Bock, R.D. & Aitkin, M. (1981) Marginal maximum likelihood estimation of an EM algorithm. Psychrometrika, 46, 443-459
Hashimoto, N, On Cryptography of 'The Gold Bug' , 英語英文学研究、19号(2013)pp 15-68
Mislevy, R.J., & Bock, R.D. (1990) PC-BILOG3 : Item analysis and test scor- ing with binary logistic models. Mooresville IN : Scientific Software Inc.
Mislevy, R.J. (1984) Estimating latent distributions. Psychrometri ka, 49, 359-381.
Mislevy, R.J. (1986) Bays modal estimation in item response models.
Psychrometrika, 51, 177-195.
Mosteller, F & Wallace, D.L. (1963) Inference in an authorship problem, Journal of the American Statistical Association, 58, 275-309
豊田秀樹(2002) 『項目反応理論[入門編]』朝倉書店