• 検索結果がありません。

英文文書分析への項目反応理論の応用

N/A
N/A
Protected

Academic year: 2021

シェア "英文文書分析への項目反応理論の応用"

Copied!
12
0
0

読み込み中.... (全文を見る)

全文

(1)

英文文書分析への項目反応理論の応用

著者 橋本 直樹

雑誌名 英語英文学研究

巻 21

ページ 13‑23

発行年 2015‑09

出版者 東京家政大学人文学部英語コミュニケーション学科

URL http://id.nii.ac.jp/1653/00009714/

(2)

英文文書分析への項目反応理論の応用

橋本 直樹

概要

This short paper shows that the item response theory is applicable to analyses of the English documents. English Letter frequencies of two groups are compared.

Keywords: 項目反応理論,頻度,項目,バイログ(IRT, frequency, Item, BILOG)

§1.はじめに

本稿では、項目反応理論を英文の文書分析に適用することを試みる。文 書分析は、科学的に分析する方法が多く考案されている。その多くは統計 分析に基づく方法である。文書の全体的あるいは総合的な特色や傾向を把 握することにかなり成功している。また複数の文書間の相違なども理解で 、特にベイズ推定法を用いる方法では大きな成果が得られている (Mosteller & Wallace )。本論文では、このように多くの試みがなされてい る文書分析に全く別の手法を適用することを行う。その手法はテスト理論 で既に確立された一つの方法、項目反応理論である。以下これをIRTと略 記する。IRTは、Web上でのテストであるTOEFLなどで採用されているテ スト手法である。その大きな特徴は、各被験者に異なる設問を解答させて も、その被験者の能力値を得ることができる。これが可能なのは、項目プ ールとよばれる多くの出題問題を蓄え、その問題ごとの難易度を既知とし ているからである。TOEFLなどのテストでは、被験者ごとにその能力値に 近い設問をリアルタイムに選択し解答させるため、その能力値を測る精度

(3)

同士の能力差は測定できないからである。本稿では、このようなIRTの全 体的手法を適用するのではなく、そのはじめの段階で構成される各項目に 対する評価方法を用いる。§2では、本稿で用いるIRTのレビューをし、§

3で分析データの作成過程を示す。§4では、ソフトウェアBILOG-MG よる分析方法およびその結果を示す。

§2.分析方法

項目反応理論(Item Response Theory, 以下IRT) は、現在テストの評価、

作成に使われている方法の1つである。TOEFL等に使用されている確立し た方法である。

分析にはIRTの基本的な概念と計算法を用いる。このため、既存の市販 ソフトを利用した。段階反応理論は用いないので、BILOG-MGを用いた。

このソフトウェアは、我々が求める量を即時に計算し出力してくれるが、

入力データを構成するのが少し難しい。分厚いマニュアルまたはそのpdf ファイルを熟読する必要がある。バージョンによってもかなりの差異があ るので注意する。我々が用いたのはBILOG-MG 3.11である。BILOG-MGは、

最尤法、ベイズ推定法等のいくつかの方法で分析できるが、本稿では、最 尤法でかつ1、2パラメータのLogisticモデルを用いた。これは、項目特

性曲線(ICC)の正規累積モデルをロジスティック関数で近似したモデルで

ある。ICC は、横軸に特性値、縦軸に反応確率(正答確率)をとった2次 元のグラフである。項目jの2パラメータのロジスティック関数は、

と書ける(豊田)。ajを識別力、bjを困難度という。θはlatent trait(潜在特 )を表す。また、D は、通常は、D=1.7に選ぶ。項目とは、設問のことで ある。1パラメータモデルでは、ajが定数となるので、より一般的に以下 2パラメータモデルの場合を説明する。

)) ( exp(

1 ) 1

( j j

j Da b

p = + − −

θ θ

(4)

i番目の被験者の項目j に対するデータをuijとする。通常これは、1、

0の値をとる。テストの場合では正解の場合は1、不正解の場合は0とす る。また、これをベクトルで表した量をuiとするとき、尤度関数(likeli- hood function)は、次式で定義される。

ここでi は被験者、j は項目をあらわす。2パラメータモデルを用いると、

pji)は、ai、biに依存するので、

とすると

ここで、a, bはベクトルで

a=t(a1, a2, ..., an) 、b=t(b1, b2, ..., bn)

とする。本稿では、周辺最尤推定法をとるのでθの分布を

と仮定する。これは、θの平均と標準偏差は任意に決めてよいからである。

このg(θ)を用いてθについて積分した関数 

を定義する。これは、uが得られる確率を表す。この関数によりa, b 推定する方法が周辺最尤推定法である。これをEM法(Bock & Aitkin)及び

Newton法で求めるソフトウェアとしてBILOG-MGがある。そこでは、す

べてのjに対して

ij

ij u

i j u i n

j j

i

i p p

L

=

=

1 ( ) (1 ( ))1

)

|

(u θ θ θ

ij

ij u

i j u i j i i i

ij a b p p

u

f( |θ , , )= (θ) (1− (θ ))1

) , ,

| ( ) , ,

| (

1 ij i j j

n i j

i f u a b

Lu θ ab =

= θ

2 2 1

2 ) 1

( θ

θ = π e g

θ θ

θ f u a b d

g

f N

i

n

j ij i i i

∏ ∫ ∏

=

=

=

1 1

) , ,

| ( ) ( )

, , (uab

(5)

をEMアルゴリズムにより数値解法を行う。そしてその値を用いて最尤推 定値θi

から求める。

§3.分析データ

本稿では、IRTを適用できる文書データを如何に作成するかという点を 苦心した。IRTは元来テスト理論なので、文書そのものの特徴を掴む方法 としては困難が伴う。Hashimoto(2013)で提示した文書データに基づいて、

IRTが適用できるデータを作成した。そのデータは、A. PoePoetry Prose の合計137作品のそれぞれについてアルファベットの出現順を求め それを集計したものである。各文章の最初から1文字ずつ選択し、それを 26文字のアルファベットごとにカウントし加算する。同じく出現数の多い 順に並べ替えをして出力する。これを行うプログラムをC言語で作成した。

コンパイラは、Microsoft Visual Studio 2010 Toolの中のVisual Studio コマ ンドプロンプトを用い、それによりコンパイルした。プログラムを実行す ることにより、各文章毎にその出現率順の列が得られる。

次に、全体の文書データから出現頻度の高い順に4つのアルファベット を選択した。それらは、e, t, a, o となる。上位4つだけを選択したのは、

分析を簡単にしてその内容を理解しやすくするためと、それ以下の順位の 出現割合は、かなりばらつきがあるので、全体的な特徴を掴みにくいと考 えたからである。この e, t, a, o のデータを基準データとして、次に

Poetry, Prose のそれぞれの出現アルファベット順と比較する。個々の1か

4番目までの順がそれぞれ、e, t, a, o と同じならば1、異なる場合は0 する4つの数字を作成する。例えば、ある文書データのアルファベットの

=0

= ∂

j

j b

f a

f

0

∂ =

i

L θ

(6)

出現順が、e, a, t, i ならば1 0 0 0 また、別のデータ例として e, t , i, o な らば、1101などとする。この作業により0, 1 の数値データを作成する。こ

れが1111の場合には、e, t, a, o の順と同じことを示しており、0000の場合

は、すべての順が異なることを意味する。これらを集計すると次の表にな る。

表1 順位データ

このデータの作成目的は、IRTを適用可能にするためである。

Poetry 頻度

Prose 頻度

0000 1 0

0001 1 0

0010 1 2

0011 0 0

0100 0 0

0101 0 0

0110 0 0

0111 0 0

1000 13 2

1001 3 0

1010 2 0

1011 0 0

1100 14 22

1101 6 8

1110 4 20

1111 4 34

(7)

§4.BILOG‑MGによる分析及び結果

§2で述べた方法を計算処理できるソフトウェアは複数存在する。本稿 では段階反応理論は用いないため、かなり以前から存在しその処理内容が よくわかっているソフトウェアBILOG-MG(Mislevy)を用いた。このソフト

ウェアはWindows XPやWindows 7 でも稼働する。本論文の主目的は

A.Poe の Poetry Prose の文章で使われるアルファベット使用率の差異 を客観的に見ることが可能かどうかを調べることである。その使用率の重 要さについては前掲の論文(Hashimoto)に述べてある。数量的なものでこ の差異を示すことができれば1つの客観的方法を提示したことになる。そ のためにIRTを適用することを試みた。

BILOG-MGでは、入力データとそれを処理するプログラムの両方を用意

する必要がある。入力データのファイルは、その処理法と密接に関連する。

一方、BILOG-MGには、約10個ほどのプログラム例とそのデータ例が付属

している。本稿では、その中のEXAMPLE02に見習って処理を進めること

にした。EXAMPLE02は、英語のスペリングテストの結果が男女間で差異

があるかどうかを調べる例である。これらのサンプルは、入力プログラム の作成に大変役立った。プログラムは、多くの条件を、ある一定の順序に 従って指定する必要があるからで、処理を可能にするためには、マニュア ルを熟読する必要がある。プログラムが不完全であると処理が途中で中断 してしまう。

入力データは、テキストファイルとして構成する。スペースも重要で数 値がずれないように揃える。表1のPoetry 及びProse の頻度は、各項目 パターンの重み(weight)として扱い同じ項目データが出現しないように扱 (以下の表2を参照)。10列目は、その重みである。3列目の1, 2 Poetry, Prose のグループの違いを示す。各項目には1から16番目までの番 号を振る。これは1列目と2列目で表す。

(8)

表2 入力データ

これらの準備の下で、次のようなプログラムで分析処理を行った。

[ BILOG-MG処理プログラム]

>COMMENT

Poe word orders are pesented. 1st is Poetry. 2nd is Prose.

>GLOBAL DFName = 'C:\BLGdata\POE.DAT', NPArm = 1,

NWGht = 3,

11 0000  1   21 0001  1   31 0010  1   41 0011  0   51 0100  0   61 0101  0   71 0110  0   81 0111  0   91 1000 13 101 1001  3 111 1010  2 121 1011  0 131 1100 14 141 1101  6 151 1110  4 161 1111  4

12 0000  0   22 0001  0   32 0010  2   42 0011  0   52 0100  0   62 0101  0   72 0110  0   82 0111  0   92 1000  2 102 1001  0 112 1010  0 122 1011  0 132 1100   22 142 1101  8 152 1110   20 162 1111   34

(9)

SAVe;

>SAVE PARm = 'C:\BLGdata\POE.PAR', DIF = 'C:\BLGdata\POE.DIF';

>LENGTH NITems = (4);

>INPUT NTOtal = 4, TYPe = 2, NIDchar = 2, NGRoup = 2, DIF;

>ITEMS INAmes = (PK1(1)PK4);

>TEST1 TNAme = 'POE', INUmber = (1(1)4);

>GROUP1 GNAme = 'POETRY', LENgth = 4,

INUmbers = (1(1)4);

>GROUP2 GNAme = 'PROSE', LENgth = 4,

INUmbers = (1(1)4);

(2A1,I1,T10,F2.0,T5,4A1)

>CALIB NQPt = 10, CYCles = 50, CRIt = 0.36, NEWTON=5, REFERENCE=1, PLOt = 1;

(10)

ここでは、1パラメータロジスティック関数で処理を行い、EMサイクル Newtonサイクルの精度を0.36とした。当初この精度は、0.0050で処理を したが、Newtonサイクルが収束しない。またEMサイクルとNewton イクルの精度を別個に指定することはできないので、精度を0.36と落して 収束させた。この精度では、EMサイクルは2回、Newtonサイクルは9回で 収束する。このときa = 1.173 となり、Poetry Prose の困難度の平均値 は、それぞれ0.000-2.947 となる。これらより等化係数を求め、Poetry

Prose の困難度の変換をすると次のような結果になる。

DIFは、2つのグループの困難度の差を示す。

表3 困難度の比較(精度=0.36)

一方、精度を上げるとNewtonサイクルが収束しない。このためNewton イクルの回数を1回に制限した。収束するほとんどの場合は、1回で所定の 精度が得られるからである。そのため、精度を0.005とした。この場合の 処理では、EMサイクルが26回で収束する。Newtonサイクルを1回で打ち 切った場合のその精度は、0.02 であった。前述の分析精度0.36よりもかな り良い結果である。この場合a=1.019 となり,Poetry とProse の困難度の 平均値は、それぞれ0.000-2.076 となる。等化係数からPoetry Prose 困難度を変換すると次の結果になる。

Item b(Poetry) b(Prose) DIF

PK1 - 2.836 - 2.910 - 0.074

PK2 - 0.339 - 1.626 - 1.287

PK3 1.384 1.502 0.119

PK4 1.016 2.258 1.242

(11)

表4 困難度の比較(精度=0.005)

表3、4共にPoetry のグループとProseのグループの間にかなり大きな 差がみられる。テスト理論で困難度というのは、テストの難易度を表して いる。本稿ではその解釈はできないが、2つのグループ間でのアルファベ ットの出現率の差が存在するか否かはわかる。各アルファベットの1から4 番目までの出現ごとに差が大きいということは、2つのグループ間での使 用単語が大きく異なっている結果と思われる。特にPK2 "t" は、他の文 字と比べて差が大きい。なお、表3と表4では、DIF の値に少し相違があ るが、DIFの最大のものと2番目に大きいものは同一である。精度を落とし ても変わらない点はこれらの表でみられる。

項目特性曲線やフィッシャー情報関数(テスト情報関数)の図

BILOG-MGで求めることができるが省略した。また、2パラメータモデル

で上述の分析を行うことも可能である。しかし、等化係数による変換が複 雑になるため結果の明快さが薄れる。

文書を分析するためのデータをあたかもテストのようなデータに変換す れば、IRTを適用することが可能であり、文書の特徴を掴むことができる。

Item b(Poetry) b(Prose) DIF

PK1 - 3.093  - 2.656  0.437 

PK2 - 0.379  - 1.905  - 1.526 

PK3 1.468  1.318  - 0.150 

PK4 1.077  2.317  1.239 

(12)

参考文献

Bock, R.D. & Aitkin, M. (1981) Marginal maximum likelihood estimation of an EM algorithm. Psychrometrika, 46, 443-459

Hashimoto, N, On Cryptography of 'The Gold Bug' , 英語英文学研究、19号(2013pp 15-68

Mislevy, R.J., & Bock, R.D. (1990) PC-BILOG3 : Item analysis and test scor- ing with binary logistic models. Mooresville IN : Scientific Software Inc.

Mislevy, R.J. (1984) Estimating latent distributions. Psychrometri ka, 49, 359-381.

Mislevy, R.J. (1986) Bays modal estimation in item response models.

Psychrometrika, 51, 177-195.

Mosteller, F & Wallace, D.L. (1963) Inference in an authorship problem, Journal of the American Statistical Association, 58, 275-309

豊田秀樹(2002) 『項目反応理論[入門編]』朝倉書店

参照

関連したドキュメント

では,フランクファートを支持する論者は,以上の反論に対してどのように応答するこ

 当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文

Matsui 2006, Text D)が Ch/U 7214

に文化庁が策定した「文化財活用・理解促進戦略プログラム 2020 」では、文化財を貴重 な地域・観光資源として活用するための取組みとして、平成 32

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

とされている︒ところで︑医師法二 0

社会学文献講読・文献研究(英) A・B 社会心理学文献講義/研究(英) A・B 文化人類学・民俗学文献講義/研究(英)

(45頁)勿論,本論文におけるように,部分の限界を超えて全体へと先頭