母語推定の精度向上

(1)

2014 ^{年度修士論文} 学習データの選定と Okapi BM25 ^{を利用した}

母語推定の精度向上

提出日 : 2015 年 2 月 2 日指導：山名早人教授

早稲田大学大学院基幹理工学研究科情報理工学専攻学籍番号 : 5113B059-8

田中正浩

(2)

図目次

1.1 不自然な言語が使われたメールの例([1]^{より引用．}). . . . 6

2.1 n-grams^{説明用の例文} . . . . 8

2.2 POS^{タグに置き換えた}2.1^の例文 . . . . 9

2.3 ^基本的なNLI^{のシステム} . . . . 9

2.4 Function Wordsの例 ([23]より抜粋) . . . . 11

3.1 TOEFL11データセットに含まれる著者らの母語. . . . 19

3.2 TOEFL11データセットに含まれる日本語を母語とする著者のエッセイ例 . . . . 20

3.3 TOEFL11^{データセット全体での}Proficiency Level^の分布 . . . . 22

4.1 TOEFL11-TRAINに含まれるエッセイ長のヒストグラムbin= 100 . 23 4.2 TOEFL11-TRAINに含まれる極端に短いエッセイの例 . . . . 24

4.3 TOEFL11-TRAINに含まれるArabicを母語とするエッセイ長のヒストグラム . . . . 25

4.4 TOEFL11-TRAINに含まれるGermanを母語とするエッセイ長のヒストグラム . . . . 26

4.5 tf^とlog(tf+ 1)^のtf^{の変化に対する増分} . . . . 28

4.6 tf^，log(tf+ 1)^，Okapi BM25^のtf^{の変化に対する増分} . . . . 29

4.7 Hindiを公用語として使用する地域(地図上の赤い部分，[19]より引用) 30 4.8 Teluguを公用語として使用する地域 (地図上の赤い部分，[20]より引用) 30 4.9 2段階分類を採用した提案手法のシステム概略図 . . . . 32

4.10 2段階分類を採用しない提案手法のシステム概略図 . . . . 33

5.1 tf^とOkapi BM25^の比較 . . . . 36

5.2 2段階分類を行った場合と行わなかった場合の精度比較 . . . . 37

5.3 Closed Training設定での結果 . . . . 38

5.4 10-fold Cross Validationの結果 . . . . 40

5.5 誤分類したエッセイ集合のProficiency Levelの分布 . . . . 41

5.6 正解したエッセイと誤分類したエッセイのエントロピーの分布 . . . . 43

5.7 誤分類したエッセイをエントロピーの高低で分類した内訳 . . . . 44

5.8 誤分類したエッセイの例(1) . . . . 46

5.9 誤分類したエッセイの例(2) . . . . 46

5.10 誤分類したエッセイの例(3) . . . . 47

(5)

表目次

2.1 ^単語n-grams^の説明 . . . . 8

2.2 Penn Treebank^{に定義された}POS^タグ[25]^より作成 . . . . 10

2.3 Koppelらの定義したエラーの種類([2]^{を基に作成}) . . . . 12

2.4 ICLEデータセットの問題点([5]を基に作成) . . . . 14

2.5 Lemmaの例 . . . . 14

2.6 関連研究の概要まとめ . . . . 16

2.7 関連研究のアプローチの違いによる分類 . . . . 17

2.8 ^{関連研究に対する考察} . . . . 18

3.1 TOEFL11データセットに含まれる情報のまとめ. . . . 20

3.2 TOEFL11-TRAIN^中のPrompt^の分布 . . . . 21

4.1 提案手法に使用した特徴量 . . . . 31

5.1 NLIにおける分割表 . . . . 34

5.2 学習データの選別 . . . . 35

5.3 Closed-Trainingでの混合行列 . . . . 39

5.4 Closed-Training^{での各言語の}F1^値 . . . . 39

5.5 TOEFL11データセット全体と誤分類したエッセイ集合のProficiency Level^割合 . . . . 41

5.6 誤分類したエッセイとエントロピーの対応 . . . . 42

(6)

概要

著者の属性推定のタスクは，自然言語処理の分野でも広告推薦など多くの分野に応用可能であり盛んに研究されている．著者属性推定タスクの一つとして，Native Language Identification(^{母語推定，以下}NLI)^がある．NLIとは，ある著者が自身にとっての非母語として書いた文章を解析し，著者の母語を推測するタスクである．NLIに関する研究は，広告推薦など著者属性推定の一般的な応用分野のみならず，第二言語習得 (Second Language Acquisition)にとっても有用である．これまでのNLIの研究によく用いられてきた手法は，自然言語を単語n-gramsなどの手法を用いてベクトル空間に写像し，Support Vector Machineなどの教師あり機械学習を用いたマルチクラス分類を行うことが一般的であった．しかし，学習に用いるデータの選定や抽出した特徴量に対する重み付けに関しては十分な研究がなされてこなかった．また，誤分類しやすい言語に対応する手法も存在しなかった．そこで本稿では1)学習に用いるデータの長さによる選定，2)特徴量に対する重み付けの最適化，3)誤分類しやすい言語に対する2段階分類の3つを新たに行った．TOEFL11データセットを用いた精度実験の結果，1)^と2)と行った場合において既存手法での最高精度である85.3%^を越す86.3%^の精度を達成し，提案手法の有効性が確認できた．

(7)

第 1 ^章 ^はじめに

著者の属性推定のタスクは，広告推薦など多くの分野に応用できることから，盛んに研究されている．著者属性推定タスクには，著者の性別推定[1]^や，Native Language Identification (^{母語推定，以下}NLI) などがある．本稿では，NLI^{に関する研究を行} う．

NLIでは，ある著者が非母語(以下，L2) として書いた文章を解析し，著者の母語 (^以下，L1)^{を推測する．}NLIの研究が進むことによって応用が期待できる分野は大きく分けて以下の2^点ある．

1. フィッシングサイトやフィッシングメール判別などへの適用 2. ^{第二言語習得への応用}

フィッシング行為とは特にWebサイトやメールなどを使った詐欺の一種であり，

フィッシング行為を行う目的で作成されたWebサイトやメールをそれぞれフィッシングサイト，フィッシングメールと呼称する．有名な企業などを騙ったメール送信や，

Webサイトの模倣を行い金銭を騙し取ることがフィッシング行為の常套手段であり，

近年フィッシング行為の被害額は増加の一途をたどっている．警察庁の発表¹によれば，インターネットバンキング利用者の口座情報を盗まれ，利用者の口座から不正送金が行われるという被害が急増しており，2012年には64件，約4,800万円だった被害額が，2013年には1,315件，約14億600万円に増加し，前年比29倍に達した．

フィッシングサイトやフィッシングメールを判別するために，従来ではIP^アドレスなどが使われてきた．しかし，近年フィッシングサイトやフィッシングメールでは不自然な言語が使われていることが報告²されている．実際に送られてきたメールの例を図1.1に示す．

図1.1では，文脈にそぐわない「貴様」という表現がメール中で使用されている．「貴様」という言葉は漢字だけを見れば尊敬の意を含んでいるように思われるため，このような表現を使うのは漢字に精通しつつも，日本語には精通していない者であると推察できる．このように，NLIの研究が進めばフィッシングサイトやフィッシングメール判別，またそれらのサイトやメールを作成した者の出自を推測するための一手法としての応用が期待できる．

また，NLIは第二言語習得(Second Language Acquisition，以下SLA)への応用が期待できる．ある言語をL1^{とする者たちが}L2として書いた文章には，特有の誤りや

1警察庁，https://www.npa.go.jp/cyber/pdf/H260131_banking.pdf

2日本経済新聞，http://www.nikkei.com/article/DGXNASFK1101A_R10C14A3000000/

(8)

図1.1: 不自然な言語が使われたメールの例 ([1]より引用．)

使いがちな表現が存在すると一般に考えられている．例えば，日本語においては一般に単数形と複数形の使い分けを行わないが，英語では単数形と複数形の使い分けが日本語に比べて厳密である．そのため，日本語をL1とする者たちの英語文章では単数形と複数形の間違いが散見されるなどである．そのような特徴をL1ごとに抽出することができれば，SLAにとって有益であると考えられる．

NLI^{では，特に英語を}L2とする著者が書いた英語の文章を対象とする研究が多い．

2013^年には，TOEFLのテストで書かれたエッセイから作成されたTOEFL11^データ

セットを用いたNLI Shared Task 2013[5]が開催されるなど，近年盛んに研究されている．NLI Shared Task 2013には世界各国から29のチームが参加した．TOEFL11 データセットはその後，NLIの研究に用いられるデータセットとしてデファクトスタンダードとなっている．

NLIの研究ではこれまで，単語n-gramsなどを特徴量としてエッセイをベクトル空間に写像し，Support Vector Machine (以下，SVM)などの教師あり機械学習を用いたマルチクラス分類を行うことが一般的であった．何を特徴量とするかということに関しては今までに研究が進んでいる[2][21][3]．しかしNative Language Identification のデータ特性に則した学習データの選別や重み付けが行われていなかった．また，本質的に誤分類しやすいHindi^とTeluguに対応するような手法も存在しない．そこで本稿では1)学習に用いるデータの長さによる選定，2)特徴量に対する重み付けの最

(9)

適化，3)Hindi^とTelugu^における2^{段階分類の}3^{つを行う．}

本稿は以下の構成を取る．まず，2章において関連研究の紹介を行う．次に，3章で本稿で用いるデータセットの詳細について説明し，4章では，提案手法について述べる．そして，5章で実験結果を説明する．最後に，6章でまとめる．

(10)

第 2 ^章 ^関連研究

テキストデータから著者の母語を推定するという研究は，2005^年にKoppel^ら[2]^が行ったものが最初であるとされる．本章では，Koppelらが行った研究や，近年もっともNLIの研究に用いられているTOEFL11データを使った研究について説明する．

2.1 基本的な用語の定義

本節では，関連研究や本稿の提案手法で特徴量として用いるn-grams^やPOS^タグの説明を行う．

n-gramsモデルは，情報理論の創始者として知られるクロード・エルウッド・シャ

ノンが考えだした言語モデルである．単語n-gramsについて図2.1に示す例文を用いて説明する．

Please turn oﬀ your cell phone

図 2.1: n-grams説明用の例文

図2.1^{の例文について，}1-gram, 2-gram, 3-gram^{をそれぞれ表}2.1^に示す．

表 2.1: 単語n-gramsの説明 n-grams^の種類 ^{具体的な例}

1-gram Please, turn, oﬀ, your, cell phone

2-gram Please-turn, turn-oﬀ, oﬀ-your, your-cell, cell-phone

3-gram Please-turn-off, turn-off-your, off-your-cell, your-cell-phone

ただし，表2.1において‘-’は単語同士の連結を表す便宜的な記号である．なお，n-

gramsを取る際には文末や文頭に対して特殊な文字を付与する場合があるが，簡単の

ため表2.1では省いた．

文字n-gramsについては，単語と同様に文字単位でn-grams^を取る．POS n-grams は，まず文章中の単語をタグに置き換え，を取る．図の例文を

(11)

タグに置き換えたものを図2.2^に示す．

VB VB RP PRP$ NN NN

図2.2: POS^{タグに置き換えた}2.1^の例文

ただし，図2.2^のVB^やNN^{は，それぞれ}Verb^やNoun^を示すPOS^{タグである．}

英語で広く用いられるPenn Treebank^のPOS^タグを表2.2^に示す．

2.2 NLI における基本的なシステム

最も基本的なNLIのシステムの概略図を図2.3^に示す．

図 2.3: ^基本的なNLI^{のシステム}

ここで，緑色の矢印は学習データまたは学習データから構築された特徴量，ベクトル空間，分類器の流れを示し，オレンジ色の矢印はテストデータまたはテストデータ

(12)

表 2.2: Penn Treebank^{に定義された}POS^タグ[25]^より作成タグ説明

CC Coordinating conjunction CD Cardinal number

DT Determiner EX Existential there FW Foreign word

IN Preposition or subordinating conjunction JJ Adjective

JJR Adjective, comparative JJS Adjective, superlative LS List item marker

MD Modal

NN Noun, singular or mass NNS Noun, plural

NNP Proper noun, singular NNPS Proper noun, plural PDT Predeterminer POS Possessive ending PRP Personal pronoun PRP$ Possessive pronoun

RB Adverb

RBR Adverb, comparative RBS Adverb, superlative RP Particle

SYM Symbol

TO to

UH Interjection VB Verb, base form VBD Verb, past tense

VBG Verb, gerund or presente participle VBN Verb, past participle

VBP Verb, non-3rd person singular present VBZ Verb, 3rd persion singular present WDT Wh-determiner

WP Wh-pronoun

WP% Possessive wh-pronoun

(13)

から作成されたベクトル空間の流れを示す．

本章では既存の提案手法で構築された様々なNLIのシステムを説明するが，何れの提案手法も基本的なシステムは図2.3に沿った構成となっている．すなわち，何らかの手法で学習データから特徴量及び分類器を構築した後に，テスト用データからも学習データと同様にベクトル空間を構築し，分類器による分類を行う．

2.3 Koppel らの研究

Koppelら[2]は，ある著者らが書いた英語の文章から，その著者らの母語を判別す

る初めての研究を行った．Koppel^{らはまず，}Stylistic Features^{と呼ばれる特徴量を} 定義した．Koppel^{らが定義した}Stylistic Features^{を以下に示す}

1. Function words

• 日本語では「機能語」と訳される．文法的な役割を果たすがはっきりとした意味を持っていない単語のこと．

2. Letter n-grams

• ^文字n-gramsのこと．

3. Errors and Idiosyncrasies

• 文法上のエラーやスペルミスのこと．Koppel^らはMicrosoft Word¹^の校閲機能を利用し，出力されたエラーを分類し特徴量とした．

Function Words^の例を図2.4^に示す．

of, at, in, without, between, he, they, anybody, it, one, the, a, an, that, my, more, either, neither, and, that, when, while, although, or, be, have, got, do, no, not, nor, as

図 2.4: Function Words^の例 ([23]^より抜粋)

文法のエラーやスペルミスは，具体的に表2.3^に示す4^{つに分類された．}

Koppelらは250個のRare Parts-of-Speech (以下，POS) 2 gramsをBrown Corpus² から抽出した．International Corpus of Learner English Ver.1³ (以下，ICLE)をデー

1Microsoft Word,http://technet.microsoft.com/ja-jp/office/default.aspx

2Brown Corpus,http://www.hit.uib.no/icame/brown/bcm.html

3International Corpus of Learner English,http://www.uclouvain.be/en-cecl-icle.html

(14)

表2.3: Koppelらの定義したエラーの種類([2]を基に作成) エラーの名前より具体的な種類

Orthography •^{文字の複数回うち}(×remmit→ ⃝remit)

•^{複数続く文字の欠落}(×comit→ ⃝commit)

•^{違う文字の使用}(×f irsd→ ⃝f irst)

•^{文字の入替}(×f isrt→ ⃝f irst)

•^{文字の挿入}(×f riegnd→ ⃝f riend)

•^{文字の欠落}(×f rend→ ⃝f riend)

•^{文字の連結}(×stucktogether)

•^{文字の省略}

Syntax •^{文の断片しかないこと}(完全な文になっていない状態)

•^{長々と続く文} (ピリオドやカンマがなく長く続く文)

•^{単語の重複}

•^{単語の欠落}

•^単数形/複数形の誤り

•^{時制の不一致}

•that/which^の混同

Neologisms 新語を作ってしまうこと(f antanulous)

Parts-of-speech bigrams 文法エラーになるか，少なくとも不自然なPOSの連続 (動詞と動詞など)

(15)

タセットとして用い，5^言語 (Czech, French, Nulgarian, Russian, Spanish)^への分類をSVMを用いて行い，結果として80%^{の精度を得た．}

2.4 Bykh ^ら (2012) ^の研究

Bykhら[21]は，n-gramsを用いてエッセイをベクトル空間に写像する際に利用す

るn-gramsの選定を行った．

Bykhらは，学習データ中で少なくとも2つ以上のエッセイに現れるn-gramsを

recurring n-gramsと定義した．学習データ中で高々一つのエッセイにしか含まれない

n-gramsはベクトル空間へ写像する際に考慮に入れず，recurring n-grams^{のみを用い} てベクトル空間に写像し，学習を行った．

recurring n-gramsのみを利用することの利点は以下の2点である．

1. 単なるスペルミスなどによる学習時のノイズを減らせること．

2. 次元数の削減ができ，学習時間の短縮と過学習が減らせること．

BykhらはICLE Ver.2をデータセットとして利用し，単語1-2 recurring ngramsを特徴量として7言語 (Bulgarian, Chinese, Czech, French, Japanese, Russian, Spanish) への分類を行った．用いた機械学習は線形カーネルのSVMである．結果として分類精度は89.7%であり，同等のデータセットを利用したNLI^{の研究である}Wong^ら[22]

の精度より約8%の精度向上が見られたと報告している．

2.5 NLI Shared Task

Koppel^{らの研究以降，}NLI^{の研究には}ICLEが主に用いられてきた．しかし，Brooke ら[6]^やTetreault^ら[7]^は，ICLE^{データセットには表}2.4に示す問題点があることを指摘した．

表2.4に示した理由により，ICLEはNLIの研究には向かないのは明らかである．

そのため，NLIの研究のために新しく作られたのがTOEFL11^{データセット}[24]^であり，TOEFL11データセットを利用してNLI Shared Task[5]^が2013^{年に行われた．}

本節では，NLI Shared Task 2013^{で高い精度を得た}Jarvis^ら[9]^{らの研究について説} 明する．なお，TOEFL11データセットとNLI Shared Task 2013で行われたタスクの設定に関する詳細な説明は3章で行う．

(16)

表2.4: ICLE^{データセットの問題点}([5]^{を基に作成})

問題の種類問題の詳細

トピックの偏り ICLEデータセットに含まれるエッセイには各言語でのトピックに強い偏りがあり，

NLIというよりはトピック分類になっていること．

エンコーディングなどの一貫性の欠如特定の言語でしか使われない文字(e.g.^日本語におけるひらがなや，フランス語におけるcompletéなど )がエッセイに含まれていたり，エンコーディングが各言語でバラバラであったりすることなどのメタ情報を使えば分類は容易であること．

2.5.1 Jarvisらの研究

Jarvisら[9]らは，単語 1-3 grams, Lemma 1-3 grams, POS 1-3 gramsを利用した．

Lemmaとは日本語では基本形や見出し語という意味である．英語でのある単語にお

けるLemma^の例を表2.5^に示す．

表2.5: Lemma^の例

単語 Lemma

child, children child go, goes, went, gone, going go

特徴量の重み付けとしてLog-Entropyを採用した．Log-Entropyを式(2.1)に示す．

wij = log(tfi+ 1)·(1 +∑

j

pijlogpij

logn ) (2.1)

ここで，pij = ^tf_gf^ij

i であり，tfij はあるドキュメントjに含まれる単語などでの特徴量 (term) tiの出現回数を示し，gfiはトレーニングデータ全体でのtiの出現回数を数えたものである．wij はあるドキュメントj^でのterm tiに対する重みを表す．

2.6 Bykh ら (2014) の研究

Bykh^ら[3]は，文脈自由文法の生成ルールに着目し，三つの特徴量を定義した．

(17)

1. CF GR_ph: 表層格を除いたすべての句からなる文脈自由文法の生成ルール

• S →N P V P, N P →D N N,· · ·

2. CF GR_lex: 表層格と，その直上のPOSタグを組み合わせたもの

• J J →nice, J J →quick, N N →vacation,· · · 3. CF GR_ph_∪_lex CF GR_phとCF GR_lexの同時使用

Bykh^らはCF GR_ph_∪_lex^と，単語n-grams^，POS ngramsなどを組み合わせて最適化を行った．NLI Shared Task 2013のClosed-Trainingで同条件で評価を行い，最終的な結果として84.8%の精度を得た．

2.7 Ionescu らの研究

Ionescuら[4]は，従来の研究とは異なり，POSタグなどを特徴量としては用いず，

String Kernelと呼ばれる手法で精度の向上を測った．

String Kernelとは文字列間での類似度比較手法の一つとして捉えられる．最も基本

的なp−spectrumKernel^は式(2.2)^{で表すことができる．}

k_p(s, t) =∑

v∈P

num_v(s)·num_v(t) (2.2) ここで，s^とtはそれぞれある文字列を表す．numv(s)^は長さp^{の部分文字列}v^が文字列sに何回現れるかを表す．また，P ^は長さpのすべての文字列集合を表す．

Ionescuらはさらに式(2.3)と式(2.4)の2つString Kernelを定義した．

k_p^0/1(s, t) =∑

v∈P

inv(s)·inv(t) (2.3)

k_p^∩(s, t) =∑

v∈P

min{numv(s), numv(t)} (2.4) ここで，inv(s)^は文字列s^{中に部分文字列}v^{が存在すれば}1,^なければ0^{を返す関数で} あり，min{x, y}^はx, yのうち大きいほうを返す関数である．

つまり，単語n-gramsなどを利用してエッセイをベクトル空間に写像するのではなく，ある2つのエッセイの類似度をスカラとして算出し，トレーニングデータに存在するすべてのエッセイの組み合わせで特徴空間行列を作成する．テスト時には対象のエッセイとトレーニングデータ中のエッセイのすべての組み合わせでString Kernel を用いた類似度を算出しベクトルとする．先に作成した特徴空間行列と対象のエッセ

(18)

イから作成されたベクトルとの内積を取り，結果の値を用いて母語を判別する．

Ionescuらは式(2.2)，式(2.3)，式(2.4)を組み合わせて精度向上を図った．最終的に式(2.5)に示すk(s, t)がNLI Shared Task 2013のClosed Training設定で最も高い精度を出し，85.3%だった．

k(s, t) =a1k₅₋₈^0/1(s, t) +a2k^∩₅₋₈(s, t) (2.5) ただし，k₅^0/1₋₈(s, t)^とk^∩₅₋₈(s, t)^{はそれぞれ式}(2.3)^と式(2.4)^においてp^に5,6,7,8 を代入したものの合算であり，a1とa2はkernel alignmentで計算された重みの合計である．

2.8 ^{関連研究のまとめ}

関連研究の概要を表2.6^{にまとめる．}

表 2.6: ^{関連研究の概要まとめ}

著者らデータセット分類した母語の数

分類器手法精度 (%)

Koppelら (2005)[2]

ICLE Ver.1 線形SVM •^機能語 80%

5 •^文字n-grams

•^{スペルミス} Bykh^ら

(2012)[21]

ICLE Ver.2 7 ^線形SVM •^単語recurring n-grams 89.7%

Jarvis^ら (2013)[9]

TOEFL11 ^線形SVM •^単語n-grams 83.6%

11 •Lemma n-grams

•POS n-grams Bykhら

(2014)[3]

TOEFL11 RBF SVM •CF GR_ph_∪_lex 84.8%

11 •^単語recurring n-grams

•POS recurring n-grams Ionescu^ら

(2014)[4]

TOEFL11 11 KDA •String Kernel 85.3%

NLIの研究にあたって関連研究では，大きく分けて2つのアプローチがあると考える．

(19)

1. n-gramsなどを利用してエッセイをベクトル空間に写像し，特徴空間を形成する手法，

2. String Kernelなどを利用し，エッセイ同士の類似度を特徴空間とする手法．

アプローチの違いで関連研究を分類したものを表2.7^に示す．

表 2.7: 関連研究のアプローチの違いによる分類

アプローチ関連研究

1 n-gramsなどを利用してエッセ

イをベクトル空間に写像し，特徴空間を形成する手法，

Koppelら，Bykhら(2012, 2014)，Jarvisら

2 String Kernelなどを利用し，エッセイ同士の類似度を特徴空間とする手法．

Ionescuら

Ionescu^{らが採用した表}2.7^における2つ目のアプローチでは，対象とする言語に依

存しないシステムの構築が可能となる．しかし，2つ目のアプローチでは，母語を判別したいエッセイが学習データ内のどのエッセイに類似するか，という特徴は分かるものの，エッセイ内のどの部分が著者の母語を推測し得る特徴を持っているかなどは判別できない．換言すれば，フィッシングサイトなどの判別には応用できるものの，

SLAにそのまま応用することはできないという特徴を持っている．

そのため，本稿では表2.7^における1つ目のアプローチを採用する．1^{つ目のアプ} ローチを採用した関連研究に対する考察を表2.8^{にまとめる．}

(20)

表 2.8: 関連研究に対する考察

研究考察

利点欠点本稿提案手法への応用

Koppelら初めての研究 Microsoft Wordなどを

情報源として利用している．コーパスがICLE^．

タスク条件にそぐわない．

Bykh^ら(2012) Recurring n-grams^はシンプルであり，多くの手法に適用可能．

特徴量の種類の少なさ． Recurring n-grams^の考え方を採用．

Jarvis^らシンプルな手法で高い精

度を出している．特徴量の重み付けが有効であることを示した．

構文構造を特徴量として利用していない．

特徴量を重み付けするという考え方を採用．

Bykh^ら(2014) CF GR_ph_∪_lex^{により，構} 文構造を特徴量として利用．

n-grams^{に対する重み付} けがBinary Weighting

特徴量はほぼ同じものを採用

(21)

第 3 ^章 TOEFL11 ^{データセット}

本章では，本稿の研究に用いるTOEFL11^{データセット}[24]^{の詳細について説明す} る．2.5^{節で述べたように，}NLI Shared Task 2013以前まで主に用いられてきたICLE にはトピックのバイアスなどNLIの研究には向かない特性がある．TOEFL11^データセットはNLIの研究に適するように作成されたデータセットである．

3.1 ^概要

TOEFL11^{データセットは，}ETS¹^{が主催する} the Test Of English as a Foreign

Langauge (TOEFL⃝R)において，受験生が書いたエッセイを元にして作られている．

また，受験生の書いたエッセイがETSのシステムに送られる際，エンコーディングなどの処理は一括で行われるため，例えば受験生の環境による文字化けなどの問題もなく，データセットにおける一貫性が保たれている．

テスト中に書かれたものであるので，インターネットや辞書などを使うことなく受験生の実力のみでエッセイが書かれていることが保証される．すなわち，ノイズの少ないデータであることが期待される．また，トピックのバイアスも極力少なくなるように作成されている．[5]

TOEFL11データセットに含まれるエッセイ著者らの母語は全部で11^{言語である．}

図3.1にエッセイ著書らの母語を示す．

Arabic, Chinese, French, German, Hindi, Italian, Japanese, Korean, Spanish, Telugu, Turkish

図3.1: TOEFL11データセットに含まれる著者らの母語

TOEFL11データセットに含まれる情報を表3.1にまとめる．また，エッセイの例

を一つ図3.2^{に抜粋する．}

TOEFL11-TRAIN^{中にあるエッセイの}Prompt^{ごとの分布を表}3.2^{に示す，また，}

TOEFL11-TRAIN, TOEFL11-DEV, TOEFL11-TEST全てでのProficiency Levelの

1ETS, “https://www.ets.org/”

(22)

表3.1: TOEFL11データセットに含まれる情報のまとめ情報の種類情報の説明

L1 エッセイ著者の母語

Essay エッセイ本文

Prompt ^{エッセイのお題} (^問題文)^．8種類存在する．各エッセイのト

ピックを意味する．

Proficiency Level エッセイ著者の英語レベル．Low, Medium, High^{の三段階で} 人手によるレベルが付けられている．

Over the last 2 to 3 decades , the number of cars in all over the world has been increasing rapidly due to development in its technology. Howwever , in my opinion use of cars would be decrease in twenty years , becauase of a probable shortage of petrol , introduce of tough provision for global warming and the possibility of invention of anothee types of behicles. The following essay explain to support my perspective in more detail.

. . . (途中省略) . . .

Futhermore , petrol price has been becoming higher and higher because of the shortage in the near future. Therefore , It seems that people will have to begin thinking about another types of behicles , which do not use petrol. At the moment , several car canpanies have tried to create electric cars , but still it is too pricy to target ordinaly people. Remarkably , some of the companies already started improving the techniques to creat other types of reasonable behicles.

In conclusion , I belive the techniques and environmental concerns about global wraming will be promoted by 2026. Use of cars might shift to newly produced behicles. Hence , this is predictable that the ues of cars would decrease than we use at present.

図 3.2: TOEFL11データセットに含まれる日本語を母語とする著者のエッセイ例

(23)

分布を図3.3^に示す，

表3.2: TOEFL11-TRAIN^中のPrompt^の分布

Lang. P1 P2 P3 P4 P5 P6 P7 P8

ARA 113 113 113 112 112 113 112 112 CHI 113 113 113 112 112 113 112 112 FRE 128 128 76 127 127 60 127 127 GER 125 125 125 125 125 26 125 124 HIN 132 132 132 71 132 38 132 131 ITA 142 70 122 141 141 12 141 131 JAP 108 114 113 113 113 113 113 113 KOR 113 113 113 112 112 113 112 112 SPA 124 120 38 124 123 124 124 124 TEL 139 139 139 41 139 26 139 138 TUR 132 132 72 132 132 37 132 131

3.2 NLI Shared Task 2013 での設定

NLI Shared Task 2013[5]におけるTOEFL11データセットには，TOEFL11-TRAIN， TOEFL11-DEV^，TOEFL11-TEST^の3つサブセットが存在する．

• TOEFL11-TRAIN: ^{各言語につき}900^エッセイ

• TOEFL11-DEV: 各言語につき100エッセイ

• TOEFL11-TEST: 各言語につき100エッセイ

つまり，TOEFL11データセットには総計で12,100エッセイ存在する．

NLI Shared Task 2013では，各チームにTOEFL11-TRAINとTOEFL11-DEVデータセットが配布され，各チームはTOEFL11-TRAIN^とTOEFL11-DEV^{で各自のシ} ステム開発に取り組んだ，最終的な評価は，その後に配られたTOEFL11-TEST^データセットによって行われた．

NLI Shared Task 2013にはClosed-Training，Open-Training-1，Open-Training-2 の3つサブタスクが存在する．

(24)

図3.3: TOEFL11^{データセット全体での}Proficiency Level^の分布

• Closed-Training:メインのタスク．TOEFL11-TRAINと，加えてオプションとしてTOEFL11-DEVを学習データとして利用できる．TOEFL11-TEST^で評価する．

• Open-Training-1: TOEFL11データセット以外のデータを学習データとして，

TOEFL11-TESTで評価する．

• Open-Training-2: 学習データとしてどのようなデータを使用してもよい．

本稿では，Closed-Trainingの設定で評価を行う．すなわち，TOEFL11データセット以外をデータセットとしては利用しない．また，NLI Shared Task 2013ではProficiency

Level^やPromptを学習データに含めていいかについて言及がないものの，

1. NLI^{の応用を考えると}Proficiency Level^やPromptを学習する際にメタ情報として用いることは不自然であること．

2. ^{関連研究でも}Proficiency Level^やPrompt^{を用いていないこと．}

以上の2点から，本稿でも学習する際にはエッセイ本文のみを使用した．

(25)

第 4 ^章 ^提案手法

本章では，本稿における提案手法について述べる．2.8節でも述べたとおり，本稿

ではn-gramsなどを利用したアプローチを採用する．また，3.2^{節でも述べたとおり，}

学習にあたってProficiency Level^やPrompt^{の情報は用いない．}

4.1 学習データの選別

TOEFL11-TRAINに含まれるエッセイ長のヒストグラムを図4.1に示す．ここで，

図4.1: TOEFL11-TRAINに含まれるエッセイ長のヒストグラムbin= 100

エッセイ長とはエッセイに含まれる単語の数を示す．エッセイ長の平均µと分散σ² はそれぞれµ= 333.44, σ²= 6597.97である．

つまり，TOEFL11データセットでの平均的なエッセイは約330^{単語で成り立って}

いると解釈することができる．しかし，図4.1を見ると，極端に短いエッセイや極端

(26)

に長いエッセイがデータセット中には存在することがわかる．

TOEFL11-TRAINに含まれる極端に短いエッセイの例を図4.2に示す．

I disagree. Becouse our communities must be better by us.

図4.2: TOEFL11-TRAINに含まれる極端に短いエッセイの例

極端に短いエッセイ，あるいは極端に長いエッセイはそもそもエッセイ著者のL1 に依存するような特徴を表しづらいと考えられる．何故なら，極端に短いエッセイをテスト中に書くということはエッセイ著者のL2のレベルが低いと考えられ，母語の特徴を表すというよりスペルミスなどの単純な間違いや，文章になっていないエッセイも含まれるため，学習するのに不適当であると考えられ，また極端に長いエッセイの著者はL2のレベルが高く，自然な(母語の特徴を表さない)エッセイを書いていると推察されるためである．

以上の問題を解決するため，学習に不適当と思われる極端な長さのエッセイを学習データに含めないことを提案する．具体的には，式(4.1)の条件にあてはまるエッセイのみを学習データに含める．

µ_i−n₁·σ_i< essaylength < µ_i+n₂·σ_i (4.1)

ただし，essaylengthはエッセイ長(エッセイに含まれる単語の数)を表す変数であ

り，µ_i, σ_iはそれぞれ各言語での平均と標準偏差を示し，添字のiは言語のインデックスを示す．また，n1, n2はそれぞれデータセットから削るエッセイの量を調整するための係数である．n1, n2を段階的に変化させ，実験的に最も高い精度を示すものを採用する．

データセット全体での平均ではなく，各言語での平均を取ったのは，各言語で平均エッセイ長が異なるケースがあるためである．ArabicとGermanのエッセイ長のヒストグラムをそれぞれ図4.3^と図4.4^を示す．

当然，テストデータからのエッセイの削除は行わず，全てのエッセイで分類は行う．

4.2 Okapi BM25 による特徴量の重み付け

Gebre^ら[8]^やJarvis^ら[9]^らは，NLI^においてn-gramsなどでエッセイをベクトル空間に写像する場合，単純な出現回数やBinary Weighting^{ではなく，特徴量を}TF-IDF

やLog-Entropyで重み付けすることは精度向上に寄与することを示した．

(27)

図4.3: TOEFL11-TRAINに含まれるArabicを母語とするエッセイ長のヒストグラム

(28)

図 4.4: TOEFL11-TRAIN^{に含まれる}Germanを母語とするエッセイ長のヒストグラム

(29)

出現回数を重みとする場合を式(4.2)^，Binary Weighting^を式(4.3)^，及びTF-IDF を式(4.4)^{にあげる．}

w_ij =tf_ij (4.2)

w_ij = {

1 (tf_ij >1)

0 (otherwise) (4.3)

w_ij =tf_ij·log|D| dfi

(4.4) ここで，wij はあるterm ti のドキュメントj^{における重みを表す．}tfij はあるドキュメントdjに存在するtermtiの出現回数であり，|D|^{は総ドキュメント数，}dfiはあるtermt_iが出現するドキュメント数である．本稿では，一つのエッセイを一つのドキュメントとして扱う．

ただし，ここでいうterm^{とは，単語}1 gramsであれば単語一つを指し，単語2 grams であれば連続して使われている単語2^{つを指す．}

式(2.1)や式(4.4)を参照すると，同様にあるエッセイに存在する単語の出現回数に

よって重みをつけていることがわかる．NLIは文書分類 (Text Categorization, 以下 TTC) の一つであるとも捉えられ，TTCにおいてはtfが広く使われており[13]，あるドキュメントにおけるtermの出現回数はTTCの分類精度向上にとって重要であると言える．

しかし，従来のTTC^とNLI^{が異なる点は，}NLI^{は著者にとって}L2^{で書かれた文} 章であり，L2のレベルも様々であるという点である．

浅尾[14]やWeinert[16]は，L2学習者は定形表現を使いがちであることを示した．

また阪上[15]^は，L2学習者のレベルが上がると定型文だけでなく，代替表現を使うようになることを示している．このことから，L2^{のレベルが低い者は}L2^{の表現を多く} は知らず，結果的に自身の知っている表現を反復して使いがちであることが推察される．つまり，L2のレベルが低い者は出現する表現に偏りが見られ，L2のレベルが高い者は，使用する表現が分散していると考えられる．

よって出現回数に対して線形に重みを増やすことは精度向上に寄与しないと考えられる．実際にGebre^ら[8]^やJarvis^ら[9]^が単純なtf^ではなくlog(tf)^{を採用し精度} を向上させた．

図4.5にtf とlog(tf)のtf に対する変化を示す．

ただし，logxはx <1においてマイナスになるため，log(x+ 1)と補正した．

図4.5^{を見ると，確かに}tf^に比べてlog(tf+ 1)^のほうがtf^{の値が大きい時の重み} が補正されている．しかし，log(tf + 1)^{の場合でも}10回以上出てくるような単語の重みが強く，相対的にtf ^の低いtermの重みが低くなってしまう．

(30)

図4.5: tf^とlog(tf+ 1)^のtf^{の変化に対する増分}

そこで，本稿ではtfに対する補正として，Okapi BM25[17]を利用することを提案

する．Okapi BM25とは，情報検索の分野でTF-IDFよりも精度が高いとされる評価

指標である．Okapi BM25^を式(4.5)^に示す．

wij = tfij ·(k1+ 1)

tfij+k1·(1−b+b·^len(d_avgdl^j⁾) ·log|D|

dfi

(4.5) ここで，tfij はあるドキュメントdjに存在するterm tiの出現回数であり，|D|^は総ドキュメント数，len(dj)^{はドキュメント}djの長さ，dfiはあるterm tiが出現するドキュメント数である．また，avgdlは総ドキュメントの平均長である．k1とb^はそれぞれ自由な値を入れることができるパラメータであり，エッセイ長に対してtf をどれだけ補正するかを表す．一般的にk₁は1.2から2.0の値で高い精度を出すことが知られており¹，本稿ではk₁= 1.2を用いた．また同様にbは0.75で高い精度を示すことが知られており，本稿でもこの値を用いた．

図4.6^に，図4.5^と同様にOkapi BM25を用いた場合の重みの変化を示す．

ただし，図4.6においてLengthとはエッセイの長さ（i.e. エッセイ中の単語数)を示

1Stanford IR-book HTML Edition, http://nlp.stanford.edu/IR-book/html/htmledition/

(31)

図 4.6: tf^，log(tf+ 1)^，Okapi BM25^のtf^{の変化に対する増分}

す．図4.6に示すように，tf値が高くなっても，termに対する重み付けが小さくなっている．言い換えれば，tfが低くても，つまりあるエッセイ中に出現する回数が少なくてもlogtfなどと比べて重みが相対的に大きくなることが期待できる．log(x+ 1)^は xが増えるに連れ重みの増え幅は少なくなるものの単調増加関数であり，一方Okapi BM25は漸近的増加をしていることが図4.6^{からもわかる．}

まとめると，NLIにおいては通常のTTCに比べてtfの大きいtermの重要性は低く，相対的にtfの低いtermの重要性は高い．よって，tfが大きくなってもtfの小さなtermと比べて極端に大きくならない重み付けが必要であると考え，そのために

Okapi BM25を提案手法として採用した．

4.3 Hindi と Telugu における 2 段階分類

Jarvis^ら[9]なども報告している通り，TOEFL11のデータセットにおいて最も誤分類しやすい言語のペアはHindi^とTelugu^である．

これは，TeluguとHindiが主に使われる場所が地理的にも文化的にも近く，表現が

似通っているためと推測される．図4.7と図4.8に，それぞれHindiとTeluguが公用

(32)

語として使われている地域の地図を示す．

図4.7: Hindiを公用語として使用する地域 (^{地図上の赤い部分，}[19]^より引用)

図4.8: Teluguを公用語として使用する地域(^{地図上の赤い部分，}[20]^より引用) 全体的な精度向上を図るためには，HindiとTeluguの判別をより正確に行う必要がある．そこで，分類システムを2段階に分けることを提案する．

具体的には，以下の流れで分類を行う．

1. 全てのトレーニングデータから11言語のマルチクラス分類を行う分類器clf₁₁ を作成し，テストデータを分類する．

2. clf₁₁によって，テストデータのうちHindiまたはTeluguに分類されたもの以外は分類を終了し，正解データと照合する．

3. トレーニングデータからHindiとTeluguのデータのみを使用して，新しくHindi とTeluguを分類する分類器clf₂を作成する．

4. clf11によってHindi^またはTeluguと分類されたテストデータに対してclf2によって二値分類を行い，正解データと照合する．

2段階に分類を分けることによって，他の言語の影響を排除して最も誤分類しやすい言語のペアに対して2値分類を行い，結果として全体の精度向上に寄与すると考えた．

4.4 まとめ

提案手法の有効性を示すにあたって，4.3^{節で示した}2段階分類手法を採用したシステムと，採用しないシステムのつ構築した．

(33)

2段階分類を採用したシステムの概略を図4.9^{に示す．また，}2^{段階分類を採用しな} いシステムの概略を図4.10に示す．それぞれ提案手法の新規部分を赤文字で記した．

使用する特徴量としてはBykhら[3]のものを基本として，最も高い精度を示したものを採用した．表4.1に採用した特徴量を示す．n-grams^{においては}2.4^{節で示した} recurring n-gramsを利用した．また，特徴量は総計で313,503^である．

表4.1: 提案手法に使用した特徴量特徴量の名称提案手法におけるn-grams^のn

単語 1, 2, 3, 4

文字 2, 3, 4

POS 1, 2, 3, 4

CF GR_ph_∪_lex –

CF GR_ph_∪_lexの構築とPOSタグ付けにはStanford CoreNLP Ver. 3.4.1²を使用した．また，機械学習にはL2-Regularized L2-Loss線形カーネルSVMを使用し，コストパラメータは1である．また，マルチクラス分類を行うにあたってone-vs-restを採用した．本稿で提案するシステムでは，scikit-learn³ Ver. 0.15.2^{ライブラリから}

liblinear⁴ を利用した．機械学習におけるパラメータなどはライブラリでのデフォル

ト設定である．

2The Stanford Natural Language Processing Group, http://nlp.stanford.edu/software/

corenlp.shtml

3scikit-learn,http://scikit-learn.org/stable/index.html

4LIBLINEAR – A Library for Large Linear Classification, http://www.csie.ntu.edu.tw/

~cjlin/liblinear/

(34)

(35)

図4.10: 2段階分類を採用しない提案手法のシステム概略図

(36)

第 5 ^章 ^{評価・考察}

5.1 提案手法の有効性の検証

5.1.1 評価手法について

手法は，NLI Shared Task 2013に準じ，Overall Accuraciesで評価する．Overall Accuracies^{について説明する．}

Overall Accuracies oa^は式(5.1)^{で計算される．}

oa=

∑₁₁

i=1tp_i

|D| (5.1)

ただし，tpiは各言語でのaccuracy^であり，iは言語のインデックスを表す．また，

|D|はテストデータに存在する総ドキュメント数(i.e. ^{総エッセイ})^である．

また，Closed Training設定では，Overall Accuraciesの他に各言語でのF1値F1_i も示す，F1の計算は式(5.2)で行う．

F1i= 2· precision·recall

precision+recall (5.2)

ただし，F1i は各言語での F1^値で，iは言語のインデックスを示す．accuracy ^と precision^，recall^は表5.1に示す値を使用して，それぞれ式(5.3)^，式(5.4)^，式(5.5) と計算される．

表5.1: NLI^{における分割表} 推測ラベル

Positive Negative

実際の Positive True Positive (tp) False Negative (fn) ラベル Negative False Positive (fp) True Negative (tn)

accuracy= tp+tn

tp+f p+f n+tn (5.3)

precision= tp

tp+f p (5.4)

recall= tp

tp+f n (5.5)

(37)

5.1.2 学習データの選別

式(4.1)^で示したn1とn2を段階的に変化させ，それぞれの精度変化を表5.2^に示す．

表5.2: ^{学習データの選別} n1

1 2 3 4

1 0.831 0.838 0.840 0.834 n2 2 0.854 0.858 0.860 0.852 3 0.852 0.855 0.863 0.849 4 0.840 0.851 0.857 0.851

ここで，2段階分類は行っていない．表4.10に示したシステムを元としている．学習データを全て用いた場合の精度は85.2%^{である．表}5.2で太字で示した部分が最も高い精度を出したものである．

表5.2の結果から，式(4.1)にn₁ = 3, n₂ = 3を代入した場合の条件に当てはまるエッセイのみを学習に利用することにより，全てのエッセイを学習データとして利用する場合より精度があがることが確かめられた．

ちなみに，TOEFL11-TRAINとTOEFL11-DEVを合わせた学習データには11000 エッセイが含まれ，提案手法により極端な長さのエッセイを学習データから取り除いた後のエッセイの総数は10862エッセイである．つまり，学習データ全体から138エッセイを削除したことになる．

5.1.3 BM25による特徴量の重み付け

通常のtf (あるエッセイにおけるtermの出現回数)とOkapi BM25を使用した場合で精度比較を行った結果を図5.1に示す．ただし，大域的な重み付けとしてはidf を利用した．

ここで用いたデータセットは，TOEFL11-TRAINとTOEFL11-DEVを組み合わせたものから4.1節で示した提案手法によってエッセイを選別した学習データである．

特徴量は図4.10に示した特徴量と同じものを使用した．2段階分類は行っていない．

図5.1^より，式(4.5)^で示したOkapi BM25^によるtfの正規化が最も高い精度を示していることがわかる．

また，tfやlogtfを重みとして使うよりも，binを重みとしたほうが精度が高かった．つまり，出現回数の多いtermに対して大きな重みをつけることは精度向上には寄与せず，Gebre^ら[8]^やJarvis^ら[9]^{の精度向上は主に}idf^やentropy^{などの大域的}

(38)

図5.1: tf^とOkapi BM25^の比較

な重み付けが要因となったと考えられる．

5.1.4 HindiとTeluguにおける2段階分類

図4.9と図4.10とで，それぞれClosed-Training設定で精度比較を行った．結果を図5.1.4^に示す．

図5.1.4^の通り，2段階分類を行った場合と行わなかった場合とでは，2^{段階分類を}

行った場合のほうがわずかに精度が下がる結果となった．

ちなみに，HindiとTeluguを除いた9言語でのOverall accuraciesは0.879であり，

HindiとTeluguの2値分類では0.761であった．

5.2 他手法との比較

2段階分類では5.1.4項に示す通り精度向上が見られなかった．そこで以降では図 4.10に示したシステムでの結果を示す．

(39)

図5.2: 2段階分類を行った場合と行わなかった場合の精度比較

(40)

5.2.1 Closed Training設定での結果

図5.3^に，NLI Shared Task 2013^での上位8^件と，Bykh^ら[3]^，Ionescu^ら[4]^の結果とともに，提案手法の結果を示す．

図 5.3: Closed Training設定での結果

ここで，条件は3.2節で示したとおり，全てClosed-Training^{の設定である．}

図5.3^{より，提案手法が}2014^年10月時点での最高精度であったIonescu^らの85.3%^を超える86.3%である．

表5.3に各言語での正答数を混合行列の形式で示す．また，各言語でのPrecision, Recall, F1値を表5.4に示す．

5.2.2 10-fold Cross Validationの結果

10-fold Cross Validationでの精度比較を行った．ここで用いるデータセットはNLI Shared Task 2013と同様に，TOEFL11-TRAINとTOEFL11-DEVを合わせたデータセットを10分割して作成したものである．

図5.4^{に結果を示す．}

(41)

表 5.3: Closed-Training^{での混合行列}

推測された母語ラベル

ARA CHI FRE GER HIN ITA JPN KOR SPA TEL TUR

ARA 85 0 1 2 2 0 0 2 3 5 0

CHI 3 88 0 1 1 0 4 1 0 0 2

FRE 2 0 85 4 2 2 1 0 2 0 2

GER 0 0 1 94 1 1 0 0 2 0 1

HIN 1 2 0 0 86 0 0 0 1 9 1

ITA 0 2 3 2 0 91 0 0 2 0 0

JPN 3 2 0 1 0 1 91 1 0 0 1

実際の母語ラベル

KOR 0 7 1 0 0 0 9 81 0 0 2

SPA 1 1 4 2 4 2 0 1 84 0 1

TEL 0 1 0 1 18 0 0 0 0 80 0

TUR 3 2 1 1 1 2 3 1 2 0 84

表 5.4: Closed-Trainingでの各言語のF1値

ARA CHI FRE GER HIN ITA JPN KOR SPA TEL TUR

Precision 0.867 0.838 0.8854 0.86 0.748 0.919 0.843 0.931 0.875 0.851 0.894 Recall 0.85 0.88 0.85 0.84 0.86 0.91 0.91 0.81 0.84 0.8 0.84 F1 0.859 0.859 0.867 0.904 0.8 0.915 0.875 0.866 0.857 0.825 0.866

図5.4より，提案手法が10-fold Cross Validationでも最高精度であることが確認できた．

5.3 考察

5.3.1 HindiとTeluguにおける2段階分類による精度低下

精度が下がった理由としては，以下のものが考えられる．

1. HindiとTeluguの分類は本質的に難しく，2段階にしても精度向上の余地がな

かった．

2. 11^{言語の分類の場合と}Hindi-Teluguの分類の場合で同じ特徴量の種類を利用し

ているため．

2番目の理由に関しては，Hindi-Telugu^の2値分類に最適な特徴量の選択を行うことで，TOEFL11^においてClosed-Training設定の場合には精度向上する可能性があ

(42)

図 5.4: 10-fold Cross Validation^の結果

ると考える．しかし，別のデータセットを使用した場合など，分類すべき言語が増えた場合に誤分類しやすい言語のペア同士で2値分類の分類器を構築していくことは考慮すべきペアの組み合わせが爆発してしまう．そのため，更に実世界に則した分類器を構築するためには，文化や言語族の類似性など言語学や社会学の知見を利用して言語をグループ分けし，グループ単位で分類した後にそのグループ内で更に細かい単位になるまで分類するといった風に，2段階ではなく多段階にして分類器を構築すると精度向上が図れると考える．

5.3.2 誤分類したエッセイの分類

誤分類したエッセイのProficiency Level^{の分布を図}5.5^に示す．

図3.3と図5.5より，全体でのProficiency LevelがHighとされているエッセイの割合より，誤分類したエッセイがHighである割合が多いことがわかる．表5.5に図3.3 と図5.5^{それぞれでの}Proficiency Level^{の割合を示す．}

表5.5^{より，エッセイ著者の}Proficiency Levelが高いか，または低い場合に母語の判別が難しくなることがわかる．

(43)

図 5.5: 誤分類したエッセイ集合のProficiency Levelの分布

表 5.5: TOEFL11データセット全体と誤分類したエッセイ集合のProficiency Level 割合

Proficiency Level low medium high トレーニングデータ全体 11.0% 54.3% 34.7%

誤分類したエッセイ集合 14.6% 38.4% 47.0%

(44)

エッセイを誤分類した理由を考察する．誤分類した理由として，以下の2^つのケースが考えられる．

1. エッセイが，ある他の言語をL1とする著者の書くような特徴を強く持っており，

そのL1に誤分類したケース．

2. エッセイ中に特徴的な部分がなく，結果的に誤分類したケース．

この仮説を検証するために，情報理論におけるエントロピーを利用する．エントロピーH(X)は式(5.6)で定義される．

H(X) =−∑

x∈X

x·logx (5.6)

ここで，Xは各言語の確率分布であり，∑

x∈Xx= 1^である．

エントロピーとは，ある事象系Aにおける事象の生起確率の期待値であり，Aの予測の難しさを数値化したものである．エントロピーは以下に示す2つの特徴を持っている．

1. Aが全く予測不可能な場合，つまり事象の生起確率の分布が一様分布であった場合に最も期待値が高くなる．

2. Aの予測が最も簡単な場合，つまり特定事象の生起確率が1.0^{だった場合に最も} 低くなる．

これらの特徴から，エントロピーを利用することにより表5.6^{のように誤分類した} エッセイが分類できる．

表5.6: 誤分類したエッセイとエントロピーの対応

誤分類した理由エントロピー

1 エッセイが，ある他の言語をL1とする著者の書くような特徴を強く持っており，そのL1^{に誤分類したケース．}

低い 2 エッセイ中に特徴的な部分がなく，結果的に誤分類したケース．高い

ここで問題になるのは，エントロピーの高低を判断するための閾値である．本稿では，正しく分類したエッセイでの各言語の確率分布を利用した．すなわち，正しく分類したエッセイそれぞれでのエントロピーを計算し，その平均値を誤分類したエッセイでのエントロピーの高低を判定するための閾値threshold^{とした．式}(5.7)^に定義

(45)

を示す．

threshold=

∑

Xi∈XcorrectH(Xi)

num(X_correct) (5.7)

ここで，X_correctは正解したエッセイそれぞれでの各言語の確率分布の集合を示し，

∑

x∈Xi = 1である．またnum(X_correct)はX_correctの総数を示す．

thresholdは，正解したエッセイのエントロピーの平均であり，つまり平均的には

これだけの確率的不確かさの情報であれば正しく分類できていたということを表す．

よって，thresholdより低いエントロピーを持つエッセイで誤分類したということは，

表5.6の1番目の事由に該当し，反対にthresholdより高いエントロピーを持つということは2番目の事由に該当すると考えられる．

図5.6に，正解したエッセイと誤分類したエッセイそれぞれでのエントロピーの分布を示す．

図5.6: 正解したエッセイと誤分類したエッセイのエントロピーの分布

ここで，青色のバツ印で表した分布が正解したエッセイのエントロピー分布であり，

緑色のバツ印で表した分布が誤分類したエッセイのエントロピー分布である．ここか

母語推定の精度向上

2014 年度修士論文 学習データの選定と Okapi BM25 を利用した