• 検索結果がありません。

母語推定の精度向上

N/A
N/A
Protected

Academic year: 2022

シェア "母語推定の精度向上"

Copied!
54
0
0

読み込み中.... (全文を見る)

全文

(1)

2014 年度修士論文 学習データの選定と Okapi BM25 を利用した

母語推定の精度向上

提出日 : 2015 年 2 月 2 日 指導: 山名 早人 教授

早稲田大学大学院 基幹理工学研究科 情報理工学専攻 学籍番号 : 5113B059-8

田中 正浩

(2)

目 次

第1章 はじめに 5

第2章 関連研究 8

2.1 基本的な用語の定義 . . . . 8

2.2 NLIにおける基本的なシステム . . . . 9

2.3 Koppelらの研究 . . . . 11

2.4 Bykh(2012)の研究 . . . . 13

2.5 NLI Shared Task . . . . 13

2.5.1 Jarvisらの研究 . . . . 14

2.6 Bykhら(2014)の研究 . . . . 14

2.7 Ionescuらの研究 . . . . 15

2.8 関連研究のまとめ . . . . 16

第3章 TOEFL11データセット 19 3.1 概要 . . . . 19

3.2 NLI Shared Task 2013での設定 . . . . 21

第4章 提案手法 23 4.1 学習データの選別 . . . . 23

4.2 Okapi BM25による特徴量の重み付け. . . . 24

4.3 HindiとTeluguにおける2段階分類 . . . . 29

4.4 まとめ . . . . 30

第5章 評価・考察 34 5.1 提案手法の有効性の検証 . . . . 34

5.1.1 評価手法について. . . . 34

5.1.2 学習データの選別. . . . 35

5.1.3 BM25による特徴量の重み付け . . . . 35

5.1.4 HindiTeluguにおける2段階分類 . . . . 36

5.2 他手法との比較 . . . . 36

5.2.1 Closed Training設定での結果 . . . . 38

5.2.2 10-fold Cross Validationの結果 . . . . 38

5.3 考察 . . . . 39

5.3.1 HindiTeluguにおける2段階分類による精度低下 . . . . 39

5.3.2 誤分類したエッセイの分類 . . . . 40

5.3.3 誤分類したエッセイの例 . . . . 46

(3)

5.4 まとめ . . . . 47

第6章 まとめ 48

References 50

(4)

図 目 次

1.1 不自然な言語が使われたメールの例([1]より引用.). . . . 6

2.1 n-grams説明用の例文 . . . . 8

2.2 POSタグに置き換えた2.1の例文 . . . . 9

2.3 基本的なNLIのシステム . . . . 9

2.4 Function Wordsの例 ([23]より抜粋) . . . . 11

3.1 TOEFL11データセットに含まれる著者らの母語. . . . 19

3.2 TOEFL11データセットに含まれる日本語を母語とする著者のエッセ イ例 . . . . 20

3.3 TOEFL11データセット全体でのProficiency Levelの分布 . . . . 22

4.1 TOEFL11-TRAINに含まれるエッセイ長のヒストグラムbin= 100 . 23 4.2 TOEFL11-TRAINに含まれる極端に短いエッセイの例 . . . . 24

4.3 TOEFL11-TRAINに含まれるArabicを母語とするエッセイ長のヒス トグラム . . . . 25

4.4 TOEFL11-TRAINに含まれるGermanを母語とするエッセイ長のヒ ストグラム . . . . 26

4.5 tflog(tf+ 1)tfの変化に対する増分 . . . . 28

4.6 tflog(tf+ 1)Okapi BM25tfの変化に対する増分 . . . . 29

4.7 Hindiを公用語として使用する地域(地図上の赤い部分,[19]より引用) 30 4.8 Teluguを公用語として使用する地域 (地図上の赤い部分,[20]より引用) 30 4.9 2段階分類を採用した提案手法のシステム概略図 . . . . 32

4.10 2段階分類を採用しない提案手法のシステム概略図 . . . . 33

5.1 tfOkapi BM25の比較 . . . . 36

5.2 2段階分類を行った場合と行わなかった場合の精度比較 . . . . 37

5.3 Closed Training設定での結果 . . . . 38

5.4 10-fold Cross Validationの結果 . . . . 40

5.5 誤分類したエッセイ集合のProficiency Levelの分布 . . . . 41

5.6 正解したエッセイと誤分類したエッセイのエントロピーの分布 . . . . 43

5.7 誤分類したエッセイをエントロピーの高低で分類した内訳 . . . . 44

5.8 誤分類したエッセイの例(1) . . . . 46

5.9 誤分類したエッセイの例(2) . . . . 46

5.10 誤分類したエッセイの例(3) . . . . 47

(5)

表 目 次

2.1 単語n-gramsの説明 . . . . 8

2.2 Penn Treebankに定義されたPOSタグ[25]より作成 . . . . 10

2.3 Koppelらの定義したエラーの種類([2]を基に作成) . . . . 12

2.4 ICLEデータセットの問題点([5]を基に作成) . . . . 14

2.5 Lemmaの例 . . . . 14

2.6 関連研究の概要まとめ . . . . 16

2.7 関連研究のアプローチの違いによる分類 . . . . 17

2.8 関連研究に対する考察 . . . . 18

3.1 TOEFL11データセットに含まれる情報のまとめ. . . . 20

3.2 TOEFL11-TRAIN中のPromptの分布 . . . . 21

4.1 提案手法に使用した特徴量 . . . . 31

5.1 NLIにおける分割表 . . . . 34

5.2 学習データの選別 . . . . 35

5.3 Closed-Trainingでの混合行列 . . . . 39

5.4 Closed-Trainingでの各言語のF1 . . . . 39

5.5 TOEFL11データセット全体と誤分類したエッセイ集合のProficiency Level割合 . . . . 41

5.6 誤分類したエッセイとエントロピーの対応 . . . . 42

(6)

概要

著者の属性推定のタスクは,自然言語処理の分野でも広告推薦など多くの分野に応用可 能であり盛んに研究されている.著者属性推定タスクの一つとして,Native Language Identification(母語推定,以下NLI)がある.NLIとは,ある著者が自身にとっての非 母語として書いた文章を解析し,著者の母語を推測するタスクである.NLIに関す る研究は,広告推薦など著者属性推定の一般的な応用分野のみならず,第二言語習得 (Second Language Acquisition)にとっても有用である.これまでのNLIの研究によ く用いられてきた手法は,自然言語を単語n-gramsなどの手法を用いてベクトル空間 に写像し,Support Vector Machineなどの教師あり機械学習を用いたマルチクラス分 類を行うことが一般的であった.しかし,学習に用いるデータの選定や抽出した特徴 量に対する重み付けに関しては十分な研究がなされてこなかった.また,誤分類しや すい言語に対応する手法も存在しなかった.そこで本稿では1)学習に用いるデータの 長さによる選定,2)特徴量に対する重み付けの最適化,3)誤分類しやすい言語に対す る2段階分類の3つを新たに行った.TOEFL11データセットを用いた精度実験の結 果,1)2)と行った場合において既存手法での最高精度である85.3%を越す86.3% 精度を達成し,提案手法の有効性が確認できた.

(7)

1 はじめに

著者の属性推定のタスクは,広告推薦など多くの分野に応用できることから,盛んに 研究されている.著者属性推定タスクには,著者の性別推定[1]や,Native Language Identification (母語推定,以下NLI) などがある.本稿では,NLIに関する研究を行 う.

NLIでは,ある著者が非母語(以下,L2) として書いた文章を解析し,著者の母語 (以下,L1)を推測する.NLIの研究が進むことによって応用が期待できる分野は大き く分けて以下の2点ある.

1. フィッシングサイトやフィッシングメール判別などへの適用 2. 第二言語習得への応用

フィッシング行為とは特にWebサイトやメールなどを使った詐欺の一種であり,

フィッシング行為を行う目的で作成されたWebサイトやメールをそれぞれフィッシ ングサイト,フィッシングメールと呼称する.有名な企業などを騙ったメール送信や,

Webサイトの模倣を行い金銭を騙し取ることがフィッシング行為の常套手段であり,

近年フィッシング行為の被害額は増加の一途をたどっている.警察庁の発表1によれ ば,インターネットバンキング利用者の口座情報を盗まれ,利用者の口座から不正送 金が行われるという被害が急増しており,2012年には64件,約4,800万円だった被 害額が,2013年には1,315件,約14億600万円に増加し,前年比29倍に達した.

フィッシングサイトやフィッシングメールを判別するために,従来ではIPアドレ スなどが使われてきた.しかし,近年フィッシングサイトやフィッシングメールでは 不自然な言語が使われていることが報告2されている.実際に送られてきたメールの 例を図1.1に示す.

図1.1では,文脈にそぐわない「貴様」という表現がメール中で使用されている.「貴 様」という言葉は漢字だけを見れば尊敬の意を含んでいるように思われるため,この ような表現を使うのは漢字に精通しつつも,日本語には精通していない者であると推 察できる.このように,NLIの研究が進めばフィッシングサイトやフィッシングメー ル判別,またそれらのサイトやメールを作成した者の出自を推測するための一手法と しての応用が期待できる.

また,NLIは第二言語習得(Second Language Acquisition,以下SLA)への応用が 期待できる.ある言語をL1とする者たちがL2として書いた文章には,特有の誤りや

1警察庁,https://www.npa.go.jp/cyber/pdf/H260131_banking.pdf

2日本経済新聞,http://www.nikkei.com/article/DGXNASFK1101A_R10C14A3000000/

(8)

図1.1: 不自然な言語が使われたメールの例 ([1]より引用.)

使いがちな表現が存在すると一般に考えられている.例えば,日本語においては一般 に単数形と複数形の使い分けを行わないが,英語では単数形と複数形の使い分けが日 本語に比べて厳密である.そのため,日本語をL1とする者たちの英語文章では単数 形と複数形の間違いが散見されるなどである.そのような特徴をL1ごとに抽出する ことができれば,SLAにとって有益であると考えられる.

NLIでは,特に英語をL2とする著者が書いた英語の文章を対象とする研究が多い.

2013年には,TOEFLのテストで書かれたエッセイから作成されたTOEFL11データ

セットを用いたNLI Shared Task 2013[5]が開催されるなど,近年盛んに研究されて いる.NLI Shared Task 2013には世界各国から29のチームが参加した.TOEFL11 データセットはその後,NLIの研究に用いられるデータセットとしてデファクトスタ ンダードとなっている.

NLIの研究ではこれまで,単語n-gramsなどを特徴量としてエッセイをベクトル空 間に写像し,Support Vector Machine (以下,SVM)などの教師あり機械学習を用い たマルチクラス分類を行うことが一般的であった.何を特徴量とするかということに 関しては今までに研究が進んでいる[2][21][3].しかしNative Language Identification のデータ特性に則した学習データの選別や重み付けが行われていなかった.また,本 質的に誤分類しやすいHindiTeluguに対応するような手法も存在しない.そこで 本稿では1)学習に用いるデータの長さによる選定,2)特徴量に対する重み付けの最

(9)

適化,3)HindiTeluguにおける2段階分類の3つを行う.

本稿は以下の構成を取る.まず,2章において関連研究の紹介を行う.次に,3章 で本稿で用いるデータセットの詳細について説明し,4章では,提案手法について述 べる.そして,5章で実験結果を説明する.最後に,6章でまとめる.

(10)

2 関連研究

テキストデータから著者の母語を推定するという研究は,2005年にKoppel[2] 行ったものが最初であるとされる.本章では,Koppelらが行った研究や,近年もっと もNLIの研究に用いられているTOEFL11データを使った研究について説明する.

2.1 基本的な用語の定義

本節では,関連研究や本稿の提案手法で特徴量として用いるn-gramsPOSタグ の説明を行う.

n-gramsモデルは,情報理論の創始者として知られるクロード・エルウッド・シャ

ノンが考えだした言語モデルである.単語n-gramsについて図2.1に示す例文を用い て説明する.

Please turn off your cell phone

図 2.1: n-grams説明用の例文

図2.1の例文について,1-gram, 2-gram, 3-gramをそれぞれ表2.1に示す.

表 2.1: 単語n-gramsの説明 n-gramsの種類 具体的な例

1-gram Please, turn, off, your, cell phone

2-gram Please-turn, turn-off, off-your, your-cell, cell-phone

3-gram Please-turn-off, turn-off-your, off-your-cell, your-cell-phone

ただし,表2.1において‘-’は単語同士の連結を表す便宜的な記号である.なお,n-

gramsを取る際には文末や文頭に対して特殊な文字を付与する場合があるが,簡単の

ため表2.1では省いた.

文字n-gramsについては,単語と同様に文字単位でn-gramsを取る.POS n-grams は,まず文章中の単語を タグに置き換え, を取る.図 の例文を

(11)

タグに置き換えたものを図2.2に示す.

VB VB RP PRP$ NN NN

図2.2: POSタグに置き換えた2.1の例文

ただし,図2.2VBNNは,それぞれVerbNounを示すPOSタグである.

英語で広く用いられるPenn TreebankPOSタグを表2.2に示す.

2.2 NLI における基本的なシステム

最も基本的なNLIのシステムの概略図を図2.3に示す.

図 2.3: 基本的なNLIのシステム

ここで,緑色の矢印は学習データまたは学習データから構築された特徴量,ベクト ル空間,分類器の流れを示し,オレンジ色の矢印はテストデータまたはテストデータ

(12)

表 2.2: Penn Treebankに定義されたPOSタグ[25]より作成 タグ 説明

CC Coordinating conjunction CD Cardinal number

DT Determiner EX Existential there FW Foreign word

IN Preposition or subordinating conjunction JJ Adjective

JJR Adjective, comparative JJS Adjective, superlative LS List item marker

MD Modal

NN Noun, singular or mass NNS Noun, plural

NNP Proper noun, singular NNPS Proper noun, plural PDT Predeterminer POS Possessive ending PRP Personal pronoun PRP$ Possessive pronoun

RB Adverb

RBR Adverb, comparative RBS Adverb, superlative RP Particle

SYM Symbol

TO to

UH Interjection VB Verb, base form VBD Verb, past tense

VBG Verb, gerund or presente participle VBN Verb, past participle

VBP Verb, non-3rd person singular present VBZ Verb, 3rd persion singular present WDT Wh-determiner

WP Wh-pronoun

WP% Possessive wh-pronoun

(13)

から作成されたベクトル空間の流れを示す.

本章では既存の提案手法で構築された様々なNLIのシステムを説明するが,何れの 提案手法も基本的なシステムは図2.3に沿った構成となっている.すなわち,何らか の手法で学習データから特徴量及び分類器を構築した後に,テスト用データからも学 習データと同様にベクトル空間を構築し,分類器による分類を行う.

2.3 Koppel らの研究

Koppelら[2]は,ある著者らが書いた英語の文章から,その著者らの母語を判別す

る初めての研究を行った.Koppelらはまず,Stylistic Featuresと呼ばれる特徴量を 定義した.Koppelらが定義したStylistic Featuresを以下に示す

1. Function words

日本語では「機能語」と訳される.文法的な役割を果たすがはっきりとし た意味を持っていない単語のこと.

2. Letter n-grams

文字n-gramsのこと.

3. Errors and Idiosyncrasies

文法上のエラーやスペルミスのこと.KoppelらはMicrosoft Word1の校 閲機能を利用し,出力されたエラーを分類し特徴量とした.

Function Wordsの例を図2.4に示す.

of, at, in, without, between, he, they, anybody, it, one, the, a, an, that, my, more, either, neither, and, that, when, while, although, or, be, have, got, do, no, not, nor, as

図 2.4: Function Wordsの例 ([23]より抜粋)

文法のエラーやスペルミスは,具体的に表2.3に示す4つに分類された.

Koppelらは250個のRare Parts-of-Speech (以下,POS) 2 gramsをBrown Corpus2 から抽出した.International Corpus of Learner English Ver.13 (以下,ICLE)をデー

1Microsoft Word,http://technet.microsoft.com/ja-jp/office/default.aspx

2Brown Corpus,http://www.hit.uib.no/icame/brown/bcm.html

3International Corpus of Learner English,http://www.uclouvain.be/en-cecl-icle.html

(14)

表2.3: Koppelらの定義したエラーの種類([2]を基に作成) エラーの名前 より具体的な種類

Orthography 文字の複数回うち(×remmit→ ⃝remit)

複数続く文字の欠落(×comit→ ⃝commit)

違う文字の使用(×f irsd→ ⃝f irst)

文字の入替(×f isrt→ ⃝f irst)

文字の挿入(×f riegnd→ ⃝f riend)

文字の欠落(×f rend→ ⃝f riend)

文字の連結(×stucktogether)

文字の省略

Syntax 文の断片しかないこと(完全な文になっていない状態)

長々と続く文 (ピリオドやカンマがなく長く続く文)

単語の重複

単語の欠落

単数形/複数形の誤り

時制の不一致

•that/whichの混同

Neologisms 新語を作ってしまうこと(f antanulous)

Parts-of-speech bigrams 文法エラーになるか,少なくとも不自然なPOSの連続 (動詞と動詞など)

(15)

タセットとして用い,5言語 (Czech, French, Nulgarian, Russian, Spanish)への分類 をSVMを用いて行い,結果として80%の精度を得た.

2.4 Bykh (2012) の研究

Bykhら[21]は,n-gramsを用いてエッセイをベクトル空間に写像する際に利用す

るn-gramsの選定を行った.

Bykhらは,学習データ中で少なくとも2つ以上のエッセイに現れるn-gramsを

recurring n-gramsと定義した.学習データ中で高々一つのエッセイにしか含まれない

n-gramsはベクトル空間へ写像する際に考慮に入れず,recurring n-gramsのみを用い てベクトル空間に写像し,学習を行った.

recurring n-gramsのみを利用することの利点は以下の2点である.

1. 単なるスペルミスなどによる学習時のノイズを減らせること.

2. 次元数の削減ができ,学習時間の短縮と過学習が減らせること.

BykhらはICLE Ver.2をデータセットとして利用し,単語1-2 recurring ngramsを特 徴量として7言語 (Bulgarian, Chinese, Czech, French, Japanese, Russian, Spanish) への分類を行った.用いた機械学習は線形カーネルのSVMである.結果として分類 精度は89.7%であり,同等のデータセットを利用したNLIの研究であるWong[22]

の精度より約8%の精度向上が見られたと報告している.

2.5 NLI Shared Task

Koppelらの研究以降,NLIの研究にはICLEが主に用いられてきた.しかし,Brooke ら[6]Tetreault[7]は,ICLEデータセットには表2.4に示す問題点があることを 指摘した.

表2.4に示した理由により,ICLEはNLIの研究には向かないのは明らかである.

そのため,NLIの研究のために新しく作られたのがTOEFL11データセット[24]であ り,TOEFL11データセットを利用してNLI Shared Task[5]2013年に行われた.

本節では,NLI Shared Task 2013で高い精度を得たJarvis[9]らの研究について説 明する.なお,TOEFL11データセットとNLI Shared Task 2013で行われたタスク の設定に関する詳細な説明は3章で行う.

(16)

表2.4: ICLEデータセットの問題点([5]を基に作成)

問題の種類 問題の詳細

トピックの偏り ICLEデータセットに含まれるエッセイに は各言語でのトピックに強い偏りがあり,

NLIというよりはトピック分類になってい ること.

エンコーディングなどの一貫性の欠如 特定の言語でしか使われない文字(e.g. 本語におけるひらがなや,フランス語にお けるcompletéなど )がエッセイに含まれ ていたり,エンコーディングが各言語でバ ラバラであったりすることなどのメタ情報 を使えば分類は容易であること.

2.5.1 Jarvisらの研究

Jarvisら[9]らは,単語 1-3 grams, Lemma 1-3 grams, POS 1-3 gramsを利用した.

Lemmaとは日本語では基本形や見出し語という意味である.英語でのある単語にお

けるLemmaの例を表2.5に示す.

表2.5: Lemmaの例

単語 Lemma

child, children child go, goes, went, gone, going go

特徴量の重み付けとしてLog-Entropyを採用した.Log-Entropyを式(2.1)に示す.

wij = log(tfi+ 1)·(1 +∑

j

pijlogpij

logn ) (2.1)

ここで,pij = tfgfij

i であり,tfij はあるドキュメントjに含まれる単語などでの特徴量 (term) tiの出現回数を示し,gfiはトレーニングデータ全体でのtiの出現回数を数え たものである.wij はあるドキュメントjでのterm tiに対する重みを表す.

2.6 Bykh (2014) の研究

Bykh[3]は,文脈自由文法の生成ルールに着目し,三つの特徴量を定義した.

(17)

1. CF GRph: 表層格を除いたすべての句からなる文脈自由文法の生成ルール

S →N P V P, N P →D N N,· · ·

2. CF GRlex: 表層格と,その直上のPOSタグを組み合わせたもの

J J →nice, J J →quick, N N →vacation,· · · 3. CF GRphlex CF GRphCF GRlexの同時使用

BykhらはCF GRphlexと,単語n-gramsPOS ngramsなどを組み合わせて最適 化を行った.NLI Shared Task 2013のClosed-Trainingで同条件で評価を行い,最終 的な結果として84.8%の精度を得た.

2.7 Ionescu らの研究

Ionescuら[4]は,従来の研究とは異なり,POSタグなどを特徴量としては用いず,

String Kernelと呼ばれる手法で精度の向上を測った.

String Kernelとは文字列間での類似度比較手法の一つとして捉えられる.最も基本

的なp−spectrumKernelは式(2.2)で表すことができる.

kp(s, t) =∑

vP

numv(s)·numv(t) (2.2) ここで,stはそれぞれある文字列を表す.numv(s)は長さpの部分文字列vが文 字列sに何回現れるかを表す.また,P は長さpのすべての文字列集合を表す.

Ionescuらはさらに式(2.3)と式(2.4)の2つString Kernelを定義した.

kp0/1(s, t) =∑

v∈P

inv(s)·inv(t) (2.3)

kp(s, t) =∑

v∈P

min{numv(s), numv(t)} (2.4) ここで,inv(s)は文字列s中に部分文字列vが存在すれば1,なければ0を返す関数で あり,min{x, y}x, yのうち大きいほうを返す関数である.

つまり,単語n-gramsなどを利用してエッセイをベクトル空間に写像するのではな く,ある2つのエッセイの類似度をスカラとして算出し,トレーニングデータに存在 するすべてのエッセイの組み合わせで特徴空間行列を作成する.テスト時には対象の エッセイとトレーニングデータ中のエッセイのすべての組み合わせでString Kernel を用いた類似度を算出しベクトルとする.先に作成した特徴空間行列と対象のエッセ

(18)

イから作成されたベクトルとの内積を取り,結果の値を用いて母語を判別する.

Ionescuらは式(2.2), 式(2.3),式(2.4)を組み合わせて精度向上を図った.最終的 に式(2.5)に示すk(s, t)がNLI Shared Task 2013のClosed Training設定で最も高い 精度を出し,85.3%だった.

k(s, t) =a1k5−80/1(s, t) +a2k58(s, t) (2.5) ただし,k50/18(s, t)k58(s, t)はそれぞれ式(2.3)と式(2.4)においてp5,6,7,8 を代入したものの合算であり,a1a2はkernel alignmentで計算された重みの合計 である.

2.8 関連研究のまとめ

関連研究の概要を表2.6にまとめる.

表 2.6: 関連研究の概要まとめ

著者ら データセット 分類した母 語の数

分類器 手法 精度 (%)

Koppelら (2005)[2]

ICLE Ver.1 線形SVM 機能語 80%

5 文字n-grams

スペルミス Bykh

(2012)[21]

ICLE Ver.2 7 線形SVM 単語recurring n-grams 89.7%

Jarvis (2013)[9]

TOEFL11 線形SVM 単語n-grams 83.6%

11 Lemma n-grams

•POS n-grams Bykhら

(2014)[3]

TOEFL11 RBF SVM •CF GRphlex 84.8%

11 単語recurring n-grams

POS recurring n-grams Ionescu

(2014)[4]

TOEFL11 11 KDA •String Kernel 85.3%

NLIの研究にあたって関連研究では,大きく分けて2つのアプローチがあると考え る.

(19)

1. n-gramsなどを利用してエッセイをベクトル空間に写像し,特徴空間を形成す る手法,

2. String Kernelなどを利用し,エッセイ同士の類似度を特徴空間とする手法.

アプローチの違いで関連研究を分類したものを表2.7に示す.

表 2.7: 関連研究のアプローチの違いによる分類

アプローチ 関連研究

1 n-gramsなどを利用してエッセ

イをベクトル空間に写像し,特 徴空間を形成する手法,

Koppelら,Bykhら(2012, 2014),Jarvisら

2 String Kernelなどを利用し,エ ッセイ同士の類似度を特徴空間 とする手法.

Ionescuら

Ionescuらが採用した表2.7における2つ目のアプローチでは,対象とする言語に依

存しないシステムの構築が可能となる.しかし,2つ目のアプローチでは,母語を判 別したいエッセイが学習データ内のどのエッセイに類似するか,という特徴は分かる ものの,エッセイ内のどの部分が著者の母語を推測し得る特徴を持っているかなどは 判別できない.換言すれば,フィッシングサイトなどの判別には応用できるものの,

SLAにそのまま応用することはできないという特徴を持っている.

そのため,本稿では表2.7における1つ目のアプローチを採用する.1つ目のアプ ローチを採用した関連研究に対する考察を表2.8にまとめる.

(20)

表 2.8: 関連研究に対する考察

研究 考察

利点 欠点 本稿提案手法への応用

Koppelら 初めての研究 Microsoft Wordなどを

情報源として利用してい る.コーパスがICLE

タスク条件にそぐわな い.

Bykh(2012) Recurring n-gramsはシ ンプルであり,多くの手 法に適用可能.

特徴量の種類の少なさ. Recurring n-gramsの考 え方を採用.

Jarvis シンプルな手法で高い精

度を出している.特徴 量の重み付けが有効であ ることを示した.

構文構造を特徴量として 利用していない.

特徴量を重み付けすると いう考え方を採用.

Bykh(2014) CF GRphlexにより,構 文構造を特徴量として利 用.

n-gramsに対する重み付 けがBinary Weighting

特徴量はほぼ同じものを 採用

(21)

3 TOEFL11 データセット

本章では,本稿の研究に用いるTOEFL11データセット[24]の詳細について説明す る.2.5節で述べたように,NLI Shared Task 2013以前まで主に用いられてきたICLE にはトピックのバイアスなどNLIの研究には向かない特性がある.TOEFL11データ セットはNLIの研究に適するように作成されたデータセットである.

3.1 概要

TOEFL11データセットは,ETS1が主催する the Test Of English as a Foreign

Langauge (TOEFLR)において,受験生が書いたエッセイを元にして作られている.

また,受験生の書いたエッセイがETSのシステムに送られる際,エンコーディン グなどの処理は一括で行われるため,例えば受験生の環境による文字化けなどの問題 もなく,データセットにおける一貫性が保たれている.

テスト中に書かれたものであるので,インターネットや辞書などを使うことなく受 験生の実力のみでエッセイが書かれていることが保証される.すなわち,ノイズの少 ないデータであることが期待される.また,トピックのバイアスも極力少なくなるよ うに作成されている.[5]

TOEFL11データセットに含まれるエッセイ著者らの母語は全部で11言語である.

図3.1にエッセイ著書らの母語を示す.

Arabic, Chinese, French, German, Hindi, Italian, Japanese, Korean, Spanish, Telugu, Turkish

図3.1: TOEFL11データセットに含まれる著者らの母語

TOEFL11データセットに含まれる情報を表3.1にまとめる.また,エッセイの例

を一つ図3.2に抜粋する.

TOEFL11-TRAIN中にあるエッセイのPromptごとの分布を表3.2に示す,また,

TOEFL11-TRAIN, TOEFL11-DEV, TOEFL11-TEST全てでのProficiency Levelの

1ETS, “https://www.ets.org/”

(22)

表3.1: TOEFL11データセットに含まれる情報のまとめ 情報の種類 情報の説明

L1 エッセイ著者の母語

Essay エッセイ本文

Prompt エッセイのお題 (問題文)8種類存在する.各エッセイのト

ピックを意味する.

Proficiency Level エッセイ著者の英語レベル.Low, Medium, Highの三段階で 人手によるレベルが付けられている.

Over the last 2 to 3 decades , the number of cars in all over the world has been increasing rapidly due to development in its technology. Howwever , in my opinion use of cars would be decrease in twenty years , becauase of a probable shortage of petrol , introduce of tough provision for global warming and the possibility of invention of anothee types of behicles. The following essay explain to support my perspective in more detail.

. . . (途中省略) . . .

Futhermore , petrol price has been becoming higher and higher because of the shortage in the near future. Therefore , It seems that people will have to begin thinking about another types of behicles , which do not use petrol. At the moment , several car canpanies have tried to create electric cars , but still it is too pricy to target ordinaly people. Remarkably , some of the companies already started improving the techniques to creat other types of reasonable behicles.

In conclusion , I belive the techniques and environmental concerns about global wraming will be promoted by 2026. Use of cars might shift to newly produced behicles. Hence , this is predictable that the ues of cars would decrease than we use at present.

図 3.2: TOEFL11データセットに含まれる日本語を母語とする著者のエッセイ例

(23)

分布を図3.3に示す,

表3.2: TOEFL11-TRAIN中のPromptの分布

Lang. P1 P2 P3 P4 P5 P6 P7 P8

ARA 113 113 113 112 112 113 112 112 CHI 113 113 113 112 112 113 112 112 FRE 128 128 76 127 127 60 127 127 GER 125 125 125 125 125 26 125 124 HIN 132 132 132 71 132 38 132 131 ITA 142 70 122 141 141 12 141 131 JAP 108 114 113 113 113 113 113 113 KOR 113 113 113 112 112 113 112 112 SPA 124 120 38 124 123 124 124 124 TEL 139 139 139 41 139 26 139 138 TUR 132 132 72 132 132 37 132 131

3.2 NLI Shared Task 2013 での設定

NLI Shared Task 2013[5]におけるTOEFL11データセットには,TOEFL11-TRAIN, TOEFL11-DEVTOEFL11-TEST3つサブセットが存在する.

TOEFL11-TRAIN: 各言語につき900エッセイ

TOEFL11-DEV: 各言語につき100エッセイ

TOEFL11-TEST: 各言語につき100エッセイ

つまり,TOEFL11データセットには総計で12,100エッセイ存在する.

NLI Shared Task 2013では,各チームにTOEFL11-TRAINとTOEFL11-DEVデー タセットが配布され,各チームはTOEFL11-TRAINTOEFL11-DEVで各自のシ ステム開発に取り組んだ,最終的な評価は,その後に配られたTOEFL11-TESTデー タセットによって行われた.

NLI Shared Task 2013にはClosed-Training,Open-Training-1,Open-Training-2 の3つサブタスクが存在する.

(24)

図3.3: TOEFL11データセット全体でのProficiency Levelの分布

Closed-Training:メインのタスク.TOEFL11-TRAINと,加えてオプションと してTOEFL11-DEVを学習データとして利用できる.TOEFL11-TESTで評価 する.

Open-Training-1: TOEFL11データセット以外のデータを学習データとして,

TOEFL11-TESTで評価する.

Open-Training-2: 学習データとしてどのようなデータを使用してもよい.

本稿では,Closed-Trainingの設定で評価を行う.すなわち,TOEFL11データセット 以外をデータセットとしては利用しない.また,NLI Shared Task 2013ではProficiency

LevelPromptを学習データに含めていいかについて言及がないものの,

1. NLIの応用を考えるとProficiency LevelPromptを学習する際にメタ情報と して用いることは不自然であること.

2. 関連研究でもProficiency LevelPromptを用いていないこと.

以上の2点から,本稿でも学習する際にはエッセイ本文のみを使用した.

(25)

4 提案手法

本章では,本稿における提案手法について述べる.2.8節でも述べたとおり,本稿

ではn-gramsなどを利用したアプローチを採用する.また,3.2節でも述べたとおり,

学習にあたってProficiency LevelPromptの情報は用いない.

4.1 学習データの選別

TOEFL11-TRAINに含まれるエッセイ長のヒストグラムを図4.1に示す.ここで,

図4.1: TOEFL11-TRAINに含まれるエッセイ長のヒストグラムbin= 100

エッセイ長とはエッセイに含まれる単語の数を示す.エッセイ長の平均µと分散σ2 はそれぞれµ= 333.44, σ2= 6597.97である.

つまり,TOEFL11データセットでの平均的なエッセイは約330単語で成り立って

いると解釈することができる.しかし,図4.1を見ると,極端に短いエッセイや極端

(26)

に長いエッセイがデータセット中には存在することがわかる.

TOEFL11-TRAINに含まれる極端に短いエッセイの例を図4.2に示す.

I disagree. Becouse our communities must be better by us.

図4.2: TOEFL11-TRAINに含まれる極端に短いエッセイの例

極端に短いエッセイ,あるいは極端に長いエッセイはそもそもエッセイ著者のL1 に依存するような特徴を表しづらいと考えられる.何故なら,極端に短いエッセイを テスト中に書くということはエッセイ著者のL2のレベルが低いと考えられ,母語の 特徴を表すというよりスペルミスなどの単純な間違いや,文章になっていないエッセ イも含まれるため,学習するのに不適当であると考えられ,また極端に長いエッセイ の著者はL2のレベルが高く,自然な(母語の特徴を表さない)エッセイを書いている と推察されるためである.

以上の問題を解決するため,学習に不適当と思われる極端な長さのエッセイを学習 データに含めないことを提案する.具体的には,式(4.1)の条件にあてはまるエッセ イのみを学習データに含める.

µi−n1·σi< essaylength < µi+n2·σi (4.1)

ただし,essaylengthはエッセイ長(エッセイに含まれる単語の数)を表す変数であ

り,µi, σiはそれぞれ各言語での平均と標準偏差を示し,添字のiは言語のインデック スを示す.また,n1, n2はそれぞれデータセットから削るエッセイの量を調整するた めの係数である.n1, n2を段階的に変化させ,実験的に最も高い精度を示すものを採 用する.

データセット全体での平均ではなく,各言語での平均を取ったのは,各言語で平均 エッセイ長が異なるケースがあるためである.ArabicとGermanのエッセイ長のヒス トグラムをそれぞれ図4.3と図4.4を示す.

当然,テストデータからのエッセイの削除は行わず,全てのエッセイで分類は行う.

4.2 Okapi BM25 による特徴量の重み付け

Gebre[8]Jarvis[9]らは,NLIにおいてn-gramsなどでエッセイをベクトル 空間に写像する場合,単純な出現回数やBinary Weightingではなく,特徴量をTF-IDF

やLog-Entropyで重み付けすることは精度向上に寄与することを示した.

(27)

図4.3: TOEFL11-TRAINに含まれるArabicを母語とするエッセイ長のヒストグラム

(28)

図 4.4: TOEFL11-TRAINに含まれるGermanを母語とするエッセイ長のヒストグ ラム

(29)

出現回数を重みとする場合を式(4.2)Binary Weightingを式(4.3),及びTF-IDF を式(4.4)にあげる.

wij =tfij (4.2)

wij = {

1 (tfij >1)

0 (otherwise) (4.3)

wij =tfij·log|D| dfi

(4.4) ここで,wij はあるterm ti のドキュメントjにおける重みを表す.tfij はあるド キュメントdjに存在するtermtiの出現回数であり,|D|は総ドキュメント数,dfiは あるtermtiが出現するドキュメント数である.本稿では,一つのエッセイを一つの ドキュメントとして扱う.

ただし,ここでいうtermとは,単語1 gramsであれば単語一つを指し,単語2 grams であれば連続して使われている単語2つを指す.

式(2.1)や式(4.4)を参照すると,同様にあるエッセイに存在する単語の出現回数に

よって重みをつけていることがわかる.NLIは文書分類 (Text Categorization, 以下 TTC) の一つであるとも捉えられ,TTCにおいてはtfが広く使われており[13],あ るドキュメントにおけるtermの出現回数はTTCの分類精度向上にとって重要である と言える.

しかし,従来のTTCNLIが異なる点は,NLIは著者にとってL2で書かれた文 章であり,L2のレベルも様々であるという点である.

浅尾[14]やWeinert[16]は,L2学習者は定形表現を使いがちであることを示した.

また阪上[15]は,L2学習者のレベルが上がると定型文だけでなく,代替表現を使うよ うになることを示している.このことから,L2のレベルが低い者はL2の表現を多く は知らず,結果的に自身の知っている表現を反復して使いがちであることが推察され る.つまり,L2のレベルが低い者は出現する表現に偏りが見られ,L2のレベルが高 い者は,使用する表現が分散していると考えられる.

よって出現回数に対して線形に重みを増やすことは精度向上に寄与しないと考えら れる.実際にGebre[8]Jarvis[9]が単純なtfではなくlog(tf)を採用し精度 を向上させた.

図4.5にtf とlog(tf)のtf に対する変化を示す.

ただし,logxx <1においてマイナスになるため,log(x+ 1)と補正した.

図4.5を見ると,確かにtfに比べてlog(tf+ 1)のほうがtfの値が大きい時の重み が補正されている.しかし,log(tf + 1)の場合でも10回以上出てくるような単語の 重みが強く,相対的にtf の低いtermの重みが低くなってしまう.

(30)

図4.5: tflog(tf+ 1)tfの変化に対する増分

そこで,本稿ではtfに対する補正として,Okapi BM25[17]を利用することを提案

する.Okapi BM25とは,情報検索の分野でTF-IDFよりも精度が高いとされる評価

指標である.Okapi BM25を式(4.5)に示す.

wij = tfij ·(k1+ 1)

tfij+k1·(1−b+len(davgdlj)) ·log|D|

dfi

(4.5) ここで,tfij はあるドキュメントdjに存在するterm tiの出現回数であり,|D| 総ドキュメント数,len(dj)はドキュメントdjの長さ,dfiはあるterm tiが出現する ドキュメント数である.また,avgdlは総ドキュメントの平均長である.k1bはそ れぞれ自由な値を入れることができるパラメータであり,エッセイ長に対してtf を どれだけ補正するかを表す.一般的にk1は1.2から2.0の値で高い精度を出すことが 知られており1,本稿ではk1= 1.2を用いた.また同様にbは0.75で高い精度を示す ことが知られており,本稿でもこの値を用いた.

図4.6に,図4.5と同様にOkapi BM25を用いた場合の重みの変化を示す.

ただし,図4.6においてLengthとはエッセイの長さ(i.e. エッセイ中の単語数)を示

1Stanford IR-book HTML Edition, http://nlp.stanford.edu/IR-book/html/htmledition/

(31)

図 4.6: tflog(tf+ 1)Okapi BM25tfの変化に対する増分

す.図4.6に示すように,tf値が高くなっても,termに対する重み付けが小さくなっ ている.言い換えれば,tfが低くても,つまりあるエッセイ中に出現する回数が少な くてもlogtfなどと比べて重みが相対的に大きくなることが期待できる.log(x+ 1) xが増えるに連れ重みの増え幅は少なくなるものの単調増加関数であり,一方Okapi BM25は漸近的増加をしていることが図4.6からもわかる.

まとめると,NLIにおいては通常のTTCに比べてtfの大きいtermの重要性は低 く,相対的にtfの低いtermの重要性は高い.よって,tfが大きくなってもtfの小 さなtermと比べて極端に大きくならない重み付けが必要であると考え,そのために

Okapi BM25を提案手法として採用した.

4.3 Hindi Telugu における 2 段階分類

Jarvis[9]なども報告している通り,TOEFL11のデータセットにおいて最も誤分 類しやすい言語のペアはHindiTeluguである.

これは,TeluguとHindiが主に使われる場所が地理的にも文化的にも近く,表現が

似通っているためと推測される.図4.7と図4.8に,それぞれHindiとTeluguが公用

(32)

語として使われている地域の地図を示す.

図4.7: Hindiを公用語として使用する地域 (地図上の赤い部分,[19]より引用)

図4.8: Teluguを公用語として使用する地 域(地図上の赤い部分,[20]より引用) 全体的な精度向上を図るためには,HindiとTeluguの判別をより正確に行う必要が ある.そこで,分類システムを2段階に分けることを提案する.

具体的には,以下の流れで分類を行う.

1. 全てのトレーニングデータから11言語のマルチクラス分類を行う分類器clf11 を作成し,テストデータを分類する.

2. clf11によって,テストデータのうちHindiまたはTeluguに分類されたもの以 外は分類を終了し,正解データと照合する.

3. トレーニングデータからHindiとTeluguのデータのみを使用して,新しくHindi とTeluguを分類する分類器clf2を作成する.

4. clf11によってHindiまたはTeluguと分類されたテストデータに対してclf2に よって二値分類を行い,正解データと照合する.

2段階に分類を分けることによって,他の言語の影響を排除して最も誤分類しやすい 言語のペアに対して2値分類を行い,結果として全体の精度向上に寄与すると考えた.

4.4 まとめ

提案手法の有効性を示すにあたって,4.3節で示した2段階分類手法を採用したシ ステムと,採用しないシステムの つ構築した.

(33)

2段階分類を採用したシステムの概略を図4.9に示す.また,2段階分類を採用しな いシステムの概略を図4.10に示す.それぞれ提案手法の新規部分を赤文字で記した.

使用する特徴量としてはBykhら[3]のものを基本として,最も高い精度を示したも のを採用した.表4.1に採用した特徴量を示す.n-gramsにおいては2.4節で示した recurring n-gramsを利用した.また,特徴量は総計で313,503である.

表4.1: 提案手法に使用した特徴量 特徴量の名称 提案手法におけるn-gramsn

単語 1, 2, 3, 4

文字 2, 3, 4

POS 1, 2, 3, 4

CF GRphlex

CF GRphlexの構築とPOSタグ付けにはStanford CoreNLP Ver. 3.4.12を使用し た.また,機械学習にはL2-Regularized L2-Loss線形カーネルSVMを使用し,コス トパラメータは1である.また,マルチクラス分類を行うにあたってone-vs-restを 採用した.本稿で提案するシステムでは,scikit-learn3 Ver. 0.15.2ライブラリから

liblinear4 を利用した.機械学習におけるパラメータなどはライブラリでのデフォル

ト設定である.

2The Stanford Natural Language Processing Group, http://nlp.stanford.edu/software/

corenlp.shtml

3scikit-learn,http://scikit-learn.org/stable/index.html

4LIBLINEAR – A Library for Large Linear Classification, http://www.csie.ntu.edu.tw/

~cjlin/liblinear/

(34)
(35)

図4.10: 2段階分類を採用しない提案手法のシステム概略図

(36)

5 評価・考察

5.1 提案手法の有効性の検証

5.1.1 評価手法について

手法は,NLI Shared Task 2013に準じ,Overall Accuraciesで評価する.Overall Accuraciesについて説明する.

Overall Accuracies oaは式(5.1)で計算される.

oa=

11

i=1tpi

|D| (5.1)

ただし,tpiは各言語でのaccuracyであり,iは言語のインデックスを表す.また,

|D|はテストデータに存在する総ドキュメント数(i.e. 総エッセイ)である.

また,Closed Training設定では,Overall Accuraciesの他に各言語でのF1値F1i も示す,F1の計算は式(5.2)で行う.

F1i= 2· precision·recall

precision+recall (5.2)

ただし,F1i は各言語での F1値で,iは言語のインデックスを示す.accuracy precisionrecallは表5.1に示す値を使用して,それぞれ式(5.3),式(5.4),式(5.5) と計算される.

表5.1: NLIにおける分割表 推測ラベル

Positive Negative

実際の Positive True Positive (tp) False Negative (fn) ラベル Negative False Positive (fp) True Negative (tn)

accuracy= tp+tn

tp+f p+f n+tn (5.3)

precision= tp

tp+f p (5.4)

recall= tp

tp+f n (5.5)

(37)

5.1.2 学習データの選別

式(4.1)で示したn1n2を段階的に変化させ,それぞれの精度変化を表5.2に示す.

表5.2: 学習データの選別 n1

1 2 3 4

1 0.831 0.838 0.840 0.834 n2 2 0.854 0.858 0.860 0.852 3 0.852 0.855 0.863 0.849 4 0.840 0.851 0.857 0.851

ここで,2段階分類は行っていない.表4.10に示したシステムを元としている.学 習データを全て用いた場合の精度は85.2%である.表5.2で太字で示した部分が最も 高い精度を出したものである.

表5.2の結果から,式(4.1)にn1 = 3, n2 = 3を代入した場合の条件に当てはまる エッセイのみを学習に利用することにより,全てのエッセイを学習データとして利用 する場合より精度があがることが確かめられた.

ちなみに,TOEFL11-TRAINとTOEFL11-DEVを合わせた学習データには11000 エッセイが含まれ,提案手法により極端な長さのエッセイを学習データから取り除いた 後のエッセイの総数は10862エッセイである.つまり,学習データ全体から138エッ セイを削除したことになる.

5.1.3 BM25による特徴量の重み付け

通常のtf (あるエッセイにおけるtermの出現回数)とOkapi BM25を使用した場 合で精度比較を行った結果を図5.1に示す.ただし,大域的な重み付けとしてはidf を利用した.

ここで用いたデータセットは,TOEFL11-TRAINとTOEFL11-DEVを組み合わせ たものから4.1節で示した提案手法によってエッセイを選別した学習データである.

特徴量は図4.10に示した特徴量と同じものを使用した.2段階分類は行っていない.

図5.1より,式(4.5)で示したOkapi BM25によるtfの正規化が最も高い精度を示 していることがわかる.

また,tfやlogtfを重みとして使うよりも,binを重みとしたほうが精度が高かっ た.つまり,出現回数の多いtermに対して大きな重みをつけることは精度向上には 寄与せず,Gebre[8]Jarvis[9]の精度向上は主にidfentropyなどの大域的

(38)

図5.1: tfOkapi BM25の比較

な重み付けが要因となったと考えられる.

5.1.4 HindiとTeluguにおける2段階分類

図4.9と図4.10とで,それぞれClosed-Training設定で精度比較を行った.結果を 図5.1.4に示す.

図5.1.4の通り,2段階分類を行った場合と行わなかった場合とでは,2段階分類を

行った場合のほうがわずかに精度が下がる結果となった.

ちなみに,HindiとTeluguを除いた9言語でのOverall accuraciesは0.879であり,

HindiとTeluguの2値分類では0.761であった.

5.2 他手法との比較

2段階分類では5.1.4項に示す通り精度向上が見られなかった.そこで以降では図 4.10に示したシステムでの結果を示す.

(39)

図5.2: 2段階分類を行った場合と行わなかった場合の精度比較

(40)

5.2.1 Closed Training設定での結果

図5.3に,NLI Shared Task 2013での上位8件と,Bykh[3]Ionescu[4]の結 果とともに,提案手法の結果を示す.

図 5.3: Closed Training設定での結果

ここで,条件は3.2節で示したとおり,全てClosed-Trainingの設定である.

図5.3より,提案手法が201410月時点での最高精度であったIonescuらの85.3% 超える86.3%である.

表5.3に各言語での正答数を混合行列の形式で示す.また,各言語でのPrecision, Recall, F1値を表5.4に示す.

5.2.2 10-fold Cross Validationの結果

10-fold Cross Validationでの精度比較を行った.ここで用いるデータセットはNLI Shared Task 2013と同様に,TOEFL11-TRAINとTOEFL11-DEVを合わせたデー タセットを10分割して作成したものである.

図5.4に結果を示す.

(41)

表 5.3: Closed-Trainingでの混合行列

推測された母語ラベル

ARA CHI FRE GER HIN ITA JPN KOR SPA TEL TUR

ARA 85 0 1 2 2 0 0 2 3 5 0

CHI 3 88 0 1 1 0 4 1 0 0 2

FRE 2 0 85 4 2 2 1 0 2 0 2

GER 0 0 1 94 1 1 0 0 2 0 1

HIN 1 2 0 0 86 0 0 0 1 9 1

ITA 0 2 3 2 0 91 0 0 2 0 0

JPN 3 2 0 1 0 1 91 1 0 0 1

実際の母語ラベル

KOR 0 7 1 0 0 0 9 81 0 0 2

SPA 1 1 4 2 4 2 0 1 84 0 1

TEL 0 1 0 1 18 0 0 0 0 80 0

TUR 3 2 1 1 1 2 3 1 2 0 84

表 5.4: Closed-Trainingでの各言語のF1値

ARA CHI FRE GER HIN ITA JPN KOR SPA TEL TUR

Precision 0.867 0.838 0.8854 0.86 0.748 0.919 0.843 0.931 0.875 0.851 0.894 Recall 0.85 0.88 0.85 0.84 0.86 0.91 0.91 0.81 0.84 0.8 0.84 F1 0.859 0.859 0.867 0.904 0.8 0.915 0.875 0.866 0.857 0.825 0.866

図5.4より,提案手法が10-fold Cross Validationでも最高精度であることが確認で きた.

5.3 考察

5.3.1 HindiとTeluguにおける2段階分類による精度低下

精度が下がった理由としては,以下のものが考えられる.

1. HindiとTeluguの分類は本質的に難しく,2段階にしても精度向上の余地がな

かった.

2. 11言語の分類の場合とHindi-Teluguの分類の場合で同じ特徴量の種類を利用し

ているため.

2番目の理由に関しては,Hindi-Telugu2値分類に最適な特徴量の選択を行うこ とで,TOEFL11においてClosed-Training設定の場合には精度向上する可能性があ

(42)

図 5.4: 10-fold Cross Validationの結果

ると考える.しかし,別のデータセットを使用した場合など,分類すべき言語が増え た場合に誤分類しやすい言語のペア同士で2値分類の分類器を構築していくことは考 慮すべきペアの組み合わせが爆発してしまう.そのため,更に実世界に則した分類器 を構築するためには,文化や言語族の類似性など言語学や社会学の知見を利用して言 語をグループ分けし,グループ単位で分類した後にそのグループ内で更に細かい単位 になるまで分類するといった風に,2段階ではなく多段階にして分類器を構築すると 精度向上が図れると考える.

5.3.2 誤分類したエッセイの分類

誤分類したエッセイのProficiency Levelの分布を図5.5に示す.

図3.3と図5.5より,全体でのProficiency LevelがHighとされているエッセイの割 合より,誤分類したエッセイがHighである割合が多いことがわかる.表5.5に図3.3 と図5.5それぞれでのProficiency Levelの割合を示す.

表5.5より,エッセイ著者のProficiency Levelが高いか,または低い場合に母語の 判別が難しくなることがわかる.

(43)

図 5.5: 誤分類したエッセイ集合のProficiency Levelの分布

表 5.5: TOEFL11データセット全体と誤分類したエッセイ集合のProficiency Level 割合

Proficiency Level low medium high トレーニングデータ全体 11.0% 54.3% 34.7%

誤分類したエッセイ集合 14.6% 38.4% 47.0%

(44)

エッセイを誤分類した理由を考察する.誤分類した理由として,以下の2つのケー スが考えられる.

1. エッセイが,ある他の言語をL1とする著者の書くような特徴を強く持っており,

そのL1に誤分類したケース.

2. エッセイ中に特徴的な部分がなく,結果的に誤分類したケース.

この仮説を検証するために,情報理論におけるエントロピーを利用する.エントロ ピーH(X)は式(5.6)で定義される.

H(X) =−

x∈X

logx (5.6)

ここで,Xは各言語の確率分布であり,∑

xXx= 1である.

エントロピーとは,ある事象系Aにおける事象の生起確率の期待値であり,Aの予 測の難しさを数値化したものである.エントロピーは以下に示す2つの特徴を持って いる.

1. Aが全く予測不可能な場合,つまり事象の生起確率の分布が一様分布であった 場合に最も期待値が高くなる.

2. Aの予測が最も簡単な場合,つまり特定事象の生起確率が1.0だった場合に最も 低くなる.

これらの特徴から,エントロピーを利用することにより表5.6のように誤分類した エッセイが分類できる.

表5.6: 誤分類したエッセイとエントロピーの対応

誤分類した理由 エントロピー

1 エッセイが,ある他の言語をL1とする著者の書くような特徴 を強く持っており,そのL1に誤分類したケース.

低い 2 エッセイ中に特徴的な部分がなく,結果的に誤分類したケース. 高い

ここで問題になるのは,エントロピーの高低を判断するための閾値である.本稿で は,正しく分類したエッセイでの各言語の確率分布を利用した.すなわち,正しく分 類したエッセイそれぞれでのエントロピーを計算し,その平均値を誤分類したエッセ イでのエントロピーの高低を判定するための閾値thresholdとした.式(5.7)に定義

(45)

を示す.

threshold=

XiXcorrectH(Xi)

num(Xcorrect) (5.7)

ここで,Xcorrectは正解したエッセイそれぞれでの各言語の確率分布の集合を示し,

xXi = 1である.またnum(Xcorrect)はXcorrectの総数を示す.

thresholdは,正解したエッセイのエントロピーの平均であり,つまり平均的には

これだけの確率的不確かさの情報であれば正しく分類できていたということを表す.

よって,thresholdより低いエントロピーを持つエッセイで誤分類したということは,

表5.6の1番目の事由に該当し,反対にthresholdより高いエントロピーを持つとい うことは2番目の事由に該当すると考えられる.

図5.6に,正解したエッセイと誤分類したエッセイそれぞれでのエントロピーの分 布を示す.

図5.6: 正解したエッセイと誤分類したエッセイのエントロピーの分布

ここで,青色のバツ印で表した分布が正解したエッセイのエントロピー分布であり,

緑色のバツ印で表した分布が誤分類したエッセイのエントロピー分布である.ここか

参照

関連したドキュメント

今回の調査 は、非常 に限定 された環境 におけるケーススタデ ィであるため、一般化す る ことはできないが、実際 に工場で指導 をす る立場 にある日本語母語話者の使用

 留学がライティング能力に及ぼす影響を3年半観察した Sasaki

15 セブアノ語を母語とする日本語学習者の 母音知覚に関する予備的考察 丸島 歩 要 旨

15 セブアノ語を母語とする日本語学習者の 母音知覚に関する予備的考察 丸島 歩 要 旨

1. はじめに

はじめに 日本語母語話者は英語音声の知覚において,英語と日本語の音声学的な違いから韻 律の知覚が困難な場合があり,様々な観点からの研究が報告されている。例えば, Beckman 1986 や江口 2015)は,英単語音声のストレス位置を判断させた結果,英 語母語話者は,音の高さ,長さ,強さ,母音音質の4つの音響的特徴を手がかりとし

Comprehensibility rating

 各言語の母音体系はそれぞれが独自の体系で あり,その体系の中でそれぞれの母音どうしが