• 検索結果がありません。

考 察

ドキュメント内 修 士論 文 (ページ 32-42)

表6.1は,FCE‑publicの テ ス ト デ ー タ に お け る そ れ ぞ れ の モ デ ル の 誤 り タ イ プ ご と の 正 解 数 を 示 し て い る.誤 り タ イ プ はFCE‑publicの 正 解 ラ ベ ル を 用 い る.

ま ず,従 来 手 法 と 提 案 手 法 で 正 解 数 が 大 き く 異 な る,動 詞 誤 り と 無 冠 詞 の 誤 り に つ い て 分 析 す る(表6.1の(a)と(b)).動 詞 誤 り に 関 し て は 提 案 手 法 の 正 解 数 が 多 い.

一 方 で

,無 冠 詞 に 関 し て は べ 一 ス ラ イ ン で あ るFCE+word2vecとFCE十C&Wの

ほ う が 正 解 数 が 多 い.提 案 手 法 の ほ う が 無 冠 詞 の 正 解 数 が 少 な い の は,誤 り パ タ ー ン が 単 語 ペ ア を 抽 出 し 作 成 さ れ て お り,単 語 が 欠 落 し て い る 誤 り が 含 ま れ て い な い た め と 考 え ら れ る.1‑gramベ ー ス の 誤 り パ タ ー ン を 用 い た 単 語 分 散 表 現 で は 入 れ 替 え 誤 り に 特 化 し た 学 習 を 行 う た め,誤 り パ タ ー ン に 含 ま れ て い な い よ う な 他 の 誤

り を 文 脈 を 手 が か り に 学 習 す る こ と は 難 し い と 考 え ら れ る.

次 に,我 々 はLang‑8か ら 抽 出 し た 誤 り パ タ ー ン を 使 う こ と に よ る 影 響 に つ い て 調 べ る(表6.1の(b)と(c)).FCE十EWEとFCE十EWE‑L8は 名 詞 誤 り と 名 詞 曲 用 誤 り に お い て 正 解 数 が 大 き く 異 な る.名 詞 誤 り と はsuggestionとadviceの よ う な 誤 りで あ り,名 詞 曲 用 誤 り と はtimeとtimesの よ う な 誤 り で あ る.FCE十EWE‑

L8は,名 詞 誤 り と 名 詞 曲 用 誤 り の 両 方 で 正 解 数 が 多 い.理 由 と して は,名 詞 誤 り と 名 詞 曲 用 誤 り と も にLang‑8に 含 ま れ て い る 誤 り パ タ ー ン の 数 がFCE‑publicと 比 較 し て10倍 ほ ど 多 い た め と 考 え ら れ る.

表6.2は 従 来 手 法 で あ るFCE十word2vecと 最 も 精 度 の 高 い 提 案 手 法 で あ る FCE十E&GWE‑L8の テ ス トデ ー タ に 対 す る 検 出 例 を 示 し て い る.表62(a)は 名 詞 誤 り の 検 出 例 を 示 し て い る.FCE十word2vecは 名 詞 誤 り を 検 出 で き て い な い が, FCE十E&GWE‑L8は 名 詞 誤 り を 検 出 す る こ と が で き て い る.名 詞 曲 用 誤 り に 関 し て は 表62(b)で 示 さ れ て い る,こ こ で,FLCE十word2vecは 誤 り を1つ も 検 出 す る こ と が で き て い な い.一 方 で,FCE十E&GWE‑L8は 名 詞 曲 用 誤 り を 検 出 す る こ と が で き て い る.こ れ は,]lang‑8か ら 抽 出 し た 誤 りパ タ ー ン に 含 ま れ て い た た め と 考 え ら れ る.saleとclothsの 検 出 は 両 方 の モ デ ル が 失 敗 し て い る.し か し,前 者 は 構 文 的 情 報 を 必 要 と し,後 者 は 常 識 を 必 要 と す る た め 誤 り検 出 が 難 し い と 考 え ら れ る.

表62(c)で は,FCE+W2Vは 冠 詞 誤 り の 検 出 に 成 功 し た が,FCE+E&GWE‑L8

は 検 出 に 失 敗 し た.こ の 結 果 は 無 冠 詞 と 同 様 に 誤 り パ タ ー ン の 構 造 上,挿 入 誤 り を

18

誤 り タ イ プ 動 詞 誤 り 無 冠 詞 名 詞 選 択 誤 り 名 詞 曲 用 誤 り

(a)

FCE十word2vec FCE十C&W

5648269 5346247

(b)

FCE十EWE FCE十GWE FCE+E&GWE

60372912 62432911 64403114

(c)

FCE+EWE‑L8 FCE十E&GWE‑L8

66363719 67403918 誤 りの合 計 数 1311127732

表6.1:誤 り タ イ プ ご と の 正 解 数

Bi‑LSTM十embeddingβ 検 出結 果

Gold Thεbuswi皿plekyouupr塘htatyourhote1θ 脆オ7u笛cε.

(a) FCE十word2vec Thebu8wi皿pickyouuprightatyourhotelen、tery.

FCE+E&GWE‑L8 Thεbu8wiUpickyou肛prightatyourhotεlentery,

Gold Thereareshop5whichsel̀cJoオ んθβ,∫ood,andbook5一

(b)

FCE十word2vec Thereare臼hopswhidhs乱le5doth5,food5,aロdbooks…

FCE十E&GWE‑L8 Thereareshop5whidh8ale5cloths,fbods,a皿dbooks・

Gold Anthebusesand地 εMTRhaveair‑condition,

(c) FCE・ 十word2vec Anthebu5e8andMTRhaveair‑conditloロ.

FCE+E&GWE‑L8 AnthebusesandMTRhavea廿.condition.

表62:FCE十word2vecとFCE十E&GWE‑L8を 用 い た 誤 り 検 出 の 例.正 解 を イ タ リ ッ ク 体 と し検 出 結 果 を 太 字 で 表 す.

適 切 に 学 習 で き て い な い こ と を 示 し て い る.

図6.1は,学 習 デ ー タ 内 で 高 頻 度 な 誤 り の 単 語 分 散 表 現(FCE+word2vecと

FCE十E8eGWE‑L8)をt‑SNEを 用 い て 可 視 化 し た 図 で あ る.我 々 は 典 型 的 な 前 置 詞 とi助詞 を い く つ か プ ロ ッ ト し た.学 習 者 が 誤 り に く い 単 語 はFCE十E&GWE‑

L8とFCE十word2vecで 似 た よ う な 位 置 と し て 学 習 さ れ て い る.一 方 で,学 習 者 が 誤 り や す い 単 語 に 関 し て は 誤 り の 出 現 頻 度 に 比 例 し てFCE十E&GWE‑L8と

FCE十word2vecで 離 れ た 位 置 と し て 学 習 さ れ て い る こ と が わ か る.例 え ば,under やwalkの よ う に あ ま り 誤 り と し て 出 現 し な い 単 語 はFCE十word2vecの 近 く に 位 置

一ど

一1

ca「bOuld c311fili

㎞ 『酬 。w

岬6‑V→, 、1一

図6,1=FCE十word2vecとFCE十E&GWE‑L8に よ っ て 学 習 さ れ た 単 語 分 散 表 現 のt‑SNEに よ る 可 視 化.赤 色 がFCE十word2vecの 単 語 で あ り,青 色 が FCE十E&GWE‑L8の 単 語 で あ る.

して い る.一 ・方 で,wasやcollldの よ うに よ く誤 られ る 単語 はFCE十E&GWE十]L8

の 点 はFCE十word2vecと 比 較 して よ り遠 くに 移 動 して い る.そ して,こ の 図 中 の ほ と ん どす べ て の 単 語 が 上 に 移 動 して い る の で,上 方 向 に移 動 す る 距 離 が 誤 りや す さ に 対 応 し て い る と推 測 され る.こ の 可 視 化 は 学 習 者 に よ る誤 りに 対 す る分 析 に 使 う こ とが で き る.

20

第7章 お わ りに

本 稿 で 我 々 は,文 法 誤 り検 出 の た め の 正 誤 情 報 と 文 法 誤 りパ タ ー ン を考 慮 した 単 語 分 散 表 現 の 学 習 手 法 を提 案 し た.そ の 結 果,FCE‑publicとNUCLEの2つ の コ ー パ ス に お い て 文 法 誤 り検 出 の 精 度 向 上 を 行 う こ とが で き た.そ して,提 案 手 法 で 単 語 分 散 表 現 を 初 期 化 したBi‑・LSTMモ デ ル を使 いFCE‑publicデ ー タ セ ッ トに お い て 世 界 最 高 精 度 を達 成 した.学 習 者 コ ー パ ス に よ って 学 習 さ れ た 単 語 分 散 表 現 は 正 し い フ レー ズ と誤 っ た フ レー ズ を 区 別 す る こ と が 可 能 で あ る.さ ら に 我 々 は, L,ang‑8コ ー パ ス を 用 い た 追 加 の 実 験 を行 っ た.そ の 結 果,我 々 は 誤 りパ タ ー ン を抽 出 して 学 習 す る ほ う が 直 接L,ang‑8コ ー パ ス を 分 類 器 の 学 習 デ ー タ に 追 加 す る よ り 良 い こ とが わ か っ た.そ して,い くつ か の 典 型 的 な 誤 りに 対 して 検 出 結 果 を分 析 し, 学 習 さ れ た 単 語 分 散 表 現 の 特 徴 を 明 ら か に した.学 習 した 単 語 分 散 表 現 は,NLP の 応 用 先 の1つ で あ る 言 語 学 習 に 役 立 つ 一般 的 な も の で あ る こ と を 願 って い る.

発 表 リス ト

1.金 子 正 弘,堺 澤 勇 也,小 町 守.英 語 学 習 者 の 文 法 誤 り パ タ ー ン と 正 誤 情 報 を 考 慮 し た 単 語 分 散 表 現 学 習.言 語 処 理 学 会 第23回 年 次 大 会,つ く ば, pp,729‑732.March15,2017.

2.KanekoMasahiro,YuyaSakaizawaandMamoruKomachi.Grammat‑

icalErrorDetectionUsingError‑andGrammaticality‑Specific WordEmbeddings.InProceedings。f七he8thIn七erna七ionalJ。int

ConferenceonNaturalLa皿guageProcessing(IJCNLP2017),pp.40‑48.

Taipei,Taiwan.November28}2017.

22

謝辞

自然 言 語 処 理 に つ い て 何 も知 らな い 自分 を 外 部 か ら取 り自 然 言 語 処 理 を 研 究 す る チ ャ ン ス を 下 さ った 小 町 守 先 生 に 深 く感 謝 し ま す.そ して 、 研 究 の 指 導 だ けで な く 進 路 に つ い て も 人 生 の 先 輩 と して ア ドバ イ ス して くだ さ りあ りが と う ご ざ い ま し た 。 今 の 自分 が あ る の は 先 生 の お か げ で す 、 指 導 して く だ さ った 堺 澤 さ ん,佐 藤 さ ん と相 談 に 乗 っ て くれ た 同 期 の み な さ ん あ りが と う ご ざ い ます.梶 原 さ ん に は,時 間 を 惜 し ま ず 熱 心 に 指 導 して い た だ き 深 く感 謝 して い ま す.そ して,副 査 を 引 き受

け て くだ さ った 山 口 先 生 と高 間 先 生 に 感 謝 し ます.

参考文献

[1】MReiandH.Yannakoudakis,"CompositionalSequenceLabelingModelsfbr ErrorDetectioninLearnerWriting,,,ACL,pp.1181‑1191,2016.

[2】c,che正ba,T.Mikolov,M.schuster,Q.Ge,T.Brants,P.Koehn,andT.Robin‑

son,"OneBillionWordBenchmarkfbrMeasuringProgressinStatisticalLan‑

gu乱geModeling,"arXiv,2013.

[3】R,CollobertandJ,Weston,"AUni丘edArchitecturef̀)rNa加ralLanguagePr(ト ce呂sing=DeepNeur乱lNe七workswithMultitaskLearning,,,ICML,pp.160‑167, 2008.

[4】T.Mizumoto,M.Komachi,M.Nag乱 七a,andY.Matsumoto,̀cMiningRevisionLog ofLanguageLeamingSNSforAutQmatedJapaneseErrorCorrectionofSecond

LanguageLearners,771JCNLP,pp.147‑155,2011.

[5】HLYannakoudakis,T.Briscoe,andB,Med正ock,"ANewDatasetandMethodfor Automa尤icallyGradingESOL]reXts,"ACL,,pp.180‑189,2011.

[6】D.Dahlmeier,H.T.Ng,andSM,Wu,"BuildingaLargeAnnotatedCorpusof LearnerEnglish:TheNUSCorpusofLearnerEnglish,,,BEA◎NAACL‑H口, pp22‑31,2013.

[7】H.T.Ng,SM.Wu,T.Briscoe,C、Hadiwinoto,R.H.Sus乱nto,andC.Bryant,"The CoNLL‑2014SharedTaskonGrammaticalErrorCorrection,"CoNLLShared Task,pp.1‑14,2014.

[8]JR.TetreaultandM,Chodorow,ecTheUpsandDownsofPrepo島itionError DetectioninESLWriting,,,COLING,pp.865‑872,2008.

[9]N,‑R.Han,M.Chodorow,乱ndC,LeacQck,̀̀DetectingErrorsinEngli呂hAr七i‑

cloUsagebyNon‑nativeSpeakers,"NaturalLanguageEngineering,pp.115‑129, 2006,

[10]E.KochmarandT.Briscoe,̀̀De七ec七ingLearnerErrorsintheChoiceofContent WordsUsingCompositionalDistributionalSemantics,"COLING,pp.1740‑1751, 2014,

[11]Y.Sawai,M.Kom乱chi,andY.M乱tsumoto,"ALearnerCorpus‑basedApproach toVerbSuggestionfbrESL,IIACL,pp.708‑713,2013.

[12】X.Liu,B.Han,KLi,S.H.Stiller,乱ndMZhou,"SRL‑basedVerbSelectionfor ESL,"EMNLP,pp.1068‑1076,2010.

[13】D.Alikaniotis,H.Yannakoudalcis,andM.Rei,"Au七 〇ma七ic士ext呂coringusing

neuralnetworks,"ACL,pp.715‑725,2016.

[14]Z.LiuandY.Liu,"ExploitirlgUnlabeledDataforNeuralGrammaticalError

Detection,,,J.Comput.Sci.Technol.,pp.758‑767,2017.

24

[15】Z.Xie,A.Ava尤i,N.ArivaZhagan,D.Jurafsky,andA.Y.Ng,"NeuralL,angUage CorrectionwithCh乱racter‑basedAttention,"arXiv,2016.

[16]S,Chollampatt,K.Taghipour,andH.T.Ng,"NeuralNetworkTranslationModels forGrammaticalErrorCorrection,,'IJCAI,pp,2768‑2774,2016.

[17}R.NagataandKNaka七ani,̀̀EvaluatingPerformanceofGrammaticalError DetectiontoMaximizeLearningEffec七,"COLING,pp.894‑900,2010.

[18]D.KingmaandJ.Ba,"Adam=AMethodforStochas七icOptimization,"ICLR,

2015,

[19】D.Nicholls,"Thecambridgelearn、ercorpus:Errorcodingandanalysisf()rlexi‑

cographyandel七,'}CL,2003.

付録

FCE‑publicで 用 い られ て い る 誤 り タ イ プ に つ い て 説 明 す る.誤 リ タ イ プ はDiane[19】 の タ グ に基 づ い て い る,2つ の タ グ か ら誤 リ タ イ プ は構 成 され て い る.1つ 目 の タ グ は 誤 りの 種 類 を表 し て お り,2つ 目 の タ グ は 対 象 単 語 の ク ラ ス を 表 す.2つ の タ グ を 組 み 合 わ せ る こ と で 誤 リ タ イ プ を 表 現 す る.例 え ば,動 詞 選 択 誤 りで あ れ ば1つ 目の タ グ が 置 換 のR,2つ 目の タ グ は 動 詞 のV,こ の2つ を 組 み 合 わ せ たR>『 と して 表 す.

一 般 的 な 誤 り(1つ 目 の タ グ)

FMRUD

誤 っ た 形(wrongFormused) 欠 損(somethingMissing)

置 換(wordorphraseneedSReplacing) 不 必 要(wordorphエaseisUnnecessary) 誤 っ た 派 生(wordiswronglyDerived)

単 語 ク ラ ス(2つ 目 の タ グ)

ACDJNQTVY

照 応(Anaphoric) 共 起(Conjunc七ion) 限 定 詞(Determiner) 形 容 詞(Adjective) 名 詞(Noun)

数 量 詞(Quan七ifier) 前 置 詞(Preposition) 動 言司(Verb)

副 詞(Adverb)

記 号 誤 り(誤 り の 種 類 十P) MP記 号 挿 入(punctuationMissing) MP記 号 置 換(punctuationneedsReplacing) UP記 号 削 除(Unnecessarypunctua七ion)

26

合 意 誤 り(AG十 単 語 ク ラ ス) AGA

AGD AGN AGV

照 応 合 意 誤 り 〔Anaphoricagreementerror) 限 定 詞 合 意 誤 り(Determineragreemen.七error) 名 詞 合 意 誤 り(Nounagreementerror)

動 詞 合 意 誤 り(Verbagreementerror)

可 算 名 詞 誤 り(C十 単 語 ク ラ ス)

CN可 算 名 詞 誤 り(countabilityofNounerror)

CQ亘r算 名 詞 に よ る 数 量 詞 誤 り(wrongQua=ntifierbecauseofnouncou皿tabi11七y) CD可 算 名 詞 に よ る 限 定 詞 誤 り(wro皿gDeterminerbecauseofnou皿countability)

空 似 言 葉(Falsefriend)(FF十 単 語 ク ラ ス)

全 て の 空 似 言 葉 はFFで タ グ 付 け さ れ る.必 要 な 単 語 ク ラ ス はA,c,D,J,N,Q,T,

VとYの い ず れ か で あ る.こ の 誤 りは 空 似 言 葉 を 扱 っ て い る こ と が 確 実 な 場 合 に の み 使 用 され る.そ の 他 の 場 合 は 置 換Rが 使 わ れ る.

そ の 他 の 誤 り

弼㎝㏄DmWLS舘継WWX

項 構 造 誤 り(incorrectArgumentStructure) 複 合 誤 り(CompoundError)

連 結 語 句 誤 り(CoLloca七ionerror) 慣 用 句 誤 り(IDiomerror)

不 正 な 名 詞 の 形 成(lncorrectformationofNounplural) 動 詞 の 不 正 な 使 い 方(lncorrectVerbin且ection) 不 適 切 な ラ ベ ル(inappropriateregister>

誤 字 脱 字(Spellingerror) ア メ リ カ 英 語(AmericanSpelling) ス ペ ル 混 同 誤 り(SpeMngco]nfusionerror) 動 詞 の 時 制 誤 り(wrongTenseofVerb) 語 順 誤 り(incorrectWordorder)

否 定 形 誤 り(illcQrrec七formationofnega七ive)

ドキュメント内 修 士論 文 (ページ 32-42)

関連したドキュメント