表6.1は,FCE‑publicの テ ス ト デ ー タ に お け る そ れ ぞ れ の モ デ ル の 誤 り タ イ プ ご と の 正 解 数 を 示 し て い る.誤 り タ イ プ はFCE‑publicの 正 解 ラ ベ ル を 用 い る.
ま ず,従 来 手 法 と 提 案 手 法 で 正 解 数 が 大 き く 異 な る,動 詞 誤 り と 無 冠 詞 の 誤 り に つ い て 分 析 す る(表6.1の(a)と(b)).動 詞 誤 り に 関 し て は 提 案 手 法 の 正 解 数 が 多 い.
一 方 で
,無 冠 詞 に 関 し て は べ 一 ス ラ イ ン で あ るFCE+word2vecとFCE十C&Wの
ほ う が 正 解 数 が 多 い.提 案 手 法 の ほ う が 無 冠 詞 の 正 解 数 が 少 な い の は,誤 り パ タ ー ン が 単 語 ペ ア を 抽 出 し 作 成 さ れ て お り,単 語 が 欠 落 し て い る 誤 り が 含 ま れ て い な い た め と 考 え ら れ る.1‑gramベ ー ス の 誤 り パ タ ー ン を 用 い た 単 語 分 散 表 現 で は 入 れ 替 え 誤 り に 特 化 し た 学 習 を 行 う た め,誤 り パ タ ー ン に 含 ま れ て い な い よ う な 他 の 誤
り を 文 脈 を 手 が か り に 学 習 す る こ と は 難 し い と 考 え ら れ る.
次 に,我 々 はLang‑8か ら 抽 出 し た 誤 り パ タ ー ン を 使 う こ と に よ る 影 響 に つ い て 調 べ る(表6.1の(b)と(c)).FCE十EWEとFCE十EWE‑L8は 名 詞 誤 り と 名 詞 曲 用 誤 り に お い て 正 解 数 が 大 き く 異 な る.名 詞 誤 り と はsuggestionとadviceの よ う な 誤 りで あ り,名 詞 曲 用 誤 り と はtimeとtimesの よ う な 誤 り で あ る.FCE十EWE‑
L8は,名 詞 誤 り と 名 詞 曲 用 誤 り の 両 方 で 正 解 数 が 多 い.理 由 と して は,名 詞 誤 り と 名 詞 曲 用 誤 り と も にLang‑8に 含 ま れ て い る 誤 り パ タ ー ン の 数 がFCE‑publicと 比 較 し て10倍 ほ ど 多 い た め と 考 え ら れ る.
表6.2は 従 来 手 法 で あ るFCE十word2vecと 最 も 精 度 の 高 い 提 案 手 法 で あ る FCE十E&GWE‑L8の テ ス トデ ー タ に 対 す る 検 出 例 を 示 し て い る.表62(a)は 名 詞 誤 り の 検 出 例 を 示 し て い る.FCE十word2vecは 名 詞 誤 り を 検 出 で き て い な い が, FCE十E&GWE‑L8は 名 詞 誤 り を 検 出 す る こ と が で き て い る.名 詞 曲 用 誤 り に 関 し て は 表62(b)で 示 さ れ て い る,こ こ で,FLCE十word2vecは 誤 り を1つ も 検 出 す る こ と が で き て い な い.一 方 で,FCE十E&GWE‑L8は 名 詞 曲 用 誤 り を 検 出 す る こ と が で き て い る.こ れ は,]lang‑8か ら 抽 出 し た 誤 りパ タ ー ン に 含 ま れ て い た た め と 考 え ら れ る.saleとclothsの 検 出 は 両 方 の モ デ ル が 失 敗 し て い る.し か し,前 者 は 構 文 的 情 報 を 必 要 と し,後 者 は 常 識 を 必 要 と す る た め 誤 り検 出 が 難 し い と 考 え ら れ る.
表62(c)で は,FCE+W2Vは 冠 詞 誤 り の 検 出 に 成 功 し た が,FCE+E&GWE‑L8
は 検 出 に 失 敗 し た.こ の 結 果 は 無 冠 詞 と 同 様 に 誤 り パ タ ー ン の 構 造 上,挿 入 誤 り を
18
誤 り タ イ プ 動 詞 誤 り 無 冠 詞 名 詞 選 択 誤 り 名 詞 曲 用 誤 り
(a)
FCE十word2vec FCE十C&W
5648269 5346247
(b)
FCE十EWE FCE十GWE FCE+E&GWE
60372912 62432911 64403114
(c)
FCE+EWE‑L8 FCE十E&GWE‑L8
66363719 67403918 誤 りの合 計 数 1311127732
表6.1:誤 り タ イ プ ご と の 正 解 数
Bi‑LSTM十embeddingβ 検 出結 果
Gold Thεbuswi皿plekyouupr塘htatyourhote1θ 脆オ7u笛cε.
(a) FCE十word2vec Thebu8wi皿pickyouuprightatyourhotelen、tery.
FCE+E&GWE‑L8 Thεbu8wiUpickyou肛prightatyourhotεlentery,
Gold Thereareshop5whichsel̀cJoオ んθβ,∫ood,andbook5一
(b)
FCE十word2vec Thereare臼hopswhidhs乱le5doth5,food5,aロdbooks…FCE十E&GWE‑L8 Thereareshop5whidh8ale5cloths,fbods,a皿dbooks・ ・
Gold Anthebusesand地 εMTRhaveair‑condition,
(c) FCE・ 十word2vec Anthebu5e8andMTRhaveair‑conditloロ.
FCE+E&GWE‑L8 AnthebusesandMTRhavea廿.condition.
表62:FCE十word2vecとFCE十E&GWE‑L8を 用 い た 誤 り 検 出 の 例.正 解 を イ タ リ ッ ク 体 と し検 出 結 果 を 太 字 で 表 す.
適 切 に 学 習 で き て い な い こ と を 示 し て い る.
図6.1は,学 習 デ ー タ 内 で 高 頻 度 な 誤 り の 単 語 分 散 表 現(FCE+word2vecと
FCE十E8eGWE‑L8)をt‑SNEを 用 い て 可 視 化 し た 図 で あ る.我 々 は 典 型 的 な 前 置 詞 とi助詞 を い く つ か プ ロ ッ ト し た.学 習 者 が 誤 り に く い 単 語 はFCE十E&GWE‑
L8とFCE十word2vecで 似 た よ う な 位 置 と し て 学 習 さ れ て い る.一 方 で,学 習 者 が 誤 り や す い 単 語 に 関 し て は 誤 り の 出 現 頻 度 に 比 例 し てFCE十E&GWE‑L8と
FCE十word2vecで 離 れ た 位 置 と し て 学 習 さ れ て い る こ と が わ か る.例 え ば,under やwalkの よ う に あ ま り 誤 り と し て 出 現 し な い 単 語 はFCE十word2vecの 近 く に 位 置
一ど
一1
ca「bOuld c311fili
㎞ 『酬 。w
岬6‑V→, 一、 、1一 三
図6,1=FCE十word2vecとFCE十E&GWE‑L8に よ っ て 学 習 さ れ た 単 語 分 散 表 現 のt‑SNEに よ る 可 視 化.赤 色 がFCE十word2vecの 単 語 で あ り,青 色 が FCE十E&GWE‑L8の 単 語 で あ る.
して い る.一 ・方 で,wasやcollldの よ うに よ く誤 られ る 単語 はFCE十E&GWE十]L8
の 点 はFCE十word2vecと 比 較 して よ り遠 くに 移 動 して い る.そ して,こ の 図 中 の ほ と ん どす べ て の 単 語 が 上 に 移 動 して い る の で,上 方 向 に移 動 す る 距 離 が 誤 りや す さ に 対 応 し て い る と推 測 され る.こ の 可 視 化 は 学 習 者 に よ る誤 りに 対 す る分 析 に 使 う こ とが で き る.
20
第7章 お わ りに
本 稿 で 我 々 は,文 法 誤 り検 出 の た め の 正 誤 情 報 と 文 法 誤 りパ タ ー ン を考 慮 した 単 語 分 散 表 現 の 学 習 手 法 を提 案 し た.そ の 結 果,FCE‑publicとNUCLEの2つ の コ ー パ ス に お い て 文 法 誤 り検 出 の 精 度 向 上 を 行 う こ とが で き た.そ して,提 案 手 法 で 単 語 分 散 表 現 を 初 期 化 したBi‑・LSTMモ デ ル を使 いFCE‑publicデ ー タ セ ッ トに お い て 世 界 最 高 精 度 を達 成 した.学 習 者 コ ー パ ス に よ って 学 習 さ れ た 単 語 分 散 表 現 は 正 し い フ レー ズ と誤 っ た フ レー ズ を 区 別 す る こ と が 可 能 で あ る.さ ら に 我 々 は, L,ang‑8コ ー パ ス を 用 い た 追 加 の 実 験 を行 っ た.そ の 結 果,我 々 は 誤 りパ タ ー ン を抽 出 して 学 習 す る ほ う が 直 接L,ang‑8コ ー パ ス を 分 類 器 の 学 習 デ ー タ に 追 加 す る よ り 良 い こ とが わ か っ た.そ して,い くつ か の 典 型 的 な 誤 りに 対 して 検 出 結 果 を分 析 し, 学 習 さ れ た 単 語 分 散 表 現 の 特 徴 を 明 ら か に した.学 習 した 単 語 分 散 表 現 は,NLP の 応 用 先 の1つ で あ る 言 語 学 習 に 役 立 つ 一般 的 な も の で あ る こ と を 願 って い る.
発 表 リス ト
1.金 子 正 弘,堺 澤 勇 也,小 町 守.英 語 学 習 者 の 文 法 誤 り パ タ ー ン と 正 誤 情 報 を 考 慮 し た 単 語 分 散 表 現 学 習.言 語 処 理 学 会 第23回 年 次 大 会,つ く ば, pp,729‑732.March15,2017.
2.KanekoMasahiro,YuyaSakaizawaandMamoruKomachi.Grammat‑
icalErrorDetectionUsingError‑andGrammaticality‑Specific WordEmbeddings.InProceedings。f七he8thIn七erna七ionalJ。int
ConferenceonNaturalLa皿guageProcessing(IJCNLP2017),pp.40‑48.
Taipei,Taiwan.November28}2017.
22
謝辞
自然 言 語 処 理 に つ い て 何 も知 らな い 自分 を 外 部 か ら取 り自 然 言 語 処 理 を 研 究 す る チ ャ ン ス を 下 さ った 小 町 守 先 生 に 深 く感 謝 し ま す.そ して 、 研 究 の 指 導 だ けで な く 進 路 に つ い て も 人 生 の 先 輩 と して ア ドバ イ ス して くだ さ りあ りが と う ご ざ い ま し た 。 今 の 自分 が あ る の は 先 生 の お か げ で す 、 指 導 して く だ さ った 堺 澤 さ ん,佐 藤 さ ん と相 談 に 乗 っ て くれ た 同 期 の み な さ ん あ りが と う ご ざ い ます.梶 原 さ ん に は,時 間 を 惜 し ま ず 熱 心 に 指 導 して い た だ き 深 く感 謝 して い ま す.そ して,副 査 を 引 き受
け て くだ さ った 山 口 先 生 と高 間 先 生 に 感 謝 し ます.
参考文献
[1】MReiandH.Yannakoudakis,"CompositionalSequenceLabelingModelsfbr ErrorDetectioninLearnerWriting,,,ACL,pp.1181‑1191,2016.
[2】c,che正ba,T.Mikolov,M.schuster,Q.Ge,T.Brants,P.Koehn,andT.Robin‑
son,"OneBillionWordBenchmarkfbrMeasuringProgressinStatisticalLan‑
gu乱geModeling,"arXiv,2013.
[3】R,CollobertandJ,Weston,"AUni丘edArchitecturef̀)rNa加ralLanguagePr(ト ce呂sing=DeepNeur乱lNe七workswithMultitaskLearning,,,ICML,pp.160‑167, 2008.
[4】T.Mizumoto,M.Komachi,M.Nag乱 七a,andY.Matsumoto,̀cMiningRevisionLog ofLanguageLeamingSNSforAutQmatedJapaneseErrorCorrectionofSecond
LanguageLearners,771JCNLP,pp.147‑155,2011.
[5】HLYannakoudakis,T.Briscoe,andB,Med正ock,"ANewDatasetandMethodfor Automa尤icallyGradingESOL]reXts,"ACL,,pp.180‑189,2011.
[6】D.Dahlmeier,H.T.Ng,andSM,Wu,"BuildingaLargeAnnotatedCorpusof LearnerEnglish:TheNUSCorpusofLearnerEnglish,,,BEA◎NAACL‑H口, pp22‑31,2013.
[7】H.T.Ng,SM.Wu,T.Briscoe,C、Hadiwinoto,R.H.Sus乱nto,andC.Bryant,"The CoNLL‑2014SharedTaskonGrammaticalErrorCorrection,"CoNLLShared Task,pp.1‑14,2014.
[8]JR.TetreaultandM,Chodorow,ecTheUpsandDownsofPrepo島itionError DetectioninESLWriting,,,COLING,pp.865‑872,2008.
[9]N,‑R.Han,M.Chodorow,乱ndC,LeacQck,̀̀DetectingErrorsinEngli呂hAr七i‑
cloUsagebyNon‑nativeSpeakers,"NaturalLanguageEngineering,pp.115‑129, 2006,
[10]E.KochmarandT.Briscoe,̀̀De七ec七ingLearnerErrorsintheChoiceofContent WordsUsingCompositionalDistributionalSemantics,"COLING,pp.1740‑1751, 2014,
[11]Y.Sawai,M.Kom乱chi,andY.M乱tsumoto,"ALearnerCorpus‑basedApproach toVerbSuggestionfbrESL,IIACL,pp.708‑713,2013.
[12】X.Liu,B.Han,KLi,S.H.Stiller,乱ndMZhou,"SRL‑basedVerbSelectionfor ESL,"EMNLP,pp.1068‑1076,2010.
[13】D.Alikaniotis,H.Yannakoudalcis,andM.Rei,"Au七 〇ma七ic士ext呂coringusing
neuralnetworks,"ACL,pp.715‑725,2016.
[14]Z.LiuandY.Liu,"ExploitirlgUnlabeledDataforNeuralGrammaticalError
Detection,,,J.Comput.Sci.Technol.,pp.758‑767,2017.
24
[15】Z.Xie,A.Ava尤i,N.ArivaZhagan,D.Jurafsky,andA.Y.Ng,"NeuralL,angUage CorrectionwithCh乱racter‑basedAttention,"arXiv,2016.
[16]S,Chollampatt,K.Taghipour,andH.T.Ng,"NeuralNetworkTranslationModels forGrammaticalErrorCorrection,,'IJCAI,pp,2768‑2774,2016.
[17}R.NagataandKNaka七ani,̀̀EvaluatingPerformanceofGrammaticalError DetectiontoMaximizeLearningEffec七,"COLING,pp.894‑900,2010.
[18]D.KingmaandJ.Ba,"Adam=AMethodforStochas七icOptimization,"ICLR,
2015,
[19】D.Nicholls,"Thecambridgelearn、ercorpus:Errorcodingandanalysisf()rlexi‑
cographyandel七,'}CL,2003.
付録
FCE‑publicで 用 い られ て い る 誤 り タ イ プ に つ い て 説 明 す る.誤 リ タ イ プ はDiane[19】 の タ グ に基 づ い て い る,2つ の タ グ か ら誤 リ タ イ プ は構 成 され て い る.1つ 目 の タ グ は 誤 りの 種 類 を表 し て お り,2つ 目 の タ グ は 対 象 単 語 の ク ラ ス を 表 す.2つ の タ グ を 組 み 合 わ せ る こ と で 誤 リ タ イ プ を 表 現 す る.例 え ば,動 詞 選 択 誤 りで あ れ ば1つ 目の タ グ が 置 換 のR,2つ 目の タ グ は 動 詞 のV,こ の2つ を 組 み 合 わ せ たR>『 と して 表 す.
一 般 的 な 誤 り(1つ 目 の タ グ)
FMRUD
誤 っ た 形(wrongFormused) 欠 損(somethingMissing)
置 換(wordorphraseneedSReplacing) 不 必 要(wordorphエaseisUnnecessary) 誤 っ た 派 生(wordiswronglyDerived)
単 語 ク ラ ス(2つ 目 の タ グ)
ACDJNQTVY
照 応(Anaphoric) 共 起(Conjunc七ion) 限 定 詞(Determiner) 形 容 詞(Adjective) 名 詞(Noun)
数 量 詞(Quan七ifier) 前 置 詞(Preposition) 動 言司(Verb)
副 詞(Adverb)
記 号 誤 り(誤 り の 種 類 十P) MP記 号 挿 入(punctuationMissing) MP記 号 置 換(punctuationneedsReplacing) UP記 号 削 除(Unnecessarypunctua七ion)
26
合 意 誤 り(AG十 単 語 ク ラ ス) AGA
AGD AGN AGV
照 応 合 意 誤 り 〔Anaphoricagreementerror) 限 定 詞 合 意 誤 り(Determineragreemen.七error) 名 詞 合 意 誤 り(Nounagreementerror)
動 詞 合 意 誤 り(Verbagreementerror)
可 算 名 詞 誤 り(C十 単 語 ク ラ ス)
CN可 算 名 詞 誤 り(countabilityofNounerror)
CQ亘r算 名 詞 に よ る 数 量 詞 誤 り(wrongQua=ntifierbecauseofnouncou皿tabi11七y) CD可 算 名 詞 に よ る 限 定 詞 誤 り(wro皿gDeterminerbecauseofnou皿countability)
空 似 言 葉(Falsefriend)(FF十 単 語 ク ラ ス)
全 て の 空 似 言 葉 はFFで タ グ 付 け さ れ る.必 要 な 単 語 ク ラ ス はA,c,D,J,N,Q,T,
VとYの い ず れ か で あ る.こ の 誤 りは 空 似 言 葉 を 扱 っ て い る こ と が 確 実 な 場 合 に の み 使 用 され る.そ の 他 の 場 合 は 置 換Rが 使 わ れ る.
そ の 他 の 誤 り
弼㎝㏄DmWLS舘継WWX
項 構 造 誤 り(incorrectArgumentStructure) 複 合 誤 り(CompoundError)
連 結 語 句 誤 り(CoLloca七ionerror) 慣 用 句 誤 り(IDiomerror)
不 正 な 名 詞 の 形 成(lncorrectformationofNounplural) 動 詞 の 不 正 な 使 い 方(lncorrectVerbin且ection) 不 適 切 な ラ ベ ル(inappropriateregister>
誤 字 脱 字(Spellingerror) ア メ リ カ 英 語(AmericanSpelling) ス ペ ル 混 同 誤 り(SpeMngco]nfusionerror) 動 詞 の 時 制 誤 り(wrongTenseofVerb) 語 順 誤 り(incorrectWordorder)
否 定 形 誤 り(illcQrrec七formationofnega七ive)