学 修 番 号16890528
修士論文
目的 言 語 の言 い換 え に よ る 日英 ニ ュー ラル 機 械 翻 訳 の 改 善
関沢 祐樹
2018年2月23日
首都大学東京大学院
シス テム デザ イ ン研 究 科 情 報通 信 システ ム学域
関沢 祐樹
審査委員1
小町 守 准教授 山口 亨 教授 高間 康史 教授
(主指導教員) (副指導教員) (副指導教員)
目的 言 語 の言 い換 え に よ る 日英 ニ ュー ラル機 械 翻 訳 の 改 善*
関沢 祐樹
修論要 旨
近 年,自 然 言 語 処 理 に お い て あ る言 語 の 文 を 異 な る 言 語 の 文 へ と機 械 が 自動 で 書 き換 え る,機 械 翻 訳 の 研 究 が 盛 ん に 行 な わ れ て い る.機 械 翻 訳 は あ る言 語 で 書 か れ た 文 を 他 の 言 語 の 文 に 自動 か っ 高 速 に 翻 訳 す る こ とが で き る.機 械 翻 訳 は,使 用 者 が 言 語 の 知 識 を 持 た ず と も 文 を 自動 で 翻 訳 で き る こ とか ら重 要 な 技 術 で あ る と言 え る.
従 来 の 機 械 翻 訳 は,翻 訳 前 の言 語(原 言 語)の 句 に対 して 翻 訳 後 の 言 語(目 的 言 語)の 旬 が 与 え られ て い る統 計 的 機 械 翻 訳 が 高 精 度 で あ っ た.統 計 的 機 械 翻 訳 は フ
レ ー ズ 翻 訳 の ス コ ア や 言 語 モ デ ル ス コ ア な ど の様 々 な ス コ ァ を学 習 し,こ れ らの ス コ ア を組 み 合 わ せ た 結 果 最 も適 した翻 訳 規 則 を 適 用 す る こ とで 文 を翻 訳 す る.し か し,翻 訳 さ れ た 文 は 流 暢 性 に 欠 け て お り,人 間 が 読 む に は 不 自然 な 文 が 多 い とい う 課 題 が 存 在 す る.
一 方,ニ ュ ー ラ ル ネ ッ トワ ー ク を用 い た 機 械 翻 訳 手 法 で あ る,ニ ュ ー ラル 機 械 翻 訳 が 提 案 さ れ た.ニ ュ ー ラ ル 機 械 翻 訳 は統 計 的 機 械 翻 訳 よ り も 自 然 な 文 を 出 力 で き,実 用 的 な 機 械 翻 訳 手 法 で あ る と言 え る.そ の 一 方 で,ニ ュ ー一ラ ル 機 械 翻 訳 は softmaxを 出 力 の 語 彙 サ イ ズ で 取 るた め,ト レ ー ニ ン グ を す る際 に 時 間 が 掛 か る と い う問 題 が あ る.し た が っ て,す べ て の 単 語 を 用 い る こ と は 現 実 的 で な い.ニ ュ ー ラ ル 機 械 翻 訳 で は通 常,使 用 す る語 彙 を 制 限 し,計 算 時 間 を 削 減 す る.語 彙 を 制 限 す る 際,学 習 に用 い る単 語 の 出 現 頻 度 を 用 い,高 頻 度 な 単 語 の み を 使 用 し,そ れ 以 外 の 単 語 で あ る低 頻 度 語 は語 彙 か ら外 れ る(Out‑Of‑‑Vocabulary;00V).こ の 00Vは,ま と め て1つ の 特 殊 記 号"〈unk>"で 出 力 さ れ,意 味 を 持 た な い た め, 翻 訳 前 後 の 意 味 の 保 持 が で き な くな る.
'首 都 大 学 東 京 大 学 院 シ ス テ ム デ ザ イ ン研 究 科 情 報 通 信 シ ス テ ム 学 域 修 士 論 文 ,学 修 番号16890528, 2018年2月23日,
意 味 を 考 慮 しつ つOOVの 削 減 を 試 み た 研 究 と して,ト レ ー ニ ン グ コ ー パ ス の OOVを 高 頻 度 な 類 義 語 に 置 換 す る前 処 理 手 法 が あ る.こ の 手 法 は 出 力 文 の00V を減 少 させ る一 方,同 義 語 で な い類 義 語 に 置 換 す る こ とが あ り,意 味 が 異 な る 可 能 性 が あ る.ま た,こ の 手 法 で は トレー ニ ン グ コ ー パ ス に お い て,対 応 す る単 語 が 存 在 しな いOOVを 消 去 す るた め,翻 訳 前 後 で 内 容 の 損 失 が 発 生 す る.
そ こで,本 研 究 で は翻 訳 前 後 の 意 味 を保 持 しっ っ,OOVの 出 力 を 抑 制 す る前 処 理 手 法 を 提 案 す る.本 手 法 で は,ト レ ー ニ ン グ コー パ ス の うち,目 的 言 語 に お い て, 00Vと な る単 語 を高 頻 度 な 同 義 語 に あ らか じ め言 い換 え て か ら翻 訳 の学 習 を行 う.
提 案 手 法 で は,言 い 換 え の 際 に 同 義 語 の 言 い 換 え を収 録 して い る 言 い 換 え辞 書 を 使 用 し,00Vを 高 頻 度 語 に 言 い換 え る言 い 換 え 対 を 使 用 し言 い換 え ラ テ ィ ス を作 成 す る.言 い換 え の 際OOVが 全 てOOVに 言 いi換え られ る場 合,さ ら に言 い 換 え を 行 う こ とで 高 頻 度 語 へ の言 い換 え を 探 索 す る こ とが 可 能 で あ る.
言 い 換 え を選 択 す る 際,言 い換 え ラ テ ィ ス に 対 して 言 い換 え 辞 書 に 付 随 す る ス コ ア と言 語 モ デ ル ス コ ア を与 え,動 的 計 画 法 を用 い て 最 も高 い ス コ ア と な る言 い換 え を選 択 す る.2つ の ス コ ア を 組 み 合 わ せ る こ とで 言 い 換 え後 の 文 を 自然 に しっ っ 言 い換 え前 後 の 意 味 を保 持 す る こ とが で き る.し た が っ て,本 手 法 は 文 の 意 味 を変 化 させ る こ とな く出 力 のOOVを 削 減 す る こ とが で き る.本 研 究 で は,El英 翻 訳 で の 実 験 を行 い 評 価 す る.
本 論 文 の 主 要 な 貢 献 を 以 下 に示 す.
1,本 論 文 で はOOVを 考 慮 しつ つ,日 英 ニ ュ ー ラ ル 翻 訳 を 改 善…す る言 い 換 え に 基 づ く前 処 理 手 法 を提 案 し た.提 案 手 法 は言 い換 え辞 書 を用 い て ト レー ニ ン グ コ ー パ ス に存 在 す るOOVを 同 義 な 高 頻 度 語 へ と言 い 換 え る こ とが で き る た め,意 味 を変 化 させ ず に00Vを 削 減 す る こ とが 期 待 で き る.
2.提 案 す る手 法 が 従 来 手 法 と比 較 して 翻 訳 文 の 精 度 を 向 上 しつ つ00Vの 出 現 率 を減 少 させ た.言 い 換 え を 行 わ な い 手 法 と比 較 す る と,翻 訳 の 質 を 向上 し
っ っ 出 力 文 の00Vを 減 ら す こ とが で き た.ま た00Vを 類 義 語 に置i換す る 手 法 と比 べ て も,00Vを よ り多 く削 減 す る こ とが で き た.
3.単 語 の 完 全 一 致 だ け で は な く同 義 語 も 正 解 で あ る と考 慮 す る 評 価 尺 度 を 用 い る と,提 案 手 法 が よ り良 い翻 訳 を 出 力 して い る こ とが 明 ら か とな っ た.提
用 い る こ とで 提 案 手 法 が 意 味 を 考 慮 し た 前 処 理 手 法 で あ る こ とが 明 ら か と な っ た.
本 論 文 の 構 成 は 以 下 の 通 りで あ る.第1章 で は本 研 究 の概 要,貢 献 を述 べ る.第 2章 で は ニ ュ ー ラル 機 械 翻 訳 に お け る00Vの 解 決 を試 み た 関 連 研 究 に つ い て 述 べ
る.第3章 で は ト レ ー ニ ン グ コ ー パ ス を言 い 換 え る こ とで ニ ュ ー ラ ル 機 械 翻 訳 の OOVを 削 減 す る提 案 手 法 に つ い て 述 べ る.第4章 で は提 案 手 法 と比 較 手 法 を用 い
た 日 英 翻 訳 の 結 果 を 述 べ る.第5章 で は 実 験 結 果 に 基 づ き考 察 す る.最 後 に第6章 で は 本 研 究 の ま とめ 及 び 課 題 に つ い て 述 べ る.
ParaphrasingtheTargetLanguageCorpusto ImproveJapanese‑to‑EnglishNeuralMachine
Translation*
YukiSekizawa
Abstract
Recently,machinetranslationwhichtranslatesasentencetoanothersentence inotherlanguageisactivelyresearchedinnaturallanguageprocessing.Machine translationcantranslateasentenceautomaticallyandfast,Machinetranslation isanimportanttechniquesinceithelpspeoplecommunicatewitheachother usinganon‑nativelanguage.
Previously,statisticalmachinetranslation〔SMT)hasbeenmainlyresearched.
SMTtranslatessentencesaccordingtothescoreofautomaticallyextracted translationrules,However,SMThasaproblemthatthetranslatedsentences arenotfluent.
Ontheotherhand,neuralmachinetranslation(NMT)wasproposedfew
yearsago.NMTproducessentencesthataremorefluentthanthoseproduced bySMT.However,NMTrequiresaveryhighcomputationalcostfortraining.
SinceNMTcalculatessof七maxusingthevocabularysizeofoutput,itisnot realistictouseallofwords.Generally,NMTrestrictsthesizeofthevocabulary toreducethecomputationalcost.Whenrestrictingvocabulary,NMTuses onlyfrequentwordsaccordingtothefrequencyofwordsintrainingcorpus,
whichresultsininfrequentwordsbeingtreatedasout‑of.vocabulary(OOV).
Theinfrequentwordsareou七putwi七haspecialsymbol"<unk>,,anditdegrades theperformanceofthetranslatedsentence.
*Master,sThesis
,DepartエnentofInformationandCommunicationSystems,GraduateSchool
InordertoreduceOOVwhileconsideringmeaning,asimplebuteffective preprocessmethodwasproposed.ThismethodreducesOOVinoutputwith frequentsimilarwordsintrainingcorpuswhereasitmightreplaceOOVwords withsimilarbutnon‑synon.ymouswords.Inaddition,thismethoddeletesOOV wordsfromthetrainingcorpusiftheyalignedtonull,whichleadstoalossof SentenCemeaning.
Inthisresearch,IproposeapreprocessmethodtosuppressoutputtingOOV whilekeepingthesentencemeaning.Myme七hodthatparaphrasesinfrequent wordsorphrasesexpressedasOOVwithfrequentsynonymsfromthetranslated language〔targetlanguage)sideofthetrainingcorpusbefore七raining.Proposed
methodusesaparaphraselexiconrecordingofparaphrasingwithsynonymsand makesaparaphraselattice.Thismethodcansearchparaphrasingforfrequent wordsbyadditionalparaphrasingifaOOVparaphraseswithotherOOVwords.
Proposedmethodgivesparaphraselexiconscoreandlanguagemodelscoreto nodesandedgesforaparaphrasinglat七iceandchoosesmaximumscorepara‑
phrasesu.singdynamicprograming.Thismethodcankeepmeaningandbe flu.entfbrparaphrasedsentencesbecauseofcombinationofthesetwoscores.
Therefbre,thismethodcanreduceOOVinoutputwhilenotchangingsentence meaning,SinceIuseadatabasecollectingparaphrasesofsynonyrns,Ican reduceOOVinoutputkeepingthemeaning.Inthisresearch,Ievaluatemy rnethodwithJapanese‑to‑Englishtranslation.
Thecontributionsofthisthesisareasfollows.
1.Iproposeaparaphrasing‑basedpreprocessingmethodforJapanese‑to‑
EnglishNMTtoimprovetranslationaccuracywithregardtoOOVwords.
IexpecttoreduceOOVwhilekeepingsentencemeaningsincepropo8ed methodcanparaphra8eOOVintrainingcorpususingaparaphraselexi一 con,
2.ProposedmethodimprovestranslatedsentencesaccuracyreducingOOV comparedwi七hpreviousworks.Comparingwithnon‑paraphraseme七hod, proposedmethodreducesOOVinoutputandimprovesaccuracyoftrans一
lation.Also,comparingthepreviousmethodreplacingOOVwithasim.
ilarword,proposedmethodreducesmoreOOV.
3.Usinganevaluationmethodconsideringsynonyms,proposedmethod clearlyoutputsbettertranslation.
Thestructureofthisthesisisshownbelow.InSection1,Ishowtheabstract andcontributionofthisthesis.InSection2,Iexplainrelatedworksattempting 七〇reduceOOVinmachinetranslationandimprovemachinetranslationby
paraphrasingcorpora.InSection3,Ipresenttheproposedmethodreducing OOVofNMTbyparaphrasingthetrainingcorpus.InSection4,Idescribe theresultofJapanese‑to‑Eng正ishtranslationofrelatedmethodandproposed method.InSection5,Iconsideraccordingtotheresult.Finally,InSection6, Iconcludethisresearchwithfutureworks.
目次
図 目次 viii
第1章 は じめ に 1
第2章 2,1 22
関 連 研 究
ニ ュ ー ラ ル機 械 翻 訳 の00Vの 削 減 を 試 み る 関 連 研 究 機 械 翻 訳 の 前 処 理 と して コー パ ス を 書 き換 え る関 連 研 究
44ρ0
第3章 3.1 3.2
OOVを 同 義 語 に 言 い換 え る 提 案 手 法 言 い換 え ラ テ ィ ス の構 築.
言 い換 え の 選 択.
n◎Ω∪‑占1
第4章 4.1 4.2
日英 翻 訳 実 験 実験 設 定..
実 験 結 果..
つ﹂りORり‑占‑⊥‑⊥
第5章 考察 19
第6章 お わ り に 2工
謝辞 23
参考文献 24
発 表 リ ス ト 26
図 目次
2.1 Luongら の 手 法... 4
2.2 Sennrichら の 手 法... 5
‑⊥り盈∩δ4
り0り0り0り0
言 い 換 え ラ テ ィ ス を 作 成 す るPythonの 実 装9
言 い 換 え ラ テ イ ス の 例..,..,,,..,...10 複 数 回 言 い 換 え の 例...,,..,...10
言 い 換 え を 選 択 す るPythonの 実 装..,..一 一..11
‑⊥り泊44
提 案 手 法 の 日英 翻 訳 のBLEUス コ ア 提 案 手 法 の 日英翻 訳 の00Vの 数..
...15 ...16
第1章 は じめ に
近 年,自 然 言 語 処 理 に お い て あ る言 語 の 文 を 異 な る 言 語 へ と機 械 が 自動 で 書 き換 え る,機 械 翻 訳 の 研 究 が 盛 ん に 行 な わ れ て い る.機 械 翻 訳 は あ る 言 語 で 書 か れ た 文 を 他 の 言 語 の 文 に 自動 か つ 高 速 に翻 訳 す る こ とが で き る.機 械 翻 訳 は,使 用 者 が 言 語 の 知 識 を持 た ず と も文 を 自動 で 翻 訳 で き る こ とか ら重 要 な技 術 で あ る と言 え る.
従 来 の機 械 翻 訳 は,翻 訳 前 の 言 語(原 言 語)の 句 に 対 して 翻 訳 後 の 言 語(目 的 言 語)の 旬 が 与 え ら れ て い る統 計 的機 械 翻 訳 が 高 精 度 で あ っ た.統 計 的 機 械 翻 訳 は フ レー ズ 翻 訳 の ス コ アや 言 語 モ デ ル ス コ ア な どの 様 々 な ス コ ア を学 習 し,こ れ ら の ス コ ア を組 み 合 わ せ た結 果 最 も適 した 翻 訳 規 則 を適 用 す る こ とで 文 を翻 訳 す る.し か し,翻 訳 さ れ た 文 は流 暢 性 に 欠 けて お り,人 間 が 読 む に は不 自然 な 文 が 多 い とい う 課 題 が 存 在 す る.
一 方,自 然 言 語 処 理 に お け る 多 くの タ ス ク に お い て ニ ュ ー ラ ル ネ ッ トワ ー ク に 基 づ く手 法 が 大 き な 成 果 を 上 げて い る.機 械 翻 訳 の 分 野 で は,従 来 研 究 さ れ て き た 統 計 的 機 械 翻 訳 と比 較 して よ り 自然 な 文 を 出 力 で き る とい う利 点 か ら,ニ ュ ー ラル 機 械 翻 訳 国 が 盛 ん に研 究 さ れ て い る.ニ ュ ー ラ ル 機 械 翻 訳 は翻 訳 文 を 出 力 す る た め に 単 語 を1つ ず つ 生 成 す る.し か し,ニ ュ ー ラ ル 機 械 翻 訳 は 語 彙 次 元 の 分 類 問 題 を 順 番 に 解 い て い く生 成 タ ス クで あ り,出 力 層 が 高 次 元 と な る.ニ ュ ー一ラル 機 械 翻 訳 はsoftmaxを 出 力 の 語 彙 サ イ ズ で 取 る た め 計 算 量 が 多 い とい う課 題 が あ る.そ の た め,ニ ュ ー ラ ル 機 械 翻 訳 で は 通 常,使 用 す る 語 彙 を 制 限 し,計 算 時 間 を 削 減 す
る.語 彙 を制 限 す る際 学 習 に用 い る単 語 の 出 現 頻 度 を 用 い,高 頻 度 な 単 語 の み を 使 用 し,そ れ 以 外 の 単 語 で あ る 低 頻 度 語 は 語 彙 か ら外 れ る(Out‑Of‑Vocabulary;
OOV).こ の00Vは,ま とめ て1つ の 特 殊 記 号"<unk>"で 出 力 さ れ,意 味 を 持 た な い た め,翻 訳 前 後 の 意 味 の 保 持 が で き な くな る.
ニ ュ ー ラ ル機 械 翻 訳 のOOVの 削 減 を試 み る先 行 研 究 と して,Miら[2]は トレ ー一 ニ ン グ に 使 用 す る 語 彙 を 文 ご と に 選 択 す る こ とで,ト レ ー ニ ン グ の 計 算 量 を滅 少 させ,全 体 の 語 彙 を 拡 張 した.し か し,こ の 手 法 で は翻 訳 の トレー ニ ン グ 方 法 を変 更 す る必 要 が あ る.Luongら[3]は00Vと の 対 応 関 係 に あ る原 言 語 の 単 語 を 翻 訳 辞 書 を用 い て 直 接 翻 訳 す る後 処 理 を提 案 した,こ の 手 法 で は,ト レー ニ ン グ デ ー タ
を用 い て 原 言 語 と 目 的 言 語 の 単 語 ア ラ イ メ ン トを 取 る 必 要 が あ る.Jeanら[4]は
00Vを そ の 単 語 が 持 つattentionが 最 も大 き い 原 言 語 の 単 語 を翻 訳 辞 書 に よ っ て 翻 訳 す る後 処 理 手 法 を 提 案 した.こ の 手 法 は 単 語 ア ラ イ メ ン トを 必 要 と しな い 一 方,1ヨ 的 言 語 で の 意 味 を考 慮 で きて い な い.さ ら に,Sennrichら[5]は,系 列 に対 す る デ ー タ圧 縮 手 法 で あ るBytePairEncoding(BPE)を 文 字 列 に適 用 し,単 語 を 頻 出 す る部 分 文 字 列 の 系 列 に分 解 して 学 習 す る こ とで00Vを 削減 した.こ の 手 法 で は,意 味 を 考 慮 せ ず に 単 語 を 部 分 文 字 列 に分 解 す る.
一 方,我 々 の 手 法 の よ う に機 械 翻 訳 の 前 処 理 段 階 に お い て コ ー パ ス を 言 いi換え, 原 言 語 お よ び/あ る い は 目的 言 語 の 文 の 複 雑 さ を減 少 させ る手 法 が 存 在 す る.Sanja
ら[6]は 機 械 翻 訳 の 前 処 理 と して 原 言 語 文 の 語 彙 を簡 単 な 文 法 を用 い て 言 い 換 え た.
本 研 究 で は 入 力 文 を簡 単 にせ ず,出 力 文 のOOVを 割 合 を 減 少 させ る こ とで 翻 訳 の 質 の 向 上 を 試 み る.さ ら に,Liら[7]は 前 処 理 の 段 階 で トレ ー ニ ン グ コ ー パ ス や 入 力 文 の00Vを 使 用 す る 語 彙 に含 まれ る類 義 語 に 置 換 す る手 法 を提 案 した.彼 ら は 00Vを 高 頻 度 語 に 置 換 す る際,単 語 同士 の 類 似 度 や,i換 後 の 文 が 自然 で あ る か を判 断 す る た め に 言 語 モ デ ル を使 用 した.単 語 の 意 味 が 似 て い る か ど うか を判 定 す る た め に,彼 ら は似 た 意 味 の 単 語 は そ の 文 脈 も似 て い る と い う分 布 仮 説 に基 づ い た 分 散 表 現 を 用 い て コ サ イ ン類 似 度 を 計 算 した.ま た,彼 ら は ト レー ニ ン グ コ ー パ ス
に お い て00Vの 単 語 に 対 応 す る 異 な る言 語 の 単 語 の ア ラ イ メ ン トを用 い,OOV が ど の 単 語 に も対 応 し て い な い 場 合 そ の 単 語 を 削 除 した.し か し,00Vの 削 除 は 文 の 意 味 の 損 失 に つ な が り,翻 訳 後 の 文 の 情 報 が 欠 落 す る.加 え て,彼 ら は分 布 類 似 度 を用 い る た めOOVを 同 義 で な い類 義 語 に 置 換 す る 可 能 性 が あ る.例 え ば,彼
ら は"surfing"を"snowboard"に 置i換す る た め,"internetsurfing"を"interne七 snowboard"と 書 き換 え て し ま う た め 意 味 の 変 化 が 発 生 す る.本 研 究 で は分 布 類 似 度 で は な く あ らか じ め 計 算 さ れ た 言 い 換 え ス コ ア を 用 い る.そ の た め,本 手 法 で
は00Vの 不 適 切 な 表 現 へ の 言 い 換 え を抑 制 で き る.前 述 の 例 で は,"surfing"を
"browser"へ と言 い換 え る た め 元 の 意 味 を あ る程 度 残 す こ とが で き る.
本 研 究 で は,翻 訳 前 後 の 意 味 を保 持 しつ つ,OOVの 出 力 を 抑 制 す る 前 処 理 手 法 を 提 案 す る.本 手 法 で は,ト レ ー ニ ン グ コ ー パ ス の うち,目 的 言 語 に お い て,00V とな る 単 語 を 高 頻 度 な 同 義 語 に あ らか じ め 言 い 換 え て か ら翻 訳 の 学 習 を 行 う.提 案 手 法 で は,言 い 換 え の 際 に 同 義 語 の 言 い 換 え を収 録 し て い る 言 い 換 え辞 書 を 使 用 し,00Vを 高 頻 度 語 に 言 い 換 え る言 い換 え対 を使 用 し言 い 換 え ラ テ ィ ス を作 成 す
る.言 い 換 え の 際00Vが 全 て00Vに 言 いi換え られ る場 合,さ ら に 言 い 換 え を 行 う こ とで 高 頻 度 語 へ の 言 い換 え を探 索 す る こ とが 可 能 で あ る.
言 い 換 え を選 択 す る 際,言 い換 え ラ テ ィス に 対 して 言 い換 え 辞 書 に 付 随 す る ス コ ア と言 語 モ デ ル ス コ ア を 与 え,動 的 計 画 法 を 用 い て 最 も高 い ス コ ア と な る言 い換 え を 選 択 す る.2つ の ス コ ア を組 み 合 わせ る こ とで 言 い換 え後 の 文 を 自 然 に しつ つ 言 い換 え 前 後 の 意 味 を保 持 す る こ とが で き る,し た が っ て,本 手 法 は文 の 意 味 を 変 化 さ せ る こ とな く出 力 の00Vを 削 減 す る こ とが で き る.本 研 究 で は,日 英 翻 訳 で の 実 験 を 行 い 評 価 す る.
本 論 文 の 主 要 な 貢 献 を 以 下 に示 す.
1.本 論 文 で はOOVを 考 慮 しつ つ,日 英 ニ ュ ー ラ ル翻 訳 を改 善 す る言 い換 え に 基 づ く前 処 理 手 法 を 提 案 した.提 案 手 法 は 言 い 換 え辞 書 を 用 い て ト レー ニ ン グ コー パ ス に 存 在 す る00Vを 同 義 な 高 頻 度 語 へ と言 い換 え る こ とが で き る た め,意 味 を 変 化 させ ず にOOVを 削 減 す る こ とが 期 待 で き る.
2.提 案 す る手 法 が 従 来 手 法 と比 較 して 翻 訳 文 の 精 度 を 向 上 しっ っOOVの 出 現 率 を 減 少 さ せ た.言 いi換え を 行 わ な い 手 法 と比 較 す る と,翻 訳 の 質 を 向 上 し っ っ 出 力 文 のOOVを 減 ら す こ とが で き た.ま た00Vを 類 義 語 に置 換 す る 手 法 と比 べ て も,OOVを よ り多 く削 減 す る こ とが で き た,
3.単 語 の 完 全 一 致 だ け で は な く同 義 語 も正 解 で あ る と考 慮 す る評 価 尺 度 を用 い る と,提 案 手 法 が よ り良 い 翻 訳 を 出 力 して い る こ とが 明 らか と な っ た.提 案 手 法 は00Vの 単 語 に 対 して そ の 同 義 語 を 出 力 す るた め,こ の 評 価 尺 度 を 用 い る こ とで 提 案 手 法 が 意 味 を 考 慮 し た 前 処 理 手 法 で あ る こ とが 明 らか と
な っ た.
本 論 文 の構 成 は 以 下 の 通 りで あ る.第1章 で は本 研 究 の 概 要,貢 献 を述 べ る.第 2章 で は ニ ュー ラ ル 機 械 翻 訳 に お け るOOVの 解 決 を 試 み た 関 連 研 究 につ い て 述 べ る.第3章 で は ト レ ー ニ ン グ コ ー パ ス を 言 い換 え る こ とで ニ ュ ー一ラ ル 機 械 翻 訳 の OOVを 削 減 す る提 案 手 法 に つ い て 述 べ る.第4章 で は提 案 手 法 と比 較 手 法 を 用 い た 日英 翻 訳 の 結 果 を 述 べ る.第5章 で は 実 験 結 果 か ら考 え られ る考 察 を 述 べ る.最 後 に第6章 で は 本 研 究 の ま とめ 及 び 課 題 に つ い て 述 べ る.
樋 補 修 時 間 が 短 縮 し た 。
\
the<unk .一一1>repairhourwasshortened.
図2.1L・uongら の 手 法
第2章 関連研 究
この 章 で は,ニ ュ ー ラ ル機 械 翻 訳 のOOVの 削減 を 試 み る 関 連 研 究 や 機 械 翻 訳 の 前 処 理 と して コ ー パ ス を 言 い 換 え る関 連 研 究 に つ い て 述 べ る.
2.1ニ ュー ラル 機 械翻 訳 の00Vの 削減 を試 み る関連研 究
ニ ュ ー ラル 機 械 翻 訳 の ト レー ニ ン グ 方 法 の 変 更 に よ っ て00Vの 削 減 を試 み,翻 訳 の精 度 を 向 上 させ る先 行 研 究 が 存 在 す る.Jeanら[8]は,ト レ ー ニ ン グ に お い て 対 訳 コー パ ス を 分 割 し,分 割 され た 対 訳 コ ー パ ス を用 い た トレ ー ニ ン グ に お い て, 使 用 す る語 彙 を 目 的 言 語 側 の 語 彙 か らサ ン プ リ ン グ し,得 られ た 一 部 分 の 語 彙 を 用 い て トレー ニ ン グ を 行 う こ とで トレ ー ニ ン グ の 計 算 量 を減 少 させ,全 体 の 語 彙 を広 く取 る こ とでoovの 削 減 を 試 み た.Miら[2]は トレ ー ニ ン グ に使 用 す る 語 彙 を 文 ご とに 選 択 す る こ とで,ト レ ー ニ ン グ の 計 算 量 を減 少 さ せ,全 体 の 語 彙 を拡 張 し た.Luongら[9]は 文 字 ベ ー ス の 学 習 に よ っ てOOVを 減 少 させ た.こ れ ら の 手 法
は ト レー ニ ン グ方 法 を 変 更 す る必 要 が あ る.本 研 究 で は,ト レ ー ニ ン グ 方 法 を 変 更 せ ず,ト レー ニ ン グ デ ー タ に お け る 目的 言 語 の 語 彙 的 言 い 換 え に よ っ て 前 処 理 の み で 翻 訳 結 果 の00Vを 削 減 す る.
一 方,ニ ュ ー ラ ル 機 械 翻 訳 の トレ ー ニ ン グ方 法 は 変 更 せ ず にOOVの 削 減 を試 み る研 究 も存 在 す る.Luongら[3]は00Vと の 対 応 関 係 に あ る原 言 語 の 単 語 を翻 訳 辞 書 を 用 い て 直 接 翻 訳 す る後 処 理 を提 案 した.00Vを 後 処 理 に よ っ て 翻 訳 す る た め に は00Vが 原 言 語 側 の 文 の どの 単 語 に 対 応 して い るか を 出 力 す る必 要 が あ る.
そ の た め,Luongら は00Vを 出 力 す る際,00Vに 対 応 す る原 言 語 側 の 単 語 との
初 め に,ク リ ニ カ ル パ ス の メ リ ッ ト お よ び デ@@メ リ ッ ト に つ い て 述 べ た 。
meritandde@@meritoftheclinicalpassaredescribed.
図2,2Se且nエichら の 手 法
相 対 距 離 を 出 力 す る トレ ー ニ ン グ を行 う こ とに よ っ て 直 接 翻 訳 を 可 能 と した.対 応 関 係 を 利 用 す る例 を 図2.1に 示 す.こ の 例 で は原 言 語 側 の0番 目 の 単 語"樋"に 対 応 す る 目 的 言 語 側 の1番 目 の 単 語 が00Vで あ る.OOVは 対 応 す る 原 言 語 の 単 語 よ り も1単 語 だ け 後 ろ に存 在 す るの で,相 対 距 離1を 出 力 す る こ とで 単 語 対 応 を獲 得 す る.こ の 手 法 で は,ト レ ー一ニ ン グ デ ー タ を用 い て 原 言 語 と 目 的 言 語 の 単 語 ア ラ
イ メ ン トを取 る必 要 が あ る.
Jeanら[4ユ は00Vを そ の 単 語 が 持 つ ア テ ン シ ョ ンの 確 率 が 最 も大 き い 原 言 語 の 単 語 を翻 訳 辞 書 に よ っ て 翻 訳 す る後 処 理 手 法 を提 案 した.ニ ュ ー ラ ル 機 械 翻 訳 で は 単 語 を 出 力 す る際 入 力 文 の どの 単 語 へ と注 目 す るか(ア テ ン シ ョ ン)と い う情 報 を 用 い る.そ の ア テ ン シ ョ ンの 確 率 が 最 も高 い 入 力 単 語 を 対 応 して い る 単 語 で あ る とみ な し,L,uongら と同 様 に翻 訳 辞 書 を 用 い て 直 接 翻 訳 す る.こ の 手 法 は 単 語 ア ラ イ メ ン トを必 要 と しな い 一 方,目 的 言 語 で の 意 味 を 考 慮 で き て い な い.
さ ら に,Sennrichら[5]は,系 列 に 対 す る デ ー タ 圧 縮 手 法 で あ るBytePair Encoding(BPE)を 文 字 列 に 適 用 し,単 語 を 頻 出 す る 部 分 文 字 列 の 系 列 に 分 解 し て 学 習 す る こ とで00Vを 削 減 した.こ の 手 法 で は部 分 文 字 列 単 位 で の 翻 訳 を 行 い 単 語 に す る た め に 部 分 文 字 列 を 結 合 す る.図2.2はBPEを 用 い た 分 割 例 で あ る.
"◎◎"は 本 来 結 合 さ れ て 単 語 に な る部 分 を 表 して い る
.日 本 語 側 で はOOVで あ る
"デ メ リ ッ ト"がccデ"と̀̀メ リ ッ ト"と い う2っ の 高 頻 度 な 部 分 文 字 列 に 分 割 さ れ , 英 語 側 に お い て も 同様 に̀̀demerit"が"de"と"merit"に 分 割 され る.翻 訳 後 に お い て"◎ ◎"が そ の 後 に 続 く部 分 文 字 列 と結 合 され る こ とで1っ の 単 語 を 生 成 す る た め,こ の例 で は00V"demerit"を 出 力 す る.
この 手 法 は,頻 度 に 基 づ い た 部 分 文 字 列 へ の 分 割 を 行 う貧 欲 な ア ル ゴ リズ ム で あ る.そ の た め,意 味 を 考 慮 せ ず に単 語 を 部 分 文 字 列 に 分 解 す る.例 え ば,日 本 語 で のOOV・ ・ガ リ"は"ガ"と"リ"に 分 け られ るが,こ の2つ の 文 字 そ れ ぞ れ は 意 味
を 持 っ て い な い.そ の た め,翻 訳 結 果 で は"g"と"asses"が 出 力 され̀̀gasses"(ガ
ス)と な るた め,翻 訳 前 後 で 意 味 が 変 化 す る.ま た,結 合 に よ っ て 生 成 さ れ る単 語 は 実 際 に は存 在 しな い 単 語 で あ る 可 能 性 が あ る.日 本 語 の 例 で は"ピ ◎◎ ピ ◎◎ ネ
◎◎ メ チ ル ◎◎ア ミ ン"と い う出 力 か ら"ピ ピ ネ メ チ ル ア ミ ン"と い う単 語 が 生 成 さ れ るが こ の 単 語 は 存 在 しな い.こ の 現 象 は 生 成 され た 単 語 が 実 際 に 存 在 す る か ど う か が わ か ら な い た め に 起 こ り,そ れ を確 か め る た め に は 人 間 が 確 認 を行 う必 要 が あ る.本 研 究 で は 単 語 の 生 成 は 行 わ な い た め,出 力 さ れ る単 語 は す べ て 存 在 す る単 語 で あ る.
2,2機 械 翻訳 の前 処 理 と して コーパ ス を書 き換 え る関連 研 究
本 研 究 の よ う に機 械 翻 訳 の 前 処 理 段 階 に お い て コー パ ス を 言 い 換 え,原 言 語 お よ び/あ る い は 目 的 言 語 の 文 の 複 雑 さ を減 少 させ る手 法 が 存 在 す る.§tajnerら[6]は 機 械 翻 訳 の 前 処 理 と して 入 力 文 の 語 藁 と文 法 を平 易 に す る テ キ ス ト平 易 化 を適 用 し た.本 研 究 で は,入 力 文 の テ キ ス ト平 易 化 を用 い ず,語 彙 の 言 い 換 え の み を用 い て OOVの 削 減 を試 み る.
さ ら に,Liら[7]は 前 処 理 の 段 階 で ト レー ニ ン グ コ ーパ ス や 入 力 文 のOOVを 使 用 す る語 彙 に 含 ま れ る類 義 語 に置 換 す る手 法 を 提 案 した.彼 らはOOVを 高 頻 度 語 に置 換 す る際,単 語 同 士 の 類 似 度 や,置 換 後 の 文 が 自然 で あ る か を 判 断 す る た め に 言 語 モ デ ル を使 用 した.言 語 モ デ ル は 文 が どれ ほ ど 自然 で あ る か を 判 定 す る モ デ ル で あ り,大 規 模 な コ ー パ ス か ら作 成 され る.文 の ス コ ア は一 定 区 間 の 単 語 列 が コ ー パ ス 中 で どれ ほ どの 頻 度 で あ る か に基 づ くた め,文 法 が 間 違 っ て い る よ う な コー パ ス 中 に存 在 し に くい単 語 列 の 場 合 は 不 自然 と判 断 さ れ る.単 語 の 意 味 が 似 て い る か ど うか を判 定 す るた め に,彼 らは 似 た 意 味 の 単 語 は そ の 文 脈 も似 て い る と い う分 布 仮 説 に基 づ い た 分 散 表 現 を用 い て コサ イ ン類 似 度 を 計 算 した.ま た,彼 ら は トレ ー ニ ン グ コ ー パ ス に お い て00Vの 単 語 に 対 応 す る 原 言 語,あ る い は 目 的 言 語 の 単 語 ア ラ イ メ ン トを用 い,00Vが どの 単 語 に も対 応 して い な い 場 合 そ の 単 語 を 削 除
した.
しか し,00Vの 削 除 は 文 の 意 味 の損 失 に つ な が り,翻 訳 後 の 文 の 情 報 が 欠 落 す る.加 え て,彼 ら は コ サ イ ン 類 似 度 を 用 い る た め00Vを 同 義 で な い 類 義 語 に 置 換 す る 可 能 性 が あ る.例 え ば,彼 らは"surfiエ1g"を"8nowboard"に 置i換す るた め,
̀̀internetsurfing"を"internetsnowboard"と 書 き 換 え て し ま う た め 意 味 の 変 化 が 発 生 す る.本 研 究 で は 分 布 類 似 度 で は な く,言 い 換 え そ れ ぞ れ に 登 録 さ れ て い る 言 い 換 え 辞 書 の ス コ ア を 用 い る.そ の た め,本 手 法 で はOOVの 不 適 切 な 表 現 へ の 言 い 換 え を 抑 制 で き る.前 述 の 例 で は,言 い 換 え 辞 書 に 登 録 さ れ て い る 言 い 換 え に よ っ て,"surfing"を"browser"へ と 言 い 換 え る た め 元 の 意 味 を あ る 程 度 残 す こ と が で き る.
第3章00Vを 同義語 に言 い換 える提案 手法
本 研 究 で は,元 の 文 の 意 味 を保 持 しつ つ ニ ュ ー ラル 機 械 翻 訳 のOOVを 減 らす た め に,ト レ ー ニ ン グ デ ー タ の 目的 言 語 文 に 存 在 す る00Vを 高 頻 度 語 に言 いi換え て か ら翻 訳 す る手 法 を 提 案 す る.我 々 は 言 い換 え 対 お よ び 言 いi換え ス コ ア が 登 録 され て い る言 い換 え辞 書 を用 い て00Vを 高 頻 度 語 に言 い 換 え る.我 々 は3つ の ス コ ア を使 用 す る:(1)言 い 換 え 辞 書 ス コ ア,〔2)言 語 モ デ ル ス コ ア,〔3)こ れ ら の ス コ ア を結 合 した ス コ ア.言 い 換 え 辞 書 ス コ ア は翻 訳 前 後 の 意 味 の 保 持 を考 慮 し,言 語 モ デ ル ス コ ア は文 の 自然 さ を考 慮 す る.我 々 は言 い換 え ス コ ア と言 語 モ デ ル ス コ ア を 以 下 の よ うに 線 形 補 間 に よ っ て 結 合 す る:*
言 い換 え ス コア ニ
λ〔言 い換 え 辞 書 ス コ ア)+(1一 λ)(言語 モ デ ル ス コ ア)
(3.01)
3.1言 い換 え ラ テ ィ ス の 構 築
言 い 換 え ラ テ ィ ス を 作 成 す るPythonの 実 装 を 図3.1に 示 す.言 い 換 え の 際, OOVを 高 頻 度 語 に 言 いi換 え る 辞 書(OOV2in‑vocabulary)と00VをOOVに 言 い 換 え る 辞 書(00V200V)を 用 い る.言 い 換 え の 対 象 と な る 区 間 を 指 定 し,高 頻 度 語 へ の 言 い 換 え が あ る 場 合 に 言 い 換 え ス コ ア を 計 算 し も っ と高 い ス コ ア で あ る 時 にbest ̲scoreに そ の ス コ ア を,bes七̲edgeに そ の 言 い 換 え を 区 間begin2endの 情 報 と と も に 記 録 す る.
図3.2は 言 い 換 え ラ テ イ ス の 例 で あ る.原 文̀̀theyassertdefendingtherights7' に お い て,"defending"がOOVで あ る."defending"は 高 頻 度 語 で あ る"guaran‑
teeing"へ の 言 い 換 え が 可 能 で あ り,"defendingtherights"は 全 て 高 頻 度 語 で あ る c̀theprotectionoftherights"へ の 言 い 換 え が 可 能 で あ る
.こ の 例 で は,"asser七 guaranteeing七herights2'の2‑gram言 語 モ デ ル 確 率,"assertthe","rights‑7' の2‑gram言 語 モ デ ル 確 率 を 計 算 す る.こ の 手 法 で は フ レ ー ズ の 言 い 換 え の 際
フ レ ー ズ 外 の 言 語 モ デ ル 確 率 は 計 算 す る が,フ レ ー ズ 内 の 言 語 モ デ ル 確 率 は 計
defmake̲lattice(listsent{∋n¢{…,dictionaryOOV2in‑vecabulary,diction且ryphrase2score):
rrT,昨
5entenceis乱li5tofwords:[Wl,w2,…,w1、 〕
00V2in‑voc且bularyparaphrasesphrases【oin一 Ψoc且bul且ryphrases PhraseZscoregivesPPDBsce祀
".「..
n‑length〔sentence) best̲seore=diction且ry{}
best̲scere=di{=tion且ry{}
end2phrase呂=d1ctionary{}
end2phr乱ses[O]="BOS"
fOfbegininrange(o,n}:
for¢ndinrang¢(begin+1,n+1)=
ori呂ina1̲phrase=sentence[begin:end]
phrases=・sentence[b{唱inlend]
while(1):
par乱phr且ses;li5tO foτphraseinphア 且ses=
paraphrases.append(oovzin・vocabulary[phrase]) ifparaphrasesE…xist:
forparaphras{:inp且raphrases:
fbrbefore̲phraseinend2phrases[begin‑1]
m=len呂th(paraphrase)
PPDB̲scere=phrase2scere[paraphr且se]#PPDB=ParaPhraseDataBase
LM ̲score=2・gram(wbesi。‑s,p且raphr且se1)+2‑grarn(paraphrase。,w。"d‑))#LM:L且n呂ua呂eModel
score=best̲s。o祀[str(begin‑1)+"m"+before̲phr乱se]+λ 串PPDB̲sco爬+(1一 λ).LM̲score
ifscoreisthebes::
begin2phrase‑str(end)+"111"+paraphrase b¢st̲scor已[be呂in2phrase】=score
besr̲edge[begin2phras{}]昌str(begin・1)+"III"+before̲phrase end2w。rds[end].且ppend(par且phrases>
break else:
00V ‑P且 τ且phr且ses‑get‑OOV200V(phrases) ifOOV̲p乱raphras巳sexist:
phrases=00V̲paraphrases else:
bre且k
retumbest‑ed呂 。
図3.1 言 い 換 え ラテ ィ ス を 作 成 す るPythonの 実 装
theyassert therihts
theprotectionoftherights
図3.2言 い換 え ラ テ ィ ス の 例
original=thepedago9ロeshadqロaπe151、
paraphrase,firstround:theeducatorshaddiscussions.
paraphrase,secondround=theteachershaddiscussions.
図3.3複 数 回 言 い 換 え の例
算 し な い.入 力 文 をX(Xo,Xl,̲,Xm),低 頻 度 語 を:Ci,,言 い 換 え ら れ る 高 頻 度 な1つ の フ レ ー ズ をP(Pl,p2,一.,Pn)と す る と,言 語 モ デ ル ス コ ア が 計 算 さ れ る の は,2‑gram瞬̲1,Pl)お よ び2‑gram(P7、,xi+1)で あ る.図3.2の 例 で は
"assertguaranteeing"や"assertthe"な ど の 言 語 モ デ ル 確 率 を 計 算 し
,フ レ ー ズ
"theprotectionoftherights"の 言 語 モ デ ル 確 率 は 計 算 し な い †
.ま た,動 名 詞 句
"defendingtherights"に 対 し て の 言 い 換 え"theprotectionoftherights"は 名 詞 句 で あ り,文 法 上 の 変 化 が あ る が 文 法 は 考 慮 し な い.
さ ら に,我 々 の 手 法 はOOVを 高 頻 度 語 に な る ま で 繰 り返 し 言 い 換 え る こ と が で き る.複 数 回 言 い 換 え の 例 を 図3.3に 示 す.図3.3の 言 い 換 え 例 で は"pedagogues"
及 び"quarrels"がOOVで あ る.原 文 の00V"quarrels"は1回 目 の 言 い 換 え で 高 頻 度 語"discussions"へ と 言 い 換 え ら れ る.一 方,OOV"pedagogues"は1回 目
の 言 いi換 え でOOV"educators"へ と 言 いi換 え ら れ る.我 々 は さ ら に"educators"
を 言 い 換 え る こ とが 可 能 で あ り,2回1ヨ の 言 いi換 え で 高 頻 度 語"teachers"へ と 言 い 換 え ら れ る.OOV̀̀pedagogues"は 言 い 換 え を1度 の み 行 う 場 合,"teachers"へ
は 言 い 換 え ら れ な い.な ぜ な ら,言 い 換 え 辞 書 に は"pedagogues"を"teachers"へ
defselect」̲paraphrase(dictionarybest̲edge,intsentence̲length)=
words=listO
current‑index‑sentence‑length
next̲edge冨best̲edge[str(current」ndex>+ttlll"+"EOS"]
while(current̲index)>O:
current̲word=next̲edge.split(̀̀」Il")[1]
words,append(current̲word)
next̲edge=best̲edge[next̲edgeユ
current̲index=・next̲edge.split(血lIl")[0]
reversewords
returnwords
図3.4言 い 換 え を 選 択 す るPythonの 実 装
と言 い換 え る登 録 が な い た め で あ る.
複 数 回 の 言 い 換 え の 場 合 も 図32の よ う な 言 い 換 え ラ テ ィ ス を 作 成 す る.ま ず 最 初 に 言 い換 え辞 書 に登 録 さ れ て い る 言 い 換 え す べ て を 用 い て ラ テ ィ ス を 作 成 し, 00Vで な い 高 頻 度 語 が 存 在 す る場 合 に そ の 中 か ら ス コ ア 最 大 の 言 い換 え を 選 択 す る.一 方,言 い換 え す べ て がOOVの 場 合 は00Vそ れ ぞ れ に 対 して さ ら な る言 い 換 え を 行 い,2回 目 の 言 い 換 え を 生 成 す る.さ ら な る言 いi喚え に よ っ てOOVで な い 単 語 が 出 現 した 場 合 は ス コ ア に 基 づ い て 言 い 換 え を 選 択 し,00Vの み の 場 合 は 再 び 言 い換 え を 行 う.こ の 言 い 換 え は00Vで な い 高 頻 度 語 へ の 言 い 換 え が 行 わ れ る ま で 実 行 さ れ,高 頻 度 語 へ の 言 い換 え が 行 わ れ ず に他 の00Vへ の 言 い 換 え が で き な くな る ま で 実 行 さ れ た 場 合 は 原 文 の 単 語 の ま ま に す る.こ れ は言 い換 え に よ っ て 意 味 が わ ず か に 変 化 す る た め,OOVか ら00Vへ の 言 い換 え は 出 力 の00Vを 削 減 で きず に文 の 意 味 を 変 化 さ せ るだ け とな るか らで あ る.
3.2言 い 換 え の 選 択
言 いi換え ラ テ ィ ス か ら言 い 換 え を 選 択 す るPythonの 実 装 を 図3,4に 示 す.前 節 で 作 成 した ラ テ ィス を用 い て 最 も ス コ ア が 高 くな る 言 い 換 え を 選 択 し言 い換 え 後 の 文 を 作 成 す る.ま ず,そ れ ぞ れ の 言 い 換 え 候 補 に お い て,最 も高 い ス コ ア とな る経 路 と そ の ス コ ア を 動 的 計 画 法 に よ っ て 先 頭 か ら計 算 す る.そ の 後,文 末 ま で の 経 路
を 作 成 し最 も 高 い ス コ ア の 言 い 換 え を 文 末 か ら た ど る こ と で 最 も ス コ ア が 高 く な る 言 いi換 え を 選 択 す る.図3.2の 例 で は,"theyasserttheprotectionoftherightsS'
が 生 成 さ れ る.
第4章 日英 翻 訳 実」験
4.1実 験 設 定
本 研 究 で は,ア ジ ア 学 術 論 文 抜 粋 コ ー パ ス(ASPEC)[10]日 英 対 訳 デ ー タ を 使 用 し た.ト レ ー ニ ン グ に は ア ラ イ メ ン ト確 度 に よ っ て 分 割 さ れ て い る ト レ ー ニ ン グ コ ー一パ ス か ら 最 も 高 い 文100万 文 す べ て を 採 用 し,そ の う ち,文 長40単 語 以 下 の 文827,503文 対 を 使 用 し,チ ュ ー ニ ン グ に は1,790文 対 す べ て を,テ ス ト に は 1,812文 対 す べ て を 使 用 し た.こ れ ら の 文 対 は す べ て 重 複 し て い な い.開 発 デ ー タ セ ッ ト を 用 い て 最 も 精 度 の 高 い モ デ ル を 選 択 し,そ の モ デ ル に よ っ て テ ス ト デ ー タ セ ッ ト を 翻 訳 し 評 価 し た.コ ー パ ス の 単 語 分 割 の た め に,日 本 語 で はMeCab[11]
(IPAdic)を,英 語 で はMoses[12]に 付 随 す る ス ク リ プ トを 使 用 し た.言 語 モ デ ル に はKenLM*を 用 い て,ASPECの 文 全 て を 使 用 し2‑gram言 語 モ デ ル を 構 築 し た.単 語 ア ラ イ メ ン トの 獲i得 に はGIZA++† を 使 用 し た.言 い 換 え 辞 書 に は 英 語 で はPPDB2.0[13]の 最 大 サ イ ズXXX‑L‡ を,日 本 語 で はPPDB:Japanese[14]
を 使 用 し た.こ れ ら の 辞 書 はASPECの 内 容 を 含 ま ず に 構 築 さ れ た も の で あ る.
PPDB2.0は 様 々 な 分 野 の コ ー パ ス か ら 作 成 さ れ て い る 一 方,翻 訳 に 使 用 し て い る ASPECコ ー パ ス は 科 学 技 術 論 文 の 内 容 の み で あ る た め,言 い 換 え 辞 書 が コ ー パ ス に 適 応 し て い な い と 考 え ら れ る.ASPECコ ー パ ス と 同 じ 分 野 の 言 い 換 え 辞 書 を 作 成 す る た め,PPDBをASPECコ ー パ ス で 作 成 し た.作 成 す る 際 公 開 さ れ て い る コ ー一 ド§を 使 用 し,閾 値 をO.Olと し た.本 実 験 で は ト レ ー ニ ン グ コ ー パ ス の 原 言 語 側,目 的 言 語 側 の ど ち ら か,あ る い は 両 方 を 言 い 換 え た.原 言 語 側 の 言 い 換 え を 行 っ た 場 合,チ ュ ー ニ ン グ,テ ス トの 文 も 言 い 換 え た.言 い 換 え ス コ ア の 計 算 に 用 い る 線 形 補 間 係 数 は λ=e.O,025,0.50,0.75,1.0と し た.
ニ ュ ー ラ ル 機 械 翻 訳 は,OpenNMT[15]を 用 い た.モ デ ル 構 築 の た め の パ ラ メ ー一 タ は 以 下 の 通 り で あ る.双 方 向 リ カ レ ン トネ ッ ト ワ ー ク を 使 用 し,バ ッ チ サ イ ズ は64,ト レ ー ニ ン グ の エ ポ ッ ク 数 は20,単 語 ベ ク トル の 次 元 数 は500,原 言 語 の
*http:〃kheafield ・c。m/c。de/kenlm/
†https・ 〃github .・。m/皿 。・e・一・mt/giza‑PP
‡gz圧 縮 フ ァ イ ル で824MB
§h七tps;//github.com〆masahiro‑mi/Paraphrasing
表4.1日 英 翻 訳 の 結 果*は ブ ー トス トラ ッ プ リサ ン プ リ ン グ を用 い て 提 案 手 法 が 統 計 的 有 意 差p<0,05で 上 回 っ て い る こ とを 示 す.
手法 BLEUMETEOROOVの 数
ベ ー ス ラ イ ン Luongら
Sennrichら Liら
提 案 手 法(multi.(word))
26.13*
26.21*
27.32 26.48 26.73
31.61 31.30 32.72
31.67 31.93
286 406 0 302 275
語 彙 数,目 的 言 語 の 語 彙 数 は 共 に30,000,ド ロ ッ プ ア ウ トの 割 合 は0.3,最 適 化 に はSGDを 用 い,学 習 率 は1.0,エ ン コー ダ 側 の リカ レ ン トネ ッ トワ ー ク は2層 の LSTM,サ イ ズ は500と した.ベ ー ス ライ ン は 上 記 の 設 定 で コー パ ス の 言 い換 え を 一 切 し な い もの と した
.ま た,本 論 文 で紹 介 し た従 来 手 法[3,7,5]を 上 記 の 設 定 で 再 実 験 した.ま た,Liら の 手 法 と比 較 す る た め,ベ ー ス ラ イ ン とLiら の 手 法 と提 案 手 法 で は 出 力 に00Vが 出 現 す る際,ア テ ン シ ョ ン を用 い て 最 も対 応 して い る確 率 の 高 い 原 言 語 の単 語 を翻 訳 辞 書 を用 い て 翻 訳 した.翻 訳 の 評 価 に はBLEU[16], METEOR[17]を 用 い た.ま た,翻 訳 後 に 現 れ るOOVの 数 の 変 化 に よ る 評 価 を 行 っ た.
PPDB2.0の 最 大 サ イ ズ に 登 録 さ れ て い る 言 い 換 え は 質 が 悪 い 場 合 が あ る.
PPDB2.0は 言 いi換え ス コ ア に 閾 値 を つ け る こ と で,質 の 高 い 言 い 換 え の み が 登 録 さ れ て い る よ り小 さ いPPDBを 提 供 して い る.PPDBの 質 が 翻 訳 の 質 に関 係 す る か を確 か め るた め,PPDBの サ イ ズ を小 さ く し質 の 高 い 言 い換 え の み を 利 用 す る実 験 を行 っ た ¶.ま た,目 的 言 語 の 言 い換 え が 効 果 的 で あ る か,英 語 の 言 い 換 え が 効 果 的 で あ る か を 明 らか に す る た め に,英 日翻 訳 を 行 っ た.英 日翻 訳 に っ い て も 言 い換 え辞 書 に登 録 さ れ て い る言 い換 え の うち,ス コ ア の 高 い もの の み を使 用 した 翻 訳 を 行 った.
27、O
265
﹄62
コ山﹂山
25.5
●一 ●word5旧qlεP●r己phrase Hwor1[」mu比1,paraphra5e I}■Phra5051nqlopar己pltrase
● ■phr邑s已multl、paraphrase
25・8
,0 0.2 O.4 o.6 O,8
\
LO lambda
図4.1提 案 手 法 の 日英 翻 訳 のBLEUス コ ア
4.2実 験 結 果
先 行 研 究 と比 較 し た 日英 翻 訳 の 実 験 結 果 を表4.1に 示 す.提 案 手 法 は高 頻 度 語 へ の 言 い 換 え が 見 つ か る ま で 単 語 の 言 い 換 え を 行 っ た.目 的 言 語 のOOVを 言 い換 え る提 案 手 法 は べ 一 ス ラ イ ン お よ びLuongら の 手 法 に 対 して,ブ ー トス トラ ッ プ リ サ ン プ リ ン グ を用 い たBLEUの 評 価 に お い て 統 計 的 有 意 差(P<0,05)を 持 っ て 上 回 っ た.提 案 手 法 は ベ ー ス ラ イ ン と比 較 してBLEUス コ ア が0.60,METEORス
コ ア が0.31上 昇 しOOVを3%減 少 させ た.
線 形 補 間 係 数 と言 い換 え 回 数 に よ る 提 案 手 法 のBLEUス コ ア を 図4.1に 示 す.
出 力 の00Vの 数 を 図42に 示 す.図4.1,4.2に お い て,"word"は 単 語 の み の 言 い 換 え を 行 い"phrase"は 単 語 と フ レ ー ズ の 言 い 換 え を 行 う こ と を 示 す.ま た,
"single"は00Vに 対 して 言 い 換 え を1回 ま で 行 い"multi ."は 高 頻 度 語 へ の 言 い 換 え が 見 っ か る ま で 言 い換 え を行 う こ と を示 す.こ れ らの 図 の 結 果 に お い て,ア テ ン シ ョ ン を用 い たOOVの 翻 訳 は 行 っ て い な い.提 案 手 法 は 言 い 換 え 回 数 や 線 形 補 間 係 数 に 関 係 な くOOVの 数 を 削 減 で き,特 に 複 数 回 言 い換 え て 言 い換 え 辞 書 ス コ
1400
ま ほ
1300HW。 ・d・1・gl・p・・日ph・・3・
Hwordmulti、paraphrase
●・■phr自se5inglεperaphrase 1200 ●・●phr自5已multi,P昌raphr昌s{}
ぢ1100・
§ 210。0
; 89。 。
800
700
6。8 .。
\
\ 、
tく 一 一 一 ・・t‑一 一 一.
O、20.40.60,8
1ambda
図4.2提 案 手 法 の 日 英 翻 訳 の00Vの 数
1,0
表4,2英 日翻 訳 の 結 果,*は ブ ー トス トラ ッ プ リサ ン プ リ ン グ を 用 い て 閾 値 あ りの 提 案 手 法 が 統 計 的 有 意 差p<0.05で 上 回 っ て い る こ と を示 す.
手法 BLEUOOVのi数
べ 一 ス ラ イ ン 申 Luongら
Sennrichら Liら
提 案 手 法(multi.word)
提 案 手 法(multi.word,閾 値 あ り)
33.91 34.42 35.88 34.22 34.07 3437
589 534 0 544 573 573
ア と言 語 モ デ ル ス コ ア を 組 み 合 わ せ た 時 に,00Vを よ り多 く削 減 で き た.ま た, λ=O,50の 時 に最 もBLEUス コ ア を達 成 し,こ れ は 言 い 換 え ス コ ア は言 い 換 え 辞 書 ス コ ァ と言 語 モ デ ル ス コ ア をバ ラ ン ス よ く足 し合 わせ る こ とが 効 果 的 で あ る こ と を意 味 す る.
英 日翻 訳 の 結 果 のBLEUス コ ア を 表42に 示 す.ベ ー ス ラ イ ン と比 較 す る と提
表4,3言 い換 え辞書 のサ イズ を変 更 した場合 の 日英翻 訳 の結 果
手法 BLEUMETEOROOVの 数 トレ ー ニ ン グ 中 の00V
言 い 換 え な し
S‑size(single) s‑size(multi.) 1‑size(single) 1‑size(multi.) XXXl‑SiZe(Single>
XXXl‑SiZe(mUlti.)
26.13 26,13 26.60 25.90 26.64 26.72 26.73
31.61 31.57 31.85 31.53 31.71 31.85 31.93
286 279 281 281 283 289 275
474,468 453,158 449,547 441,112 436,460 383,715 377,018
表4.4言 い換 え辞書 を 同分 野 に した場合 の 日英翻 訳 の結 果 言 い換 え辞書 BLEUMETEOROOVOOV(training)
未 使 用26,13
PPDB2.0(multi,word)26.73 PPDB‑ASPEC(multi.word)26.41
31.61286 31.93275 31.73289
474,468 383,715 385,173
表4.5言 い換 え対象 を変 更 した場合 の 日英翻 訳 の結 果
言 い換 え 対 象BLEUMETEOROOVの 数
原言語 目的言語 両方
26.69 26.73
26.63
31.82 31.93
31.78
295 302
281
案 手 法 はBL,EUス コ ア がO.16向 上 し,質 の い い 言 い 換 え の み を使 用 す る と0.46向 上 した.一 方,翻 訳 後 に 存 在 す る00Vの 数 は 言 い 換 え数 が 多 い ほ ど減 少 して い る わ け で は な い.こ れ は00Vが 出 力 さ れ る 時 に ア テ ン シ ョン を 用 い て 直 接 翻 訳 して い るた め だ と考 え られ る.
PPDB2.0の サ イ ズ を 変 更 し た 日 英 翻 訳 の 提 案 手 法 の 結 果 を 表4.3に 示 す.
PPDBの サ イ ズ に 関 係 な く1回 の み の 言 い換 え よ りも複 数 回 言 い 換 え た 方 が 翻 訳 精 度 が 良 か っ た.
PPDB‑ASPECを 用 い て 言 い 換 え た 場 合 の 翻 訳 結 果 を 表4.4に 示 す.PPDB‑
ASPECで 言 い 換 え を 行 っ た 場 合,言 い 換 え を し な い べ 一 ス ラ イ ン よ り も翻 訳 精 度