• 検索結果がありません。

修士論文

N/A
N/A
Protected

Academic year: 2021

シェア "修士論文"

Copied!
38
0
0

読み込み中.... (全文を見る)

全文

(1)

学 修 番 号16890528

修士論文

目的 言 語 の言 い換 え に よ る 日英 ニ ュー ラル 機 械 翻 訳 の 改 善

関沢 祐樹

2018年2月23日

首都大学東京大学院

シス テム デザ イ ン研 究 科 情 報通 信 システ ム学域

(2)
(3)

関沢 祐樹

審査委員1

小町 守 准教授 山口 亨 教授 高間 康史 教授

(主指導教員) (副指導教員) (副指導教員)

(4)
(5)

目的 言 語 の言 い換 え に よ る 日英 ニ ュー ラル機 械 翻 訳 の 改 善*

関沢 祐樹

修論要 旨

近 年,自 然 言 語 処 理 に お い て あ る言 語 の 文 を 異 な る 言 語 の 文 へ と機 械 が 自動 で 書 き換 え る,機 械 翻 訳 の 研 究 が 盛 ん に 行 な わ れ て い る.機 械 翻 訳 は あ る言 語 で 書 か れ た 文 を 他 の 言 語 の 文 に 自動 か っ 高 速 に 翻 訳 す る こ とが で き る.機 械 翻 訳 は,使 用 者 が 言 語 の 知 識 を 持 た ず と も 文 を 自動 で 翻 訳 で き る こ とか ら重 要 な 技 術 で あ る と言 え る.

従 来 の 機 械 翻 訳 は,翻 訳 前 の言 語(原 言 語)の 句 に対 して 翻 訳 後 の 言 語(目 的 言 語)の 旬 が 与 え られ て い る統 計 的 機 械 翻 訳 が 高 精 度 で あ っ た.統 計 的 機 械 翻 訳 は フ

レ ー ズ 翻 訳 の ス コ ア や 言 語 モ デ ル ス コ ア な ど の様 々 な ス コ ァ を学 習 し,こ れ らの ス コ ア を組 み 合 わ せ た 結 果 最 も適 した翻 訳 規 則 を 適 用 す る こ とで 文 を翻 訳 す る.し か し,翻 訳 さ れ た 文 は 流 暢 性 に 欠 け て お り,人 間 が 読 む に は 不 自然 な 文 が 多 い とい う 課 題 が 存 在 す る.

一 方,ニ ュ ー ラ ル ネ ッ トワ ー ク を用 い た 機 械 翻 訳 手 法 で あ る,ニ ュ ー ラル 機 械 翻 訳 が 提 案 さ れ た.ニ ュ ー ラ ル 機 械 翻 訳 は統 計 的 機 械 翻 訳 よ り も 自 然 な 文 を 出 力 で き,実 用 的 な 機 械 翻 訳 手 法 で あ る と言 え る.そ の 一 方 で,ニ ュ ー一ラ ル 機 械 翻 訳 は softmaxを 出 力 の 語 彙 サ イ ズ で 取 るた め,ト レ ー ニ ン グ を す る際 に 時 間 が 掛 か る と い う問 題 が あ る.し た が っ て,す べ て の 単 語 を 用 い る こ と は 現 実 的 で な い.ニ ュ ー ラ ル 機 械 翻 訳 で は通 常,使 用 す る語 彙 を 制 限 し,計 算 時 間 を 削 減 す る.語 彙 を 制 限 す る 際,学 習 に用 い る単 語 の 出 現 頻 度 を 用 い,高 頻 度 な 単 語 の み を 使 用 し,そ れ 以 外 の 単 語 で あ る低 頻 度 語 は語 彙 か ら外 れ る(Out‑Of‑‑Vocabulary;00V).こ 00Vは,ま と め て1つ の 特 殊 記 号"〈unk>"で 出 力 さ れ,意 味 を 持 た な い た め, 翻 訳 前 後 の 意 味 の 保 持 が で き な くな る.

'首 都 大 学 東 京 大 学 院 シ ス テ ム デ ザ イ ン研 究 科 情 報 通 信 シ ス テ ム 学 域 修 士 論 文 ,学 修 番号16890528, 2018年2月23日,

(6)

意 味 を 考 慮 しつ つOOVの 削 減 を 試 み た 研 究 と して,ト レ ー ニ ン グ コ ー パ ス の OOVを 高 頻 度 な 類 義 語 に 置 換 す る前 処 理 手 法 が あ る.こ の 手 法 は 出 力 文 の00V を減 少 させ る一 方,同 義 語 で な い類 義 語 に 置 換 す る こ とが あ り,意 味 が 異 な る 可 能 性 が あ る.ま た,こ の 手 法 で は トレー ニ ン グ コ ー パ ス に お い て,対 応 す る単 語 が 存 在 しな いOOVを 消 去 す るた め,翻 訳 前 後 で 内 容 の 損 失 が 発 生 す る.

そ こで,本 研 究 で は翻 訳 前 後 の 意 味 を保 持 しっ っ,OOVの 出 力 を 抑 制 す る前 処 理 手 法 を 提 案 す る.本 手 法 で は,ト レ ー ニ ン グ コー パ ス の うち,目 的 言 語 に お い て, 00Vと な る単 語 を高 頻 度 な 同 義 語 に あ らか じ め言 い換 え て か ら翻 訳 の学 習 を行 う.

提 案 手 法 で は,言 い 換 え の 際 に 同 義 語 の 言 い 換 え を収 録 して い る 言 い 換 え辞 書 を 使 用 し,00Vを 高 頻 度 語 に 言 い換 え る言 い 換 え 対 を 使 用 し言 い換 え ラ テ ィ ス を作 成 す る.言 い換 え の 際OOVが 全 てOOVに 言 いi換え られ る場 合,さ ら に言 い 換 え を 行 う こ とで 高 頻 度 語 へ の言 い換 え を 探 索 す る こ とが 可 能 で あ る.

言 い 換 え を選 択 す る 際,言 い換 え ラ テ ィ ス に 対 して 言 い換 え 辞 書 に 付 随 す る ス コ ア と言 語 モ デ ル ス コ ア を与 え,動 的 計 画 法 を用 い て 最 も高 い ス コ ア と な る言 い換 え を選 択 す る.2つ の ス コ ア を 組 み 合 わ せ る こ とで 言 い 換 え後 の 文 を 自然 に しっ っ 言 い換 え前 後 の 意 味 を保 持 す る こ とが で き る.し た が っ て,本 手 法 は 文 の 意 味 を変 化 させ る こ とな く出 力 のOOVを 削 減 す る こ とが で き る.本 研 究 で は,El英 翻 訳 で の 実 験 を行 い 評 価 す る.

本 論 文 の 主 要 な 貢 献 を 以 下 に示 す.

1,本 論 文 で はOOVを 考 慮 しつ つ,日 英 ニ ュ ー ラ ル 翻 訳 を 改 善…す る言 い 換 え に 基 づ く前 処 理 手 法 を提 案 し た.提 案 手 法 は言 い換 え辞 書 を用 い て ト レー ニ ン グ コ ー パ ス に存 在 す るOOVを 同 義 な 高 頻 度 語 へ と言 い 換 え る こ とが で き る た め,意 味 を変 化 させ ず に00Vを 削 減 す る こ とが 期 待 で き る.

2.提 案 す る手 法 が 従 来 手 法 と比 較 して 翻 訳 文 の 精 度 を 向 上 しつ つ00Vの 出 現 率 を減 少 させ た.言 い 換 え を 行 わ な い 手 法 と比 較 す る と,翻 訳 の 質 を 向上 し

っ っ 出 力 文 の00Vを 減 ら す こ とが で き た.ま た00Vを 類 義 語 に置i換す る 手 法 と比 べ て も,00Vを よ り多 く削 減 す る こ とが で き た.

3.単 語 の 完 全 一 致 だ け で は な く同 義 語 も 正 解 で あ る と考 慮 す る 評 価 尺 度 を 用 い る と,提 案 手 法 が よ り良 い翻 訳 を 出 力 して い る こ とが 明 ら か とな っ た.提

(7)

用 い る こ とで 提 案 手 法 が 意 味 を 考 慮 し た 前 処 理 手 法 で あ る こ とが 明 ら か と な っ た.

本 論 文 の 構 成 は 以 下 の 通 りで あ る.第1章 で は本 研 究 の概 要,貢 献 を述 べ る.第 2章 で は ニ ュ ー ラル 機 械 翻 訳 に お け る00Vの 解 決 を試 み た 関 連 研 究 に つ い て 述 べ

る.第3章 で は ト レ ー ニ ン グ コ ー パ ス を言 い 換 え る こ とで ニ ュ ー ラ ル 機 械 翻 訳 の OOVを 削 減 す る提 案 手 法 に つ い て 述 べ る.第4章 で は提 案 手 法 と比 較 手 法 を用 い

た 日 英 翻 訳 の 結 果 を 述 べ る.第5章 で は 実 験 結 果 に 基 づ き考 察 す る.最 後 に第6章 で は 本 研 究 の ま とめ 及 び 課 題 に つ い て 述 べ る.

(8)

ParaphrasingtheTargetLanguageCorpusto ImproveJapanese‑to‑EnglishNeuralMachine

Translation*

YukiSekizawa

Abstract

Recently,machinetranslationwhichtranslatesasentencetoanothersentence inotherlanguageisactivelyresearchedinnaturallanguageprocessing.Machine translationcantranslateasentenceautomaticallyandfast,Machinetranslation isanimportanttechniquesinceithelpspeoplecommunicatewitheachother usinganon‑nativelanguage.

Previously,statisticalmachinetranslation〔SMT)hasbeenmainlyresearched.

SMTtranslatessentencesaccordingtothescoreofautomaticallyextracted translationrules,However,SMThasaproblemthatthetranslatedsentences arenotfluent.

Ontheotherhand,neuralmachinetranslation(NMT)wasproposedfew

yearsago.NMTproducessentencesthataremorefluentthanthoseproduced bySMT.However,NMTrequiresaveryhighcomputationalcostfortraining.

SinceNMTcalculatessof七maxusingthevocabularysizeofoutput,itisnot realistictouseallofwords.Generally,NMTrestrictsthesizeofthevocabulary toreducethecomputationalcost.Whenrestrictingvocabulary,NMTuses onlyfrequentwordsaccordingtothefrequencyofwordsintrainingcorpus,

whichresultsininfrequentwordsbeingtreatedasout‑of.vocabulary(OOV).

Theinfrequentwordsareou七putwi七haspecialsymbol"<unk>,,anditdegrades theperformanceofthetranslatedsentence.

*Master,sThesis

,DepartエnentofInformationandCommunicationSystems,GraduateSchool

(9)

InordertoreduceOOVwhileconsideringmeaning,asimplebuteffective preprocessmethodwasproposed.ThismethodreducesOOVinoutputwith frequentsimilarwordsintrainingcorpuswhereasitmightreplaceOOVwords withsimilarbutnon‑synon.ymouswords.Inaddition,thismethoddeletesOOV wordsfromthetrainingcorpusiftheyalignedtonull,whichleadstoalossof SentenCemeaning.

Inthisresearch,IproposeapreprocessmethodtosuppressoutputtingOOV whilekeepingthesentencemeaning.Myme七hodthatparaphrasesinfrequent wordsorphrasesexpressedasOOVwithfrequentsynonymsfromthetranslated language〔targetlanguage)sideofthetrainingcorpusbefore七raining.Proposed

methodusesaparaphraselexiconrecordingofparaphrasingwithsynonymsand makesaparaphraselattice.Thismethodcansearchparaphrasingforfrequent wordsbyadditionalparaphrasingifaOOVparaphraseswithotherOOVwords.

Proposedmethodgivesparaphraselexiconscoreandlanguagemodelscoreto nodesandedgesforaparaphrasinglat七iceandchoosesmaximumscorepara‑

phrasesu.singdynamicprograming.Thismethodcankeepmeaningandbe flu.entfbrparaphrasedsentencesbecauseofcombinationofthesetwoscores.

Therefbre,thismethodcanreduceOOVinoutputwhilenotchangingsentence meaning,SinceIuseadatabasecollectingparaphrasesofsynonyrns,Ican reduceOOVinoutputkeepingthemeaning.Inthisresearch,Ievaluatemy rnethodwithJapanese‑to‑Englishtranslation.

Thecontributionsofthisthesisareasfollows.

1.Iproposeaparaphrasing‑basedpreprocessingmethodforJapanese‑to‑

EnglishNMTtoimprovetranslationaccuracywithregardtoOOVwords.

IexpecttoreduceOOVwhilekeepingsentencemeaningsincepropo8ed methodcanparaphra8eOOVintrainingcorpususingaparaphraselexi一 con,

2.ProposedmethodimprovestranslatedsentencesaccuracyreducingOOV comparedwi七hpreviousworks.Comparingwithnon‑paraphraseme七hod, proposedmethodreducesOOVinoutputandimprovesaccuracyoftrans一

(10)

lation.Also,comparingthepreviousmethodreplacingOOVwithasim.

ilarword,proposedmethodreducesmoreOOV.

3.Usinganevaluationmethodconsideringsynonyms,proposedmethod clearlyoutputsbettertranslation.

Thestructureofthisthesisisshownbelow.InSection1,Ishowtheabstract andcontributionofthisthesis.InSection2,Iexplainrelatedworksattempting 七〇reduceOOVinmachinetranslationandimprovemachinetranslationby

paraphrasingcorpora.InSection3,Ipresenttheproposedmethodreducing OOVofNMTbyparaphrasingthetrainingcorpus.InSection4,Idescribe theresultofJapanese‑to‑Eng正ishtranslationofrelatedmethodandproposed method.InSection5,Iconsideraccordingtotheresult.Finally,InSection6, Iconcludethisresearchwithfutureworks.

(11)

目次

図 目次 viii

第1章 は じめ に 1

第2章 2,1 22

関 連 研 究

ニ ュ ー ラ ル機 械 翻 訳 の00Vの 削 減 を 試 み る 関 連 研 究 機 械 翻 訳 の 前 処 理 と して コー パ ス を 書 き換 え る関 連 研 究

44ρ0

第3章 3.1 3.2

OOVを 同 義 語 に 言 い換 え る 提 案 手 法 言 い換 え ラ テ ィ ス の構 築.

言 い換 え の 選 択.

nΩ1

第4章 4.1 4.2

日英 翻 訳 実 験 実験 設 定..

実 験 結 果..

OR

第5章 考察 19

第6章 お わ り に 2工

謝辞 23

参考文献 24

発 表 リ ス ト 26

(12)

図 目次

2.1 Luongら の 手 法... 4

2.2 Sennrichら 法... 5

δ4

0000

言 い 換 え ラ テ ィ ス を 作 成 す るPythonの 実 装9

言 い 換 え ラ テ イ ス の 例..,..,,,..,...10 複 数 回 言 い 換 え の 例...,,..,...10

言 い 換 え を 選 択 す るPythonの 実 装..,..一 一..11

44

提 案 手 法 の 日英 翻 訳 のBLEUス コ ア 提 案 手 法 の 日英翻 訳 の00Vの 数..

...15 ...16

(13)

第1章 は じめ に

近 年,自 然 言 語 処 理 に お い て あ る言 語 の 文 を 異 な る 言 語 へ と機 械 が 自動 で 書 き換 え る,機 械 翻 訳 の 研 究 が 盛 ん に 行 な わ れ て い る.機 械 翻 訳 は あ る 言 語 で 書 か れ た 文 を 他 の 言 語 の 文 に 自動 か つ 高 速 に翻 訳 す る こ とが で き る.機 械 翻 訳 は,使 用 者 が 言 語 の 知 識 を持 た ず と も文 を 自動 で 翻 訳 で き る こ とか ら重 要 な技 術 で あ る と言 え る.

従 来 の機 械 翻 訳 は,翻 訳 前 の 言 語(原 言 語)の 句 に 対 して 翻 訳 後 の 言 語(目 的 言 語)の 旬 が 与 え ら れ て い る統 計 的機 械 翻 訳 が 高 精 度 で あ っ た.統 計 的 機 械 翻 訳 は フ レー ズ 翻 訳 の ス コ アや 言 語 モ デ ル ス コ ア な どの 様 々 な ス コ ア を学 習 し,こ れ ら の ス コ ア を組 み 合 わ せ た結 果 最 も適 した 翻 訳 規 則 を適 用 す る こ とで 文 を翻 訳 す る.し か し,翻 訳 さ れ た 文 は流 暢 性 に 欠 けて お り,人 間 が 読 む に は不 自然 な 文 が 多 い とい う 課 題 が 存 在 す る.

一 方,自 然 言 語 処 理 に お け る 多 くの タ ス ク に お い て ニ ュ ー ラ ル ネ ッ トワ ー ク に 基 づ く手 法 が 大 き な 成 果 を 上 げて い る.機 械 翻 訳 の 分 野 で は,従 来 研 究 さ れ て き た 統 計 的 機 械 翻 訳 と比 較 して よ り 自然 な 文 を 出 力 で き る とい う利 点 か ら,ニ ュ ー ラル 機 械 翻 訳 国 が 盛 ん に研 究 さ れ て い る.ニ ュ ー ラ ル 機 械 翻 訳 は翻 訳 文 を 出 力 す る た め に 単 語 を1つ ず つ 生 成 す る.し か し,ニ ュ ー ラ ル 機 械 翻 訳 は 語 彙 次 元 の 分 類 問 題 を 順 番 に 解 い て い く生 成 タ ス クで あ り,出 力 層 が 高 次 元 と な る.ニ ュ ー一ラル 機 械 翻 訳 はsoftmaxを 出 力 の 語 彙 サ イ ズ で 取 る た め 計 算 量 が 多 い とい う課 題 が あ る.そ の た め,ニ ュ ー ラ ル 機 械 翻 訳 で は 通 常,使 用 す る 語 彙 を 制 限 し,計 算 時 間 を 削 減 す

る.語 彙 を制 限 す る際 学 習 に用 い る単 語 の 出 現 頻 度 を 用 い,高 頻 度 な 単 語 の み を 使 用 し,そ れ 以 外 の 単 語 で あ る 低 頻 度 語 は 語 彙 か ら外 れ る(Out‑Of‑Vocabulary;

OOV).こ の00Vは,ま とめ て1つ の 特 殊 記 号"<unk>"で 出 力 さ れ,意 味 を 持 た な い た め,翻 訳 前 後 の 意 味 の 保 持 が で き な くな る.

ニ ュ ー ラ ル機 械 翻 訳 のOOVの 削 減 を試 み る先 行 研 究 と して,Miら[2]は トレ ー一 ニ ン グ に 使 用 す る 語 彙 を 文 ご と に 選 択 す る こ とで,ト レ ー ニ ン グ の 計 算 量 を滅 少 させ,全 体 の 語 彙 を 拡 張 した.し か し,こ の 手 法 で は翻 訳 の トレー ニ ン グ 方 法 を変 更 す る必 要 が あ る.Luongら[3]は00Vと の 対 応 関 係 に あ る原 言 語 の 単 語 を 翻 訳 辞 書 を用 い て 直 接 翻 訳 す る後 処 理 を提 案 した,こ の 手 法 で は,ト レー ニ ン グ デ ー タ

を用 い て 原 言 語 と 目 的 言 語 の 単 語 ア ラ イ メ ン トを 取 る 必 要 が あ る.Jeanら[4]は

(14)

00Vを そ の 単 語 が 持 つattentionが 最 も大 き い 原 言 語 の 単 語 を翻 訳 辞 書 に よ っ て 翻 訳 す る後 処 理 手 法 を 提 案 した.こ の 手 法 は 単 語 ア ラ イ メ ン トを 必 要 と しな い 一 方,1ヨ 的 言 語 で の 意 味 を考 慮 で きて い な い.さ ら に,Sennrichら[5]は,系 列 に対 す る デ ー タ圧 縮 手 法 で あ るBytePairEncoding(BPE)を 文 字 列 に適 用 し,単 語 を 頻 出 す る部 分 文 字 列 の 系 列 に分 解 して 学 習 す る こ とで00Vを 削減 した.こ の 手 法 で は,意 味 を 考 慮 せ ず に 単 語 を 部 分 文 字 列 に分 解 す る.

一 方,我 々 の 手 法 の よ う に機 械 翻 訳 の 前 処 理 段 階 に お い て コ ー パ ス を 言 いi換え, 原 言 語 お よ び/あ る い は 目的 言 語 の 文 の 複 雑 さ を減 少 させ る手 法 が 存 在 す る.Sanja

ら[6]は 機 械 翻 訳 の 前 処 理 と して 原 言 語 文 の 語 彙 を簡 単 な 文 法 を用 い て 言 い 換 え た.

本 研 究 で は 入 力 文 を簡 単 にせ ず,出 力 文 のOOVを 割 合 を 減 少 させ る こ とで 翻 訳 の 質 の 向 上 を 試 み る.さ ら に,Liら[7]は 前 処 理 の 段 階 で トレ ー ニ ン グ コ ー パ ス や 入 力 文 の00Vを 使 用 す る 語 彙 に含 まれ る類 義 語 に 置 換 す る手 法 を提 案 した.彼 ら は 00Vを 高 頻 度 語 に 置 換 す る際,単 語 同士 の 類 似 度 や,i換 後 の 文 が 自然 で あ る か を判 断 す る た め に 言 語 モ デ ル を使 用 した.単 語 の 意 味 が 似 て い る か ど うか を判 定 す る た め に,彼 ら は似 た 意 味 の 単 語 は そ の 文 脈 も似 て い る と い う分 布 仮 説 に基 づ い た 分 散 表 現 を 用 い て コ サ イ ン類 似 度 を 計 算 した.ま た,彼 ら は ト レー ニ ン グ コ ー パ ス

に お い て00Vの 単 語 に 対 応 す る 異 な る言 語 の 単 語 の ア ラ イ メ ン トを用 い,OOV が ど の 単 語 に も対 応 し て い な い 場 合 そ の 単 語 を 削 除 した.し か し,00Vの 削 除 は 文 の 意 味 の 損 失 に つ な が り,翻 訳 後 の 文 の 情 報 が 欠 落 す る.加 え て,彼 ら は分 布 類 似 度 を用 い る た めOOVを 同 義 で な い類 義 語 に 置 換 す る 可 能 性 が あ る.例 え ば,彼

ら は"surfing"を"snowboard"に 置i換す る た め,"internetsurfing"を"interne七 snowboard"と 書 き換 え て し ま う た め 意 味 の 変 化 が 発 生 す る.本 研 究 で は分 布 類 似 度 で は な く あ らか じ め 計 算 さ れ た 言 い 換 え ス コ ア を 用 い る.そ の た め,本 手 法 で

は00Vの 不 適 切 な 表 現 へ の 言 い 換 え を抑 制 で き る.前 述 の 例 で は,"surfing"を

"browser"へ と言 い換 え る た め 元 の 意 味 を あ る程 度 残 す こ とが で き る.

本 研 究 で は,翻 訳 前 後 の 意 味 を保 持 しつ つ,OOVの 出 力 を 抑 制 す る 前 処 理 手 法 を 提 案 す る.本 手 法 で は,ト レ ー ニ ン グ コ ー パ ス の うち,目 的 言 語 に お い て,00V とな る 単 語 を 高 頻 度 な 同 義 語 に あ らか じ め 言 い 換 え て か ら翻 訳 の 学 習 を 行 う.提 案 手 法 で は,言 い 換 え の 際 に 同 義 語 の 言 い 換 え を収 録 し て い る 言 い 換 え辞 書 を 使 用 し,00Vを 高 頻 度 語 に 言 い 換 え る言 い換 え対 を使 用 し言 い 換 え ラ テ ィ ス を作 成 す

(15)

る.言 い 換 え の 際00Vが 全 て00Vに 言 いi換え られ る場 合,さ ら に 言 い 換 え を 行 う こ とで 高 頻 度 語 へ の 言 い換 え を探 索 す る こ とが 可 能 で あ る.

言 い 換 え を選 択 す る 際,言 い換 え ラ テ ィス に 対 して 言 い換 え 辞 書 に 付 随 す る ス コ ア と言 語 モ デ ル ス コ ア を 与 え,動 的 計 画 法 を 用 い て 最 も高 い ス コ ア と な る言 い換 え を 選 択 す る.2つ の ス コ ア を組 み 合 わせ る こ とで 言 い換 え後 の 文 を 自 然 に しつ つ 言 い換 え 前 後 の 意 味 を保 持 す る こ とが で き る,し た が っ て,本 手 法 は文 の 意 味 を 変 化 さ せ る こ とな く出 力 の00Vを 削 減 す る こ とが で き る.本 研 究 で は,日 英 翻 訳 で の 実 験 を 行 い 評 価 す る.

本 論 文 の 主 要 な 貢 献 を 以 下 に示 す.

1.本 論 文 で はOOVを 考 慮 しつ つ,日 英 ニ ュ ー ラ ル翻 訳 を改 善 す る言 い換 え に 基 づ く前 処 理 手 法 を 提 案 した.提 案 手 法 は 言 い 換 え辞 書 を 用 い て ト レー ニ ン グ コー パ ス に 存 在 す る00Vを 同 義 な 高 頻 度 語 へ と言 い換 え る こ とが で き る た め,意 味 を 変 化 させ ず にOOVを 削 減 す る こ とが 期 待 で き る.

2.提 案 す る手 法 が 従 来 手 法 と比 較 して 翻 訳 文 の 精 度 を 向 上 しっ っOOVの 出 現 率 を 減 少 さ せ た.言 いi換え を 行 わ な い 手 法 と比 較 す る と,翻 訳 の 質 を 向 上 し っ っ 出 力 文 のOOVを 減 ら す こ とが で き た.ま た00Vを 類 義 語 に置 換 す る 手 法 と比 べ て も,OOVを よ り多 く削 減 す る こ とが で き た,

3.単 語 の 完 全 一 致 だ け で は な く同 義 語 も正 解 で あ る と考 慮 す る評 価 尺 度 を用 い る と,提 案 手 法 が よ り良 い 翻 訳 を 出 力 して い る こ とが 明 らか と な っ た.提 案 手 法 は00Vの 単 語 に 対 して そ の 同 義 語 を 出 力 す るた め,こ の 評 価 尺 度 を 用 い る こ とで 提 案 手 法 が 意 味 を 考 慮 し た 前 処 理 手 法 で あ る こ とが 明 らか と

な っ た.

本 論 文 の構 成 は 以 下 の 通 りで あ る.第1章 で は本 研 究 の 概 要,貢 献 を述 べ る.第 2章 で は ニ ュー ラ ル 機 械 翻 訳 に お け るOOVの 解 決 を 試 み た 関 連 研 究 につ い て 述 べ る.第3章 で は ト レ ー ニ ン グ コ ー パ ス を 言 い換 え る こ とで ニ ュ ー一ラ ル 機 械 翻 訳 の OOVを 削 減 す る提 案 手 法 に つ い て 述 べ る.第4章 で は提 案 手 法 と比 較 手 法 を 用 い た 日英 翻 訳 の 結 果 を 述 べ る.第5章 で は 実 験 結 果 か ら考 え られ る考 察 を 述 べ る.最 後 に第6章 で は 本 研 究 の ま とめ 及 び 課 題 に つ い て 述 べ る.

(16)

補 修 時 間 短 縮 た 。

the<unk .一一1>repairhourwasshortened.

図2.1L・uongら の 手 法

第2章 関連研 究

この 章 で は,ニ ュ ー ラ ル機 械 翻 訳 のOOVの 削減 を 試 み る 関 連 研 究 や 機 械 翻 訳 の 前 処 理 と して コ ー パ ス を 言 い 換 え る関 連 研 究 に つ い て 述 べ る.

2.1ニ ュー ラル 機 械翻 訳 の00Vの 削減 を試 み る関連研 究

ニ ュ ー ラル 機 械 翻 訳 の ト レー ニ ン グ 方 法 の 変 更 に よ っ て00Vの 削 減 を試 み,翻 訳 の精 度 を 向 上 させ る先 行 研 究 が 存 在 す る.Jeanら[8]は,ト レ ー ニ ン グ に お い て 対 訳 コー パ ス を 分 割 し,分 割 され た 対 訳 コ ー パ ス を用 い た トレ ー ニ ン グ に お い て, 使 用 す る語 彙 を 目 的 言 語 側 の 語 彙 か らサ ン プ リ ン グ し,得 られ た 一 部 分 の 語 彙 を 用 い て トレー ニ ン グ を 行 う こ とで トレ ー ニ ン グ の 計 算 量 を減 少 させ,全 体 の 語 彙 を広 く取 る こ とでoovの 削 減 を 試 み た.Miら[2]は トレ ー ニ ン グ に使 用 す る 語 彙 を 文 ご とに 選 択 す る こ とで,ト レ ー ニ ン グ の 計 算 量 を減 少 さ せ,全 体 の 語 彙 を拡 張 し た.Luongら[9]は 文 字 ベ ー ス の 学 習 に よ っ てOOVを 減 少 させ た.こ れ ら の 手 法

は ト レー ニ ン グ方 法 を 変 更 す る必 要 が あ る.本 研 究 で は,ト レ ー ニ ン グ 方 法 を 変 更 せ ず,ト レー ニ ン グ デ ー タ に お け る 目的 言 語 の 語 彙 的 言 い 換 え に よ っ て 前 処 理 の み で 翻 訳 結 果 の00Vを 削 減 す る.

一 方,ニ ュ ー ラ ル 機 械 翻 訳 の トレ ー ニ ン グ方 法 は 変 更 せ ず にOOVの 削 減 を試 み る研 究 も存 在 す る.Luongら[3]は00Vと の 対 応 関 係 に あ る原 言 語 の 単 語 を翻 訳 辞 書 を 用 い て 直 接 翻 訳 す る後 処 理 を提 案 した.00Vを 後 処 理 に よ っ て 翻 訳 す る た め に は00Vが 原 言 語 側 の 文 の どの 単 語 に 対 応 して い るか を 出 力 す る必 要 が あ る.

そ の た め,Luongら は00Vを 出 力 す る際,00Vに 対 応 す る原 言 語 側 の 単 語 との

(17)

初 め に,ク リ ニ カ ル パ ス の メ リ ッ ト お よ び デ@@メ リ ッ ト に つ い て 述 べ た 。

meritandde@@meritoftheclinicalpassaredescribed.

図2,2Se且nエichら の 手 法

相 対 距 離 を 出 力 す る トレ ー ニ ン グ を行 う こ とに よ っ て 直 接 翻 訳 を 可 能 と した.対 応 関 係 を 利 用 す る例 を 図2.1に 示 す.こ の 例 で は原 言 語 側 の0番 目 の 単 語"樋"に 応 す る 目 的 言 語 側 の1番 目 の 単 語 が00Vで あ る.OOVは 対 応 す る 原 言 語 の 単 語 よ り も1単 語 だ け 後 ろ に存 在 す るの で,相 対 距 離1を 出 力 す る こ とで 単 語 対 応 を獲 得 す る.こ の 手 法 で は,ト レ ー一ニ ン グ デ ー タ を用 い て 原 言 語 と 目 的 言 語 の 単 語 ア ラ

イ メ ン トを取 る必 要 が あ る.

Jeanら[4ユ は00Vを そ の 単 語 が 持 つ ア テ ン シ ョ ンの 確 率 が 最 も大 き い 原 言 語 の 単 語 を翻 訳 辞 書 に よ っ て 翻 訳 す る後 処 理 手 法 を提 案 した.ニ ュ ー ラ ル 機 械 翻 訳 で は 単 語 を 出 力 す る際 入 力 文 の どの 単 語 へ と注 目 す るか(ア テ ン シ ョ ン)と い う情 報 を 用 い る.そ の ア テ ン シ ョ ンの 確 率 が 最 も高 い 入 力 単 語 を 対 応 して い る 単 語 で あ る とみ な し,L,uongら と同 様 に翻 訳 辞 書 を 用 い て 直 接 翻 訳 す る.こ の 手 法 は 単 語 ア ラ イ メ ン トを必 要 と しな い 一 方,目 的 言 語 で の 意 味 を 考 慮 で き て い な い.

さ ら に,Sennrichら[5]は,系 列 に 対 す る デ ー タ 圧 縮 手 法 で あ るBytePair Encoding(BPE)を 文 字 列 に 適 用 し,単 語 を 頻 出 す る 部 分 文 字 列 の 系 列 に 分 解 し て 学 習 す る こ とで00Vを 削 減 した.こ の 手 法 で は部 分 文 字 列 単 位 で の 翻 訳 を 行 い 単 語 に す る た め に 部 分 文 字 列 を 結 合 す る.図2.2はBPEを 用 い た 分 割 例 で あ る.

"◎◎"は 本 来 結 合 さ れ て 単 語 に な る部 分 を 表 して い る

.日 本 語 側 で はOOVで あ る

"デ メ リ ッ ト"がccデ"と̀̀メ リ ッ ト"と い う2っ の 高 頻 度 な 部 分 文 字 列 に 分 割 さ れ , 英 語 側 に お い て も 同様 に̀̀demerit"が"de"と"merit"に 分 割 され る.翻 訳 後 に お い て"◎ ◎"が そ の 後 に 続 く部 分 文 字 列 と結 合 され る こ とで1っ の 単 語 を 生 成 す る た め,こ の例 で は00V"demerit"を 出 力 す る.

この 手 法 は,頻 度 に 基 づ い た 部 分 文 字 列 へ の 分 割 を 行 う貧 欲 な ア ル ゴ リズ ム で あ る.そ の た め,意 味 を 考 慮 せ ず に単 語 を 部 分 文 字 列 に 分 解 す る.例 え ば,日 本 語 で のOOV・ ガ リ"は"ガ"と"リ"に 分 け られ るが,こ の2つ の 文 字 そ れ ぞ れ は 意 味

を 持 っ て い な い.そ の た め,翻 訳 結 果 で は"g"と"asses"が 出 力 され̀̀gasses"(ガ

(18)

ス)と な るた め,翻 訳 前 後 で 意 味 が 変 化 す る.ま た,結 合 に よ っ て 生 成 さ れ る単 語 は 実 際 に は存 在 しな い 単 語 で あ る 可 能 性 が あ る.日 本 語 の 例 で は"ピ ◎◎ ピ ◎◎ ネ

◎◎ メ チ ル ◎◎ア ミ ン"と い う出 力 か ら"ピ ピ ネ メ チ ル ア ミ ン"と い う単 語 が 生 成 さ れ るが こ の 単 語 は 存 在 しな い.こ の 現 象 は 生 成 され た 単 語 が 実 際 に 存 在 す る か ど う か が わ か ら な い た め に 起 こ り,そ れ を確 か め る た め に は 人 間 が 確 認 を行 う必 要 が あ る.本 研 究 で は 単 語 の 生 成 は 行 わ な い た め,出 力 さ れ る単 語 は す べ て 存 在 す る単 語 で あ る.

2,2機 械 翻訳 の前 処 理 と して コーパ ス を書 き換 え る関連 研 究

本 研 究 の よ う に機 械 翻 訳 の 前 処 理 段 階 に お い て コー パ ス を 言 い 換 え,原 言 語 お よ び/あ る い は 目 的 言 語 の 文 の 複 雑 さ を減 少 させ る手 法 が 存 在 す る.§tajnerら[6]は 機 械 翻 訳 の 前 処 理 と して 入 力 文 の 語 藁 と文 法 を平 易 に す る テ キ ス ト平 易 化 を適 用 し た.本 研 究 で は,入 力 文 の テ キ ス ト平 易 化 を用 い ず,語 彙 の 言 い 換 え の み を用 い て OOVの 削 減 を試 み る.

さ ら に,Liら[7]は 前 処 理 の 段 階 で ト レー ニ ン グ コ ーパ ス や 入 力 文 のOOVを 使 用 す る語 彙 に 含 ま れ る類 義 語 に置 換 す る手 法 を 提 案 した.彼 らはOOVを 高 頻 度 語 に置 換 す る際,単 語 同 士 の 類 似 度 や,置 換 後 の 文 が 自然 で あ る か を 判 断 す る た め に 言 語 モ デ ル を使 用 した.言 語 モ デ ル は 文 が どれ ほ ど 自然 で あ る か を 判 定 す る モ デ ル で あ り,大 規 模 な コ ー パ ス か ら作 成 され る.文 の ス コ ア は一 定 区 間 の 単 語 列 が コ ー パ ス 中 で どれ ほ どの 頻 度 で あ る か に基 づ くた め,文 法 が 間 違 っ て い る よ う な コー パ ス 中 に存 在 し に くい単 語 列 の 場 合 は 不 自然 と判 断 さ れ る.単 語 の 意 味 が 似 て い る か ど うか を判 定 す るた め に,彼 らは 似 た 意 味 の 単 語 は そ の 文 脈 も似 て い る と い う分 布 仮 説 に基 づ い た 分 散 表 現 を用 い て コサ イ ン類 似 度 を 計 算 した.ま た,彼 ら は トレ ー ニ ン グ コ ー パ ス に お い て00Vの 単 語 に 対 応 す る 原 言 語,あ る い は 目 的 言 語 の 単 語 ア ラ イ メ ン トを用 い,00Vが どの 単 語 に も対 応 して い な い 場 合 そ の 単 語 を 削 除

した.

しか し,00Vの 削 除 は 文 の 意 味 の損 失 に つ な が り,翻 訳 後 の 文 の 情 報 が 欠 落 す る.加 え て,彼 ら は コ サ イ ン 類 似 度 を 用 い る た め00Vを 同 義 で な い 類 義 語 に 置 換 す る 可 能 性 が あ る.例 え ば,彼 らは"surfiエ1g"を"8nowboard"に 置i換す るた め,

(19)

̀̀internetsurfing"を"internetsnowboard"と 書 き 換 え て し ま う た め 意 味 の 変 化 が 発 生 す る.本 研 究 で は 分 布 類 似 度 で は な く,言 い 換 え そ れ ぞ れ に 登 録 さ れ て い る 言 い 換 え 辞 書 の ス コ ア を 用 い る.そ の た め,本 手 法 で はOOVの 不 適 切 な 表 現 へ の 言 い 換 え を 抑 制 で き る.前 述 の 例 で は,言 い 換 え 辞 書 に 登 録 さ れ て い る 言 い 換 え に よ っ て,"surfing"を"browser"へ と 言 い 換 え る た め 元 の 意 味 を あ る 程 度 残 す こ と が で き る.

(20)

第3章00Vを 同義語 に言 い換 える提案 手法

本 研 究 で は,元 の 文 の 意 味 を保 持 しつ つ ニ ュ ー ラル 機 械 翻 訳 のOOVを 減 らす た め に,ト レ ー ニ ン グ デ ー タ の 目的 言 語 文 に 存 在 す る00Vを 高 頻 度 語 に言 いi換え て か ら翻 訳 す る手 法 を 提 案 す る.我 々 は 言 い換 え 対 お よ び 言 いi換え ス コ ア が 登 録 され て い る言 い換 え辞 書 を用 い て00Vを 高 頻 度 語 に言 い 換 え る.我 々 は3つ の ス コ ア を使 用 す る:(1)言 い 換 え 辞 書 ス コ ア,〔2)言 語 モ デ ル ス コ ア,〔3)こ れ ら の ス コ ア を結 合 した ス コ ア.言 い 換 え 辞 書 ス コ ア は翻 訳 前 後 の 意 味 の 保 持 を考 慮 し,言 語 モ デ ル ス コ ア は文 の 自然 さ を考 慮 す る.我 々 は言 い換 え ス コ ア と言 語 モ デ ル ス コ ア を 以 下 の よ うに 線 形 補 間 に よ っ て 結 合 す る:*

言 い換 え ス コア ニ

λ〔言 い換 え 辞 書 ス コ ア)+(1一 λ)(言語 モ デ ル ス コ ア)

(3.01)

3.1言 い換 え ラ テ ィ ス の 構 築

言 い 換 え ラ テ ィ ス を 作 成 す るPythonの 実 装 を 図3.1に 示 す.言 い 換 え の 際, OOVを 高 頻 度 語 に 言 いi換 え る 辞 書(OOV2in‑vocabulary)と00VをOOVに い 換 え る 辞 書(00V200V)を 用 い る.言 い 換 え の 対 象 と な る 区 間 を 指 定 し,高 度 語 へ の 言 い 換 え が あ る 場 合 に 言 い 換 え ス コ ア を 計 算 し も っ と高 い ス コ ア で あ る 時 にbest ̲scoreに そ の ス コ ア を,bes七̲edgeに そ の 言 い 換 え を 区 間begin2endの 情 報 と と も に 記 録 す る.

図3.2は 言 い 換 え ラ テ イ ス の 例 で あ る.原 文̀̀theyassertdefendingtherights7' に お い て,"defending"がOOVで あ る."defending"は 高 頻 度 語 で あ る"guaran‑

teeing"へ の 言 い 換 え が 可 能 で あ り,"defendingtherights"は 全 て 高 頻 度 語 で あ る c̀theprotectionoftherights"へ の 言 い 換 え が 可 能 で あ る

.こ の 例 で は,"asser七 guaranteeing七herights2'の2‑gram言 語 モ デ ル 確 率,"assertthe","rights‑7' の2‑gram言 語 モ デ ル 確 率 を 計 算 す る.こ の 手 法 で は フ レ ー ズ の 言 い 換 え の 際

フ レ ー ズ 外 の 言 語 モ デ ル 確 率 は 計 算 す る が,フ レ ー ズ 内 の 言 語 モ デ ル 確 率 は 計

(21)

defmake̲lattice(listsent{∋n¢{…,dictionaryOOV2in‑vecabulary,diction且ryphrase2score):

rrT,昨

5entenceis乱li5tofwords:[Wl,w2,…,w1、

00V2in‑voc且bularyparaphrasesphrases【oin一 Ψoc且bul且ryphrases PhraseZscoregivesPPDBsce祀

".「..

n‑length〔sentence) best̲seore=diction且ry{}

best̲scere=di{=tion且ry{}

end2phrase呂=d1ctionary{}

end2phr乱ses[O]="BOS"

fOfbegininrange(o,n}:

for¢ndinrang¢(begin+1,n+1)=

ori呂ina1̲phrase=sentence[begin:end]

phrases=・sentence[b{唱inlend]

while(1):

par乱phr且ses;li5tO foτphraseinphア 且ses=

paraphrases.append(oovzin・vocabulary[phrase]) ifparaphrasesE…xist:

forparaphras{:inp且raphrases:

fbrbefore̲phraseinend2phrases[begin‑1]

m=len呂th(paraphrase)

PPDB̲scere=phrase2scere[paraphr且se]#PPDB=ParaPhraseDataBase

LM ̲score=2・gram(wbesi。‑s,p且raphr且se1)+2‑grarn(paraphrase。,w。"d‑))#LM:L且n呂ua呂eModel

score=best̲s。o祀[str(begin‑1)+"m"+before̲phr乱se]+λ 串PPDB̲sco爬+(1一 λ).LM̲score

ifscoreisthebes::

begin2phrase‑str(end)+"111"+paraphrase b¢st̲scor已[be呂in2phrase】=score

besr̲edge[begin2phras{}]昌str(begin・1)+"III"+before̲phrase end2w。rds[end].且ppend(par且phrases>

break else:

00V ‑P且 τ且phr且ses‑get‑OOV200V(phrases) ifOOV̲p乱raphras巳sexist:

phrases=00V̲paraphrases else:

bre且k

retumbest‑ed呂

図3.1 言 い 換 え ラテ ィ ス を 作 成 す るPythonの 実 装

(22)

theyassert therihts

theprotectionoftherights

図3.2言 い換 え ラ テ ィ ス の 例

original=thepedago9ロeshadqロaπe151、

paraphrase,firstround:theeducatorshaddiscussions.

paraphrase,secondround=theteachershaddiscussions.

図3.3複 数 回 言 い 換 え の例

算 し な い.入 力 文 をX(Xo,Xl,̲,Xm),低 頻 度 語 を:Ci,,言 い 換 え ら れ る 高 頻 度 な1つ の フ レ ー ズ をP(Pl,p2,一.,Pn)と す る と,言 語 モ デ ル ス コ ア が 計 算 さ れ る の は,2‑gram瞬̲1,Pl)お よ び2‑gram(P7、,xi+1)で あ る.図3.2の 例 で は

"assertguaranteeing"や"assertthe"な ど の 言 語 モ デ ル 確 率 を 計 算 し

,フ レ ー ズ

"theprotectionoftherights"の 言 語 モ デ ル 確 率 は 計 算 し な い †

.ま た,動 名 詞 句

"defendingtherights"に 対 し て の 言 い 換 え"theprotectionoftherights"は 名 詞 句 で あ り,文 法 上 の 変 化 が あ る が 文 法 は 考 慮 し な い.

さ ら に,我 々 の 手 法 はOOVを 高 頻 度 語 に な る ま で 繰 り返 し 言 い 換 え る こ と が で き る.複 数 回 言 い 換 え の 例 を 図3.3に 示 す.図3.3の 言 い 換 え 例 で は"pedagogues"

及 び"quarrels"がOOVで あ る.原 文 の00V"quarrels"は1回 目 の 言 い 換 え で 高 頻 度 語"discussions"へ と 言 い 換 え ら れ る.一 方,OOV"pedagogues"は1回

の 言 いi換 え でOOV"educators"へ と 言 いi換 え ら れ る.我 々 は さ ら に"educators"

を 言 い 換 え る こ とが 可 能 で あ り,2回1ヨ の 言 いi換 え で 高 頻 度 語"teachers"へ と 言 い 換 え ら れ る.OOV̀̀pedagogues"は 言 い 換 え を1度 の み 行 う 場 合,"teachers"へ

は 言 い 換 え ら れ な い.な ぜ な ら,言 い 換 え 辞 書 に は"pedagogues"を"teachers"へ

(23)

defselect」̲paraphrase(dictionarybest̲edge,intsentence̲length)=

words=listO

current‑index‑sentence‑length

next̲edge冨best̲edge[str(current」ndex>+ttlll"+"EOS"]

while(current̲index)>O:

current̲word=next̲edge.split(̀̀」Il")[1]

words,append(current̲word)

next̲edge=best̲edge[next̲edgeユ

current̲index=・next̲edge.split(血lIl")[0]

reversewords

returnwords

図3.4言 い 換 え を 選 択 す るPythonの 実 装

と言 い換 え る登 録 が な い た め で あ る.

複 数 回 の 言 い 換 え の 場 合 も 図32の よ う な 言 い 換 え ラ テ ィ ス を 作 成 す る.ま 最 初 に 言 い換 え辞 書 に登 録 さ れ て い る 言 い 換 え す べ て を 用 い て ラ テ ィ ス を 作 成 し, 00Vで な い 高 頻 度 語 が 存 在 す る場 合 に そ の 中 か ら ス コ ア 最 大 の 言 い換 え を 選 択 す る.一 方,言 い換 え す べ て がOOVの 場 合 は00Vそ れ ぞ れ に 対 して さ ら な る言 い 換 え を 行 い,2回 目 の 言 い 換 え を 生 成 す る.さ ら な る言 いi喚え に よ っ てOOVで い 単 語 が 出 現 した 場 合 は ス コ ア に 基 づ い て 言 い 換 え を 選 択 し,00Vの み の 場 合 は 再 び 言 い換 え を 行 う.こ の 言 い 換 え は00Vで な い 高 頻 度 語 へ の 言 い 換 え が 行 わ れ る ま で 実 行 さ れ,高 頻 度 語 へ の 言 い換 え が 行 わ れ ず に他 の00Vへ の 言 い 換 え が で き な くな る ま で 実 行 さ れ た 場 合 は 原 文 の 単 語 の ま ま に す る.こ れ は言 い換 え に よ っ て 意 味 が わ ず か に 変 化 す る た め,OOVか ら00Vへ の 言 い換 え は 出 力 の00Vを 削 減 で きず に文 の 意 味 を 変 化 さ せ るだ け とな るか らで あ る.

3.2言 い 換 え の 選 択

言 いi換え ラ テ ィ ス か ら言 い 換 え を 選 択 す るPythonの 実 装 を 図3,4に 示 す.前 節 で 作 成 した ラ テ ィス を用 い て 最 も ス コ ア が 高 くな る 言 い 換 え を 選 択 し言 い換 え 後 の 文 を 作 成 す る.ま ず,そ れ ぞ れ の 言 い 換 え 候 補 に お い て,最 も高 い ス コ ア とな る経 路 と そ の ス コ ア を 動 的 計 画 法 に よ っ て 先 頭 か ら計 算 す る.そ の 後,文 末 ま で の 経 路

(24)

を 作 成 し最 も 高 い ス コ ア の 言 い 換 え を 文 末 か ら た ど る こ と で 最 も ス コ ア が 高 く な る 言 いi換 え を 選 択 す る.図3.2の 例 で は,"theyasserttheprotectionoftherightsS'

が 生 成 さ れ る.

(25)

第4章 日英 翻 訳 実」

4.1実 験 設 定

本 研 究 で は,ア ジ ア 学 術 論 文 抜 粋 コ ー パ ス(ASPEC)[10]日 英 対 訳 デ ー タ を 使 用 し た.ト レ ー ニ ン グ に は ア ラ イ メ ン ト確 度 に よ っ て 分 割 さ れ て い る ト レ ー ニ ン グ コ ー一パ ス か ら 最 も 高 い 文100万 文 す べ て を 採 用 し,そ の う ち,文 長40単 語 以 下 の 文827,503文 対 を 使 用 し,チ ュ ー ニ ン グ に は1,790文 対 す べ て を,テ ス ト に は 1,812文 対 す べ て を 使 用 し た.こ れ ら の 文 対 は す べ て 重 複 し て い な い.開 発 デ ー タ セ ッ ト を 用 い て 最 も 精 度 の 高 い モ デ ル を 選 択 し,そ の モ デ ル に よ っ て テ ス ト デ ー タ セ ッ ト を 翻 訳 し 評 価 し た.コ ー パ ス の 単 語 分 割 の た め に,日 本 語 で はMeCab[11]

(IPAdic)を,英 語 で はMoses[12]に 付 随 す る ス ク リ プ トを 使 用 し た.言 語 モ デ ル に はKenLM*を 用 い て,ASPECの 文 全 て を 使 用 し2‑gram言 語 モ デ ル を 構 築 し た.単 語 ア ラ イ メ ン トの 獲i得 に はGIZA++† を 使 用 し た.言 い 換 え 辞 書 に は 英 語 で はPPDB2.0[13]の 最 大 サ イ ズXXX‑L‡ を,日 本 語 で はPPDB:Japanese[14]

を 使 用 し た.こ れ ら の 辞 書 はASPECの 内 容 を 含 ま ず に 構 築 さ れ た も の で あ る.

PPDB2.0は 様 々 な 分 野 の コ ー パ ス か ら 作 成 さ れ て い る 一 方,翻 訳 に 使 用 し て い る ASPECコ ー パ ス は 科 学 技 術 論 文 の 内 容 の み で あ る た め,言 い 換 え 辞 書 が コ ー パ ス に 適 応 し て い な い と 考 え ら れ る.ASPECコ ー パ ス と 同 じ 分 野 の 言 い 換 え 辞 書 を 作 成 す る た め,PPDBをASPECコ ー パ ス で 作 成 し た.作 成 す る 際 公 開 さ れ て い る コ ー一 ド§を 使 用 し,閾 値 をO.Olと し た.本 実 験 で は ト レ ー ニ ン グ コ ー パ ス の 原 言 語 側,目 的 言 語 側 の ど ち ら か,あ る い は 両 方 を 言 い 換 え た.原 言 語 側 の 言 い 換 え を 行 っ た 場 合,チ ュ ー ニ ン グ,テ ス トの 文 も 言 い 換 え た.言 い 換 え ス コ ア の 計 算 に 用 い る 線 形 補 間 係 数 は λ=e.O,025,0.50,0.75,1.0と し た.

ニ ュ ー ラ ル 機 械 翻 訳 は,OpenNMT[15]を 用 い た.モ デ ル 構 築 の た め の パ ラ メ ー一 タ は 以 下 の 通 り で あ る.双 方 向 リ カ レ ン トネ ッ ト ワ ー ク を 使 用 し,バ ッ チ サ イ ズ は64,ト レ ー ニ ン グ の エ ポ ッ ク 数 は20,単 語 ベ ク トル の 次 元 数 は500,原 言 語 の

*http:〃kheafield ・c。m/c。de/kenlm/

†https・ 〃github .・。m/皿 。・e・一・mt/giza‑PP

‡gz圧 縮 フ ァ イ ル で824MB

§h七tps;//github.com〆masahiro‑mi/Paraphrasing

(26)

表4.1日 英 翻 訳 の 結 果*は ブ ー トス トラ ッ プ リサ ン プ リ ン グ を用 い て 提 案 手 法 が 統 計 的 有 意 差p<0,05で 上 回 っ て い る こ とを 示 す.

手法 BLEUMETEOROOVの

ベ ー ス ラ イ ン Luongら

Sennrichら Liら

提 案 手 法(multi.(word))

26.13*

26.21*

27.32 26.48 26.73

31.61 31.30 32.72

31.67 31.93

286 406 0 302 275

語 彙 数,目 的 言 語 の 語 彙 数 は 共 に30,000,ド ロ ッ プ ア ウ トの 割 合 は0.3,最 適 化 に はSGDを 用 い,学 習 率 は1.0,エ ン コー ダ 側 の リカ レ ン トネ ッ トワ ー ク は2層 LSTM,サ イ ズ は500と した.ベ ー ス ライ ン は 上 記 の 設 定 で コー パ ス の 言 い換 え を 一 切 し な い もの と した

.ま た,本 論 文 で紹 介 し た従 来 手 法[3,7,5]を 上 記 の 設 定 で 再 実 験 した.ま た,Liら の 手 法 と比 較 す る た め,ベ ー ス ラ イ ン とLiら の 手 法 と提 案 手 法 で は 出 力 に00Vが 出 現 す る際,ア テ ン シ ョ ン を用 い て 最 も対 応 して い る確 率 の 高 い 原 言 語 の単 語 を翻 訳 辞 書 を用 い て 翻 訳 した.翻 訳 の 評 価 に はBLEU[16], METEOR[17]を 用 い た.ま た,翻 訳 後 に 現 れ るOOVの 数 の 変 化 に よ る 評 価 を 行 っ た.

PPDB2.0の 最 大 サ イ ズ に 登 録 さ れ て い る 言 い 換 え は 質 が 悪 い 場 合 が あ る.

PPDB2.0は 言 いi換え ス コ ア に 閾 値 を つ け る こ と で,質 の 高 い 言 い 換 え の み が 登 録 さ れ て い る よ り小 さ いPPDBを 提 供 して い る.PPDBの 質 が 翻 訳 の 質 に関 係 す る か を確 か め るた め,PPDBの サ イ ズ を小 さ く し質 の 高 い 言 い換 え の み を 利 用 す る実 験 を行 っ た ¶.ま た,目 的 言 語 の 言 い換 え が 効 果 的 で あ る か,英 語 の 言 い 換 え が 効 果 的 で あ る か を 明 らか に す る た め に,英 日翻 訳 を 行 っ た.英 日翻 訳 に っ い て も 言 い換 え辞 書 に登 録 さ れ て い る言 い換 え の うち,ス コ ア の 高 い もの の み を使 用 した 翻 訳 を 行 った.

(27)

27、O

265

62

25.5

●一 ●word5旧qlεP●r己phrase Hwor1[」mu比1,paraphra5e I}■Phra5051nqlopar己pltrase

■phr邑s已multl、paraphrase

25・8

,0 0.2 O.4 o.6 O,8

LO lambda

図4.1提 案 手 法 の 日英 翻 訳 のBLEUス コ ア

4.2実 験 結 果

先 行 研 究 と比 較 し た 日英 翻 訳 の 実 験 結 果 を表4.1に 示 す.提 案 手 法 は高 頻 度 語 へ の 言 い 換 え が 見 つ か る ま で 単 語 の 言 い 換 え を 行 っ た.目 的 言 語 のOOVを 言 い換 え る提 案 手 法 は べ 一 ス ラ イ ン お よ びLuongら の 手 法 に 対 して,ブ ー トス トラ ッ プ リ サ ン プ リ ン グ を用 い たBLEUの 評 価 に お い て 統 計 的 有 意 差(P<0,05)を 持 っ て 上 回 っ た.提 案 手 法 は ベ ー ス ラ イ ン と比 較 してBLEUス コ ア が0.60,METEORス

コ ア が0.31上 昇 しOOVを3%減 少 させ た.

線 形 補 間 係 数 と言 い換 え 回 数 に よ る 提 案 手 法 のBLEUス コ ア を 図4.1に 示 す.

出 力 の00Vの 数 を 図42に 示 す.図4.1,4.2に お い て,"word"は 単 語 の み の 言 い 換 え を 行 い"phrase"は 単 語 と フ レ ー ズ の 言 い 換 え を 行 う こ と を 示 す.ま た,

"single"は00Vに 対 して 言 い 換 え を1回 ま で 行 い"multi ."は 高 頻 度 語 へ の 言 い 換 え が 見 っ か る ま で 言 い換 え を行 う こ と を示 す.こ れ らの 図 の 結 果 に お い て,ア ン シ ョ ン を用 い たOOVの 翻 訳 は 行 っ て い な い.提 案 手 法 は 言 い 換 え 回 数 や 線 形 補 間 係 数 に 関 係 な くOOVの 数 を 削 減 で き,特 に 複 数 回 言 い換 え て 言 い換 え 辞 書 ス コ

(28)

1400

      ほ

1300HW。 ・d・1・gl・p・・日ph・・3・

Hwordmulti、paraphrase

●・■phr自se5inglεperaphrase 1200 ●・●phr自5已multi,P昌raphr昌s{}

ぢ1100・

§ 210。0

; 89。

800

700

6。8 .。

\ 、

tく 一 一 一 ・・t‑一 一 一.

O、20.40.60,8

1ambda

図4.2提 案 手 法 の 日 英 翻 訳 の00Vの

1,0

表4,2英 日翻 訳 の 結 果,*は ブ ー トス トラ ッ プ リサ ン プ リ ン グ を 用 い て 閾 値 あ りの 提 案 手 法 が 統 計 的 有 意 差p<0.05で 上 回 っ て い る こ と を示 す.

手法 BLEUOOVのi数

べ 一 ス ラ イ ン 申 Luongら

Sennrichら Liら

提 案 手 法(multi.word)

提 案 手 法(multi.word,閾 値 あ り)

33.91 34.42 35.88 34.22 34.07 3437

589 534 0 544 573 573

ア と言 語 モ デ ル ス コ ア を 組 み 合 わ せ た 時 に,00Vを よ り多 く削 減 で き た.ま た, λ=O,50の 時 に最 もBLEUス コ ア を達 成 し,こ れ は 言 い 換 え ス コ ア は言 い 換 え 辞 書 ス コ ァ と言 語 モ デ ル ス コ ア をバ ラ ン ス よ く足 し合 わせ る こ とが 効 果 的 で あ る こ と を意 味 す る.

英 日翻 訳 の 結 果 のBLEUス コ ア を 表42に 示 す.ベ ー ス ラ イ ン と比 較 す る と提

(29)

表4,3言 い換 え辞書 のサ イズ を変 更 した場合 の 日英翻 訳 の結 果

手法 BLEUMETEOROOVの トレ ー ニ ン グ 中 の00V

言 い 換 え な

S‑size(single) s‑size(multi.) 1‑size(single) 1‑size(multi.) XXXl‑SiZe(Single>

XXXl‑SiZe(mUlti.)

26.13 26,13 26.60 25.90 26.64 26.72 26.73

31.61 31.57 31.85 31.53 31.71 31.85 31.93

286 279 281 281 283 289 275

474,468 453,158 449,547 441,112 436,460 383,715 377,018

表4.4言 い換 え辞書 を 同分 野 に した場合 の 日英翻 訳 の結 果 言 い換 え辞書 BLEUMETEOROOVOOV(training)

未 使 用26,13

PPDB2.0(multi,word)26.73 PPDB‑ASPEC(multi.word)26.41

31.61286 31.93275 31.73289

474,468 383,715 385,173

表4.5言 い換 え対象 を変 更 した場合 の 日英翻 訳 の結 果

言 い換 え 対 象BLEUMETEOROOVの

原言語 目的言語 両方

26.69 26.73

26.63

31.82 31.93

31.78

295 302

281

案 手 法 はBL,EUス コ ア がO.16向 上 し,質 の い い 言 い 換 え の み を使 用 す る と0.46向 上 した.一 方,翻 訳 後 に 存 在 す る00Vの 数 は 言 い 換 え数 が 多 い ほ ど減 少 して い る わ け で は な い.こ れ は00Vが 出 力 さ れ る 時 に ア テ ン シ ョン を 用 い て 直 接 翻 訳 して い るた め だ と考 え られ る.

PPDB2.0の サ イ ズ を 変 更 し た 日 英 翻 訳 の 提 案 手 法 の 結 果 を 表4.3に 示 す.

PPDBの サ イ ズ に 関 係 な く1回 の み の 言 い換 え よ りも複 数 回 言 い 換 え た 方 が 翻 訳 精 度 が 良 か っ た.

PPDB‑ASPECを 用 い て 言 い 換 え た 場 合 の 翻 訳 結 果 を 表4.4に 示 す.PPDB‑

ASPECで 言 い 換 え を 行 っ た 場 合,言 い 換 え を し な い べ 一 ス ラ イ ン よ り も翻 訳 精 度

図 目次 2.1 Luongら の 手 法........... 4 2.2 Sennrichら の 手 法................. 5 ‑ ⊥ り 盈 ∩ δ 4り0り0り0り 0 言 い 換 え ラ テ ィ ス を 作 成 す るPythonの 実 装9言 い 換え ラ テイ ス の 例..,..,,,..,......10複 数回 言 い 換え の 例......,,..,.........10 言 い 換 え を 選 択 す るPythonの 実 装..,..一 一..11 ‑ ⊥ り 泊

参照

Outline

関連したドキュメント

Fumio Ogawa, Jun Koyanagi, Hiroyuki Kawada, Characteristic of Nonlinear Viscoelastic Behavior in Vinylester Resin, 13th JSME Materials and Processing Conference,

FOURTH INTERNATIONAL SYMPOSIUM ON THE BIOLOGY OF VERTEBRATE SEX DETERMINATION April 10-14, 2006, Kona, Hawaii,

Rajan and Anil Menon 1988, “Cause-Related Marketing: A Coalignment of Marketing Strategy and Corporate Philanthropy” Journal of.. 1984, “Companies Change the Ways They Make

Arjen.H.L Slangen 2006 National Culture Distance and Initial Foreign Acquisition Performance: The Moderating effect of Integration Journal of World Business Volume 41, Issue 2,

Horikoshi Characteristics of multivalent impurity doped C60 films grown by MBE 14th International Conference on Molecular Beam Epitaxy, Tokyo, Japan, September 3-8, 2006..

2001 年に、米国財務会計基準審議会(FASB)から、SFAS 141 および SFAS 142 が公表 され、のれんの償却が廃止されてから、まもなく

また IFRS におけるのれんは、IFRS3 の付録 A で「企業結合で取得した、個別に識別さ

問題例 問題 1 この行為は不正行為である。 問題 2 この行為を見つかったら、マスコミに告発すべき。 問題 3 この行為は不正行為である。 問題