• 検索結果がありません。

統計 的機械翻訳 を用 いた中国語文法誤 り訂正

N/A
N/A
Protected

Academic year: 2021

シェア "統計 的機械翻訳 を用 いた中国語文法誤 り訂正"

Copied!
41
0
0

読み込み中.... (全文を見る)

全文

(1)

学 修 番 号14890521

修士論文

統計 的機械翻訳 を用 いた中国語文法誤 り訂正

趙 寅環

2016年1月29日

首都大学東京大学院

システムデザイン研究科 情報通信 システム学域

(2)

趙 寅環

審査委員:

小町 守 准教授 石川 博 教授

三浦 幸也 教授

(主指導教員)

(副指導教員)

(副指導教員)

(3)

統計的機械翻 訳 を用 いた中国語文法誤 り訂正*

趙 寅環

内容梗概

イ ン タ ー ネ ッ トの 発 展 を き っ か け に,異 文 化 交 流 の 機 会 が 増 加 しつ つ あ る.し か しな が ら,外 国 語 教 育 で は教 師 不 足 とい う厳 し い現 状 が あ る.そ れ に 対 処 す る た め に,近 年,外 国 語 学 習 者 の た め の 文 法 誤 り自動 訂 正 に つ い て の 研 究 が 盛 ん に な っ て き て い る.

統 計 的 機 械 翻 訳 を 用 い た 文 法 誤 り訂 正 の ア イ デ ィ ア は,誤 り文 を原 言 語,正 し い 文 を 目 的 言 語 とみ な し,誤 りが あ る文 を 正 しい 文 に 「 翻 訳 」 す る.今 ま で 統 計 的 機 械 翻 訳 に 基 づ く手 法 で 英 語 や 日本 語 な どの 誤 り自動 訂 正 を 行 う研 究 は す で に 存 在 す るが,中 国 語 に つ い て の 研 究 は ま だ 少 な い.そ こで,本 研 究 で は 統 計 的 機 械 翻 訳 手 法 に基 づ く中 国 語 文 法 誤 り 自動 訂 正 手 法 を提 案 す る.本 論 文 で は,中 国 語 文 法 誤 り

訂 正 の た め の 対 訳 コ ー パ ス の 構 築,階 層 的 フ レ ー ズ ベ ー ス の 訂 正 モ デ ル と言 語 モ デ ル の 使 用,誤 り訂 正 の 評 価 と最 適 化 に つ い て 詳 し く論 じ て い く.

対 訳 コ ー パ ス は統 計 的 機 械 翻 訳 の 学 習 デ ー タ と して 構 築 され,統 計 的 機 械 翻 訳 に とっ て 不 可 欠 な も の で あ る.統 計 的 機 械 翻 訳 手 法 を適 用 で き る だ け の 中 国 語 学 習 者 コ ー パ ス が 存 在 しな か っ た の は,統 計 的 機 械 翻 訳 手 法 に 基 づ く中 国 語 文 法 誤 り訂 正 に つ い て の研 究 が 少 な い とい う現 状 の 一 つ の 原 因 で あ る.本 研 究 で は,外 国 語 学 習 SNSと 中 国 語 試 験 の 作 文 か ら対 訳 文(正 し い 文 一誤 り文)を 抽 出 し,中 国 語 誤 り 訂 正 の た め の 大 規 模 対 訳 コ ー パ ス を構 築 す る.構 築 され た コー パ ス を 利 用 し,コ ー パ ス サ イ ズ が 訂 正 精 度 に どの よ うな 影 響 を与 え る の か に つ い て 実 験 を 行 う.翻 訳 モ デ ル と言 語 モ デ ル は統 計 的 機 械 翻 訳 の 基 本 構 成 要 素 で あ る.フ レー ズ ベ ー ス モ デ ル と階 層 的 フ レー ズ ベ ー ス モ デ ル は 統 計 機 械 翻 訳 に お い て 広 く利 用 され る 翻 訳 モ デ ル で あ る.本 研 究 で は 以 上 の2つ の翻 訳 モ デ ル を用 い て 実 験 を 行 い,翻 訳 モ デ ル に よ る訂 正 結 果 の 相 違 に つ い て 検 討 す る.統 計 的 機 械 翻 訳 に お い て は,目 的 言 語 で 翻

̀首 都 大 学 東 京 大 学 院 シ ス テ ム デ ザ イ ン 研 究 科 情 報 通 信 シ ス テ ム 学 域 修 士 論 文 ,学 修 番号14890521,

2016年1月29日.

(4)

訳 対 象 とす る分 野 の 生 コ ー パ ス が 大 最 に 入 手 で き な い こ とが あ る た め,対 訳 コ ー パ ス の な か の 目 的 言 語 コ ー パ ス を 利 用 し言 語 モ デ ル を 作 る の が 一 般 的 な 手 法 で あ る.

本 研 究 で も 正 一 誤 文 対 訳 コー パ ス に お け る 正 解 文 で 言 語 モ デ ル を 構 築 す る.そ れ 以 外 に,様 々 な ジ ャ ンル の テ キ ス トが 含 ま れ た 大 規 模 な 生 コ ー パ ス か ら言 語 モ デ ル を 作 成 す る こ と も広 く行 わ れ て い る.今 回 の 実 験 で は,大 規 模 ウ ェ ブ コー パ ス で あ る Google中 国 語 ウ ェ ブ5‑gramデ ー タ も使 用 す る.

訂 正 シ ス テ ム の 性 能 を 評 価 す る に は,正 解 率,適 合 率,再 現 率 な ど を 評 価 尺 度 と して 用 い る.し か し,対 訳 コ ー パ ス とテ ス トデ ー タが 必 ず 同 じ ドメ イ ン に属 す る と は 限 ら な い.仮 に ドメ イ ン が 同 じ と して も,言 葉 遣 い な ど に よ る 文 章 の ス タ イ ル が 違 う こ とが 多 い.そ の た め,学 習 さ れ た デ ー タ に対 して 調 整 し翻 訳 精 度 を 上 げ る の は 統 計 的 機 械 翻 訳 に お け る 一 般 的 な 方 法 で あ る.本 研 究 で は,前 述 した 評 価 尺 度 に よ る 線 形 的 評 価 ス コ ア を 用 い て,線 形 ス コ ア の 重 み 付 け を 調 整 し最 適 化 を 行 う.

本 論 文 の 主 要 な 貢 献 を 以 下 に 示 す.

・ 中llミ1語 文 法 誤 り孟「正 の た め の 大 規 模 中liミ1語 学 習 者 コ ー パ ス(正 一 誤 文 パ ラ レ ル コー パ ス)を 構 築 した.こ の コー パ ス は 統 計 的 機 械 翻 訳 手 法 に 適 用 す る だ

け で は な く,学 習 デ ー タ と して ほ か の 中 国 語 誤 り訂 正 手 法 に も利 用 で き る.

● 統 計 的 機 械 翻 訳 手 法 は 理 論 上 す べ て の,「語 の 誤 り訂 正 に 適 川 可 能 で あ る が, 中 国 語 文 法 誤 り訂 正 タ ス ク に お い て 統 計 的 機 械 翻 訳 手 法 を 用 い る と い う の は,本 研 究 が 初 め て で あ る.

本 研 究 の 研 究 成 果 はNPL‑TEAと い う 中 国 語 文 法 誤 り 訂 正 ワ ー ク シ ョ ッ プ で 公 開 され た.実 験 の 最 終 結 果 をF1値 で ラ ン キ ン グす る と,NLP‑TEAの オ ー プ ン タ ス ク へ6つ の 参 加 チ ー ム の 提 出 さ れ た15個 の 結 果 の 中 で は,本 研 究 の 階 層 的 フ レー ズ ベ ー ス モ デ ル に よ る結 果 は ち ょ う ど真 ん 中 に 位 置 す る.現 時 点 に お け る 提 案 手 法 に よ る 訂 正 精 度 は ま だ 改 善 の 余 地 あ る が,人 工 的 に 擬 似 負 例 を 作 成 し さ ら に コー パ ス を 拡 充 す る こ と.そ して ベ イ ズ 的 最 適 化 な ど洗 練 さ れ た 最 適 化 手 法 を 適 用 す る こ とが 今 後 の 課 題 で あ る.

本 論 文 の 構 成 は 以 下 の 通 りで あ る.第1章 は 序 論,本 研 究 の 背 景 と論 文 概 要 につ い て 説 明 す る.第2章 で は機 械 に よ る 文 法 誤 り 自 動 訂 正 お よ び 統 計 的 機 械 翻 訳 手 法 の 先 行 研 究 に つ い て 紹 介 す る.第3i章 で は 翻 訳 モ デ ル と言 語 モ デ ル を 含 め た 訂 正

"11

(5)

シ ス テ ム を 提 示 す る.第4章 は提 案 手 法 に 必 要 な 言 語 資 源 で あ る 中 国 語 学 習 者 コ ー

パ ス の 構 築 に つ い て 詳 述 す る.第5章 で 誤 り訂 正 の 最 適 化 手 法 を 述 べ る.第6章 で

実 験 と結 果 考 察 を 説 明 す る.第7章 は ま と め,そ して 今 後 の 課 題 に つ い て 述 べ る.

(6)

ChineseGrammaticalErrorCorrectionUsing StatisticalMachineTiranslation*

ZhaoYinchen

Abstract

WitllthedevelopmentofInternet,wearegettingilltouchwitlldifferent culteures.Howerver,aproblemisthereisnoenoughforeignlanguageteachers.

So,recentlylnoreandrnorerearcllesregardstogrammaticalerrorcorrection usingmachinef()rfbreignlanguagelearners.

Theconceptofgramlllaticalerrorcorrectionusingstatisticalmachinetrans‑

lation(SMT)isthatwecalltreaterrorsentencesasonelanguageandcorrect

sentencesasalmother.Therehavebeensomesuchresearchesfbcusedongram‑

maticalerrorcorrectionforEnghshc■lldJapanesebutfewforChinesesince therehasnotexistedallylarge‑scaleparallelcorporafbrlearllersofChinese.

Thus,weproposeanSMT‑basedmethodtodealwitllChinesegrammatical errorcorrectio11.Intllispaperwef()cusollbuildingaparallelcorpusfbrChi‑

nesegrammaticalerrorcorrection;adoptinghierarchicalphrase‑basedcorrec‑

tiol)modelandlanguagemodel;alldperfbrmillgoptimizationandevaluationof thesystem.

Tllemaincontributionofthisstudyisasfbllows:

●V▽bbuiltaerror‑correctpararellcorpusfbrCllillesegrammaticalerror corrctiontask,wllichcouldbeusedillotherstatistical‑basedmethods.

● 、Vearethefirsttcam、vhodealswitllChinesegrammaticalerrorcorrec‑

tiontaskusingSMTmethod.

WesubmittedseveralresultsbasedonourmethodtoNLP‑TEAwhichisa

'Master'sThesis

,DepartmentofInforinationandCommullicationSystems,GraduateSchooI ofSystemDesign,TokyoMetropolitanUniversity,StudentID14890521,January29,2016.

iv

(7)

workshopforChinesegrammatic乱1errorcorrection.AmongFIscores,oneof ourRUNsranksexactlyinthemiddleof15RUNSofallteams,Bynowitmay notbeabletoconsideredasahigllaccuracysystem,butforfutureresearch,we willattempttoexpandthecorpusfurtherortotrysomeothertuningmethods.

Thestructureofthispaperisorganizedasfbllows.Chapterlisabreif

introduceaboutthispaper.Ch乱pter2deseribe8thepreviousworksabout

SMTandautoInaticerI・orcorrection.Wedis$cussaboutourcorrctionsystem

includingtrallslationmodelandlanguagemodelinCllapter3.InChapter4,

wefbucusonhowtobuildtheChineselanguagelearnerscorpus.Tuningwill

bedescribedinChapter5.Chapter6showsexperimelltsandrestllts.Atlast,

wemakeabreifconclusionincludillgfutureworks.

(8)

目次

図 目 次

第1章 1.1 1.2

第2章 2.1 2.2 2.3

第3章 3.1

3.2 3.3

第4章 4.1 4.2 4.3 4.4

viii

は じ め に1

研 究 背 景...1

研 究 概 要 と 構 成...2

先 行 研 究4 統 計 的 機 械 翻 訳 。..4

中 国 語 文 法 誤 り の 自 動 訂 正...4

統 計 的 機 械 翻 訳 を 用 い た 文 法 誤 り 訂IE....5

統 計 的 機 械 翻 訳 に 基 づ く 中 国 語 文 法 誤 り 訂 正6 翻 訳 モ デ ル...,...6

3.1.1単 語 ア ラ イ メ ン ト...6

3.1.2フ レ ー ズ ベ ー ス モ デ ル...7

3.1.3階 層 的 フ レ ー ズ ベ ー ス モ デ ル.8 言 語 モ デ ル...g 文 法 誤 り の 検 出...,...11

中 国 語 学 習 者 コ ー パ ス の 構 築13 対 訳 コ ー パ ス...13

Lang‑8学 習 者 コ ー パ ス...14

HSI〈 作 文 コ ー パ ス...15

ク リ ー ニ ン グ...15

vi

(9)

第5章 5.1

5.2

シ ス テ ム の 評 価 と 最 適 化 シ ス テ ム の 評 価...

シ ス テ ム の 最 適 化

17 .17 .17

第6章 6.1 6.2 6.3 6.4

実 験20

実 験 設 定...20

中 国 語 学 習 者 コ ー パ ス の 実 験 結 果 と 考 察...21 訂 正 モ デ ル と 言 語 モ デ ル に 関 す る 実 験 結 果 と 考 察.22 評 価 と 最 適 化 の 実 験 結 果 と 考 察...23

第7章 おわ りに 26

謝辞 27

参考文献 28

(10)

図 目次

1 2 3 4 5 6 1 2 3 3 3 3 3 3 3 4 4 4 1

5

フ レ ー ズ ア ラ イ メ ン ト...

フ レ ー ズ 抽 出...

誤 り 訂 正 タ ス ク に お け る 生 成 ル ー ル...,...

グ ル ー ル ー ル...,...

訂 正 タ ス ク に お け る 翻 訳 生 成...

誤 り 検 出 ア ル ゴ リ ズ ム...

外 国 語 学 習 者 向 け の 相 互 添 削 型SNSで あ るLang‑8

Lang‑8の デ ー タ...

コ ー パ ス で の 単 語 単 位 の 編 集 距 離 の 分 布(図)...

各 評 価 指 標 の 計 算...

8 8 9 9 9 12

14 15 16

.18

viii

(11)

第1章 は じめ に

1.1研 究 背 景

我 々 が 生 き て い る 現 代 は 「グ ロ ー バ ル 時 代 」 だ と言 わ れ て い る.人 間 は 地 理 や 文 化 や 言 語 な ど の 要 素 に よ っ て 違 う国 の 人 だ と認 識 さ れ て い る が,世 界 経 済 の 融 合 と 連 携 の 深 化 と と も に 特 に イ ン ター ネ ッ トの 発 展 を き っ か け に,異 文 化 交 流 の 機 会 が 増 加 しつ つ あ る.会 社 で 海 外 企 業 との 取 扱,学 校 で の 勉 強,海 外 ツ ア ー な ど様 々 の 場 面 で 外 国 語 が 使 わ れ て い る.外 国 語,特 に英 語 の 学 習 が 盛 ん な の は,こ の 時 代 に お け る 一 つ の 社 会 現 象 で あ る.国 際 コ ミ ュ ニ ケ ー シ ョ ン 英 語 能 力 テ ス ト(Testof EnglishforInternationalCommunication),通 称TOEICは,ア メ リ カ 合 衆 国 の 非 営 利 団 体 で あ るEducationalTestingService(ETS)が 行 っ て お り,英 語 を 母 語 と しな い 者 を 対 象 と し た ア メ リ カ 英 語 に よ る コ ミ ュ ニ ケ ー シ ョ ン能 力 を 検 定 す る た め の 世 界 的 に 最 も有 名 な 試 験 の 一 つ で あ る.TOEICテ ス トの 情 報 は 世 界 中 の 英 語 学 習 の 状 況 を 反 映 して い る と思 わ れ る.英 語ETSの デ ー タ[1]に よ る と,2014 年 度TOEICテ ス ト受 験 者 数 は2,400,000人 で あ り,前 年 度 と比 べ て63%増 加 し, 過 去 の 最 高 記 録 を 更 新 した.2010年 度 か ら2014年 度 の 受 験 者 数 は 表1.1の 通 りで あ る.

英 語 学 習 者 の 人 数 よ り は る か に少 な い が,漢 字 を 使 用 す る言 語 で あ る 日 本 語 と 中 国 語 の 学 習 も 近 年 流 行 して き て い る.国 際 交 流 基 金 と 日本 国 際 教 育 支 援 協 会 が 主 催 す る 日 本 語 能 力 試 験(JLPT)の 受 験 者 数 は2010以 来 毎 年570,000人 を 超 え る.そ

して,TOEICと 同 様 の 中 国 語 学 習 者 向 け の 能 力 テ ス ト(漢 語 水 平 考 試,通 称HSK) に 関 して は,2013年 度 の 受 験 者 数 は37万 人 とい う報 道 も あ る.

あ る 言 語 を 母 語 とす る 人 さ え 日 常 生 活 で 文 を 作 る と き(会 話 で も 作 文 で も)し ば

しば 文 法 を 間 違 う こ とが あ り,そ の 言 語 を 外 国 語 とす る 学 習 者 は も と よ り間 違 い や

す い.外 国 語 学 習 者 に と って 教 師 の 存 在 は た だ の 知 識 を 教 え て くれ る人 だ け で は な

く,誤 りが あ っ た らそ れ を た だ ち に指 摘 し て くれ る 人 で あ る.外 国 語 教 師 とい え

ば 教 育 機 関 に 認 定 さ れ た 資 格 を 取 得 して い る教 師 が 一 番 信 頼 で き る で あ ろ う.し か

しな が ら,日 本 語 教 育 に お い て 教 師 不 足 とい う厳 しい 現 状 が あ る.国 際 交 流 基 金 の

2012年 度 日本 語 教 育 機 関 調 査 の 結 果[2]に よ る と,日 本 語 教 育 の 実 施 が 確 認 で き た

機 関 は 全 世 界 で136の 国 あ る い は 地 域 が あ り,学 習 者 総 数 は 約399万 人.そ れ に 対

(12)

表1.12014年 度 ま で の 過 去5年 間 の 各 テ ス トの 受 験 者 数

2010年 度 2011年 2012年 度 2013年 度 2014年 度 TOEICテ ス ト 1,780,000 2,270,000 2,304,000 2,361,000 2,400,000 TOEICS&Wテ ス ト 8,500 10,700 11,100 14,700 24,000

TOEICBridge 209,000 213,000 209,000 210,000 205,000 TOEICプ ロ グラム 総受験 者 数 1,997,500 2,493,700 2,524,100 2,585,700 2,629,000

して.確 認 で き た 日本 語 教 師 は63,805人 で あ り,「 教 師 不 足 」 が 日本 語 教 育 上 の 問 題 点 だ と 考 え られ る.さ ら に,日 本 語 教 育 振 興 学 会 の 調 査[3]に よ る と,2014年 日 本 国 内 の 日本 語 教 育 機 関 に 在 籍 して い る 学 生 数 は43,667人 で あ り,教 員 数 は5,594 人 で あ る が,そ の 中 の 専任 教 員 は1,663人 で あ る.中llll語 教 育 に 関 す る 調 査 デ ー タ が 不 明 で あ る が,中 国 教 育 機 関 の 推 測 で は 現 在 全 世 界 で 約500万 人 の 中 国 語 教 師 が 必 要 とな る.

外 国 語 教 育 の 現 状 を み れ ば,「 人 間 の 教 師 が 足 りな い な ら 機 械 の 力 を 貸 りた ら ど う?」 「少 な く と も 機 械 で 文 法 訂 正 ぐ らい で き る?」 と い う よ う な 考 え が 出 現 す る の は 自 然 な こ とで あ ろ う.

1.2研 究 概 要 と構 成

自然言語処理技術の一つ である統計的機械翻訳に基づ く手法 で英語や 日本語な ど の誤 り自動訂正を行 う研究はすでに存在するが,統 計的機械翻訳手法を適用できる だけの中国語学習者コーパスが存在 しなかったため,中 国語についての研究はまだ 少ない.そ こで,本 研究では統計的機械翻訳手法に基づ く中国語文法誤 り自動訂正 手法を提案する.本 論文では,中 国語文法誤 り訂正のためのパラ レルコーパスの構 築,階 層的フ レーズベースの訂正モデル と言語モデルの使用,誤 り訂正の最適化 と 評価について詳 しく論 じてい く.

・ 中 国 語 文 法 誤 り訂 正 の た め の 大 規 模 中 国 語 学 習 者 コ ー パ ス(正 一 誤 文 パ ラ レ ル コ ー パ ス)を 構 築 した.こ の コー パ ス は 統 計 的 機 械 翻 訳 手 法 に 適 用 す る だ け で は な く,学 習 デ ー タ と して ほ か の 中 国 語 誤 り訂 正 手 法 に も 利 用 で き る.

● 統 計 的 機 械 翻 訳 手 法 は 理 論 上 す べ て の 、「 語 の 誤 り訂 正 に 適 川 可 能 で あ る が,

(13)

中国語文法誤 り訂正 タスクにおいて統計的機械翻訳手法を用い るとい うの は,本 研究が初めてである.

本論文の構成は以下の通 りである.第1章 は序論,本 研究 の背景 と論文概要につ

いて説明する.第2章 では機械による文法誤 り自動訂正および統計的機械翻訳手法

の先行研究 につ いて紹 介する.第3権 では翻訳モデル と,享 語モ デルを含 めた訂正

システムを提示する.第4章 は提案手法に必要な言語資源である中国語学習者コー

パスの構築 について詳述する.第5章 で誤 り訂正の最適化手法を述べ る.第6章 で

実験 と結果考察を説明する.第7';1:は まとめ,そ して今後の課題について述べ る.

(14)

第2章 先行 研究

2.1統 計 的機 械 翻 訳

機 械 翻 訳 に お い て 最 も従 来 の 技 術 は ル ー ル ベ ー ス 翻 訳 で あ る.翻 訳 ル ー ル を 開 発 す る に は 原 言 語 と 目的 言 語,両 言 語 の 知 識 が 必 要 で あ る た め,翻 訳 の 多 言 語 化 は 非 常 に 困 難 で あ る.そ れ に対 し,統 計 的 機 械 翻 訳 で は 翻 訳 手 法 が 言 語 に ほ と ん ど依 存 せ ず,学 習 用 の テ キ ス トデ ー タ さ え 用 意 す れ ば 翻 訳 が 実 現 で き る.統 計 的 機 械 翻 訳 を は じめ て シ ス テ ム 化 した の は1994にIBMの 研 究 者 に よ る 開 発 さ れ たCandide

[4]で あ る.2003年 に フ レー ズ ベ ー ス 翻 訳 モ デ ル[5]と エ ラ ー 最 小 化 学 習 の 最 適 化 ア ル ゴ リズ ム[6]が 提 案 さ れ,統 計 的 機 械 翻 訳 シ ス テ ム の 性 能 を 飛 躍 的 に 向 上 さ せ た.2006年 か らGoogle翻 訳 の サ ー ビス が 提 供 さ れ は じめ,2011年 ま で に50以 上 の 種 類 の 入 力 言 語 が 対 応 可 能 に な っ た.2006年 以 後,階 層 的 フ レ ー ズ ベ ー ス モ デ ル[7],木 構 造 に 基 づ くモ デ ル[8],ニ ュー ラ ル ネ ッ トワー ク に よ る翻 訳[9]な ど の 統 計 的 手 法 は 次 々 と提 案 さ れ,統 計 的 機 械 翻 訳 は これ か ら も機 械 翻 訳 の 主 流 技 術 と し

て 発 展 しつ つ あ る で あ ろ う.

2.2中 国語 文 法 誤 りの 自動 訂 正

2010年 以 後,中 国 語 学 習 者 を 支 援 す る た め の 中 国 語 文 法 誤 り の 自 動 訂 正 に 関 す る 研 究 は ま す ま す 増 え て き た.[10]の 研 究 で は 大 規 模 コ ー パ ス を 用 い た 分 類 器 に よ り,入 力 文 の な か に 語 順 誤 りが あ る か ど う か に つ い て の 分 類 精 度 が71.64%と 報 告 され て い る.さ ら に2014年 にSVM分 類 器 に 基 づ く手 法 が 提 案 さ れ[12】,語 順 誤 りに 対 す る 分 類 精 度 が83.4%に 達 した.[?]の 研 究 で 提 案 さ れ た シ ス テ ム は, 文 法 解 析 に よ る ル ー ル ベ ー ス モ デ ル とNグ ラ ム に よ る 統 計 的 モ デ ル,2つ の モ デ ル を 用 い て 様 々 な 誤 り タ イ プ を 検 出 で き る.2014年 に 教 育 の た め の 自 然 言 語 処 理

ワ ー ク シ ョ ッ プ で あ るNLP‑TEA(NaturalLanguageProcessingTechniquesfor

EducationalApplications)が 開 か れ,2014年 と2015年 に2年 連 続 で 外 国 人 学 習 者 向 け の 中 国 語 文 法 誤 り訂 正 を 主 な タ ス ク と して い た.NLP‑TEA2の 中 で,[13]

の 研 究 は,単 語 の 品 詞 と正 誤 性 を 素 性 に す る 条 件 付 き確 率 場(CRF)に 基 づ く訂 正

4

(15)

手 法 が 提 案 さ れ,訂 正 精 度 とFP率 両 方 と も トッ プ の 成 績 を 得 た.

2.3統 計 的機械翻訳を用 いた文法誤 り訂正

誤 りが あ る 文 を 正 し い 文 に 「翻 訳 」 す る とい う ア イ デ ィ ア は,Brockettら[14]

に よ っ て 初 め て 提 案 さ れ た.Brockettら は ノ イ ジ ー チ ャ ネ ル モ デ ル を 用 い た 統 計 的 機 械 翻 訳 で 外 国 人 英 語 学 習 者(LearnersofEnglishasaSecondLanguage)を 支 援 す る た め の 英 文 法 自動 訂 正 の 手 法 を 提 案 した.統 計 的 機 械 翻 訳 の 手 法 に 基 づ く文 法 誤 り訂 正 に は 言 語 に 対 応 す る 文 法 知 識 が 不 要 とい う メ リ ッ トが あ り,あ る 程 度 の liltの 正 一 誤 文 パ ラ レル コ ー パ ス を 川 意 す れ ば,ど ん な,亨語 で も 処 理 で き る た め,そ れ 以 降,統 計 的 機 械 翻 訳 の 手 法 を 用 い た 文 法 誤 り 自動 訂 正 に つ い て の 研 究 が 盛 ん に な っ て き て い る.た とえ ば,CoNLL‑2014で 開 か れ た英 語 文 法 誤 り訂 正 オ ー プ ン タ ス ク[15]に 参 加 した チ ー ム は 全 部 で13チ ー ム あ り,そ の 中 の4チ ー ム は フ レー ズ ベ ー ス 統 計 的 機 械 翻 訳 手 法 を 利 用 した.特 に,ト ッ プ の 成 績 を 残 した チ ー ム[16]は 統 計 的 機 械 翻 訳,言 語 モ デ ル で の チ ェ ッ ク,ル ー ル ベ ー ス 変 換 な ど複 数 の サ ブ シ ス テ ム か ら な る 大 き な シ ス テ ム を 提 案 した.ま た,統 計 的 機 械 翻1沢に 基 づ く 日本 語 誤

り訂 正 に つ い て の 研 究[17]は2013年 に 発 表 され た.

(16)

第3章 統計 的機械翻訳 に基づ く中国語文 法誤 り訂 正

統 計 的 機 械 翻 訳 の 基 本 理 論 は ノ イ ジ ー チ ャ ネ ル モ デ ル に 基 づ い て い る[18].与 え られ た 入 力 文fに 対 し,様 々 可 能 な 翻 訳 文eを 列 挙 し,そ の な か で 翻 訳 確 率 が 一 番 高 い 翻 訳 を 見 つ け 出 す.ベ イ ズ 定 理 を 用 い て 式(3.01)を 展 開 す る と式(3.02)が 得 ら れ る.統 計 的 機 械 翻 訳 に お い て,P(fle)は 翻 訳 モ デ ル と呼 び,翻 訳 と して の 正

し さ を 確 保 す る.そ し て,P(e)は 言 語 モ デ ル と呼 び,翻 訳 文 の 流 暢 さ を 確 保 す る.

argmax関 数 に よ っ て 確 率 を 最 大 とす る翻 訳eを 探 索 す る と い う過 程 は デ コ ー ドと 呼 ぶ.ビ ー ム 探 索(beamsearch)と 呼 ば れ る ヒ ュー リ ス テ ィ ッ ク な 探 索 手 法 に よ り 探 索 空 間 を 枝 刈 り しな が ら効 率 よ く探 索 で き る 。

ε=argmaxPr(elf)(3.01)

e

=argmaxf)r(f)Pr(fle)(3.02)

e

P(fle)とP(e)の 確 率 に つ い て1つ の 例 を 挙 げ て 説 明 して い く.原 言 語 文fで あ る 「 機 械 翻 訳 に つ い て 勉 強 した い 」 を 英 語 に 翻 訳 す れ ば,表3.1の よ う に い くつ の 可 能 な 翻 訳 文eが あ る.elは 原 言 語 文 の 各 単 語 を き ち ん と翻 訳 した た め,翻 訳 モ デ ルP(fle)に よ る確 率 が 高 い.し か し,「machinetranslationwanttostudy」 と い う英 語 表 現 は 文 法 的 に 誤 っ て お り,普 通 に は 使 わ な い.つ ま り,そ の 「 流 暢 さ 」 が 悪 い た め,言 語 モ デ ルPr(e)に よ る 確 率 が 低 い.e2は 全 く逆 の 事 例 で あ る.そ れ に 対 して,e3は 認 識 的 に 一 番 正 しい 翻 訳 で あ ろ う.そ れ に 応 じる 二 つ の 確 率 も 比 較 的

に 高 い.

統 計 的 機 械 を 川 い た 文 法 誤 り訂 正 で は,誤 り文 を 原 、「 語f,そ して 出 力 文 を 目 的 言 語eと して 翻 訳 タ ス ク と見 な す.そ うす る こ とに よ っ て,統 計 機 械 翻 訳 に お け る 技 術 を 誤 り訂 正 に も適 用 す る こ とが で き る.

3.1翻 訳 モ デ ル

3.1.1単 語 ア ラ イ メ ン ト

人 間 は 翻 訳 を 行 う と き,原 言 語 文 に お け る単 語 を どの 目的 言 語 の 単 語 に 変 換 す る の か を 考 え な け れ ば な ら な い.統 計 的 機 械 翻 訳 に と っ て も,Pr(elf)の 確 率 を 推 定

6

(17)

表3.1翻 訳 モ デ ルPr(fie)と 言 語 モ デ ルPr(e),原 言 語 文f=「 機 械 翻 訳 に つ い て 勉 強 した い 」

翻 訳 文e Pr(fle) Pr(e)

e1:machinetr乱n81ationwallttostudy 0.9 0.0001

e2=Idon'twallttolearllallything 0.0001 0.2 e3:Iwanttostudyaboutmachinetranslation 0.9 0.15

す る た め に,対 訳 言 語 対 に お け る単 語 の 対 応 関 係,あ る い は 単 語 ア ラ イ メ ン トを 確 定 し て お く必 要 が あ る.大 規 模 対 訳 コー パ ス が 与 え られ た とき,あ る 単 語 対 は 翻 訳 と し て 対 応 す る な ら,こ の 単 語 対 が 対 訳 文 に 共 起 す る 確 率 が 高 い,と い う よ うな 考 え に 基 づ い て,辞 書 な どが な くて も ア ラ イ メ ン トを 推 定 す る こ とが 可 能 で あ る.ア ラ イ メ ン トaを 隠 れ 変 数 と して 翻 訳 モ デ ル に 入 れ る と,式(3.11)が 得 られ る.統 計 的 機 械 翻 訳 の 一 般 的 な 手 法 は,EMア ル ゴ リズ ム に よ っ て 単 語 ア ラ イ メ ン ト αを 学 習 す る[19].

Pr(∫1・)一 ΣPr(f,d・)

α

(3.11)

3.1.2フ レ ー ズ ベ ー ス モ デ ル

3.1.1の 単 語 ア ラ イ メ ン ト モ デ ル は,単 語 を 最 小 単 位 と し た 翻 訳 モ デ ル で あ る が,複 数 の 連 続 す るili語 を 最 小 単 位 と す る と,フ レ ー ズ ベ ー ス 翻li尺に な る.図3.1 で は,「Iwanttostudymachinetranslation」 が 「Iw乱ntto」 「study」 「machine translation」 へ と 分 割 し,日 本 語 の 翻 訳 文 へ と 対 応 づ け さ れ る.数 式 で 定 義 す れ ば, 文 に あ る 全 て 可 能 な フ レ ー ズ を 新 し い 隠 れ た 変 数 と し て 条 件 確 率 に 加 え,式3.12で あ る.

Pr(fle)一 ΣPr(∫,φ,ale)(3・12)

α,φ

フ レー ズ ア ラ イ メ ン トの 抽 出 す る た め に,全 て 可 能 な 文 字 列 を 列 挙 す る で は な く

単 語 ア ラ イ メ ン トを 制 約 条 件 とす る,単 語 ア ラ イ メ ン トに 基 づ く制 約 条 件 は=(1)

(18)

鰍 翻 国

study

,したい

図3.1フ レ ー ズ ア ラ イ メ ン ト

し た い

勉 強

機 械 翻 訳

1 }}囎 隻

;9

§姻y ξ 聰chlne translation

『百

1‑i

1【̲̲̲̲

[

図3.2フ レ ー ズ 抽 出

少 な く と も1つ の 対 応 す る 単 語 対 が 中 に 含 まれ る,(2)フ レー ズ 内 の 単 語 が フ レー ズ 外 の 単 語 に 対 応 しな い.例 え ば3.2で 示 さ れ て い る の は 単 語 ア ラ イ メ ン トの 制 限 が あ る 場 合 抽 出 可 能 の フ レー ズ ペ ア で あ る.

3.1.3階 層 的 フ レ ー ズ ベ ー ス モ デ ル

階 層 的 フ レー ズ ベ ー ス モ デ ル で は 同 期 文 脈 自 由 文 法 に 従 い 生 成 ル ー ル を 抽 出 す る.中 国 語 文 法 誤 り訂 正 タ ス ク で は,抽 出 さ れ た 生 成 ル ー ル は 図3.3の よ う で あ る.

左 辺 のxと 右 辺 のXiは す べ て の 可 能 な フ レー ズ を 代 表 し て い る.そ れ に 加 え て,図3.6の よ うな グ ル ー ル ー ル(gluerule)と 呼 ば れ る生 成 ル ー ル が あ る.グ ル ー ル ー ル の 役 割 は 文 の 生 成 を 始 め る(Sか ら)ま た はXの 系 列 を 連 結 す る.す る と,

8

(19)

図3.3誤 り訂 正 タ ス クに お け る 生 成 ル ー ル X→(X1一 好 消 息X2,X1一 条 好 消 息X2) X→(我 有,我 有)

X→(告 伯{,告fホ)

図3.4グ ル ー ル ー ル S→(X1,X1)

S→(SIX2,SIX2)

図3.5訂 正 タ ス ク に お け る翻 訳 生 成 S→(X1,X2)

→(X3一 好 消 息X4,X3‑一 介 好 消 息X4)

→(我 有 一 好 消 息X4 ,我 有 一 介 好 消 息X4)

→(我 有 一 好 消 息 告 訴 祢,我 有 一 ノ ト 好 消 息 告 訴 伯g

文 法 訂 正 タ ス ク に お け る 同 期 文 の 生 成 は3.5の よ う に な る.

機 械 翻 訳 に お い て,階 層 的 フ レー ズ ベ ー ス モ デ ル は 語 順 の 差 が 大 き い 言 語 対 に よ り強 い こ とが 知 ら れ て い る.従 っ て,階 層 的 フ レー ズ ベ ー ス モ デ ル は 普 通 の フ レー ズ ベ ー ス モ デラレと比 べ て 語 順 誤 り訂 正 の 精 度 が 高 い と予 想 さ れ る.

3.2言 語 モ デ ル

言 語 モ デ ル と は 自然 言 語 に お け る 単 語 と単 語,文 書 と文 書 な ど の 関 係 性 に つ い て

数 学 的 に 計 算 可 能 す る よ う に 定 式 化 され た も の の こ と で あ る 。 統 計 的 機 械 翻 訳 で 広

く利 用 され る 言 語 モ デ ル はNグ ラ ム(N‑gram)で あ る.Nグ ラ ム を 説 明 す る た め

に,ま ず は 自 然 言 語 処 理 に お け る 文 の 確 率 につ い て の 説 明 が 必 要 で あ る.文 の 確 率

は 特 定 の 単 語 列 の 同 時 確 率 だ と考 え られ る.「 彼 女 は 学 校 に 行 っ た 」 とい う 文 の 確

率 の 計 算 を 例 とす る.文 頭 記 号 くs>と 文 末 記 号 〈/s>を 加 え,文 の 確 率 はPr(<s>彼

女 は 学 校 に 行 っ た</s>)=Pr(wo=<s>w1=彼 女w2=学 校w3=にw4=行 っ

(20)

たw5=〈/s>)と な る.ベ イ ズ 定 理 に よ る 連 鎖 法 則 を 用 い て 文 の 確 率 は 以 下 の よ う に展 開 す る.

P(<s>彼 女 は 学 校 に 行 っ た</s>)

=P(ωO=<S>,ω1=彼 女,ω2=は,W3=学 校,ω4=に,ω5=行 っ た,ω6=</S>)

=P(ωO=<S>IWi=彼 女)×1)(W2=は1ωO=<S>,ω1=彼 女)

×P(ω3=学 校1ωo=<s>,ω1=彼 女,ω2=は)

×P(ω4=に1WO=<S>,ω1=彼 女,ω2=は,ω3=学 校)

×P(ω5=行 っ た1ωO=<S>,ω1二 彼 女,ω2=は,ω3=学 校,ω4ニ に)

×P(ω6=</S>1ωO=<S>,ω1=彼 女,ω2=は,ω3=学 校,ω4=に,ω5=行 っ た)

文 頭 は 必 ず<s>で あ る た め,違 う文 の 確 率 を 考 慮 す る と き 上 の 式 のP(Wo=<s>) を 無 視 して も い い.1個 の 単 語 か らな る 単 語 列wに 対 し,前 述 の よ うな 式 を 一 般 化 す る と式(3.21)に な る.実 際 に 計 算 す る とき は,文 字 列 の 頻 度(例 え ば,c(Wo))を 利 川 す る(式3.22).

    P(ω{)=rIpハIL(ωi1ω6‑1)

i=1

(3.21)

PA・・L(iV"ω6‑1)一

,響1)(3・22)

式3.22を 実 際 に 計 算 す る の は 難 し い が,条 件 付 き 確 率 を 計 算 す る 時 単 語Wiの 前 に あ る 全 て の 単 語 を 考 え ず,Wi直 前 のN‑1個 の 単 語 の み 考 え ば,式(3.23)に な

り 計 算 は よ り 簡 単 に な る.こ れ はNグ ラ ム と い う.白 然 、「 語 処 理 に お い て,特 に N=1,2,3の 場 合 は そ れ ぞ れ ユ ニ グ ラ ム(unigram),バ イ グ ラ ム(bigram),ト ラ イ グ ラ ム(trigram)と 呼 ぶ.

    

P(ω1)・ullPA4L(ψ 諏1)(3・23)

i=1

しか し,こ の 計 算 方 法 に は 一 つ の 問 題 が あ る.学 習 デ ー タ の 中 に 存 在 しな い,つ ま り頻 度 が0の 単 語 が 出 現 した ら,そ れ を 含 むNグ ラ ム の 推 定 確 率 が0に な る.確

10

(21)

率0の 問 題 を 解 決 す る た め に,線 形 補 間,Witten‑Bellな ど の 平 滑 化 手 法 が 提 案 さ れ た.

統 計 的 機 械 翻 訳 に お い て は,目 的 言 語 で 翻 訳 対 象 とす る 分 野 の 生 コ ー パ ス が 大 量 に 入 手 で き な い こ とが あ る た め,パ ラ レル コー パ ス の な か の 目 的 言 語 コー パ ス を 利 用 し言 語 モ デ ル を 作 る の が,一 般 的 な 手 法 で あ る.本 研 究 で も第4章 で 論 じ る コー パ ス に お け る 正 解 文 で 言 語 モ デ ル を 構 築 す る.そ れ 以 外 に,必 ず し も 分 野 が 一 致 し な くて も,様 々 な ジ ャ ン ル の テ キ ス トが 含 まれ た 大 規 模 な 生 コ ー パ ス か ら言 語 モ デ ル を 作 成 す る こ と も 広 く行 わ れ て い る.ウ ェ ブ コー パ ス は,多 様 な 内容 の テ キ ス ト が 含 ま れ て お り,大 規 模 に 入 手 で き る た め,言 語 モ デ ル の 構 築 に 適 して い る.今 回 の 実 験 で は,大 規 模 ウ ェ ブ コ ー パ ス で あ るGoo91e中 国 語 ウ ェ ブ5‑gramデ ー タ[81 を 使 用 す る.Google中 国 語 ウ ェ ブ5‑gramは 約1,000億 文 の コ ー パ ス か ら計 算 し たNグ ラ ム 頻 度 の デ ー タ か ら な る と て も 強 力 な コー パ ス で あ り,160万 の 語 彙 と 12億 の5グ ラ ム が 含 まれ て い る.

3.3文 法誤 りの 検 出

本 研 究 の タ ス ク は,誤 り 文 が 与 え ら れ た と き,誤 り が 発 生 し た 場 所 を 検 出 し,語 順(Disorder)冗 語(Redundant)脱 落(Missing)語 彙(Selection)の い ず れ か の タ イ プ を 判 断 す る と い う タ ス クで あ る.

で あ る.

誤 り タイ プ に つ い て の 説 明 は 以 下 の とお り

所 以 我 不 会 譲 失 望 地 type:Disorder

他 是 我 的 以 前 的 室 友 type:Redundant

那 電 影 是 机 器 人 的 故 事 type:Missing

我 穿 著 一 介(件)黄 色 的 襯 杉 type:Selection

対 社 会 国 家 有 不 同 的 影 哺 type:Correct

統 計 的 翻 訳 手 法 を 用 い て 翻 訳 モ デ ル を 訓 練 した あ と,入 力 文(誤 り文)を デ コ ー

ダ に 入 れ る と,翻 訳 文(訂 正 文)が 生 成 さ れ る.誤 り文 と訂 正 文 を 同 時 に 与 え る こ

(22)

図3.6誤 り検 出 ア ル ゴ リズ ム

1ニillputsentence,0=translatedsentence;

L=get ̲operations(1,0)i

i=num ̲insert(L);dニ11ulTl̲delete(L);

r=nunl̲replace(L)

f=posit・iol1 ̲且rstoperatio11(1」);

1=positioIl ̲lastoperatioll(L);

ifd>Oandi>O type←Disorder else三fr>O

type←Selection elseifd>O

type←Redundant elseifi>O

type←]Missing else

type←Correct endif

return(type,f,1)

と に よ っ て,動 的 計 画 法 で 誤 り文 か ら訂 正 文 へ の 文 字 単 位 の 編 集 操 作 の 系 列 が わ か る よ う に な る.編 集 操 作 の 系 列 情 報 を 利 用 し,図3.6で 示 さ れ て い る手 続 き で 誤 り の タ イ プ お よ び 文 の 中 に 誤 りが 発 生 し た 場 所 を 求 め る.入 力 文 に 対 応 す る 編 集 操 作 の 開 始 位 置 と終 了 位 置 に よ って 誤 りの 箇 所 を 確 定 で き,各 編 集 操 作 を 集 計 す る こ と に よ っ て 誤 り タ イ プ を 予 測 で き る.例 え ば,誤 り文 の 「中 国 語 文 例 」 と訂 正 文 の 「中 国 語 文 例 」 が 与 え られ た とす る と,文 字 単 位 の 編 集 操 作 の 系 列{equal,equal,equal, equal,equal,equal,delete,delete,equal,illsert,insert}が 得 ら れ る.入 力 文 字 列

に 対 応 す る 非equalの 操 作 の 位 置 は 「7,9」,そ し て:削 除 お よ び 挿 入 数 が と も に0 よ り大 き い の で 「Disorder」 と い う誤 りタ イ プ を 返 す.

12

(23)

第4章 中 国語 学習者 コーパスの構築

4.1対 訳 コ ー パ ス

コ ー パ ス と は,自 然 言 語 処 理 の 研 究 に用 い る た め 自然 言 語 の 文 章 を 構 造 化 し集 積 し た も の で あ る.例 え ば,『 現 代 日本 語 書 き 言 葉 均 衡 コ ー パ ス 』(BCCWJ)は30年

間(1976〜2005)に 刊 行 さ れ た 新 聞,雑 誌,書 籍 全 般 か ら無 作 為 にサ ン プ ル さ れ た 1億430万 語 を 含 む デ ー タ で あ る.こ の コ ー パ ス を 通 して 現 代 日本 語 の 書 き 言 葉 の 全 体 像 を 把 握 す る こ と が で き る.コ ー パ ス の サ イ ズ は コ ー パ ス に よ っ て か な り違 っ て い る.一 兆 語 も 含 ま れ るGoogleWebIT5‑gramコ ー パ ス も あ れ ば,百 万 語 し か 含 ま れ な い ブ ラ ウ ン コー パ ス(BrownCorpus)も あ る.対 訳 コ ー パ ス,あ る い は パ ラ レル コ ー パ ス と は 機 械 翻 訳 の 学 習 デ ー タ と して 利 用 す る た め 構 築 さ れ た,一 文 対 一 文 の 形 で ま とめ られ る コ ー パ ス で あ る.例 え ば,英 語 ウ ィ キ ペ デ ィ ア と 日本 語 ウ ィ キ ペ デ ィ ア の エ ン トリ 「ゲ テ ィ ス バ ー グ方 面 作 戦 」 の 中 に作 戦 背 景 に つ い て 紹 介 す る段 落 を 対 訳 文 に ま とめ る と1つ の ミニ サ イ ズ の パ ラ レル コー パ ス が 作 成 で き る.翻 訳 モ デ ル で あ るP(elf)の 確 率 推 定 に は 対 訳 コ ー パ ス が 不 可 欠 で あ る た め.

対 訳 コー パ ス は 統 計 的 機 械 翻 訳 に と っ て 前 提 条 件 で あ る.

LeedecideduponasecondinvasionoftheNorth リー は 北 部 へ の2回 目 の 侵 攻 を 決 断 した

SuchamovewouldupsetUnionplansforthesummercampaigningseason

そ の よ う な 動 き は 夏 の 作 戦 行 動 を 計 画 して い た北 軍 を 慌 て さ せ る こ とが で き giveLeetheabilitytomaneuverhisarmyawayfromitsdefensivepositions

リー 軍 に は 防 衛 的 陣 地 を 布 い て い た 状 態 か ら 出 て Lee'sarmycouldalsothreatenPhiladelphia,Baltimore,andWashington

リー 軍 は フ ィ ラ デ ル フ ィア 、 ボ ル テ ィ モ ア お よ び ワ シ ン トンD.C.を 脅 か す こ と も で き andencouragethegrowingPeacemovementilltheNorth

北 部 で 盛 り上 が りつ つ あ る 休 戦 の 動 き を 奨 励 す る 可 能 性 が あ っ た

で は,統 計 機 械 翻 訳 に 基 づ く 誤 り 訂 正 の た め の コ ー パ ス は ど う 構 築 す る の か?関 連 研 究[141と[17】 で は す で にSNSか ら 添 削 文 を 抽 出 し 学 習 者 コ ー パ ス を 構 築 す る

こ と が 可 能 な こ と が 示 さ れ て い る.以 上 の パ ラ レ ル コ ー パ ス の 例 と 同 様 に,正 し い

文 と 誤 り 文 を 一 対 一 に 対 応 付 け れ ば い い.こ れ か ら 本 研 究 で 構 築 さ れ た 中 国 語 学 習

者 コ ー パ ス に つ い て 詳 し く 説 明 し て い く.

(24)

、 阿 盲 色 州 的 森 林 有 復 多 石 器.

o阿 脊 色 州 的 森 林 里 有 復 多 石 器 。

■'脊 迂 可 以 改 成 「 哩着'

Good置Quotel◎ 餉

、1989年 我 在 阿 鴛 色 髭 了 新 昭 台 的 琶 段 筑 了石 器.

●1989年 我 在 阿 霜 色 短 髭 斬 β8台的tgas吋#筑 了石 罷 。

OYouCANNOTu8e砿alonelnstead.youshoulduse昌 融.Considenngyouuse碕to retertothefOundationof豊hePOrch.1量hmk糊 ■is8betterword.

GoodlQuotel噸 口自

、 碗 墨 期 六 在 異 素 崇 薗 家 公 日 的E林,Syla面 ゆre地 段 、反 木(しeatherwood)荒 野 我 看 罫1慣多 石 器 的 砕 片 。

● 上 ↑ 量 期 六,在 晃 黙弔 薗 憲 公 囲 的 森 林,Sylamore地 殿,反 木(Leathetwood)荒 野,我 看 到 複 多 石 盤 的 碑 片.

●A睡hough地 段 。sw曲afelativelylowfiequencyinMBndarin,1won'tconsideritas mCO「「ect

GoodlQuotel+鮪

図4.1外 国 語 学 習 者 向 け の 相 互 添 削 型SNSで あ るLang‑8

4.2Lang‑8学 習 者 コ ー パ ス

Lang‑8と は,言 語 学 習 者 向 け の 相 互 添 削 型SNSで あ る.Lang‑8で 言 語 学 習 者 が 学 習 中 の 言 語 で 日 記 を 書 く と,そ の 言 語 を 母 語 とす る 人 が 文 単 位 で 書 き 直 して く れ る.図4.1で 示 さ れ て い る の は あ る 中 国 語 学 習 者 の ペ ー ジ で あ る.

Lang‑8の ウ ェ ブ サ イ ト*か ら ス ク レイ ピ ン ク さ れ た デ ー タ は 図4.2の よ う な 形 式 で 格 納 さ れ て い る.学 習 言 語 を 「Mandarin」(標 準 中 国 語)に 限 定 す る こ と で,中 国語 学 習 者 が 書 い た 文 とそ れ に 対 応 す る訂 正 文 を さ ら に抽 出 で き る.

串http://cl

.naist.jp/nldata/lang‑8/

14

(25)

鯵1糖灘1鵬 騰:螺ll磁 無 騰il薯

図4.2Lang‑8の デ ・・一一一タ

4.3且SK作 文 コ ー パ ス

HSKと は 外 国 人 中 国 語 学 習 者 向 け の 中 国 語 試 験 で あ る.HSI〈 作 文 コ ー パ ス で は 毎 回HSK試 験 の 受 験 者 が 書 い た 作 文 を 収 集 し,中 国 語 教 師 に よ る 文 訂 正 が 以 下 の よ うな ア ノ テ ー シ ョ ン と して 文 の 中 に 追 加 さ れ て い る.

ア ノ テ ー シ ョ ン例:

這 就CQ要 由 有 關 部 門 和 政 策 管 理 制 度 來 控 制.

中 括 弧 に よ っ て ア ノ テ ー シ ョ ン さ れ た 場 所 は 誤 りが 発 生 した 場 所 で あ る.英 文 字 が 誤 り タ グ で あ り,こ こ で は 「 要 」 とい う単 語 が 欠 け て い る とい う意 味 で あ る.

こ の よ う な ア ノ テ ー シ ョ ンを 利 用 す れ ば 対 応 文 を 簡 単 に抽 出 で き る と思 わ れ る.

しか し,語 順 誤 り(Disorder)に つ い て の ア ノ テ ー シ ョ ン に はiEし い 語 順 が 示 さ れ て い な い た め,誤 り タ グか ら語 順 誤 りの 対 応 文 を 作 る の が 不 可 能 で あ る.そ れ 以 外 に,「 被 」 「 把 」 な ど 中 国 語 で の 特 殊 文 法 に つ い て の ア ノ テ ー シ ョ ン を 処 理 す る こ と も 非 常 に 難 し い.そ の た め,我 々 は 語 順 誤 り に 関 す る 学 習 者 コー パ ス の 抽 出 を 断 念 し た.最 終 的 にHSK作 文 コー パ ス か ら抽 出 した 対 応 文 に 含 ま れ る 誤 り は 冗 語 (Redundant)脱 落(Missillg)語 藁(Selection)と い う3つ の 誤 用 に 限 られ る.

4.4ク リ ー ニ ン グ

誤 り文 とそ れ に 対 応 して い る正 しい 文 との 単 語 単 位 で の 編 集 距 離 を 測 れ ば,コ ー パ ス 全 体 の 正 一 誤 文 編 集 距 離 の 分 布 が 得 られ る.表4.1が 示 す よ う に,本 研 究 で 最 終 的 に 評 価 を 行 う中 国 語 学 習 者 コー パ ス と比 較 す る と,前 節 で ウ ェ ブ か ら抽 出 し た 中 国 語 学 習 者 コ ー パ ス は 編 集 距 離 的 に か な りの 違 い が あ り,こ の コー パ ス を そ の ま ま 使 う と適 切 な 対 応 関 係 を 学 習 で き な い恐 れ が あ る.

そ こ で,テ ス トセ ッ トの 編 集 距 離 の 分 布 に 合 う よ う に コ ー パ ス を ダ ウ ン サ ン プ

(26)

表4.1コ ー パ ス で の 単 語 単 位 の 編 集 距 離 の 分 布(表)

0 1 2 3 4 5 6 7 >7

テ ス トセ ッ ト 0.00 33.83 41.56 10.09 8.19 3.93 1.40 0.86 0.13 Lang‑8 1.11 17.05 24.90 15.30 12.57 9.05 6.38 4.38 11.26 ク リー ニ ン グ 済 0.00 36.20 44.22 8.57 6.46 2.03 1.44 0.60 0.30

0 5 0 5 0 5 0 5 0 5 0 5 4 4 3 3 2 2 1 1 %

一1ang‑8 一 鳳set

‑deaned

01234567》7編 集 距 離

図4.3コ ー パ ス で の 単 語 単 位 の 編 集 距 離 の 分 布(図)

リ ン グ し ク リー ニ ン グ を 行 っ た.最 終 的 に 得 られ た コ ー パ ス の 編 集 距 離 分 布 は 図 4.3の 「ク リー ニ ン グ 済 」 で 示 さ れ て い る.抽 出 し ク リー ニ ン グ し た 結 果 と して Lang‑8学 習 者 コ ー パ ス か ら58,249文,HSK作 文 コ ー パ ス か ら59,027文,合 わ せ て117,276文 の 正 一 誤 文 パ ラ レル コー パ ス が 得 られ た.

16

(27)

第5章 シ ステムの評価 と最適化

5.1シ ス テ ム の 評 価

用 意 して お い た テ ス トセ ッ トを 入 力 と して シ ス テ ム に 入 れ,得 ら れ た 出 力 と正 解 を 参 照 す れ ば,表5.1の よ う な 出 力 の 評 価 が で き,そ して,あ る テ ス トデ ー タ が 与 え られ た と き,図5.1の 計 算 式 を 用 い れ ば シ ス テ ム の 性能 を 表 れ る 正 解 率 な どが 求 め られ る.3.3節 で 述 べ た よ う に,誤 り訂 正 の タ ス ク は 誤 り文 が 与 え られ た と き,誤 りが 発 生 した 場 所 を 検 出 し,語 順(Disorder)冗 語(Redundant)脱 落(Missing) 語 彙(Selection)の い ず れ か の タ イ プ を 判 断 す る こ とで あ る.こ の タ ス ク は,さ ら に2つ の レベ ル の サ ブ タ ス ク に分 け られ る:

・1)誤 り タ イ プ の 予 測

・2)誤 り タ イ プ を 確 定 し た 上 で 誤 り箇 所 の 予 測

サ ブ タ ス ク の レ ベ ル に よ っ て 評 価 結 果 が 違 う こ と が あ る.こ れ か ら 本 論 文 で は,サ ブ タ ス ク の レ ベ ル1)を ア イ デ ン テ ィ フ ィ ケ ー シ ョ ン レ ベ ル(ldentification Level)と 呼 び,サ ブ タ ス ク の レ ベ ル2)を ポ ジ シ ョ ン レ ベ ル(PositionLevel)と 呼 ぶ.

5.2シ ス テ ムの 最適 化

対 訳 コー パ ス とテ ス トデ ー タ は 必 ず 同 じ ドメ イ ン に属 す る とは 限 らな い.か り に ドメ イ ン が 同 じ と して も,言 葉 遣 い な ど に よ る 文 章 の ス タ イ ル が 違 う こ とが 多 い.

そ の た め,学 習 さ れ た デ ー タ を 調 整 し翻 訳 精 度 を 上 げ る の は 統 計 的 機 械 翻 訳 に お け

表5.1出 力 の 評 価

正 解

Positive Negative シス テム の出 力 Positive TruePositive(TP) FalsePositveFP

Negative FalseNegative(FN) TrueNegative(TN)

(28)

図5.1各 評 価 指 標 の 計 算

・ 正 解 率Accurac:uニ(T・P+TN)/(TP+Tlv+F・P+・Flv)

● 適 合 率Preciston=TP/(TP+FP)

・ 再 現 率 ・Recall=TP/(TP+FN)

●F1値 」F†1=2×PrecistonxRecall/(Prec琶5客on十Reca,ll)

●FP率FP ̲rate・=FP/(TP十TN十F1〕 十F」 へり

る一 般 的 な 方 法 で あ る.こ れ は 最 適 化 あ る い は チ ュー ニ ン グ と呼 ぶ.中 国 語 学 習 者 コー パ ス に お け る 原 言 語(誤 り文)コ ー一パ ス は,中 国 語 を 外 語 語 と して 勉 強 して い る外 国 人 学 習 者 に 書 か れ た 文 章 か ら構 築 さ れ た.一 ・ 方,テ ス トデ ー タ はNLP‑TEA オ ー プ ン タ ス ク の 公 式 デ ー タ で あ り,中 国 語 を ネ イ テ ィ ブ,㌃語 と し て 勉 強 し て い る 台 湾 人 学 生 の 作 文 か ら サ ン プ リ ン グ さ れ た.そ の た め,文 法 誤 り訂 正 シ ス テ ム に 対 す る 最 適 化 が 必 要 で あ る.

式(3.11)を 一 般 化 す る と対 数 線 形 モ デ ル で 表 現 で き る(式521).こ こ で,h(.) は ω に よ り 重 み 付 け さ れ るM次 元 の 素 性 関 数 で あ る.使 え る 素 性 は 翻 訳 モ デ ル Pr(fle)と 言 語 モ デ ルPr(e)に 限 ら ず,本 研 究 で は 単 語 ペ ナ ル テ ィ と語 順 並 べ 替

え の 素 性 も あ る.シ ス テ ム を 最 適 化 す る こ と に,MERT(MinimumErrorRate Training,エ ラ ー 最 小 化 学 習)[6]と い う アル ゴ リズ ム が 利 用 さ れ た.

e一 乱・gmaxcvTh(・,f)

・∈ε(∫) (5.21)

CoNLL‑2014の オ ー プ ン タ ス ク に お い て は 訂 正 精 度 を 向 上 さ せ る た め に い くつ か シ ス テ ム の 最 適 化 手 法 が 提 案 され た.例 え ば,[21]で はFo.5を 評 価 指 標 と し て チ ュー一 ニ ン グを 行 っ た.[22]はMERTとkb‑MIRAと い う2つ の 最 適 化 ア ル ゴ リ ズ ム を 結 合 した.[21】 と[22]の 研 究 に よ っ て,適 りJなチ ュ ー ニ ン グを 用 い れ ば シ ス テ ム の 性 能 を 向 上 す る こ とが で き る こ とが 示 さ れ て い る.そ こ で,本 研 究 で は,評 価 尺 度 と して の 正 解 率,F1値,FP率 を 全 部 用 い て 最 適 化 す る た め に,以 下 の 線 形 結 合 を 用 い る.

18

(29)

Score=α × 」]三 角輩率+β ×F1+γx(1‑FP率) 工E夫 見イヒVこ α+β+y=1.0

正 解 率,F1値,FP率 の ト レ ー ドオ フ は ハ イ パ ー パ ラ メ ー タ に よ っ て 調 整 す る.

予 備 実 験 に よ っ て,(α,β,γ)ニ(0.5,0.0,0.5)に 設 定 し た.チ ュ ー ニ ン グ に 関 す

る 問 題 は,次 の 章 で 詳 し く述 べ る.

(30)

第6章 実験

6.1実 験 設 定

WAT2015累 の ベ ー ス ラ イ ン に 従 い,フ レ ー ズ ベ ー ス と 階 層 的 フ レ ー ズ ベ ー ス の 中 国 語 文 法 誤 り 訂 正 シ ス テ ム を 構 築 し た.単 語 分 割 の ツ ー ル はStanfordWord Segmenter(version2014。01‑04)単 語 ア ラ イ メ ン トの ツ ー ル はGIZA++v1.07で

あ る.BerkeleyParser(version1.7)で 中 国 語 解 析 を 行 っ た.コ ー パ ス に よ る 言 語 モ デ ル とGoogle中 国 語5‑gram言 語 モ デ ル は 両 方 と もIRSTLMv5.80.06で 作 成 し た.デ コ ー ダ はMosesv2.11で あ る 。ZMERT【23]と い う ツ ー ル に よ っ て 最 適 化 を した.

テ ス トセ ッ トは 中 国 語 文 法 誤 り訂 正 オ ー プ ン タ ス クNLP。TEA2[24]で 公 式 に 使 わ れ,以 下 の よ う に 誤 り文 と訂 正 文 が あ り,人 手 で 誤 り タ イ プ と 位 置 が ア ノ テ ー シ ョ ン され て い る.1,400文 の 中 で は 正 しい 文(Correct)と 誤 り文 の 割 合 が 半 々 で 与 え られ,そ して 誤 り文 で は 語 順(Disorder)冗 語(Redundant)脱 落(Missing) 語 彙(Selection)の 誤 り の 割 合 が 均 等 に な っ て い る.ま た 文 の 構 成 が 同 様 な 開 発 セ ッ トが2,100文 用 意 さ れ て い る.

テ ス トセ ッ トの サ ン プ ル Errorsentence:我 送 伯く 那 里 Correctsentence:我 送fホ 去 那 里

(日 本 語 訳:私 は あ な た を あ ち ら に 送 っ て あ げ ま す) TYPE:Missing

以 上 の 設 定 に よ っ て,以 下 の3種 類 の 実 験 を 行 っ た.

・ コー パ ス の サ イ ズ は 結 果 に影 響 を 与 え る の か を 明 ら か に す る た め に,コ ー パ ス を 分 割 し,サ イ ズ が 違 う部 分 コー パ ス を 利 用 して シ ス テ ム を 訓 練 し た.

・2つ の 訂 正 モ デ ル を 対 比 す る た め に,全 コ ー パ ス で フ レー ズ ベ ー ス シ ス テ ム と 階 層 的 フ レ ー ズ ベ ー ス モ デ ル を 訓 練 した.ま た,大 規 模 言 語 モ デ ル を 評 価 す る た め に,中 国 語 学 習 者 コ ー パ ス に よ る 言 語 モ デ ル をGoogle中 国 語 5‑gram言 語 モ デ ル に 入 れ 替 え,実 験 を 行 っ た.

・ 評 価 尺 度 に 対 す る 最 適 化 の 有 効 性 を 示 す た め に,チ ュ ー ニ ン グ した か ど うか

"http://orchid.kuee.kyoto‑u.ac.jp/WAT/

20

(31)

表6.1コ ー パ ス サ イ ズ が 訂 正 精 度 に与 え る 影 響

文数 F値

58,000 0.013

73,000 0.025

88,000 0.064

103,000 0.094

117,000 0.108

の 対 照 実 験 を 行 っ た.

テ ス トセ ッ トで の 評 価 で は ポ ジ シ ョ ン レベ ル(誤 り の タ イ プ と箇 所)の 誤 り検 出 に よ っ て 行 っ た が,開 発 セ ッ トで の チ ュー ニ ン グ と評 価 は ア イ デ ン テ ィ フ ィ ケ ー シ ョ ン レベ ル(誤 り タ イ プ の み)で 行 っ た.こ れ は,後 述 の よ う に 本 手 法 の ポ ジ シ ョ ン レベ ル の 訂 正 精 度 は ま だ 高 くな く,予 備 実 験 で は ポ ジ シ ョ ン レベ ル で チ ュ ー ニ ン グ して も最 後 の 結 果 へ の 影 響 が わ ず か で あ っ た た め で あ る.

6.2中 国語 学 習者 コーパ ス の実験 結果 と考 察

表6.1が 表 して い る よ う に,コ ー パ ス 全 体 の1/2し か 使 わ な い 場 合,訂 正 シ ス テ ム に よ る 予 測 は ほ とん ど間 違 っ て い る.コ ー パ ス の サ イ ズ を 線 形 的 に 増 や す と,F1 値 も ほ ぼ 線 形 的 に上 が っ て い く.一 つ の 正 一 誤 対 応 文 に は,誤 り の あ る 箇 所 は 多 く

な い た め,全 て の 単 語 を 翻 訳 しな け れ ば な ら な い 普 通 の 機 械 翻 訳 タ ス ク と比 較 す る と,学 習 者 文 が 正 しい 場 合 に は 翻 訳 しな くて よ い 誤 り訂 正 タ ス ク に お い て は,翻 訳 モ デ ル が 学 習 した 「 訂 正 に 有 用 な 」 ア ラ イ メ ン トは 少 な い と思 わ れ る.つ ま り,統 計 的 機 械 翻 訳 を 用 い た 誤 り訂 正 タ ス クは 普 通 の 翻 訳 タ ス ク よ り大 き な コー パ ス が 必 要 で あ る,と 推 測 さ れ る.こ の 知 見 は,Mizumotoら[17]の 研 究 に よ っ て 英 語 学 習 者 コ ー パ ス の 分 量 が 英 語 文 法 誤 り訂 正 に 与 え る 影 響 を 調 査 した 結 果 と一 致 す る.

本 研 究 で は 実 際 に 学 習 者 が 書 い た 文 か ら 誤 り訂 正 モ デ ル を 構 築 し た が,テ ス ト

セ ッ トは 正 しい 文 と誤 り文 が 均 等 に な る よ うに 構 成 され,ま た 誤 り タ イ プ も 同 数 含

ま れ て い る の で,単 に 編 集 距 離 の 分 布 が 同 じよ う に ダ ウ ン サ ン プ リ ン グす る だ け で

は,必 ず し も テ ス トセ ッ トの 性 質 とパ ラ レル コ ー パ ス の 性 質 が 同 じで は な か っ た 可

能 性 が あ る.従 っ て,テ ス トセ ッ トと誤 りが 同 様 の 分 布 に な る よ う に,学 習 者 コ ー

パ ス を サ ン プ リ ン グす る,と い っ た 手 法 が 考 え られ る.

(32)

表6.2違 うモデル の組 み合わせ に よ る訂 正結 果

FP率 正解 率 適合率 再現率 F1値

中国語 学 習者 コー パ ス PB 0,134 0,459 0,193 0,032 0,055 HPB 0,350 0,362 0,175 0,074 0,104

Google中 国 語5‑gram HPB 0,163 0,493 0,193 0,050 0,080

6.3訂 正 モデル と言語モデルに関する実験結果 と考察

表6.2上 部 に 示 さ れ て い る の は2つ の 訂 正 モ デ ル に よ る 結 果 で あ る.こ の 結 果 か ら は,フ レー ズ ベ ー ス モ デ ル(PB)と 階 層 的 フ レー ズ ベ ー ス(HPB)と の 優 劣 を つ け る こ とは で き な い.HPBはPBよ り誤 りを 正 し く検 出 で き た 事 例 の 数 が 多 い が,FP率 が 高 く,HPBは 正 しい 入 力 文 を 変 え て しま う 傾 向 が あ る.さ ら に,訂 正 手 法 と し て 重 視 さ れ る 適 合 率(Precision)が 少 し劣 っ て い る.

しか し,予 想 通 り階 層 的 フ レ ー ズ ベ ー ス モ デ ル は 普 通 の フ レ ー ズ ベ ー ス モ デ ル よ り多 くの 語 順 誤 り を 正 し く予 測 で き た.フ レー ズ ベ ー ス モ デ ル で は 正 し く予 測 し た 誤 り文 の な か に は 語 順 の タ イ プ が1つ しか な い.そ れ に 対 して 、 階 層 的 フ レー ズ ベ ー ス モ デ ル で は7つ の 語 順 誤 りを 正 し く検 出 で き た.一 つ の 例 を 挙 げ て み る と::

入力文 其中有壼個人去護照了

(日本語訳:そ のなかの一人はパスポー トを紛失 した) PB出 力文:其 中有壼個人去護照 了(未 訂正) HPB出 力文:其 中有壼個人去了護照(正 解)

の よ う に,「 去 」 と 「 護 照 」 い っ た離 れ た と こ ろ に あ る 単 語 同 士 を 入 れ 替 え る こ と が で き て い る.さ ら に,普 通 の フ レー ズ ベ ー ス モ デ ル で は 語 彙 誤 り を1つ も 検 出 で き な か っ た が,階 層 的 フ レー ズ ベ ー ス モ デ ル で は5つ の 誤 りを 検 出 し た 。

しか しな が ら,他 の 手 法 と比 較 して フ レー ズ ベ ー ス 訂 正 手 法 の 精 度 は 高 くな い.

中 国 語 文 法 誤 り訂 正 オ ー プ ン タ ス クNLP‑TEA2[24]の 最 終 結 果 をF1値 で ラ ンキ ン グす る と,本 研 究 の 階 層 的 フ レー ズベ ー ス モ デ ル に よ る結 果 は ち ょ う ど真 ん 中 に 位 置 す る.6.2節 の 結 果 と合 わ せ て 考 え る と,フ レー ズ ベ ー ス の 訂 正 手 法 は 大 規 模 な 学 習 者 コ ー パ ス を 必 要 とす る た め,10万 文 規 模 の 学 習 者 コ ー パ ス で は カ バ ー 率 が 不 足 し,分 類 器 に 基 づ く手 法 と比 較 して 訂 正 性 能 が 劣 っ て い る,と 推 測 され る.

22

(33)

本 手 法 は 誤 り訂 正 を した 後 に誤 り分 類 を 行 うが,誤 り分 類 を 先 に 行 う こ とで 訂 正 可 能 な 誤 り タ イ プ に 訂 正 先 を 限 定 してFP率 を 下 げ る手 法 や,誤 り訂 正 と誤 り分 類 を 同 時 に 学 習 す る手 法 も考 え られ る.

Google中 国 語5‑gramの 生 デ ー タ デ ー タ はgzipで 圧 縮 さ れ た 約60GBの フ ァ イ ル で あ る.IRSTLMツ ー ル[9]で 言 語 モ デ ル 化 し,Mosesデ コ ー ダ が 処 理 で き る ARPAフ ァイ ル に 転 換 す る こ と に80時 間 を か け た(CPU:lnte1(R)Xeon(R)CPU

E5‑26500◎2.00GHz).最 終 的 に コ ン パ イ ル され たARPAフ ァイ ル は29GBで あ る.

階 層 的 フ レー ズ ベ ー ス の 実 験 設 定 に 基 づ い て,中 国 語 学 習 者 コー パ ス に よ る言 語 モ デ ル をGoogle中 国 語5‑gram言 語 モ デ ル に 入 れ 替 え る と,表3の 下 の よ う な 結 果 とな っ た.言 語 モ デ ル を 入 れ 替 え た 結 果,F1値 が3ポ イ ン ト下 が っ た が,FP率

と 正 解 率 が10ポ イ ン ト以 上 改 善 した.中 国 語 学 習 者 コ ー パ ス と分 野 は 違 っ て も, 大 規 模 な コ ー パ ス か ら言 語 モ デ ル を 構 築 し た方 が,全 体 的 な 訂 正 精 度 は 向 上 した と 考 え られ る.

統 計 的 機 械 翻 訳 で も リ カ レ ン トニ ュー ラ ル ネ ッ トワ ー ク 言 語 モ デ ル[26]の よ う に 過 去 の 履 歴 を 考 慮 す る こ と で 予 測 性 能 を 向 上 さ せ る 手 法 が 提 案 さ れ て お り,誤 り訂 正 に も有 効 で あ る 可 能 性 が あ る.

6.4評 価 と最 適化 の実験 結 果 と考察

第5章 で 述 べ た よ う に,以 上 の す べ て の 実 験 結 果 は ハ イ パ ー パ ラ メ ー タ セ ッ ト (α,β,γ)=(0.5,0.0,0.5)の 設 定 の 上 で 得 られ た.こ の ハ イ パ ー パ ラ メー タ セ ッ

トの 有 効 性 を 証 明 す る た め に,フ レー ズ ベ ー ス と階 層 的 フ レー ズ ベ ー ス モ デ ル で そ れ ぞ れ 対 照 実 験 を 行 っ た.そ の 結 果 は 表6.3で 示 さ れ て い る.β=0と 設 定 し て も正 解 率 とFP率 の 改 善 と と も にF1仙 も上 が っ た.こ の よ う な ハ イ パ ー パ ラ メ ー タ セ ッ トは 望 ま しい 設 定 と思 わ れ る.

一・ 方 ,理 論 的 に は(α,β,γ)=(0.0,1.0,0.0)に 設 定 す れ ば,F1値 を 最 大 化 す る よ う に 最 適 化 す る こ と に な る の で,MERTで チ ュー ニ ン グ し た あ と一 番 高 いF1 値 を 得 る は ず だ が,実 際 に 開 発 セ ッ トで 実 験 して み た と こ ろ,表6.4の よ うな 結 果

に な っ た.F1値 は0.2ポ イ ン ト近 く向 上 した が,FP率 が 異 常 に 高 い.こ れ は,シ

(34)

表6.3チ ュ ー ニ ン グ が 訂 正 精 度 に 与 え る 影 響(F1値)

PB HPB

チ ュ ー ニ ン グ1前 0.0513 0.0868 チ ュー ニ ン グ後 0.0701 0ユ080

表6.4(a,β,y)=(O.O,1.0,0.O)に 対 す る フ レー ズ ベ ー ス 訂 正 モ デ ル で の 実 験 結 果

IFP lPBIO.997

fE解 率 O.146

適合率

0.144

再現率

O.993

F1値 0251

表6,5(α,β,y)=(0.5,0,0,0.5)に 対 す るstring‑t〔}‑tree訂 正 モ デ ル で の 実 験 結 果

FP 正 解率 適合率 再現率 F1値

チ ュ ・ 一 ニ ン グ 前 0.3973 0.4087 0.1042 0.0787 0.0896 チ ュ ・ 一 ニ ン グ 後 0.1029 0.4747 0.0480 0.0057 0.0102

ス テ ム が 元 の 文 を 訂 正 しす ぎ,ほ とん どの 文 を 誤 り文 と認 定 して し ま っ た 結 果 で あ る.実 際 の 訂 正 文 も 元 の 文 か ら大 き くか け 離 れ た も の に な っ て し ま っ て い る の で, 訂 正 結 果 と し て 使 え な い.

そ れ で は,(α,β,y)ニ(0.5,0.O,0.5>と い うハ イ パ ー パ ラ メ ー タセ ッ トは 万 能 で あ る の か?そ れ に つ い て さ らに 追 加 実 験 で8tring‑to‑tree翻 訳 モ デ ル を 訂 正 モ デ ル と して 試 した.実 験 設 定 で は またWAT2015の べ ー一ス ラ イ ン に 従 い,Mosesデ コー ダ を 用 い た.最 適 化 の 効 果 を 検 討 す る た め,開 発 セ ッ トで チ ュ ー ニ ン グ した シ ス テ ム とチ ュ ー ニ ン グ し て い な い シ ス テ ム を 比 較 し た.実 験 結 果 は 表6,5で 示 され て い る.正 解 率 とFP率 が 改 善 さ れ た が,F1値 の 結 果 が 極 め て 低 い.こ れ は,β

=0と した た め にF1値 を 無 視 す る チ ュ ー ニ ン グ とな っ て しま っ た せ い で あ る.シ ス テ ム は ほ とん ど の 誤 り タ イ プ を 「Correction」 に 予 測 して しま う の で,F1値 で 最 適 化 し た 実 験 結 果 と は 逆 で,ほ とん どの 入 力 で は 元 の 文 を 全 く変 え な い た め,訂 正 結 果 と して は 受 け 入 れ られ な い.string‑to‑tree翻 訳 モ デ ル で の 訂 正 タ ス ク に は, (α,β,γ)=(0.5,0.0,0.5)と は 別 の 適 切 な ハ イ パ ー一パ ラ メ ー タ セ ッ トが 必 要 だ と 思 わ れ る.

一 つ の 方 針 と して

,機 械 翻 訳 の 複 数 の 評 価 尺 度 に 対 して 最 適 化 す る 際 に,Duhら

24

(35)

[27]の 研 究 で パ レー ト最 適 化 を 用 い る 手 法 が 提 案 され て お り,誤 り訂 正 に もパ レー ト最 適 化 が 有 効 で あ る 可 能 性 が 考 え られ る.

追 加 実 験 で は 人 手 で い くつ か の ハ イ パ ー パ ラ メ ー タ セ ッ トを 設 定 し行 わ れ た.

MERTな ど の 最 適 化 ア ル ゴ リ ズ ム で ハ イ パ ー パ ラ メ ー タ セ ッ トを 自動 学 習 す る こ

とが 可 能 で あ る が,本 実 験 で はZMERTに よ りパ ラ メ ー タ セ ッ トを 最 適 化 して お

り,ハ イ パ ー パ ラ メ ー タ セ ッ トま で 自 動 で 最 適 化 す る の は 計 算 最 が 非 常 に 膨 大 に な

る た め,我 々 の 実 験 で は 試 さ な か っ た.

(36)

第7章 おわ りに

本 稿 で は,統 計 的 機 械 翻 訳 を 用 い た 中 国 語 文 法 誤 り訂 正 手 法 に つ い て 説 明 した.

中 国 語 文 法 誤 り訂 正 に必 要 な 学 習 者 コー パ ス を 構 築 す る 手 法 を 紹 介 し,語 順 誤 りに 強 い 階 層 的 フ レ ー ズ ベ ー ス の 使 用 を 提 案 した.さ ら に 訂 正 精 度 を 向 上 す る た め に, 評 価 尺 度 で 線 形 ス コ ア を 作 りチ ュ ー ニ ン グ を した.最 後 に,シ ス テ ム の そ れ ぞ れ の 構 成 要 素 の 効 果 を 検 証 した 実 験 に つ い て 述 べ た.

6.3節 に 述 べ た よ う に,学 習 者 コー パ ス の 規 模 が11万 文 で は,本 稿 で 対 象 と した よ う な 誤 りを 訂 正 す る た め に統 計 的 機 械 翻 訳 手 法 を 適 用 す る に は ま だ 不 足 して い る と思 わ れ る.コ ー パ ス を さ らに 拡 充 す る た め に,Lang‑8やHSKの よ うな 文 法 誤 り 訂IEに 特 化 した リ ソー ス か ら コー パ ス を 抽 出 す る だ け で は な く,関 連 研 究[16]で 用 い ら れ た 手 法 の よ う に 人 工 的 に 擬 似 負 例 を 作 成 しコ ー パ ス を 構 築 す る こ と も 可 能 で あ る.ま た,5.4節 で 論 じた 最 適 化 の 問 題 に 対 して,ベ イ ズ 的 最 適 化[28]な ど,洗 練 され た最 適 化 手 法 を 適 用 す る こ とが 今 後 の 課 題 で あ る.

26

(37)

謝辞

本 研 究 を 進 め る に あ た り.ご 指 導 を 頂 い た 卒 業 論 文 指 導 教 員 の 小 町 守 准 教 授 に 感 謝 致 しま す.日 常 の 議 論 を 通 じ て 多 くの 知 識 や 示 唆 を 頂 い た 小 町 研 究 室 の 皆 様 に 感 謝 し ま す.ま た,Lang‑8の デ ー タ ベ ー ス を 提 供 して い た だ い た 喜 洋 洋 氏 に,謹 ん

で 感 謝 の意 を 表 す る.

図 目次 1 2 3 4 5 6 1 2 3333333444 1 り5 フ レ ー ズ ア ラ イ メ ン ト................フ レ ーズ 抽出..................誤り 訂 正 タ ス ク に お け る 生 成 ル ー ル...,.....グ ル ー ル ー ル.............,.......訂 正 タ スク に お け る 翻 訳 生 成............誤り 検 出 ア ルゴ リ ズ ム................外 国 語 学 習 者 向 け の

参照

関連したドキュメント

ハイブリッド機械翻訳を柔軟に構成するための ソフトウェアアーキテクチャ設計 2014SE062  松岡秀樹 指導教員:沢田篤史

タセットでは,英仏では約 3,600 万文ペア,英独で は約

1 翻訳ピカイチ 欧州語について この章では、翻訳ピカイチ 欧州語の機能、動作環境、専門語辞書、翻訳エンジンにつ いて説明します。 1.1

精度.. 機械翻訳の特徴と近未来 平均的 日本人 を凌ぐ 語学力 進化は まだ停 まりそ うにな い。 多言語 を扱え る 24時間 365日 稼働

2.研究の目的

中国語の部屋 (Chinese Room) (Searle ’90) • 部屋の中に中国語が分からない人を配置 •

依存文法による翻訳 別の例 girl John telescope a with saw ジョンは 見た 望遠鏡を 少女を girl. John saw a

処理の立場から取り組んだものである。音声言語間の機械翻訳では、一般に入出力ともに