学 修 番 号14890521
修士論文
統計 的機械翻訳 を用 いた中国語文法誤 り訂正
趙 寅環
2016年1月29日
首都大学東京大学院
システムデザイン研究科 情報通信 システム学域
趙 寅環
審査委員:
小町 守 准教授 石川 博 教授
三浦 幸也 教授
(主指導教員)
(副指導教員)
(副指導教員)
統計的機械翻 訳 を用 いた中国語文法誤 り訂正*
趙 寅環
内容梗概
イ ン タ ー ネ ッ トの 発 展 を き っ か け に,異 文 化 交 流 の 機 会 が 増 加 しつ つ あ る.し か しな が ら,外 国 語 教 育 で は教 師 不 足 とい う厳 し い現 状 が あ る.そ れ に 対 処 す る た め に,近 年,外 国 語 学 習 者 の た め の 文 法 誤 り自動 訂 正 に つ い て の 研 究 が 盛 ん に な っ て き て い る.
統 計 的 機 械 翻 訳 を 用 い た 文 法 誤 り訂 正 の ア イ デ ィ ア は,誤 り文 を原 言 語,正 し い 文 を 目 的 言 語 とみ な し,誤 りが あ る文 を 正 しい 文 に 「 翻 訳 」 す る.今 ま で 統 計 的 機 械 翻 訳 に 基 づ く手 法 で 英 語 や 日本 語 な どの 誤 り自動 訂 正 を 行 う研 究 は す で に 存 在 す るが,中 国 語 に つ い て の 研 究 は ま だ 少 な い.そ こで,本 研 究 で は 統 計 的 機 械 翻 訳 手 法 に基 づ く中 国 語 文 法 誤 り 自動 訂 正 手 法 を提 案 す る.本 論 文 で は,中 国 語 文 法 誤 り
訂 正 の た め の 対 訳 コ ー パ ス の 構 築,階 層 的 フ レ ー ズ ベ ー ス の 訂 正 モ デ ル と言 語 モ デ ル の 使 用,誤 り訂 正 の 評 価 と最 適 化 に つ い て 詳 し く論 じ て い く.
対 訳 コ ー パ ス は統 計 的 機 械 翻 訳 の 学 習 デ ー タ と して 構 築 され,統 計 的 機 械 翻 訳 に とっ て 不 可 欠 な も の で あ る.統 計 的 機 械 翻 訳 手 法 を適 用 で き る だ け の 中 国 語 学 習 者 コ ー パ ス が 存 在 しな か っ た の は,統 計 的 機 械 翻 訳 手 法 に 基 づ く中 国 語 文 法 誤 り訂 正 に つ い て の研 究 が 少 な い とい う現 状 の 一 つ の 原 因 で あ る.本 研 究 で は,外 国 語 学 習 SNSと 中 国 語 試 験 の 作 文 か ら対 訳 文(正 し い 文 一誤 り文)を 抽 出 し,中 国 語 誤 り 訂 正 の た め の 大 規 模 対 訳 コ ー パ ス を構 築 す る.構 築 され た コー パ ス を 利 用 し,コ ー パ ス サ イ ズ が 訂 正 精 度 に どの よ うな 影 響 を与 え る の か に つ い て 実 験 を 行 う.翻 訳 モ デ ル と言 語 モ デ ル は統 計 的 機 械 翻 訳 の 基 本 構 成 要 素 で あ る.フ レー ズ ベ ー ス モ デ ル と階 層 的 フ レー ズ ベ ー ス モ デ ル は 統 計 機 械 翻 訳 に お い て 広 く利 用 され る 翻 訳 モ デ ル で あ る.本 研 究 で は 以 上 の2つ の翻 訳 モ デ ル を用 い て 実 験 を 行 い,翻 訳 モ デ ル に よ る訂 正 結 果 の 相 違 に つ い て 検 討 す る.統 計 的 機 械 翻 訳 に お い て は,目 的 言 語 で 翻
̀首 都 大 学 東 京 大 学 院 シ ス テ ム デ ザ イ ン 研 究 科 情 報 通 信 シ ス テ ム 学 域 修 士 論 文 ,学 修 番号14890521,
2016年1月29日.
訳 対 象 とす る分 野 の 生 コ ー パ ス が 大 最 に 入 手 で き な い こ とが あ る た め,対 訳 コ ー パ ス の な か の 目 的 言 語 コ ー パ ス を 利 用 し言 語 モ デ ル を 作 る の が 一 般 的 な 手 法 で あ る.
本 研 究 で も 正 一 誤 文 対 訳 コー パ ス に お け る 正 解 文 で 言 語 モ デ ル を 構 築 す る.そ れ 以 外 に,様 々 な ジ ャ ンル の テ キ ス トが 含 ま れ た 大 規 模 な 生 コ ー パ ス か ら言 語 モ デ ル を 作 成 す る こ と も広 く行 わ れ て い る.今 回 の 実 験 で は,大 規 模 ウ ェ ブ コー パ ス で あ る Google中 国 語 ウ ェ ブ5‑gramデ ー タ も使 用 す る.
訂 正 シ ス テ ム の 性 能 を 評 価 す る に は,正 解 率,適 合 率,再 現 率 な ど を 評 価 尺 度 と して 用 い る.し か し,対 訳 コ ー パ ス とテ ス トデ ー タが 必 ず 同 じ ドメ イ ン に属 す る と は 限 ら な い.仮 に ドメ イ ン が 同 じ と して も,言 葉 遣 い な ど に よ る 文 章 の ス タ イ ル が 違 う こ とが 多 い.そ の た め,学 習 さ れ た デ ー タ に対 して 調 整 し翻 訳 精 度 を 上 げ る の は 統 計 的 機 械 翻 訳 に お け る 一 般 的 な 方 法 で あ る.本 研 究 で は,前 述 した 評 価 尺 度 に よ る 線 形 的 評 価 ス コ ア を 用 い て,線 形 ス コ ア の 重 み 付 け を 調 整 し最 適 化 を 行 う.
本 論 文 の 主 要 な 貢 献 を 以 下 に 示 す.
・ 中llミ1語 文 法 誤 り孟「正 の た め の 大 規 模 中liミ1語 学 習 者 コ ー パ ス(正 一 誤 文 パ ラ レ ル コー パ ス)を 構 築 した.こ の コー パ ス は 統 計 的 機 械 翻 訳 手 法 に 適 用 す る だ
け で は な く,学 習 デ ー タ と して ほ か の 中 国 語 誤 り訂 正 手 法 に も利 用 で き る.
● 統 計 的 機 械 翻 訳 手 法 は 理 論 上 す べ て の,「語 の 誤 り訂 正 に 適 川 可 能 で あ る が, 中 国 語 文 法 誤 り訂 正 タ ス ク に お い て 統 計 的 機 械 翻 訳 手 法 を 用 い る と い う の は,本 研 究 が 初 め て で あ る.
本 研 究 の 研 究 成 果 はNPL‑TEAと い う 中 国 語 文 法 誤 り 訂 正 ワ ー ク シ ョ ッ プ で 公 開 され た.実 験 の 最 終 結 果 をF1値 で ラ ン キ ン グす る と,NLP‑TEAの オ ー プ ン タ ス ク へ6つ の 参 加 チ ー ム の 提 出 さ れ た15個 の 結 果 の 中 で は,本 研 究 の 階 層 的 フ レー ズ ベ ー ス モ デ ル に よ る結 果 は ち ょ う ど真 ん 中 に 位 置 す る.現 時 点 に お け る 提 案 手 法 に よ る 訂 正 精 度 は ま だ 改 善 の 余 地 あ る が,人 工 的 に 擬 似 負 例 を 作 成 し さ ら に コー パ ス を 拡 充 す る こ と.そ して ベ イ ズ 的 最 適 化 な ど洗 練 さ れ た 最 適 化 手 法 を 適 用 す る こ とが 今 後 の 課 題 で あ る.
本 論 文 の 構 成 は 以 下 の 通 りで あ る.第1章 は 序 論,本 研 究 の 背 景 と論 文 概 要 につ い て 説 明 す る.第2章 で は機 械 に よ る 文 法 誤 り 自 動 訂 正 お よ び 統 計 的 機 械 翻 訳 手 法 の 先 行 研 究 に つ い て 紹 介 す る.第3i章 で は 翻 訳 モ デ ル と言 語 モ デ ル を 含 め た 訂 正
"11
シ ス テ ム を 提 示 す る.第4章 は提 案 手 法 に 必 要 な 言 語 資 源 で あ る 中 国 語 学 習 者 コ ー
パ ス の 構 築 に つ い て 詳 述 す る.第5章 で 誤 り訂 正 の 最 適 化 手 法 を 述 べ る.第6章 で
実 験 と結 果 考 察 を 説 明 す る.第7章 は ま と め,そ して 今 後 の 課 題 に つ い て 述 べ る.
ChineseGrammaticalErrorCorrectionUsing StatisticalMachineTiranslation*
ZhaoYinchen
Abstract
WitllthedevelopmentofInternet,wearegettingilltouchwitlldifferent culteures.Howerver,aproblemisthereisnoenoughforeignlanguageteachers.
So,recentlylnoreandrnorerearcllesregardstogrammaticalerrorcorrection usingmachinef()rfbreignlanguagelearners.
Theconceptofgramlllaticalerrorcorrectionusingstatisticalmachinetrans‑
lation(SMT)isthatwecalltreaterrorsentencesasonelanguageandcorrect
sentencesasalmother.Therehavebeensomesuchresearchesfbcusedongram‑
maticalerrorcorrectionforEnghshc■lldJapanesebutfewforChinesesince therehasnotexistedallylarge‑scaleparallelcorporafbrlearllersofChinese.
Thus,weproposeanSMT‑basedmethodtodealwitllChinesegrammatical errorcorrectio11.Intllispaperwef()cusollbuildingaparallelcorpusfbrChi‑
nesegrammaticalerrorcorrection;adoptinghierarchicalphrase‑basedcorrec‑
tiol)modelandlanguagemodel;alldperfbrmillgoptimizationandevaluationof thesystem.
Tllemaincontributionofthisstudyisasfbllows:
●V▽bbuiltaerror‑correctpararellcorpusfbrCllillesegrammaticalerror corrctiontask,wllichcouldbeusedillotherstatistical‑basedmethods.
● 、Vearethefirsttcam、vhodealswitllChinesegrammaticalerrorcorrec‑
tiontaskusingSMTmethod.
WesubmittedseveralresultsbasedonourmethodtoNLP‑TEAwhichisa
'Master'sThesis
,DepartmentofInforinationandCommullicationSystems,GraduateSchooI ofSystemDesign,TokyoMetropolitanUniversity,StudentID14890521,January29,2016.
iv
workshopforChinesegrammatic乱1errorcorrection.AmongFIscores,oneof ourRUNsranksexactlyinthemiddleof15RUNSofallteams,Bynowitmay notbeabletoconsideredasahigllaccuracysystem,butforfutureresearch,we willattempttoexpandthecorpusfurtherortotrysomeothertuningmethods.
Thestructureofthispaperisorganizedasfbllows.Chapterlisabreif
introduceaboutthispaper.Ch乱pter2deseribe8thepreviousworksabout
SMTandautoInaticerI・orcorrection.Wedis$cussaboutourcorrctionsystem
includingtrallslationmodelandlanguagemodelinCllapter3.InChapter4,
wefbucusonhowtobuildtheChineselanguagelearnerscorpus.Tuningwill
bedescribedinChapter5.Chapter6showsexperimelltsandrestllts.Atlast,
wemakeabreifconclusionincludillgfutureworks.
目次
図 目 次
第1章 1.1 1.2
第2章 2.1 2.2 2.3
第3章 3.1
3.2 3.3
第4章 4.1 4.2 4.3 4.4
viii
は じ め に1
研 究 背 景...1
研 究 概 要 と 構 成...2
先 行 研 究4 統 計 的 機 械 翻 訳 。..4
中 国 語 文 法 誤 り の 自 動 訂 正...4
統 計 的 機 械 翻 訳 を 用 い た 文 法 誤 り 訂IE....5
統 計 的 機 械 翻 訳 に 基 づ く 中 国 語 文 法 誤 り 訂 正6 翻 訳 モ デ ル...,...6
3.1.1単 語 ア ラ イ メ ン ト...6
3.1.2フ レ ー ズ ベ ー ス モ デ ル...7
3.1.3階 層 的 フ レ ー ズ ベ ー ス モ デ ル.8 言 語 モ デ ル...g 文 法 誤 り の 検 出...,...11
中 国 語 学 習 者 コ ー パ ス の 構 築13 対 訳 コ ー パ ス...13
Lang‑8学 習 者 コ ー パ ス...14
HSI〈 作 文 コ ー パ ス...15
ク リ ー ニ ン グ...15
vi
第5章 5.1
5.2
シ ス テ ム の 評 価 と 最 適 化 シ ス テ ム の 評 価...
シ ス テ ム の 最 適 化
17 .17 .17
第6章 6.1 6.2 6.3 6.4
実 験20
実 験 設 定...20
中 国 語 学 習 者 コ ー パ ス の 実 験 結 果 と 考 察...21 訂 正 モ デ ル と 言 語 モ デ ル に 関 す る 実 験 結 果 と 考 察.22 評 価 と 最 適 化 の 実 験 結 果 と 考 察...23
第7章 おわ りに 26
謝辞 27
参考文献 28
図 目次
1 2 3 4 5 6 1 2 3 3 3 3 3 3 3 4 4 4 1
り
5
フ レ ー ズ ア ラ イ メ ン ト...
フ レ ー ズ 抽 出...
誤 り 訂 正 タ ス ク に お け る 生 成 ル ー ル...,...
グ ル ー ル ー ル...,...
訂 正 タ ス ク に お け る 翻 訳 生 成...
誤 り 検 出 ア ル ゴ リ ズ ム...
外 国 語 学 習 者 向 け の 相 互 添 削 型SNSで あ るLang‑8
Lang‑8の デ ー タ...
コ ー パ ス で の 単 語 単 位 の 編 集 距 離 の 分 布(図)...
各 評 価 指 標 の 計 算...
8 8 9 9 9 12
14 15 16
.18
viii
第1章 は じめ に
1.1研 究 背 景
我 々 が 生 き て い る 現 代 は 「グ ロ ー バ ル 時 代 」 だ と言 わ れ て い る.人 間 は 地 理 や 文 化 や 言 語 な ど の 要 素 に よ っ て 違 う国 の 人 だ と認 識 さ れ て い る が,世 界 経 済 の 融 合 と 連 携 の 深 化 と と も に 特 に イ ン ター ネ ッ トの 発 展 を き っ か け に,異 文 化 交 流 の 機 会 が 増 加 しつ つ あ る.会 社 で 海 外 企 業 との 取 扱,学 校 で の 勉 強,海 外 ツ ア ー な ど様 々 の 場 面 で 外 国 語 が 使 わ れ て い る.外 国 語,特 に英 語 の 学 習 が 盛 ん な の は,こ の 時 代 に お け る 一 つ の 社 会 現 象 で あ る.国 際 コ ミ ュ ニ ケ ー シ ョ ン 英 語 能 力 テ ス ト(Testof EnglishforInternationalCommunication),通 称TOEICは,ア メ リ カ 合 衆 国 の 非 営 利 団 体 で あ るEducationalTestingService(ETS)が 行 っ て お り,英 語 を 母 語 と しな い 者 を 対 象 と し た ア メ リ カ 英 語 に よ る コ ミ ュ ニ ケ ー シ ョ ン能 力 を 検 定 す る た め の 世 界 的 に 最 も有 名 な 試 験 の 一 つ で あ る.TOEICテ ス トの 情 報 は 世 界 中 の 英 語 学 習 の 状 況 を 反 映 して い る と思 わ れ る.英 語ETSの デ ー タ[1]に よ る と,2014 年 度TOEICテ ス ト受 験 者 数 は2,400,000人 で あ り,前 年 度 と比 べ て63%増 加 し, 過 去 の 最 高 記 録 を 更 新 した.2010年 度 か ら2014年 度 の 受 験 者 数 は 表1.1の 通 りで あ る.
英 語 学 習 者 の 人 数 よ り は る か に少 な い が,漢 字 を 使 用 す る言 語 で あ る 日 本 語 と 中 国 語 の 学 習 も 近 年 流 行 して き て い る.国 際 交 流 基 金 と 日本 国 際 教 育 支 援 協 会 が 主 催 す る 日 本 語 能 力 試 験(JLPT)の 受 験 者 数 は2010以 来 毎 年570,000人 を 超 え る.そ
して,TOEICと 同 様 の 中 国 語 学 習 者 向 け の 能 力 テ ス ト(漢 語 水 平 考 試,通 称HSK) に 関 して は,2013年 度 の 受 験 者 数 は37万 人 とい う報 道 も あ る.
あ る 言 語 を 母 語 とす る 人 さ え 日 常 生 活 で 文 を 作 る と き(会 話 で も 作 文 で も)し ば
しば 文 法 を 間 違 う こ とが あ り,そ の 言 語 を 外 国 語 とす る 学 習 者 は も と よ り間 違 い や
す い.外 国 語 学 習 者 に と って 教 師 の 存 在 は た だ の 知 識 を 教 え て くれ る人 だ け で は な
く,誤 りが あ っ た らそ れ を た だ ち に指 摘 し て くれ る 人 で あ る.外 国 語 教 師 とい え
ば 教 育 機 関 に 認 定 さ れ た 資 格 を 取 得 して い る教 師 が 一 番 信 頼 で き る で あ ろ う.し か
しな が ら,日 本 語 教 育 に お い て 教 師 不 足 とい う厳 しい 現 状 が あ る.国 際 交 流 基 金 の
2012年 度 日本 語 教 育 機 関 調 査 の 結 果[2]に よ る と,日 本 語 教 育 の 実 施 が 確 認 で き た
機 関 は 全 世 界 で136の 国 あ る い は 地 域 が あ り,学 習 者 総 数 は 約399万 人.そ れ に 対
表1.12014年 度 ま で の 過 去5年 間 の 各 テ ス トの 受 験 者 数
2010年 度 2011年 度 2012年 度 2013年 度 2014年 度 TOEICテ ス ト 1,780,000 2,270,000 2,304,000 2,361,000 2,400,000 TOEICS&Wテ ス ト 8,500 10,700 11,100 14,700 24,000
TOEICBridge 209,000 213,000 209,000 210,000 205,000 TOEICプ ロ グラム 総受験 者 数 1,997,500 2,493,700 2,524,100 2,585,700 2,629,000
して.確 認 で き た 日本 語 教 師 は63,805人 で あ り,「 教 師 不 足 」 が 日本 語 教 育 上 の 問 題 点 だ と 考 え られ る.さ ら に,日 本 語 教 育 振 興 学 会 の 調 査[3]に よ る と,2014年 日 本 国 内 の 日本 語 教 育 機 関 に 在 籍 して い る 学 生 数 は43,667人 で あ り,教 員 数 は5,594 人 で あ る が,そ の 中 の 専任 教 員 は1,663人 で あ る.中llll語 教 育 に 関 す る 調 査 デ ー タ が 不 明 で あ る が,中 国 教 育 機 関 の 推 測 で は 現 在 全 世 界 で 約500万 人 の 中 国 語 教 師 が 必 要 とな る.
外 国 語 教 育 の 現 状 を み れ ば,「 人 間 の 教 師 が 足 りな い な ら 機 械 の 力 を 貸 りた ら ど う?」 「少 な く と も 機 械 で 文 法 訂 正 ぐ らい で き る?」 と い う よ う な 考 え が 出 現 す る の は 自 然 な こ とで あ ろ う.
1.2研 究 概 要 と構 成
自然言語処理技術の一つ である統計的機械翻訳に基づ く手法 で英語や 日本語な ど の誤 り自動訂正を行 う研究はすでに存在するが,統 計的機械翻訳手法を適用できる だけの中国語学習者コーパスが存在 しなかったため,中 国語についての研究はまだ 少ない.そ こで,本 研究では統計的機械翻訳手法に基づ く中国語文法誤 り自動訂正 手法を提案する.本 論文では,中 国語文法誤 り訂正のためのパラ レルコーパスの構 築,階 層的フ レーズベースの訂正モデル と言語モデルの使用,誤 り訂正の最適化 と 評価について詳 しく論 じてい く.
・ 中 国 語 文 法 誤 り訂 正 の た め の 大 規 模 中 国 語 学 習 者 コ ー パ ス(正 一 誤 文 パ ラ レ ル コ ー パ ス)を 構 築 した.こ の コー パ ス は 統 計 的 機 械 翻 訳 手 法 に 適 用 す る だ け で は な く,学 習 デ ー タ と して ほ か の 中 国 語 誤 り訂 正 手 法 に も 利 用 で き る.
● 統 計 的 機 械 翻 訳 手 法 は 理 論 上 す べ て の 、「 語 の 誤 り訂 正 に 適 川 可 能 で あ る が,
中国語文法誤 り訂正 タスクにおいて統計的機械翻訳手法を用い るとい うの は,本 研究が初めてである.
本論文の構成は以下の通 りである.第1章 は序論,本 研究 の背景 と論文概要につ
いて説明する.第2章 では機械による文法誤 り自動訂正および統計的機械翻訳手法
の先行研究 につ いて紹 介する.第3権 では翻訳モデル と,享 語モ デルを含 めた訂正
システムを提示する.第4章 は提案手法に必要な言語資源である中国語学習者コー
パスの構築 について詳述する.第5章 で誤 り訂正の最適化手法を述べ る.第6章 で
実験 と結果考察を説明する.第7';1:は まとめ,そ して今後の課題について述べ る.
第2章 先行 研究
2.1統 計 的機 械 翻 訳
機 械 翻 訳 に お い て 最 も従 来 の 技 術 は ル ー ル ベ ー ス 翻 訳 で あ る.翻 訳 ル ー ル を 開 発 す る に は 原 言 語 と 目的 言 語,両 言 語 の 知 識 が 必 要 で あ る た め,翻 訳 の 多 言 語 化 は 非 常 に 困 難 で あ る.そ れ に対 し,統 計 的 機 械 翻 訳 で は 翻 訳 手 法 が 言 語 に ほ と ん ど依 存 せ ず,学 習 用 の テ キ ス トデ ー タ さ え 用 意 す れ ば 翻 訳 が 実 現 で き る.統 計 的 機 械 翻 訳 を は じめ て シ ス テ ム 化 した の は1994にIBMの 研 究 者 に よ る 開 発 さ れ たCandide
[4]で あ る.2003年 に フ レー ズ ベ ー ス 翻 訳 モ デ ル[5]と エ ラ ー 最 小 化 学 習 の 最 適 化 ア ル ゴ リズ ム[6]が 提 案 さ れ,統 計 的 機 械 翻 訳 シ ス テ ム の 性 能 を 飛 躍 的 に 向 上 さ せ た.2006年 か らGoogle翻 訳 の サ ー ビス が 提 供 さ れ は じめ,2011年 ま で に50以 上 の 種 類 の 入 力 言 語 が 対 応 可 能 に な っ た.2006年 以 後,階 層 的 フ レ ー ズ ベ ー ス モ デ ル[7],木 構 造 に 基 づ くモ デ ル[8],ニ ュー ラ ル ネ ッ トワー ク に よ る翻 訳[9]な ど の 統 計 的 手 法 は 次 々 と提 案 さ れ,統 計 的 機 械 翻 訳 は これ か ら も機 械 翻 訳 の 主 流 技 術 と し
て 発 展 しつ つ あ る で あ ろ う.
2.2中 国語 文 法 誤 りの 自動 訂 正
2010年 以 後,中 国 語 学 習 者 を 支 援 す る た め の 中 国 語 文 法 誤 り の 自 動 訂 正 に 関 す る 研 究 は ま す ま す 増 え て き た.[10]の 研 究 で は 大 規 模 コ ー パ ス を 用 い た 分 類 器 に よ り,入 力 文 の な か に 語 順 誤 りが あ る か ど う か に つ い て の 分 類 精 度 が71.64%と 報 告 され て い る.さ ら に2014年 にSVM分 類 器 に 基 づ く手 法 が 提 案 さ れ[12】,語 順 誤 りに 対 す る 分 類 精 度 が83.4%に 達 した.[?]の 研 究 で 提 案 さ れ た シ ス テ ム は, 文 法 解 析 に よ る ル ー ル ベ ー ス モ デ ル とNグ ラ ム に よ る 統 計 的 モ デ ル,2つ の モ デ ル を 用 い て 様 々 な 誤 り タ イ プ を 検 出 で き る.2014年 に 教 育 の た め の 自 然 言 語 処 理
ワ ー ク シ ョ ッ プ で あ るNLP‑TEA(NaturalLanguageProcessingTechniquesfor
EducationalApplications)が 開 か れ,2014年 と2015年 に2年 連 続 で 外 国 人 学 習 者 向 け の 中 国 語 文 法 誤 り訂 正 を 主 な タ ス ク と して い た.NLP‑TEA2の 中 で,[13]
の 研 究 は,単 語 の 品 詞 と正 誤 性 を 素 性 に す る 条 件 付 き確 率 場(CRF)に 基 づ く訂 正
4
手 法 が 提 案 さ れ,訂 正 精 度 とFP率 両 方 と も トッ プ の 成 績 を 得 た.
2.3統 計 的機械翻訳を用 いた文法誤 り訂正
誤 りが あ る 文 を 正 し い 文 に 「翻 訳 」 す る とい う ア イ デ ィ ア は,Brockettら[14]
に よ っ て 初 め て 提 案 さ れ た.Brockettら は ノ イ ジ ー チ ャ ネ ル モ デ ル を 用 い た 統 計 的 機 械 翻 訳 で 外 国 人 英 語 学 習 者(LearnersofEnglishasaSecondLanguage)を 支 援 す る た め の 英 文 法 自動 訂 正 の 手 法 を 提 案 した.統 計 的 機 械 翻 訳 の 手 法 に 基 づ く文 法 誤 り訂 正 に は 言 語 に 対 応 す る 文 法 知 識 が 不 要 とい う メ リ ッ トが あ り,あ る 程 度 の liltの 正 一 誤 文 パ ラ レル コ ー パ ス を 川 意 す れ ば,ど ん な,亨語 で も 処 理 で き る た め,そ れ 以 降,統 計 的 機 械 翻 訳 の 手 法 を 用 い た 文 法 誤 り 自動 訂 正 に つ い て の 研 究 が 盛 ん に な っ て き て い る.た とえ ば,CoNLL‑2014で 開 か れ た英 語 文 法 誤 り訂 正 オ ー プ ン タ ス ク[15]に 参 加 した チ ー ム は 全 部 で13チ ー ム あ り,そ の 中 の4チ ー ム は フ レー ズ ベ ー ス 統 計 的 機 械 翻 訳 手 法 を 利 用 した.特 に,ト ッ プ の 成 績 を 残 した チ ー ム[16]は 統 計 的 機 械 翻 訳,言 語 モ デ ル で の チ ェ ッ ク,ル ー ル ベ ー ス 変 換 な ど複 数 の サ ブ シ ス テ ム か ら な る 大 き な シ ス テ ム を 提 案 した.ま た,統 計 的 機 械 翻1沢に 基 づ く 日本 語 誤
り訂 正 に つ い て の 研 究[17]は2013年 に 発 表 され た.
第3章 統計 的機械翻訳 に基づ く中国語文 法誤 り訂 正
統 計 的 機 械 翻 訳 の 基 本 理 論 は ノ イ ジ ー チ ャ ネ ル モ デ ル に 基 づ い て い る[18].与 え られ た 入 力 文fに 対 し,様 々 可 能 な 翻 訳 文eを 列 挙 し,そ の な か で 翻 訳 確 率 が 一 番 高 い 翻 訳 を 見 つ け 出 す.ベ イ ズ 定 理 を 用 い て 式(3.01)を 展 開 す る と式(3.02)が 得 ら れ る.統 計 的 機 械 翻 訳 に お い て,P(fle)は 翻 訳 モ デ ル と呼 び,翻 訳 と して の 正
し さ を 確 保 す る.そ し て,P(e)は 言 語 モ デ ル と呼 び,翻 訳 文 の 流 暢 さ を 確 保 す る.
argmax関 数 に よ っ て 確 率 を 最 大 とす る翻 訳eを 探 索 す る と い う過 程 は デ コ ー ドと 呼 ぶ.ビ ー ム 探 索(beamsearch)と 呼 ば れ る ヒ ュー リ ス テ ィ ッ ク な 探 索 手 法 に よ り 探 索 空 間 を 枝 刈 り しな が ら効 率 よ く探 索 で き る 。
ε=argmaxPr(elf)(3.01)
e
=argmaxf)r(f)Pr(fle)(3.02)
e
P(fle)とP(e)の 確 率 に つ い て1つ の 例 を 挙 げ て 説 明 して い く.原 言 語 文fで あ る 「 機 械 翻 訳 に つ い て 勉 強 した い 」 を 英 語 に 翻 訳 す れ ば,表3.1の よ う に い くつ の 可 能 な 翻 訳 文eが あ る.elは 原 言 語 文 の 各 単 語 を き ち ん と翻 訳 した た め,翻 訳 モ デ ルP(fle)に よ る確 率 が 高 い.し か し,「machinetranslationwanttostudy」 と い う英 語 表 現 は 文 法 的 に 誤 っ て お り,普 通 に は 使 わ な い.つ ま り,そ の 「 流 暢 さ 」 が 悪 い た め,言 語 モ デ ルPr(e)に よ る 確 率 が 低 い.e2は 全 く逆 の 事 例 で あ る.そ れ に 対 して,e3は 認 識 的 に 一 番 正 しい 翻 訳 で あ ろ う.そ れ に 応 じる 二 つ の 確 率 も 比 較 的
に 高 い.
統 計 的 機 械 を 川 い た 文 法 誤 り訂 正 で は,誤 り文 を 原 、「 語f,そ して 出 力 文 を 目 的 言 語eと して 翻 訳 タ ス ク と見 な す.そ うす る こ とに よ っ て,統 計 機 械 翻 訳 に お け る 技 術 を 誤 り訂 正 に も適 用 す る こ とが で き る.
3.1翻 訳 モ デ ル
3.1.1単 語 ア ラ イ メ ン ト
人 間 は 翻 訳 を 行 う と き,原 言 語 文 に お け る単 語 を どの 目的 言 語 の 単 語 に 変 換 す る の か を 考 え な け れ ば な ら な い.統 計 的 機 械 翻 訳 に と っ て も,Pr(elf)の 確 率 を 推 定
6
表3.1翻 訳 モ デ ルPr(fie)と 言 語 モ デ ルPr(e),原 言 語 文f=「 機 械 翻 訳 に つ い て 勉 強 した い 」
翻 訳 文e Pr(fle) Pr(e)
e1:machinetr乱n81ationwallttostudy 0.9 0.0001
e2=Idon'twallttolearllallything 0.0001 0.2 e3:Iwanttostudyaboutmachinetranslation 0.9 0.15
す る た め に,対 訳 言 語 対 に お け る単 語 の 対 応 関 係,あ る い は 単 語 ア ラ イ メ ン トを 確 定 し て お く必 要 が あ る.大 規 模 対 訳 コー パ ス が 与 え られ た とき,あ る 単 語 対 は 翻 訳 と し て 対 応 す る な ら,こ の 単 語 対 が 対 訳 文 に 共 起 す る 確 率 が 高 い,と い う よ うな 考 え に 基 づ い て,辞 書 な どが な くて も ア ラ イ メ ン トを 推 定 す る こ とが 可 能 で あ る.ア ラ イ メ ン トaを 隠 れ 変 数 と して 翻 訳 モ デ ル に 入 れ る と,式(3.11)が 得 られ る.統 計 的 機 械 翻 訳 の 一 般 的 な 手 法 は,EMア ル ゴ リズ ム に よ っ て 単 語 ア ラ イ メ ン ト αを 学 習 す る[19].
Pr(∫1・)一 ΣPr(f,d・)
α
(3.11)
3.1.2フ レ ー ズ ベ ー ス モ デ ル
3.1.1の 単 語 ア ラ イ メ ン ト モ デ ル は,単 語 を 最 小 単 位 と し た 翻 訳 モ デ ル で あ る が,複 数 の 連 続 す るili語 を 最 小 単 位 と す る と,フ レ ー ズ ベ ー ス 翻li尺に な る.図3.1 で は,「Iwanttostudymachinetranslation」 が 「Iw乱ntto」 「study」 「machine translation」 へ と 分 割 し,日 本 語 の 翻 訳 文 へ と 対 応 づ け さ れ る.数 式 で 定 義 す れ ば, 文 に あ る 全 て 可 能 な フ レ ー ズ を 新 し い 隠 れ た 変 数 と し て 条 件 確 率 に 加 え,式3.12で あ る.
Pr(fle)一 ΣPr(∫,φ,ale)(3・12)
α,φ
フ レー ズ ア ラ イ メ ン トの 抽 出 す る た め に,全 て 可 能 な 文 字 列 を 列 挙 す る で は な く
単 語 ア ラ イ メ ン トを 制 約 条 件 とす る,単 語 ア ラ イ メ ン トに 基 づ く制 約 条 件 は=(1)
鰍 翻 国
study
,したい
図3.1フ レ ー ズ ア ラ イ メ ン ト
し た い
勉 強
を
機 械 翻 訳
1 }}囎 隻
;9
§姻y ξ 聰chlne translation
『百
1‑i
■
■
1【̲̲̲̲
[
図3.2フ レ ー ズ 抽 出
少 な く と も1つ の 対 応 す る 単 語 対 が 中 に 含 まれ る,(2)フ レー ズ 内 の 単 語 が フ レー ズ 外 の 単 語 に 対 応 しな い.例 え ば3.2で 示 さ れ て い る の は 単 語 ア ラ イ メ ン トの 制 限 が あ る 場 合 抽 出 可 能 の フ レー ズ ペ ア で あ る.
3.1.3階 層 的 フ レ ー ズ ベ ー ス モ デ ル
階 層 的 フ レー ズ ベ ー ス モ デ ル で は 同 期 文 脈 自 由 文 法 に 従 い 生 成 ル ー ル を 抽 出 す る.中 国 語 文 法 誤 り訂 正 タ ス ク で は,抽 出 さ れ た 生 成 ル ー ル は 図3.3の よ う で あ る.
左 辺 のxと 右 辺 のXiは す べ て の 可 能 な フ レー ズ を 代 表 し て い る.そ れ に 加 え て,図3.6の よ うな グ ル ー ル ー ル(gluerule)と 呼 ば れ る生 成 ル ー ル が あ る.グ ル ー ル ー ル の 役 割 は 文 の 生 成 を 始 め る(Sか ら)ま た はXの 系 列 を 連 結 す る.す る と,
8
図3.3誤 り訂 正 タ ス クに お け る 生 成 ル ー ル X→(X1一 好 消 息X2,X1一 条 好 消 息X2) X→(我 有,我 有)
X→(告 伯{,告fホ)
図3.4グ ル ー ル ー ル S→(X1,X1)
S→(SIX2,SIX2)
図3.5訂 正 タ ス ク に お け る翻 訳 生 成 S→(X1,X2)
→(X3一 好 消 息X4,X3‑一 介 好 消 息X4)
→(我 有 一 好 消 息X4 ,我 有 一 介 好 消 息X4)
→(我 有 一 好 消 息 告 訴 祢,我 有 一 ノ ト 好 消 息 告 訴 伯g
文 法 訂 正 タ ス ク に お け る 同 期 文 の 生 成 は3.5の よ う に な る.
機 械 翻 訳 に お い て,階 層 的 フ レー ズ ベ ー ス モ デ ル は 語 順 の 差 が 大 き い 言 語 対 に よ り強 い こ とが 知 ら れ て い る.従 っ て,階 層 的 フ レー ズ ベ ー ス モ デ ル は 普 通 の フ レー ズ ベ ー ス モ デラレと比 べ て 語 順 誤 り訂 正 の 精 度 が 高 い と予 想 さ れ る.
3.2言 語 モ デ ル
言 語 モ デ ル と は 自然 言 語 に お け る 単 語 と単 語,文 書 と文 書 な ど の 関 係 性 に つ い て
数 学 的 に 計 算 可 能 す る よ う に 定 式 化 され た も の の こ と で あ る 。 統 計 的 機 械 翻 訳 で 広
く利 用 され る 言 語 モ デ ル はNグ ラ ム(N‑gram)で あ る.Nグ ラ ム を 説 明 す る た め
に,ま ず は 自 然 言 語 処 理 に お け る 文 の 確 率 につ い て の 説 明 が 必 要 で あ る.文 の 確 率
は 特 定 の 単 語 列 の 同 時 確 率 だ と考 え られ る.「 彼 女 は 学 校 に 行 っ た 」 とい う 文 の 確
率 の 計 算 を 例 とす る.文 頭 記 号 くs>と 文 末 記 号 〈/s>を 加 え,文 の 確 率 はPr(<s>彼
女 は 学 校 に 行 っ た</s>)=Pr(wo=<s>w1=彼 女w2=学 校w3=にw4=行 っ
たw5=〈/s>)と な る.ベ イ ズ 定 理 に よ る 連 鎖 法 則 を 用 い て 文 の 確 率 は 以 下 の よ う に展 開 す る.
P(<s>彼 女 は 学 校 に 行 っ た</s>)
=P(ωO=<S>,ω1=彼 女,ω2=は,W3=学 校,ω4=に,ω5=行 っ た,ω6=</S>)
=P(ωO=<S>IWi=彼 女)×1)(W2=は1ωO=<S>,ω1=彼 女)
×P(ω3=学 校1ωo=<s>,ω1=彼 女,ω2=は)
×P(ω4=に1WO=<S>,ω1=彼 女,ω2=は,ω3=学 校)
×P(ω5=行 っ た1ωO=<S>,ω1二 彼 女,ω2=は,ω3=学 校,ω4ニ に)
×P(ω6=</S>1ωO=<S>,ω1=彼 女,ω2=は,ω3=学 校,ω4=に,ω5=行 っ た)
文 頭 は 必 ず<s>で あ る た め,違 う文 の 確 率 を 考 慮 す る と き 上 の 式 のP(Wo=<s>) を 無 視 して も い い.1個 の 単 語 か らな る 単 語 列wに 対 し,前 述 の よ うな 式 を 一 般 化 す る と式(3.21)に な る.実 際 に 計 算 す る とき は,文 字 列 の 頻 度(例 え ば,c(Wo))を 利 川 す る(式3.22).
P(ω{)=rIpハIL(ωi1ω6‑1)
i=1
(3.21)
PA・・L(iV"ω6‑1)一
,響1)(3・22)
式3.22を 実 際 に 計 算 す る の は 難 し い が,条 件 付 き 確 率 を 計 算 す る 時 単 語Wiの 前 に あ る 全 て の 単 語 を 考 え ず,Wi直 前 のN‑1個 の 単 語 の み 考 え ば,式(3.23)に な
り 計 算 は よ り 簡 単 に な る.こ れ はNグ ラ ム と い う.白 然 、「 語 処 理 に お い て,特 に N=1,2,3の 場 合 は そ れ ぞ れ ユ ニ グ ラ ム(unigram),バ イ グ ラ ム(bigram),ト ラ イ グ ラ ム(trigram)と 呼 ぶ.
P(ω1)・ullPA4L(ψ 諏1)(3・23)
i=1
しか し,こ の 計 算 方 法 に は 一 つ の 問 題 が あ る.学 習 デ ー タ の 中 に 存 在 しな い,つ ま り頻 度 が0の 単 語 が 出 現 した ら,そ れ を 含 むNグ ラ ム の 推 定 確 率 が0に な る.確
10
率0の 問 題 を 解 決 す る た め に,線 形 補 間,Witten‑Bellな ど の 平 滑 化 手 法 が 提 案 さ れ た.
統 計 的 機 械 翻 訳 に お い て は,目 的 言 語 で 翻 訳 対 象 とす る 分 野 の 生 コ ー パ ス が 大 量 に 入 手 で き な い こ とが あ る た め,パ ラ レル コー パ ス の な か の 目 的 言 語 コー パ ス を 利 用 し言 語 モ デ ル を 作 る の が,一 般 的 な 手 法 で あ る.本 研 究 で も第4章 で 論 じ る コー パ ス に お け る 正 解 文 で 言 語 モ デ ル を 構 築 す る.そ れ 以 外 に,必 ず し も 分 野 が 一 致 し な くて も,様 々 な ジ ャ ン ル の テ キ ス トが 含 まれ た 大 規 模 な 生 コ ー パ ス か ら言 語 モ デ ル を 作 成 す る こ と も 広 く行 わ れ て い る.ウ ェ ブ コー パ ス は,多 様 な 内容 の テ キ ス ト が 含 ま れ て お り,大 規 模 に 入 手 で き る た め,言 語 モ デ ル の 構 築 に 適 して い る.今 回 の 実 験 で は,大 規 模 ウ ェ ブ コ ー パ ス で あ るGoo91e中 国 語 ウ ェ ブ5‑gramデ ー タ[81 を 使 用 す る.Google中 国 語 ウ ェ ブ5‑gramは 約1,000億 文 の コ ー パ ス か ら計 算 し たNグ ラ ム 頻 度 の デ ー タ か ら な る と て も 強 力 な コー パ ス で あ り,160万 の 語 彙 と 12億 の5グ ラ ム が 含 まれ て い る.
3.3文 法誤 りの 検 出
本 研 究 の タ ス ク は,誤 り 文 が 与 え ら れ た と き,誤 り が 発 生 し た 場 所 を 検 出 し,語 順(Disorder)冗 語(Redundant)脱 落(Missing)語 彙(Selection)の い ず れ か の タ イ プ を 判 断 す る と い う タ ス クで あ る.
で あ る.
誤 り タイ プ に つ い て の 説 明 は 以 下 の とお り
所 以 我 不 会 譲 失 望 地 type:Disorder
他 是 我 的 以 前 的 室 友 type:Redundant
那 電 影 是 机 器 人 的 故 事 type:Missing
我 穿 著 一 介(件)黄 色 的 襯 杉 type:Selection
対 社 会 国 家 有 不 同 的 影 哺 type:Correct
統 計 的 翻 訳 手 法 を 用 い て 翻 訳 モ デ ル を 訓 練 した あ と,入 力 文(誤 り文)を デ コ ー
ダ に 入 れ る と,翻 訳 文(訂 正 文)が 生 成 さ れ る.誤 り文 と訂 正 文 を 同 時 に 与 え る こ
図3.6誤 り検 出 ア ル ゴ リズ ム
1ニillputsentence,0=translatedsentence;
L=get ̲operations(1,0)i
i=num ̲insert(L);dニ11ulTl̲delete(L);
r=nunl̲replace(L)
f=posit・iol1 ̲且rstoperatio11(1」);
1=positioIl ̲lastoperatioll(L);
ifd>Oandi>O type←Disorder else三fr>O
type←Selection elseifd>O
type←Redundant elseifi>O
type←]Missing else
type←Correct endif
return(type,f,1)
と に よ っ て,動 的 計 画 法 で 誤 り文 か ら訂 正 文 へ の 文 字 単 位 の 編 集 操 作 の 系 列 が わ か る よ う に な る.編 集 操 作 の 系 列 情 報 を 利 用 し,図3.6で 示 さ れ て い る手 続 き で 誤 り の タ イ プ お よ び 文 の 中 に 誤 りが 発 生 し た 場 所 を 求 め る.入 力 文 に 対 応 す る 編 集 操 作 の 開 始 位 置 と終 了 位 置 に よ って 誤 りの 箇 所 を 確 定 で き,各 編 集 操 作 を 集 計 す る こ と に よ っ て 誤 り タ イ プ を 予 測 で き る.例 え ば,誤 り文 の 「中 国 語 文 例 」 と訂 正 文 の 「中 国 語 文 例 」 が 与 え られ た とす る と,文 字 単 位 の 編 集 操 作 の 系 列{equal,equal,equal, equal,equal,equal,delete,delete,equal,illsert,insert}が 得 ら れ る.入 力 文 字 列
に 対 応 す る 非equalの 操 作 の 位 置 は 「7,9」,そ し て:削 除 お よ び 挿 入 数 が と も に0 よ り大 き い の で 「Disorder」 と い う誤 りタ イ プ を 返 す.
12
第4章 中 国語 学習者 コーパスの構築
4.1対 訳 コ ー パ ス
コ ー パ ス と は,自 然 言 語 処 理 の 研 究 に用 い る た め 自然 言 語 の 文 章 を 構 造 化 し集 積 し た も の で あ る.例 え ば,『 現 代 日本 語 書 き 言 葉 均 衡 コ ー パ ス 』(BCCWJ)は30年
間(1976〜2005)に 刊 行 さ れ た 新 聞,雑 誌,書 籍 全 般 か ら無 作 為 にサ ン プ ル さ れ た 1億430万 語 を 含 む デ ー タ で あ る.こ の コ ー パ ス を 通 して 現 代 日本 語 の 書 き 言 葉 の 全 体 像 を 把 握 す る こ と が で き る.コ ー パ ス の サ イ ズ は コ ー パ ス に よ っ て か な り違 っ て い る.一 兆 語 も 含 ま れ るGoogleWebIT5‑gramコ ー パ ス も あ れ ば,百 万 語 し か 含 ま れ な い ブ ラ ウ ン コー パ ス(BrownCorpus)も あ る.対 訳 コ ー パ ス,あ る い は パ ラ レル コ ー パ ス と は 機 械 翻 訳 の 学 習 デ ー タ と して 利 用 す る た め 構 築 さ れ た,一 文 対 一 文 の 形 で ま とめ られ る コ ー パ ス で あ る.例 え ば,英 語 ウ ィ キ ペ デ ィ ア と 日本 語 ウ ィ キ ペ デ ィ ア の エ ン トリ 「ゲ テ ィ ス バ ー グ方 面 作 戦 」 の 中 に作 戦 背 景 に つ い て 紹 介 す る段 落 を 対 訳 文 に ま とめ る と1つ の ミニ サ イ ズ の パ ラ レル コー パ ス が 作 成 で き る.翻 訳 モ デ ル で あ るP(elf)の 確 率 推 定 に は 対 訳 コ ー パ ス が 不 可 欠 で あ る た め.
対 訳 コー パ ス は 統 計 的 機 械 翻 訳 に と っ て 前 提 条 件 で あ る.
LeedecideduponasecondinvasionoftheNorth リー は 北 部 へ の2回 目 の 侵 攻 を 決 断 した
SuchamovewouldupsetUnionplansforthesummercampaigningseason
そ の よ う な 動 き は 夏 の 作 戦 行 動 を 計 画 して い た北 軍 を 慌 て さ せ る こ とが で き giveLeetheabilitytomaneuverhisarmyawayfromitsdefensivepositions
リー 軍 に は 防 衛 的 陣 地 を 布 い て い た 状 態 か ら 出 て Lee'sarmycouldalsothreatenPhiladelphia,Baltimore,andWashington
リー 軍 は フ ィ ラ デ ル フ ィア 、 ボ ル テ ィ モ ア お よ び ワ シ ン トンD.C.を 脅 か す こ と も で き andencouragethegrowingPeacemovementilltheNorth
北 部 で 盛 り上 が りつ つ あ る 休 戦 の 動 き を 奨 励 す る 可 能 性 が あ っ た
で は,統 計 機 械 翻 訳 に 基 づ く 誤 り 訂 正 の た め の コ ー パ ス は ど う 構 築 す る の か?関 連 研 究[141と[17】 で は す で にSNSか ら 添 削 文 を 抽 出 し 学 習 者 コ ー パ ス を 構 築 す る
こ と が 可 能 な こ と が 示 さ れ て い る.以 上 の パ ラ レ ル コ ー パ ス の 例 と 同 様 に,正 し い
文 と 誤 り 文 を 一 対 一 に 対 応 付 け れ ば い い.こ れ か ら 本 研 究 で 構 築 さ れ た 中 国 語 学 習
者 コ ー パ ス に つ い て 詳 し く 説 明 し て い く.
、 阿 盲 色 州 的 森 林 有 復 多 石 器.
o阿 脊 色 州 的 森 林 里 有 復 多 石 器 。
■'脊 迂 可 以 改 成 「 哩着'
Good置Quotel◎ 餉
、1989年 我 在 阿 鴛 色 髭 了 新 昭 台 的 琶 段 筑 了石 器.
●1989年 我 在 阿 霜 色 短 髭 斬 β8台的tgas吋#筑 了石 罷 。
OYouCANNOTu8e砿alonelnstead.youshoulduse昌 融.Considenngyouuse碕to retertothefOundationof豊hePOrch.1量hmk糊 ■is8betterword.
GoodlQuotel噸 口自
、 碗 墨 期 六 在 異 素 崇 薗 家 公 日 的E林,Syla面 ゆre地 段 、反 木(しeatherwood)荒 野 我 看 罫1慣多 石 器 的 砕 片 。
● 上 ↑ 量 期 六,在 晃 黙弔 薗 憲 公 囲 的 森 林,Sylamore地 殿,反 木(Leathetwood)荒 野,我 看 到 複 多 石 盤 的 碑 片.
●A睡hough地 段 。sw曲afelativelylowfiequencyinMBndarin,1won'tconsideritas mCO「「ect
GoodlQuotel+鮪
図4.1外 国 語 学 習 者 向 け の 相 互 添 削 型SNSで あ るLang‑8
4.2Lang‑8学 習 者 コ ー パ ス
Lang‑8と は,言 語 学 習 者 向 け の 相 互 添 削 型SNSで あ る.Lang‑8で 言 語 学 習 者 が 学 習 中 の 言 語 で 日 記 を 書 く と,そ の 言 語 を 母 語 とす る 人 が 文 単 位 で 書 き 直 して く れ る.図4.1で 示 さ れ て い る の は あ る 中 国 語 学 習 者 の ペ ー ジ で あ る.
Lang‑8の ウ ェ ブ サ イ ト*か ら ス ク レイ ピ ン ク さ れ た デ ー タ は 図4.2の よ う な 形 式 で 格 納 さ れ て い る.学 習 言 語 を 「Mandarin」(標 準 中 国 語)に 限 定 す る こ と で,中 国語 学 習 者 が 書 い た 文 とそ れ に 対 応 す る訂 正 文 を さ ら に抽 出 で き る.
串http://cl
.naist.jp/nldata/lang‑8/
14
鯵1糖灘1鵬 騰:螺ll磁 無 騰il薯
図4.2Lang‑8の デ ・・一一一タ