• 検索結果がありません。

自然言語処理技術の現状と展望 -エラー分析プロジェクトを通して-:[翻訳,文作成支援,対話]3.14 翻訳

N/A
N/A
Protected

Academic year: 2021

シェア "自然言語処理技術の現状と展望 -エラー分析プロジェクトを通して-:[翻訳,文作成支援,対話]3.14 翻訳"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)自然言語処理技術の現状と展望 基応 専般. エラー分析プロジェクトを通して. 3.14 翻訳. Graham Neubig(奈良先端科学技術大学院大学) 工藤 拓(Google(株)) 赤部 晃一(奈良先端科学技術大学院大学) 機械翻訳の誤り分析. 各システムの総合評価. は,最先端の翻訳機は何ができるのか? 何ができ. い),2 ∼ 3(理解可能),0 ∼ 1(理解不可能)の内. ないのか? 本稿は,この疑問に答えるべく,翻訳. 訳として図 -2 に示す.この結果から,RBMT が最. の誤り分析を行った結果を報告する.. も精度が高く,商用システムの SMT1 と文の構造.  機械翻訳には,さまざまな手法がある.たとえ. を考慮する OSS システム Travatar が次ぐ.しかし,. ば, 人 手 で 翻 訳 規 則 を 記 述 す る ル ー ル ベ ー ス 翻. いずれのシステムでも,3 割以上の文は理解不能と. 訳(RBMT) や デ ー タ か ら 自 動 構 築 す る 統 計 翻. なっており,課題が残ることも分かる.. 訳(SMT)が挙げられる.SMT では単語列を置.  一方,人手による翻訳はすべての機械翻訳システ. き換えて並べ替えるフレーズベース翻訳(PBMT). ムを大幅に上回っていることが分かるが,0 か 1 と. や文の構造を解析して翻訳を行う統語ベース翻訳. 評価された文も一部あり,人手翻訳でも厳しい評価. (SBMT)が存在する.本調査では,特定のシステ. がされている.低い評価値になった文を分析したと. ムに分析結果が偏らないよう,下記の通り 3 つの商. ころ,原因は主に 1)人手翻訳は文脈を用いて行っ. 用システム,3 つのオープンソースソフト(OSS). ているが,翻訳の評価は文脈を考慮しておらず,翻.  日本語から英語へと自動的に翻訳する機械翻訳で.  まず,各システムの総合評価を,評価値 4 ∼ 6(良. システムを評価した: RBMT:商用のルールベース翻訳システム. 単語の削除 … 必要な単語が欠落 並べ替え … 不正確な語順 単語の誤り … 本来とは異なる単語 置換誤り … 文脈非依存 語義曖昧性解消 … 文脈依存 語形・活用誤り 挿入誤り スタイル誤り 慣用句の直訳 モダリティ 未知語 … 翻訳がモデルに存在しない 句読点. SMT1, SMT2:商用の統計翻訳システム 2 種類 Moses:OSS のフレーズベース翻訳システム KyotoEBMT, Travatar:OSS の統語ベース翻訳シス テム 2 種類  分析の対象として,ブログや QA サイト,白書, 法律文書など,さまざまな分野をカバーするデータ. 図 -1 分析対象の誤りの種類. 図 -2 各システムの評価値の内訳. 36. 情報処理 Vol.57 No.1 Jan. 2016. an. T. m Hu. M RB. SM. T1. ta r. T. es. T2. Tr av a. を行い,各種類の翻訳誤りの割合を定量化した.. os. 図 -1 に示す翻訳誤り分類体系を用いて誤りの分類. ot. た.次に,全システムの数量評価が低かった文から,. M. 階評価で翻訳の正確さの総合的な数量評価を行っ. 4~ 6 2~ 3 0~ 1. Ky.  この翻訳結果に対して,まず 0 ∼ 6 の間の 7 段. 割合 [%]. 間の翻訳者(Human)にも翻訳してもらった.. 100 90 80 70 60 50 40 30 20 10 0 SM. ムで英語へと翻訳した.また,比較のために文を人. M. を用いた.日本語が原文であり,上記の翻訳システ. oE B. を利用し,OSS のシステムの学習には約 300 万文.

(2) 3.14 翻訳. 訳時と評価時に差が生じたこと,2)単純な翻訳誤. (a) 1.0. り,もしくは 3)原文がそもそも曖昧で,直訳する ことが難しいことに起因した.. 0.5. 各システムの誤り傾向. 0.0.  次に,誤りの種類の内訳を図 -3 に示す.この中で, 「単語の誤り」が最も多く, 「並べ替え誤り」「単語 の削除」も多く存在した.  削除誤りに目を向けると,Moses,KyotoEBMT と SMT2,Travatar,SMT1,RBMT の順に減っ ていくことが分かる.これは人手評価の順と同等で あり,単語の削除はシステムの人手評価に比例する. 特に内容語の削除によって文の意味が損なわれるた. (b). 単語の削除 並べ替え 単語の誤り モダリティ 未知語 . 句読点. 0.6 0.4 0.2 0.0. 置換. 語義曖昧性 語形・活用. Moses SMT1. 挿入. スタイル. Travatar SMT2. 慣用句. KyotoEBMT RBMT. 図 -3 (a)全誤りの傾向,(b)単語誤りの傾向. め,直感に合った結果であるといえる.. 見受けられた.RBMT の誤りは特に多く,SMT シ.  並べ替えに関して,日本語から英語への翻訳では. ステムは統計情報を用いて周りの文脈で曖昧性を解. 文法の構造が異なるため,一般的に難しいとされて. 消しているのに対して,RBMT システムはこのよ. いる.しかし,その割には今回の結果で並べ替えの. うな統計情報を取り入れていないことが原因として. 誤りが比較的少ない.今回の分析対象の文が短いこ. 考えられる.. ともあるが,最先端の翻訳システムは文の構造を考. 機械翻訳の目指すべき方向. 慮することで以前に比べて並べ替えに頑健であると もいえる..  今回の分析では,機械翻訳にはさまざまな課題が.  次に,図 -3(b)に,単語に関する誤りの詳細な. あるが,曖昧な語彙の選択が特に大きな課題である. 分析結果を示す.中では,文脈に依存する語義曖. ことが明らかとなった.今後,既存の語義曖昧性解. 昧性誤り(例: 「米」は「米国」の「U.S.」か食物. 消技術の適応,もしくは機械翻訳独自の曖昧性解消. の「rice」に翻訳できる中,誤った意味を選択した. 法で解決していくことが重要であろう.. 誤り)や文脈に依存しない置換誤り(学習の失敗に. (2015 年 9 月 8 日受付). より「米」を「the」などの関係ない単語へ翻訳す る誤り)が最も多かった.文脈に依存しない置換誤 りに着目すると,OSS のシステムに比べて商用シ ステムは置換誤りが少ないことが分かる.これは, OSS のシステムに比べて,商用システムが大規模 な学習データを利用しており,誤った翻訳ルールを 学習する比率が少ないためであると考えられる.ま た,RBMT はほぼ文脈依存の置換誤りを起こさず, 安定した翻訳ルールを用いていることが分かる.そ の一方,全システムで語義曖昧性による誤りが多く. Graham Neubig(正会員)[email protected]  イリノイ大学工学部計算機科学専攻卒業.京都大学大学院情報学研 究科博士課程修了.奈良先端科学技術大学院大学助教.自然言語処理 に関する研究に従事. 工藤 拓 [email protected]  Google(株)ソフトウェアエンジニア.京都大学工学部卒業,奈良 先端科学技術大学院大学博士後期課程修了,NTT コミュニケーショ ン科学基礎研究所リサーチアソシエイトを経て現職.専門は統計的自 然言語処理,機械学習,データマイニング. 赤部 晃一 [email protected]  2015 年奈良先端科学技術大学院大学情報科学研究科博士前期課程 修了.同大学院博士後期課程在学中.機械翻訳,自然言語処理に関す る研究に従事.. 情報処理 Vol.57 No.1 Jan. 2016. 37.

(3)

参照

関連したドキュメント

金沢大学大学院 自然科学研 究科 Graduate School of Natural Science and Technology, Kanazawa University, Kakuma, Kanazawa 920-1192, Japan 金沢大学理学部地球学科 Department

会 員 工修 福井 高専助教授 環境都市工学 科 会員 工博 金沢大学教授 工学部土木建設工学科 会員Ph .D.金 沢大学教授 工学部土木建設 工学科 会員

東京大学 大学院情報理工学系研究科 数理情報学専攻. [email protected]

情報理工学研究科 情報・通信工学専攻. 2012/7/12

鈴木 則宏 慶應義塾大学医学部内科(神経) 教授 祖父江 元 名古屋大学大学院神経内科学 教授 高橋 良輔 京都大学大学院臨床神経学 教授 辻 省次 東京大学大学院神経内科学

 当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文

東京大学大学院 工学系研究科 建築学専攻 教授 赤司泰義 委員 早稲田大学 政治経済学術院 教授 有村俊秀 委員.. 公益財団法人

話題提供者: 河﨑佳子 神戸大学大学院 人間発達環境学研究科 話題提供者: 酒井邦嘉# 東京大学大学院 総合文化研究科 話題提供者: 武居渡 金沢大学