人による翻訳文への
翻訳自動評価法の適用に関する考察
冨田 隼平(
同志社大)
水上 雅博( NAIST )
小田 悠介( NAIST )
山本 誠一
(
同志社大)
September 22, 2014 Doshisha University
NLP若手の会(YANS) 第9回シンポジウム (2014)
概要
This is an apple.
I goes to school.
I’m happy because…
・・
・
・・
・
15
万文The toilet’s water stop...
I likes James playing … He caught a cold…
日本人が翻訳した英文 正しい英文
This is an apple.
I’m happy because…
He caught a cold…
・・
・ 誤った英文
・・
・
The toilet’s water stop...
I likes James playing … I goes to school on …
人間が評価 自動で評価
人による翻訳文に頑健な自動翻訳評価手法の検討
目的
人による翻訳文の品質評価について人手評価
• 高い信頼性
• 誤りカ所を正確に判断可能
• 多量の処理は不適
自動評価
• 多量に処理が可能
• バラツキのない評価
September 22, 2014 Doshisha University 3/ 46
目次
概要
目的
評価手法
提案手法
実験
結果
まとめ
今後の予定
September 22, 2014
評価手法
背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定
Doshisha University 5/ 53
翻訳自動評価手法
This is an apple.
I goes to school.
I’m happy because…
・・
・
・・
・
The toilet’s water stop...
I likes James playing … He caught a cold…
翻訳機器が出力した英文 正しい英文
This is an apple.
I’m happy because…
He caught a cold…
・・
・ 誤った英文
・・
・
The toilet’s water stop...
I likes James playing … I goes to school on …
自動評価法
RIBES
RIBES
RIBES(Rank-based Intuitive Billingual)
[1]―
参照文と翻訳文の語順相関に基づき評価―
ルールベース機械翻訳(RBMT)で高い相関
BP
P NKT
RIBES
0 , 1
NKT:正規化ケンドール順位相関係数 P = ユニグラム適合率
r c
r c if if c BP r
) / 1
exp(
1
r = 参照文の単語数c = 翻訳文の単語数 評価範囲:
1 RIBES 0
September 22, 2014 Doshisha University 7/ 46
[1]:平尾ら. “RIBES:語順相関に基づく翻訳の自動評価法”(2011)
RIBES ( 評価例)
He caught a cold because he got soaked in the rain.
Because he had gotten wet in the rain,he caught a cold .
RIBES = NKT ´ P a ´ BP b
1
8 9
) 1 2
)(
20 16
( 2 1
36 .
0
11
9 1
⑧ ⑨
⑥ ⑦
⑤
③ ④
②
①
⑤ ⑥ ⑦ ⑧ ⑨ ① ②
[5, 6, 7, 8, 9, 1, 2, 3, 4 ]
人による翻訳文への適用は困難
September 22, 2014 Doshisha University
This is an apple.
I goes to school.
I’m happy because…
・・
・
・・
・
The toilet’s water stop...
I likes James playing … He caught a cold…
翻訳機器が出力した英文 正しい英文
This is an apple.
I’m happy because…
He caught a cold…
・・
・ 誤った英文
・・
・
The toilet’s water stop...
I likes James playing … I goes to school on …
自動評価法
RIBES
日本人が翻訳した英文
9/ 46
適用が困難な理由
出力単語違い
–
翻訳機器:想定内の単語–
人間:想定外の単語が出力される可能性同一単語のみのアライメントでは不十分
RIBES の問題点
人による翻訳文への適用について1.
単語の重要度に関わらない評価–
重要な単語とそうでない単語誤りを同等に評価2.
単語の類似度に関わらない評価‒
単語間の意味的な類似度に関わらず同等に評価September 22, 2014 Doshisha University 11/ 46
誤評価の具体例
単語重要度・類似度を考慮に入れた評価手法の検討
単語類似度による誤評価 単語重要度による誤評価
例)「トイレの水が止まりません」 例)「この家は5年前に建てられました」
R
:The toilet’s water doesn’t stop.S1
:The toilet’s water doesn’t come.
S2
:That toilet’s water doesn’t stop.R:This house was built five years ago.
S1
:This house was made
five years ago. S2
:This house was run five years ago.
誤り単語に関わらず同じ評価
※ R
とS1
は意味が全く違う※ R
とS1
は意味が似通っているSeptember 22, 2014 September 22, 2014
提案手法
背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定
Doshisha University 13/ 53
RIBES +
RIBES + (RIBESplus)
― RIBES
に単語重要度・類似度の尺度を追加11,2, 0
P BP
P NKT
RIBES 1
1 2
2
r c
r c if if c BP r
) / 1 exp(
1 r = 参照文の単語数 c = 翻訳文の単語数
NKT
:正規化ケンドール順位相関係数P 1 = 類似度 P 2 = 重要度
RIBES
から変更していない尺度 新たに追加した尺度RIBES からの変更点
P BP
P NKT
RIBES 1
1 2
2
September 22, 2014 Doshisha University
BP
P NKT
RIBES
ユニグラム適合率を、類似度・重要度に変更
15/ 46
処理の流れ
1.
単語間アライメント探索1.
最長共通部分列(LCS)
を抽出2.
単語間類似度によりアライメントを決定2.
類似度計算–
単語間類似度を幾何平均
a b
aP W
b aW
a
b aW W P W W P W
W S
) (
) (
, P W
a| W
b
から への言い換え Wa
Wb
単語間類似度 単語言い換え確率
※PPDB(Paraphrase Database)[3]から抽出
※
[3]: Ganitkevitch et. “PPDB:The Pataphrase Database”(2013)
単語数による処理方法の違い
単語間アライメント探索A.
単語数が同じ場合B.
単語数が違う場合September 22, 2014 Doshisha University
This house was built five years ago.
This house has been built five year.
This house was built five years ago.
This house has been built five year ago.
17/ 46
単語数が同じ場合 ( アライメント探索 )(1)
1.
最長共通部分列(LCS)
を抽出This house was built five years ago.
This house has been built five year.
単語数が同じ場合 ( アライメント探索 )(2)
2.
単語間類似度でアライメント決定–
貪欲法により求めるSeptember 22, 2014 Doshisha University
This house was built five years ago.
This house has been built five year.
was years ago
has 0.020 0.004 0.002
been 0.245 0.012 0.123
year 0.002 0.876 0.468
単語間類似度
19/ 46
単語数が同じ場合 ( アライメント探索 )(3)
2.
単語間類似度でアライメント決定–
貪欲法により求めるThis house was built five years ago.
This house has been built five year.
was years ago
has 0.020 0.004 0.002
been 0.245 0.012 0.123
year 0.002
0.8760.468
単語間類似度
単語数が同じ場合 ( アライメント探索 )(4)
2.
単語間類似度でアライメント決定–
貪欲法により求めるSeptember 22, 2014 Doshisha University
This house was built five years ago.
This house has been built five year .
was
yearsago
has 0.020
0.0040.002
been
0.245 0.0120.123
year 0.002 0.876 0.468
単語間類似度
21/ 46
単語数が同じ場合 ( アライメント探索 )(5)
This house was built five years ago.
This house has been built five year.
was years
ago
has
0.020 0.0040.002
been 0.245 0.012 0.123
year 0.002 0.876 0.468
単語間類似度
2.
単語間類似度でアライメント決定–
貪欲法により求める単語数が同じ場合 ( 類似度計算 )
September 22, 2014 Doshisha University
This house was built five years ago.
This house has been built five year.
has ago
S year
years S
five five
S built
built S
been was
S house
house S
This This
S P
, log
, log
, log
, log
, log
, log
, log
7 exp 1
1
単語間類似度を幾何平均23/ 46
単語数が違う場合 ( アライメント探索 )(1)
1.
最長共通部分列(LCS)
を抽出This house was built five years ago.
This house has been built five year ago.
単語数が違う場合 ( アライメント探索 )(2)
2.
単語間類似度でアライメント決定–
貪欲法により求めるSeptember 22, 2014 Doshisha University
This house was built five years ago.
This house has been built five year ago.
was years
has 0.243 0.004
been 0.320 0.012 year 0.002 0.876
単語間類似度
25/ 46
単語数が違う場合 ( アライメント探索 )(3)
2.
単語間類似度でアライメント決定–
貪欲法により求めるThis house was built five years ago.
This house has been built five year ago.
was years
has 0.243 0.004
been 0.320 0.012
year 0.002 0.876
単語間類似度
This house was built five years ago.
This house has been built five year ago.
単語数が違う場合 ( ペナルティ計算 )
3. Null
へのアライメントとして,ペナルティを付加September 22, 2014 Doshisha University
8 log 1 log 8 1 1
C
NP
NP = log{( m C c ) -1 }
m = c = 単語数の差多い方の単語数27/ 46
This house has been built five year ago.
単語数が違う場合 ( 類似度計算 )
単語間類似度を幾何平均– NP
も同様This house was built five years ago.
NP ago
ago S
year years
S five
five S
built built
S
been was
S house
house S
This This
S P
, log
, log
, log
, log
, log
, log
, log
8 exp 1
1
類似度
類似度
– PPDB(Paraphrase Database)
を使用September 22, 2014 Doshisha University
i j
i j j
i j
i
h r
r h h
r h
r PW W
W W P W W P W
W
S ,
P W
ri
| W
h(
j)
から Wrへの言い換え
i
Wh
j
N n S W W NP
P
j i
h r
i j,
1 1 log ( , )
exp
N:少ない方の文の単語数
NP:
null
アライメントによるペナルティ単語間類似度 単語言い換え確率
r c
r c if n if
0
1 r = 参照文の単語数 c = 翻訳文の単語数
29/ 46
平滑化処理
単語間類似度の平滑化–
言い換えを抽出できない場合の対処– λ
は定数ではなく,変数として設定(
グリッドサーチ)
S
'W
ri
, W
h(
j) = ( 1 - l ) ´ S W (
ri, W
hj) + l ´ V 1
S
'W
ri
, W
h(
j)
:平滑化後の単語間類似度V
:使用データセットに出現する単語の種類数重要度
重要度
単語重要度‒
単語出現頻度はBTEC
コーパスから抽出September 22, 2014 Doshisha University
P 2 =
翻訳文中の単語重要度の総和 共通単語の重要度の総和コーパス内の全単語の出現頻度の総和
log )
Pr( word
コーパス内のWordの出現頻度重要度単語の一致率
重要度
(P
2)
低 高
単語出現頻度 単語重要度 多
低 高
少
31/ 46
重要度の評価例
重要度の評価例
参照文:
He comes back to house.
翻訳文:
She goes back to house.
) Pr(
) Pr(
) Pr(
) Pr(
) Pr(
) Pr(
) Pr(
house to
back goes
She
house back
P 2 =
翻訳文中の単語重要度の総和 共通単語の重要度の総和RIBES + (再掲)
RIBES + (RIBESplus)
―
RIBES
に単語重要度・類似度の尺度を追加11,2, 0
P BP
P NKT
RIBES 1
1 2
2
September 22, 2014 Doshisha University
r c
r c if if c BP r
) / 1 exp(
1 r = 参照文の単語数 c = 翻訳文の単語数
NKT
:正規化ケンドール順位相関係数P 1 = 類似度 P 2 = 重要度
RIBES
から変更していない尺度 新たに追加した尺度33/ 46
September 22, 2014
実験
背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定
Doshisha University 34/ 53
実験 ( 実験方法 )
実験方法–
人手評価値付き翻訳文を評価–
人手評価値と自動評価値の相関を分析– 5
分割交差検証
人手評価値付き翻訳文–
英語母語話者による主観評価– 5
段階の評価値September 22, 2014 Doshisha University
評価値 評価基準
5 問題なし
4 ほぼネイティブな表現
3 多少問題はあるが,理解可能 2 問題は多いが,雰囲気は伝わる
1 理解不能
35/ 46
実験 ( 実験データ )
翻訳文–
日本語課題文を被験者(
日本人)
が英訳した翻訳文– 1
セット:30,000
文(
日本語課題300
文 ×100) –
全てで5
セット(30,000
文 ×5 = 150,000
文) –
使用する翻訳文:486
文(
人手評価値付)
参照文–
日本語課題文を英語母語話者が英訳した翻訳文– 1
セット:3,000
文(
日本語課題300
文 ×10)
–
全てで5
セット(3,000
文 ×5 = 15,000
文)
–
使用する翻訳文と最小編集距離をとる文September 22, 2014 September 22, 2014
結果
背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定
Doshisha University 37/ 53
人手評価値と自動評価値の相関
評価方法 相関係数の最大値 P
RIBES 0.330
RIBES+(類似度) 0.444 0.004
RIBES+(重要度) 0.465 0.005
RIBES+(類似度+重要度) 0.477 0.001
0.250 0.300 0.350 0.400 0.450 0.500 0.550
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 相
関 係 数
λ(平滑化変数)
相関係数(平均値+標準誤差)
RIBES+
RIBES+(類似度) RIBES+(重要度) RIBES
RIBES + の正しい評価例
RIBES
では誤って評価し、RIBES
+では正しく評価できた翻訳文September 22, 2014 Doshisha University
例1)「この街を案内してもらえますか.」
参照文:
Can you show me around town?
翻訳文:
Can you guide the town?
人手評価値RIBES RIBES
+2 0.863 0.408
例2)「トイレの水が止まりません.」参照文:
The toilet’s water doesn’t stop?
翻訳文:
The toilet’s water doesn’t come?
人手評価値
RIBES RIBES
+2 0.955 0.324
39/ 46
RIBES + の誤り評価例
RIBES
では正しく評価し、RIBES
+では誤って評価した翻訳文例1)日本語課題文
「空がとても澄んでいるので星がたくさん見えます.」
参照文:
one can see many stars in the clear sky.
翻訳文:
I can see a lot of stars since sky is clear.
人手評価値
RIBES RIBES
+3 0.738 0.345
例2)日本語課題文「心配しないで.」
参照文:
Do not worry .
翻訳文:
Do not get worried.
人手評価値
RIBES RIBES
+3 0.840 0.289
0.300 0.350 0.400 0.450 0.500
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
相 関 係 数
λ(平滑化変数)
相関係数
(
平均値+
標準誤差)
RIBES+
RIBES+(類似度)
RIBES+(重要度)
RIBES
考察
September 22, 2014 Doshisha University
提案手法は、従来手法に比べ評価性能が向上–
単語の類似度・重要度は人手評価に大きく影響
句単位の類似度を検出することができなかった–
熟語言い換えを考慮することで、性能向上が期待できる41/ 46
September 22, 2014
まとめ・今後の予定
背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定
Doshisha University 42/ 53
まとめ
単語重要度・類似度を評価尺度に入れた 自動翻訳評価法RIBES
+を考案
本データに関しては、従来手法と比べ、提案手法がより評価性能が向上
類似度を抽出する範囲を、単語単位から句単位へと拡張する必要
September 22, 2014 Doshisha University 43/ 46
今後の予定
句の言い換えを考慮したアライメント調整
類似度を用いた語順相関処理、重要度尺度への拡張謝辞
本研究の一部は,第
6
回関西MT
勉強会における エラー分析の知見に基づく.September 22, 2014 Doshisha University 45/ 46
参考文献
• 磯崎秀樹, “最近の自動評価法の研究動向とRIBES” ,平成24年度AAMT/Japoi特許翻訳 研究会 特許文書の機械翻訳結果評価方法検討会資料集(2012)
http://aamtjapio.com/kenkyu/files/discussion01/AAMT_Japio_discus(20120907)-02.pdf
• 隅田英一郎 佐々木裕 山本誠一, “機械翻訳システム評価法の最前線” , 情報処理 学会, Vol.46 NO.5 通巻483号,pp.552-557 (2005)
• 安田圭志 喜多村圭祐 山本誠一 柳田益造, “多重タグ付き英語学習者コーパス の開発と英語能力自動測定への応用”, 自然処理学会, Vol.16 No.4 pp.48-63(2009)
• 平尾努 磯崎秀樹 Kevin Duh 須藤克仁 塚田元 永田昌明, “RIBES:順位相関 に基づく翻訳の自動評価法”, 言語処理学会 第17回年次大会 発表論文集,
pp.1115-1118 (2011)
• Ganitkevitch, Juri and Van Durme, Benjamin and Callison-Burch, Chris, “PPDB:The Paraphrase Database”, Proceedinds of NAACL-HLT, pp758-768,(2013)
September 22, 2014 Doshisha University 46/ 46