翻訳自動評価法の適用に関する考察

(1)

人による翻訳文への

翻訳自動評価法の適用に関する考察



冨田隼平

(

同志社大

)

水上雅博

( NAIST )

小田悠介

( NAIST )

山本誠一

(

同志社大

)

September 22, 2014 Doshisha University

NLP若手の会(YANS) 第9回シンポジウム (2014)

(2)

概要

This is an apple.

I goes to school.

I’m happy because…

・・

・

・・

・

15

万文

The toilet’s water stop...

I likes James playing … He caught a cold…

日本人が翻訳した英文 _{正しい英文}

This is an apple.

He caught a cold…

・・

・誤った英文

・・

・

I likes James playing … I goes to school on …

人間が評価自動で評価

(3)

人による翻訳文に頑健な自動翻訳評価手法の検討

目的



人による翻訳文の品質評価について

人手評価

• 高い信頼性

• 誤りカ所を正確に判断可能

• 多量の処理は不適

自動評価

• 多量に処理が可能

• バラツキのない評価

September 22, 2014 Doshisha University 3/ 46

(4)

 概要

 目的

 評価手法

 提案手法

 実験

 結果

 まとめ

 今後の予定

(5)

September 22, 2014

評価手法

背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定

Doshisha University 5/ 53

(6)

翻訳自動評価手法

This is an apple.

I goes to school.

・・

・

・・

・

翻訳機器が出力した英文 _{正しい英文}

This is an apple.

He caught a cold…

・・

・誤った英文

・・

・

自動評価法

RIBES

(7)

RIBES

RIBES(Rank-based Intuitive Billingual)

^[1]

―

参照文と翻訳文の語順相関に基づき評価

―

ルールベース機械翻訳(RBMT)で高い相関



 BP

P NKT

RIBES   

_ _

0 , 1  

NKT：正規化ケンドール順位相関係数 P = ユニグラム適合率

r c

r c if if c BP r





 



 

) / 1

exp(

1

^{r =}^{参照文の単語数}

c = ^{翻訳文の単語数} ^{評価範囲：}

1  RIBES  0

[1]：平尾ら. “RIBES:語順相関に基づく翻訳の自動評価法”(2011)

(8)

RIBES ( 評価例）

He caught a cold because he got soaked in the rain.

Because he had gotten wet in the rain,he caught a cold .

RIBES = NKT ´ P ^a ´ BP ^b

 



 

 



  1

8 9

) 1 2

)(

20 16

( 2 1

36 .

 0

11  9  1

⑧ ⑨

⑥ ⑦

⑤

③ ④

②

①

⑤ ⑥ ⑦ ⑧ ⑨ ① ②

[5, 6, 7, 8, 9, 1, 2, 3, 4 ]

(9)

人による翻訳文への適用は困難

This is an apple.

I goes to school.

・・

・

・・

・

翻訳機器が出力した英文 _{正しい英文}

This is an apple.

He caught a cold…

・・

・誤った英文

・・

・

自動評価法

RIBES

日本人が翻訳した英文

9/ 46

(10)

適用が困難な理由

 出力単語違い

–

翻訳機器：想定内の単語

–

人間：想定外の単語が出力される可能性

同一単語のみのアライメントでは不十分

(11)

RIBES ^の問題点



人による翻訳文への適用について

1.

単語の重要度に関わらない評価

–

重要な単語とそうでない単語誤りを同等に評価

2.

単語の類似度に関わらない評価

‒

単語間の意味的な類似度に関わらず同等に評価

(12)

誤評価の具体例

単語重要度・類似度を考慮に入れた評価手法の検討

単語類似度による誤評価単語重要度による誤評価

例）「トイレの水が止まりません」例）「この家は5年前に建てられました」

R

：The toilet’s water doesn’t stop.

S1

：

The toilet’s water doesn’t come.

S2

：That toilet’s water doesn’t stop.

R:This house was built five years ago.

S1

:

This house was made

five years ago

. S2

^:

This house was run five years ago.

誤り単語に関わらず同じ評価

※ R

と

S1

は意味が全く違う

※ R

と

S1

は意味が似通っている

(13)

September 22, 2014 September 22, 2014

提案手法

背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定

(14)

RIBES ⁺

RIBES ⁺ (RIBESplus)

― RIBES

^に単語重要度・類似度の尺度を追加

1₁,₂, 0

 

 P BP

P NKT

RIBES ^   ₁

¹

 ₂

²



r c

r c if if c BP r









 

) / 1 exp(

1 ^{r =}^{参照文の単語数} c = ^{翻訳文の単語数}

NKT

：正規化ケンドール順位相関係数

P ₁ = 類似度 P ₂ = 重要度

RIBES

から変更していない尺度新たに追加した尺度

(15)

RIBES からの変更点

 

 P BP

P NKT

RIBES ^   ₁

¹

 ₂

²





 BP

P NKT

RIBES   

ユニグラム適合率を、類似度・重要度に変更

15/ 46

(16)

処理の流れ

1.

単語間アライメント探索

1.

最長共通部分列

(LCS)

を抽出

2.

単語間類似度によりアライメントを決定

2.

類似度計算

–

単語間類似度を幾何平均



^a ^b



^a

^P  ^W

^b _a

^W

_a



^b ^a

W W P W W P W

W S

) (

,  P  W

a

| W

b



からへの言い換え Wa

Wb

単語間類似度単語言い換え確率

※PPDB(Paraphrase Database)[3]から抽出

※

[3]： Ganitkevitch et. “PPDB:The Pataphrase Database”(2013)

(17)

単語数による処理方法の違い



単語間アライメント探索

A.

単語数が同じ場合

B.

単語数が違う場合

This house was built five years ago.

This house has been built five year.

This house was built five years ago.

This house has been built five year ago.

17/ 46

(18)

単語数が同じ場合 ₍ アライメント探索 )(1)

1. (LCS)

を抽出

This house was built five years ago.

This house has been built five year.

(19)

単語数が同じ場合 ₍ アライメント探索 )(2)

2.

単語間類似度でアライメント決定

–

貪欲法により求める

This house was built five years ago.

This house has been built five year.

was years ago

has 0.020 0.004 0.002

been 0.245 0.012 0.123

year 0.002 0.876 0.468

単語間類似度

19/ 46

(20)

単語数が同じ場合 ₍ アライメント探索 )(3)

2. –

This house was built five years ago.

This house has been built five year.

was years ago

has 0.020 0.004 0.002

been 0.245 0.012 0.123

year 0.002

0.876

0.468

単語間類似度

(21)

単語数が同じ場合 ₍ アライメント探索 )(4)

2. –

This house was built five years ago.

This house has been built five year .

was

years

ago

has 0.020

0.004

0.002 been

0.245 0.012

0.123

year 0.002 0.876 0.468

単語間類似度

21/ 46

(22)

単語数が同じ場合 ₍ アライメント探索 )(5)

This house was built five years ago.

This house has been built five year.

was years

ago

has

0.020 0.004

0.002

been 0.245 0.012 0.123

year 0.002 0.876 0.468

単語間類似度

2. –

(23)

単語数が同じ場合 ₍ 類似度計算 )

This house was built five years ago.

This house has been built five year.

 

         

 

     

 

      ^ ^







 







 

 



 

 







has ago

S year

years S

five five

S built

built S

been was

S house

house S

This This

S P

, log

7 exp 1

1



23/ 46

(24)

単語数が違う場合 ₍ アライメント探索 )(1)

1. (LCS)

を抽出

This house was built five years ago.

This house has been built five year ago.

(25)

単語数が違う場合 ₍ アライメント探索 )(2)

2. –

This house was built five years ago.

This house has been built five year ago.

was years

has 0.243 0.004

been 0.320 0.012 year 0.002 0.876

単語間類似度

25/ 46

(26)

単語数が違う場合 ₍ アライメント探索 )(3)

2. –

This house was built five years ago.

This house has been built five year ago.

was years

has 0.243 0.004

been 0.320 0.012

year 0.002 0.876

単語間類似度

(27)

This house was built five years ago.

This house has been built five year ago.

単語数が違う場合 ₍ ^{ペナルティ計算} ₎

3. Null

へのアライメントとして，ペナルティを付加

   

8 log 1 log ₈ ₁ ¹ 

 C ^

NP

NP = ^log{( _m ^C _c ⁾ ^-1 ^}

^{m =}_{c =}単語数の差^{多い方の単語数}

27/ 46

(28)

This house has been built five year ago.

単語数が違う場合 ₍ 類似度計算 )



– NP

も同様

This house was built five years ago.

 

         

 

         

 

  ^ ^







 







 

 



 

 







NP ago

ago S

year years

S five

five S

built built

S

been was

S house

house S

This This

S P

, log

8 exp 1

1

(29)

類似度

 類似度

– PPDB(Paraphrase Database)

を使用

    ^ ^



i j



i j j

i j

i

h r

r h h

r h

r PW W

W W P W W P W

W

S , 

P W

_r

i

| W

_h

(

j

)

から W_rへの言い換え

i

W_h

j

 

 

 





 



 



 



 

 _N  _n  ^S ^W ^W ^NP

P

j i

h r

_i _j

,

1 1 log ( , )

exp

N：少ない方の文の単語数

NP：

null

アライメントによるペナルティ

単語間類似度単語言い換え確率

r c

r c if n if







 

　　　　 0

29/ 46

(30)

平滑化処理



単語間類似度の平滑化

–

言い換えを抽出できない場合の対処

– λ

は定数ではなく，変数として設定

(

グリッドサーチ

)

S

^'

W

_r

i

, W

_h

(

j

) ⁼ ⁽ ¹ ^- ^l ⁾ ^´ ^{S W} (

^rⁱ

^, ^W

^h^j

) ⁺ ^l ^´ _V ¹

S

^'

W

_r

i

, W

_h

(

j

)

：平滑化後の単語間類似度

V

：使用データセットに出現する単語の種類数

(31)

重要度



重要度



単語重要度

‒

単語出現頻度は

BTEC

コーパスから抽出

P ₂ =

翻訳文中の単語重要度の総和共通単語の重要度の総和

コーパス内の全単語の出現頻度の総和

log )

Pr( word  

^{コーパス内の}^Word^{の出現頻度}

重要度単語の一致率

重要度

(P

₂

)

低高

単語出現頻度単語重要度多

低高

少

31/ 46

(32)

重要度の評価例

 重要度の評価例

参照文：

He comes back to house.

翻訳文：

She goes back to house.

) Pr(

house to

back goes

She

house back



 

P ₂ =

翻訳文中の単語重要度の総和共通単語の重要度の総和

(33)

RIBES ⁺ （再掲）

 RIBES ⁺ (RIBESplus)

―

RIBES

^に単語重要度・類似度の尺度を追加

1₁,₂, 0

 

 P BP

P NKT

RIBES ^   ₁

¹

 ₂

²



r c

r c if if c BP r









 

) / 1 exp(

NKT

：正規化ケンドール順位相関係数

P ₁ = 類似度 P ₂ = 重要度

RIBES

から変更していない尺度新たに追加した尺度

33/ 46

(34)

September 22, 2014

実験

背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定

(35)

実験 ₍ 実験方法 )



実験方法

–

人手評価値付き翻訳文を評価

–

人手評価値と自動評価値の相関を分析

– 5

分割交差検証



人手評価値付き翻訳文

–

英語母語話者による主観評価

– 5

段階の評価値

評価値 評価基準

5 問題なし

4 ほぼネイティブな表現

3 多少問題はあるが，理解可能 2 問題は多いが，雰囲気は伝わる

1 理解不能

35/ 46

(36)

実験 ₍ ^{実験データ} ₎



翻訳文

–

日本語課題文を被験者

(

日本人

)

が英訳した翻訳文

– 1

セット：

30,000

文

(

日本語課題

300

文 ×

100) –

全てで

5

セット

(30,000

文 ×

5 = 150,000

文

) –

使用する翻訳文：

486

文

(

人手評価値付

)



参照文

–

日本語課題文を英語母語話者が英訳した翻訳文

– 1

セット：

3,000

文

(

日本語課題

300

文 ×

10)

–

全てで

5

セット

(3,000

文 ×

5 = 15,000

文

)

–

使用する翻訳文と最小編集距離をとる文

(37)

September 22, 2014 September 22, 2014

結果

背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定

(38)

人手評価値と自動評価値の相関

評価方法 相関係数の最大値 P

RIBES 0.330

RIBES⁺（類似度） 0.444 0.004

RIBES⁺（重要度） 0.465 0.005

RIBES⁺(類似度+重要度⁾ 0.477 0.001

0.250 0.300 0.350 0.400 0.450 0.500 0.550

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 相

関係数

λ（平滑化変数）

相関係数(平均値+標準誤差)

RIBES+

RIBES+(類似度) RIBES+(重要度) RIBES

(39)

RIBES ⁺ の正しい評価例

 RIBES

では誤って評価し、

RIBES

⁺では正しく評価できた翻訳文

例１）「この街を案内してもらえますか．」

参照文：

Can you show me around town?

翻訳文：

Can you guide the town?

人手評価値

RIBES RIBES

⁺

2 0.863 0.408

例２）「トイレの水が止まりません．」

参照文：

The toilet’s water doesn’t stop?

翻訳文：

The toilet’s water doesn’t come?

人手評価値

RIBES RIBES

⁺

2 0.955 0.324

39/ 46

(40)

RIBES ⁺ の誤り評価例

 RIBES

では正しく評価し、

RIBES

⁺では誤って評価した翻訳文

例１）日本語課題文

「空がとても澄んでいるので星がたくさん見えます．」

参照文：

one can see many stars in the clear sky.

翻訳文：

I can see a lot of stars since sky is clear.

人手評価値

RIBES RIBES

⁺

3 0.738 0.345

例２）日本語課題文

「心配しないで．」

参照文：

Do not worry .

翻訳文：

Do not get worried.

人手評価値

RIBES RIBES

⁺

3 0.840 0.289

(41)

0.300 0.350 0.400 0.450 0.500

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

相関係数

λ(平滑化変数)

相関係数

(

平均値

+

標準誤差

)

RIBES+

RIBES+(類似度)

RIBES+(重要度)

RIBES

考察



提案手法は、従来手法に比べ評価性能が向上

–

単語の類似度・重要度は人手評価に大きく影響



句単位の類似度を検出することができなかった

–

熟語言い換えを考慮することで、性能向上が期待できる

41/ 46

(42)

September 22, 2014

まとめ・今後の予定

背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定

(43)

まとめ



単語重要度・類似度を評価尺度に入れた自動翻訳評価法

RIBES

⁺を考案



本データに関しては、従来手法と比べ、

提案手法がより評価性能が向上



類似度を抽出する範囲を、

単語単位から句単位へと拡張する必要

(44)

今後の予定



句の言い換えを考慮したアライメント調整



類似度を用いた語順相関処理、重要度尺度への拡張

(45)

謝辞

本研究の一部は，第

6

回関西

MT

勉強会におけるエラー分析の知見に基づく．

(46)

参考文献

• 磯崎秀樹, “最近の自動評価法の研究動向とRIBES” ,平成24年度AAMT/Japoi特許翻訳研究会特許文書の機械翻訳結果評価方法検討会資料集(2012)

http://aamtjapio.com/kenkyu/files/discussion01/AAMT_Japio_discus(20120907)-02.pdf

• 隅田英一郎佐々木裕山本誠一, “機械翻訳システム評価法の最前線” , 情報処理学会, Vol.46 NO.5 通巻483号,pp.552-557 (2005)

• 安田圭志喜多村圭祐山本誠一柳田益造, “多重タグ付き英語学習者コーパスの開発と英語能力自動測定への応用”, 自然処理学会, Vol.16 No.4 pp.48-63(2009)

• 平尾努磯崎秀樹 Kevin Duh 須藤克仁塚田元永田昌明, “RIBES：順位相関に基づく翻訳の自動評価法”, 言語処理学会第17回年次大会発表論文集,

pp.1115-1118 (2011)

• Ganitkevitch, Juri and Van Durme, Benjamin and Callison-Burch, Chris, “PPDB:The Paraphrase Database”, Proceedinds of NAACL-HLT, pp758-768,(2013)

翻訳自動評価法の適用に関する考察

人による翻訳文への