• 検索結果がありません。

翻訳自動評価法の適用に関する考察

N/A
N/A
Protected

Academic year: 2021

シェア "翻訳自動評価法の適用に関する考察"

Copied!
46
0
0

読み込み中.... (全文を見る)

全文

(1)

人による翻訳文への

翻訳自動評価法の適用に関する考察

冨田 隼平

(

同志社大

)

水上 雅博

( NAIST )

小田 悠介

( NAIST )

山本 誠一

(

同志社大

)

September 22, 2014 Doshisha University

NLP若手の会(YANS) 9回シンポジウム (2014)

(2)

概要

This is an apple.

I goes to school.

I’m happy because…

15

万文

The toilet’s water stop...

I likes James playing … He caught a cold…

日本人が翻訳した英文 正しい英文

This is an apple.

I’m happy because…

He caught a cold…

誤った英文

The toilet’s water stop...

I likes James playing … I goes to school on …

人間が評価 自動で評価

(3)

人による翻訳文に頑健な自動翻訳評価手法の検討

目的

人による翻訳文の品質評価について

人手評価

高い信頼性

誤りカ所を正確に判断可能

多量の処理は不適

自動評価

多量に処理が可能

バラツキのない評価

September 22, 2014 Doshisha University 3/ 46

(4)

目次

 概要

 目的

 評価手法

 提案手法

 実験

 結果

 まとめ

 今後の予定

(5)

September 22, 2014

評価手法

背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定

Doshisha University 5/ 53

(6)

翻訳自動評価手法

This is an apple.

I goes to school.

I’m happy because…

The toilet’s water stop...

I likes James playing … He caught a cold…

翻訳機器が出力した英文 正しい英文

This is an apple.

I’m happy because…

He caught a cold…

誤った英文

The toilet’s water stop...

I likes James playing … I goes to school on …

自動評価法

RIBES

(7)

RIBES

RIBES(Rank-based Intuitive Billingual)

[1]

参照文と翻訳文の語順相関に基づき評価

ルールベース機械翻訳(RBMT)で高い相関

BP

P NKT

RIBES   

0 , 1

NKT:正規化ケンドール順位相関係数 P = ユニグラム適合率

r c

r c if if c BP r

 

 

) / 1

exp(

1

r = 参照文の単語数

c = 翻訳文の単語数 評価範囲:

1  RIBES  0

September 22, 2014 Doshisha University 7/ 46

[1]:平尾ら. “RIBES:語順相関に基づく翻訳の自動評価法”(2011)

(8)

RIBES ( 評価例)

He caught a cold because he got soaked in the rain.

Because he had gotten wet in the rain,he caught a cold .

RIBES = NKT ´ P a ´ BP b

 

 

 

  1

8 9

) 1 2

)(

20 16

( 2 1

36 .

 0

11

 9  1

⑧ ⑨

⑥ ⑦

③ ④

⑤ ⑥ ⑦ ⑧ ⑨ ① ②

[5, 6, 7, 8, 9, 1, 2, 3, 4 ]

(9)

人による翻訳文への適用は困難

September 22, 2014 Doshisha University

This is an apple.

I goes to school.

I’m happy because…

The toilet’s water stop...

I likes James playing … He caught a cold…

翻訳機器が出力した英文 正しい英文

This is an apple.

I’m happy because…

He caught a cold…

誤った英文

The toilet’s water stop...

I likes James playing … I goes to school on …

自動評価法

RIBES

日本人が翻訳した英文

9/ 46

(10)

適用が困難な理由

 出力単語違い

翻訳機器:想定内の単語

人間:想定外の単語が出力される可能性

同一単語のみのアライメントでは不十分

(11)

RIBES の問題点

人による翻訳文への適用について

1.

単語の重要度に関わらない評価

重要な単語とそうでない単語誤りを同等に評価

2.

単語の類似度に関わらない評価

単語間の意味的な類似度に関わらず同等に評価

September 22, 2014 Doshisha University 11/ 46

(12)

誤評価の具体例

単語重要度・類似度を考慮に入れた評価手法の検討

単語類似度による誤評価 単語重要度による誤評価

例)「トイレの水が止まりません」 例)「この家は5年前に建てられました」

R

The toilet’s water doesn’t stop.

S1

The toilet’s water doesn’t come.

S2

That toilet’s water doesn’t stop.

R:This house was built five years ago.

S1

:

This house was made

five years ago

. S2

:

This house was run five years ago.

誤り単語に関わらず同じ評価

※ R

S1

は意味が全く違う

※ R

S1

は意味が似通っている

(13)

September 22, 2014 September 22, 2014

提案手法

背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定

Doshisha University 13/ 53

(14)

RIBES +

RIBES + (RIBESplus)

― RIBES

に単語重要度類似度の尺度を追加

11,2, 0

 

P BP

P NKT

RIBES   1

1

2

2

r c

r c if if c BP r



 

) / 1 exp(

1 r = 参照文の単語数 c = 翻訳文の単語数

NKT

:正規化ケンドール順位相関係数

P 1 = 類似度 P 2 = 重要度

RIBES

から変更していない尺度 新たに追加した尺度

(15)

RIBES からの変更点

 

P BP

P NKT

RIBES   1

1

2

2

September 22, 2014 Doshisha University

BP

P NKT

RIBES   

ユニグラム適合率を、類似度重要度に変更

15/ 46

(16)

処理の流れ

1.

単語間アライメント探索

1.

最長共通部分列

(LCS)

を抽出

2.

単語間類似度によりアライメントを決定

2.

類似度計算

単語間類似度を幾何平均

a b

a

PW

b a

W

a

b a

W W P W W P W

W S

) (

) (

,  PW

a

| W

b

から への言い換え Wa

Wb

単語間類似度 単語言い換え確率

PPDB(Paraphrase Database)[3]から抽出

[3] Ganitkevitch et. “PPDB:The Pataphrase Database”(2013)

(17)

単語数による処理方法の違い

単語間アライメント探索

A.

単語数が同じ場合

B.

単語数が違う場合

September 22, 2014 Doshisha University

This house was built five years ago.

This house has been built five year.

This house was built five years ago.

This house has been built five year ago.

17/ 46

(18)

単語数が同じ場合 ( アライメント探索 )(1)

1.

最長共通部分列

(LCS)

を抽出

This house was built five years ago.

This house has been built five year.

(19)

単語数が同じ場合 ( アライメント探索 )(2)

2.

単語間類似度でアライメント決定

貪欲法により求める

September 22, 2014 Doshisha University

This house was built five years ago.

This house has been built five year.

was years ago

has 0.020 0.004 0.002

been 0.245 0.012 0.123

year 0.002 0.876 0.468

単語間類似度

19/ 46

(20)

単語数が同じ場合 ( アライメント探索 )(3)

2.

単語間類似度でアライメント決定

貪欲法により求める

This house was built five years ago.

This house has been built five year.

was years ago

has 0.020 0.004 0.002

been 0.245 0.012 0.123

year 0.002

0.876

0.468

単語間類似度

(21)

単語数が同じ場合 ( アライメント探索 )(4)

2.

単語間類似度でアライメント決定

貪欲法により求める

September 22, 2014 Doshisha University

This house was built five years ago.

This house has been built five year .

was

years

ago

has 0.020

0.004

0.002

been

0.245 0.012

0.123

year 0.002 0.876 0.468

単語間類似度

21/ 46

(22)

単語数が同じ場合 ( アライメント探索 )(5)

This house was built five years ago.

This house has been built five year.

was years

ago

has

0.020 0.004

0.002

been 0.245 0.012 0.123

year 0.002 0.876 0.468

単語間類似度

2.

単語間類似度でアライメント決定

貪欲法により求める

(23)

単語数が同じ場合 ( 類似度計算 )

September 22, 2014 Doshisha University

This house was built five years ago.

This house has been built five year.

 

         

 

     

 

     

 

 

 

 

 

has ago

S year

years S

five five

S built

built S

been was

S house

house S

This This

S P

, log

, log

, log

, log

, log

, log

, log

7 exp 1

1

単語間類似度を幾何平均

23/ 46

(24)

単語数が違う場合 ( アライメント探索 )(1)

1.

最長共通部分列

(LCS)

を抽出

This house was built five years ago.

This house has been built five year ago.

(25)

単語数が違う場合 ( アライメント探索 )(2)

2.

単語間類似度でアライメント決定

貪欲法により求める

September 22, 2014 Doshisha University

This house was built five years ago.

This house has been built five year ago.

was years

has 0.243 0.004

been 0.320 0.012 year 0.002 0.876

単語間類似度

25/ 46

(26)

単語数が違う場合 ( アライメント探索 )(3)

2.

単語間類似度でアライメント決定

貪欲法により求める

This house was built five years ago.

This house has been built five year ago.

was years

has 0.243 0.004

been 0.320 0.012

year 0.002 0.876

単語間類似度

(27)

This house was built five years ago.

This house has been built five year ago.

単語数が違う場合 ( ペナルティ計算 )

3. Null

へのアライメントとして,ペナルティを付加

September 22, 2014 Doshisha University

   

8 log 1 log 8 1 1

C

NP

NP = log{( m C c ) -1 }

m = c = 単語数の差多い方の単語数

27/ 46

(28)

This house has been built five year ago.

単語数が違う場合 ( 類似度計算 )

単語間類似度を幾何平均

NP

も同様

This house was built five years ago.

 

         

 

         

 

 

 

 

 

 

 

NP ago

ago S

year years

S five

five S

built built

S

been was

S house

house S

This This

S P

, log

, log

, log

, log

, log

, log

, log

8 exp 1

1

(29)

類似度

 類似度

– PPDB(Paraphrase Database)

を使用

September 22, 2014 Doshisha University

   

i j

i j j

i j

i

h r

r h h

r h

r PW W

W W P W W P W

W

S , 

P W

r

i

| W

h

(

j

)

から Wrへの言い換え

i

Wh

j

 

 

 

 

 

 

 

NnS W W NP

P

j i

h r

i j

,

1 1 log ( , )

exp

N:少ない方の文の単語数

NP

null

アライメントによるペナルティ

単語間類似度 単語言い換え確率

r c

r c if n if



 

      0

1 r = 参照文の単語数 c = 翻訳文の単語数

29/ 46

(30)

平滑化処理

単語間類似度の平滑化

言い換えを抽出できない場合の対処

– λ

は定数ではなく,変数として設定

(

グリッドサーチ

)

S

'

W

r

i

, W

h

(

j

) = ( 1 - l ) ´ S W (

ri

, W

hj

) + l ´ V 1

S

'

W

r

i

, W

h

(

j

)

:平滑化後の単語間類似度

V

:使用データセットに出現する単語の種類数

(31)

重要度

重要度

単語重要度

単語出現頻度は

BTEC

コーパスから抽出

September 22, 2014 Doshisha University

P 2 =

翻訳文中の単語重要度の総和 共通単語の重要度の総和

コーパス内の全単語の出現頻度の総和

log )

Pr( word  

コーパス内のWordの出現頻度

重要度単語の一致率

重要度

(P

2

)

低 高

単語出現頻度 単語重要度

31/ 46

(32)

重要度の評価例

 重要度の評価例

参照文:

He comes back to house.

翻訳文:

She goes back to house.

) Pr(

) Pr(

) Pr(

) Pr(

) Pr(

) Pr(

) Pr(

house to

back goes

She

house back

 

P 2 =

翻訳文中の単語重要度の総和 共通単語の重要度の総和

(33)

RIBES + (再掲)

RIBES + (RIBESplus)

RIBES

に単語重要度類似度の尺度を追加

11,2, 0

 

P BP

P NKT

RIBES   1

1

2

2

September 22, 2014 Doshisha University

r c

r c if if c BP r



 

) / 1 exp(

1 r = 参照文の単語数 c = 翻訳文の単語数

NKT

:正規化ケンドール順位相関係数

P 1 = 類似度 P 2 = 重要度

RIBES

から変更していない尺度 新たに追加した尺度

33/ 46

(34)

September 22, 2014

実験

背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定

Doshisha University 34/ 53

(35)

実験 ( 実験方法 )

実験方法

人手評価値付き翻訳文を評価

人手評価値と自動評価値の相関を分析

– 5

分割交差検証

人手評価値付き翻訳文

英語母語話者による主観評価

– 5

段階の評価値

September 22, 2014 Doshisha University

評価値 評価基準

5 問題なし

4 ほぼネイティブな表現

3 多少問題はあるが,理解可能 2 問題は多いが,雰囲気は伝わる

1 理解不能

35/ 46

(36)

実験 ( 実験データ )

翻訳文

日本語課題文を被験者

(

日本人

)

が英訳した翻訳文

– 1

セット:

30,000

(

日本語課題

300

×

100) –

全てで

5

セット

(30,000

×

5 = 150,000

) –

使用する翻訳文:

486

(

人手評価値付

)

参照文

日本語課題文を英語母語話者が英訳した翻訳文

– 1

セット:

3,000

(

日本語課題

300

×

10)

全てで

5

セット

(3,000

×

5 = 15,000

)

使用する翻訳文と最小編集距離をとる文

(37)

September 22, 2014 September 22, 2014

結果

背景・目的・評価手法・提案手法・実験・結果・まとめ・今後の予定

Doshisha University 37/ 53

(38)

人手評価値と自動評価値の相関

評価方法 相関係数の最大値 P

RIBES 0.330

RIBES+(類似度) 0.444 0.004

RIBES+(重要度) 0.465 0.005

RIBES+(類似度+重要度) 0.477 0.001

0.250 0.300 0.350 0.400 0.450 0.500 0.550

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

λ(平滑化変数)

相関係数(平均値+標準誤差)

RIBES+

RIBES+(類似度) RIBES+(重要度) RIBES

(39)

RIBES + の正しい評価例

 RIBES

では誤って評価し、

RIBES

+では正しく評価できた翻訳文

September 22, 2014 Doshisha University

例1)「この街を案内してもらえますか.」

参照文:

Can you show me around town?

翻訳文:

Can you guide the town?

人手評価値

RIBES RIBES

+

2 0.863 0.408

例2)「トイレの水が止まりません.」

参照文:

The toilet’s water doesn’t stop?

翻訳文:

The toilet’s water doesn’t come?

人手評価値

RIBES RIBES

+

2 0.955 0.324

39/ 46

(40)

RIBES + の誤り評価例

 RIBES

では正しく評価し、

RIBES

+では誤って評価した翻訳文

例1)日本語課題文

「空がとても澄んでいるので星がたくさん見えます.」

参照文:

one can see many stars in the clear sky.

翻訳文:

I can see a lot of stars since sky is clear.

人手評価値

RIBES RIBES

+

3 0.738 0.345

例2)日本語課題文

「心配しないで.」

参照文:

Do not worry .

翻訳文:

Do not get worried.

人手評価値

RIBES RIBES

+

3 0.840 0.289

(41)

0.300 0.350 0.400 0.450 0.500

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

λ(平滑化変数)

相関係数

(

平均値

+

標準誤差

)

RIBES+

RIBES+(類似度)

RIBES+(重要度)

RIBES

考察

September 22, 2014 Doshisha University

提案手法は、従来手法に比べ評価性能が向上

単語の類似度・重要度は人手評価に大きく影響

句単位の類似度を検出することができなかった

熟語言い換えを考慮することで、性能向上が期待できる

41/ 46

(42)

September 22, 2014

まとめ・今後の予定

背景・目的・評価手法・提案手法・実験・結果・まとめ今後の予定

Doshisha University 42/ 53

(43)

まとめ

単語重要度・類似度を評価尺度に入れた 自動翻訳評価法

RIBES

+を考案

本データに関しては、従来手法と比べ、

提案手法がより評価性能が向上

類似度を抽出する範囲を、

単語単位から句単位へと拡張する必要

September 22, 2014 Doshisha University 43/ 46

(44)

今後の予定

句の言い換えを考慮したアライメント調整

類似度を用いた語順相関処理、重要度尺度への拡張

(45)

謝辞

本研究の一部は,第

6

回関西

MT

勉強会における エラー分析の知見に基づく.

September 22, 2014 Doshisha University 45/ 46

(46)

参考文献

磯崎秀樹, “最近の自動評価法の研究動向とRIBES” ,平成24年度AAMT/Japoi特許翻訳 研究会 特許文書の機械翻訳結果評価方法検討会資料集(2012)

http://aamtjapio.com/kenkyu/files/discussion01/AAMT_Japio_discus(20120907)-02.pdf

隅田英一郎 佐々木裕 山本誠一, “機械翻訳システム評価法の最前線” , 情報処理 学会, Vol.46 NO.5 通巻483,pp.552-557 (2005)

安田圭志 喜多村圭祐 山本誠一 柳田益造, “多重タグ付き英語学習者コーパス の開発と英語能力自動測定への応用”, 自然処理学会, Vol.16 No.4 pp.48-63(2009)

平尾努 磯崎秀樹 Kevin Duh 須藤克仁 塚田元 永田昌明, RIBES:順位相関 に基づく翻訳の自動評価法”, 言語処理学会 第17回年次大会 発表論文集,

pp.1115-1118 (2011)

• Ganitkevitch, Juri and Van Durme, Benjamin and Callison-Burch, Chris, “PPDB:The Paraphrase Database”, Proceedinds of NAACL-HLT, pp758-768,(2013)

September 22, 2014 Doshisha University 46/ 46

参照

関連したドキュメント

** 長崎ウエスレヤン大学 現代社会学部 Faculty of Contemporary Social Studies Nagasaki Wesleyan University,       1212 -1 Nishieida, Isahaya, Nagasaki

問題用紙4

翻訳結果を編集しましょう 翻訳結果がしっくりこないときは、適切な訳語を選択して、翻訳結果をより 正しい文章に修正します。

対面授業の時と同様にオンライン授業では、翻訳のテクスト・タイプによって訳し方が異

佐野短期大学シラバス2016 単位数 履修上の制限 2単位 選択 特になし 研究室の場所 電話番号・メールアドレス

日中機械翻訳システムである。本研究では、日英訳文集からランダムに100文

MT 1-best では,構文森を翻訳した結果として,翻訳精 度が高いと思われる構文木が翻訳器内部で選択される.し

「翻訳文体」 の定義にもよるが、 以上のようなことを指して、 村上の文体が 「翻訳文体」 で あるという意見に筆者は与しない。 たしかに