Grahamさんの資料 Project MT (Machine Translation) 首都大学東京自然言語処理研究室（小町研） neubigyoto slides

(1)

1

ニューラルネットに

基づく機械翻訳

Graham Neubig

奈

良

先

端

科

学

技

術大

学

院

大

学

_(NAIST)

(2)

2

I am giving a talk at Kyoto University

(3)

3

F

= “I am giving a talk”

P(

e

₁

=

私

_|

_F

_{) = 0.8}

P(

e

1

=

僕

|

F

) = 0.03

P(

e

₁

=

講

演

_|

_F

_{) = 0.01}

...

P(

e

₂

=

は

_|

_F

_,

_e

1

) = 0.9

P(

e

2

=

が

|

F

,

e

1

) = 0.09

...

P(

e

₃

=

講

演

_|

_F

_,

_e

_1,2

_{) = 0.4 P(}

e

3

=

ト

ー

ク

|

F

,

e

1,2

) = 0.3

P(

e

₃

=

話

_|

_F

_,

_e

1,2

) = 0.03

...

P(

e

₄

=

を

_|

_F

_,

_e

1,3

) = 0.99

...

P(

e

₅

=

し

て

い

ま

す

|F,

e

1,4

) = 0.4

P(

e

5

=

し

て

い

る

|F,

e

1,4

) = 0.15

...

P(

e

₅

=

行

って

い

ま

す

|F,

e

1,4

) = 0.3 P(

e

5

=

行

って

い

る

|F,

e

1,4

) = 0.1

P(

e

₆

=

(

終

₎

|F,

e

1,5

) = 0.8

P(

e

6

=

よ

|F,

e

1,5

) = 0.1

...

私

e

₁

=

は

e

₂

=

講演

e

₃

=

を

e

₄

=

して

います

e

₅

=

(4)

4

つまり、機械翻訳は

として定式化することができる

確率

モ

デ

ル

訳

出

過

程

P

(

E

∣

F

)=

∏

_i

₌

₁

I

+

1 P

(

e

_i

∣

F

,

e1

i

−

1 )

i

= 0

while

e

i

is not equal to “(

終

)”:

i

← i

+1

e

(5)

5

(6)

6

翻訳モデル・言語モデル

翻

訳

モ

デ

ル

確率

P

(

E

∣

F

)=

∏

i

=

1 I

+

1 P

(

e

_i

∣

F

,

e1

i

−

1 )

言語

モ

デ

ル

確率

P

(

E

)=

∏

_i

₌

1 I

+

1 P

(

e

_i

∣

e

1 i

−

1 )

い

っ

た

ん

入

力

を

忘

れ

て

P

(

e

_i

∣

e

1 i

−

1 )

(7)

7

P

(

e

_i

∣

e

₁

i

−

1 )=

c

(

e

1 i

)

c

(

e

1 i

−

1 )

私

は

講演

を

し

て

い

る

_</s>

私

の

勤め

先

は

奈

良

に

あ

る

_</s>

奈

良

は

大

阪

に

近

い

_</s>

P(

の

_{| <s>}

私

_{) = c(<s>}

私

の

_)/c(<s>

私

_{) = 1 / 2 =}

_0.5

(8)

8

数え上げの問題

●

頻度の低い現象

に弱い：

私

は

講演

を

し

て

い

る

_</s>

私

の

勤め

先

は

奈

良

に

あ

る

_</s>

奈

良

は

大

阪

に

近

い

_</s>

学

習

：

P(

E

=

私

の

勤

め

先

は

大

阪

に

あ

る

_</s>

) = 0

私

の

勤め

先

は

大

阪

に

あ

る

_</s>

P(

大

阪

_|<s>

私

の

勤め

先

は

_{) = 0/1 = 0}

(9)

9

●

2-gram

モデル：

直前の

1 単語のみを利用

P

(

E

)=

∏

i=

1 I

+

1 P

(

e

_i

∣

e

_i

₋

1 )

●

3-gram, 4-gram, 5-gram

なども

●

+

精度が向上

●

-

メモリ量、スパース性の問題が悪化

私

の

勤め

先

は

大

阪

に

あ

る

_</s>

私

は

講演

を

し

て

い

る

_</s>

私

の

勤め

先

は

奈

良

に

あ

る

_</s>

奈

良

は

大

阪

に

近

い

_</s>

入

力

：

(10)

10

対数線形言語モデル

_{[Chen+ 00]}

₍₁₎

●

より柔軟

な確率計算法

●

履歴の単語に基づいて全単語の

スコア

s

を計算

s

(

e

_i

₋

_n

₊

1 i

−

1 )=

b

+

∑

k

=

1 n

−

1 w

_k

_,

_e

i−k

w

_2,_勤_め先

=

w

_1,_は

=

は

が

奈

良

同

僚

行う

…

3.0

2.5 -0.2

0.1

1.2 …

b

=

-0.2

-0.3

1.0

2.0

0.4 …

-6.0

-5.1

0.2

0.1

0.6 …

s =

-3.2

-2.9

1.0

2.2

2.2 …

(11)

11

●

確率計算のため、

スコアの指数を取り、正規化

p

(

e

_i

=

x

∣

e

_i

₋

_n

₊

1 i

−

1 )=

e

s

(

e

_i

=

x

∣

e

i_i₋−_n1₊₁

)

∑

~

_x

e

s

(

e

_i

=~

x

∣

e

_i₋_n₊1

i−1

)

●

ベクトルに対して行う際

softmax

関数

とも言う

s =

-3.2

-2.9

1.0

2.2

2.2 …

は

が

奈

良

同

僚

行う

…

p

(

e

_i

∣

e

_i

₋

_n

₊

1 i

−

1 )=

softmax

(

_s

(

_e

i

∣

e

i

−

n

+

1 i

−

1

(12)

12

対数線形モデルの学習

●

確率的勾配降下法

(SGD)

を利用することが多い

●

学習データの各単語

e

i

に対して

パラメータ

w

をどの方

向に動かしたら正解の確率が良くなりそうかを計算

●

これを

学習率

α

にかけてパラメータを更新

δ=

d

w

p

(

e

i

∣

e

i

−

n

+

1 i

−

1 )

(尤度の勾配 )

(13)

13

変数の相互作用をうまく表現できていない

勤め先　は　奈良　→

○ 勤め先　は　同僚　→

△

勤め先　の　奈良　→

△

勤め先　の　同僚　→

○

●

単純と

足し合わせるだけでは表現不可

。解決策は？

●

「勤め先

は」などの単語列もパラメータ化：

w

_2,1,_勤_め先_,_は

=

2.0 -2.1

…

奈

良

同

僚

…

w

2,1,勤め先,の

=

-1.2

2.9 …

パラメータ数、メモリの爆発…

(14)

14

(15)

15

e

_i-1

e

_i-2

1 soft

max

W

₁

W

₂

b

p

_i

e

_i-1

と

e

_i-2

は各単語に当たるだけが

1 の

one-hot

ベクトル

W

₁

,

_W

2 は重み行列、

b

は重みベクトル

e

_i-1

=

{1, 0, 0, 0, 0, ...}

e

_i-2

=

{0, 0, 0, 0, 1, ...}

は

が

奈

良

同

僚

勤め

先

p

_i

=

softmax

(

_b

+

∑

k

=

1 n

−

1

(16)

16

ニューラルネット

e

_i-1

e

_i-2

1 tanh

W

₁

W

₂

b

h

_i

●

入力と出力の間に、

非線形関数を計算する隠れ層

を追加

h

_i

=

tanh

(

_b

+

∑

k

=

1 n

−

1 W

_k

e

_i

₋

_k

)

soft

max

p

_i

W

_h

p

_i

=

softmax

(

_W

h

i

)

tanh →

-4 -3 -2 -1 0

1

2

3

4 -1

(17)

17

●

「特徴量」が学習可能

●

例：

話者本人が主語の文脈

「

{

私

,

僕

,

俺

} {

は

,

が

}

」

●

両方が成り立てば、隠れ層の１ノード目は正の値

そうでなければ、負の値

●

数え上げなら、全パターンを覚える必要あり！

W

₂

[1]=

W

₁

[1]=

b

[1]=-1

は

が

私

僕

奈

良

同

僚

俺

…

-1

1

1 -1

-1

1 …

1

1 -1

-1

…

私

は

→

tanh(1)

彼

は

→

tanh(-1)

(18)

18

[Nakamura+ 90, Bengio+ 06]

<s> <s> this is a pen </s>

●

低次元

隠れ層

で出力の類似性を考慮

●

単語表現

で文脈の類似性を考慮

●

文脈のすべての単語を直接考慮するため、未知語を

(19)

19

●

勾配を出力に近い方から逆順に伝搬

e

_i-1

e

_i-2

1 tanh

W

₁

W

₂

b

h

_i

_max

soft

p

_i

W

_h

δ

_p

δ

_h

正

解

と

比較し

て

直接計

算

(20)

20

(21)

21

●

ノードの一部の出力が入力として戻ってくる

●

理由：長距離に渡る依存性の「記憶」が可能

e

_i-1

e

_i-2

1 tanh

W

₁

W

₂

b

h

_i

_max

soft

p

_i

W

_h

(22)

22

系列モデルとしての

_RNN

NET

x

₁

x

₂

x

₃

x

₄

(23)

23

[Mikolov+ 10]

<s> <s> this is a pen </s>

●

以前の単語を「記憶」する

(24)

24

RNN

の勾配計算

NET

x

₁

x

₂

x

₃

x

₄

y

₁

y

₂

y

₃

y

₄

δ

_o,4

●

まず系列のネット結果全体を計算

●

後ろ

から

エ

ラーを計算

δ

_o,3

δ

_o,2

δ

(25)

25

NET

x

₁

x

₂

x

₃

x

₄

y

₁

y

₂

y

₃

y

₄

δ

_o,4

δ

中

小

微

(26)

26

[Hochreiter+ 97]

●

線形関数を使った隠れ状態＋ゲ

ートで勾配をコント

ロ

(27)

27

Encoder-Decoder

翻訳モデ

_ル

(28)

28

LSTM

ニューラルネット翻訳モデル

[Sutskever+ 14]

this is a pen </s>

これ

は

ペ

ン

で

す

</s>

●

つまり、入力言語で

条件付

けられた言語モデル

P

(

e

₁

I

∣

f

1 J

)=

∏

_i

=

1 I

+

1 P

(

e

_i

∣

f

1 J

, e

1 i

−

1 )

(29)

29

訳文の

生

成

this

</s>

a

is

pen </s>

これ

は

ペ

ン

で

す

入力

文をエンコ

ード

一

単語ずつ

生

成

これ

は

ペ

ン

で

す

a

_r

_g

_m

a

_x

e

_i

P

(

e

i

∣

f

1 J

, e

1 i

−

1

(30)

30

詳細

●

入力を逆順にする（学習が容易に）

●

ビ

ー

ム探索

●

モデルのアンサンブ

ル

pen

</s>

is

a

this </s>

これ

は

ペ

ン

で

す

(31)

(32)

32

日英における

再

現実

験

●

旅

行会話

11.6 万文で学習

(33)

33

人手で評価し

ても

通用するか？

入力

_:

バスタ

ブ

から

お湯

があ

ふ

れ

てしまいました。

正解

:

the hot water overflowed from the bathtub .

PBMT

：

the hot water up the bathtub .

EncDec:the bathtub has overflowed .

再

現実

験

：

はい、ある

程

度は。

入力

:

コー

ヒ

ーのクリー

ム

入りをくだ

さ

い。

正解

:

i 'll have some coffee with cream , please .

PBMT: cream of coffee , please .

(34)

34

ただし、問題はある

繰

り

返

し：

入力

:

どのファンデーションが私の肌の色に近いですか。

正解

_:

_{which foundation comes close to my natural skin color ?}

PBMT:

which foundation near my natural skin color ?

EncDec: which foundation is my favorite foundation with a foundation ?

あきらめ：

入力

:

ギブ

ス

を

し

な

けれ

ば

な

り

ま

せ

ん

。

正解

:

you 'll have to have a cast .

PBMT:

i have a

ギブス

.

(35)

35

注意型ニ

ューラルネット

(36)

36

可変長の文を一定のベクトルで表せるか？

yes?

[Sutskever+ 2014]

no?

[Pouget-Abadie+ 2014]

PBMT

(37)

37

[Bahdanau+ 15]

●

対象の文を

エ

ンコー

(38)

38

再

現実

験

●

日英旅

行対話

11.6 万

文で学習

(39)

39

従来法との

組

み合わせ：

(40)

40

リラン

キ

ン

グ

●

従来のシステ

ム

から結果を出し、ニ

ューラ

ル翻訳のス

コアを

使

いながら

選択

入

力

出力

₁

出力

₂

出力

₃

候

補

生成

スコア

(41)

41

●

英

語→フ

ランス語

(42)

42

おける日

_{本語を用いた実}

験

BLEU

RIBES

HUMAN

en-ja

Baseline

36.6

79.6

49.8 Reranking

38.2

81.4

62.3 ja-en

Baseline

22.6

72.3

11.8 Reranking

25.4

75.0

35.5 zh-ja

Baseline

40.5

83.4

25.8 Reranking

43.0

84.8

35.8 ja-zh

Baseline

30.1

81.5

2.8 Reranking

31.6

83.3

7.0

●

ベースラ

イ

ンは

構

文

情報

を用いる

強

い

シ

ス

テム

●

すべての言語、

自

動・人

手評価

で一

貫

して大きな性能

(43)

43

入力：

另外，各国也

进

_行了本国

销

售的食品的实

态调查

。

正解：

また，各国

でも

，

自国で販売し

ている

食品の実態調査が行われた。

Base:

また，各国

は

自国販売

の

食品の実態調査を行った。

Re

r

a

nk:

また，各国

でも本

邦

で

販売さ

れる

食品の実態調査を行った

入力

:

在此，以研究教育

现

场

的“

风险

交流”

的实情

为

前

提，整

理

了如

下

项

目。

正解

:

ここでは

教育

現

場

に

お

ける「リスクコ

ミ

ュニ

ケ

ー

ショ

ン」

のあり方を

検討

するための前

提

を以下の

項

目に

分

けて

整

理した。

Base:

ここでは

，

「リスクコ

ミ

ュニ

ケ

ー

ショ

ン」の

教育

現

場研究

の実

情

を前

提

と

して

，

以下の

項

目について

整

理した。

Rer

ank:

ここでは

，

教育

現

場

に

お

ける「リスクコ

ミ

ュニ

ケ

ー

ショ

ン」

の実

態

を前

提

(44)

44

(45)

45

●

学習の都合上、出力

語

彙

が

増

えると大変

●

低頻度

後

に弱い→

●

未知語

処

理で対

応

[Luong+ 15]

●

効

率的な学習法

●

ノ

イズ

対

照

推定

(NCE)

[Vaswani+ 13]

●

学習データの

分割

(46)

46

統

語・形態論情報

の利用

●

現

在

は言語

構造

はいっ

さ

い未考慮

●

統

語

情報

を

使

った

事

前

並

べ

替

え

＋

系列モデル

[

外山

+15]

●

統

語

情報

を考慮したニューラルネットは利用可？

(47)

47

●

細かく訳出結果を制御することは不可

(48)

48

参考資料・文

献

●

Kevin Duh: Deep Learning for Machine Translation

http://cl.naist.jp/~kevinduh/notes/cwmt14tutorial.pdf

● D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. In Proc. ICLR, 2015.

● Y. Bengio, H. Schwenk, J.-S. Sen ́ecal, F. Morin, and J.-L. Gauvain. Neural probabilistic language models. In Innovations in Machine Learning, 2006.

● S. F. Chen and R. Rosenfeld. A survey of smoothing techniques for me models. Speech and Audio Processing, IEEE Transactions on, 8(1):37–50, Jan 2000.

● S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.

● S. Jean, K. Cho, R. Memisevic, and Y. Bengio. On using very large target vocabulary for neural machine translation. In Proc. ACL, 2015.

● N. Kalchbrenner and P. Blunsom. Recurrent continuous translation models. In Proc. EMNLP, pages 1700–1709, Seattle, Washington, USA, 2013. Association for Computational Linguistics.

● M.-T. Luong, I. Sutskever, Q. Le, O. Vinyals, and W. Zaremba. Addressing the rare word problem in neural machine translation. In Proc. ACL, 2015.

● T. Luong, R. Socher, and C. Manning. Better word representations with recursive neural networks for morphology. pages 104–113, 2013.

● T. Mikolov, M. Karafi ́at, L. Burget, J. Cernocky`, and S. Khudanpur. Recurrent neural network based language model. In Proc. InterSpeech, pages 1045–1048, 2010.

● M. Nakamura, K. Maruyama, T. Kawabata, and K. Shikano. Neural network approach to word category prediction for English texts. In Proc. COLING, 1990.

● R. Socher, C. C. Lin, C. Manning, and A. Y. Ng. Parsing natural scenes and natural language with recursive neural networks. pages 129–136, 2011.

● I. Sutskever, O. Vinyals, and Q. V. Le. Sequence to sequence learning with neural networks. In Proc. NIPS, pages 3104–3112, 2014.

Grahamさんの資料 Project MT (Machine Translation) 首都大学東京 自然言語処理研究室（小町研） neubigyoto slides

ニューラルネットに

基づく機械翻訳

Graham Neubig

奈

良

先

端

科

学

技

術大

学

院

大

学

(NAIST)

I am giving a talk at Kyoto University

F

= “I am giving a talk”

P(

e

=

私

|

F

) = 0.8

P(

e

=

僕

|

F

) = 0.03

P(

e

=

講

演

|

F

) = 0.01

...

P(

e

=

は

|

F

,

e

) = 0.9

P(

e

=

が

|

F

,

e

) = 0.09

...

P(

e

=

講

演

|

F

,

e

) = 0.4 P(

e

=

ト

ー

ク

|

F

,

Grahamさんの資料 Project MT (Machine Translation) 首都大学東京自然言語処理研究室（小町研） neubigyoto slides

_(NAIST)

_|

_F

_{) = 0.8}

_|

_F

_{) = 0.01}

_|

_F

_,

_e

_|

_F

_,

_e

_{) = 0.4 P(}

_|

_F

_,

_e

_|

_F

_,

_e

₎