• 検索結果がありません。

音声翻訳技術 音声翻訳技術 Graham Neubig 奈良先端科学技術大学院大学 NAIST 2015/5/11 共著者 中村哲 戸田智基 Sakriani Sakti 叶高朋 大串正矢 藤田朋希

N/A
N/A
Protected

Academic year: 2021

シェア "音声翻訳技術 音声翻訳技術 Graham Neubig 奈良先端科学技術大学院大学 NAIST 2015/5/11 共著者 中村哲 戸田智基 Sakriani Sakti 叶高朋 大串正矢 藤田朋希"

Copied!
46
0
0

読み込み中.... (全文を見る)

全文

(1)

1

音声翻訳技術

音声翻訳技術

Graham Neubig

奈良先端科学技術大学院大学( NAIST )

2015/5/11

共著者:

中村哲、戸田智基、 Sakriani Sakti 、

叶高朋、大串正矢、藤田朋希、

清水宏晃、小田悠介、三重野隆史、 Do Quoc Truong

http://phontron.com/slides/neubig15jsai-slides.pdf

(2)

2

音声翻訳技術

音声翻訳

(3)

3

音声翻訳技術

音声翻訳システム

音声認識

こんにちは、駅はどこですか?

機械翻訳

Hello, where is the station?

音声合成

(4)

4

音声翻訳技術

次世代の音声翻訳に向けた 2 つの課題

音声翻訳結果を早く聞き手に届けられるか?

 

同時音声翻訳

音声の表現力を維持して翻訳できるか?

 

音響特徴の翻訳

音声認識誤りに頑健に翻訳できるか?

 

複数の候補の考慮と同時最適化

今回の範囲外:

句読点の挿入

[Peitz+11]

言いよどみへの対処

[Wang+10]

(5)

5

音声翻訳技術

(6)

6

音声翻訳技術

音声翻訳システム

ある言語の音声から違う言語の音声へ翻訳

音声認識

こんにちは、駅はどこですか?

機械翻訳

Hello, where is the station?

音声合成

(7)

7

音声翻訳技術

遅延の問題

従来のシステムは 1 文の入力が終わるまで翻訳しない!

音声認識

機械翻訳

音声合成

遅延

こんにちは、駅はどこですか?

(8)

8

音声翻訳技術

目標:遅延の低減

音声認識

こんにちは、

1

文が完全に終わる前に適切なタイミングで翻訳開始

翻訳

駅は

翻訳

どこですか?

翻訳

Hello,

the station where is it?

合成

合成

合成

(9)

9

音声翻訳技術

遅延の削減に関わる研究

[Rangarajan+ 2013]

予測された

句読点の挿入位置

(

コンマ、ピリオド、その他

)

を使用

数種類の手法を比較検討 … 句読点による手法が最高性能

[Bangalore+ 2012]

音声認識の

無音区間

(pausing)

を用いて文を分割

[Fugen+ 2007]

言語モデルや音響情報

に基づくタイミング決定

[Fujita+ 2013]

翻訳モデルにおける並べ替えの位置を推定

並べ替えが起きなさそうな場所

で翻訳

(10)

10

音声翻訳技術

訳出タイミングの最適化

(11)

11

音声翻訳技術

訳出タイミング決定法の問題

すべて

ヒューリスティクス

に基づく手法

音韻的情報、言語的情報 …

分割位置が

翻訳精度に与える影響

を考慮せず

翻訳器に対して

分割位置が最適化されていない

タイミングを

最適化

したい!

(12)

12

音声翻訳技術

定式化

文分割

モデル

モデル化

S*

学習

翻訳器 MT

対訳 F, E

K

評価尺度 EV

1)

学習データ ( 対訳コーパス ) 全体で分割する数 K を決定

2)K

個の分割位置を学習データから選択

3)

分割位置の素性をモデル化

(13)

13

音声翻訳技術

手法 1: 貪欲法による分割

I ate lunch but she left

次の分割位置を決めるとき、今までに選んだ分割位置を保持

(

貪欲法

: greedy search

)

ω = 0.7

ω = 0.5

ω = 0.8

ω = 0.6

ω = 0.6

I ate lunch but she left

I ate lunch but she left

選ばれた分割位置の素性を SVM で学習

ω = 0.6

ω = 0.4

ω = 0.3

ω = 0.9

(14)

14

音声翻訳技術

手法2:素性のグループ化

I ate lunch but she left

代名詞 動詞  名詞 接続詞 代名詞   動詞

I ate an apple and an orange

代名詞 動詞 限定詞 名詞   接続詞 限定詞    名詞

ω

は複雑な関数、ノイズが多い

貪欲法では偶然

ω

が良くなる分割位置で

過学習

グループ ( 代名詞 + 動詞 )

グループ ( 名詞 + 接続詞 )

グループ ( 限定詞 + 名詞 )

動的計画法

(DP)

で探索、

探索で素性が得られるので モデル化は不要

正則化の導入も可能

解決策

 … 同じ素性を持つ分割位置をグループ化、同時に分割

例:前後の品詞

(15)

15

音声翻訳技術

実験結果( BLEU )

Title:C:\Users\Yusuke ODA\Documents\MA

Creator:MATLAB, The MathWorks, Inc. Vers

CreationDate:03/07/2014 07:47:57

LanguageLevel:2

英独

英日

速度 3 倍

速度 4~5 倍

(16)

16

音声翻訳技術

システムデモ

(17)

17

音声翻訳技術

同時通訳データを用いた同時音声翻訳

(18)

18

音声翻訳技術

同時通訳者の技術

サラミテクニック

[Jones 02]

 - 1つの長い文を複数のチャンクに分割

last year I went to Japan

去年

語彙の選択

 - 

文法構造が異なる言語対において並び替えを減少させる狙い

A because B

B

 だから A

A because B

A

なぜならば B

同時

通訳

遅延時間を短縮するために

同時通訳者は様々な技術を駆使

日本に行った

(19)

19

音声翻訳技術

同時通訳データ

収録材料

 -  TED 講演 ( 英語 → 日本語 )

 

利点:翻訳データ ( 字幕 ) と同時通訳データを比較

Experience

Rank

15 years

S rank

4 years

A rank

1 year

B rank

利点:同時通訳の訳出の違いを分析

同時通訳者

 - 通訳経験年数が異なる三人

 - 経験が長い順に S, A, B ランク

(20)

20

音声翻訳技術

同時通訳データの適用

入力文

翻訳システム

同時通訳データ

学習

翻訳データ

同時通訳者の

ような出力文

[Paulik+ 09]

[Sridhar+ 13]

従来

提案

アプローチ

 - 同時通訳者のように訳出する同時音声翻訳の構築

(21)

21

音声翻訳技術

分野適応の技術を用いた通訳者の再現

チューニング (Tu)

 - 同時通訳者の訳出結果に近づくようにパラメータが

調節されることを期待

言語モデル (LM) :線形補間

 - 同時通訳者のような語順や語彙選択を期待

翻訳モデル (TM) : fill-up 法

[Bisazza+ 11]

 

-  LM と同様,同時通訳者のような語彙選択を期待

機械翻訳システムの学習における3つの過程に

同時通訳データを利用

(22)

22

音声翻訳技術

通訳データを用いた評価実験

11

遅延時間の短縮

同時通訳

に近い訳出

性能の向上

フレーズ

単位

文単位

(23)

23

音声翻訳技術

訳出の例

単語数の減少

 - チューニングによって短いフレーズを好む

   パラメータに調整

翻訳結果の 25% の文が「で」から開始

 - 同時通訳者が次の文を待つまでの沈黙を回避

例文

入力

If you look at in the context of the history you can see what this is

doing

正解

過去から流れを見てみますと災害はこのように増えています

従来

見てみると歴史の中で見ることができますこれがやっていること

提案

では歴史の中で見ることができますこれがやっていること

(24)

24

音声翻訳技術

(25)

25

音声翻訳技術

声の特徴は多く語る

(26)

26

音声翻訳技術

問題!

音声認識の時点で声の特徴が失われる…

音声認識

こんにちは、駅はどこですか?

機械翻訳

Hello, where is the station?

音声合成

(27)

27

音声翻訳技術

声の特徴を翻訳する音声翻訳

(28)

28

音声翻訳技術

実験題材:強調の翻訳

[Kano+12, Kano+13]

Hello, I’m Mike.

My membership

number is 581.

会員番号 511 の

マイク様です

ね?

No !, my

ID is 5

8

1.

失礼しました .

会員番号 5

8

1

マイク様ですね?

Five

 

Eight

  One

(

強調

)

ご 

はち

 ご

(

強調

)

(29)

29

音声翻訳技術

(30)

30

音声翻訳技術

音響翻訳の枠組み

強調あり音声の認識・合成:

重回帰隠れセミマルコフモデル (MR-HSMM)

音響特徴の翻訳:

条件付き確率場 (CRF)

q

1

q

2

q

3

音声信号

q

1

q

2

q

3

q

1

q

2

q

3

λ

1- λ

強調のマルコフモ

デル

通常のマルコフ

モデル

λ→

強調度

(31)

31

音声翻訳技術

実験結果

人間は翻訳された強調が認識可!

人間に聞かせ「どの単語が強調?」と聞いた時の正解率

翻訳なし

提案法

自然音声

例1:

例2:

(32)

32

音声翻訳技術

(33)

33

音声翻訳技術

音声翻訳独特の問題点

33

音声

認識

音声

認識

機械翻訳

機械翻訳

音声

合成

音声

合成

機械翻訳

機械翻訳

テキスト

(原言語)

(目的言語)

テキスト

音声

原言語

音声

目的言語

エラー

エラー

エラー

音声認識の誤りが機械翻訳に影響を及ぼす

(34)

34

音声翻訳技術

音声認識誤りと翻訳

熱に効く薬が欲

しいのですが

認識

熱に効く薬

が欲しいのですが

翻訳

I'd like medicine

for a fever

に効く薬

が欲しいのですが

翻訳

I'd like medicine

for a

row

熱に効く薬

が欲しい

です

翻訳

I want medicine

for a fever

誤り: 0

誤り: 1

誤り: 2

誤り: 0

誤り: 1

誤り: 0

認識誤りへの対応

複数の候補の中からどの認識候補を利用するかを選択

誤りの中でもマシなものになるように学習

(35)

音声翻訳技術

認識・翻訳のパラメータ最適化

各モデルのスコア

を組み合わせた解のスコア

スコアを

重み付ける

と良い結果が得られる

チューニングは重みを発見 :

w

LM

=0.2 w

TM

=0.3 w

RM

=0.5

Taro visited Hanako

the Taro visited the Hanako

Hanako visited Taro

LM TM RM

-4

-3

-1

-8

-5

-4

-1

-10

-2

-3

-2

-7

最大

LM TM RM

-4

-3

-1

-2.2

-5

-4

-1

-2.7

-2

-3

-2

-2.3

最大

0.2*

0.2*

0.2*

0.3*

0.3*

0.3*

0.5*

0.5*

0.5*

Taro visited Hanako

the Taro visited the Hanako

(36)

音声翻訳技術

誤り率最小化 (MERT)

翻訳精度を重み調整の反復で最適化

重み

モデル

太郎が花子を訪問した

解探索

the Taro visited the Hanako

Hanako visited Taro

Taro visited Hanako

...

Taro visited Hanako

良い重み

の発見

入力 (dev)

n-best

出力 (dev)

(37)

37

音声翻訳技術

複数の候補を考慮した認識・翻訳

37

:

E

:

F

:

ˆ

E

:

,MT

ASR

λ

翻訳仮説

認識仮説

選択される翻訳候補

:

)

,

|

,

(

MT

,ASR

P

E

F

X

λ

認識、翻訳の同時確率

))

,

,

|

,

(

(

max

arg

ˆ

P

E

F

X

λ

ASR

λ

MT

E

E

音声

認識

音声

認識

認識候補 2

機械

翻訳

機械

翻訳

認識候補1

:

翻訳候補 2

翻訳候補1

:

X

φ

・・・

・・・

F

E

(38)

38

音声翻訳技術

候補の表現法

原文

認識 1

認識 2

認識 3

翻訳 1

翻訳 2

翻訳 3

認識

翻訳

選択

O

X

X

n-best

リスト

ラティス

原文

認識

翻訳

翻訳

(39)

39

音声翻訳技術

同時最適化

[Zhang+04]

39

(

,

ˆ

)

max

arg

,

,

E

E

λ

λ

λ

λ

ref

ASR

MT

BLEU

ASR

MT

:

ref

E

英語参照文

E

ˆ

:

翻訳文

:

BLEU

翻訳の評価尺度

[Papineni et al.,2002.]

:

,

MT

ASR

λ

λ

最適化した重みベクトル

音声

認識

音声

認識

認識候補 2

機械

翻訳

機械

翻訳

認識候補1

:

翻訳候補 2

翻訳候補1

:

X

φ

・・・

・・・

F

E

(40)

40

音声翻訳技術

実験結果

[Ohgushi+13]

大幅な

性能向上

(41)

41

音声翻訳技術

(42)

42

音声翻訳技術

まとめ

より早く、より豊かに音声翻訳結果を聞き手に届ける

取り組み

今後の課題:

同時音声翻訳における未来の情報の予測

[Grissom+14,Oda+15]

より豊かな音響情報の翻訳

end-to-end

システムの開発

(43)

43

音声翻訳技術

(44)

44

音声翻訳技術

参考文献

● S. Bangalore, V. K. R. Sridhar, P. K. L. Golipour, and A. Jimenez. Real-time incremental speech-to-speech translation

of dialogs. In Proc. NAACL, 2012.

● C. Fugen, A. Waibel, and M. Kolss. Simultaneous translation of lectures and speeches. Machine Translation,

21(4):209–252, 2007.

● T. Fujita, G. Neubig, S. Sakti, T. Toda, and S. Nakamura. Simple, lexicalized choice of translation timing for

simultaneous speech translation. In Proc. InterSpeech, pages 3487–3491, 2013.

● A. Grissom II, H. He, J. Boyd-Graber, J. Morgan, and H. Daume III. Don’t until the final verb wait: Reinforcement

learning for simultaneous machine translation. In Proc. EMNLP, pages 1342–1352, 2014.

● R. Jones. Conference interpreting explained, volume 6. 2002.

● T. Kano, S. Sakti, S. Takamichi, G. Neubig, T. Toda, and S. Nakamura. A method for translation of paralinguistic

information. In Proc. IWSLT, pages 158–163, 2012.

● T. Kano, S. Takamichi, S. Sakti, G. Neubig, T. Toda, and S. Nakamura. Generalizing continuous-space translation of

paralinguistic information. In Proc. InterSpeech, 2013.

● H. Ney. Speech translation: Coupling of recognition and translation. In Proc. ICASSP, pages 517–520, 1999.

● Y. Oda, G. Neubig, S. Sakti, T. Toda, and S. Nakamura. Optimizing segmentation strategies for simultaneous speech

translation. In Proc. ACL, pages 551–556, 2014.

● Y. Oda, G. Neubig, S. Sakti, T. Toda, and S. Nakamura. Syntax-based simultaneous translation through prediction of

unseen syntactic constituents. In Proc. ACL, 2015.

● M. Ohgushi, G. Neubig, S. Sakti, T. Toda, and S. Nakamura. An empirical comparison of joint optimization techniques

for speech translation. In Proc. InterSpeech, pages 2619–2622, 2013.

● M. Paulik and A. Waibel. Extracting clues from human interpreter speech for spoken language translation. In Proc.

ICASSP, pages 5097– 5100. IEEE, 2008.

● S. Peitz, M. Freitag, A. Mauser, and H. Ney. Modeling punctuation prediction as machine translation. In Proc. IWSLT,

pages 238–245, 2011.

● V. K. Rangarajan Sridhar, J. Chen, S. Bangalore, A. Ljolje, and R. Chengalvarayan. Segmentation strategies for

streaming speech translation. In Proc. NAACL, pages 230–238, 2013.

● H. Shimizu, G. Neubig, S. Sakti, T. Toda, and S. Nakamura. Constructing a speech translation system using

simultaneous interpretation data. In Proc. IWSLT, pages 212–218, 2013.

● H. Shimizu, G. Neubig, S. Sakti, T. Toda, and S. Nakamura. Collection of a simultaneous translation corpus for

comparative analysis. In Proc. LREC, 2014.

● W. Wang, G. Tur, J. Zheng, and N. F. Ayan. Automatic disfluency removal for improving spoken language translation.

(45)

45

音声翻訳技術

(46)

46

音声翻訳技術

同時音声翻訳の評価

[Mieno+ 15]

人手評価で、様々な遅延と翻訳精度を持った文を評価

者に表示し、評価関数を計算

参照

関連したドキュメント

この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて

[形態コード P117~] [性状 P110~] [分化度 P112~]. 形態コード

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

②上記以外の言語からの翻訳 ⇒ 各言語 200 語当たり 3,500 円上限 (1 字当たり 17.5

[r]

 学部生の頃、教育実習で当時東京で唯一手話を幼児期から用いていたろう学校に配

 学部生の頃、教育実習で当時東京で唯一手話を幼児期から用いていたろう学校に配

始めに山崎庸一郎訳(2005)では中学校で学ぶ常用漢字が149字あり、そのうちの2%しかル