Emphasis levels Difficulty levels

コーパスの内容

49

○

英語５２５０文

● This overcoat is incredibly short for me .

● This overcoat is so short for me .

● This overcoat is relatively short for me .

● This overcoat is a bit short for me .

● This overcoat is short for me .

■ アノテータは

1

名、発話者は

2

名

クラウドソーシングで評価

50 ● タスク１：音声による強調度の評価

○

被験者に音声だけを提示

○

被験者は、強調レベルと自然性を回答

2019年3月3日情報処理学会 NL研 Copyright@2019 中村哲＠NAIST AHC-Lab.

クラウドソース評価

51 ● タスク２：テキストによる強調度の評価

● 被験者にテキストだけを提示

● 被験者は強調度と自然性を回答

クラウドソース評価

52 ● タスク３：音声とテキストの等価性についての評価

○

被験者に音声とテキストを提示

○

被験者は提示された音声とテキストの強調度が同じかどうかを回答 .

2019年3月3日情報処理学会 NL研 Copyright@2019 中村哲＠NAIST AHC-Lab.

内容

1. 音声認識、音声合成と統合最適化 2. 音声翻訳の統合最適化

3. 音声翻訳の同時性 4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性 3. 発話顔音声画像翻訳

5. 課題と今後の展開

6. まとめ

課題と研究課題

o

同時音声翻訳、パラ言語情報の取り扱い、全体最適化

o

高速化、高精度化、大語彙化、多言語化、未知言語対応

o

持続的なデータ自動収集と教師無し学習

o

方言・アクセント対応

o

雑音・残響対応、遠隔認識

o

韻律利用、パラ言語・非言語制御

o

対話構造・談話構造の考慮

o

主語省略への対応、照応への対応

o

知識表現、意味表現とその利用

o

クロスカルチャー対応

2019年3月3日情報処理学会 NL研 Copyright@2019 中村哲＠NAIST AHC-Lab.

54 コミュニケーション研究の課題

Symbol Grounding

再帰的に相手を想定

共通の概念接地を想定

発話単位レベル発話内容，韻律，（発話理解）

ジェスチャ対話，発話単位レベル発話理解，Dialog State Tracking，

対話制御，文生成，発話交代

辞書，

オントロジ知識グラフ

大規模対話データ音声，

テキスト

物理レベルタイミング，相づち，

頷き，視線，韻律意図レベル意図，目的

談話レベル談話構造，相互信念，

焦点，注意，主導権

談話構造再帰的に相手コーパス

を想定

Web 知識

基盤研究S （2017-2011)

次世代音声翻訳の研究

研究代表者：奈良先端科学技術大学院大学情報科学研究科中村哲

研究分担者：河原達也（京大），猿渡洋（東大），森島繁生（早大），

戸田智基（名大），松本裕治，須藤克仁，S. サクティ，吉野幸一郎，田中宏季（奈良先端大）

連携研究者：水野的（青山学院大），G. Neubig(CMU)

2019年3月3日情報処理学会 NL研 Copyright@2019 中村哲＠NAIST AHC-Lab.

56 概要

o 音声認識結果を受け取り，翻訳／通訳する

o 逐次性：入力の終わりを待たずに，高速に処理する o 頑健性：入力の曖昧性や誤りの影響を抑える

o 「次世代」音声翻訳への挑戦

o 音声翻訳／同時通訳のための洗練された言語運用

o

先を予測する，文の構造を変える

o 最先端の機械学習技術

o

seq2seq，Memory Network等からの発展を狙う

o 独自コーパスの活用

o

Beyond 単純な文対訳からの機械翻訳

o 実用向けに有意義な評価方法

本提案の研究課題

2019年3月3日情報処理学会 NL研 Copyright@2019 中村哲＠NAIST AHC-Lab.

58

音源推定

雑音抑圧

雑音源、音響特性

同時パラ言語翻訳常時・同時複数

話者音声認識

同時音声合成

発話顔画像抽出、３

D

モデル

発話顔画像制御、生成パラ言語

情報抽出

発話顔画像変換

字幕生成同時

言語翻訳

課題１：自動音声同時通訳と音声翻訳の高度化

課題３：ビデオコンテンツ字幕翻訳，音声画像翻訳

同時パラ言語音声合成課題２：パラ言語音声翻訳

課題

4

：脳活動を含むセンシングによる実時間コミュニケーション測定

視線検出装置Tobi，モバイル心拍計，32ch脳波計を用いて同時通訳作業時，および同時通訳ユーザの聴取負荷の測定を行う．

課題５：コーパス構築とプロトタイプシステム

400時間以上の研究用の日英双方向同時通訳コーパス，

およびビデオ翻訳コーパスを構築する．

次世代音声翻訳システムのプロトタイプを構築する．研究代表者，分担者の大学の講義，講演，会議の同時通訳とアーカイブ翻訳に適用し，評価，コーパスとしての蓄積，

モデルの学習，改良を継続的に行う．

NAIST 同時通訳コーパス

o 2012-2016年度収録

o

元音声: MP4 (TED), MP3 (CNN), PCM

o

通訳音声: 24bit 48kHz PCM

o

通訳者ランク：S (10年+), A(3年+), B

o

複数の通訳音声が収録されたものも一部あり

言語方向ドメイン原音声同時通訳収録済み

ファイル数時間ファイル数時間

英日

TED 74 15.2 58 12.3

CNN 13 0.731 7 0.389

合計

87 15.9 65 12.7

日英

TED 60 11.9 60 11.9

CSJ 31 5.51 31 5.51

NHK 10 0.304 10 0.304

合計

101 17.7 101 17.7

NAIST 同時通訳コーパス最新状況

o 2018年度収録

o

元音声: MP4 (TED, TEDx), PCM (CSJ)

o

通訳音声: 16bit 16kHz PCM

o

通訳者ランク：S (10年+), A(3年+), B

o

学習セット(計100時間)についてはランクA以上の1名の通訳音声を収録

o

テストセット(計24時間)については各ランク1名ずつの通訳音声を収録

2019年3月3日情報処理学会 NL研 Copyright@2019 中村哲＠NAIST AHC-Lab.

60

言語方向ドメイン

原音声同時通訳収録済み

ファイル数時間ファイル数時間

英日

TED 302 66.8 302 66.8

TED (test) 16 4 16 4

合計

318 70.8 318 70.8

日英

CSJ 146 33 146 33

TEDx (test) 19 4 19 4

合計

165 37 165 37

内容

1. 音声認識、音声合成と統合最適化 2. 音声翻訳の統合最適化

3. 音声翻訳の同時性 4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性 3. 発話顔音声画像翻訳

5. 課題と今後の展開

6. まとめ

まとめと今後

o 音声翻訳の新たなステップ

o

同時性

o

通訳へ向けた研究

o

強調、抑揚、顔、ジェスチャーなどを入れた音声翻訳

o

ニューラルネット音声翻訳

o 今後の方向

o

パラ言語、文構造、会話の流れを考慮した翻訳

o

文脈や状況を考慮した翻訳

o

背景知識や対象領域の知識の獲得と活用

o

意味の解析や構造の利用

o

コミュニケーションできるとは？

2019年3月3日情報処理学会 NL研 Copyright@2019 中村哲＠NAIST AHC-Lab.

62

ドキュメント内コンピュータによる自動通訳を目指して (ページ 47-61)

コーパスの内容

49

○

● This overcoat is incredibly short for me .

● This overcoat is so short for me .

● This overcoat is relatively short for me .

● This overcoat is a bit short for me .

● This overcoat is short for me .

1

2

クラウドソーシングで評価

50

● タスク１： 音声による強調度の評価

被験者に音声だけを提示

被験者は、強調レベルと自然性を回答

クラウドソース評価

51

● タスク２： テキストによる強調度の評価

● 被験者にテキストだけを提示

● 被験者は強調度と自然性を回答

クラウドソース評価

52

● タスク３： 音声とテキストの等価性についての評価

被験者に音声とテキストを提示

被験者は提示された音声とテキストの強調度が同じかどうかを回答 .

内容

1. 音声認識、音声合成と統合最適化 2. 音声翻訳の統合最適化

3. 音声翻訳の同時性 4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性 3. 発話顔 音声画像翻訳

5. 課題と今後の展開

6. まとめ

課題と研究課題

o

o

o

o

o

o

o

o

o

o

54

コミュニケーション研究の課題

Symbol Grounding

基盤研究S （2017-2011)

次世代音声翻訳の研究

56

概要

o 音声認識結果を受け取り，翻訳／通訳する

o 逐次性：入力の終わりを待たずに，高速に処理する o 頑健性：入力の曖昧性や誤りの影響を抑える

o 「次世代」音声翻訳への挑戦

o 音声翻訳／同時通訳のための洗練された言語運用

o

o 最先端の機械学習技術

o

o 独自コーパスの活用

o

o 実用向けに有意義な評価方法

本提案の研究課題

58

D

4

NAIST 同時通訳コーパス

o 2012-2016年度収録

o

o

o

o

TED 74 15.2 58 12.3

CNN 13 0.731 7 0.389

87 15.9 65 12.7

TED 60 11.9 60 11.9

CSJ 31 5.51 31 5.51

NHK 10 0.304 10 0.304

101 17.7 101 17.7

NAIST 同時通訳コーパス 最新状況

o 2018年度収録

● タスク１：音声による強調度の評価

● タスク２：テキストによる強調度の評価

● タスク３：音声とテキストの等価性についての評価

2. 音声表現とテキスト表現の等価性 3. 発話顔音声画像翻訳

NAIST 同時通訳コーパス最新状況

2. 音声表現とテキスト表現の等価性 3. 発話顔音声画像翻訳