• 検索結果がありません。

Emphasis levels Difficulty levels

ドキュメント内 コンピュータによる自動通訳を目指して (ページ 47-61)

コーパスの内容

49

英語 5250文

● This overcoat is incredibly short for me .

● This overcoat is so short for me .

● This overcoat is relatively short for me .

● This overcoat is a bit short for me .

● This overcoat is short for me .

アノテータは

1

名、発話者は

2

クラウドソーシングで評価

50

● タスク1: 音声による強調度の評価

被験者に音声だけを提示

被験者は、強調レベルと自然性を回答

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab.

クラウドソース評価

51

● タスク2: テキストによる強調度の評価

● 被験者にテキストだけを提示

● 被験者は強調度と自然性を回答

クラウドソース評価

52

● タスク3: 音声とテキストの等価性についての評価

被験者に音声とテキストを提示

被験者は提示された音声とテキストの強調度が同じかどうかを回答 .

2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab.

内容

1. 音声認識、音声合成と統合最適化 2. 音声翻訳の統合最適化

3. 音声翻訳の同時性 4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性 3. 発話顔 音声画像翻訳

5. 課題と今後の展開

6. まとめ

課題と研究課題

o

同時音声翻訳、パラ言語情報の取り扱い、全体最適化

o

高速化、高精度化、大語彙化、多言語化、未知言語対応

o

持続的なデータ自動収集と教師無し学習

o

方言・アクセント対応

o

雑音・残響対応、遠隔認識

o

韻律利用、パラ言語・非言語制御

o

対話構造・談話構造の考慮

o

主語省略への対応、照応への対応

o

知識表現、意味表現とその利用

o

クロスカルチャー対応

201933 情報処理学会 NL Copyright@2019 中村 哲@NAIST AHC-Lab.

54

コミュニケーション研究の課題

Symbol Grounding

再帰的に相手 を想定

共通の概念接地 を想定

発話単位レベル 発話内容,韻律,(発話理解)

ジェスチャ 対話,発話単位レベル 発話理解,Dialog State Tracking,

対話制御,文生成,発話交代

辞書,

オントロジ 知識グラフ

大規模対話 データ 音声,

テキスト

物理レベル タイミング,相づち,

頷き,視線,韻律 意図レベル 意図,目的

談話レベル 談話構造,相互信念,

焦点,注意,主導権

談話構造 再帰的に相手 コーパス

を想定

Web 知識

基盤研究S (2017-2011)

次世代音声翻訳の研究

研究代表者:奈良先端科学技術大学院大学 情報科学研究科 中村 哲

研究分担者:河原達也(京大),猿渡 洋(東大),森島繁生(早大),

戸田智基(名大),松本裕治,須藤克仁,S. サク ティ,吉野幸一郎,田中宏季(奈良先端大)

連携研究者:水野 的(青山学院大),G. Neubig(CMU)

201933 情報処理学会 NL Copyright@2019 中村 哲@NAIST AHC-Lab.

56

概要

o 音声認識結果を受け取り,翻訳/通訳する

o 逐次性:入力の終わりを待たずに,高速に処理する o 頑健性:入力の曖昧性や誤りの影響を抑える

o 「次世代」音声翻訳への挑戦

o 音声翻訳/同時通訳のための洗練された言語運用

o

先を予測する,文の構造を変える

o 最先端の機械学習技術

o

seq2seq,Memory Network等からの発展を狙う

o 独自コーパスの活用

o

Beyond 単純な文対訳からの機械翻訳

o 実用向けに有意義な評価方法

本提案の研究課題

201933 情報処理学会 NL Copyright@2019 中村 哲@NAIST AHC-Lab.

58

音源推定

雑音抑圧

雑音源、音響特性

同時パラ 言語翻訳 常時・同時複数

話者音声認識

同時 音声合成

発話顔画像 抽出、3

D

モデル

発話顔画像 制御、生成 パラ言語

情報抽出

発話顔 画像変換

字幕生成 同時

言語翻訳

課題1:自動音声同時通訳と音声翻訳の高度化

課題3:ビデオコンテンツ字幕翻訳,音声画像翻訳

同時パラ言語 音声合成 課題2:パラ言語音声翻訳

課題

4

:脳活動を含むセンシングによる実時間 コミュニケーション測定

視線検出装置Tobi,モバイル心拍計,32ch脳波 計を用いて同時通訳作業時,および同時通訳 ユーザの聴取負荷の測定を行う.

課題5: コーパス構築とプロトタイプシステム

400時間以上の研究用の日英双方向同時通訳コーパス,

およびビデオ翻訳コーパスを構築する.

次世代音声翻訳システムのプロトタイプを構築する.研究 代表者,分担者の大学の講義,講演,会議の同時通訳と アーカイブ翻訳に適用し,評価,コーパスとしての蓄積,

モデルの学習,改良を継続的に行う.

NAIST 同時通訳コーパス

o 2012-2016年度収録

o

元音声: MP4 (TED), MP3 (CNN), PCM

o

通訳音声: 24bit 48kHz PCM

o

通訳者ランク:S (10年+), A(3年+), B

o

複数の通訳音声が収録されたものも一部あり

言語方向 ドメイン 原音声 同時通訳収録済み

ファイル数 時間 ファイル数 時間

英日

TED 74 15.2 58 12.3

CNN 13 0.731 7 0.389

合計

87 15.9 65 12.7

日英

TED 60 11.9 60 11.9

CSJ 31 5.51 31 5.51

NHK 10 0.304 10 0.304

合計

101 17.7 101 17.7

NAIST 同時通訳コーパス 最新状況

o 2018年度収録

o

元音声: MP4 (TED, TEDx), PCM (CSJ)

o

通訳音声: 16bit 16kHz PCM

o

通訳者ランク:S (10年+), A(3年+), B

o

学習セット(計100時間)についてはランクA以上の1名の通訳音声を収録

o

テストセット(計24時間)については各ランク1名ずつの通訳音声を収録

201933 情報処理学会 NL Copyright@2019 中村 哲@NAIST AHC-Lab.

60

言語方向 ドメイン

原音声 同時通訳収録済み

ファイル数 時間 ファイル数 時間

英日

TED 302 66.8 302 66.8

TED (test) 16 4 16 4

合計

318 70.8 318 70.8

日英

CSJ 146 33 146 33

TEDx (test) 19 4 19 4

合計

165 37 165 37

内容

1. 音声認識、音声合成と統合最適化 2. 音声翻訳の統合最適化

3. 音声翻訳の同時性 4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性 3. 発話顔 音声画像翻訳

5. 課題と今後の展開

6. まとめ

まとめと今後

o 音声翻訳の新たなステップ

o

同時性

o

通訳へ向けた研究

o

強調、抑揚、顔、ジェスチャーなどを入れた音声翻訳

o

ニューラルネット音声翻訳

o 今後の方向

o

パラ言語、文構造、会話の流れを考慮した翻訳

o

文脈や状況を考慮した翻訳

o

背景知識や対象領域の知識の獲得と活用

o

意味の解析や構造の利用

o

コミュニケーションできるとは?

201933 情報処理学会 NL Copyright@2019 中村 哲@NAIST AHC-Lab.

62

ドキュメント内 コンピュータによる自動通訳を目指して (ページ 47-61)

関連したドキュメント