コーパスの内容
49
○
英語 5250文● This overcoat is incredibly short for me .
● This overcoat is so short for me .
● This overcoat is relatively short for me .
● This overcoat is a bit short for me .
● This overcoat is short for me .
■ アノテータは
1
名、発話者は2
名クラウドソーシングで評価
50
● タスク1: 音声による強調度の評価
○
被験者に音声だけを提示
○
被験者は、強調レベルと自然性を回答
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab.
クラウドソース評価
51
● タスク2: テキストによる強調度の評価
● 被験者にテキストだけを提示
● 被験者は強調度と自然性を回答
クラウドソース評価
52
● タスク3: 音声とテキストの等価性についての評価
○
被験者に音声とテキストを提示
○
被験者は提示された音声とテキストの強調度が同じかどうかを回答 .
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab.
内容
1. 音声認識、音声合成と統合最適化 2. 音声翻訳の統合最適化
3. 音声翻訳の同時性 4. パラ言語の取り扱い
1. 音声翻訳
2. 音声表現とテキスト表現の等価性 3. 発話顔 音声画像翻訳
5. 課題と今後の展開
6. まとめ
課題と研究課題
o
同時音声翻訳、パラ言語情報の取り扱い、全体最適化o
高速化、高精度化、大語彙化、多言語化、未知言語対応o
持続的なデータ自動収集と教師無し学習o
方言・アクセント対応o
雑音・残響対応、遠隔認識o
韻律利用、パラ言語・非言語制御o
対話構造・談話構造の考慮o
主語省略への対応、照応への対応o
知識表現、意味表現とその利用o
クロスカルチャー対応2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab.
54
コミュニケーション研究の課題
Symbol Grounding
再帰的に相手 を想定
共通の概念接地 を想定
発話単位レベル 発話内容,韻律,(発話理解)
ジェスチャ 対話,発話単位レベル 発話理解,Dialog State Tracking,
対話制御,文生成,発話交代
辞書,
オントロジ 知識グラフ
大規模対話 データ 音声,
テキスト
物理レベル タイミング,相づち,
頷き,視線,韻律 意図レベル 意図,目的
談話レベル 談話構造,相互信念,
焦点,注意,主導権
談話構造 再帰的に相手 コーパス
を想定
Web 知識
基盤研究S (2017-2011)
次世代音声翻訳の研究
研究代表者:奈良先端科学技術大学院大学 情報科学研究科 中村 哲
研究分担者:河原達也(京大),猿渡 洋(東大),森島繁生(早大),
戸田智基(名大),松本裕治,須藤克仁,S. サク ティ,吉野幸一郎,田中宏季(奈良先端大)
連携研究者:水野 的(青山学院大),G. Neubig(CMU)
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab.
56
概要
o 音声認識結果を受け取り,翻訳/通訳する
o 逐次性:入力の終わりを待たずに,高速に処理する o 頑健性:入力の曖昧性や誤りの影響を抑える
o 「次世代」音声翻訳への挑戦
o 音声翻訳/同時通訳のための洗練された言語運用
o
先を予測する,文の構造を変えるo 最先端の機械学習技術
o
seq2seq,Memory Network等からの発展を狙うo 独自コーパスの活用
o
Beyond 単純な文対訳からの機械翻訳o 実用向けに有意義な評価方法
本提案の研究課題
2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab.
58
音源推定雑音抑圧
雑音源、音響特性
同時パラ 言語翻訳 常時・同時複数
話者音声認識
同時 音声合成
発話顔画像 抽出、3
D
モデル発話顔画像 制御、生成 パラ言語
情報抽出
発話顔 画像変換
字幕生成 同時
言語翻訳
課題1:自動音声同時通訳と音声翻訳の高度化
課題3:ビデオコンテンツ字幕翻訳,音声画像翻訳
同時パラ言語 音声合成 課題2:パラ言語音声翻訳
課題
4
:脳活動を含むセンシングによる実時間 コミュニケーション測定視線検出装置Tobi,モバイル心拍計,32ch脳波 計を用いて同時通訳作業時,および同時通訳 ユーザの聴取負荷の測定を行う.
課題5: コーパス構築とプロトタイプシステム
400時間以上の研究用の日英双方向同時通訳コーパス,
およびビデオ翻訳コーパスを構築する.
次世代音声翻訳システムのプロトタイプを構築する.研究 代表者,分担者の大学の講義,講演,会議の同時通訳と アーカイブ翻訳に適用し,評価,コーパスとしての蓄積,
モデルの学習,改良を継続的に行う.
NAIST 同時通訳コーパス
o 2012-2016年度収録
o
元音声: MP4 (TED), MP3 (CNN), PCMo
通訳音声: 24bit 48kHz PCMo
通訳者ランク:S (10年+), A(3年+), Bo
複数の通訳音声が収録されたものも一部あり言語方向 ドメイン 原音声 同時通訳収録済み
ファイル数 時間 ファイル数 時間
英日
TED 74 15.2 58 12.3
CNN 13 0.731 7 0.389
合計
87 15.9 65 12.7
日英
TED 60 11.9 60 11.9
CSJ 31 5.51 31 5.51
NHK 10 0.304 10 0.304
合計
101 17.7 101 17.7
NAIST 同時通訳コーパス 最新状況
o 2018年度収録
o
元音声: MP4 (TED, TEDx), PCM (CSJ)o
通訳音声: 16bit 16kHz PCMo
通訳者ランク:S (10年+), A(3年+), Bo
学習セット(計100時間)についてはランクA以上の1名の通訳音声を収録o
テストセット(計24時間)については各ランク1名ずつの通訳音声を収録2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab.
60
言語方向 ドメイン原音声 同時通訳収録済み
ファイル数 時間 ファイル数 時間
英日
TED 302 66.8 302 66.8
TED (test) 16 4 16 4
合計
318 70.8 318 70.8
日英
CSJ 146 33 146 33
TEDx (test) 19 4 19 4
合計
165 37 165 37
内容
1. 音声認識、音声合成と統合最適化 2. 音声翻訳の統合最適化
3. 音声翻訳の同時性 4. パラ言語の取り扱い
1. 音声翻訳
2. 音声表現とテキスト表現の等価性 3. 発話顔 音声画像翻訳
5. 課題と今後の展開
6. まとめ
まとめと今後
o 音声翻訳の新たなステップ
o
同時性o
通訳へ向けた研究o
強調、抑揚、顔、ジェスチャーなどを入れた音声翻訳o
ニューラルネット音声翻訳o 今後の方向
o
パラ言語、文構造、会話の流れを考慮した翻訳o
文脈や状況を考慮した翻訳o
背景知識や対象領域の知識の獲得と活用o
意味の解析や構造の利用o
コミュニケーションできるとは?2019年3月3日 情報処理学会 NL研 Copyright@2019 中村 哲@NAIST AHC-Lab.