コンピュータによる自動通訳を目指して

(1)

音声言語の研究と今後の展開

奈良先端科学技術大学院大学

データ駆動型サイエンス創造センター長

先端科学技術研究科教授

(RIKEN AIP 観光情報解析チーム）

中村

哲

with

須藤克仁、Sakriani Sakti、吉野幸一郎、田中宏季、Graham Neubig,

Do Quoc Truong, 叶

高朋、Andros Tjandra, 帖佐克己

(2)

話し言葉とコミュニケーション

o 書き言葉

o 記録、保存、時代を超えた伝承が目的

o 時間をかけて推敲し文を作成

o 高圧縮、文法的

o 時間をかけて読解

o わかるまで読み返す

o 話し言葉

o その場でのコミュニケーション、意図伝達が目的

o リアルタイムで発話を生成

o 低圧縮、非文法的、文脈依存、冗長語、不完全

o マルチモーダル、パラ言語（韻律、個人性、強調、感情）

o リアルタイムに発話を理解

o 文脈、パラ言語、マルチモーダル情報の利用

o Mutual Grounding の構築と利用

(3)

奈良先端大における研究

Ｃ

要素技術を統合し、コミュニケーション

支援技術について研究

音声同時通訳

ニューラル機械翻訳

脳計測

音声対話

マルチモーダル対話

中村研に入りませんか? 研究室を探しています？

知識獲得

QAシステム

マルチモーダル

多言語音声認識

音声合成

Deep Speech Chain

ディープニューラル

ネットワーク

アフェクティブコンピューティング

感情、パラ言語処理

認知症早期検出

コミュニケーション支援対話

コミュニケーション

支援技術の研究

話し言葉の音声・言語処理

WEB

情報処理

目的指向対話

チャット対話

違和感検出

感情検出

(4)

内容

1. 音声認識、音声合成と統合最適化

2. 音声翻訳の統合最適化

3. 音声翻訳の同時性

4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性

3. 発話顔音声画像翻訳

5. 課題と今後の展開

6. まとめ

(5)

内容

1. 音声認識、音声合成と統合最適化

2. 音声翻訳の統合最適化

3. 音声翻訳の同時性

4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性

3. 発話顔音声画像翻訳

5. 課題と今後の展開

6. まとめ

(6)

最近の音声認識の進歩

o これまでの経緯

o テンプレートマッチング、動的計画法 [Sakoe 71]

o 隠れマルコフモデル、N-Gramモデル [Mercer 83, etc]

o ニューラルネットワーク、TDNN[Waibel 89], LSTM [Hochreiter 97]

o Weighted Finite State Transducer [Mohri 2006]

o 大量のデータの収集、試行サービスによるデータ収集

o 深層学習による最近の進化

o DNN-HMM [Hinton 2012]

o DNN により状態の事後確率を直接推定する

o Connectionist Temporal Classification [Graves 2013]

o フレーム毎に音素ラベルを出力する

o Listen, Attend, and Spell [Chan 2016]

(7)

最近の音声合成の進歩

o フォルマント合成、素片合成

o 確率モデルベース音声合成：HTS

o HMMフレームワークによる音声合成

o Tokuda, et al., “Speech parameter generation algorithms for HMM-based speech synthesis”, ICASSP

2000

o WaveNet

o 時系列信号に対し、畳み込みを行うNNにより波形生成

o van den Oord et al., “WAVENET: A GENERATIVE MODEL FOR RAW AUDIO”,

arXiv:1609.03499v2 [cs.SD] 19 Sep 2016

o Tacotron

o 文字入力でスペクトログラムを生成、その後、Griffin-Lim法で波形生成

o Wang, et al., “TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS”,

arXiv:1703.10135v2 [cs.CL] 6 Apr 2017

(8)

(9)

①Machine speech chain の構成

a. Machine speech chain の構成

b. ASR から TTS

_{c. TTSからASR}

A.Tjandra,et al., “Listening while Speaking: Speech Chain by Deep Learning“ , arXiv:1707.04879, 2017

Accepted for IEEE ASRU 2017

(10)

ASRの基本構造

TTSの基本構造

Reference : Chan et al (2015), Listen Attend Spell

Reference : Wang et al (2017), Tacotron

Encoder with BiLSTM & sequence subsampling

Decoder with LSTM & attention module

Modified Tacotron with additional speaker

embedding + frame ending binary prediction

(11)

①Speech Chain のアルゴリズム

o Speech とTextのペアデータと、Speech only, Text onlyのペアでないデータを用意

o Supervised training :

o それぞれ、ASRとTTSの生成誤差をペアデータで計算

o Unsupervised training :

o ペアでないデータに対し、ASRに関してはTTSを用いて音声を生成、TTSに対してはASRを用いてテ

キストを生成

o 生成誤差（音声の誤差、テキストの誤差）を計算

o 2種類の生成誤差を組み合わせ、ASRとTTSのパラメータの勾配計算

(12)

機械翻訳の進歩

o ルールベース：

言語学者、言語学の知識のある作業者がルールを注意して作成

o コーパスベース：

o 用例ベース（Example-Based）ルールを自動的にコーパスから抽出

[M.Nagao84, Sato et al.,89, Sumita et al., 91 ]

o 統計ベース翻訳（Statistical Machine Translation) さらに、ルールが頻出するかの確率を学習。Noisy

Channel Model [P.F.Brown, et al. 93]

o Phrase-base SMT

単語レベルでなくフレーズという単位を導入。

o Tree-to-string

o 構文構造の関係を学習する統計的機械翻訳

o Neural Machine Translation

o LSTMによるEncoder と Decoderを組み合わせ、翻訳文を生成する

o Attention NMT

o 原言語の単語列のEncoder出力に重みを加えてDecoderにいれることでアライメントをImplicitに学習する

(13)

内容

1. 音声認識、音声合成と統合最適化

2. 音声翻訳の統合最適化

3. 音声翻訳の同時性

4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性

3. 発話顔音声画像翻訳

5. 課題と今後の展開

6. まとめ

(14)

（おまけ）我が国の音声翻訳プロジェクトの流れ

情報処理学会 NL研 Copyright@2019 中村哲＠NAIST

読み上げ文を

音声翻訳

• 文法的な表現 • 明瞭な発声国際会議申込み」

日常の話し言葉

を音声翻訳

• 標準的な表現 • 明瞭な発声 • 限定された話題「ホテル予約」

広い話題に適応

• 広い話題での表現（日常旅行会話） • 雑音を含む音声 • 日英＋日中

1986

₁₉₉₂

₂₀₀₀

₂₀₀₆

要素技術

ルールベース

人手作業

大規模コーパス

+ 機械学習

2008

A-STAR

内閣府社会

還元加速PJ

• 8アジア言語 •ネットワーク型音声翻訳

2010

C-STAR

• 音声翻訳国際共同研究コンソーシアム

IWSLT

• 音声翻訳性能評価ワークショップ

2011

VoiceTra

NAIST

2014

U-STAR

NICT

GC PJ

NICT

ATR

・2007年 11月開始

(15)

Deep Learningによる直接音声翻訳

o 音声入力、翻訳出力をEnd-to-endで学習できないか？

o Attention LSTMを用いたEnd-to-end 音声翻訳*

Bi-directional

LSTM Encoder

Attention

LSTM decoder

Acoustic

features

Target

words

*Alexandre Berard et. al “Listen and Translate: A Proof of Concept for End-to-End Speech-to-Text Translation” ,

NIPS workshop 2016

(16)

Curriculum Learningを用いたEnd-to-end 音声翻訳

Phase 1

ASR

Bi-LSTM Encoder LSTM Decoder Attention

MT

LSTM Decoder Attention Bi-LSTM Encoder

ASR + MT

Bi-LSTM Encoder LSTM Decoder Attention

Phase 2

ASR

Bi-LSTM Encoder LSTM Transcoder Attention Bi-LSTM Encoder

Phase 3

LSTM Transcoder Attention LSTM Decoder

ASR + MT

Slow track

Fast

track

Attentional-based LSTMをASR,MT用に学習しておき、逐次End-to-end音声翻訳

にカリキュラム学習する

叶高朋，サクリアニサクティ，中村哲, “カリキュラムラーニングを用いた日英直接翻訳システ

ムの提案”、音響講論 2-10-5

(17)

Curriculum Learningによる音声翻訳結果

(18)

コミュニケーションとしての音声翻訳を考えよう

入力

テキスト

音声

画像

ジェスチャ

音声⇒テキスト音声認識

同時

翻訳

変換

対話制御

言語情報

非言語情報感情・スタイル声質・韻律ジェスチャ

言語情報

出力

テキスト

音声

画像

ジェスチャ

原言語目的言語音声信号 “to o kyo e i ku”

機械翻訳結果 /I/go/to/Tokyo/ 音声合成結果 “ai go tu tokyo/ 声質、韻律声質、韻律

談話構造

文脈

ドメイン知識

オントロジ

テキスト画像⇒テキスト画像認識テキストテキスト⇒音声音声合成テキスト⇒画像画像合成

電子情報通信学会誌2015，改

End-to-end で学習

コミュニケーションにおける

① 逐次性，同時性

② パラ言語情報

(19)

内容

1. 音声認識、音声合成と統合最適化

2. 音声翻訳の統合最適化

3. 音声翻訳の同時性

4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性

3. 発話顔音声画像翻訳

5. 課題と今後の展開

6. まとめ

(20)

①同時性

o 同時通訳：

o 音声認識と平行に文解析，並び替えを考慮ながら翻訳，音声合成する．このた

めには，音声処理と言語処理の密結合が必要．

o 対話制御：

o 音声認識と平行に文解析，情報抽出し，適切なタイミングで割り込み，確認対話，

合成音出力，情報出力を行う．このためには，音声処理と言語処理の密結合が

必要．

o 講演の要約：

o 講演のような長い発話を音声認識しリアルタイムで要約する．このためには，音

声処理と要約の密結合が必要．

(21)

簡単な例

o TED Talksの講演（書き起こしと字幕）

I wanted to talk to you today

about creative confidence.

I'm going to start way back in the third grade

at Oakdale School in Barberton, Ohio.

I remember one day my best friend Brian was

working on a project.

He was making a horse out of the clay

that our teacher kept under the sink.

今日はクリエイティビティに対する

自信についてお話しします

オハイオ州バーバートンの小学３年生だった頃の

昔の話から始めましょう

親友のブライアンが創作に取り組んだ時のことを今でもよく覚えています

先生が洗面台の下に置いていた粘土を使って

馬を作ろうとしていました

(22)

同時通訳者の訳出

o 逐次的な訳出のための工夫がある

I wanted to talk to you today

about creative confidence.

I'm going to start way back in the third grade

at Oakdale School in Barberton, Ohio.

I remember one day my best friend Brian was

working on a project.

He was making a horse out of the clay

that our teacher kept under the sink.

今日皆さんに

お話するの

は

クリエイティブな自信、

創造性の自信

についてです。

まず

三年生のところから

バービカン、オハイオ州のオークデールスクールのことです。

私の親友のブライアンがプロジェクトをしていました。

馬を作っていたんです

、粘土で。

えー先生の棚から

粘土を持ってきて、馬を作っていました

。

今日はクリエイティビティに対する

自信についてお話しします

オハイオ州バーバートンの小学３年生だった頃の

昔の話から始めましょう

親友のブライアンが創作に取り組んだ時のことを今でもよく覚えています

先生が洗面台の下に置いていた粘土を使って

馬を作ろうとしていました

(23)

人間の同時通訳モデル

[水野2016]

英日通訳の場合の例

(1) The relief workers (2) say (3)

they don’t have

(4)

enough food, water, shelter,

and medical supplies

(5)

to deal with

(6)

the gigantic wave of refugees

(7)

who are

ransacking the countryside

(8)

in search of the basics

(9)

to stay alive

.

(1) 救援担当者は (9)

生きるための

(8)

食料を求め

て

₍₇₎

村を荒らし回っている

₍₆₎

大量の難民達の

₍₅₎

世話をするための

(4)

十分な食料や水，宿泊施設，

医療品が

(3)

無いと

(2) 言っています．

必要短期記憶＞３！

(1) 救援担当者達の (2) 話では (4)

食料，水，宿泊施

設，医薬品が，

₍₃₎

足りず

₍₆₎

大量の難民達の

₍₅₎

世話が出来ない

とのことです．(7)

難民達は今村々

を荒らし回って，

(9)

生きるための

(8)

食料を求めて

いるのです

．

必要短期記憶＜３！

記憶チャンク数

(24)

同時通訳への挑戦 (InterSpeech 2013)

o 課題：従来法は文末を待つ

o 提案法：文末を待たず、フレーズ毎に翻訳

発話

音声認識

翻訳

音声合成

時間

発話

音声認識

翻訳

音声合成

翻訳

音声合成

翻訳

音声合成

時間

(25)

音声翻訳で実現するには？



分割:

いつ翻訳を開始するか?



予測:

次の発話をどう予測するか？



言い換え:

同時通訳用に言い換えることが出来るか?



評価:

どの通訳結果が良いかどう評価するか?

４つの課題:

(26)

分割してみよう

（Fujita, et al., Interspeech 2013）



統計的機械翻訳で用いられる翻訳モデルに着目



＋データから自動構築可能



＋言語情報を利用



＋翻訳と同じ情報を利用するため相性が良い



具体的には



「

フレーズ

」と呼ばれる、翻訳に用いる単語列の区切りで翻訳開始



「

並べ替え確率（右確率）

」で同時性と精度のバランスを調整



「

言語モデル適応

」を行い、精度の低下を防ぐ

(27)

フレーズベース統計的機械翻訳（SMT）

o

文を翻訳可能な小さい塊（フレーズ）に分けて並べ替える

Today I will give a lecture on machine translation .

Today

今日は、

I will give

を行います

a lecture on

の講義

machine translation

機械翻訳

.

。

Today

今日は、

I will give

を行います

a lecture on

の講義

machine translation

機械翻訳

.

。

今日は、機械翻訳の講義を行います。



翻訳モデル（フレーズテーブル）・並べ替えモデル・

言語モデル

をテキストから統計的に学習

(28)

フレーズ抽出



アライメントに基づいてフレーズを列挙

the

hotel

front

desk

ホ

テ

受

ルの付

ホテルの

→ hotel

ホテルの

_{→ the hotel}

受付

_{→ front desk}

ホテルの受付

_{→ hotel front desk}

(29)

並べ替えモデル



フレーズの並べ替え方を確率的に表し精度向上



現在のフレーズ

と

次のフレーズ

の順番を4種類に分類：



「順」と「不連続(右)」の確率の和は「

右確率

」

背の高い男

the tall man

順：

順番は同じ

太郎を訪問した

visited Taro

逆順：

順番は逆

私は太郎を訪問した

I visited Taro

不連続（右）：

不連続（左）：

背の高い男を訪問した

visited the tall man

(30)

右確率を用いた訳出タイミングの調整



まず、手法1を用いて訳出タイミングを仮確定



フレーズの

右確率

が閾値を上回った場合のみ本確定



閾値が1.0の場合は文ごと、0.0の場合はフレーズごと

例(閾値= 0.8):

hello

where is the station

“hello”

モデルに存在

↓

保留

“hello where”

存在しない

↓

“hello”を選択

↓

右確率 0.9 > 0.8

↓

出力 “

hello”

“where is”

モデルに存在

↓

保留

“where is the”

存在しない

↓

“where is”を選択

↓

右確率0.6 < 0.8

↓

出力しない

“the station”

発話終了

↓

出力

“where is

the station”

本確定

仮確定

本確定

仮確定

(31)

評価設定



４通りの実験的評価：



英日旅行対話文 (en-ja)



日英旅行対話文 (ja-en)



日英11単語以上の旅行対話文 (ja-en 11+)



仏英ニュース文 (fr-en)



２通りの評価項目：



精度:BLEU (参照はja-en,en-jaで14文, fr-enで1文)



遅延:秒



右確率は様々な閾値を調査

16.2万文で学習

4.4万文で学習

機械翻訳

遅延

(32)

結果1：各設定の精度・遅延



全ての設定において

遅延が減少

(33)

実験 (IWSLT2013)

o 対象データ: TED Talk（英語⇒日本語）

－翻訳(キャプション)

vs. 通訳

o 異なるスキルの通訳者

スキルのレベル

# 経験年数

Ｓ

15 年

Ａ

4 年

Ｂ

1 年

(34)

結果

38 40 42 44 46 48 50 0 1 2 3 4 5 6 R IBE S Dealy (Sec) LM+Tu A rank B rank

Ａランク：4 年経験

Ｂランク：1 年経験

Fast

Ac

curat

e

フレーズ終了時翻訳

発話終了時翻訳

B ランク（経験 1 年）

A ランク（経験 4 年）

≒

経験年数1年のB ランク通訳者と同等

(35)

統語要素予測に基づく訳出開始判定

o 未観測の統語要素（ラベル）を予測

o 既観測部を構文解析

o 素性抽出＆要素予測

o 翻訳途中に統語要素ラベルが現れたら「待機」

o 句の並べ替えの有無に

よって訳出タイミング

を変更する

Oda, Yusuke et al., Syntax-based Simultaneous Translation through Prediction of Unseen Syntactic Constituents, Proc. of ACL-IJCNLP 2015.

Syntax Prediction Process

10/16/2016 Invited Talk ©Satoshi Nakamura, NAIST 46

I minutes 18 next the in

Input translation unit PP NP IN NP NN NP NNS CD JJ DT

1. Parse the input as-is

Word:R1=I POS:R1=NN Word:R1-2=I,minutes POS:R1-2=NN,NNS ... ROOT=PP ROOT-L=IN ROOT-R=NP ... 2. Extract features VP ... 0.65 NP ... 0.28 nil ... 0.04 ...

3. Predict the next tag (linear SVM)

VP

4. Append to sequence

nil 5. Repeat until nil

タグ推定後の

入力文

in the next 18 minutes

i 'm going to take

[NP]

(待機)

i 'm going to take

you on a journey

翻訳結果

18 分である

[NP]

を行っています

(36)

NMTと同時通訳

Figure 2: Illustration of the proposed framework: at each step, the NMT

environment (left) computes a candidate translation. The recurrent agent

(right) will the observation including the candidates and send back decisions–

READ or WRITE

左側は、NMT

右側は、翻訳を出力

するかどうかの判定

モジュール

Jiatao Gu, Graham Neubig, Kyunghyun Cho, Victor O.K. Li. “

Learning to Translate in Real-time with Neural Machine

(37)

ブッシュ

大統領

は

プーチン

と

会談

する

President

Bush

meets

with

Putin

Wait K tokens

Controllable!

Prediction!

原文

ブッシュ

大統領

は

プーチン

と

会談

する

従来法

_President

_Bush

_{meets with Putin}

提案法

_President

_Bush

_{meets with}

_Putin

Prediction!

delay

Controllable!

予測と遅延制御による翻訳制御

(38)

翻訳例

Source

The analysis was carried out using fluorescence correlation spectroscopy and laser

scanning type fluorescence microscope.

Reference

蛍光相関分光法及び，レーザ走査型蛍光顕微鏡を用いて解析を行った。

Attention EncDec

蛍光相関分光法とレーザ走査型蛍光顕微鏡を用いて解析を行った。

“Wait-k” model

その解析を蛍光相関分光法とレーザ走査型蛍光顕微鏡を用いて行った。

39 • 参照訳、Atten EncDec訳では、フレーズの順番が変わっている。

• Wait-k アルゴリズムでは、フレーズの順番がある程度保存される。

帖佐克己, 須藤克仁, 中村哲, “英日同時通訳におけるニューラル機械翻訳の検討”, 言語処理学会全国大会 2019

(39)

コミュニケーションとしての音声翻訳を考えよう

入力

テキスト

音声

画像

ジェスチャ

音声⇒テキスト音声認識

同時

翻訳

変換

対話制御

言語情報

出力

テキスト

音声

画像

ジェスチャ

原言語目的言語音声信号 “to o kyo e i ku”

機械翻訳結果 /I/go/to/Tokyo/ 音声合成結果 “ai go tu tokyo/ 声質、韻律声質、韻律

談話構造

文脈

ドメイン知識

オントロジ

テキスト画像⇒テキスト画像認識テキストテキスト⇒音声音声合成テキスト⇒画像画像合成

電子情報通信学会誌2015，改

End-to-end で学習

コミュニケーションにおける

① 逐次性，同時性

② パラ言語情報

(40)

内容

1. 音声認識、音声合成と統合最適化

2. 音声翻訳の統合最適化

3. 音声翻訳の同時性

4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性

3. 発話顔音声画像翻訳

5. 課題と今後の展開

6. まとめ

(41)

(INTERSPEECH2015)

海賊王

に俺は

なる

！

I am going to

become

the king of pirates!

(42)

パラ言語情報

o パラ言語情報：

o 個人性：声質に個人性が含まれる

o 強調，感情：

o 意図，話題の焦点が含まれる．

o F0周波数パターンの変化や，ポーズ，強勢の違いに現れる．

o 文構造，Phrase boundaryの影響を受ける．

o 音響情報の言語情報の組み合わせで表現される．

⇒ 音声処理と言語処理をさらに融合する必要．

(43)

How_0.1

are_0.9

you_0.2?

強調の推定

強調の翻訳

お_0.1

元気_0.8

です_0.2 か_0.1?

パラ言語情報を伝える音声翻訳

音声認識

機械翻訳

音声合成

o 入力話者の強調、感情などのパラ言語情報を翻訳出力に付加できないか？

(44)

元の英語音声

従来の音声翻訳 (強調の翻訳なし)

強調を含んだ音声翻訳法（CRF)

強調を含んだ音声翻訳法（LSTM）

日本語の自然音声

D.Q.Truong, S.Sakti, G.Neubig, S.Nakamura, ”Transferring Emphasis in Speech Translation

Using Hard-Attentional Neural Network Models“, INTERSPEECH 2016

Deep Learningによるパラ言語音声翻訳

D.Q.Truong, S.Sakti, G.Neubig, S.Nakamura, ”Joint Translation of Words and Emphasis in Speech-to-spee

ch Translation using Sequence-to-sequence models”, 音響講論2-10-4

(45)

内容

1. 音声認識、音声合成と統合最適化

2. 音声翻訳の統合最適化

3. 音声翻訳の同時性

4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性

3. 発話顔音声画像翻訳

5. 課題と今後の展開

6. まとめ

(46)

テキストと音声における強調等価性

48

● テキストと音声からなるコーパスを作成:

○ テキスト

■

標準的表現のテキストを4つの異なる強調様式をもつ文

章にアノテータに変換してもらう

■

アノテータは同時にその困難さを記録する

○ 音声

■

発話者は標準的表現のテキストを強調を有する文章を

読む感覚で読み上げてもらう

○ 1050文の標準的表現の日英テキストを読み上げる

Quoc Truong Do, Sakriani Sakti, Satoshi Nakamura, “TOWARD MULTI-FEATURES EMPHASIS SPEECH TRANSLATION:

(47)

コーパスの内容

49

○ 英語５２５０文

● This overcoat is incredibly short for me .

● This overcoat is so short for me .

● This overcoat is relatively short for me .

● This overcoat is a bit short for me .

● This overcoat is short for me .

■

アノテータは1名、発話者は2名

Emphasis levels

Difficulty levels

Doubtful

14.64 Somewhat strong

10.68 Strong

8.92

(48)

クラウドソーシングで評価

50

● タスク１：音声による強調度の評価

○ 被験者に音声だけを提示

(49)

クラウドソース評価

51

● タスク２：テキストによる強調度の評価

● 被験者にテキストだけを提示

(50)

クラウドソース評価

52

● タスク３：音声とテキストの等価性についての評価

○ 被験者に音声とテキストを提示

(51)

内容

1. 音声認識、音声合成と統合最適化

2. 音声翻訳の統合最適化

3. 音声翻訳の同時性

4. パラ言語の取り扱い

1. 音声翻訳

2. 音声表現とテキスト表現の等価性

3. 発話顔音声画像翻訳

5. 課題と今後の展開

6. まとめ

(52)

課題と研究課題

o 同時音声翻訳、パラ言語情報の取り扱い、全体最適化

o 高速化、高精度化、大語彙化、多言語化、未知言語対応

o 持続的なデータ自動収集と教師無し学習

o 方言・アクセント対応

o 雑音・残響対応、遠隔認識

o 韻律利用、パラ言語・非言語制御

o 対話構造・談話構造の考慮

o 主語省略への対応、照応への対応

o 知識表現、意味表現とその利用

o クロスカルチャー対応

(53)

コミュニケーション研究の課題

Symbol Grounding

再帰的に相手を想定共通の概念接地を想定発話単位レベル発話内容，韻律，（発話理解）ジェスチャ対話，発話単位レベル発話理解，Dialog State Tracking，

対話制御，文生成，発話交代辞書，オントロジ知識グラフ大規模対話データ音声，テキスト物理レベルタイミング，相づち，頷き，視線，韻律意図レベル意図，目的談話レベル談話構造，相互信念，焦点，注意，主導権談話構造コーパス再帰的に相手を想定 Web 知識

(54)

基盤研究S （2017-2011)

次世代音声翻訳の研究

研究代表者：奈良先端科学技術大学院大学

情報科学研究科中村哲

研究分担者：河原達也（京大），猿渡洋（東大），森島繁生（早大），

戸田智基（名大），松本裕治，須藤克仁，S. サク

ティ，吉野幸一郎，田中宏季（奈良先端大）

連携研究者：水野的（青山学院大），G. Neubig(CMU)

(55)

概要

o 音声認識結果を受け取り，翻訳／通訳する

o 逐次性：入力の終わりを待たずに，高速に処理する

o 頑健性：入力の曖昧性や誤りの影響を抑える

o 「次世代」音声翻訳への挑戦

o 音声翻訳／同時通訳のための洗練された言語運用

o 先を予測する，文の構造を変える

o 最先端の機械学習技術

o seq2seq，Memory Network等からの発展を狙う

o 独自コーパスの活用

o Beyond 単純な文対訳からの機械翻訳

o 実用向けに有意義な評価方法

(56)

本提案の研究課題

音源推定

雑音抑圧

雑音源、音響特性

同時パラ

言語翻訳

常時・同時複数

話者音声認識

同時

音声合成

発話顔画像

抽出、３Dモデル

発話顔画像

制御、生成

パラ言語

情報抽出

発話顔

画像変換

字幕生成

同時

言語翻訳

課題１：自動音声同時通訳と音声翻訳の高度化

課題３：ビデオコンテンツ字幕翻訳，音声画像翻訳

同時パラ言語

音声合成

課題２：パラ言語音声翻訳

課題4：脳活動を含むセンシングによる実時間

コミュニケーション測定

視線検出装置Tobi，モバイル心拍計，32ch脳波計を用いて同時通訳作業時，および同時通訳ユーザの聴取負荷の測定を行う．

課題５：コーパス構築とプロトタイプシステム

400時間以上の研究用の日英双方向同時通訳コーパス，およびビデオ翻訳コーパスを構築する．次世代音声翻訳システムのプロトタイプを構築する．研究代表者，分担者の大学の講義，講演，会議の同時通訳とアーカイブ翻訳に適用し，評価，コーパスとしての蓄積，モデルの学習，改良を継続的に行う．

(57)

NAIST 同時通訳コーパス

o 2012-2016年度収録

o 元音声: MP4 (TED), MP3 (CNN), PCM

o 通訳音声: 24bit 48kHz PCM

o 通訳者ランク：S (10年+), A(3年+), B

o 複数の通訳音声が収録されたものも一部あり

言語方向

ドメイン

原音声

同時通訳収録済み

ファイル数

時間

ファイル数

時間

英日

TED

74

15.2

58

12.3 CNN

13

0.731

7

0.389 合計

87

15.9

65

12.7 日英

TED

60

11.9

60

11.9 CSJ

31

5.51

31

5.51 NHK

10

0.304

10

0.304 合計

101

17.7

101

17.7

(58)

NAIST 同時通訳コーパス最新状況

o 2018年度収録

o 元音声: MP4 (TED, TEDx), PCM (CSJ)

o 通訳音声: 16bit 16kHz PCM

o 通訳者ランク：S (10年+), A(3年+), B

o 学習セット(計100時間)についてはランクA以上の1名の通訳音声を収録

o テストセット(計24時間)については各ランク1名ずつの通訳音声を収録

コンピュータによる自動通訳を目指して

音声言語の研究と今後の展開

奈良先端科学技術大学院大学

データ駆動型サイエンス創造センター長

先端科学技術研究科 教授

(RIKEN AIP 観光情報解析チーム）

中村

哲

with

須藤克仁、Sakriani Sakti、吉野幸一郎、田中宏季、Graham Neubig,

Do Quoc Truong, 叶

高朋、Andros Tjandra, 帖佐克己

話し言葉とコミュニケーション

o 書き言葉

o 記録、保存、時代を超えた伝承が目的

o 時間をかけて推敲し文を作成

o 高圧縮、文法的

o 時間をかけて読解

o わかるまで読み返す

o 話し言葉

o その場でのコミュニケーション、意図伝達が目的

o リアルタイムで発話を生成

o 低圧縮、非文法的、文脈依存、冗長語、不完全

o マルチモーダル、パラ言語（韻律、個人性、強調、感情）

o リアルタイムに発話を理解

o 文脈、パラ言語、マルチモーダル情報の利用

o Mutual Grounding の構築と利用

奈良先端大における研究

Ｃ

要素技術を統合し、コミュニケーション

支援技術について研究

音声同時通訳

ニューラル機械翻訳

音声対話

マルチモーダル対話

知識獲得

QAシステム

マルチモーダル

多言語音声認識

音声合成

Deep Speech Chain

ディープニューラル

ネットワーク

アフェクティブコンピューティング

感情、パラ言語処理

認知症早期検出

コミュニケーション支援対話

コミュニケーション

支援技術の研究

話し言葉の音声・言語処理

WEB

情報処理

目的指向対話

チャット対話

違和感検出

感情検出

内容

1. 音声認識、音声合成と統合最適化

2. 音声翻訳の統合最適化

3. 音声翻訳の同時性

4. パラ言語の取り扱い

1.

音声翻訳

2.

音声表現とテキスト表現の等価性

3.

発話顔 音声画像翻訳

5. 課題と今後の展開

6. まとめ

内容

1. 音声認識、音声合成と統合最適化

2. 音声翻訳の統合最適化

3. 音声翻訳の同時性

4. パラ言語の取り扱い

1.

音声翻訳

2.

音声表現とテキスト表現の等価性

3.

発話顔 音声画像翻訳

先端科学技術研究科教授

発話顔音声画像翻訳

発話顔音声画像翻訳

_{c. TTSからASR}

o 用例ベース（Example-Based）ルールを自動的にコーパスから抽出

o 統計ベース翻訳（Statistical Machine Translation) さらに、ルールが頻出するかの確率を学習。Noisy