音声情報処理

(1)

音情報処理論

中村

哲

高道愼之介

Sakriani Sakti

(2)

音声って何

人のコミュニケーションで意図を伝える最も重

要な手段

– 音声を圧縮する

– 音声を作る

– 音声を聞き取る

– さらに、音響信号の処理

(3)

シリコンオーディオ

音声、音

楽を圧

(4)

Apple Siri

音声で問

い合わ

(5)

VoiceTra+

音声をそ

の場で翻

(6)

何が難しいのか

音声合成

– 録音して再生する？

– テキストから音声を合成？

– どんな声でも？

– 怒ったり、泣いたりできる？

音声認識

– 一人の人の声を認識するとは？

– 違う人、男女、子供だと？

– アクセント、方言、外来語は？

– 感情的な音声は？

– 音響的な外乱は？

音声対話

– 人間のように対話するとは？？？

(7)

本講義の狙い

音声とは何か

音声情報を使ったヒューマンインタフェース

– 音声認識

– 音声合成

– 音声対話

– 音声翻訳

– さらに音響信号処理

これらの技術の中身はどうなっているのか？

(8)

講義の構成

第１回 10/５中村

音情報基礎（音声、音響情報処理の導入、基礎）：

Introduction to speech and acoustic signal processing

第２回 10/1２高道

音声の特徴抽出（ＤＦＴ，ＬＰＣ，ケプストラム分析）：

Speech signal processing (DFT, LPC analysis)

第３回 1１/１９高道

音声合成理論と音声合成システム：

Speech synthesis theory and system

第４回 10/2６中村

音声符号化基礎：

Fundamentals of Speech Coding

第５回 11/2 高道

音響信号処理基礎：

Fundamentals of acoustic signal processing

第６回 11/９ Sakti

音声認識理論と音声認識システム:

Speech recognition theory and system

第6回

11/1６吉野

音声対話システム理論と音声対話システム：

(9)

採点基準

各回に課題を出します。

• 1週間以内の提出

最終回に最終試験を行います。

この２つの合計点を元に採点します。

おおよそ、

(出席＋演習）の合計％ｘ０．3＋最終試験％ｘ０．7

が目安です。

(10)

(11)

参考書

森北出版

音声工学

板橋秀一

編著

今日は、この本を参考にしています。

他に、

昭晃堂

鹿野、中村、伊勢

「音声・音情報のディジタル信号処理」

コロナ社

鹿野、武田ら

「音声認識システム」

近代科学社

古井、「新音響・音声工学」

(12)

音声に関する研究

人間の発声器官、発声メカニズム

音の伝搬、音響工学、音響信号処理

人間の聴覚器官、聴取メカニズム

⇒

生理学、心理学

言葉の理解、生成

⇒

言語学

コンピュータによる実現

⇒

コンピュータサイエンス、情報工学

(13)

(14)

(15)

母音の分類

(16)

母音の性質

ホルマント、ホルマント周波数、ホルマント帯

域幅

(17)

母音のホルマント

(18)

子音

半母音

/j/ /w/

(19)

IPA

異音（allophone)

有声音、無声音

(20)

調音結合

/aoi/青いの/a/は

/aida/間

の/a/と調音点

が異なる。

– /aoi/ の/a/は、後続の/o/に近い奥舌音

– /aida/の/a/は、後続の/i/に近い前よりの調音

これらを「調音結合」(Co-articulation)

あるいは、「同化」(assimilation)と呼ぶ

– 鼻音化：/namae/名前 /a/が鼻音化

– 無声化：/akita/, /yakusho/ 無声子音に挟まれた

/i//u/ が無声化する

(21)

アクセント・イントネーション

高さアクセント

強さアクセント

文節要素（Segmental Phoneme)

(22)

(23)

話し言葉

文が短い

主語などの省略が多い

短縮形を多用

ね、さ、よ、等の終助詞がつく

同じ言葉の繰り返しが多い

複雑な構文を避ける

時間的要素（忘却）が関与する

えー、あー、うーなどのいいよどみがある

言い誤り、言い直しが多い

(24)

(25)

(26)

(27)

(28)

(29)

(30)

(31)

(32)

継時マスキング

(33)

(34)

何が難しいのか

音声合成

– 録音して再生

• 変形したい

– スペクトル構造と音源を分けて制御したい

– 文字から音声を合成

• イントネーションがない

• 調音結合の影響で不自然

– 変形が必要

音声認識

– 同じ人でも話すたびに違う

• 時間構造、スペクトル構造

– 違う人、男女、子供で音声が違う

– アクセント、方言の問題、外来語

– 雑音、残響

音声対話

– 人間のように対話するとは？

(35)

最近の音声認識の進歩

これまでの経緯

– テンプレートマッチング、動的計画法 [Sakoe 71]

– 隠れマルコフモデル、N-Gramモデル [Mercer 83, etc]

– ニューラルネットワーク、TDNN[Waibel 89], LSTM [Hochreiter 97]

– Weighted Finite State Transducer [Mohri 2006]

– 大量のデータの収集、試行サービスによるデータ収集

深層学習による最近の進化

– DNN-HMM [Hinton 2012]

• DNN により状態の事後確率を直接推定する

– Connectionist Temporal Classification [Graves 2013]

• フレーム毎に音素ラベルを出力する

– Listen, Attend, and Spell [Chan 2016]

• CTCにAttentionメカニズムを加え高精度化

(36)

深層学習による音声認識

ハイブリッド

_HMM-DNN:

 最新の方法: CLDNN により入力特徴量系列から音素列を直接推定

注意機構付きEncoder-Decoderによる

End-to-end ASR

 CNNs ：特徴抽出

 LSTM：系列モデリング

 DNN：高精度な識別

[Sainath et. al 2015]

TIMIT音素認識結果

Results on Google data

(37)

CTC: Connectionist Temporal Classification

問題

: RNNの音素認識器を学習するためにはフレーム毎のラベルが必要。これ

までは、HMMが使われていた。

Connectionist Temporal Classification (CTC)

[A. Graves et al 2006]

動的計画法を用いてラベルを割り当て学習する。

学習時、正解ラベル系列

_𝒍を

入力系列

𝒙を割り当てる。

:

𝑃 𝑙 𝑥 =

𝜋

𝑃 𝑙 𝜋 𝑃 𝜋 𝑥

Classical framewise RNN vs RNN-CTC

Model

WER

Classical RNN

14.0%

RNN+CTC

12.9%

2000時間の英語のVoice

Searchの結果。

[H. Sak et al 2015]

(38)

音声認識性能の向上

Saon, et al. “English Conversational Telephone Speech Recognition by

Humans and Machines”, INTERSPEECH 2017

[1] R. P. Lippmann, “Speech recognition by machines and humans,” Speech communication, vol. 22, no. 1, pp. 1–15, 1997.

(39)

最近の音声合成の進歩

フォルマント合成、素片合成

確率モデルベース音声合成：HTS

– HMMフレームワークによる音声合成

– Tokuda, et al., “Speech parameter generation algorithms for

HMM-based speech synthesis”, ICASSP 2000

Wavenet

– 時系列信号に対し、畳み込みを行うNNにより波形生成

– van den Oord et al., “WAVENET: A GENERATIVE MODEL FOR RAW

AUDIO”, arXiv:1609.03499v2 [cs.SD] 19 Sep 2016

Tacotron

– 文字入力でスペクトログラムを生成、その後、Griffin-Lim法で波形生成

– Wang, et al., “TACOTRON: TOWARDS END-TO-END SPEECH

SYNTHESIS”, arXiv:1703.10135v2 [cs.CL] 6 Apr 2017

(40)

Architecture on Wavenet

(41)

Architecture on Tacotron

(42)

機械翻訳の進歩

ルールベース：

言語学者、言語学の知識のある作業者がルールを注意して作成

コーパスベース：

– 用例ベース（Example-Based）ルールを自動的にコーパスから抽出

[M.Nagao84, Sato et.al.,89, Sumita et. al., 91 ]

– 統計ベース翻訳（Statistical Machine Translation) さらに、ルールが頻

出するかの確率を学習。Noisy Channel Model [P.F.Brown, et.al. 93]

– Phrase-base SMT

単語レベルでなくフレーズという単位を導入。

Tree-to-string

– 構文構造の関係を学習する統計的機械翻訳

Neural Machine Translation

– LSTMによるEncoder と Decoderを組み合わせ、翻訳文を生成する

Attention NMT

– 原言語の単語列のEncoder出力に重みを加えてDecoderにいれることでア

ライメントをImplicitに学習する

(43)

フレーズベースSMT

ate

a meal

with

a friend

友達とご飯を食べた

友達 a friend

と

with ご飯をa meal 食べたate

友達 a friend と with ご飯を a meal 食べた ate Phrase Aligment Re-ordering Translation

ate

a meal

with

a friend

食べた

SUF

₅

VP

_4-5

x1 with x0

x1 x0

a friend

a meal

ate

x1

x0

Apply rules

友達

ご飯

_を

VP

_0-5

PP

_0-1

VP

2-5

PP

_2-3

N

₂

P

₃

V

₄

N

₀

P

₁

x1 x0

友達とご飯を食べた

Parser

訳出

と

構文木の利用:Tree-to-string

構文構造の利用

43

(44)

Statistical Translation Frameworks

Symbolic Models

Phrase-based MT [Koehn+ 03]

he has a cold 彼は風邪を引いている he 彼は has 引いている a cold 風邪を he 彼は has 引いている a cold 風邪を

Tree-to-String MT [Liu+ 06]

彼は風邪 he has a cold PRP VBZ DET NN VP NP S 引いているを

Continuous-space (Neural) Models

Encoder-Decoder [Sutskever+ 14]

he has a cold <s> 彼彼はは風邪風邪を引いているを <s> 引いている

Attentional [Bahdanau+ 15]

he has a cold g₁,...,g₄ a₁ a₂ a₃ a₄ h_i-1 h_i r_i-1

P(e_i|F,e₁,...,e_i-1)

(45)

Neural Machine Translation

Neural MT

_{NMT Re-ranking}

Tomodachi to Gohan wo tabeta

Vector Representation History of MT results

I ate

Predict next word

0.5 a

0.3 rice

0.1 the

…

Tree-to-string MT

Tomodachi to Gohan wo tabeta

I ate a meal with my friend

I ate rice with my friend

I ate rice and my friend

NMT probability

NMT

T2S

0.3 I ate a meal with my friend

0.5 I ate rice with my friend

0.1 I ate rice and my friend

Take best

hypothesis

I ate rice with my friend

Good example by NMT：

Original: demo Kensa ha kanari itai desuka？

before: But quite sore test?

after: But the test hurts a lot?

(46)

音声翻訳システム

多言語

音声認識

_機械翻訳

話し言葉

多言語

音声合成

日本語

英語

I go to school

「私は学校に行く: Watashi wa Gakko he iku」

Watashi wa

(47)

我が国の音声翻訳プロジェクトの流れ

47 読み上げ文を

音声翻訳

• 文法的な表現 • 明瞭な発声国際会議申込み」

日常の話し言葉

を音声翻訳

• 標準的な表現 • 明瞭な発声 • 限定された話題「ホテル予約」

広い話題に適応

• 広い話題での表現（日常旅行会話） • 雑音を含む音声 • 日英＋日中

1986

₁₉₉₂

₂₀₀₀

₂₀₀₆

要素技術

ルールベース

人手作業

大規模コーパス

+ 機械学習

2008

A-STAR

内閣府社会

還元加速PJ

• 8アジア言語 •ネットワーク型音声翻訳

2010

C-STAR

• 音声翻訳国際共同研究コンソーシアム

IWSLT

• 音声翻訳性能評価ワークショップ

2011

VoiceTra

NAIST

2014

U-STAR

NICT

GC PJ

NICT

ATR

・2007年 11月開始

(48)

iPhone アプリ：VoiceTra, TexTra

• 新しいiphone用ネットワーク音声翻訳アプリケーション “VoiceTra” をAppStore から 2010年7

月29日リリース

• 21

言語対応、音声入出力は

6 言語（日、英、中、インドネシア、ベトナム、マレー語）

• これまでに、

約８０万

ダウロード、

1千万

アクセス

48

* Text-translation application, TexTra is released at the same time.

Japanese

,

English

,

Mandarin

, Taiwanese

Mandarin, German, French, Dutch, Danish,

Italian, Spanish, Portuguese, Brazilian

Portuguese, Russian, Arabic, Hindi,

Indonesian,

Malay, Thai, Tagalog,

Vietnamese

, Korean

(49)

同時通訳への挑戦 (InterSpeech 2013)

課題：従来法は文末を待つため遅い

提案法：文末を待たず、フレーズ毎に翻訳

発話

音声認識

翻訳

音声合成

時間

発話

音声認識

翻訳

音声合成

翻訳

音声合成

翻訳

音声合成

時間

(50)

結果

38 40 42 44 46 48 50 0 1 2 3 4 5 6 R IBE S Dealy (Sec) LM+Tu A rank B rank

音声情報処理

音情報処理論

中村

哲

高道愼之介

Sakriani Sakti

音声って何

人のコミュニケーションで意図を伝える最も重

要な手段

– 音声を圧縮する

– 音声を作る

– 音声を聞き取る

– さらに、音響信号の処理

シリコンオーディオ

音声、音

楽を圧

Apple Siri

音声で問

い合わ

VoiceTra+

音声をそ

の場で翻

何が難しいのか

音声合成

– 録音して再生する？

– テキストから音声を合成？

– どんな声でも？

– 怒ったり、泣いたりできる？

音声認識

– 一人の人の声を認識するとは？

– 違う人、男女、子供だと？

– アクセント、方言、外来語は？

– 感情的な音声は？

– 音響的な外乱は？

音声対話

– 人間のように対話するとは？？？

本講義の狙い

音声とは何か

音声情報を使ったヒューマンインタフェース

– 音声認識

– 音声合成

– 音声対話

– 音声翻訳

– さらに音響信号処理

これらの技術の中身はどうなっているのか？

講義の構成

第１回 10/５ 中村

音情報基礎（音声、音響情報処理の導入、基礎）：

Introduction to speech and acoustic signal processing

第２回 10/1２ 高道

音声の特徴抽出（ＤＦＴ，ＬＰＣ，ケプストラム分析）：

Speech signal processing (DFT, LPC analysis)

第３回 1１/１９ 高道

音声合成理論と音声合成システム：

Speech synthesis theory and system

第４回 10/2６ 中村

音声符号化基礎：

Fundamentals of Speech Coding

第５回 11/2 高道

音響信号処理基礎：

Fundamentals of acoustic signal processing

第６回 11/９ Sakti

音声認識理論と音声認識システム:

Speech recognition theory and system

第6回

11/1６ 吉野

音声対話システム理論と音声対話システム：

採点基準

各回に課題を出します。

• 1週間以内の提出

最終回に最終試験を行います。

この２つの合計点を元に採点します。

おおよそ、

(出席＋演習）の合計％ｘ０．3＋最終試験％ｘ０．7

が目安です。

参考書

森北出版

音声工学

板橋秀一

編著

第１回 10/５中村

第２回 10/1２高道

第３回 1１/１９高道

第４回 10/2６中村

11/1６吉野