音声情報処理

(1)

音情報処理論

中村

哲

高道愼之介

戸田智基

Sakriani Sakti

吉野幸一郎

Satoshi Nakamura @ NAIST 2016

₁

(2)

音声って何

人のコミュニケーションで意図を伝える最も重

要な手段

– 音声を圧縮する

– 音声を作る

– 音声を聞き取る

– さらに、音響信号の処理

(3)

シリコンオーディオ

₃

音声、音

楽を圧

縮！

(4)

Apple Siri

音声で問

い合わ

(5)

VoiceTra+

₅

音声をそ

の場で翻

訳！

(6)

何が難しいのか

音声合成

– 録音して再生する？

– テキストから音声を合成？

– どんな声でも？

– 怒ったり、泣いたりできる？

音声認識

– 一人の人の声を認識するとは？

– 違う人、男女、子供だと？

– アクセント、方言、外来語は？

– 感情的な音声は？

– 音響的な外乱は？

音声対話

– 人間のように対話するとは？？？

(7)

本講義の狙い

音声とは何か

音声情報を使ったヒューマンインタフェース

– 音声認識

– 音声合成

– 音声対話

– 音声翻訳

– さらに音響信号処理

これらの技術の中身はどうなっているのか？

₇

(8)

参考書

森北出版

音声工学

板橋秀一

編著

今日は、この本を参考にします。

他に、

昭晃堂

鹿野、中村、伊勢

「音声・音情報のディジタル信号処理」

コロナ社

鹿野、武田ら

「音声認識システム」

近代科学社

古井、「新音響・音声工学」

(9)

講義の構成

第１回 10/４中村

音情報基礎（音声、音響情報処理の導入、基礎）：

Introduction to speech and acoustic signal processing

第２回 10/1８高道

音声の特徴抽出（ＤＦＴ，ＬＰＣ，ケプストラム分析）：

Speech signal processing (DFT, LPC analysis)

第３回 10/2５戸田

音声符号化基礎：

Fundamentals of Speech Coding

第４回 1１/１戸田

音声合成理論と音声合成システム：

Speech synthesis theory and system

第５回 11/8 Sakti

音声認識理論と音声認識システム:

Speech recognition theory and system

第6回

11/15 吉野

音声対話システム理論と音声対話システム：

Spoken dialog system theory and system

第７回 11/22 高道

音響信号処理基礎：

Fundamentals of acoustic signal processing

11/26 第８回試験

₉

(10)

採点基準

各回に課題を出します。

• 1週間以内の提出

最終回に最終試験を行います。

この２つの合計点を元に採点します。

おおよそ、

(出席＋演習）の合計％ｘ０．４＋最終試験％ｘ０．６

が目安です。

(11)

音声と情報

音声

– 言語情報

– 非言語情報

– 個人性情報

音声認識、話者認識

– 音響音声信号⇒（分析） ⇒

特徴パラメータ

– 特徴パラメータ

⇒

音声認識、話者認識

音声合成

– 言語情報 ⇒ 音声合成

音声符号化、圧縮

– 音声信号 ⇒ （圧縮） ⇒ 音声信号

₁₁

(12)

音声に関する研究

人間の発声器官、発声メカニズム

音の伝搬、音響工学、音響信号処理

人間の聴覚器官、聴取メカニズム

⇒

生理学、心理学

言葉の理解、生成

⇒

言語学

コンピュータによる実現

⇒

コンピュータサイエンス、情報工学

(13)

音声の生成

₁₃

(14)

調音機構

調音：喉頭、口腔、鼻腔：

管腔全体

⇒

声道

声道長

– 成人男性：１７．５ｃｍ

– 成人女性：１５．２ｃｍ

– 子供（８歳）：１２．２ｃｍ

口唇

舌

(15)

音声器官

₁₅

(16)

発声機構

音源と調音

音源

– 有声

声帯振動

– 無声

乱流

• 喉頭や声道途中の狭めによる乱流

• 舌先などの声道の閉鎖と開放による破裂性音源破裂性

• 乱流音源のうち喉頭の狭めによるもの摩擦性

(17)

声帯振動

₁₇

(18)

音声波

(19)

音声の長時間スペクトル

₁₉

(20)

音声の基本的性質

音声・音節・音素

音声

– /わたしはとうきょうへいく/

音節

– /wa/ /ta/ /shi/ /wa/ /to/ /u/ /kyo/ /e/ /i/ /ku/

音素

– 母音、半母音、子音 ⇒ 音素記号

– /w/ /a/ /t/ /a/ /sh/ /i/ /w/ /a/ /t/ /o/ /u/ /ky/…

国際音声記号（国際音素記号）：

(21)

IPA

異音（allophone)

有声音、無声音

閉鎖音、破裂音、鼻音、破擦音

₂₁

(22)

母音の分類

(23)

調音結合

/aoi/青いの/a/は

/aida/間

の/a/と調音点

が異なる。

– /aoi/ の/a/は、後続の/o/に近い奥舌音

– /aida/の/a/は、後続の/i/に近い前よりの調音

これらを「調音結合」(Co-articulation)

あるいは、「同化」(assimilation)と呼ぶ

– 鼻音化：/namae/名前 /a/が鼻音化

– 無声化：/akita/, /yakusho/ 無声子音に挟まれた

/i//u/ が無声化する

₂₃

(24)

アクセント・イントネーション

高さアクセント

強さアクセント

文節要素（Segmental Phoneme)

(25)

話し言葉

文が短い

主語などの省略が多い

短縮形を多用

ね、さ、よ、等の終助詞がつく

同じ言葉の繰り返しが多い

複雑な構文を避ける

時間的要素（忘却）が関与する

えー、あー、うーなどのいいよどみがある

言い誤り、言い直しが多い

₂₅

(26)

母音の性質

ホルマント、ホルマント周波数、ホルマント帯

域幅

(27)

ホルマント周波数

₂₇

図２．１１日本語短母音のホルマント周波数

(28)

母音のホルマント

(29)

子音

半母音

/j/ /w/

破裂音

/p,t,k/ /b,d,g/

₂₉

図２．１３無声破裂音と有声破裂音

(30)

有声破裂音

(31)

基本周波数

₃₁

図２．１８基本周波数分布

(32)

文章発話の基本周波数

(33)

聴覚器官

₃₃

(34)

(35)

蝸牛断面

₃₅

(36)

(37)

聴覚神経系

₃₇

(38)

(39)

音の高さ知覚

₃₉

(40)

(41)

同時マスキング

₄₁

(42)

継時マスキング

(43)

臨界帯域幅

₄₃

(44)

音声の知覚

明瞭度と了解度

知覚単位と文脈

カテゴリー知覚

(45)

カテゴリー知覚

₄₅

(46)

何が難しいのか

音声合成

– 録音して再生

• 変形したい

– スペクトル構造と音源を分けて制御したい

– 文字から音声を合成

• イントネーションがない

• 調音結合の影響で不自然

– 変形が必要

音声認識

– 同じ人でも話すたびに違う

• 時間構造、スペクトル構造

– 違う人、男女、子供で音声が違う

– アクセント、方言の問題、外来語

– 雑音、残響

音声対話

– 人間のように対話するとは？

(47)

音声翻訳システム

10/08/2016

47 多言語

音声認識

_機械翻訳

話し言葉

多言語

音声合成

日本語

英語

I go to school

「私は学校に行く: Watashi wa Gakko he iku」

Watashi wa

Gakko he iku

I go to school

(48)

我が国の音声翻訳プロジェクトの流れ

48 読み上げ文を

音声翻訳

• 文法的な表現 • 明瞭な発声国際会議申込み」

日常の話し言葉

を音声翻訳

• 標準的な表現 • 明瞭な発声 • 限定された話題「ホテル予約」

広い話題に適応

• 広い話題での表現（日常旅行会話） • 雑音を含む音声 • 日英＋日中

1986

₁₉₉₂

₂₀₀₀

₂₀₀₆

要素技術

ルールベース

人手作業

大規模コーパス

+ 機械学習

2008

A-STAR

内閣府社会

還元加速PJ

• 8アジア言語 •ネットワーク型音声翻訳

2010

C-STAR

• 音声翻訳国際共同研究コンソーシアム

IWSLT

• 音声翻訳性能評価ワークショップ

2011

VoiceTra

NAIST

2014

U-STAR

NICT

GC PJ

NICT

ATR

・2007年 11月開始

(49)

大規模コーパス

多言語

音声認識

多数話者の

大量の

音声データ

日本語と英語

の大量の対訳文

長時間英語

音声データ

話し言葉

翻訳

多言語

音声合成

日本語

英語

I go to school

「私は学校に行く」

w a t a sh i w a g a xtu k o o n i….. 私は学校に行く

日本語の大量

の文章

I to school go

和英辞書により日本語の単語列を英語に変換「私は」⇒ “I” 「学校に」⇒ “to school” 「行く」⇒“go” 日本語の辞書と文法によりかな漢字列に変換日本語の発音列に変換 “a”,”I”,”u”,… テキストに合った音声波形をデータベースから探し出す英語の文法に合わせて語順を変更 “I” “I” “to school” “go” “go” “to school”

I go to school

コーパス

英語の大量

の文章

音声翻訳のメカニズム

49

(50)

統計的機械翻訳

50 • 統計モデル、言語モデル、デコーダーから構成される。

原言語と目的言語

のパラレルテキスト

コーパス

目的言語のテキス

トコーパス

統計解析

翻訳モデル

言語モデル

スコアを考慮して翻訳処理

入力文（原言語）

翻訳文（目的言語）

並び替えモデル

フレーズの置換

置換フレーズの

文法整合性判定

デコーダ

(51)

パラレルコーパス

Japanese:

“窓をあけてもいいですか”

51 English:

1. may i open the window

2. ok if i open the window

3. can i open the window

4. could we crack the window

5. is it okay if i open the window

6. would you mind if i opened the

window

7. is it okay to open the window

8. do you mind if i open the window

9. would it be all right to open the

window

10. i’d like to open the window

Japanese

English

Chinese

Korean

New lang.

(52)

同時通訳への挑戦 (InterSpeech 2013)

o 課題：従来法は文末を待つため遅い

o 提案法：文末を待たず、フレーズ毎に翻訳

52 発話

音声認識

翻訳

音声合成

時間

発話

音声認識

翻訳

音声合成

翻訳

音声合成

翻訳

音声合成

時間

(53)

結果

53

38 40 42 44 46 48 50 0 1 2 3 4 5 6 R IBE S Dealy (Sec) LM+Tu A rank B rank

Ａランク：4 年経験

Ｂランク：1 年経験

Fast

Accu

ra

te

フレーズ終了時翻訳

発話終了時翻訳

B ランク（経験 1 年）

A ランク（経験 4 年）

≒

経験年数1年のB ランク通訳者と同等

2016/10/4

(54)

iPhone アプリ：VoiceTra, TexTra

• 新しいiphone用ネットワーク音声翻訳アプリケーション “VoiceTra” をAppStore から 2010年7

月29日リリース

• 21

言語対応、音声入出力は

6 言語（日、英、中、インドネシア、ベトナム、マレー語）

音声情報処理

音情報処理論

中村

哲

高道愼之介

戸田智基

Sakriani Sakti

吉野幸一郎

1

音声って何

人のコミュニケーションで意図を伝える最も重

要な手段

– 音声を圧縮する

– 音声を作る

– 音声を聞き取る

– さらに、音響信号の処理

シリコンオーディオ

3

音声、音

楽を圧

縮！

Apple Siri

音声で問

い合わ

VoiceTra+

5

音声をそ

の場で翻

訳！

何が難しいのか

音声合成

– 録音して再生する？

– テキストから音声を合成？

– どんな声でも？

– 怒ったり、泣いたりできる？

音声認識

– 一人の人の声を認識するとは？

– 違う人、男女、子供だと？

– アクセント、方言、外来語は？

– 感情的な音声は？

– 音響的な外乱は？

音声対話

– 人間のように対話するとは？？？

本講義の狙い

音声とは何か

音声情報を使ったヒューマンインタフェース

– 音声認識

– 音声合成

– 音声対話

– 音声翻訳

– さらに音響信号処理

これらの技術の中身はどうなっているのか？

7

参考書

森北出版

音声工学

板橋秀一

編著

今日は、この本を参考にします。

他に、

昭晃堂

鹿野、中村、伊勢

「音声・音情報のディジタル信号処理」

コロナ社

鹿野、武田ら

「音声認識システム」

近代科学社

古井、「新音響・音声工学」

講義の構成

第１回 10/４ 中村

音情報基礎（音声、音響情報処理の導入、基礎）：

Introduction to speech and acoustic signal processing

第２回 10/1８ 高道

音声の特徴抽出（ＤＦＴ，ＬＰＣ，ケプストラム分析）：

Speech signal processing (DFT, LPC analysis)

第３回 10/2５ 戸田

音声符号化基礎：

Fundamentals of Speech Coding

第４回 1１/１ 戸田

音声合成理論と音声合成システム：

₁

₃

₅

₇

第１回 10/４中村

第２回 10/1８高道

第３回 10/2５戸田

第４回 1１/１戸田

11/26 第８回試験

₉

₁₁

₁₃

₁₅