音声情報処理

(1)

音情報処理論

中村哲、戸田智基

猿渡洋、川波弘道

(2)

音声って何

人のコミュニケーションで意図を伝える最も重

要な手段

– 音声を圧縮する

– 音声を作る

– 音声を聞き取る

– さらに、音響信号の処理

(3)

(4)

Apple Siri

(5)

(6)

本講義の狙い

音声とは何か

音声情報を使ったヒューマンインタフェース

– 音声認識

– 音声合成

– 音声対話

– 音声翻訳

– さらに音響信号処理

これらの技術の中身はどうなっているのか？

(7)

参考書

森北出版音声工学板橋秀一編著

今日は、この本を参考にします。

他に、

昭晃堂鹿野、中村、伊勢

「音声・音情報のディジタル信号処理」

コロナ社鹿野、武田ら「音声認識システム」

近代科学社古井、「新音響・音声工学」

(8)

講義の構成

第１回 10/9

音情報基礎（音声、音響情報処理の導入、基礎）：中村

Introduction to speech and acoustic signal processing

第２回 10/16 音声の特徴抽出（ＤＦＴ，ＬＰＣ，ケプストラム分析）：猿渡

Speech signal processing (DFT, LPC analysis)

第３回 10/23 音響信号処理基礎：猿渡

Fundamentals of acoustic signal processing

第４回 10/30 音声符号化基礎：戸田

Fundamentals of Speech Coding

第５回 11/6

音声合成理論と音声合成システム：戸田

Speech synthesis theory and system

第６回 11/13 音声認識理論と音声認識システム：川波

Speech recognition theory and system

第７回 11/20 音声対話システム理論と音声対話システム：中村

Spoken dialog system theory and system

第８回 11/27 試験

(9)

採点基準

各回に課題を出します。

• 1週間以内の提出

最終回に最終試験を行います。

(10)

音声と情報

音声

– 言語情報

– 非言語情報

– 個人性情報

音声認識、話者認識

– 音響音声信号⇒（分析） ⇒

特徴パラメータ

– 特徴パラメータ

⇒

音声認識、話者認識

音声合成

– 言語情報 ⇒ 音声合成

音声符号化、圧縮

– 音声信号 ⇒ （圧縮） ⇒ 音声信号

(11)

音声に関する研究

人間の発声器官、発声メカニズム

音の伝搬、音響工学、音響信号処理

人間の聴覚器官、聴取メカニズム

⇒ 生理学、心理学

言葉の理解、生成

⇒ 言語学

コンピュータによる実現

⇒ コンピュータサイエンス、情報工学

(12)

音声の基本的性質

音声・音節・音素

音声

– /わたしはとうきょうへいく/

音節

– /wa/ /ta/ /shi/ /wa/ /to/ /kyo/ /e/ /i/ /ku/

音素

– 母音、半母音、子音 ⇒ 音素記号

– /w/ /a/ /t/ /a/ /sh/ /i/ /w/ /a/ /t/ /o/ /ky/…

国際音声記号（国際音素記号）：

– IPA (International Phonetic Alphabet)

(13)

IPA

異音（allophone)

有声音、無声音

(14)

母音の分類

Satoshi Nakamura @ NAIST

14

(15)

(16)

副モーラ（モーラ音素）

16

(17)

モーラ

/saN/ ：１音節、/kaQpa/：２音節

“さん”２拍、“かっぱ”3拍 ⇒モーラ（拍）

(18)

調音結合

/aoi/青いの/a/は /aida/間の/a/と調音点

が異なる。

– /aoi/ の/a/は、後続の/o/に近い奥舌音

– /aida/の/a/は、後続の/i/に近い前よりの調音

これらを「同化」(assimilation)と呼ぶ

– 鼻音化：/namae/名前 /a/が鼻音化

– 無声化：/akita/, /yakusho/ 無声子音に挟まれた

/i//u/ が無声化する

(19)

アクセント・イントネーション

高さアクセント

強さアクセント

文節要素（Segmental Phoneme)

超文節音素（Supra-segmental phoneme)

パラ言語情報（Paralinguistic information)

(20)

話し言葉

文が短い

主語などの省略が多い

短縮形を多用

ね、さ、よ、等の終助詞がつく

同じ言葉の繰り返しが多い

複雑な構文を避ける

時間的要素（忘却）が関与する

えー、あー、うーなどのいいよどみがある

言い誤り、言い直しが多い

(21)

(22)

音声器官

(23)

発声機構

音源と調音

音源

– 有声

声帯振動

– 無声

乱流

• 喉頭や声道途中の狭めによる乱流

• 舌先などの声道の閉鎖と開放による破裂性音源破裂性

• 乱流音源のうち喉頭の狭めによるもの摩擦性

(24)

声帯振動

(25)

調音機構

調音：喉頭、口腔、鼻腔：管腔全体 ⇒ 声

道

声道長

– 成人男性：１７．５ｃｍ

– 成人女性：１５．２ｃｍ

– 子供（８歳）：１２．２ｃｍ

口唇

舌

(26)

音声波

26

(27)

(28)

会話音声の振幅分布

(29)

(30)

会話音声長時間スペクトル

30

(31)

音声の長時間スペクトル

個人による有意差はない

１６０Hz以上の帯域では性別による違いはない

音声サンプルによる違いはない

唇からマイクロホンまでの距離による差（３ｃ

ｍと３５ｃｍ）は、１６０Hz以上ではそれほど

大きくない

言語によって本質的に大きな差があるとは言え

ない

(32)

音声の長時間スペクトル

(33)

母音の性質

ホルマント、ホルマント周波数、ホルマント帯

域幅

(34)

ホルマント周波数

34

(35)

(36)

子音

半母音 /j/ /w/

破裂音 /p,t,k/ /b,d,g/

36

(37)

(38)

有声破裂音

38

(39)

(40)

摩擦音

(41)

(42)

文章発話の基本周波数

42

(43)

(44)

発話速度

44

(45)

(46)

蝸牛

(47)

(48)

基底膜振動

(49)

(50)

等感曲線

(51)

(52)

同時マスキング

(53)

(54)

継時マスキング

54

(55)

(56)

音声の知覚

明瞭度と了解度

知覚単位と文脈

カテゴリー知覚

(57)

(58)

音声情報処理

音情報処理論

中村 哲、戸田智基

猿渡 洋、川波弘道

音声って何

人のコミュニケーションで意図を伝える最も重

要な手段

– 音声を圧縮する

– 音声を作る

– 音声を聞き取る

– さらに、音響信号の処理

Apple Siri

本講義の狙い

音声とは何か

音声情報を使ったヒューマンインタフェース

– 音声認識

– 音声合成

– 音声対話

– 音声翻訳

– さらに音響信号処理

これらの技術の中身はどうなっているのか？

参考書

森北出版 音声工学 板橋秀一 編著

今日は、この本を参考にします。

他に、

昭晃堂 鹿野、中村、伊勢

「音声・音情報のディジタル信号処理」

コロナ社 鹿野、武田ら 「音声認識システム」

近代科学社 古井、「新音響・音声工学」

講義の構成

第１回 10/9

音情報基礎（音声、音響情報処理の導入、基礎） ：中村

Introduction to speech and acoustic signal processing

第２回 10/16 音声の特徴抽出（ＤＦＴ，ＬＰＣ，ケプストラム分析） ：猿渡

Speech signal processing (DFT, LPC analysis)

第３回 10/23 音響信号処理基礎：猿渡

Fundamentals of acoustic signal processing

第４回 10/30 音声符号化基礎：戸田

Fundamentals of Speech Coding

第５回 11/6

音声合成理論と音声合成システム：戸田

Speech synthesis theory and system

第６回 11/13 音声認識理論と音声認識システム：川波

Speech recognition theory and system

第７回 11/20 音声対話システム理論と音声対話システム：中村

Spoken dialog system theory and system

第８回 11/27 試験

採点基準

各回に課題を出します。

• 1週間以内の提出

最終回に最終試験を行います。

音声と情報

音声

– 言語情報

– 非言語情報

– 個人性情報

音声認識、話者認識

– 音響音声信号⇒（分析） ⇒

特徴パラメータ

– 特徴パラメータ

⇒

音声認識、話者認識

音声合成

– 言語情報 ⇒ 音声合成

音声符号化、圧縮

– 音声信号 ⇒ （圧縮） ⇒ 音声信号

音声に関する研究

人間の発声器官、発声メカニズム

音の伝搬、音響工学、音響信号処理

人間の聴覚器官、聴取メカニズム

⇒ 生理学、心理学

言葉の理解、生成

⇒ 言語学

コンピュータによる実現

⇒ コンピュータサイエンス、情報工学

音声の基本的性質

音声・音節・音素

音声

– /わたしはとうきょうへいく/

音節

中村哲、戸田智基

猿渡洋、川波弘道

森北出版音声工学板橋秀一編著

昭晃堂鹿野、中村、伊勢

コロナ社鹿野、武田ら「音声認識システム」

近代科学社古井、「新音響・音声工学」

音情報基礎（音声、音響情報処理の導入、基礎）：中村

第２回 10/16 音声の特徴抽出（ＤＦＴ，ＬＰＣ，ケプストラム分析）：猿渡

/aoi/青いの/a/は /aida/間の/a/と調音点

• 舌先などの声道の閉鎖と開放による破裂性音源破裂性

• 乱流音源のうち喉頭の狭めによるもの摩擦性

調音：喉頭、口腔、鼻腔：管腔全体 ⇒ 声