• 検索結果がありません。

音声情報処理

N/A
N/A
Protected

Academic year: 2021

シェア "音声情報処理"

Copied!
58
0
0

読み込み中.... (全文を見る)

全文

(1)

音情報処理論

中村 哲、戸田智基

猿渡 洋、川波弘道

(2)

音声って何

人のコミュニケーションで意図を伝える最も重

要な手段

– 音声を圧縮する

– 音声を作る

– 音声を聞き取る

– さらに、音響信号の処理

(3)
(4)

Apple Siri

(5)
(6)

本講義の狙い

音声とは何か

音声情報を使ったヒューマンインタフェース

– 音声認識

– 音声合成

– 音声対話

– 音声翻訳

– さらに音響信号処理

これらの技術の中身はどうなっているのか?

(7)

参考書

森北出版 音声工学 板橋秀一 編著

今日は、この本を参考にします。

他に、

昭晃堂 鹿野、中村、伊勢

「音声・音情報のディジタル信号処理」

コロナ社 鹿野、武田ら 「音声認識システム」

近代科学社 古井、「新音響・音声工学」

(8)

講義の構成

第1回 10/9

音情報基礎(音声、音響情報処理の導入、基礎) :中村

Introduction to speech and acoustic signal processing

第2回 10/16 音声の特徴抽出(DFT,LPC,ケプストラム分析) :猿渡

Speech signal processing (DFT, LPC analysis)

第3回 10/23 音響信号処理基礎:猿渡

Fundamentals of acoustic signal processing

第4回 10/30 音声符号化基礎:戸田

Fundamentals of Speech Coding

第5回 11/6

音声合成理論と音声合成システム:戸田

Speech synthesis theory and system

第6回 11/13 音声認識理論と音声認識システム:川波

Speech recognition theory and system

第7回 11/20 音声対話システム理論と音声対話システム:中村

Spoken dialog system theory and system

第8回 11/27 試験

(9)

採点基準

各回に課題を出します。

• 1週間以内の提出

最終回に最終試験を行います。

(10)

音声と情報

音声

– 言語情報

– 非言語情報

– 個人性情報

音声認識、話者認識

– 音響音声信号⇒(分析) ⇒

特徴パラメータ

– 特徴パラメータ

音声認識、話者認識

音声合成

– 言語情報 ⇒ 音声合成

音声符号化、圧縮

– 音声信号 ⇒ (圧縮) ⇒ 音声信号

(11)

音声に関する研究

人間の発声器官、発声メカニズム

音の伝搬、音響工学、音響信号処理

人間の聴覚器官、聴取メカニズム

⇒ 生理学、心理学

言葉の理解、生成

⇒ 言語学

コンピュータによる実現

⇒ コンピュータサイエンス、情報工学

(12)

音声の基本的性質

音声・音節・音素

音声

– /わたしはとうきょうへいく/

音節

– /wa/ /ta/ /shi/ /wa/ /to/ /kyo/ /e/ /i/ /ku/

音素

– 母音、半母音、子音 ⇒ 音素記号

– /w/ /a/ /t/ /a/ /sh/ /i/ /w/ /a/ /t/ /o/ /ky/…

国際音声記号(国際音素記号):

– IPA (International Phonetic Alphabet)

(13)

IPA

異音(allophone)

有声音、無声音

(14)

母音の分類

Satoshi Nakamura @ NAIST

14

(15)
(16)

副モーラ(モーラ音素)

Satoshi Nakamura @ NAIST

16

(17)

モーラ

/saN/ :1音節、/kaQpa/:2音節

“さん”2拍、“かっぱ”3拍 ⇒モーラ(拍)

(18)

調音結合

/aoi/青いの/a/は /aida/間 の/a/と調音点

が異なる。

– /aoi/ の/a/は、後続の/o/に近い奥舌音

– /aida/の/a/は、後続の/i/に近い前よりの調音

これらを「同化」(assimilation)と呼ぶ

– 鼻音化:/namae/名前 /a/が鼻音化

– 無声化:/akita/, /yakusho/ 無声子音に挟まれた

/i//u/ が無声化する

(19)

アクセント・イントネーション

高さアクセント

強さアクセント

文節要素(Segmental Phoneme)

超文節音素(Supra-segmental phoneme)

パラ言語情報(Paralinguistic information)

(20)

話し言葉

文が短い

主語などの省略が多い

短縮形を多用

ね、さ、よ、等の終助詞がつく

同じ言葉の繰り返しが多い

複雑な構文を避ける

時間的要素(忘却)が関与する

えー、あー、うーなどのいいよどみがある

言い誤り、言い直しが多い

(21)
(22)

音声器官

(23)

発声機構

音源と調音

音源

– 有声

声帯振動

– 無声

乱流

• 喉頭や声道途中の狭めによる乱流

• 舌先などの声道の閉鎖と開放による破裂性音源 破裂性

• 乱流音源のうち喉頭の狭めによるもの 摩擦性

(24)

声帯振動

(25)

調音機構

調音:喉頭、口腔、鼻腔: 管腔全体 ⇒ 声

声道長

– 成人男性:17.5cm

– 成人女性:15.2cm

– 子供(8歳):12.2cm

口唇

(26)

音声波

Satoshi Nakamura @ NAIST

26

(27)
(28)

会話音声の振幅分布

(29)
(30)

会話音声長時間スペクトル

Satoshi Nakamura @ NAIST

30

(31)

音声の長時間スペクトル

個人による有意差はない

160Hz以上の帯域では性別による違いはない

音声サンプルによる違いはない

唇からマイクロホンまでの距離による差(3c

mと35cm)は、160Hz以上ではそれほど

大きくない

言語によって本質的に大きな差があるとは言え

ない

(32)

音声の長時間スペクトル

(33)

母音の性質

ホルマント、ホルマント周波数、ホルマント帯

域幅

(34)

ホルマント周波数

Satoshi Nakamura @ NAIST

34

(35)
(36)

子音

半母音 /j/ /w/

破裂音 /p,t,k/ /b,d,g/

Satoshi Nakamura @ NAIST

36

(37)
(38)

有声破裂音

Satoshi Nakamura @ NAIST

38

(39)
(40)

摩擦音

(41)
(42)

文章発話の基本周波数

Satoshi Nakamura @ NAIST

42

(43)
(44)

発話速度

Satoshi Nakamura @ NAIST

44

(45)
(46)

蝸牛

(47)
(48)

基底膜振動

(49)
(50)

等感曲線

(51)
(52)

同時マスキング

(53)
(54)

継時マスキング

Satoshi Nakamura @ NAIST

54

(55)
(56)

音声の知覚

明瞭度と了解度

知覚単位と文脈

カテゴリー知覚

(57)
(58)

おわり

各自、よく読んでおいてください。

参照

関連したドキュメント

こらないように今から対策をとっておきた い、マンションを借りているが家主が修繕

・沢山いいたい。まず情報アクセス。医者は私の言葉がわからなくても大丈夫だが、私の言

図表の記載にあたっては、調査票の選択肢の文言を一部省略している場合がある。省略して いない選択肢は、241 ページからの「第 3

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から

 かつての広葉樹は薪炭林としての活用が主で、20〜40年の周期