音情報処理論
中村 哲、戸田智基
猿渡 洋、川波弘道
音声って何
人のコミュニケーションで意図を伝える最も重
要な手段
– 音声を圧縮する
– 音声を作る
– 音声を聞き取る
– さらに、音響信号の処理
Apple Siri
本講義の狙い
音声とは何か
音声情報を使ったヒューマンインタフェース
– 音声認識
– 音声合成
– 音声対話
– 音声翻訳
– さらに音響信号処理
これらの技術の中身はどうなっているのか?
参考書
森北出版 音声工学 板橋秀一 編著
今日は、この本を参考にします。
他に、
昭晃堂 鹿野、中村、伊勢
「音声・音情報のディジタル信号処理」
コロナ社 鹿野、武田ら 「音声認識システム」
近代科学社 古井、「新音響・音声工学」
講義の構成
第1回 10/9
音情報基礎(音声、音響情報処理の導入、基礎) :中村
Introduction to speech and acoustic signal processing
第2回 10/16 音声の特徴抽出(DFT,LPC,ケプストラム分析) :猿渡
Speech signal processing (DFT, LPC analysis)
第3回 10/23 音響信号処理基礎:猿渡
Fundamentals of acoustic signal processing
第4回 10/30 音声符号化基礎:戸田
Fundamentals of Speech Coding
第5回 11/6
音声合成理論と音声合成システム:戸田
Speech synthesis theory and system
第6回 11/13 音声認識理論と音声認識システム:川波
Speech recognition theory and system
第7回 11/20 音声対話システム理論と音声対話システム:中村
Spoken dialog system theory and system
第8回 11/27 試験
採点基準
各回に課題を出します。
• 1週間以内の提出
最終回に最終試験を行います。
音声と情報
音声
– 言語情報
– 非言語情報
– 個人性情報
音声認識、話者認識
– 音響音声信号⇒(分析) ⇒
特徴パラメータ
– 特徴パラメータ
⇒
音声認識、話者認識
音声合成
– 言語情報 ⇒ 音声合成
音声符号化、圧縮
– 音声信号 ⇒ (圧縮) ⇒ 音声信号
音声に関する研究
人間の発声器官、発声メカニズム
音の伝搬、音響工学、音響信号処理
人間の聴覚器官、聴取メカニズム
⇒ 生理学、心理学
言葉の理解、生成
⇒ 言語学
コンピュータによる実現
⇒ コンピュータサイエンス、情報工学
音声の基本的性質
音声・音節・音素
音声
– /わたしはとうきょうへいく/
音節
– /wa/ /ta/ /shi/ /wa/ /to/ /kyo/ /e/ /i/ /ku/
音素
– 母音、半母音、子音 ⇒ 音素記号
– /w/ /a/ /t/ /a/ /sh/ /i/ /w/ /a/ /t/ /o/ /ky/…
国際音声記号(国際音素記号):
– IPA (International Phonetic Alphabet)
IPA
異音(allophone)
有声音、無声音
母音の分類
Satoshi Nakamura @ NAIST
14
副モーラ(モーラ音素)
Satoshi Nakamura @ NAIST
16
モーラ
/saN/ :1音節、/kaQpa/:2音節
“さん”2拍、“かっぱ”3拍 ⇒モーラ(拍)
調音結合
/aoi/青いの/a/は /aida/間 の/a/と調音点
が異なる。
– /aoi/ の/a/は、後続の/o/に近い奥舌音
– /aida/の/a/は、後続の/i/に近い前よりの調音
これらを「同化」(assimilation)と呼ぶ
– 鼻音化:/namae/名前 /a/が鼻音化
– 無声化:/akita/, /yakusho/ 無声子音に挟まれた
/i//u/ が無声化する
アクセント・イントネーション
高さアクセント
強さアクセント
文節要素(Segmental Phoneme)
超文節音素(Supra-segmental phoneme)
パラ言語情報(Paralinguistic information)
話し言葉
文が短い
主語などの省略が多い
短縮形を多用
ね、さ、よ、等の終助詞がつく
同じ言葉の繰り返しが多い
複雑な構文を避ける
時間的要素(忘却)が関与する
えー、あー、うーなどのいいよどみがある
言い誤り、言い直しが多い
音声器官
発声機構
音源と調音
音源
– 有声
声帯振動
– 無声
乱流
• 喉頭や声道途中の狭めによる乱流
• 舌先などの声道の閉鎖と開放による破裂性音源 破裂性
• 乱流音源のうち喉頭の狭めによるもの 摩擦性
声帯振動
調音機構
調音:喉頭、口腔、鼻腔: 管腔全体 ⇒ 声
道
声道長
– 成人男性:17.5cm
– 成人女性:15.2cm
– 子供(8歳):12.2cm
口唇
舌
音声波
Satoshi Nakamura @ NAIST
26
会話音声の振幅分布
会話音声長時間スペクトル
Satoshi Nakamura @ NAIST
30
音声の長時間スペクトル
個人による有意差はない
160Hz以上の帯域では性別による違いはない
音声サンプルによる違いはない
唇からマイクロホンまでの距離による差(3c
mと35cm)は、160Hz以上ではそれほど
大きくない
言語によって本質的に大きな差があるとは言え
ない
音声の長時間スペクトル
母音の性質
ホルマント、ホルマント周波数、ホルマント帯
域幅
ホルマント周波数
Satoshi Nakamura @ NAIST
34
子音
半母音 /j/ /w/
破裂音 /p,t,k/ /b,d,g/
Satoshi Nakamura @ NAIST
36
有声破裂音
Satoshi Nakamura @ NAIST
38
摩擦音
文章発話の基本周波数
Satoshi Nakamura @ NAIST
42
発話速度
Satoshi Nakamura @ NAIST
44
蝸牛
基底膜振動
等感曲線
同時マスキング
継時マスキング
Satoshi Nakamura @ NAIST