音声分野におけるMATLABの利用と先端研究

(1)

埼玉大学大学院理工学研究科教授

島村徹也

音声分野におけるMATLABの利用と

先端研究紹介

(2)

Outline

 自己紹介  MATLABと音声処理  音声強調  骨伝導  最後に

(3)

 1986年慶應義塾大学理工学部電気工学科卒高橋･浜田研究室（回路と信号処理）  1988年同大学院修士課程修了  1991年同博士課程修了工学博士  同年埼玉大学工学部助手  現在同大学院理工学研究科教授

(4)

MATLABについて

 1990年頃

IEEE ICASSP 1990でMATLABデモ

(5)

MATLABについて（続き）

 制御分野でより早く

Control System Toolbox

System Identification Toolbox

これまではいったい何だったんだ？

(6)

MATLABについて（続き）

埼玉大学で(1991年)

日本では大阪大学が早かった

(7)

MATLABの利用拡大

制御

信号処理・通信

音声

・音声分野は出遅れた

・ユーザは増大している

(8)

MATLABによる音声処理サイト

 「MATLABによる音声信号処理入門」Web資料

早稲田大学宮澤幸希 http://www.ite.or.jp/data/journal/passed_issues /tool1202/  MATLAB音声信号処理 http://lis2.huie.hokudai.ac.jp/~toyo/MATLAB/

(9)

(10)

音響信号全般を扱うツール

 WaveSurfer（編集や可視化）  Audacity （編集や可視化）  Ardour （編集や可視化）  HTK(隠れマルコフモデルを利用するキット)  Weka（機械学習用でデータマイニングソフト）  MATLAB 後藤, 緒方, “音楽・音声の音響信号の認識・理解研究の動向,” コンピュータソフトウェア, 2009

(11)

専用ツールによる音声処理

 「音声工房」

NTTアドバンステクノロジ株式会社

 「アコースティックコア」

(12)

(13)

音声強調処理のイメージ

 雑音の混入した音声から音声のみを強調して聞き取りやすくする  多分野に応用可能  音声認識、音声符号化・特徴抽出など音声強調処理雑音＋音声強調音声

(14)

→ 短時間（２０～５０ミリ秒程度）のフレームに分割 → 1フレームずつ取り出して処理する → フレームごとの結果を繋げて出力信号を構築 Time Time 入力音声（約10秒）出力音声

フレーム処理

(15)

くし形フィルタ

・原理的に魅力的な手法音声＋雑音有声／無声判別基本周期抽出フィルタ＋ × 音声係数無声音は減衰させて _出力するくし形フィルタで雑音を抑圧する

(16)

|

)

(

|

X

k

2

|

)

(

|

1 )

(

X

k

N

k

P



音声パワースペクトル

(17)

|

)

(

|

X

k

くし形フィルタとは？

１ Frequency

(18)

スペクトル引き算法

・広く用いられている手法雑音窓音声＋雑音窓ＦＦＴＦＦＴ位相情報 

|



 / 1

|





|



× ＋＋ー音声 IＦＦＴ

(19)

スペクトル引き算法の原理

) ( ) ( ) (n x n w n y   時間領域：周波数領域：      雑音信号：音声信号：雑音混入音声信号： ) ( ) ( ) ( n w n x n y ) ( ) ( ) ( f X f W f Y  

|

)

(

~

|

)

(

|

)

(

~

|

X

f



Y

f



W

f

(20)

スペクトル引き算法のブロック図

) ( f Y | ) ( |Y f ※ １つのフレーム内での処理 ) ( ~ f X | ) ( ~ |W f

(21)

2 



の場合 “パワースペクトル引き算” 2 2

|

)

(

~

|

)

(

|

Y

f



W

f

0 |

)

(

~

|

X

f

2



のときそれ以外のとき 2 2 2

|

)

(

~

|

)

(

|

)

(

~

|

X

f



Y

f



W

f

1 



の場合： Boll（1979）が検討

4 /

1 ,

2 /

1 ,

2 



を比較検討： Lim(1978)

(22)

残留雑音問題

 雑音推定誤差により引き去りきれない雑音成分が残る  不快な成分が含まれることがしばしばある  ミュージカルノイズ  短時間分析フレームごとの変化が激しい実際の雑音推定雑音残留雑音孤立したピーク ↓ 不快感（スペクトル振幅イメージ図） Freq. Power

(23)

_

|

)

(

~

|

)

(

|

Y

f



W

f

のとき   

_

|

)

(

~

|

)

(

|

)

(

~

|

X

f



Y

f



W

f

スペクトル引き算法の一般化表現

トレードオフ



小 _{ＳＮ比改善小、明瞭度向上(Musical Noise小）}



大ＳＮ比改善大、明瞭度低下（Musical Noise大）



大 Musical Noise低減小、スペクトル引きすぎなし



小 Musical Noise低減大、スペクトル引きすぎ



大

(25)

適当なスペクトル引き算の後の事後処理が有効スペクトログラム上で音声部分とMusical Noise部分を見分ける音声スペクトルを保持し、Musical Noise部分を抑圧する Goh(1998) スペクトル引き算を反復的に処理する緒方(2005)

(26)

反復スペクトル引き算

スペクトル引き算反復 ) ( ) ( ) (n x n w n y   xˆ n( )

(27)

Noise Estimation Method

 Noise Estimation Using Low Frequency Regions

＊Human speech information mostly

exists between 50Hz and 3.5KHz

＊At 0Hz～50Hz, noisy speech spectra

have only noise information

Track the variance of noise spectra

by using the low frequency regions

)

(

)

(

f

Y

f

W

_kLow



_kLow Yamashita(2005)

(28)

Long-term Spectrum (Male

Speech)

(29)

Proposed Method





otherwise

b

f

W

f

Y

a

b

a

f

Y

f

Y

f

W

f

Y

f

X

f

D

f

Y

k k k k k k k k f Low f Low k k

:

)

(

,

)

(

~

)

(

:

)

(

)

(

0 )

(

)

(

)

(

)

(

~

)

(

)

(

~

)

(

ˆ

)

(













_







事前雑音推定

(30)

Behavior of the Proposed

Method

(31)

Parameters for Experiments

 Speaker : Japanese male and female  Speech Length : about 10 seconds

 Sampling Rate : 10KHz (except for Yamauchi’s Method)

 Band Limitation : 3.4KHz(except for Yamauchi’s Method)

 Noise : 3 kinds of noise

*For Yamauchi’s Method : 30KHz sampling No band limitation

(32)

Noise Characteristics

Time -Varying White Noise Train Noise at Railroad Crossing Babble Noise

(33)

(34)

(35)

各種マイクの性質

咽喉マイク使用例骨導マイク咽喉マイクイヤマイク接話マイク周波数特性平坦ＬＰＦ的ＬＰＦ的トランスデューサＬＰＦ的

(36)

骨伝導とは？

気導音

骨導音

（空気伝導による音）

(37)

発声経路

耳を塞いで発声しても、

音が聞こえる

(38)

骨導音声

 空気を介さず声帯の振動が骨を伝わり、その振動が直接聴覚器官に伝達される  高騒音環境における通信に利用可能  骨導音声は気導音声に比べ、自然性、了解性に欠ける

(39)

音声導出のブロック図

骨導音声 _復元音声

(40)

Normal Speech and Bone-Conducted

Speech

(41)

Speech Production and Bone

Conduction Model

)

(n

d

)

(n

s

)

(z

B

)

(z

V

)

(n

e

Vocal Tract Bone Conduction

(42)

Transforming Bone-Conducted Speech

into Normal Speech

)

(n

d

s

(n

)

(

1 z

B

V

(z

)

(z

H

(43)

Reconstruction Filtering

Direct design of

H(z)

is

difficult

)

(n

d

H

ˆ z

(

)

_s

ˆ n

₍

₎

(44)

|

)

(

|

)

(

|

)

(

ˆ

f

D

f

S

f

H



Filter Design

Long-term spectrum of s(n) Long-term spectrum of d(n)

Direct design of

H(z)

is

difficult

(45)

音声収録の手続き

 20歳前後の男性2名(A,B)、女性2名(C,D)  5母音,5つの文  気導音声収録用マイク (パナソニックRP-VK25)  骨導音声収録用マイク (テムコHG-17ヘッドギア)  サンプリング周波数44.1kHzで収録し、11.025kHzまでダウンサンプリングして実験に使用  量子化ビット数16bit

(46)

骨導マイク

 骨などを介して音声波形信号が伝わる  Body vibrationをピックアップする特殊マイク  テムコ HG-17ヘッドギア

(47)

(48)

試聴実験概要

試聴者

２０名

評価対象

無処理の骨導音声と３種類

の導出音声

評価基準

「明瞭度」

評価方法

一対比較法、「どちらが気

導音声の明瞭度に近いか」

近い方を選択

評価値

3文の選択率を平均化し、

評価

(49)

試聴実験結果

（サーストン心理尺度）

話者A -2 -1 0 1 2 話者B 話者C 話者D :骨導：同一：母音：長文明瞭度試験結果

(50)

(51)

最後に

 MATLABを利用した音声処理の進展