埼玉大学大学院 理工学研究科教授
島村徹也
音声分野におけるMATLABの利用と
先端研究紹介
Outline
自己紹介 MATLABと音声処理 音声強調 骨伝導 最後に 1986年慶應義塾大学理工学部電気工学科卒 高橋・浜田研究室(回路と信号処理) 1988年 同大学院修士課程修了 1991年 同博士課程修了 工学博士 同年 埼玉大学工学部助手 現在 同大学院理工学研究科教授
MATLABについて
1990年頃
IEEE ICASSP 1990でMATLABデモ
MATLABについて(続き)
制御分野でより早く
Control System Toolbox
System Identification Toolbox
これまではいったい何だったんだ?
MATLABについて(続き)
埼玉大学で(1991年)
日本では大阪大学が早かった
MATLABの利用拡大
制御
信号処理・通信
音声
・音声分野は出遅れた
・ユーザは増大している
MATLABによる音声処理サイト
「MATLABによる音声信号処理入門」Web資料早稲田大学 宮澤幸希 http://www.ite.or.jp/data/journal/passed_issues /tool1202/ MATLAB音声信号処理 http://lis2.huie.hokudai.ac.jp/~toyo/MATLAB/
音響信号全般を扱うツール
WaveSurfer(編集や可視化) Audacity (編集や可視化) Ardour (編集や可視化) HTK(隠れマルコフモデルを利用するキット) Weka(機械学習用でデータマイニングソフト) MATLAB 後藤, 緒方, “音楽・音声の音響信号の認識・理解研究の動向,” コンピュータソフトウェア, 2009専用ツールによる音声処理
「音声工房」
NTTアドバンステクノロジ株式会社
「アコースティックコア」
音声強調処理のイメージ
雑音の混入した音声から音声のみを強調して聞き取 りやすくする 多分野に応用可能 音声認識、音声符号化・特徴抽出など 音声強調処理 雑音+音声 強調音声→ 短時間(20~50ミリ秒程度)のフレームに分割 → 1フレームずつ取り出して処理する → フレームごとの結果を繋げて出力信号を構築 Time Time 入力音声(約10秒) 出力音声
フレーム処理
くし形フィルタ
・原理的に魅力的な手法 音声+雑音 有声/無声 判別 基本周期 抽出 フィルタ + × 音声 係数 無声音は減衰させて 出力する くし形フィルタで 雑音を抑圧する|
)
(
|
X
k
2|
)
(
|
1
)
(
X
k
N
k
P
音声パワースペクトル
|
)
(
|
X
k
くし形フィルタとは?
1 Frequencyスペクトル引き算法
・広く用いられている手法 雑音 窓 音声+雑音 窓 FFT FFT 位相情報 |
|
/ 1|
|
|
|
× + + ー 音声 IFFTスペクトル引き算法の原理
) ( ) ( ) (n x n w n y 時間領域: 周波数領域: 雑音信号 : 音声信号 : 雑音混入音声信号 : ) ( ) ( ) ( n w n x n y ) ( ) ( ) ( f X f W f Y |
)
(
~
|
|
)
(
|
|
)
(
~
|
X
f
Y
f
W
f
スペクトル引き算法のブロック図
) ( f Y | ) ( |Y f ※ 1つのフレーム内での処理 ) ( ~ f X | ) ( ~ |W f2
の場合 “パワースペクトル引き算” 2 2|
)
(
~
|
|
)
(
|
Y
f
W
f
0
|
)
(
~
|
X
f
2
のとき それ以外のとき 2 2 2|
)
(
~
|
|
)
(
|
|
)
(
~
|
X
f
Y
f
W
f
1
の場合: Boll(1979)が検討4
/
1
,
2
/
1
,
1
,
2
を比較検討: Lim(1978)残留雑音問題
雑音推定誤差により引き去りきれない雑音成分が残 る 不快な成分が含まれることがしばしばある ミュージカルノイズ 短時間分析フレームごとの変化が激しい 実際の雑音 推定雑音 残留雑音 孤立したピーク ↓ 不快感 (スペクトル振幅イメージ図) Freq. Power最近の動向
スペクトル引き算法の改善 スペクトル引き算法 Musical Noise たいへん聞きざわり いかにこれを抑圧するか? 非定常雑音環境対策の必要性 いかに雑音を追跡するか?
|
)
(
~
|
|
)
(
|
Y
f
W
f
のとき
|
)
(
~
|
|
)
(
|
|
)
(
~
|
X
f
Y
f
W
f
スペクトル引き算法の一般化表現
トレードオフ
小 SN比改善小、明瞭度向上(Musical Noise小)
大 SN比改善大、明瞭度低下(Musical Noise大)
大 Musical Noise低減小、スペクトル引きすぎなし
小 Musical Noise低減大、スペクトル引きすぎ
大適当なスペクトル引き算の後の事後処理が有効 スペクトログラム上で音声部分とMusical Noise部分を見分ける 音声スペクトルを保持し、Musical Noise部分を抑圧する Goh(1998) スペクトル引き算を反復的に処理する 緒方(2005)
反復スペクトル引き算
スペクトル引き算 反復 ) ( ) ( ) (n x n w n y xˆ n( )Noise Estimation Method
Noise Estimation Using Low Frequency Regions
*Human speech information mostly
exists between 50Hz and 3.5KHz
*At 0Hz~50Hz, noisy speech spectra
have only noise information
Track the variance of noise spectra
by using the low frequency regions
)
(
)
(
f
Y
f
W
kLow
kLow Yamashita(2005)Long-term Spectrum (Male
Speech)
Proposed Method
otherwise
b
f
W
f
Y
a
b
a
f
Y
f
Y
f
W
f
Y
f
X
f
D
f
Y
k k k k k k k k f Low f Low k k:
)
(
,
)
(
~
)
(
:
)
(
)
(
0
)
(
)
(
)
(
)
(
~
)
(
)
(
~
)
(
ˆ
)
(
事前雑音推定Behavior of the Proposed
Method
Parameters for Experiments
Speaker : Japanese male and female Speech Length : about 10 seconds
Sampling Rate : 10KHz (except for Yamauchi’s Method)
Band Limitation : 3.4KHz(except for Yamauchi’s Method)
Noise : 3 kinds of noise
*For Yamauchi’s Method : 30KHz sampling No band limitation
Noise Characteristics
Time -Varying White Noise Train Noise at Railroad Crossing Babble Noise各種マイクの性質
咽喉マイク使用例 骨導マイク 咽喉マイク イヤマイク 接話マイク 周波数特性 平坦 LPF的 LPF的 トランスデューサ LPF的骨伝導とは?
気導音
骨導音
(空気伝導による音)
発声経路
耳を塞いで発声しても、
音が聞こえる
骨導音声
空気を介さず声帯の振動が骨を伝わり、その振動 が直接聴覚器官に伝達される 高騒音環境における通信に利用可能 骨導音声は気導音声に比べ、自然性、了解性に欠 ける音声導出のブロック図
骨導音声 復元音声
Normal Speech and Bone-Conducted
Speech
Speech Production and Bone
Conduction Model
)
(n
d
)
(n
s
)
(z
B
)
(z
V
)
(n
e
Vocal Tract Bone ConductionTransforming Bone-Conducted Speech
into Normal Speech
)
(n
d
s
(n
)
)
(
1
z
B
V
(z
)
)
(z
H
Reconstruction Filtering
Direct design of
H(z)
is
difficult
)
(n
d
H
ˆ z
(
)
s
ˆ n
(
)
|
)
(
|
|
)
(
|
)
(
ˆ
f
D
f
S
f
H
Filter Design
Long-term spectrum of s(n) Long-term spectrum of d(n)Direct design of
H(z)
is
difficult
音声収録の手続き
20歳前後の男性2名(A,B)、女性2名(C,D) 5母音,5つの文 気導音声収録用マイク (パナソニックRP-VK25) 骨導音声収録用マイク (テムコHG-17ヘッドギア) サンプリング周波数44.1kHzで収録し、11.025kHzま でダウンサンプリングして実験に使用 量子化ビット数16bit骨導マイク
骨などを介して音声 波形信号が伝わる Body vibrationを ピックアップする特 殊マイク テムコ HG-17ヘッド ギア試聴実験概要
試聴者
20名
評価対象
無処理の骨導音声と3種類
の導出音声
評価基準
「明瞭度」
評価方法
一対比較法、「どちらが気
導音声の明瞭度に近いか」
近い方を選択
評価値
3文の選択率を平均化し、
評価
試聴実験結果
(サーストン心理尺度)
話者A -2 -1 0 1 2 話者B 話者C 話者D :骨導 :同一 :母音 :長文 明瞭度試験結果最後に
MATLABを利用した音声処理の進展