• 検索結果がありません。

音声分野におけるMATLABの利用と先端研究

N/A
N/A
Protected

Academic year: 2021

シェア "音声分野におけるMATLABの利用と先端研究"

Copied!
51
0
0

読み込み中.... (全文を見る)

全文

(1)

埼玉大学大学院 理工学研究科教授

島村徹也

音声分野におけるMATLABの利用と

先端研究紹介

(2)

Outline

 自己紹介  MATLABと音声処理  音声強調  骨伝導  最後に

(3)

 1986年慶應義塾大学理工学部電気工学科卒 高橋・浜田研究室(回路と信号処理)  1988年 同大学院修士課程修了  1991年 同博士課程修了 工学博士  同年 埼玉大学工学部助手  現在 同大学院理工学研究科教授

(4)

MATLABについて

 1990年頃

IEEE ICASSP 1990でMATLABデモ

(5)

MATLABについて(続き)

 制御分野でより早く

Control System Toolbox

System Identification Toolbox

これまではいったい何だったんだ?

(6)

MATLABについて(続き)

埼玉大学で(1991年)

日本では大阪大学が早かった

(7)

MATLABの利用拡大

制御

信号処理・通信

音声

・音声分野は出遅れた

・ユーザは増大している

(8)

MATLABによる音声処理サイト

 「MATLABによる音声信号処理入門」Web資料

早稲田大学 宮澤幸希 http://www.ite.or.jp/data/journal/passed_issues /tool1202/  MATLAB音声信号処理 http://lis2.huie.hokudai.ac.jp/~toyo/MATLAB/

(9)
(10)

音響信号全般を扱うツール

 WaveSurfer(編集や可視化)  Audacity (編集や可視化)  Ardour (編集や可視化)  HTK(隠れマルコフモデルを利用するキット)  Weka(機械学習用でデータマイニングソフト)  MATLAB 後藤, 緒方, “音楽・音声の音響信号の認識・理解研究の動向,” コンピュータソフトウェア, 2009

(11)

専用ツールによる音声処理

 「音声工房」

NTTアドバンステクノロジ株式会社

 「アコースティックコア」

(12)
(13)

音声強調処理のイメージ

 雑音の混入した音声から音声のみを強調して聞き取 りやすくする  多分野に応用可能  音声認識、音声符号化・特徴抽出など 音声強調処理 雑音+音声 強調音声

(14)

→ 短時間(20~50ミリ秒程度)のフレームに分割 → 1フレームずつ取り出して処理する → フレームごとの結果を繋げて出力信号を構築 Time Time 入力音声(約10秒) 出力音声

フレーム処理

(15)

くし形フィルタ

・原理的に魅力的な手法 音声+雑音 有声/無声 判別 基本周期 抽出 フィルタ + × 音声 係数 無声音は減衰させて 出力する くし形フィルタで 雑音を抑圧する

(16)

|

)

(

|

X

k

2

|

)

(

|

1

)

(

X

k

N

k

P

音声パワースペクトル

(17)

|

)

(

|

X

k

くし形フィルタとは?

1 Frequency

(18)

スペクトル引き算法

・広く用いられている手法 雑音 窓 音声+雑音 窓 FFT FFT 位相情報 

|

|

 / 1

|

|

|

|

× + + ー 音声 IFFT

(19)

スペクトル引き算法の原理

) ( ) ( ) (n x n w n y   時間領域: 周波数領域:      雑音信号 : 音声信号 : 雑音混入音声信号 : ) ( ) ( ) ( n w n x n y ) ( ) ( ) ( f X f W f Y  

|

)

(

~

|

|

)

(

|

|

)

(

~

|

X

f

Y

f

W

f

(20)

スペクトル引き算法のブロック図

) ( f Y | ) ( |Y f ※ 1つのフレーム内での処理 ) ( ~ f X | ) ( ~ |W f

(21)

2

の場合 “パワースペクトル引き算” 2 2

|

)

(

~

|

|

)

(

|

Y

f

W

f

0

|

)

(

~

|

X

f

2

のとき それ以外のとき 2 2 2

|

)

(

~

|

|

)

(

|

|

)

(

~

|

X

f

Y

f

W

f

1

の場合: Boll(1979)が検討

4

/

1

,

2

/

1

,

1

,

2

を比較検討: Lim(1978)

(22)

残留雑音問題

 雑音推定誤差により引き去りきれない雑音成分が残 る  不快な成分が含まれることがしばしばある  ミュージカルノイズ  短時間分析フレームごとの変化が激しい 実際の雑音 推定雑音 残留雑音 孤立したピーク ↓ 不快感 (スペクトル振幅イメージ図) Freq. Power

(23)

最近の動向

スペクトル引き算法の改善 スペクトル引き算法 Musical Noise たいへん聞きざわり いかにこれを抑圧するか? 非定常雑音環境対策の必要性 いかに雑音を追跡するか?

(24)

 

|

)

(

~

|

|

)

(

|

Y

f

W

f

のとき   

|

)

(

~

|

|

)

(

|

|

)

(

~

|

X

f

Y

f

W

f

スペクトル引き算法の一般化表現

トレードオフ

SN比改善小、明瞭度向上(Musical Noise小)

大 SN比改善大、明瞭度低下(Musical Noise大)

大 Musical Noise低減小、スペクトル引きすぎなし

小 Musical Noise低減大、スペクトル引きすぎ

(25)

適当なスペクトル引き算の後の事後処理が有効 スペクトログラム上で音声部分とMusical Noise部分を見分ける 音声スペクトルを保持し、Musical Noise部分を抑圧する Goh(1998) スペクトル引き算を反復的に処理する 緒方(2005)

(26)

反復スペクトル引き算

スペクトル引き算 反復 ) ( ) ( ) (n x n w n y   xˆ n( )

(27)

Noise Estimation Method

 Noise Estimation Using Low Frequency Regions

*Human speech information mostly

exists between 50Hz and 3.5KHz

*At 0Hz~50Hz, noisy speech spectra

have only noise information

Track the variance of noise spectra

by using the low frequency regions

)

(

)

(

f

Y

f

W

kLow

kLow Yamashita(2005)

(28)

Long-term Spectrum (Male

Speech)

(29)

Proposed Method

otherwise

b

f

W

f

Y

a

b

a

f

Y

f

Y

f

W

f

Y

f

X

f

D

f

Y

k k k k k k k k f Low f Low k k

:

)

(

,

)

(

~

)

(

:

)

(

)

(

0

)

(

)

(

)

(

)

(

~

)

(

)

(

~

)

(

ˆ

)

(

  

  

      

    



事前雑音推定

(30)

Behavior of the Proposed

Method

(31)

Parameters for Experiments

 Speaker : Japanese male and female  Speech Length : about 10 seconds

 Sampling Rate : 10KHz (except for Yamauchi’s Method)

 Band Limitation : 3.4KHz(except for Yamauchi’s Method)

 Noise : 3 kinds of noise

*For Yamauchi’s Method : 30KHz sampling No band limitation

(32)

Noise Characteristics

Time -Varying White Noise Train Noise at Railroad Crossing Babble Noise

(33)
(34)
(35)

各種マイクの性質

咽喉マイク使用例 骨導マイク 咽喉マイク イヤマイク 接話マイク 周波数特性 平坦 LPF的 LPF的 トランスデューサ LPF的

(36)

骨伝導とは?

気導音

骨導音

(空気伝導による音)

(37)

発声経路

耳を塞いで発声しても、

音が聞こえる

(38)

骨導音声

 空気を介さず声帯の振動が骨を伝わり、その振動 が直接聴覚器官に伝達される  高騒音環境における通信に利用可能  骨導音声は気導音声に比べ、自然性、了解性に欠 ける

(39)

音声導出のブロック図

骨導音声 復元音声

(40)

Normal Speech and Bone-Conducted

Speech

(41)

Speech Production and Bone

Conduction Model

)

(n

d

)

(n

s

)

(z

B

)

(z

V

)

(n

e

Vocal Tract Bone Conduction

(42)

Transforming Bone-Conducted Speech

into Normal Speech

)

(n

d

s

(n

)

)

(

1

z

B

V

(z

)

)

(z

H

(43)

Reconstruction Filtering

Direct design of

H(z)

is

difficult

)

(n

d

H

ˆ z

(

)

s

ˆ n

(

)

(44)

|

)

(

|

|

)

(

|

)

(

ˆ

f

D

f

S

f

H

Filter Design

Long-term spectrum of s(n) Long-term spectrum of d(n)

Direct design of

H(z)

is

difficult

(45)

音声収録の手続き

 20歳前後の男性2名(A,B)、女性2名(C,D)  5母音,5つの文  気導音声収録用マイク (パナソニックRP-VK25)  骨導音声収録用マイク (テムコHG-17ヘッドギア)  サンプリング周波数44.1kHzで収録し、11.025kHzま でダウンサンプリングして実験に使用  量子化ビット数16bit

(46)

骨導マイク

 骨などを介して音声 波形信号が伝わる  Body vibrationを ピックアップする特 殊マイク  テムコ HG-17ヘッド ギア

(47)
(48)

試聴実験概要

試聴者

20名

評価対象

無処理の骨導音声と3種類

の導出音声

評価基準

「明瞭度」

評価方法

一対比較法、「どちらが気

導音声の明瞭度に近いか」

近い方を選択

評価値

3文の選択率を平均化し、

評価

(49)

試聴実験結果

(サーストン心理尺度)

話者A -2 -1 0 1 2 話者B 話者C 話者D :骨導 :同一 :母音 :長文 明瞭度試験結果

(50)
(51)

最後に

 MATLABを利用した音声処理の進展

参照

関連したドキュメント

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

学期 指導計画(学習内容) 小学校との連携 評価の観点 評価基準 主な評価方法 主な判定基準. (おおむね満足できる

廃棄物の排出量 A 社会 交通量(工事車両) B [ 評価基準 ]GR ツールにて算出 ( 一部、定性的に評価 )

地球温暖化対策報告書制度 における 再エネ利用評価

ALPS 処理⽔の海洋放出にあたっての重要なポイントは、トリチウム、 62 核 種( ALPS 除去対象核種)及び炭素 14 の放射能濃度を希釈放出前にきちんと

本稿で取り上げる関西社会経済研究所の自治 体評価では、 以上のような観点を踏まえて評価 を試みている。 関西社会経済研究所は、 年

1. 液状化評価の基本方針 2. 液状化評価対象層の抽出 3. 液状化試験位置とその代表性.

通関業者全体の「窓口相談」に対する評価については、 「①相談までの待ち時間」を除く