• 検索結果がありません。

MelFilterBank

ドキュメント内 HARK Document (ページ 175-179)

第 6 章 ノードリファレンス 51

6.4 FeatureExtraction カテゴリ

6.4.3 MelFilterBank

ノードの概要

入力スペクトルにメルフィルタバンク処理を行ない,各フィルタチャネルのエネルギーを出力する.入力ス ペクトルは,2種類あり,入力によって出力結果が異なる点に留意.

必要なファイル 無し.

使用方法

どんなときに使うのか

音響特徴量を求める前処理として使用する.MultiFFT,PowerCalcForMap,PreEmphasisの直後に使用す る.MFCCExtraction,MSLSExtractionの前段で使用する.

典型的な接続例

図6.59:MelFilterBankの接続例

ノードの入出力とプロパティ

表6.53:MelFilterBankのパラメータ表 パラメータ名 型 デフォルト値 単位 説明

LENGTH int 512 [pt] 分析フレーム長

SAMPLING RATE int 16000 [Hz] サンプリング周波数

CUT OFF int 8000 [Hz] ローパスフィルタのカットオフ周波数

MIN FREQUENCY int 63 [Hz] フィルタバンクの下限周波数

MAX FREQUENCY int 8000 [Hz] フィルタバンクの上限周波数

FBANK COUNT int 13 フィルタバンク数

入力

INPUT :Map<int, ObjectRef>型.音源IDとパワースペクトルVector<float>型または,複素スペクトル Vector<complex<float> >型のデータのペア.ただし,パワースペクトルを選択した場合,複素スペク トルを選択した場合と比較して出力エネルギーが2倍になる.

出力

OUTPUT : Map<int, ObjectRef>型.音源IDとフィルタバンクの出力エネルギーから構成されるベクト

ルの Vector<float> 型のデータのペア.出力ベクトルの次元数は,FBANK COUNT の2倍である.

0 から FBANK COUNT-1までに,フィルタバンクの出力エネルギーが入り,FBANK COUNTから 2

*FBANK COUNT-1までには,0が入る.0が入れられる部分は,動的特徴量用のプレースホルダーであ

る.動的特徴量が不要な場合はFeatureRemoverを用いて削除する必要がある.

パラメータ

LENGTH :int型.分析フレーム長である.入力スペクトルの周波数ビン数に等しい.値域は正の整数である.

SAMPLING RATE :int型.サンプリング周波数である.値域は正の整数である.

CUT OFF :int型.離散フーリエ変換時のアンチエーリアシングフィルタのカットオフ周波数.SAMPLING RATE の1/2以下である.

MIN FREQUENCY :int型.フィルタバンクの下限周波数.値域は正の整数でかつCUT OFF以下.

MAX FREQUENCY :int型.フィルタバンクの上限周波数.値域は正の整数でかつCUT OFF以下.

FBANK COUNT :int型.フィルタバンク数である.値域は正の整数である.

ノードの詳細

メルフィルタバンク処理を行ない,各チャネルのエネルギーを出力する.各バンクの中心周波数は,メルス ケール(1)上で等間隔に配置する.チャネル毎の中心周波数は,最小周波数ビンSAMPLING RATE/LENGTH からSAMPLING RATECUT OFF/LENGTHまでをFBANK COUNT分割し決定する.

リニアスケールとメルスケールの変換式は,

m = 1127.01048 log(1.0+ λ

700.0) (6.96)

である.ただし,リニアスケール上での表現をλ(Hz),メルスケール上での表現をmとする.図6.60に8000 Hz までの変換例を示す.赤点は,SAMPLING RATEが16000 Hz,CUT OFFが8000 Hz, かつFBANK COUNT が13の場合の,各バンクの中心周波数を表す.各バンクの中心周波数が,メルスケール上で等間隔なことを 確認できる.

図6.61にメルスケール上の各フィルタバンクの窓関数を示す.中心周波数部分で1.0となり,隣接チャネル の中心周波数部分で0.0となる三角窓である.中心周波数がチャネル毎にメルスケール上で等間隔で,対象な 形状である.これらの窓関数は,リニアスケール上では図6.62のように表現される.高域のチャネルでは,広 い帯域をカバーしている.

入力するリニアスケール上で表現されたパワースペクトルに図6.62に示す窓関数で重み付けし,各チャネル 毎にエネルギーを求め,出力する.

0 1 2 3 4 5 6 7 8 0

500 1000 1500 2000 2500 3000

Hertz scale (kHz)

Mels scale (Mel)

図6.60:リニアスケールとメルスケールの対応

0 500 1000 1500 2000 2500

0 0.2 0.4 0.6 0.8 1

mel scale (Mels)

weight

図6.61:メルスケール上での窓関数 参考文献:

(1) Stanley Smith Stevens, John Volkman, Edwin Newman: “A Scale for the Measurement of the Psychological Magnitude Pitch”, Journal of the Acoustical Society of America 8(3), pp.185–190, 1937.

0 1 2 3 4 5 6 7 8 0

0.2 0.4 0.6 0.8 1

linear scale (kHz)

weight

図6.62:リニアスケール上での窓関数

ドキュメント内 HARK Document (ページ 175-179)