第 6 章 ノードリファレンス 51
6.4 FeatureExtraction カテゴリ
6.4.3 MelFilterBank
ノードの概要
入力スペクトルにメルフィルタバンク処理を行ない,各フィルタチャネルのエネルギーを出力する.入力ス ペクトルは,2種類あり,入力によって出力結果が異なる点に留意.
必要なファイル 無し.
使用方法
どんなときに使うのか
音響特徴量を求める前処理として使用する.MultiFFT,PowerCalcForMap,PreEmphasisの直後に使用す る.MFCCExtraction,MSLSExtractionの前段で使用する.
典型的な接続例
図6.59:MelFilterBankの接続例
ノードの入出力とプロパティ
表6.53:MelFilterBankのパラメータ表 パラメータ名 型 デフォルト値 単位 説明
LENGTH int 512 [pt] 分析フレーム長
SAMPLING RATE int 16000 [Hz] サンプリング周波数
CUT OFF int 8000 [Hz] ローパスフィルタのカットオフ周波数
MIN FREQUENCY int 63 [Hz] フィルタバンクの下限周波数
MAX FREQUENCY int 8000 [Hz] フィルタバンクの上限周波数
FBANK COUNT int 13 フィルタバンク数
入力
INPUT :Map<int, ObjectRef>型.音源IDとパワースペクトルVector<float>型または,複素スペクトル Vector<complex<float> >型のデータのペア.ただし,パワースペクトルを選択した場合,複素スペク トルを選択した場合と比較して出力エネルギーが2倍になる.
出力
OUTPUT : Map<int, ObjectRef>型.音源IDとフィルタバンクの出力エネルギーから構成されるベクト
ルの Vector<float> 型のデータのペア.出力ベクトルの次元数は,FBANK COUNT の2倍である.
0 から FBANK COUNT-1までに,フィルタバンクの出力エネルギーが入り,FBANK COUNTから 2
*FBANK COUNT-1までには,0が入る.0が入れられる部分は,動的特徴量用のプレースホルダーであ
る.動的特徴量が不要な場合はFeatureRemoverを用いて削除する必要がある.
パラメータ
LENGTH :int型.分析フレーム長である.入力スペクトルの周波数ビン数に等しい.値域は正の整数である.
SAMPLING RATE :int型.サンプリング周波数である.値域は正の整数である.
CUT OFF :int型.離散フーリエ変換時のアンチエーリアシングフィルタのカットオフ周波数.SAMPLING RATE の1/2以下である.
MIN FREQUENCY :int型.フィルタバンクの下限周波数.値域は正の整数でかつCUT OFF以下.
MAX FREQUENCY :int型.フィルタバンクの上限周波数.値域は正の整数でかつCUT OFF以下.
FBANK COUNT :int型.フィルタバンク数である.値域は正の整数である.
ノードの詳細
メルフィルタバンク処理を行ない,各チャネルのエネルギーを出力する.各バンクの中心周波数は,メルス ケール(1)上で等間隔に配置する.チャネル毎の中心周波数は,最小周波数ビンSAMPLING RATE/LENGTH からSAMPLING RATECUT OFF/LENGTHまでをFBANK COUNT分割し決定する.
リニアスケールとメルスケールの変換式は,
m = 1127.01048 log(1.0+ λ
700.0) (6.96)
である.ただし,リニアスケール上での表現をλ(Hz),メルスケール上での表現をmとする.図6.60に8000 Hz までの変換例を示す.赤点は,SAMPLING RATEが16000 Hz,CUT OFFが8000 Hz, かつFBANK COUNT が13の場合の,各バンクの中心周波数を表す.各バンクの中心周波数が,メルスケール上で等間隔なことを 確認できる.
図6.61にメルスケール上の各フィルタバンクの窓関数を示す.中心周波数部分で1.0となり,隣接チャネル の中心周波数部分で0.0となる三角窓である.中心周波数がチャネル毎にメルスケール上で等間隔で,対象な 形状である.これらの窓関数は,リニアスケール上では図6.62のように表現される.高域のチャネルでは,広 い帯域をカバーしている.
入力するリニアスケール上で表現されたパワースペクトルに図6.62に示す窓関数で重み付けし,各チャネル 毎にエネルギーを求め,出力する.
0 1 2 3 4 5 6 7 8 0
500 1000 1500 2000 2500 3000
Hertz scale (kHz)
Mels scale (Mel)
図6.60:リニアスケールとメルスケールの対応
0 500 1000 1500 2000 2500
0 0.2 0.4 0.6 0.8 1
mel scale (Mels)
weight
図6.61:メルスケール上での窓関数 参考文献:
(1) Stanley Smith Stevens, John Volkman, Edwin Newman: “A Scale for the Measurement of the Psychological Magnitude Pitch”, Journal of the Acoustical Society of America 8(3), pp.185–190, 1937.
0 1 2 3 4 5 6 7 8 0
0.2 0.4 0.6 0.8 1
linear scale (kHz)
weight
図6.62:リニアスケール上での窓関数