参考文献
3. 音声からの声道長推定
3.1 フィルタバンクと周波数領域の選択
た表現を寸法形状イメージ
(SSI)
と呼ぶ(
図2
の3
ブロック目).
この表現上では,
声道長伸 縮(スケール変化)の効果は,
伸縮の無い同一パターンの上下移動として単純化されて表 現されることになる.
これがスケール共変表現である.
ここで
,
低い周波数側では, SAI
において聴覚図(AF)
が基本周期ごとに重なることに 注意が必要である. SSI
を取るときにこの重なり部分が切り捨てられるため,
図2
の3
ブ ロック目に示した, Boundary(
境界線)
の下側に活性度が無い空白部分ができる.
左端のス トローブしたピッチパルス時点から離れるに従い,
有効なパターンの下限周波数が高くな る.
この空白部分は,
本来音源がインパルスであれば表すことのできた声道特性が,
基本周 期(
=1
/F
0)
の影響により表現できない所である.
これは,
声道の音響管を短い周期の声帯振 動によって駆動する音声生成過程の避けがたい特徴である.
声道長を安定に推定するため には,
音響管の共振特性と駆動源の励振特性をスペクトル情報から上手に切り分ける必要 がある.
2.2.4 スケール不変特徴
最終段は
, SSI
の縦方向にフーリエ変換をし絶対値を取って寸法を正規化した,
メリン イメージ(MI)
である(
図2
の最終ブロック).
対数軸に対するフーリエ変換はメリン変換 に相当する.
この時,
寸法情報は位相項として得られる.
この処理は,
大脳の一次聴覚野 で表現されている周波数軸に順序よく並んだトノトピー表現空間から,
周波数成分を取り 除き,
さらに内部の処理に進む段階となる.
この意味で,
このメリンイメージは, Shamma
の提案する大脳皮質の受容野(Receptive Field, RF) [22, 23]
の一部を表現していると位 置づけられる.
逆に言えば, RF
の中にはMellin
変換として定式化できるものがあるもの と考えられる.
る零が存在する場合もある
.
この2つの領域に挟まれた間に,
声道長情報が最も良く表わ れる領域があるはずである.
そこで周波数帯域の選択によって,
推定誤差がどのように変 化するかを調べ,
誤差最小となる条件を設定する必要がある.
3.2 推定実験
実験の詳細は別報告
[3, 24–26]
に譲るが,
以下で概要を述べる.
3.2.1 2話者間の声道長比の推定
2
人の話者i
,j
を設定する.
一般に声道長が異なるためスペクトル分布が異なる.
そこで,
片一方のスペクトルS
j をスケール伸縮のr
倍をし,
もう片一方の話者のスペクトルS
i と 最もマッチングする所を探すことを考える.
そこで, 2
つのスペクトルの距離が最小となる スケール伸縮比率r
i,j を,
その2
人の話者i
,j
の組み合わせにおける声道長比の推定値と する.
3.2.2 全声道長比の推定
男女計
28
名の話者間の声道長の比を総当たり(
28P
27 =756
通り)
で推定する.
そこで は以下の11
種類のフィルタバンクを,
計56
種類の周波数帯域について, 3
文章を用いて 行った.
スケール伸縮比率r
i,j を求めるアルゴリズムは,
最小化したいスペクトル距離をD
spec(i
,j
,r)
として,
以下のように表される.
for
N
f ilterbank =1
→11 (for all filtebanks)
do forN
sentence =1
→3 (for all sentences)
dofor
N
Fregion =1
→56 (for all combinations of frequency region)
do fori
=1
→28 (for all speakers)
dofor
j
=1
→28
,i
,j (for all speakers except for the same)
dor
i,j(N
f ilterbank,N
sentence,N
Fregion)
=arg min
r
(D
spec(i
,j
,r))
end forend for end for end for end for
声道長比推定を全
140
万回(
=11
×3
×28
×27
×56)
行う比較的大規模な実験である.
こ の各々の要素について以下で述べる.
3.2.3 回帰分析
各フィルタバンク・文・周波数領域について
,
声道長比r
i,jが求まった時点で, Appendix B
に示した手法で回帰分析を行う[3, 24–26].
回帰分析の結果求まった声道長比r ˆ
i,j と,
元の8
r
i,j の差のrms
値を推定誤差とした.
これは, 1
人の話者が1
つの声道長の真値を持ってい るとし,
選んだ2
話者の比を取った値に対して,
どの程度ずれるかを測っていることにな る.
どの話者の組み合わせや,
どの発話内容であったとしても,
ばらつきが小さければ安定 な推定と言うことができる.
理想的には声道長の真値がわかれば良いが
,
実際には,
たとえMRI
装置を用いた声道断 面測定を行っても明確に特定できない.
また,
実際の声道長と音声スペクトルとの関係は,
第1次近似としてはスケール関係(比例関係)
が成立するが,
まだ詳細には解明されていな い.
さらに,
ここではスペクトルマッチングだけが目的のため,
単純なスケール関係を考え ている(Appendix B
参照).
3.2.4 比較対象のフィルタバンク
「聴覚的」フィルタバンクは様々提案されているが
,
フィルタバンクの種類によりスペク トル表現が異なるため,
性能が異なるはずである.
ここでは,
ガンマチャープフィルタバンク
(GCFB),
広く用いられているガンマトーンフィルタバンク(GTFB),
音声認識で最も用いられているメル周波数フィルタバンク
(MFFB)
を比較対象として,
以下の11
条件を設定した
. STRAIGHT
以外は, 25ms
のhamming
窓でパワーを平均化したスペクトログラムを用いた
.
•
GCFB
dyn: 動的圧縮型ガンマチャープフィルタバンク[14]
(非線形の時変フィル タ).
周波数範囲[100, 6000]
で100ch
とした.
•
GCFB
lin:固定係数の線形の圧縮型ガンマチャープフィルタバンク.
•
GTFB
100:現在標準的に良く用いられる,
ガンマトーンフィルタバンク[10] .
•
GTFB
050:帯域幅を0.5
倍したGTFB.
•
GTFB
025:帯域幅を0.25
倍したGTFB.
•
MFFB
STR24:メル周波数フィルタバンク.
周波数特性は図3
下図に示した[27].
ここでは
, HTK
形式に準拠し, [0,8000]
で24ch
とした. STRAIGHT
スペクトルを 基にして構成.
•
MFFB
STR40:同上. 40ch.
•
MFFB
STR120:同上. 120ch.
•
MFFB
STFT24:短時間フーリエ変換(STFT)
を用いた標準的なMFFB.
それ以外はMFFB
STR24と同条件.
•
MFFB
STFT40:同上. 40ch.
•
MFFB
STFT120:同上. 120ch.
MFFB
∗ は,
短時間フーリエ変換やSTRAIGHT
で時間-
周波数表現にした上での重み関 数である.
その意味ではインパルス応答は定義されていない.
図3
下図に示すように,
帯域 ごとの重なり部分を加算するとちょうどピークに対して1
の割合となるように定義されて いるので,
形式上コンプリートフィルタバンクの形である.
これに対し, GCFB
∗(
図3
上図)
9
や
GTFB
∗ はフィルタどうしの重なりが大きくオーバーコンプリートフィルタバンクの形 式になっている.
また, GCFB
lin は, GTFB
100 の約1.5
倍の帯域幅を持つフィルタから構成 されているため,
オーバーコンプリートネスもさらに高い.
3.2.5 推定のための周波数領域と評価用音声
聴覚図
(AF)
の知見から,
声道長の推定に用いる周波数領域を制限した方が良い可能性 がある.
そこでここでは,
様々な周波数領域を検討するため,
下限周波数100
〜800Hz
で100Hz
刻み,
上限周波数2000
〜8000Hz
で1000Hz
刻みで設定した.
これらの組み合わせ は8
×7(
=56
通り)
のメッシュ状で,
各点ごとに推定誤差を計算した.
また
,
音声サンプルによって,
推定される声道長が異なる可能性もある.
そこで,
推定の 安定性を評価するために,
長さの異なる3
文章(各々10, 14, 20
音節で構成)の発話を用 いた.
話者男女各14
名が同一の文章を発話した音声サンプル間で声道長比を計算する.
0.7 0.8 0.9 1 1.1 1.2 1.3 1.4
0.7 0.8 0.9 1 1.1 1.2 1.3 1.4
VTL ratio from regression analysis
VTL ratio based on spectral distance
MFFB_STR40 dcGCFB
Fig. 5. Relationship between VTL ratios r and ˆr estimated using GCFBdyn (+) and MFFBSTR40(◦) with best frequency regions.
3.3 実験結果
図
5
に, GCFB
dyn(dcGCFB) (
+)
とMFFB
STR40(
◦)
で推定した声道長比を示す.
横軸は,
回帰分析の結果の声道長比(ˆ r),
縦軸は,
元のスペクトル距離から求めた声道長比(r)
であ る.
また,
それぞれ最も良く推定された周波数領域を選んでいる.
この図から, GCFB
dynの 方が推定値のばらつきが小さいことがわかる.
その分安定に推定できていると考えられる.
図
6
に,
フィルタバンクの種類ごとに最良周波数帯域を選択した場合の誤差を棒グラフ10
0 0.01 0.02 0.03 0.04 0.05 0.06
Filterbank
Error (standard deviation) GCFBdyn GCFBlin GTFB100 GTFB050 GTFB025 MFFBSTR24 MFFBSTR40 MFFBSTR120 MFFBSTFT24 MFFBSTFT40 MFFBSTFT120
Fig. 6. Standard deviation for the filterbanks. Bar shows the minimum error when the frequency range is properly selected. + shows the error when the frequency region is [500,5000].
で示す
.
周波数領域は,
フィルタバンクごとに異なる.
この図から以下のことがわかる.
•
GCFB
dynの場合最小誤差で,
線形のGCFB
linよりも良い.
•
GTFB
100は, GCFB
lin と同程度である.
•
GTFB
∗の帯域幅が狭まるにつれ,
誤差は大きくなる.
•
MFFB
STR24〜MFFB
STFT40は同程度の誤差で, GTFB
100とGTFB
050の中間的な値となる
.
•
MFFB
STFT120は, F
0 非依存のSTRAIGHT
スペクトルを基にしたMFFB
STR120より格段に誤差が大きい
.
表
1
に最小誤差を与える周波数領域を示す.
• どの場合でも周波数領域の下限周波数は
500Hz
以上で,
それ以下とはならない.
•
GCFB
dyn, GTFB
∗ は,
上限周波数が5000Hz
で比較的広い領域となっている.
•
MFFB
∗は,
周波数領域の上限周波数が, 2000Hz
〜3000Hz
で比較的狭い.
一方
,
音声のホルマント情報は, 2000Hz
以上にも存在する(たとえば,
母音/i
/や/e
/の第2
ホルマント).
この情報を用いる方が,
どのような音環境でも声道長を安定に推定できる11
Table 1. Frequency region for minimum error
FB Freq.Region Error FB Freq.Region Error
GCFB
dyn[700,5000] 0.013 GCFB
lin[500,3000] 0.015 GTFB
100[600,5000] 0.017 GTFB
050[800,5000] 0.028 GTFB
025[800,5000] 0.033
MFFB
STR24[500,2000] 0.020 MFFB
STFT24[600,2000] 0.020
MFFB
STR40[600,2000] 0.020 MFFB
STFT40[800,3000] 0.026
MFFB
STR120[600,2000] 0.023 MFFB
STFT120[800,3000] 0.045
と
,
一般的には考えられる.
図
6
の+マークに,
周波数領域を[500,5000]
とした場合の誤差を示す.
•
GCFB
∗GTFB
∗では,
最小を与える領域とほぼ同じで,
誤差も最小値に近い.
•