• 検索結果がありません。

残響の影響の調査

ドキュメント内 修 士 論 文 (ページ 33-44)

第 5 章 過去のフレームの影響を考慮した残響に頑健な基本周波数推定法の検討 27

5.1.1 残響の影響の調査

5 章 過去のフレームの影響を考慮した

残響とは位相遅れを与えるものと考えると,残響伝達特性の位相成分が音声に大きく影 響を与えていると考えられる.また,3.1節の複素ケプストラム分析を用いると残響伝達 特性の振幅と位相を最小位相,非最小位相成分に分けることができる.ここで,ケプスト ラム分析が,エコーのような最小位相特性を持つ単純な遅延を取り除けることから,非最 小位相特性を持つ残響の影響は,複素ケプストラム上での非最小位相成分にあることが予 想される.この予測を検証するため,シミュレーションを行った.

5.1.2 位相と振幅の影響

残響の位相と振幅のどちらが大きく影響を与えているか調べるため,次の波形を合成 し,提案法で基本周波数推定を行い,推定結果を比較した.元音声,残響音声,残響イン パルス応答は全て既知としている.

振幅を元音声,位相を残響音声のものを用いて波形を合成

振幅を残響音声,位相を元音声のものを用いて波形を合成

なお,用いた音声は女性話者1文章「コーヒーにミルクを入れますか」,残響時間は1 s とした.結果を図5.1,5.2 に示す.この結果より,位相を元音声のものを用いた場合が推 定精度が良好である.従って,残響の位相情報に大きな影響があると考えられる.

5.1.3 最小位相成分と非最小位相成分の影響

前項の結果から残響の影響は位相成分にあることが分かった.次に,この位相成分の 内,最小位相成分と非最小位相成分の影響を調べた.図5.3は,残響音声から残響インパ ルス応答の最小位相の位相成分を除去した波形から基本周波数推定を行った結果,図5.4 は残響インパルス応答の非最小位相の位相成分を除去した波形から基本周波数推定を行っ た結果である.この結果を見ると,非最小位相の位相成分を除去した信号の基本周波数推 定結果が良好であることが分かる.従って,残響の影響は非最小位相の位相成分に大きく あることが分かった.

5.2 残響の非最小位相成分除去の検討

前項までの結果から,残響の影響は非最小位相の位相成分にあることが分かった.従っ て,この成分を推定し,除去できれば残響の影響を取り除くことができ,高精度に基本周 波数推定ができると考えられる.

本論文では,ケプストラム平均除去法を適用し,この成分の除去を検討した.ケプスト ラム平均除去法とは,音声認識においてマイクロホンなどの音響系の特性を除去するため に用いられる.この処理は以下の二つの仮定をおいている.

0 0.5 1 1.5 2 2.5 0

100 200 300 400 500 600 700

time (s)

frequency (Hz)

図 5.1: 基本周波数推定結果(振幅:元音声,位相:残響音声)

1. 音響系の特性は定常

2. 音声信号のケプストラム係数を比較的長時間にわたって平均すると一定の値に近づく この二つを仮定した上で,ケプストラム上で減算を行う.この処理は音響系を対象とし ているが,残響特性も一文の発話内では定常と考えられるので,この処理が有効であると 考えられる.

いま,音声信号に残響時間1 sの残響特性 h(t) が畳み込まれているとする.残響のイ ンパルス応答長を超えるフレーム長で切り出された複素スペクトルは,

X(ω, n) = S(ω, n)H(ω) (5.1) と表される.ここで,nはフレーム番号を表す.S(ω, n)は音声信号のスペクトル,H(ω) は残響のスペクトルを表す.H(ω)はフレームによらず一定であるので,フレーム番号の

0 0.5 1 1.5 2 2.5 0

100 200 300 400 500 600 700

time (s)

frequency (Hz)

図 5.2: 基本周波数推定結果(振幅:残響音声,位相:元音声)

関数となっていない.また,切り出しに使ったフレーム長は1.5 sとしている.複素ケプ ストラム領域で表すと,

Cx(q, n) =Cs(q, n) +Ch(q) (5.2) となる.複素ケプストラム分析により非最小位相ケプストラムだけを抽出すると,

Call,x(q, n) =Call,s(q, n) +Call,h(q) (5.3) となる.この音声区間に渡る時間平均は,

1 N

N

n=1Call,x(q, n) = 1 N

N

n=1Call,s(q, n) +Call,h(q) (5.4) である.この平均値を,フレームで切り出される前の長時間の残響音声の複素ケプストラ ムから減算すると,

Cx(q) 1 N

N

n=1Call,x(q, n) = Cs(q) +Ch(q) 1 N

N

n=1Call,s(q, n)−Call,h(q) (5.5)

0 0.5 1 1.5 2 2.5 3 x 104 0

100 200 300 400 500 600

time (s)

図 5.3: 基本周波数推定結果(最小位相の位相成分除去)

= Cs(q) +Cmin,h(q) 1 N

N

n=1Call,s(q, n) (5.6)

= Cs(q) +Cmin,h(q)−Call,s(q, n) (5.7) となり,残響の非最小位相位相ケプストラムが除去されたものとなる.残響の最小位相ケ プストラムは残っているが,前節の結果からその影響は少ないと考えられる.

女性話者1文章について,上記のケプストラム平均除去法を行い,提案法にて基本周波 数推定を行った結果を図5.5に示す.この結果を見ると,ケプストラム平均除去法の効果 はあまり見られなかった.

0 0.5 1 1.5 2 2.5 x 104 0

100 200 300 400 500 600

time (s)

図 5.4: 基本周波数推定結果(非最小位相の位相成分除去)

考察

ケプストラム平均除去法の効果があまりなかった原因として,フレームごとに残響の非 最小位相位相ケプストラムが一定ではなかったことが考えられる.実際に,音声と残響イ ンパルス応答が既知である場合に,残響音声からフレームごとの残響の非最小位相ケプス トラムを抽出し,フレーム間で比較を行ってみたが一致していなかった.しかし,同様の 検証を振幅ケプストラムに対して行ってみたところ一致していた.このため,残響の振幅 ケプストラムについてはケプストラム平均により推定できているが,非最小位相ケプス トラムについては推定できていないと考えられる.この理由として,位相ケプストラムを 求める際,複素対数を一意に定めるため,位相の不連続点をなくす処理が必要になるが,

この処理が正しく機能していない可能性がある.また,別の可能性として,音声の振幅ケ プストラムの平均は元の振幅ケプストラムに比べ小さい一定値に近づくが,音声の位相ケ

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 0

100 200 300 400 500 600

time (s)

frequency (Hz)

図 5.5: 基本周波数推定結果(ケプストラム平均除去法適用)

プストラムの平均をとり,ある一定値に近づいたとしても,位相の範囲は−πからπまで なので,平均値の影響は小さくなっていないと考えられる.

この問題を解決し,残響の非最小位相成分を除去できれば,提案法の基本周波数の推定 精度を大幅に改善できる可能性がある.今後はこの問題をさらに検証し,解決する必要が ある.

6 章 結論

6.1 本稿で明らかにしたこと

音声の基本周波数は様々な音声信号処理において使われており,非常に重要な特徴であ る.そのため,多くの基本周波数推定法が提案されてきたが,残響に頑健な基本周波数推 定法は報告されておらず,また非常に困難であると考えられている.そこで本論文では,

残響音声から精度良く基本周波数を推定する手法を提案することを目的とする.残響音声 から基本周波数を精度良く推定できれば,実環境での様々な音声信号処理に応用が可能で ある.

まず,従来の基本周波数推定法が残響環境下で機能するのかを見極めるため,従来の基 本周波数推定法を概説し,その中で代表的な10個の手法について耐残響性の評価を行っ た.評価は,人工的に非最小位相特性を持つ残響インパルス応答を作成し,計算機上で 行った.その結果,従来の手法はいずれも残響の影響を大きく受け,ほとんど正しく基本 周波数を推定できていないことが分かった.

この評価結果から,ケプストラム分析が残響に対して有効な処理であることが分かっ た.そこで,複素ケプストラム分析により音源情報と声道情報を分離し,声道情報を取り 除くことで,同時に残響の影響を少なくし,残った音源情報の周期性や調波性から基本周 波数を推定する手法を提案した.従来法の評価と同様の評価を行い,従来法と比較した結 果,提案法は従来法を上回る推定精度であった.また,クリーンな状況での推定精度も高 かったことから,提案法は幅広い環境で使用できる手法であることが分かった.従って,

複素ケプストラム分析により抽出した音源情報は残響に対して頑健な特徴であることが 分かった.

提案法は従来法に比べ,残響に対して頑健であったが,大幅な改善とは至らなかったの で,さらに推定精度を上げるため,音声に大きく影響を与える残響の特徴量を調査した.

その結果,残響の非最小位相の位相成分が大きく影響を与えていることが分かった.そこ で,この残響の非最小位相成分をケプストラム平均除去法を用いて取り除くことを検討 した.しかし,非最小位相ケプストラムに対しケプストラム平均を求めることには問題が あったため,ケプストラム平均除去法では効果がなかった.この残響の非最小位相成分を うまく取り除ければ残響に対して非常に頑健な基本周波数推定ができる.

6.2 今後の課題

残響の非最小位相成分が音声から基本周波数を推定する際に大きく影響を与えている ことが分かった.そこで,この影響を取り除き,さらに残響に頑健な基本周波数推定法を 構築しなければならない.

その上で,人工的な残響インパルス応答だけではなく,実環境で収録した残響インパル ス応答を用いての評価を行い,残響環境下で正しく機能することを示す.

また,実環境とは一般的に雑音と残響の両方の影響があるので,雑音環境に対しても適 応させていく必要がある.

ドキュメント内 修 士 論 文 (ページ 33-44)

関連したドキュメント