• 検索結果がありません。

ページ 35‑37

N/A
N/A
Protected

Academic year: 2021

シェア "ページ 35‑37"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

実世界環境における雑音・残響の動的変化に頑健な 遠隔発話の音声認識

著者 王 龍標

雑誌名 財団ニュース

巻 12

ページ 35‑37

発行年 2011‑01‑10

出版者 浜松科学技術研究振興会

URL http://hdl.handle.net/10297/6157

(2)

35

1.はじめに

近年、実環境におけるハンズフリー音声処理/認識に関する研究が盛んに行われている。しかしなが ら、遠隔環境下で、さまざまな距離からの音声を認識することは直接音の減衰や反射音の重畳により性 能低下を招く。これらを含む性能低下の原因は実環境とトレーニング環境のミスマッチであるといえる。

このミスマッチを減少するために、入力音声の特徴量を補正する方法が用いられる。特に、伝達特性の ミスマッチを補正する簡易で効果的な解決策として、CMN(Cepstral Mean Normalization)がよく使用 されている。しかし、遠隔環境下では、残響時間は短時間分析窓より長い。一般的な発話毎CMNでは、

フレーム内の残響が除去できるが、フレーム長より長い残響は補正できない。

本研究では、遠隔発話音声認識のため、マルチチャンネルLMS(Multi-Channel  Least  Mean  Square)

アルゴリズムによるスペクトルサブトラクションに基づくブラインド残響除去法を提案する。

2.研究方法

インパルス応答の後部残響の影響は加算性雑音と見なし、スペクトルサブトラクションを使って、残 響音声とインパルス応答のパワースペクトルからクリーン音声のパワースペクトルを推定する。インパ ルス応答のパワースペクトルを推定するために、時間領域のインパルス応答を求めるためのVSS- UMCLMS(Variable  Step-Size  Unconstrained  MCLMS)アルゴリズムをスペクトル領域に拡張する。ま た、インパルス応答の推定誤差の影響を減少するために、推定したインパルス応答を用いたスペクトル サブトラクションの代わりに、CMNを使って初期残響を正規化する。

本研究のハンズフリー音声認識システムの主な流れを図1に示す。

(1)実環境での高性能な残響処理:実環境下での音の生成を定式化し、伝送路の伝達特性(残響特性)

を自動的に推定し、異なる残響特性(異なる残響時間や部屋)に対して頑健な残響除去を行う。

さらに、提案手法と雑音抑圧に有効なミッシングフィーチャ理論を効率的に融合し、補正した音 声の信頼できる成分のみから音声を回復することによって、高精度なハンズフリー音声認識の研 究を行う。

(2)定常雑音と残響の同時処理:定常雑音と伝送路の伝達特性が存在する場合、加算性雑音と乗算性 雑音(残響)の特性を考慮し、雑音抑圧手法と提案するブランド残響除去を統合し、残響や加算 性妨害雑音(定常)を同時に除去することによる音声認識の研究を行う。

(3)定常雑音と非定常雑音と残響の同時処理:各時刻で音源数の自動推定および残響音声の自動検出 によって、定常/非定常雑音と残響が同時に存在しても、提案法を厳密に定式化するように拡張

実世界環境における雑音・残響の動的変化に頑健な 遠隔発話の音声認識

静岡大学工学部システム工学科 王 龍標 [email protected]

残響環境下における音声認識 

課  題  応  用 

ロボットへの音声制御操作  カーナビの遠隔音声操作 

〔村田基金研究助成〕

(3)

36 する。定常雑音を補正した後、残響音声のみを用いて推定する補正パラメータを利用し音声を補 正すれば、非定常雑音だけを含む音声が正確に求められる。そして、実環境下での雑音・残響の 動的特性を従来よりも厳密に定式化して、非定常雑音抑圧手法と本提案手法を統合し、定常/非 定常雑音と残響のすべてをより正確に推定し、高精度なハンズフリー音声認識を行う。

3.実験結果

マルチチャンネルインパルス応答とクリーン音声を畳み込んで作成した残響音声により提案手法を評 価した。残響音声の作成には、RWCP実環境音声・音響データベースより6種類のマルチチャンネルイ ンパルス応答を使用した。円形(16個)+直線(14個)マイクロフォンアレイを使ってインパルス応答 を計測してある。今回、円形アレイあるいは直線アレイの4チャンネルのインパルス応答を利用した。

インパルス応答はマイクロフォンから2メートル離れていくつかの位置で計測されている。

図2 残響環境下における音声認識結果 図1 実環境下でのハンズフリー音声処理の流れ

(4)

37

クリーン音声では、東北大・松下単語データベースの20名の男性話者の発話を用いた。発話内容は各 話者100個の音韻バランスの孤立単語であり、各単語の平均発話時間は約0.6秒である。音声認識のため の分析条件では、フレーム長は21.3ms(256点)、フレーム周期は8ms(96点)である。116個の4状態の left-to-right音HMMを音響モデルとして使用した。

残響環境下における音声認識結果を図2に示す。ベースライン方法では、CMNのみを使用する。提案 法では、スペクトルサブトラクション法による残響補正を行ってからCMNを利用する。提案手法は従 来のCMNより約22.7%のエラー削減率が達成できた。

謝辞

本研究は、財団法人浜松科学技術研究振興会村田基金研究助成金の採択を受けて行われました。ここ に謝意を表します。

参照

関連したドキュメント

Jazz Club ジャズクラブの残響音をシミュレーション Concert Hall コンサートホールの残響音をシミュレーション.

Jazz Club ジャズクラブの残響音をシミュレーション Concert Hall コンサートホールの残響音をシミュレーション.

改修工事に当たり各室の残響時間の設定

複数の評価音声を用いて算出した PESQ の平均値を 用いるが,この PESQ の平均値を算出するのに十分

さらに、スマートフォンなどの屋内外で携帯する音声インタフェースを想定し、複数の騒

RADIUSは、オーディオ品質を最適化する強力なDSPを本体に内蔵してい

設問2のインパルス応答は12サンプル程度まで続いて

ステップ応答.