• 検索結果がありません。

図 1: HPSS の処理の手順 HPSS では信号 s(t) をフレーム長 lk で STFT して得られる振幅スペクトログラム S 上で スペクトログラム を H, P に分離し 逆 STFT することにより 定常 狭帯域的成分 h(t) と非定常 広帯域的成分 p(t) とを分離する 調波打楽

N/A
N/A
Protected

Academic year: 2021

シェア "図 1: HPSS の処理の手順 HPSS では信号 s(t) をフレーム長 lk で STFT して得られる振幅スペクトログラム S 上で スペクトログラム を H, P に分離し 逆 STFT することにより 定常 狭帯域的成分 h(t) と非定常 広帯域的成分 p(t) とを分離する 調波打楽"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

複数スペクトログラムに基づく信号の変動スペクトル表現と

それに基づく信号の新しい分析・分離手法の検討

Multi-spectrogram-based Fluctuation Representation of Signal

and Its Application to New Signal Analysis and Separation

橘秀幸

小野順貴

嵯峨山茂樹

† 東京大学大学院情報理工学系研究科

Hideyuki TACHIBANA

Nobutaka ONO

Shigeki SAGAYAMA

†Graduate School of Information Science and Technology, The University of Tokyo.

アブストラクト 本研究では,スペクトログラム解像度 表現という新しい信号の分解表現とそれに基づく音響信 号の分析・加工手法について報告する.我々はこれまで, スペクトログラムを縦方向成分,横方向成分に分離する ことにより,信号を定常・狭帯域成分と非定常・広帯域 成分に分離する HPSS という手法を研究・開発してきた. 本手法では HPSS を複数のフレーム長での分析により得 られたスペクトログラムに対し適用することにより,任 意の信号を,定常・狭帯域成分から非定常・広帯域成分に 段階的に分離する.本手法により,時間領域,周波数領域 とも異なる新たな信号分解表現が得られ,音楽信号と音 声信号を分離するような処理が可能になることを示す. 1 はじめに 様々な時変な成分が混合する音響信号において,これ らの各成分の変動の大きさには,しばしば重要な意味が ある.このため,信号の各成分を変動の大きさごとに分 離・分析・加工する技術が重要と考えられる.本研究で は,信号を定常・狭帯域的成分と非定常・広帯域的成分と に分離する手法である調波打楽器音分離 (Harmonic and Percussive Sound Separation, HPSS) [5] を複数のフレー ム長でのスペクトログラム上で多重的に用いることによ り,音響信号を変動の大きさごとに分離する手法を提案 する. 信号の時間変動の大きさに応じた分析・分離に関しては, 特に音声認識における音声の変調の周波数の重要性が指摘 されており [1],変調スペクトル (modulation spectrum) 上での音声強調などの処理が提案されている.その例とし て,1 – 12 Hz 程度の変調成分を強調する特性をもつフィ ルタである RelAtive SpecTrAl processing (RASTA)[2] や,3 – 22 Hz 程度の変調成分を強調する特性をもつ Mel-cepstrum Modulation Spectrum (MCMS)[3] などを挙げ ることができる.また,複数のフレーム長を用いた信号 処理に関しては,様々なフレーム長(時間周波数分解能) によるスペクトログラム表現の利点と欠点を補い合うこ とにより,通常の離散フーリエ変換よりも高精度でピッチ などの情報を推定することなどが検討されており,その 一例として,音楽中のメロディのピッチ情報を複数フレー ム長の離散フーリエ変換により高精度で求めることを検 討した研究 [4] などが挙げられる. 本研究においては,信号を変動ごとに分離する手法の 新しい枠組みとして,分離性能がスペクトログラムの分 解能に依存する信号分離手法を様々な分解能のスペクト ログラム上で適用することにより,信号の変動に関する ある種のフィルタバンクを構成することを考える。この とき,定常・狭帯域成分と非定常・広帯域成分とを分離 する手法である HPSS において,定常・狭帯域性と非定 常・広帯域性は相対的なものであり,基準とする尺度に よって同じ音が定常・狭帯域とも非定常・広帯域とも見な されうることに着目し,様々な方法で分離した際の信号 を適当に組み合わせることにより,信号の時間変動の大 きさに概ね基づく分離について検討する.実際,著者ら はこれまでの研究において,HPSS を 2 段階に用いるこ とにより歌声にほぼ相当する成分を強調/抑圧する手法を 提案している [6]。 本論文では HPSS を 2 段階で適用する枠組みをさらに 拡張し,さらに多くの条件での HPSS によって信号をより 細かく分解する方法を提案する.また,これにより変動の 大きさと概ね対応するパラメータを持った分離信号が得る こと,およびそのパラメータを用いることによって,周波 数表現や時間周波数表現などとは異なる新しい信号の表 現が可能となることを示す.また,その信号表現を用いる ことにより,従来の周波数領域や時間周波数領域での処理 と同様の要領で,従来とは異なった信号の分析・分離がで きることを示す.また,実際に分析・分離した例を示す. 第25回信号処理シンポジウム 2010年11月24日∼26日(奈良)

(2)

図 1: HPSS の処理の手順.HPSS では信号 s(t) をフレーム長 lkで STFT して得られる振幅スペクトログラム S 上で,スペクトログラム を H, P に分離し,逆 STFT することにより,定常・狭帯域的成分 h(t) と非定常・広帯域的成分 p(t) とを分離する. 2 調波打楽器音分離 (HPSS) の概要 調波打楽器音分離 (HPSS) では,信号 s(t) を定常的・狭 帯域的な成分 h(t) と,非定常的・広帯域的な成分 p(t) と の和,すなわち s(t) = h(t) + p(t) (1) として表わすことを考える.HPSS では,h(t) と p(t) の 短時間フーリエ変換 (STFT) スペクトログラム表現 H = {Ht,ω}1≤t<T,1≤ω<Ω, P = {Pt,ω}1≤t<T,1≤ω<Ωの振幅の時 間方向および周波数方向への「滑らかさ」に着目し,そ れに基づいて h(t) の定常・狭帯域性と p(t) の非定常・広 帯域性を評価し,それを最適化することによって両者を 分離する. 具体的には,与えられたスペクトログラムを S とした とき,次のような目的関数 J(H, P) = T −1X t=1 Ω X ω=1 1 σ2 1 (|Ht+1,ω| − |Ht,ω|)2 + T X t=1 Ω−1X ω=1 1 σ2 2 (|Pt,ω+1| − |Pt,ω|)2 + T X t=1 Ω X ω=1 I¡|St,ω|2, |Ht,ω|2+ |Pt,ω|2 ¢ (2) を最小化することにより H, P を求める.ただし, I(y, x) = n y log y x− y + x o (3) とする.ここで,目的関数の第 1 項はスペクトログラム H の時間方向への滑らかさに関するコスト関数となって いる.同様に第 2 項はスペクトログラム P の周波数方向 への滑らかさに関するコスト関数となっている.また,第 3 項はスペクトログラム S と H + P の隔たりに関するコ スト関数であり,I-ダイバージェンスにより評価される. HPSS では,目的関数 (式 2) を EM アルゴリズムに類 似した技法により導かれる更新式を反復することにより 最小化し,スペクトログラム S を定常・狭帯域な H と非 定常・広帯域な P に分離し,これにより得られた振幅ス 図 2: n 種の異なるフレーム長により得られた n 種の異なるスペク トログラム上における HPSS の適用によって,s(t) は n 通りに分離さ れ,2n 個の成分 {hk(t), pk(t)}1≤k≤nが得られる.このうち,n − 1 個は残りの n + 1 に従属である.これら n + 1 個の信号を線形変換す ることにより {xk(t)}1≤k≤n+1が得られる.このときこれらの和は原 信号 s(t) に一致する. ペクトログラムを用いたウィーナーマスキングにより,複 素スペクトログラム H, P を以下のように推定する. Ht,ω := |Ht,ω| 2 |Ht,ω|2+ |Pt,ω|2St,ω (4) Pt,ω := |Pt,ω| 2 |Ht,ω|2+ |Pt,ω|2St,ω. (5) また,これらを逆短時間フーリエ変換することにより, h(t), p(t) を得ることができる.(図 1) 3 変動スペクトルと時間-変動表現 3.1 複数の STFT 上での HPSS に基づく信号分離 HPSS では,スペクトログラム上の隣接 bin との差分情 報を用いることにより信号を分離しているが,STFT に おいては様々なフレームの取り方が可能であり,そのそ れぞれによって HPSS の分離結果は異なったものになる. 特に重要な要素のひとつが,STFT におけるフレーム 長であり,HPSS の分離結果は STFT のフレーム長に依 存する.例えば歌声のようにピッチがあり,かつゆらぎの ある音は,十分短いフレームで観測すれば定常・狭帯域 的であるが,十分長いフレームで観測すれば非定常的で あり,また変調の効果によりスペクトログラムは広帯域 となる.すなわち,歌声信号は短いフレーム長の STFT 領域上では h(t) へ,長いフレーム長の STFT 領域上では p(t) へ,それぞれ分離されやすい [6]. 一般に,信号 s(t) に対して,異なった n 通りのフレー ム長 l1 < · · · < ln のそれぞれの STFT 領域上で HPSS を適用することにより,n 通りの異なった分離信号が得ら れ,信号の 2n 次元表現 [h1(t) p1(t) · · · hn(t) pn(t)]T (6) が得られる.

(3)

ところで HPSS では pk(t) が決まれば同時に hk(t) も決 まるから,このような 2n 次元の表現は冗長である.すな わち,{hk(t)}1≤k≤nは全て s(t) と {pk(t)}1≤k≤nから求 めることができるから,n + 1 次元の情報 p(t) := [p1(t) p2(t) · · · pn(t) s(t)]T (7) で十分である.さらに,フレーム長 lk の STFT 領域上 で P 的である成分は,それよりも長いフレーム長 lk+1の STFT 領域上でも P 的である可能性が高いと考えられる ことから,両者の P 的成分同士の差分 {pk+1(t) − pk(t)} がより本質的な情報であると考えられる.すなわち,p(t) を次のように変換することにより得られる差分情報 x(t) がより本質的であると考えられる.(図 2) x(t) =        x1(t) .. . .. . xn+1(t)        =        1 −1 . .. . .. ... −1 1        p(t). (8) なお,このとき x(t) の各成分の和は原信号 s(t) に一致す る.すなわち, s(t) = n+1 X k=1 xk(t). (9) これにより,x(t) は s(t) を分解した表現になっている. このとき x(t) の各成分 {xk(t)} は,概ね lk程度のスケー ルで変動している成分であると考えることができる.これ は,いま仮にフレーム長 lm1のスケールにおいて P 的な成 分は全て,フレーム長 lm2(> lm1) のスケールにおいても P 的であると仮定できるとすると,xm(t) = pm(t)−pm−1(t) より,xm(t) には,フレーム長 lm−1以下では P 的ではな く(すなわち H 的であり),フレーム長 lmで初めて P 的 となるような成分が抽出されていることになるためであ る.そこで以下では,x(t) の各成分の添え字変数を k で 表記し,この k を本論文では変動と呼ぶこととする.な お,k はフレーム長の対数に相当する. 3.2 信号の変動スペクトル表現と時間-変動表現 以上によって得られる x(t) のうちどの成分が強く現れ ているかを調べることにより,信号の変動に関する特徴 を調べることができると考えられる.その方法の一例と して,各成分のパワー X(k) = Z xk(τ )2 (10) が挙げられる.本論文ではこれを変動スペクトルと呼ぶ こととする.これは,通常のスペクトル表現 X(ω) = ¯ ¯ ¯ ¯ Z x(τ )e−jωτdτ ¯ ¯ ¯ ¯ 2 (11) と同様の要領で信号の分析・分離に利用することができ ると考えられる.すなわち,変動スペクトル領域上では, 通常の周波数領域上での信号処理手法と同様に,例えば バンドパスフィルタと類似した方法により,信号に含ま れる特定の変動成分のみを強調するように信号を加工す るような処理ができると考えられる. 他の例として,変動スペクトルが時間情報を失ってい るという欠点を補うために,適当な窓関数 w(t) により信 号を時間局在化した変動スペクトル表現 Xt,k= Z {xk(τ )w(t − τ )}2 (12) を考えることもできる.本論文ではこれを信号の時間-変 動表現と呼ぶこととする.これは,短時間フーリエ変換 による時間 (t)-周波数 (ω) 表現 Xt,ω= ¯ ¯ ¯ ¯ Z x(τ )wt(t − τ )e−jωτdτ ¯ ¯ ¯ ¯ 2 (13) と同様の要領で信号を扱うことができると考えられる.こ れにより,時間-周波数領域上でどの時刻にどの周波数が 強く現れているのかを分析できるのと同様に,時間-変動 領域上ではどの時刻でどの変動成分が強く現れているか を分析することができると考えられる. 4 変動スペクトルと時間-変動表現に基づく信号の分析・ 分離実験 4.1 実験条件 前節にて示した信号の変動スペクトル表現の,信号の 分析・分析に用いる領域としての妥当性や,これらの音 響特徴量としての妥当性を検証するため,実際の音響信 号に対して本手法により変動スペクトルと時間-変動表現 を求め,信号を表示・分析・分離する実験を行った. 実験には新聞記事読み上げ音声コーパス(JNAS)[7], RWC 研究用音楽データベース [8],および建築と環境の サウンドライブラリ (SMILE2004)[9] より数データを抜 粋して使用した.いずれも簡単のためサンプリング周波数 8 kHz でリサンプリングし,両チャンネルを加算してモノ ラル信号として用いた.また,いずれの信号もフレーム 長が長い場合の HPSS を行うにあたって十分な長さ(10 秒程度)になるように,元データの長さが短い場合は適 当な回数だけ繰り返すように編集した. STFT のフレーム長は lk = 64 × 2k [samples] (1 ≤ k ≤ 8), すなわち 128, · · · , 16384 [samples] (16, · · · , 2048 [ms]) とした.分散 σ2 1, σ22はいずれも (0.3)2とした.また, HPSS のスライディング分析におけるブロック数は 30 と し,後処理として連続値マスキングを施した.これらは いずれも,フレーム長を除き通常の HPSS[5] と同じ条件 である.

(4)

4.2 変動スペクトルとそれに基づく信号の分析・分離 4.2.1 音声信号の変動スペクトル 新聞記事読み上げ音声コーパス(JNAS)より抜粋した 男声,女声それぞれ 10 話者の各 1 データずつに関して変 動スペクトルを求めた結果を図 3,4 に示す. 男声,女声合わせた 20 話者のほとんどのデータにおい て,変動スペクトルは,話者に関わらず k = 3, 4 程度(す なわちフレーム長 64[ms], 128[ms] 程度)の成分に大部分 のパワーが集中していること,k = 5, 6, 7, 8 にはあまり強 く現れないことなど,概ね同様な傾向を示していること が観察できる. 4.2.2 音楽信号の変動スペクトル RWC 研究用音楽データベースよりポピュラー音楽, RWC-MDB-P-2001 No. 1 – No. 10, クラシック音楽 (管弦楽曲)RWC-MDB-C-2001 No. 1 – No.10, クラシッ ク音楽(ピアノ曲)RWC-MDB-C-2001 No. 26 – No. 35, ジャズ RWC-MDB-J-2001 No.1 – No.10 を抜粋し,各曲 冒頭 10 秒のそれぞれに関して変動スペクトルを求めた結 果を図 5 – 8 に示す. いずれのジャンルも,音声に比較すると比較的広い k にパワーが分散していることが観察できる.また,特に ピアノ曲,管弦楽曲,ジャズに関しては,いずれの曲も, k = 5, 6, 7 程度にパワーが集中する傾向にあることが観察 できる. 4.2.3 変動スペクトル上での音声と音楽の分離実験 4.2.1, 4.2.2 節で見たように,音声と音楽では変動スペ クトルの形状が異なっている.このことを利用すると,k 軸上でバンドパスフィルタに類似した処理を行うことに より,音声と音楽が分離できると考えられる.本節では, 音楽信号を音声信号を混合した信号を変動スペクトル領 域上で分離する実験を行った例を示す. 実験に用いたデータは,音声,音楽ともに建築と環境の サウンドライブラリ (SMILE2004) からの抜粋で,日本語 女性朗読音声(s13104.wav)と弦楽四重奏(s12202.wav) である.本実験では両者を 0 dB で混合して用いた.混合 信号の変動スペクトルを図 9,スペクトログラムを図 10 に示す. 混合信号の変動スペクトルにおいて,k = 3, 4 における ピークは混合信号に含まれる音声の性質に由来している と考えられる.一方,それ以外の k では,全体にパワーが 分散しながらも k = 6 を中心にパワーが集中しやすいと いう傾向が見られ,これは音楽の性質と考えられる.そ こで,ローパスフィルタに類似した次のようなフィルタ a = [1.0 1.0 1.0 0.7 0.3 0 0 0 0]T (14) 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5

k (log frame length)

P o w er [dB] 図 3: 男性 10 話者分の音声 を分析した変動スペクトル 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5

k (log frame length)

P o w er [dB] 図 4: 女性 10 話者分の音声 を分析した変動スペクトル 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5

k (log frame length)

P o w er [dB] 図 5: クラシック音楽(ピ アノ曲)10 曲,各 10 秒を分 析した際のそれぞれの変動ス ペクトル 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5

k (log frame length)

P o w er [dB] 図 6: クラシック音楽(管 弦楽曲)10 曲,各 10 秒を分 析した際のそれぞれの変動ス ペクトル 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5

k (log frame length)

P o w er [dB] 図 7: ポピュラー音楽 10 曲, 各 10 秒を分析した際のそれ ぞれの変動スペクトル 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5 2 4 6 8 −15 −10 −5 0 5

k (log of frame length)

P o w er [dB] 図 8: ジャズ 10 曲,各 10 秒を分析した際のそれぞれの 変動スペクトル 2 4 6 8 −15 −10 −5 0 5

k (log frame length)

P

o

w

er [dB]

(5)

図 10: 音声信号と音楽信号の混合信号のスペクトログラム. 図 11: 変動スペクトル領域上でのフィルタリングにより得られた ˆv(t) のスペクトログラム.信号中の音声信号の SNR は 6.03 dB. 図 12: 変動スペクトル領域上でのフィルタリングにより得られた ˆm(t) スペクトログラム.信号中の音楽信号の SNR は 6.30 dB. を考え,これを x(t) にかけることにより,音声 ˆv(t) と音 楽 ˆm(t) をある程度分離することができると考えられる. すなわち. ˆ v(t) = aTx(t), ˆm(t) = (1 − a)Tx(t) (15) これにより得られたそれぞれの信号 ˆv(t), ˆm(t) のスペクト ログラムを,それぞれ図 11, 12 に示す.推定された音声 信号 ˆv(t),音楽信号 ˆm(t) のいずれのスペクトログラムに 関しても,それぞれ音楽,音声に相当する成分の大部分が 抑圧されていることが観察できる.なお,このとき得られ た信号のそれぞれにおいて,ˆv(t) 中の音声信号の SNR は 6.0 dB, ˆm(t) 中の音楽信号の SNR は 6.3 dB であった. 4.3 時間-変動表現とそれに基づく信号分析・分離 4.3.1 音声と音楽の時間-変動表現に基づく信号分析 前節で使用したものと同じ音声,音楽信号,および両者 の混合信号に関して時間-変動表現を求めた結果を図 13, 14 に示す.日本語女性朗読音声(図 13)の時間-変動領域表現 では,変動スペクトル領域表現と同様に,概ね k = 3, 4, 5 に強い成分が現れやすいことが観察できる.一方,非定 常的・広帯域的な成分がある時刻では,実際に k = 1, 2 など小さな k に強い成分が現れていることが観察できる. 弦楽四重奏(図 14)の時間-変動領域表現では,変動スペ 図 13: 音声信号(日本語女性朗読音声)のスペクトログラムと時間-変動表現. 図 14: 音楽信号(弦楽四重奏)のスペクトログラムと時間-変動表現. クトル領域表現と同様に,概ね k = 5, 6, 7 などの成分が 強い一方,5-7 [s] 付近のように,高域にゆらぎがあるな ど非定常性が強い時刻には,より小さな k = 3, 4 にも強 い成分が現れていることが観察できる. 4.3.2 音声と音楽の混合信号の時間-変動表現に基づく 信号分離 両者の混合信号の時間-変動表現を図 15 に示す.ここ で,図 15 から適当な成分のみを取り出すことにより,信 号を分離することができると考えられる.今,適当な方 法により図 16 のようなマスクが得られたとする.(なお本 論文では,混合前の信号の時間-変動表現が既知のものと して,それを利用することによりマスクを設計した.)こ のマスクを用いて時間-変動表現上でマスキングを行った 結果を図 17 に,さらにこの時間-変動表現に基づいて再合 成された信号のスペクトログラムを図 18 に示す.図 17, 18 を観察すると,信号が効果的に分離されていることが 確認できる.なお,推定された音声信号中の真の音声信 号の SNR は 5.8 dB 推定された音楽信号中の真の音楽信 号の SNR は 5.9 dB であった. 5 まとめ・今後の展望 本稿では,フレーム長の異なる複数の STFT 上で,定 常的・狭帯域的成分と非定常的・広帯域的成分とを分離す る手法 HPSS を並列的に適用することにより,信号を概 ね変動の大きさに対応して分離する,新しい信号の分離 手法「変動スペクトル」を提案した.また,ここで得られ る分解信号を用いることで,周波数表現と同様の要領で

(6)

図 15: 音声と音楽の混合信号のスペクトログラムと時間-変動表現. 図 16: 適当な方法により設計した時間-変動マスク. 図 17: 時間-変動領域上でのマスキングにより得られた新しい時間-変 動表現. 図 18: 時間-変動領域上でのマスキングにより得られた新しい時間-変 動表現を用いて合成された信号のスペクトログラム 信号を扱うことができる,新しい信号表現が得られるこ とを示した.また,この信号表現を用いることにより音 声信号と音楽信号を分析・分離した例を示した. 本論文では x(t) の全帯域に関するパワーを用いること で信号の変動軸表現を得たが,これは帯域ごとに分けて考 えることも可能である.時間,周波数,および変動の 3 変 数をパラメータとして持つ信号表現を用いた信号処理は 今後の研究課題となる.また,本論文で考えた時間周波数 マスキング以外にも様々なスペクトログラム領域上での 信号処理手法があり,これらを時間-変動領域上での処理 に応用することが今後の研究課題である.また,x(t) の 各成分を特徴量として利用し,音声認識や音楽情報検索な どの認識問題へ応用することも,今後の研究課題である. 謝辞 本研究の一部は日本学術振興会科研費特別研究員 奨励費 (22-6961) の助成を受けて行われた. 参考文献

[1] N. Kanedera, T. Arai, H. Hermansky, and M. Pavel, “On the Relative Importance of Various Components of the Modulation Spectrum for Automatic Speech Recognition,” Speech Communication 28, pp. 43–55, 1999.

[2] H. Hermansky, and N. Morgan, “RASTA Processing of Speech,” IEEE Trans. on Speech & Audio

Process-ing, Vol. 2, No. 4, pp. 578–589, 1994.

[3] V. Tyagi, I. McCowan, H. Misra, and H. Bourlard, “Mel-cepstrum Modulation Spectrum (MCMS) Fea-tures for Robust ASR,” Proceedings of IEEE ASRU, pp.399-404, 2003.

[4] K. Dressler, “Sinusoidal Extraction Using an Effi-cient Implementation of a Multi-Resolution FFT,”

Proceedings of DAFx, pp.247–252, 2006.

[5] N. Ono, K. Miyamoto, H. Kameoka, J. Le Roux, Y. Uchiyama, E.Tsunoo, T. Nishimoto, and S. Sagayama, “Harmonic and Percussive Sound Sepa-ration and its Application to MIR-related Tasks,”

Advances in Music Information Retrieval, ser. Stud-ies in Computational Intelligence, Z. W. Ras and A. Wieczorkowska, Eds. Springer, 274, pp.213-236,

Feb., 2010.

[6] H. Tachibana, T. Ono, N. Ono, S. Sagayama, “Melody Line Estimation in Homophonic Music Au-dio Signals Based on Temporal-Variability of Melodic Source,” Proceedings of ICASSP 2010, pp.425-428, Mar., 2010.

[7] 日本音響学会編 新聞記事読み上げ音声コーパス (JNAS)

[8] M. Goto, “Development of the RWC Music

Database,” Proceedings of ICA2004, pp.I-553-556, Apr., 2004.

[9] 日本建築学会編 建築と環境のサウンドライブラリ (SMILE2004)

図 1: HPSS の処理の手順.HPSS では信号 s(t) をフレーム長 l k で STFT して得られる振幅スペクトログラム S 上で,スペクトログラム を H, P に分離し,逆 STFT することにより,定常・狭帯域的成分 h(t) と非定常・広帯域的成分 p(t) とを分離する. 2 調波打楽器音分離 (HPSS) の概要 調波打楽器音分離 (HPSS) では,信号 s(t) を定常的・狭 帯域的な成分 h(t) と,非定常的・広帯域的な成分 p(t) と の和,すなわち s(t) = h(t
図 9: 混合信号の変動スペクトル
図 10: 音声信号と音楽信号の混合信号のスペクトログラム. 図 11: 変動スペクトル領域上でのフィルタリングにより得られた ˆ v(t) のスペクトログラム.信号中の音声信号の SNR は 6.03 dB
図 15: 音声と音楽の混合信号のスペクトログラムと時間-変動表現. 図 16: 適当な方法により設計した時間-変動マスク. 図 17: 時間-変動領域上でのマスキングにより得られた新しい時間-変 動表現. 図 18: 時間-変動領域上でのマスキングにより得られた新しい時間-変 動表現を用いて合成された信号のスペクトログラム 信号を扱うことができる,新しい信号表現が得られるこ とを示した.また,この信号表現を用いることにより音 声信号と音楽信号を分析・分離した例を示した. 本論文では x(t) の全帯域に関

参照

関連したドキュメント

うのも、それは現物を直接に示すことによってしか説明できないタイプの概念である上に、その現物というのが、

を塗っている。大粒の顔料の成分を SEM-EDS で調 査した結果、水銀 (Hg) と硫黄 (S) を検出したこと からみて水銀朱 (HgS)

非自明な和として分解できない結び目を 素な結び目 と いう... 定理 (

これらの定義でも分かるように, Impairment に関しては解剖学的または生理学的な異常 としてほぼ続一されているが, disability と

ある周波数帯域を時間軸方向で複数に分割し,各時分割された周波数帯域をタイムスロット

横断歩行者の信号無視者数を減少することを目的 とした信号制御方式の検討を行った。信号制御方式

の変化は空間的に滑らかである」という仮定に基づいて おり,任意の画素と隣接する画素のフローの差分が小さ くなるまで推定を何回も繰り返す必要がある

 処分の違法を主張したとしても、処分の効力あるいは法効果を争うことに