帯域制限したMPEGオーディオに対する再符号化・再々符号化が符号化データと再生音声に与える影響の考察
6
0
0
全文
(2) Vol.2010-AVM-68 No.6 2010/3/5. 情報処理学会研究報告 IPSJ SIG Technical Report. が計算される.各サブバンドの音声信号からマスキングレベルを差し引いた差分信号に対 して,適応的なビット割り当てによる量子化および符号化が行われた後,アンシラリデータ. (利用者が任意に定義できるデータ) を合成してフレーム (AAU:オーディオ・アクセス・ユ. B. all rate. C p−. ニット) を構成する.本稿では,この動的ビット割り当てに注目して検討を進める.. (i). 3. 動的ビット割り当て処理 Bit Allocation. MPEG-1 オーディオレイヤー II の符号化器では,信号対マスク比 (SMR) の値に従い, 各サブバンドに対して信号対雑音比 (SNR) と SMR の差であるマスク対雑音比 (MNR) の 値が小さいサブバンドから順に,動的にビットが割り当てられていく.以下に,そのアルゴ リズムを示す.. Step1 :式 (1) を用いて,1AAU に割り当て可能な総ビット数 (size) を算出する.. P C rate (= C p − ). P Brate. P (ii). sub-band. PP all Crate (= Crate = C p− + C p+ ). PP Brate P (iii). • 動的ビット割り当てアルゴリズム 1152 × bitrate size = samplingf requency. P. C p+. Bit Allocation. Bit Allocation. だけ高品質な音声を再現するために,心理聴覚特性に基づく量子化誤差のマスキングレベル. Bit Allocation. all Crate = C p− + C p+. 領域から 32 個のサブバンドからなる周波数領域に写像される.限られたデータ量でできる. PPP Crate (= C p − ). PPP Brate. P (iv). sub-band. sub-band. sub-band. 図 1 帯域制限から再符号化,再々符号化への概念 Fig. 1 Concept from band-limitation to Re-encoding and Re-reencoding. (1). ただし,bitrate は符号化レート [kbps],samplingf requnecy はサンプリング周波. 4. 再符号化・再々符号化の方法. 数 [kHz] を示す.. 本稿では,上記の動的ビット割り当て処理の一部に必要な修正 (後述の 5,6 を参照) を加. Step2 :1AAU の size から,符号を構成する Header(符号化レート,サンプリング周波数, チャンネル数を定義),CRC(エラーチェック),BitAllocation(サブバンド毎のサンプ. えて,再符号化,再々符号化を行う.その一連の処理の概念とブロック図による流れを,そ. ル値の符号長を定義),Ancillary(アンシラリデータ) のビット数を減算する.. れぞれ図 1 および図 2 に示す. all Step1 :オリジナル音声を符号化して,圧縮符号 Brate を生成する (図 1(i)).ただし,rate. Step3 :最小 MNR を示すサブバンドを探索する. Step4 :当該サブバンドの量子化ステップを 1 段階上の値に変更する.. は符号化レート,all はすべてのサブバンドを利用していることを示す.また,図中. Step5 :新しい量子化ステップに対応する SNR を選択し,新たな MNR を算出する.. の C は符号量を表す. all Step2 :Brate のサイド情報とサンプル値を復号し,指定したあるサブバンド番号 (遮断周波. Step6 :現在の割り当て可能ビット数から,現在の量子化ステップに対応するビット数を減算. 数 P ) 以降の割り当てビット数を 0 に書き換え,再びサイド情報とサンプル値を符号. し,新たな割り当て可能ビット数を算出する.. P 化して,帯域制限した圧縮符号 Brate を生成する (図 1(ii)).このとき,遮断周波数. Step7 :最小 MNR に対応するサブバンドの量子化ステップが 0 の場合は,SCFSI(Scale Fac-. P よりも低域に割り当てられている符号量 Cp− を記録しておく.. tor の伝送方法を指定) と Scale Factor(サブバンド毎の 12 サンプルの最大振幅を示. P Step3 :Brate を復号し,PCM 信号 GP rate を再生する.. す) のビット数を減算する.. Step8 :割り当て可能ビットが正の最小値ならば,現在の AAU に対する処理を終了.そうで なければ Step3 へ.. 2. c 2010 Information Processing Society of Japan ⃝.
(3) Vol.2010-AVM-68 No.6 2010/3/5. 情報処理学会研究報告 IPSJ SIG Technical Report. G. Original audio. all Brate. Header. Bit Allocation. P Brate. Header. Bit Allocation. Scale Factor. SCFSI. all Crate. Sample. Encoding. all Compressed audio Brate. Band limitation. B. P rate. Decoding. Band-passed compressed audio. P Band-passed audio Grate. Encoding Saving narrowed sub-band number P '. PP Brate. Decoding. Saving total bits for low sub-bands C p −. Re-encoded compressed audio. SCFSI. Scale Factor. Sample. PP Brate. Header. Bit Allocation. SCFSI. Scale Factor. Sample. PPP Brate. Header. Bit Allocation. SCFSI. Scale Factor. Sample. C p−. Scale Up all Crate. C p−. Scale Down. 図 3 圧縮符号と符号量の変化 Fig. 3 Transition of compressed audio and total amount of codes. PP Re-encoded audio Grate. P PPP Step7 :GP rate を低域成分の符号量 Cp− で符号化し,再々符号化した圧縮符号 Brate を生成. Encoding. PPP Re-reencoded Brate compressed audio. する (図 1(iv)). PP PPP Step8 :Brate を復号し,PCM 信号 GP rate を再生する.. Decoding. ここで,上記の一連の処理における符号化した圧縮符号と符号量の変化を図 3 に示す.帯 P 域制限した圧縮音声 Brate に含まれる SCFSI, Scale Factor の値は,その後の再符号化およ. PPP Re-reencoded audio Grate. all び再々符号化においてもそのまま利用するが,符号量が Cp− から Crate に拡大され⋆1 ,再. 図 2 帯域制限から再符号化,再々符号化に至る処理の流れ Fig. 2 Flow of series of processing from Band-limitation to Re-encoding and Re-reencoding. び Cp− に縮小されることに注意する.. 5. 最大ビット割り当ての制限. all ⋆1 PP Step4 :GP rate を帯域制限前の全体の符号量 Crate で符号化 し,冗長な圧縮符号 Brate を生. 通常の符号化器を用いて高ビットレート (320, 384[kbps]) で符号化すると,第 11 サブバ. 成する (図 1(iii)).このとき,動的ビット割り当てはサブバンド番号 0 ∼ P − 1 の範. ンド以降に最大ビット数 (符号量 16 ビット) が割り当てられる頻度が増加する.この場合,. 囲で行うが,後述の方法 (6 を参照) を用いて P ′ (< P ) の範囲に収める.この P ′ の. 本来ならば符号長が 5 ビットで済むところを,限られた全体の割り当てビット数から 11 ビッ. 値も記録する.. トも余分に消費してしまい,資源を有効に活用できない恐れがある.そこで,最大割り当て. Step5 :再符号化した圧縮符号. PP Brate. を復号し,PCM 信号. P GP rate. ビット数の出現を制限し,この分の割り当てビットを他の成分に割り振るようにする9) .本. を再生する.. ′. all PP 稿では,この方法を用いて圧縮符号 Brate ,再符号化した圧縮符号 Brate および再々符号化. Step6 :記録しておいた P と Cp− を取り出す.. PPP PP した圧縮符号 Brate を生成する.帯域制限した再生音声 GP rate を再符号化して Brate を生. 成する際に,この方法で最大ビット割り当てに制限を加えた場合の例を図 4 に示す.符号. PP all ⋆1 Brate のサンプル値の符号量は,Brate のそれよりも高域成分の SCFSI および Scale Factor 値がない分, 若干ビット数が多くなる.(後述の図 3 参照). 長に上限値を設定したことにより,特定のサブバンドに過剰にビットが割り当てられること. 3. c 2010 Information Processing Society of Japan ⃝.
(4) Vol.2010-AVM-68 No.6 2010/3/5. 情報処理学会研究報告 IPSJ SIG Technical Report. P sub-band. 0. PP Brate. Bit Length sub-band. P. 0 P'. sub-band. P. (a) 高域成分の符号量 Cp+ が少ない場合. P sub-band. Bit Length. PP Brate. Equalized bit allocation. Bit Length. Maximum bit allocation. Bit Length. PP Crate. Bit Length. Bit Length. PP Crate. 図 4 最大割り当てビット数の出現を制限した動的ビット割り当て9) の効果 Fig. 4 Effects of the modified dynamic bit allocation9) limiting the maximum bit allocation. 0. がなくなり,指定したサブバンド内に均等にビットが割り当てられていることがわかる.. P sub-band. 0. P P' sub-band. (b) 高域成分の符号量 Cp+ が多い場合. 6. 割り当てビット拡大サブバンドの縮小. 図 5 修正動的ビット割り当て処理による追加ビット割り当てサブバンドの縮小 Fig. 5 Reduction of sub-bands to allocate extra bits by modified dynamic bit allocation. all PP 帯域制限後の再生音声 GP rate を元の圧縮符号全体の符号量 Crate で再符号化して Brate. を生成するとき,図 5 に示すように低域側の割り当てビットを増加させるサブバンド数. all 分の符号量 Cp− (Cp+ = Crate − Cp− で容易に求まる) とそれに対する P ′ の値をテーブル. P ′ (< P ) を縮小する.遮断周波数 P 以降に存在する高域成分の符号量 Cp+ を 0 ∼ P ′ − 1. に保存する.また,再符号化および再々符号化の動的ビット割り当てでは,表 2 に示すよ. サブバンドに完全に格納できるようにするため,第 0 サブバンドから順番に各サブバンド. うに,0 ∼ P ′ − 1 サブバンドまでは符号長に制限を設けず,P ′ ∼ P − 1 サブバンドではそ. の最大割り当てビット数から実際の割り当てビット数を減算した未使用のビット数を加算し. P PP れぞれ Brate および Brate の符号長を用いるように修正する.. てゆき,これが Cp+ 以上になるサブバンド番号を P ′ として決定する。従って,図 5(a) の. 7. 実験結果と考察. ように遮断周波数 P が高域側に設定され,P 以降に存在する高域成分の符号量 Cp+ が少な い場合は,P ′ は小さな値となり,狭い範囲のサブバンドに多数のビットが追加割り当てさ. 実験には,RWC 研究用音楽データベース (音楽ジャンル)8) から抜粋した “Pops”(No.1),. れる.逆に,図 5(b) に示すように P が低域側に設定され,高域成分の符号量 Cp+ が多く. “Jazz”(No.30), “Classic”(No.53) の 3 曲を利用し,必要な修正を加えた MPEG-1 オー. ′. なると,P の値も大きくなり,ビットが追加割り当てされるサブバンドの範囲も広がる.. ディオレイヤー II 符号化器を用いた.帯域制限では,サブバンド番号 (遮断周波数)P を. 1 ≤ P ≤ 26(112∼160[kbps] の場合),1 ≤ P ≤ 29(192∼384[kbps] の場合) に変化させた.. この方法で割り当てビット数を増加するサブバンドの範囲を狭めた場合に,遮断周波数 P ′. P PPP まず,帯域制限した圧縮音声 Brate とこれを再々符号化した圧縮音声 Brate の各サブバ. に対する P の平均値 (“Pops”, 384[kbps] を利用) を調査した結果を表 1 に示す.上述の通 ′. り,遮断周波数 P の値が大きいほど高域成分のビット数 Cp+ が少なくなるため,P は次. ンドにおける割り当てビット数の一致率を調査した結果を表 3 に示す.ただし,一致率の. 第に小さくなることがわかる.遮断周波数 P をある値に固定した場合,P 以降の高域成分. 定義は,割り当てビット数が一致した回数を計数し,これを全フレーム数で除算した割合で. ′. の符号量 Cp+ はフレーム (AAU) ごとに異なり,従って P も変化する.このため,本稿で. ある.また,楽曲には “Pops” を利用し,遮断周波数は P = 9 に設定した.この結果から,. 行う再符号化および再々符号化では,4 で示したように,それぞれの AAU に対する低域成. ビットレートおよびサブバンド番号によって異なるが,誤差が生じていることがわかる.そ. 4. c 2010 Information Processing Society of Japan ⃝.
(5) Vol.2010-AVM-68 No.6 2010/3/5. 情報処理学会研究報告 IPSJ SIG Technical Report 表1. 遮断周波数 P を変化させた時の P ′ の平均値 (“Pops”, 384[kbps]) Table 1 Average of P ′ as we change cutoff frequency P 遮断周波数 P. 狭めた P′. 遮断周波数 P. 狭めた P′. 1 2 3 4 5 6 7 8 9 10 11 12 13 14. 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 8.99 8.00 7.67 7.00 6.58 5.99. 15 16 17 18 19 20 21 22 23 24 25 26 27 28. 5.37 4.98 4.29 3.69 3.05 2.52 2.02 1.47 1.12 1.02 1.00 1.00 1.00 1.00. P PPP 表 3 帯域制限音声 (Brate ) と再々符号化音声 (Brate ) の割り当てビット数の一致率 [%] P PPP Table 3 Concordance rate for number of bits allocated in Brate and Brate. BitRate[kbps] 128 192 256 320 384. 表 2 再符号化および再々符号化における割り当てビット数の上限値の設定 Table 2 Upper bound in dynamic bit allocation for re-encoding and re-reencoding. 再符号化 再々符号化. 符号長の上限値. 0 ∼ P′ − 1 P′ ∼ P − 1 0 ∼ P′ − 1 P′ ∼ P − 1. 制限無し (最大 16 ビット) P Brate の符号長. 1 91.73 90.81 94.30 95.69 97.47. 2 98.22 92.03 92.38 95.47 97.04. 3 94.95 96.82 90.99 93.73 97.13. サブバンド番号 4 5 95.82 95.47 96.91 96.43 90.29 95.65 93.82 93.38 96.43 97.21. 6 96.95 96.87 97.56 95.52 96.13. 7 96.87 94.38 97.91 95.30 93.25. 8 95.99 95.86 97.69 95.86 91.25. P PPP ) の割り当てビット数の誤差の統計量 表 4 帯域制限音声 (Brate ) と再々符号化音声 (Brate P PPP Table 4 Statistics for errors between number of bits allocated in Brate and Brate. 平均. サブバンド番号. 0 84.94 91.08 93.51 95.99 97.17. 分散. 制限無し (最大 16 ビット) PP Brate の符号長. BitRate[kbps] 128 192 256 320 384 128 192 256 320 384. 0 0.13 0.05 0.04 0.03 0.01 0.137 0.092 0.065 0.042 0.031. 1 0.06 0.03 0.02 0.03 0.01 0.079 0.091 0.057 0.042 0.025. 2 -0.02 0.03 0.01 0.02 0.01 0.018 0.080 0.077 0.045 0.030. 3 -0.03 -0.01 0.02 0.02 0.01 0.033 0.016 0.088 0.062 0.030. サブバンド番号 4 5 -0.02 -0.02 -0.02 -0.03 0.01 -0.04 0.01 0.00 0.01 0.00 0.023 0.024 0.023 0.026 0.083 0.039 0.062 0.066 0.036 0.028. 6 -0.03 -0.02 -0.01 0.01 0.00 0.025 0.015 0.013 0.045 0.039. 7 -0.03 -0.02 -0.01 -0.05 -0.02 0.029 0.016 0.007 0.045 0.067. 8 -0.04 -0.02 -0.01 -0.04 0.01 0.054 0.017 0.011 0.040 0.087. える. P PP PPP このことをさらに詳細に調べるために,Gall rate ,Grate ,Grate および Grate の周波数ス. こで,次にこの誤差の統計量を調査した結果を表 4 に示す.ここでは,単純にサブバンド毎. ペクトルを調べた結果を図 7 に示す.ただし,384[kbps] で符号化した “Pops” を利用し,. に割り当てビット数の差を求め,全フレームでの平均値と分散を算出している.これより,. 遮断周波数は P = 9 である.図 7(a) の Gall 384 は約 20[kHz] 付近までスペクトルが存在する. 誤差は全体的に 0 近傍の狭い範囲に収まっており,圧縮符号の割り当てビット数は,再符号. が,帯域制限によって図 7(b) に示すように約 6500[Hz] 以降の高域成分がカットされてい. 化および再々符号化処理によって大きく変化していないことがわかる.. ることがわかる.さらにこれを再符号化,再々符号化した音声のスペクトルを図 7(c),(d). P PPP 次に,帯域制限した圧縮符号 Brate とこれを再々符号化した圧縮符号 Brate をそれぞれ PPP GP rate ,Grate. に示す.これらは図 7(b) に示したスペクトルとほぼ同様の波形を示している.. を. PP これらの結果より,再符号化によってビット数を拡大した圧縮音声 Brate の冗長部分を. 計測した結果を図 6 に示す.ただし,それぞれのグラフには,参考値として各ビットレート. データハイディングによる付加情報の埋め込みなどに利用しても,元の帯域制限した再生音. で圧縮した音声 Gall rate のオリジナル音声 G に対する Segmental SNR 値も示しておく.こ PPP all れより,GP , G rate rate ともに,遮断周波数 P を低域側に移動するに従い,圧縮音声 Grate. PPP 声 GP rate にほぼ等しい Grate を再現することができることが示された.. 再生した音声. について,オリジナル音声 G との間で Segmental SNR. 6),7). 8. ま と め. の達成する SNR 値から次第に減少し,帯域制限の効果が現れていることがわかる.また, PPP GP rate ,Grate いずれも,P の減少に伴う SNR 値は同等な値を示している.このことから,. 本稿では, MPEG-1 オーディオレイヤー II で符号化した圧縮音声について,指定したサ. GP rate に対する再符号化および再々符号化による変化 (劣化) は小さく抑えられていると言. ブバンド番号で帯域制限をした音声を帯域制限前の全体の符号量で再符号化し,さらにこれ. 5. c 2010 Information Processing Society of Japan ⃝.
(6) Vol.2010-AVM-68 No.6 2010/3/5. 情報処理学会研究報告 IPSJ SIG Technical Report. 30. 25. 25. 20. 15. 20. 0. 0. -20. -20. sound pressure level[dB]. 30. sound pressure level[dB]. 35. Segmental SNR[dB]. Segmental SNR[dB]. 35. -40 -60 -80. -100 -120. 15. 0. 10000 Frequency[Hz]. 10. 5. 0. 0 0. 5. 10. 15. 20. 25. 0. 30. 5. P. 10. 15. 20. 25. 30. P. (a) G に対する GP rate. PP (b) G に対する GP rate. 図 6 オリジナル音声に対する Segmental SNR の比較 Fig. 6 Comparison of Segmental SNR for original audio. 20000. 0. 0 -20. -40 -60 -80. 0. 10000 Frequency[Hz]. 図7. サブバンド毎の割り当てビット数 (符号長) の変化は小さいこと.また,両者の再生音声は,. 20000. GP 384. -40 -60 -80. -100. P (c) 再符号化音声 GP 384. 査した.シミュレーション実験の結果,帯域制限した圧縮符号と再々符号化した圧縮符号の. 10000 Frequency[Hz]. (b) 帯域制限音声. -20. -120. 0. Gall 384. -100. を帯域制限後の符号量で再々符号化した場合の符号化データおよび再生音声変化について調. -80. -120. sound pressure level[dB]. 5. 128[kbps] 192[kbps] 256[kbps] 320[kbps] 384[kbps]. sound pressure level[dB]. 128[kbps] 192[kbps] 256[kbps] 320[kbps] 384[kbps]. -60. -100. (a) 圧縮音声 10. -40. 20000. -120. 0. 10000 Frequency[Hz]. 20000. PP (d) 再々符号化音声 GP 384. スペクトル波形の比較 (“Pops”, P = 9, 44.1[kHz], 384[kbps]) Fig. 7 Comparison of frequency spectrum. オリジナル音声に対する Segmental SNR 値の計測および周波数スペクトルの比較によって. 6) 守谷 健弘, Speech Coding, 電子情報通信学会, 1998. 7) K. Takagi, S. Sakazawa, Y. Takishima : “Light Weight MP3 Watermarking Method for Mobile Terminals”, IEICE Trans. Fundamentals, vol.E91-A, no.9, pp.2546-2554, 2008. 8) 後藤 真孝, 橋口 博樹, 西村 拓一, 岡 隆一 : “RWC 研究用音楽データベース: 音楽ジャ ンルデータベースと楽器音データベース”, 情報処理学会 音楽情報科学研究会, 2002MUS-45-4, vol.2002, no.40, pp.19-26, May 2002. 9) 萩野谷 俊典, 田中 清, 高木 幸一 : “MPEG-1 オーディオレイヤー II による高ビットレー ト符号化音声の品質向上”, ITE Technical Report, vol.33, no.54, pp.5-8, ME2009-215, Dec. 2009. 10) 萩野谷 俊典, 田中 清, 高木 幸一 : “データハイディングを用いる MPEG オーディオ 向け準可逆ローパスフィルタ”, 情報処理学会 オーディオビジュアル複合情報処理研究 会, to appear, March 2010.. ほとんど差異がないことがわかった. 今後は,再符号化によって拡大した割り当てビット数の冗長成分を利用したデータハイ ディングの方法10) について検討する必要がある.. 参 1) 2) 3) 4) 5). 考. 文. 献. 藤原 洋, 最新 MPEG 教科書, 株式会社アスキー, 2001. 藤原 洋, 画像&音声圧縮技術のすべて, CQ 出版, 2000. 安田 浩,藤原 洋, デジタル放送インターネットのための情報圧縮技術, 共立出版, 1999. 米満潤, MPEG 技術, トリケップス, 1997. A. Matsuoka, K. Tanaka, A. Yoneyama and Y. Nakajima : “Data Embedding in MPEG-1/Audio Layer II Compressed Domain Using Side Information”, Proc. 2006 IEEE Int’l Conf. on Multimedia & Expo, pp.1585-1588,2006.. 6. c 2010 Information Processing Society of Japan ⃝.
(7)
図
関連したドキュメント
C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;
られ,所々の有単性打診音の所見と一致するが,下葉の濁音の読明がつかない.種々の塵肺
音節の外側に解放されることがない】)。ところがこ
TV会議やハンズフリー電話においては、音声のスピーカからマイク
Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC
あらまし MPEG は Moving Picture Experts Group の略称であり, ISO/IEC JTC1 におけるオーディオビジュアル符号化標準の
古物営業法第5条第1項第6号に規定する文字・番号・記号 その他の符号(ホームページのURL)
現行の HDTV デジタル放送では 4:2:0 が採用されていること、また、 Main 10 プロファイルおよ び Main プロファイルは Y′C′ B C′ R 4:2:0 のみをサポートしていることから、 Y′C′ B