• 検索結果がありません。

EVS 1 [17 19] EVS 2. EVS 2.1 EVS 13 1 Qualification Selection Characterization 3 [20] 12 EVS 2.2 EVS 1 20 ms 32 ms 2 8kHz NB: Narrow-ba

N/A
N/A
Protected

Academic year: 2021

シェア "EVS 1 [17 19] EVS 2. EVS 2.1 EVS 13 1 Qualification Selection Characterization 3 [20] 12 EVS 2.2 EVS 1 20 ms 32 ms 2 8kHz NB: Narrow-ba"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

VoLTE

用高音質音声符号化技術の

動向

——

低遅延音声音響統合符号化

3GPP EVS——

*

鎌 本

優,守 谷 健 弘

(日本電信電話(株)NTT コミュニケーション科学基礎研究所)∗∗

江 原 宏 幸

(パナソニック(株)要素技術開発センター)∗∗∗

菊 入

((株)NTT ドコモ先進技術研究所)∗∗∗∗ 43.72.Gy, 43.60.Ek

1. は じ め に

電話音声を伝送するときには送信側(エンコー ダ)と受信側(デコーダ)でお互いが理解できる符 号化方式を共通で用いることにより,通信会社や端 末メーカに依存せずに会話をすることができてい る。例えば国際連合の専門機関の一つである

ITU-T

International Telecommunication Union—

Telecommunication standardizaion sector

)が勧 告した

G.711

という対数圧伸

PCM

Pulse Code

Modulation

)方式(いわゆる

A-law/

µ-law

)は世 界中で使われており,各国の通信会社が同じ手順 に従うことで国をまたいだ通話も可能となってい る

[1]

。携帯電話やスマートフォンの世界では移 動通信システムの国際標準規格を策定する

3GPP

3rd Generation Partnership Project

)で規定さ れた

AMR

Adaptive Multi-Rate

)符号化

[2–4]

AMR-WB

AMR Wide-Band

)符号化

[5–7]

が使われている。

–1

に示すように,音声符号化や音響符号化の 国際標準は多様な利用者ニーズに対応するために,

8 kHz

サンプリングの音声信号を低ビットレート

で伝送するものから,ハイレゾ音源をロスレスで圧

Trend of high-quality speech and audio codec for

VoLTE: 3GPP EVS codec: the unified conversa-tional speech and audio codec.

∗∗Yutaka Kamamoto and Takehiro Moriya (NTT

Communication Science Laboratories, Nippon Telegraph and Telephone Corporation, Atsugi, 243–0198)

∗∗∗Hiroyuki Ehara (Core Element Technology

De-velopment Center, Panasonic Corporation, Yoko-hama, 224–8539)

∗∗∗∗Kei Kikuiri (Research Laboratories, NTT

DOCOMO, Inc., Yokosuka, 239–8536)

縮する高ビットレートのものまで,様々なものが策 定されている。特に携帯電話やスマートフォンな どの移動体通信での音声通話の場合には,短い遅延 と低いビットレートが求められる。低遅延はスト レスのない自然な会話を実現するため,低いビット レートは多くの利用者が同時に通話をしても輻輳 しないようにするための要求条件である。また,音 質の向上を目指し,近年では音声符号化と音響符号 化を統合させた符号化方式として,

3GPP

で標準 化された

AMR-WB+

Extended AMR-WB

)符 号化

[8, 9]

や,

MPEG

Moving Picture Experts

Group

)で標準化された

MPEG-D USAC

Uni-fied Speech and Audio Coding

[10–14]

が策定 されている。これらの方式は,音声向けの時間領 域の符号化方式と音楽向けの周波数領域の符号化 を組み合わせて切り替えることにより,お互いの 不得意分野を補完する方式である。しかしながら, 符号化原理遅延を長い方の音響符号化に合わせて いるため,双方向通話用途には使いにくい方式で あった。 これら遅延が長めの符号化方式に対して,

VoLTE

Voice over Long-Term Evolution

)向け音声音 響統合符号化方式として,

3GPP

において

EVS

Enhanced Voice Services

)符号化が策定され た

[15, 16]

。従来の無線通信ではビット誤り対策 が必要であったが,

LTE

向けの符号化ではパケッ ト消失対策が必要となる代わりに,パケットの中身 では可変長符号化やモード切り替えができるなど, 符号化に対する要求条件が緩和された。

EVS

符号 化は従来の音声音響統合符号化を改善することに より,これまで実現できなかった背景雑音や背景 音楽を含む音声信号や音楽信号を高品質のまま通

(2)

図–1 音声符号化と音響符号化とそれらの統合の歴史 話可能な短い遅延で伝送することが可能となって いる

[17–19]

。本稿では現在普及しつつある

EVS

符号化の技術概要,一部の要素技術,主観評価結 果について解説する。

2.

EVS 符号化

2.1

標準化背景

EVS

符号化の標準化の過程において,

13

の企 業・研究機関が技術提案を行った。(そのうち

1

社は途中棄権。)正当にかつ公平に評価するため,

Qualification

Selection

Characterization

とい う

3

段階の大規模な主観品質評価実験が第三者機 関によって行われた。様々な条件・音源・言語(日 本語を含む)での実験結果が評価レポートに示さ れており,従来の音声符号化方式・音響符号化方 式よりも高性能であることが確認されている

[20]

。 競い合っていた

12

社が最終的には協力し,お互い の得意な技術を持ち寄り一つの符号化方式を改善 することで,従来法よりも高性能である

EVS

符 号化を策定することに貢献した。

2.2

技 術 概 要

EVS

符号化は

1

フレーム

20 ms

,符号化原理遅延

32 ms

というストレスのない双方向通話が可能な遅 延で処理を行い,サンプリング周波数も図

–2

に示す ように

8 kHz

NB: Narrow-band

),

16 kHz

WB:

Wide-band

),

32 kHz

SWB: Super-WB

),

48 kHz

FB: Full-band

)というように幅広くサポートし ている。また,対応するビットレートも表

–1

に示 すように,

NB

5.9 kbps

から

24.4 kbps

WB

5.9 kbps

から

128 kbps

SWB

9.6 kbps

から

128 kbps

FB

16.4 kbps

から

128 kbps

という ように幅広く対応し,任意の音声帯域・任意のビッ トレートにフレームごとに切り替えることができ る。更に,

VoLTE

向けということもあり,ビッ ト列の誤り耐性を改善するのではなく,パケット 図–2 EVS 符号化がサポートする周波数帯域 表–1 EVS 符号化が対応するビットレートと音声帯域 ただし VBR は可変ビットレート(Variable Bit-Rate), CAは伝送路知覚モード(Cannel Aware mode)。

ビットレート 音 声 帯 域 5.9 kbps VBR NB WB 7.2 kbps NB WB 8.0 kbps NB WB 9.6 kbps NB WB SWB 13.2 kbps CA WB SWB 13.2 kbps NB WB SWB 16.4 kbps NB WB SWB FB 24.4 kbps NB WB SWB FB 32 kbps WB SWB FB 48 kbps WB SWB FB 64 kbps WB SWB FB 96 kbps WB SWB FB 128 kbps WB SWB FB 図–3 EVS エンコーダ処理の流れ 消失隠蔽による誤り耐性改善の方策がとられ,パ ケットベースの伝送に適した方式となっている。 そして,現在普及しつつある

AMR-WB

符号化と の互換性も具備するため,システムを円滑に

EVS

符号化へ変更することができる。

EVS

エンコーダは図

–3

に示すように,入力音 声信号は前処理の様々なツールにより分析される。

EVS

モードでは分析結果を基に,時間領域の音声 符号化を用いるか,周波数領域の音響符号化を用い るか,無音区間の間欠伝送(

DTX: Discontinuous

Transmission

)を用いるか選択する。時間領域で の処理は音声符号化で長く使われてきている線形 予測分析に基づく

CELP

Code-Excited

Linear-Prediction

),特に

ACELP

Algebraic CELP

(3)

図–4 EVS デコーダ処理の流れ

が用いられる。周波数領域での処理は音響符号化 で長く使われてきている

MDCT

Modified

Dis-crete Cosine Transform

)を用いた符号化を低遅 延化したものが用いられている。

AMR-WB

互換 モードでは前処理での信号分析精度が向上してい るため,ビットストリームの互換性は保ちながら も音質の高いパラメータを選択することができる。 パケット化されたビットストリームはデコーダへ 送られる。

EVS

デコーダは図

–4

に示すように,パケット 化されたビットストリームからパラメータを抽出 し,エンコード時の選択に対応した処理を適宜行 う。パケットが適切に届かなかった場合は前後の フレームの情報を用いてパケット消失隠蔽処理を 行い,聴感上の違和感を低減している。そして,後 処理により成形された音声信号が出力される。 このように,様々な要素技術を柔軟に切り替え ることで,低遅延かつ低ビットレートでの音質の 向上を実現している。

2.3

要 素 技 術

2.3.1

日本音響学会との関連

EVS

符号化の開発には日本の研究者も関わって おり,音質向上に寄与してきた。

EVS

符号化では 様々な要素技術が使われており,すべてを書くに はスペースが足りないため,本稿では日本発の技 術が深く関わる要素技術に限定して解説を行うこ とにする。 可変ラグ窓は,日本音響学会の諸先輩方が多数 研究してこられた線形予測分析に基づく音声音楽 の分析方法を若干変更したものである。 音楽向け低遅延周波数領域符号化は,周波数帯 域ごとのエネルギーを補助情報として伝送する タイプの符号化方式

HQ-MDCT

High-Quality

MDCT

)と線形予測係数から求められるスペクトル 包絡を利用するタイプの符号化方式

TCX

Trans-form Code eXcitation

)の二つの戦略がとられて

いる。これらをスペクトルの山谷の差や,周波数 帯域の集中度を規準にして適宜切り替えることに より,入力信号に適したモデルをフレームごとに 選択することができ,音質の向上を達成している。 周波数帯域拡張は,低周波数帯域を

CELP

で符 号化する場合に,その低周波数帯域の励振信号を もとに高周波数帯域の励振信号を生成して高周波 数帯域の合成フィルタを駆動することで高周波数 帯域を生成する。この周波数帯域拡張の過程で生 じる高周波数帯域の時間包絡のひずみは知覚され 易く,このひずみを抑制する技術により更なる音 質向上が図られている。 パケット消失隠蔽は,既存の国際標準の音声符 号化で用いられていた技術に加えて,パケット消 失による後続のフレームへの品質劣化を抑制する ために補助情報を用いる技術が採用されている。

2.3.2

可変ラグ窓 線形予測分析は

EVS

符号化においても重要な 役割を果たしている

[21–23]

。多くの音声符号化 では線形予測分析を行う場合,線形予測係数を用 いたフィルタを安定させるためにラグ窓法が長い 間使われてきている

[24]

。ラグ窓法は自己相関係 数に窓をかける(重みを付ける)だけでスペクト ル包絡を平滑化することができ,演算量もほとん どかからない。また,ラグ窓法をピッチ抽出に使 うことも提案されている

[25]

。 強いラグ窓すなわち元の自己相関係数から大き く変わるような修正をする場合は,スペクトル包 絡が平滑化されすぎてしまい元のスペクトルの近 似としては劣化してしまうこともある。これまで は安定性とスペクトル包絡の推定精度のトレード オフの妥協点を用いた固定のラグ窓が用いられて きた。しかしながら,

EVS

符号化ではラグ窓の最 適な強さと音声の周期性すなわちピッチ周期やそ の強度に関係があることを利用し,適応的にラグ 窓を変更する方法が採用されている。 多くの音声符号化ではおおよそ下記の手順の自 己相関法で線形予測分析が行われる。 は じ め に ,時 間 窓 が か け ら れ た 時 系 列 信 号

x(n), (n = 1, 2, . . . , N)

から自己相関係数

R(i)

を求める。ここで

N

はフレーム長,

P

は線形予 測次数であり,

R(i) =



Nn=i

x(n) · x(n − i), (i =

0

, 1, . . . , P )

である。

(4)

修正自己相関係数

R



(

i) = R(i) · w(i)

を求める。 ラグ窓はガウス窓が使われることが多く,

w(i) = exp



1

2



2

πf

w

i

f

s



2



(1)

で表され,

f

sはサンプリング周波数,

f

wは帯域幅周 波数であり長い間固定値の

60 Hz

が使われてきた。 最 後 に 修 正 自 己 相 関 係 数

R



(

i)

を 用 い て

Levinson-Durbin

アルゴリズムにより線形予測係 数を求める。 図

–5

と図

–6

はある合成音声の代表的な

1

フ レームのパワースペクトルであり,

f

w

= 20 Hz

f

w

= 60 Hz

のラグ窓を用いた線形予測分析 から求められたスペクトル包絡も併せて示してい る。図

–5

のようなピッチ周波数(

F

0)の高い音声 (

F

0

= 294 Hz

)の場合はピークが急峻になってし まうため,

f

w

= 60 Hz

の強いラグ窓により平滑 化しなければ不安定なフィルタを構成することと なってしまう。一方,図

–6

のように元々スペクト ルが滑らかな場合(

F

0

= 98 Hz

)は,

f

w

= 20 Hz

の弱いラグ窓でも十分に安定性を確保できている。 音声の周期性(ピッチ周波数

F

0とピッチゲイ ン

G

)に着目し,ラグ窓の強さ

f

wの値との相関 関係の客観評価値を調べたところ,ピッチ周波数 やピッチゲインに応じてラグ窓を強くした方が良 い客観評価値を得られる傾向があり,

w(i) = exp



1

2



2

π(αF

0

+

βG)i

f

s



2



(2)

という式で表すような可変ラグ窓を用いれば音質を 向上させることができることが示唆された。ここで

α

β

は定数である。言い換えると,ピッチ周波数 とピッチゲインがともに高い場合には安定性を確 保する強いラグ窓を用い,ピッチ周波数とピッチゲ インがともに低い場合には影響の小さい弱いラグ窓 を用いることで精度を向上させることができる。 演算量削減のために図

–7

で表すような

3

種類の ラグ窓テーブルを用意し,図

–8

のような規準でラ グ窓を選択するように実装しても,音質を向上さ せることができることが主観評価実験により確認 され,この簡易版が

EVS

符号化に採用されてい る

[26, 27]

2.3.3 HQ-MDCT

HQ-MDCT

は帯域ごとのエネルギーを補助情 報とするタイプの符号化方式である。入力信号の 図–5 ピッチ周波数が高い(F0 = 294 Hz)音声のスペク トル包絡 20 Hzの精細ラグ窓(実線)ではスペクトル包絡が急峻。 図–6 ピッチ周波数の低い(F0= 98 Hz)音声のスペクト ル包絡 60 Hzの安定ラグ窓(一点鎖線)ではスペクトル包絡が 鈍化。 図–7 ラグ窓の重み係数の例 特徴に応じて,後述する

TCX

と切り替えて使用 される。

16.4 kbps

以下のビットレートで使われ る

LR-HQ-MDCT

Low-Rate HQ-MDCT

)と

24.4 kbps

以上のビットレートで使われる

HR-HQ-MDCT

High-Rate HQ-MDCT

)の

2

種類があ る。どちらも,

MDCT

スペクトルのエネルギーを 帯域ごとに量子化し,各帯域の

MDCT

スペクトル

(5)

図–8 ピッチ周波数とピッチゲインに依存したラグ窓の選 択規準 を量子化したエネルギーで正規化した後,正規化し た

MDCT

スペクトルの量子化を行う。各帯域への ビット配分は,量子化された帯域エネルギーに基づ いて決定する。帯域エネルギーの符号化には帯域 間の差分量子化とハフマン符号化を利用し,正規化

MDCT

スペクトルの量子化にはパルスベースの符 号化を用いる。以下では,

LR-HQ-MDCT

SWB

) の構成を紹介する。

LR-HQ-MDCT

SWB

)では, 低ビットレートで

SWB

MDCT

スペクトルを 効率的に量子化するため,以下に挙げるような特 徴を有している。 1



臨界帯域を模した

22

24

帯域に周波数帯域を 分割して(高域ほど広い帯域幅。

5 kHz

以上で は

1

3 kHz

)帯域数を抑制。 2



ビットを割り振るべき帯域には十分なビット数 が配分されるよう,メリハリをつけた適応ビッ ト配分。 3



帯域拡張符号化モデルを用いた高域スペクトル 充填により,少ないビット数で高域のスペクト ルを符号化。 4



調波構造を強調する符号化モードや,直前のフ レームにおける量子化スペクトルピーク位置を 利用する符号化モードを備え,トーン性の高い 信号に対する符号化性能を向上。

LR-HQ-MDCT

SWB

)は

Transient

Normal

Harmonic

3

種類の符号化モードを入力信号の 特徴に応じて切り替える。

Transient

は,

MDCT

フレーム長を短くして時間分解能を上げている。

Normal

は,

LR-HQ-MDCT

SWB

)の基本モー ドであり,高域のうちエネルギーがそれほど高く ないサブバンドのスペクトルを帯域拡張符号化に 基づくスペクトル間隙充填により符号化する

[28–

30]

Harmonic

は,

Normal

と似た構成だが,量 子化した低域スペクトルを分析して調波構造を推 図–9 LR-HQ-MDCT(SWB)のエンコーダ側のブロッ ク図 図–10 LR-HQ-MDCT(SWB)の帯域構成(16.4 kbps, Normalモード) 定・強調する構成が取り入れられている。

LR-HQ-MDCT

SWB

)のブロック図を図

–9

に示す。ス ペクトル間隙充填は,十分なビット数が配分され ず,通常のスペクトル量子化が行われなかった帯 域を,

0

2

ビットで生成したスペクトルで埋める 処理である。伝送情報なしに雑音スペクトルを充 填する方法と,帯域拡張符号化を利用して

2

ビッ ト以下で符号化したスペクトルを充填する方法と の

2

種類が使われている。

Transient

では雑音を 用いた充填のみが用いられ,

Normal

Harmonic

では

2

種類の充填方法が併用される。ただし,帯 域拡張符号化に基づく充填は,帯域幅の広い高域 に対してのみ用いられる。図

–10

16.4 kbps

に おける

LR-HQ-MDCT

SWB

)の帯域構成を示 す。図中の○で囲まれた番号(



19∼



24)は帯域番 号を示し,帯域拡張ベースのスペクトル間隙充填 の適用対象は最高域の

4

帯域(



21∼



24)である。 このようなアルゴリズム構成により,

EVS

符号化 の性能要求条件を満たすことを主観品質評価試験 により確認している

[31–33]

2.3.4 TCX

MDCT

ベースの

TCX

は線形予測分析から求 められるスペクトル包絡を利用して,

MDCT

係 数を算術符号で圧縮する方式である。処理ブロッ ク図レベルでは図

–9

LR-HQ-MDCT

SWB

) とほぼ共通で,主な違いは下記の

4

項目である。 1



線形予測分析から求められるスペクトル包絡を 使い,平滑化スペクトル包絡の割り算(復号で は掛け算)で聴覚感度を加味した量子化ひずみ の最小化を行う

(6)

2



量子化されたスペクトル(

MDCT

係数)は算 術符号で消費ビット数を圧縮する 3



高域のスペクトル充填には,

IGF

Intelligent

Gap Filling

)を使う 4

 TNS

Temporal Noise Shaping

)や

LTP

Long Term Prediction

)と調波モデル符号 化を使う

1



の量子化ひずみの最小化は

CELP

の聴覚重 み付け基準と同じ基準を周波数領域で実現する。 線形予測係数の量子化は時間領域とほぼ共通で,

LSP

Line Spectrum Pairs

)パラメータのベク トル量子化と格子量子化の

2

段構成である。 2



のスペクトル量子化は更に低ビットレート向 き(

EVS

符号化では

9.6 kbps

で利用)の線形予 測分析から求められるスペクトル包絡に依存した 振幅の期待値を利用する算術符号化と,周波数領 域の低周波数側のサンプルのコンテクストに依存 した振幅の期待値を利用する高ビットレート向き (

EVS

符号化では

13.2 kbps

以上の大部分で利用) の算術符号化を使い分ける。高ビットレートの算 術符号化は

MPEG-D USAC

での圧縮と類似して いるが,前のフレームに依存しない点が異なる。算 術符号化で必要な符号量は変動するので,符号量 をフィードバックして利得を決めたり,余剰ビット で誤差の量子化を行ったりすることによりフレー ム内でビット数を最大限利用する。 3



IGF

MPEG-H 3D Audio [34]

で使われ ているスペクトル表現手法である。

4



TNS

MPEG-2/4 AAC

Advanced

Au-dio Codec

[35, 36]

にも使われている時間領域の 雑音抑制のための周波数領域係数の予測技術であ る。

LTP

はピッチ周期パラメータを情報として伝 送するポストフィルタであるが,そのパラメータ は調波モデル符号化でも共通に使われる。 調波モデル符号化について更に説明を補足する。 遅延の制約から

MDCT

の時間重複窓を短くせざ るをえないが,これにより特に調波構造を持つ音 楽の品質が大幅に低下する問題があった。量子化 手法などで品質の改善を図っているが,特に周波 数領域での等間隔のピークをモデル化することに よる改善を行っている。 ピッチ周期に起因する

MDCT

係数の等間隔の ピークは隣接サンプルとの振幅の絶対値の差が大 きい。このため低域側のサンプルの分布をそのま 図–11 調波モデルと併用したスペクトル包絡の例 ま参照コンテクストとして使うと

MDCT

係数の 算術符号化の効率が低下してしまうため等間隔の ピーク部分を分離して効率化を図る。基本間隔を パラメータとし,その整数倍の位置のピークを表 現する。

LTP

が使われるフレームではその周期パ ラメータを流用する。 一方,包絡を用いる低ビットレートの算術符号 化ではこのピークの形状をモデル化し,図

–11

の 例のような線形予測分析によるスペクトル包絡と 組み合わせて,振幅の期待値が大きいことを反映 させて符号量を削減する。コンテクストを使う算 術符号化では各ピークの領域から

3

サンプルだけ 取り出し,ピーク以外の部分とコンテクストを切 り替えることでコンテクストの連続性を高め,符 号量を削減する。いずれの場合でも間隔の情報を 追加しても調波モデルを併用する場合のほうが有 利な場合だけで利用する。本モデルにより符号量 が抑制され利得の再調整により量子化ひずみを平 均的に削減でき,音楽全般,特に調波成分の強い 音楽での顕著な主観品質の改善が確認できた

[37]

2.3.5

周波数帯域拡張 低周波数帯域を

CELP

により符号化される場 合,高周波数帯域を生成する周波数帯域拡張技術 は,

CELP

の励振信号の符号化方式によって異 なる。励振信号を周波数領域で符号化する

GSC

Generic Signal audio Coder

)においては周波 数領域帯域拡張が用いられ,励振信号を時間領域 で符号化する

ACELP

においては時間領域帯域拡 張(

TBE: Time-domain Bandwidth Extension

) が用いられる。

TBE

は,

ACELP

の復号過程で 生成される低周波数帯域の励振信号から生成した 調波成分に雑音信号を付加した励振信号により合 成フィルタを駆動して高周波数帯域信号を生成す る。合成フィルタのフィルタ係数は,エンコーダ にて線形予測分析により算出されて送信される。

(7)

図–12 TEC/TFA の概要 このようにして生成される高周波数帯域信号は,

1/4

フレーム(すなわち

5 ms

)のサブフレーム単 位でゲイン制御されるが,高周波数帯域信号の過 程で時間包絡がひずんでしまうことがある。特に, 急峻な立ち上がりのある部分や平坦な部分ではひ ずみが顕著になる。そこで

EVS

符号化の

SWB

16.4 kbps

及び

24.4 kbps

では,時間包絡符号化 (

TEC: Temporal Envelope Coding

)と時間平坦 度調整(

TFA: Temporal Flatness Adjuster

)に より,生成された高周波数帯域信号の時間包絡を 整形する。図

–12

TEC/TFA

の概要を示す。

TEC/TFA

のパラメータはエンコーダにて合わ せて符号化されてデコーダに送信され,高周波数 帯域信号の時間包絡形状を通知する。 高周波数帯域信号の時間包絡形状が急峻な立ち上 がりであると通知された場合に,デコーダにおいて

TEC

が適用される。

TEC

は,低周波数帯域信号と 高周波数帯域信号の時間包絡形状の相似性を用い て,信号の急峻な立ち上がりにおける時間包絡のひ ずみを抑制する。具体的には,より厳密に符号化さ れている低周波数帯域信号の時間包絡を算出し,そ れより高周波数帯域信号の時間包絡を整形するため のゲインを求めて高周波数帯域信号に適用する。 一方,高周波数帯域信号の時間包絡形状が平坦で あると通知された場合に,デコーダにおいて

TFA

が適用される。

TFA

では,まず高周波数帯域信号 の時間包絡を算出し,それより時間包絡形状が平 坦になるようにゲインを求めて高周波数帯域信号 に適用する。

TEC/TFA

において算出される低周波数帯域信 号及び高周波数帯域信号の時間包絡は

1/16

フレー ム(すなわち

1.25 ms

)単位であり,

1/4

フレーム 単位の

TBE

のゲイン制御よりも高い時間分解能 での時間包絡整形によって,高周波数帯域信号の 時間包絡形状のひずみ抑制を可能にしている

[38]

2.3.6

パケット消失隠蔽 パケット消失検出時には,パケット消失直前に 選択された符号化手法に応じて,

ACELP

用のパ ケット消失隠蔽技術と

MDCT

領域の符号化用の パケット消失隠蔽技術を切り替えて用いる。

ACELP

は,フレーム間予測を用いて圧縮効率を 高めるため,パケット消失の影響が後続のフレーム に伝搬する課題がある。この課題を克服するため,

ITU-T

勧告

G.718 [28]

で実績のある

Transition

Coding

に加え,エンコーダから伝送された補助情 報を利用するパケット消失隠蔽技術が採用された。 補助情報には,

G.718

と同様に,復帰フレームに おいて適応符号帳を修正して回復を早めるための パルス位置情報や回復フレームのパワーの情報が 含まれる。これらに加えて,ビットレートに応じ て,パケット消失時の適応符号帳の品質を改善す るための補助情報に次フレームのピッチ周期が含 まれる。線形予測分析で用いられる次フレームの 一部である先読み信号からピッチ周期を算出する ことにより,余分に遅延を増加することがない。 また,従来の

MDCT

領域の符号化に対応する パケット消失隠蔽技術では,パケット消失直前に 得られた

MDCT

係数の符号をランダムに変更し て,パケット消失したフレームの

MDCT

係数に 代用する手法が用いられてきたが,復号信号の波 形に不連続が生じる課題があった。

EVS

符号化で は,波形が滑らかにつながるよう複写後の

MDCT

係数の位相を調整し,音声波形の不連続を低減し ている

[39]

3. 日本語での主観品質評価実験

3.1

実 験 目 的 音声や音楽の性質は言語やジャンルに依存する。 例えば日本人女声のピッチ周波数は欧米人に比べ て高くなる傾向がある。この違いが音声符号化の 品質に影響を与えることが考えられる。よって, 標準化過程の実験方法と同様の手順で,日本語音 声・日本語音楽コンテンツによる品質評価が必要 である。標準化過程での日本語での実験結果を確 認する意味も込めて,ここでは

NTT

研究所で行っ た実験結果の例を紹介する

[40]

3.2

実 験 条 件

3GPP

での公式試験と同様に,

ITU-T P.800

の 手順に従い実験を行った

[41]

24

名の日本語を母 国語とする受聴者は劣化範ちゅう尺度法(

DCR:

Degradation Category Rating

)により原音と表

(8)

2

に示される条件の符号化音の劣化度を

5

段階で 判定した。原音を聞いた後に符号化音を聞き,原 音との差が感じられない

5

点から,著しく劣化を 感じた場合の

1

点までの

5

段階で採点する。各条 件には男声・女声それぞれ

2

話者による六つのセ ンテンスペアが用いられた。音楽重畳音声及び音 楽(

Mixed and music contents

)の場合には,四 つのジャンルの音源(音楽重畳音声,ラジオコン テンツや電話保留時を想定した背景に音楽を含む 音声,クラシック音楽,ポップ音楽)がそれぞれ 六つ用いられた。音声信号は

8

秒であり,音楽信 号は約

8

秒であった。これらの音源は

−26 dBov

に音量調整され,雑音重畳音声には音声信号に対 してストリートノイズを

−20 dB

で付加したもの を用いた。音源は評価ブース内において両耳ヘッ ドホンにより

73 dB SPL

で受聴者に提示された。 参照符号化として

NB

では

3G

携帯電話で使われ ている

AMR

符号化を用い,

WB

では

VoLTE

で 使われている

AMR-WB

符号化を用いた。

SWB

では

AMR

符号化や

AMR-WB

符号化ほど普及 している符号化方式はなく,実験のカテゴリ(ク リーン音声,雑音重畳音声,音楽重畳音声及び音 楽)によって性能が大きく異なることから,それ ぞれのカテゴリに合った符号化方式を比較対象と した。

SWB

での参照符号化を別途表

–3

に示す。

3.3

実 験 結 果 実験結果を図

–13

から図

–15

に図示する。平均 オピニオン評点(

MOS: Mean Opinion Score

) とそれらの

95%

信頼区間が示されている。全体的 に,

EVS

符号化は従来の符号化方式よりも,同 じビットレートであれは高い音質を得られるこ とが確認できた。例えば,同程度のビットレート の

12 kbps

周辺で

AMR 12

.2

AMR-WB 12

.65

EVS-SWB 13

.2

を比較すると,それぞれの

MOS

値はそれぞれ

2

点周辺,

3

点周辺,

4

点周辺とい うように,大きな音質改善が見られた。 クリーン音声の結果である図

–13

では,

EVS

符号 化は参照符号化より低いビットレートであっても高 い

MOS

値を得ることができた。また,

EVS

符号 化の

AMR-WB

互換モード(

EVS-IO

)に着目する と,パケット消失のない従来法(

AMR-WB 23.85

) とパケット消失率(

Frema Erasure Rate: FER

) が

3%

という条件下の

EVS

符号化

AMR-WB

互 換モード(

EVS-IO 23.85 3%

)が同等の

MOS

表–2 実験条件

Bandwidth Condition Bitrate FER SWB Direct - -SWB MNRU Q = 38 dB -SWB MNRU Q = 31 dB -SWB MNRU Q = 24 dB -SWB MNRU Q = 17 dB -SWB MNRU Q = 10 dB -NB AMR 12.2 kbps 0% NB EVS 9.6 kbps 0% NB EVS 13.2 kbps 0% WB AMR-WB 12.65 kbps 0% WB EVS 9.6 kbps 0% WB EVS 13.2 kbps 0% WB AMR-WB 23.85 kbps 0% WB EVS-IO 23.85 kbps 0% WB EVS-IO 23.85 kbps 3% SWB Ref-A Ref-A kbps 0% SWB EVS 13.2 kbps 0% SWB EVS 13.2 kbps 3% SWB Ref-B Ref-B kbps 0% SWB EVS 24.4 kbps 0% SWB EVS 24.4 kbps 3% SWB Ref-C Ref-C kbps 0% SWB EVS 48 kbps 0% 表–3 SWB における参照符号化方式(符号化方式名@ビッ トレート kbps)

Ref Clean Noisy Mixed and music A G.722.1C@24 G.722.1C@24 AMR-WB+@12 B G.718B@36 G.722.1C@32 G.722.1C@24 C G.719@64 G.719@64 G.719@48 となり,パケットベースの伝送に適した方式である ことが確認できた。

EVS

符号化の

48 kbps

EVS-SWB 48

)であれば,原音とほぼ差がないことも 示された。 雑音重畳音声の結果である図

–14

においても同 様の傾向が見られ,背景雑音に対しても音質劣化 を防ぐことができていることが確認できた。 図

–15

は音楽重畳音声及び音楽の結果である。

WB

では

EVS

符号化は

AMR-WB

のほぼ半分の ビットレートでありながら同等の音質を得られて いる。更に

SWB

では

EVS

符号化は同程度のビッ トレートではあるが,アルゴリズム遅延が倍以上 の音楽向きの参照符号化と比較されている。

EVS

符号化は通話可能なアルゴリズム遅延を維持しつ つ,参照符号化と同等又はそれ以上の品質を達成

(9)

図–13 クリーン音声の主観評価値 図–14 雑音重畳音声の主観評価値 図–15 音楽重畳音声及び音楽の主観評価値 していることが分かる。

4. お わ り に

3GPP

で新たに策定された

VoLTE

用高音質音 声符号化技術である低遅延で音声音響統合処理を行 う

EVS

符号化について概要説明と日本語音声での 主観品質評価について解説した。特に本会との関 わりの深い技術である,可変ラグ窓,

HQ-MDCT

TCX

,周波数帯域拡張,パケット消失隠蔽につい て述べた。日本語でも他の言語と同様に,従来の 音声符号化・音響符号化方式よりも

EVS

符号化 は高い品質を実現できることが確認できた。 国内では

2016

年初夏から

NTT

ドコモより

VoLTE

HD+

)という

EVS

符号化を使ったサー ビスが始まっている。

1

年遅れでソフトバンク (

Y!mobile

を含む)も開始した。今後,他の通信 会社も追従することが見込まれる。海外でも同様 に複数の通信会社が

EVS

符号化を用いた高音質

VoLTE

サービスを始めている。 今後

EVS

符号化が世界的に普及すれば,異種符 号化の接続による遅延や劣化も軽減され,当初の 携帯電話よりもはるかに快適なコミュニケーショ ンがもたらされることが期待できる。 謝 辞

EVS

符号化を共同開発した

Ericsson

Fraun-hofer IIS

Huawei

Nokia

NTT

NTT DOCOMO

Orange

France Telecom

),

Panasonic

Qualcomm

Samsung

VoiceAge

ZTE

(アルファベット順)の 各社関係者一同に感謝いたします。特に,大崎 慎 一郎 氏,河嶋 拓也 氏,三田 貴子 氏,堤 公孝 氏, 仲 信彦 氏,原田 登 氏(五十音順)らは

EVS

符号 化の研究開発・標準化に深く関わったことをここ に記します。また,著者たちをサポートしていただ いた,

Csaba Kos

氏,

Zongxian Liu

氏,

Srikanth

Nagisetty

氏(アルファベット順)に感謝します。

文 献

[ 1 ] ITU-T Recommendation G.711, “Pulse code modulation (PCM) of voice frequencies” (1972/1988). [ 2 ] 3GPP TS 26.071, “Mandatory speech CODEC speech processing functions; Adaptive Multi-Rate (AMR) speech Codec; General description” (1999). [ 3 ] 3GPP TS 26.090, “Mandatory speech CODEC

speech processing functions; Adaptive Multi-Rate (AMR) speech Codec; Transcoding functions” (1999).

[ 4 ] K. Jarvinen, “Standardisation of the adaptive multi-rate codec,” 10th Eur. Signal Processing Conf., 4 pages (2000).

[ 5 ] 3GPP TS 26.171, “Speech codec speech pro-cessing functions; Adaptive Multi-Rate - Wide-band (AMR-WB) speech codec; General description” (2001).

[ 6 ] 3GPP TS 26.190, “Speech codec speech pro-cessing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions” (2001).

[ 7 ] B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola and K. Jarvi-nen, “The adaptive multirate wideband speech codec (AMR-WB),” IEEE Trans. Speech Audio Process., 10, 620–636 (2002).

[ 8 ] 3GPP TS 26.290, “Audio codec processing func-tions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions” (2004).

(10)

[ 9 ] R. Salami, R. Lefebvre, A. Lakaniemi, K. Kon-tola, S. Bruhn and A. Taleb, “Extended AMR-WB for high-quality audio on mobile devices,” IEEE Commun. Mag.,44(5), pp. 90–97 (2006).

[10] ISO/IEC 23003-3, Information technology— MPEG audio technologies—Part 3: Unified speech and audio coding (2012).

[11] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre and B. Grill, “Unified speech and audio cod-ing scheme for high quality at low bitrates,” Proc. ICASSP 2009 , 4 pages (2009).

[12] G. Fuchs, M. Multrus, M. Neuendorf and R. Geiger, “MDCT-based coder for highly adaptive speech and audio coding,” Eur. Signal Processing Conf., pp. 1264–1268 (2009).

[13] K. Kikuiri and N. Naka, “MPEG unified speech and audio coding enabling efficient coding of both speech and music,” NTT DOCOMO Tech. J.,13(3), pp. 17–22 (2011).

[14] 則松武志, 知念 徹, 菊入 圭, “音声と楽音を統合 した音響信号符号化:最新の MPEG オーディオ規格 USAC,”音響学会誌, 68, 123–128 (2011).

[15] 3GPP TS 26.441, “Codec for Enhanced Voice Ser-vices (EVS); General overview” (2014).

[16] 3GPP TS 26.445, “Codec for Enhanced Voice Services (EVS); Detailed Algorithmic Description” (2014).

[17] M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z. Wang, L. Laaksonen, A. Vasilache, Y. Kamamoto, K. Kikuiri, S. Ragot, J. Faure, H. Ehara, V. Rajendran, V. Atti, H. Sung, E. Oh, H. Yuan and C. Zhu, “Overview of the EVS codec architecture,” Proc. ICASSP 2015 , pp. 5698–5702 (2015).

[18] S. Bruhn, H. Pobloth, M. Schnell, B. Grill, J. Gibbs, L. Miao, K. Jarvinen, L. Laaksonen, N. Harada, N. Naka, S. Ragot, S. Proust, T. Sanda, I. Varga, C. Greer, M. Jelinek, M. Xie and P. Usai, “Standardization of the new 3GPP EVS codec,” Proc. ICASSP 2015 , pp. 5703–5707 (2015). [19] 守谷健弘, 鎌本 優, 原田 登, 菊入 圭, 仲 信彦, 堤 公孝, 大崎慎一郎, 江原宏幸, 三田貴子, 河嶋拓也, 中 尾正悟, “3GPP 標準 EVS コーデックの概要—VoLTE 用 高性能音声音響符号化—,” 信学技報,114(475), SP2014-139, pp. 25–30 (2015).

[20] 3GPP TR 26.952, “Codec for Enhanced Voice Services (EVS); Performance characterization” (2014). [21] G. Fuchs, C. R. Helmrich, G. Markovic, M. Neusinger, E. Ravelli and T. Moriya, “Low delay LPC and MDCT-based audio coding in the EVS codec,” Proc. ICASSP 2015 , pp. 5723–5727 (2015).

[22] T. Vaillancourt, V. Malenovsky, R. Salami, Z. Liu, L. Miao, J. Gibbs and M. Jelinek, “Advances in low bitrate time-frequency coding,” Proc. ICASSP 2015 , pp. 5913–5917 (2015).

[23] T. Backstrom and C. R. Helmrich, “Arithmetic coding of speech and audio spectra using TCX based on linear predictive spectral envelopes,” Proc. ICASSP 2015 , pp. 5127–5131 (2015).

[24] Y. Tohkura, F. Itakura and S. Hashimoto, “Spectral smoothing technique in PARCOR speech analysis-synthesis,” IEEE Trans. Acoust. Speech Sig-nal Process.,26, 587–596 (1978).

[25] 嵯峨山茂樹, 古井貞 , “ラグ窓を用いたピッチ抽出 の一方法,” 信学会総合大会, 5-263 (1978).

[26] Y. Kamamoto, T. Moriya and N. Harada, “Adap-tive selection of lag-window shape for linear predic-tive analysis in the 3GPP EVS codec,” IEEE Global Conf. Signal and Information Processing, pp. 493– 496 (2015).

[27] 鎌本 優, 守谷健弘, 原田 登, “音声の周期性に依存 した可変ラグ窓による線形予測分析,” 音講論集, 2-5-3, pp. 131–132 (2016.8).

[28] ITU-T Reccomendation G.718, “Frame error ro-bust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s” (2008).

[29] ITU-T Recommendation G.718 Amendment 2, “New Annex B on superwideband scalable extension for ITU-T G.718 and corrections to main body fixed-point C-code and description text” (2010).

[30] T. Yamanashi, M. Oshikiri and H. Ehara, “Low bit-rate high-quality audio encoding and low com-plexity bandwidth extension technologies for ITU-T G.718/G.718-SWB,” IEEE Int. Conf. Communica-tions, pp. 1–5 (2011).

[31] S. Nagisetty, Z. Liu, T. Kawashima, H. Ehara, X. Zhou, B. Wang, Z. Liu, L. Miao, J. Gibbs, L. Laaksonen, V. Atti, V. Rajendran, V. Krishnan, H. Sung and K. Choo, “Low bit rate high-quality MDCT audio coding of the 3GPP EVS standard,” Proc. ICASSP 2015 , pp. 5883–5887 (2015).

[32] S. Nagisetty, T. Kawashima, H. Ehara, L. Laaksonen, H. Sung and K. Choo, “Super-wideband fine spectrum quantization for low-rate high-quality MDCT coding mode of the 3GPP EVS codec,” IEEE Global Conf. Signal and Information Processing, pp. 647–651 (2015).

[33] 江原宏幸, 三田貴子, 河嶋拓也, ナギセティ スリカン ス, リウ ゾンシェン, 中尾正悟, “3GPP 標準 EVS コー デック向け低レート超広帯域 MDCT 符号化,” 信学会総 合大会, D-14-9, p. 171 (2015).

[34] ISO/IEC 23008-3, “Information technology— High efficiency coding and media delivery in hetero-geneous environments—Part 3: 3D audio” (2015). [35] ISO/IEC 13818-7, “Information technology—

Generic coding of moving pictures and associated au-dio information—Part 7: Advanced Auau-dio Coding (AAC)” (1997).

[36] ISO/IEC 14496-3, “Information technology— Coding of audio-visual objects—Part 3: Audio” (1999).

[37] T. Moriya, Y. Kamamoto, N. Harada, T. Backstrom, C. R. Helmrich and G. Fuchs, “Harmonic model for MDCT based audio coding with LPC en-velope,” Eur. Signal Processing Conf., pp. 789–793 (2015).

[38] K. Tsutsumi and K. Kikuiri, “3GPP EVS Codec for Unrivaled Speech Quality and Future Audio Com-munication over VoLTE,” NTT DOCOMO Tech. J., 16(4), pp. 4–13 (2015).

[39] K. Tsutsumi, K. Kikuiri and J. Lecomte, “A packet loss recovery technique with line spectral fre-quency modification in 3GPP EVS codec,” IEEE Global Conf. Signal and Information Processing, pp. 771–774 (2015).

[40] 鎌本 優, 守谷健弘, 原田 登, “3GPP 標準 EVS コーデックの日本語音声品質評価,” 音講論集, 3-2-9, pp. 285–286 (2016.2).

[41] ITU-T P.800, “Methods for subjective determina-tion of transmission quality” (1993/1996).

参照

関連したドキュメント

All three problems (1*, 2*.1 2*.2) are open; there are conjectures which would provide complete answers to these problems and some partial results supporting these conjectures

12―1 法第 12 条において準用する定率法第 20 条の 3 及び令第 37 条において 準用する定率法施行令第 61 条の 2 の規定の適用については、定率法基本通達 20 の 3―1、20 の 3―2

1年次 2年次 3年次 3年次 4年次. A学部入学

6/18 7/23 10/15 11/19 1/21 2/18 3/24.

26‑1 ・ 2‑162 (香法 2 0 0

23-1•2-lll

For broad spectrum disease control, tank mix the 1 fl oz Dorado with a registered contact fungicide at the label rate.. Tank mix the 1-2 fl oz/1,000 sq ft Dorado rate with

European corn borer 1 1/2 to 2 For best results on chinch bug, use ground equipment to apply at least 20 gallons of water per acre and direct spray toward stalk to provide