ビット深度スケーラブル符号化 - 高ビット深度、広ダイナミックレンジ(HDR)画像信号の符号化

3. 高ビット深度、広ダイナミックレンジ(HDR)画像信号の符号化

3.2. ビット深度スケーラブル符号化

させる方向へ 1 変化させる。ここでも、partition の隣り合う要素が同一となる、0~1023 の範囲を逸脱するなど、結果として不正なpartitionとなる様な操作は禁止される。

突然変異を行った後は、それぞれの個体のMSEを算出し、淘汰処理に入る。淘汰操作は、

N 個の個体を次世代へ残し、他を捨て去る操作であり、その選択法にはルーレット選択、

ランキング選択などが挙げられる。

・ルーレット選択

ルーレット選択では、各々の個体のMSEが低ければ低いほどその個体が次世代に残る確率が高くなる様確率を定め、その確率に基づいて選択する方法である。この方法では優秀な個体が必ずしも次世代に残るとは限らず、偶然性が生まれるが、個体間のMSEの格差が激しい場合には結局優秀な個体に生存確率が偏ってしまう。

・ランキング選択

ランキング選択では、N～2N個の個体群をMSEの小さい順にソートし、予め順位に応じて決めておいた確率でルーレット選択と同様に選択する手法である。この手法ではMSE の格差に生存確率が依存しない為、偶然性が相対的に高くなる。

表3.2に選択法としてルーレット選択を用いた場合での、世代別のエリート個体（その世代の中で最もMSEが低い個体）のMSEを示している。入力としては図3.3(a)の信号を、

親個体群の数Nとしては16を、交差率には0.6、要素毎の突然変異率を0.01に設定し、

初期個体には先述の階層型Lloyd-Max TMOを含め、残りをランダムに生成した。

表3.2 世代数（反復数）とMSEの関係例

Gen. 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 MSE 0.6949 0.6942 0.6940 0.6939 0.6938 0.6937 0.6937 0.6921 0.6916 0.6913

階層型Lloyd-Mac TMOのMSEは0.6969であるが、10000世代を経て、その個体群の中

のエリート個体のMSEは0.6913まで低下している。

は例えば[10][11]では既存の空間性スケーラビリティや SNR スケーラビリティの枠組みを元にしており、こちらでは基本レイヤと拡張レイヤの符号化両方でフレーム間予測を用いている。一方[1]では、フレーム間予測を基本レイヤのみで行い、レイヤ間予測のみで拡張レイヤを構成する方針を取っている。

3.2.2.

複数

MCP

ループ型

[10][11]で提案されている手法と既存のSVCにおける空間スケーラビリティとの違いは、

空間スケーラビリティでは各レイヤに入力される解像度が異なるのに対し、解像度は同じでビット深度が異なる点、基本レイヤからの信号予測に空間アップサンプリングの代わりにビット深度アップサンプリング（Inverse Tone Mapping）を用いる点が挙げられる。基本レイヤのイントラ符号化済マクロブロックをInverse Tone Mappingし、拡張レイヤの予測信号として用いるビット深度レイヤ間イントラ予測や、基本レイヤにおける残差信号に

対してInverse Tone Mappingし、拡張レイヤでも用いるビット深度レイヤ間残差予測など

を採用している。この方式では、基本・拡張レイヤの両方でフレーム間予測を行う為、動き補償予測(MCP: Motion-Compensated Prediction)ループは各レイヤにそれぞれ必要であり、符号側だけでなく復号側にも複雑な構成を要する。

3.2.3.

単一

MCP

ループ型

[1]などで提案される、基本レイヤのみで動き補償予測を行う単一 MCP ループ型のビッ

ト深度スケーラブル符号化の枠組みを図3.7に示す。

図3.7 単一MCPループ型ビット深度スケーラブル符号化の枠組み

この方式のメリットはMCPループが一つだけであるため、符号・復号側の両方において要求されるメモリ量や計算処理性能が低く抑えられることにある。

3.2.4.

ビット深度スケーラビリティの規格化への取り組み

ビット深度スケーラビリティの規格化へ向け、JVT およびその後継の Joint

Collaborative Team on Video Coding(JVC-VC)によってそれを協議する Ad hoc Group(AhG) for chroma format and bit-depth scalabilityが立ち上げられた。標準化会議の場においては 2006 年に初めて[10][11]の前身となるビット深度スケーラビリティについての提案書[12]が出され、以降、[1]の前身となる[13]や、ビット切捨てではなく非線形TMO の利用する考えを初めてビット深度スケーラビリティに取り入れ、そのTMO情報の符号化法を提案した[14]、マクロブロック単位でのTMO設定法を提案する[15]、レイヤ間予測において適応フィルタリングを用い、レイヤ間予測残差を抑制する[16]などの様々な提案書が出されてきたが、規格化までには至らず、現在はAhGとしての活動は停止している状態である。

3.2.5.

レイヤ間予測としての

Inverse Tone Mapping

先述の通り、ビット深度スケーラビリティでは、基本レイヤ、拡張レイヤへ、それぞれ

HDR原信号にTone Mappingを施したSDR信号と、HDR原信号を入力する。そして、レ

イヤ間予測には、ビット深度アップサンプリングの手段としてInverse Tone Mappingを用いている。Inverse Tone Mappingに用いるTMOは、2つの入力信号に対しTone Mapping 歪みが最小となる様なTMOをエンコーダ側にて算出し、これをストリームに補助情報として付加している。TMOを生成する際には、マクロブロック単位で生成を行う[15]などの例外はあるものの、シーケンス単位やピクチャ単位で1つのTMOを用いる様にTMOの学習が行われ、SPSやPPSに格納される。TMOの生成は、式(3.2)で表される様なMSEを最小化する様に行われる。

𝑀𝑆𝐸(𝑓) =1

𝑁‖𝑥_𝐻𝐷𝑅− 𝑓(𝑥_𝑆𝐷𝑅)‖₂²

(3.2)

𝑥_𝐻𝐷𝑅, 𝑥_𝑆𝐷𝑅 はそれぞれTMO生成対象となるHDR原信号とSDR信号を表すベクトル、𝑁 はそのベクトルの要素数（画素総数）、𝑓 はSDR階調値からHDR階調値への写像とする。

3.2.6. Inverse Tone Mapping

における問題点

前節で示した方式によって生成されたTMOは、𝑥_𝐻𝐷𝑅 を Scale × 𝑥_𝑆𝐷𝑅+ Offsetと見做したときのScale, Offsetの組や、𝑥_𝐻𝐷𝑅, 𝑥_𝑆𝐷𝑅 の関係を表3.3の様にLUTで表したものとして定義される。

表3.3 𝑥_𝐻𝐷𝑅 と 𝑥_𝑆𝐷𝑅 の関係を示すLUT

𝑥𝑆𝐷𝑅 0 1 2 3 4 … 253 254 255

𝑥𝐻𝐷𝑅 0 3 6 8 12 … 1016 1019 1022

図3.8にこの様なLUTを用いてInverse Tone Mappingを用いた場合における、信号とそのヒストグラムの推移を示す。

図3.8 階調値変換により生成されるHDR信号とそのヒストグラム

左側に示されているHDR原信号は、Tone Mappingにより中央に示されるSDR信号へ変換される。この際、ビット深度は10bitから8bitへ削減され、HDR信号の下に示されているそのヒストグラムは滑らかな分布を持っているのに対し、SDR 信号のヒストグラムは階調値の不均一な統合により滑らかでない人工的なヒストグラムとなっている。更にその右

はLUTを用いたInverse Tone Mappingによって生成されたHDR予測信号であり、見か

け上、左のHDR原信号とは殆ど変らないが、そのヒストグラムを観察すると、飛び飛びの階調値しか持っておらず、櫛状の様なものとなっている。これは、表3.3の様なLUTを用いた階調値変換では、出力HDR階調値として1や5といった中間の階調値は出現し得ない為である。

レイヤ間予測において中間階調値が生成されないことは、その残差信号の符号化に影響を与えると考える。図3.9に、HDR信号でのグラデーション領域（滑らかに明暗が推移している領域）における、原信号、予測信号とその差分である残差信号の模式図を示す。

図3.9 グラデーション領域におけるレイヤ間予測残差信号の特性

実際にはInverse Tone Mappingなどの一連の処理は、二次元信号である画像信号に対して

行われるが、図3.9では簡単の為に一次元信号表現を行っている。原信号が滑らかであって

も、Tone Mapping, Inverse Tone Mappingを経たその予測信号は、中間階調値を持ってお

らず、故に滑らかな階調値推移を表現することが出来ない。残差信号は予測信号が滑らかでない、ステップ状の波形を持つが為に、鋸状の波形として生成される。レイヤ間予測において、実際に周波数変換・量子化を経て符号化されるのはこの残差信号であり、デコード側ではレイヤ間予測による予測信号と、符号化劣化を経た残差信号を元に信号を再構成することとなる。滑らかな原信号の波形を復元するには、この鋸状波形を完全に再現出来る様に符号化を行わなければならないが、一般に残差信号のパワーが高ければ高いほど、

一般に残差信号として送らなければならない情報量は増えるため、これは難しい。

残差として送る信号の符号量を減らし、原信号を忠実に再現するためには、レイヤ間予測時における予測精度向上が求められる。単純なLUTによる階調値変換では中間階調は生成されないが、例えば、階調値の空間的な推移から元々のHDR階調値ではどの様な滑らかな推移をしていたのかは、人間の眼にはある程度の判別が出来る為、これを信号に対する平滑化処理として実現することが出来る。また、予測HDR信号のヒストグラムは中間階調を持たないが為に櫛状となっているものの、原信号のヒストグラムが一般的な自然画像と同様に滑らかな推移を持っていると仮定すれば、元々のHDR原信号のヒストグラムは推定可能であり、失われた中間階調がどの程度復元されるべきかを推定することが可能である。

これらの方針により、予測HDR信号として十分にHDR原信号に近い、滑らかな波形を復元することが可能であれば、残差信号としての伝送量を大幅に減らし、符号化効率を向上させることが出来ると考える。次章に、これらの方針を反映した新しいレイヤ間予測手法を提案する。

ドキュメント内竹内健 (ページ 34-39)