3. 高ビット深度、広ダイナミックレンジ(HDR)画像信号の符号化
3.2. ビット深度スケーラブル符号化
させる方向へ 1 変化させる。ここでも、partition の隣り合う要素が同一となる、0~1023 の範囲を逸脱するなど、結果として不正なpartitionとなる様な操作は禁止される。
突然変異を行った後は、それぞれの個体のMSEを算出し、淘汰処理に入る。淘汰操作は、
N 個の個体を次世代へ残し、他を捨て去る操作であり、その選択法にはルーレット選択、
ランキング選択などが挙げられる。
・ルーレット選択
ルーレット選択では、各々の個体のMSEが低ければ低いほどその個体が次世代に残る確 率が高くなる様確率を定め、その確率に基づいて選択する方法である。この方法では優秀 な個体が必ずしも次世代に残るとは限らず、偶然性が生まれるが、個体間のMSEの格差が 激しい場合には結局優秀な個体に生存確率が偏ってしまう。
・ランキング選択
ランキング選択では、N~2N個の個体群をMSEの小さい順にソートし、予め順位に応 じて決めておいた確率でルーレット選択と同様に選択する手法である。この手法ではMSE の格差に生存確率が依存しない為、偶然性が相対的に高くなる。
表3.2に選択法としてルーレット選択を用いた場合での、世代別のエリート個体(その世 代の中で最もMSEが低い個体)のMSEを示している。入力としては図3.3(a)の信号を、
親個体群の数Nとしては16を、交差率には0.6、要素毎の突然変異率を0.01に設定し、
初期個体には先述の階層型Lloyd-Max TMOを含め、残りをランダムに生成した。
表3.2 世代数(反復数)とMSEの関係例
Gen. 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 MSE 0.6949 0.6942 0.6940 0.6939 0.6938 0.6937 0.6937 0.6921 0.6916 0.6913
階層型Lloyd-Mac TMOのMSEは0.6969であるが、10000世代を経て、その個体群の中
のエリート個体のMSEは0.6913まで低下している。
は例えば[10][11]では既存の空間性スケーラビリティや SNR スケーラビリティの枠組みを 元にしており、こちらでは基本レイヤと拡張レイヤの符号化両方でフレーム間予測を用い ている。一方[1]では、フレーム間予測を基本レイヤのみで行い、レイヤ間予測のみで拡張 レイヤを構成する方針を取っている。
3.2.2.
複数MCP
ループ型[10][11]で提案されている手法と既存のSVCにおける空間スケーラビリティとの違いは、
空間スケーラビリティでは各レイヤに入力される解像度が異なるのに対し、解像度は同じ でビット深度が異なる点、基本レイヤからの信号予測に空間アップサンプリングの代わり にビット深度アップサンプリング(Inverse Tone Mapping)を用いる点が挙げられる。基 本レイヤのイントラ符号化済マクロブロックをInverse Tone Mappingし、拡張レイヤの予 測信号として用いるビット深度レイヤ間イントラ予測や、基本レイヤにおける残差信号に
対してInverse Tone Mappingし、拡張レイヤでも用いるビット深度レイヤ間残差予測など
を採用している。この方式では、基本・拡張レイヤの両方でフレーム間予測を行う為、動 き補償予測(MCP: Motion-Compensated Prediction)ループは各レイヤにそれぞれ必要であ り、符号側だけでなく復号側にも複雑な構成を要する。
3.2.3.
単一MCP
ループ型[1]などで提案される、基本レイヤのみで動き補償予測を行う単一 MCP ループ型のビッ
ト深度スケーラブル符号化の枠組みを図3.7に示す。
図3.7 単一MCPループ型ビット深度スケーラブル符号化の枠組み
この方式のメリットはMCPループが一つだけであるため、符号・復号側の両方において要 求されるメモリ量や計算処理性能が低く抑えられることにある。
3.2.4.
ビット深度スケーラビリティの規格化への取り組みビ ッ ト 深 度 ス ケ ー ラ ビ リ テ ィ の 規 格 化 へ 向 け 、JVT お よ び そ の 後 継 の Joint
Collaborative Team on Video Coding(JVC-VC)に よ っ て そ れ を 協 議 す る Ad hoc Group(AhG) for chroma format and bit-depth scalabilityが立ち上げられた。標準化会議 の場においては 2006 年に初めて[10][11]の前身となるビット深度スケーラビリティについ ての提案書[12]が出され、以降、[1]の前身となる[13]や、ビット切捨てではなく非線形TMO の利用する考えを初めてビット深度スケーラビリティに取り入れ、そのTMO情報の符号化 法を提案した[14]、マクロブロック単位でのTMO設定法を提案する[15]、レイヤ間予測に おいて適応フィルタリングを用い、レイヤ間予測残差を抑制する[16]などの様々な提案書が 出されてきたが、規格化までには至らず、現在はAhGとしての活動は停止している状態で ある。
3.2.5.
レイヤ間予測としてのInverse Tone Mapping
先述の通り、ビット深度スケーラビリティでは、基本レイヤ、拡張レイヤへ、それぞれ
HDR原信号にTone Mappingを施したSDR信号と、HDR原信号を入力する。そして、レ
イヤ間予測には、ビット深度アップサンプリングの手段としてInverse Tone Mappingを用 いている。Inverse Tone Mappingに用いるTMOは、2つの入力信号に対しTone Mapping 歪みが最小となる様なTMOをエンコーダ側にて算出し、これをストリームに補助情報とし て付加している。TMOを生成する際には、マクロブロック単位で生成を行う[15]などの例 外はあるものの、シーケンス単位やピクチャ単位で1つのTMOを用いる様にTMOの学習 が行われ、SPSやPPSに格納される。TMOの生成は、式(3.2)で表される様なMSEを最 小化する様に行われる。
𝑀𝑆𝐸(𝑓) =1
𝑁‖𝑥𝐻𝐷𝑅− 𝑓(𝑥𝑆𝐷𝑅)‖22
(3.2)
𝑥𝐻𝐷𝑅, 𝑥𝑆𝐷𝑅 はそれぞれTMO生成対象となるHDR原信号とSDR信号を表すベクトル、𝑁 はそのベクトルの要素数(画素総数)、𝑓 はSDR階調値からHDR階調値への写像とする。
3.2.6. Inverse Tone Mapping
における問題点前節で示した方式によって生成されたTMOは、𝑥𝐻𝐷𝑅 を Scale × 𝑥𝑆𝐷𝑅+ Offsetと見做した ときのScale, Offsetの組や、𝑥𝐻𝐷𝑅, 𝑥𝑆𝐷𝑅 の関係を表3.3の様にLUTで表したものとして 定義される。
表3.3 𝑥𝐻𝐷𝑅 と 𝑥𝑆𝐷𝑅 の関係を示すLUT
𝑥𝑆𝐷𝑅 0 1 2 3 4 … 253 254 255
𝑥𝐻𝐷𝑅 0 3 6 8 12 … 1016 1019 1022
図3.8にこの様なLUTを用いてInverse Tone Mappingを用いた場合における、信号とそ のヒストグラムの推移を示す。
図3.8 階調値変換により生成されるHDR信号とそのヒストグラム
左側に示されているHDR原信号は、Tone Mappingにより中央に示されるSDR信号へ変 換される。この際、ビット深度は10bitから8bitへ削減され、HDR信号の下に示されてい るそのヒストグラムは滑らかな分布を持っているのに対し、SDR 信号のヒストグラムは階 調値の不均一な統合により滑らかでない人工的なヒストグラムとなっている。更にその右
はLUTを用いたInverse Tone Mappingによって生成されたHDR予測信号であり、見か
け上、左のHDR原信号とは殆ど変らないが、そのヒストグラムを観察すると、飛び飛びの 階調値しか持っておらず、櫛状の様なものとなっている。これは、表3.3の様なLUTを用 いた階調値変換では、出力HDR階調値として1や5といった中間の階調値は出現し得ない 為である。
レイヤ間予測において中間階調値が生成されないことは、その残差信号の符号化に影響 を与えると考える。図3.9に、HDR信号でのグラデーション領域(滑らかに明暗が推移し ている領域)における、原信号、予測信号とその差分である残差信号の模式図を示す。
図3.9 グラデーション領域におけるレイヤ間予測残差信号の特性
実際にはInverse Tone Mappingなどの一連の処理は、二次元信号である画像信号に対して
行われるが、図3.9では簡単の為に一次元信号表現を行っている。原信号が滑らかであって
も、Tone Mapping, Inverse Tone Mappingを経たその予測信号は、中間階調値を持ってお
らず、故に滑らかな階調値推移を表現することが出来ない。残差信号は予測信号が滑らか でない、ステップ状の波形を持つが為に、鋸状の波形として生成される。レイヤ間予測に おいて、実際に周波数変換・量子化を経て符号化されるのはこの残差信号であり、デコー ド側ではレイヤ間予測による予測信号と、符号化劣化を経た残差信号を元に信号を再構成 することとなる。滑らかな原信号の波形を復元するには、この鋸状波形を完全に再現出来 る様に符号化を行わなければならないが、一般に残差信号のパワーが高ければ高いほど、
一般に残差信号として送らなければならない情報量は増えるため、これは難しい。
残差として送る信号の符号量を減らし、原信号を忠実に再現するためには、レイヤ間予 測時における予測精度向上が求められる。単純なLUTによる階調値変換では中間階調は生 成されないが、例えば、階調値の空間的な推移から元々のHDR階調値ではどの様な滑らか な推移をしていたのかは、人間の眼にはある程度の判別が出来る為、これを信号に対する 平滑化処理として実現することが出来る。また、予測HDR信号のヒストグラムは中間階調 を持たないが為に櫛状となっているものの、原信号のヒストグラムが一般的な自然画像と 同様に滑らかな推移を持っていると仮定すれば、元々のHDR原信号のヒストグラムは推定 可能であり、失われた中間階調がどの程度復元されるべきかを推定することが可能である。
これらの方針により、予測HDR信号として十分にHDR原信号に近い、滑らかな波形を復 元することが可能であれば、残差信号としての伝送量を大幅に減らし、符号化効率を向上 させることが出来ると考える。次章に、これらの方針を反映した新しいレイヤ間予測手法 を提案する。