グローバルモーション検出を用いた 8K 動画の H.265/HEVC 符号化画質改善

(1)

2014 ^{年度修士論文}

グローバルモーション検出を用いた 8K ^動画の H.265/HEVC ^{符号化画質改善}

及び

歪みを考慮した交通道路標識認識

指導：

甲藤二郎

教授

2015 年 2 月 6 日

早稲田大学理工学術院基幹理工学研究科情報理工学専攻

5113B057-1 ^高田涼生

(2)

(3)

第 1 ^章

序論

1.1 ^はじめに

近年，日本では4K（画素数3840x2160）や8K（画素数7680x4320）など超高精細動画像の放送実現を目指して研究開発が盛んに行われている．2020年の東京オリンピック開催が決まったことから放送計画は前倒しされ，2014年の6月には4Kの試験放送が開始し，2016年には8Kの試験放送も予定されている[1]．これら4Kや8Kの非常に高精細な動画像をより高品質に圧縮するために，最新の動画像符号化技術High Eﬃciency Video Coding (HEVC)[2]が2013年1月に標準化された．HEVCの初期バージョンの規格化は終了しているが，その拡張仕様の規格化は現在も進行中である．HEVCの要素技術の改善は社会からも需要が高く，今後もさらなる発展が期待されている．

また，画像認識の分野では公共交通機関について，IT技術を用いた安全保障の研究が盛んに行われている．近年ではADAS（Advanced Driver Assistance Systems，先進運転支援システム）

が向上し，ドライブを適応的にサポートするシステムは既に車の中に搭載され始めている[3]．その中でも車載カメラから撮影された前方道路画像を分析し，交通道路標識を自動認識する研究が進んでいる．このシステムはTSR (Traﬃc Sign Recognition)と呼ばれ，ADASに欠かせないシステムとなっており，今後もさらなる発展が予想される．

1.2 ^研究目的

動画像符号化技術には，動き補償フレーム間予測符号化と呼ばれる技術がある．動画像の前フレームと後フレームの被写体がどれだけ動いたかを表す動きベクトルを計算し，その上で動き補償を施した予測誤差を計算すると，効率的な圧縮を行うことができる．正確な動きを予測すればするほど，予測誤差を少なくすることができる．現在の動き予測はフレーム内を可変サイズのブロックに分割してブロックごとに動きを予測することでさらに精度を高めているが，平行移動の動きのみで予測を行っているため，パンの動きは扱えるが，ズームや回転の動きを正確に補償することができない．また，ブロックごとの動き補償はローカルな動きに対応しやすく，カメラ全体の動きであるグローバルモーションが存在した時に不利な動き補償となる．4K8Kの超高精細動画像は解像度が大きいためフレーム内の動きも大きく，ズーム・回転による符号化効率の低下

(8)

第1^{章序論}

が著しいので，これらの問題の解決は重要である．そこで，私はグローバルモーション検出を用

いた 8K動画のH.265/HEVC符号化画質改善を行う手法を提案する．グローバルモーションを

発見することで全体の動きを個別に捉えないことで符号化効率を高める．アフィン変換を用いることで正確な動き変換を目指す．今後需要が高まる8K動画で実験を行い，提案手法が有効であるかを確認する．その後，提案手法による動きベクトル値の変化や主観的な画質評価を行うことで本手法の有効性を吟味する．

また，近年ではADAS (Driver Assistance Systems)が向上し，交通道路標識を自動認識する研究が進んでいる．しかし，車載カメラ画像は車速によるぼやけや歪みが生じていることから認識精度が下がる問題がある．そこで私は，事前の歪み補正処理や歪みを加えた標識テンプレートとのテンプレートマッチングを行うことで，認識率を向上させる手法を提案する．実際に道路画像に対して実験を行い，提案手法が有効であるかを確認する．

(9)

1.3 ^{本論文の構成と概要}

本論文は，符号化研究と画像認識研究の2つの分野に分かれているので，それぞれについて順に説明する．

[ 第 1 章 ] 序論

本研究の背景と目的，本論文の構成と概要について述べる．

[ 第 2 章 ] 符号化研究：関連技術

表色系や圧縮の基礎技術，動画像符号化の歴史，画質評価手法について述べる．

[ ^第 3 ^章 ] ^{符号化研究：} HEVC ^{の符号化技術}

最新の動画像符号化技術であるHEVCの要素技術やその問題点について述べる．

[ 第 4 章 ] 符号化研究：提案手法

HEVCの問題点を克服する提案手法の詳細について述べる．

[ 第 5 章 ] 符号化研究：実験

符号化研究の提案手法の有効性を定量・定性的に評価する．

[ ^第 6 ^章 ] 画像認識研究：関連技術

HSV表色系，エッジ，特徴量について述べる．

[ ^第 7 ^章 ] 画像認識研究：従来手法

交通道路標識認識に関する従来手法を述べる．

[ 第 8 章 ] 画像認識研究：提案手法

交通道路標識認識に関する提案手法を述べる．

[ ^第 9 ^章 ] ^{画像認識研究：実験}

交通道路標識認識研究の提案手法の有効性を定量・定性的に評価する．

[ ^第 10 ^章 ] ^結論

本論文の結論と今後の課題について研究ごとに述べる．

(10)

(11)

第 2 ^章

符号化研究：関連技術

2.1 AD ^変換

現在の圧縮技術はデジタル処理によって行われている．したがって，マイクやビデオカメラから得られる音声や画像情報であるアナログ信号を電気信号であるデジタル信号へ変換する必要がある．この変換は大きく3段階に分けられる．

• ^標本化(Sampling)：アナログ信号から一定の時間間隔で標本を取り出すこと

• ^量子化(Quantization)：標本化された情報を整数レベルに整えること

• ^符号化(Encoding)：量子化された信号をデジタル信号にすること

以下では，それぞれについて詳しく述べる．

2.1.1 標本化 (Sampling)

入力されたアナログ信号をデジタル化する最初の処理が標本化である．標本化とは，アナログ信号のサンプルをとるという意味である．標本化の処理の様子を Fig.2.1に示す．この処理はナイキストの定理により，元のアナログ信号の帯域の2倍以上の周波数（標本化周波数）で標本化するとデジタル化された信号は元のアナログ信号に完全に復元できる．

Figure 2.1 Sampling

(12)

第2章符号化研究：関連技術

2.1.2 ^量子化 (Quantization)

標本化された信号は，アナログ信号のままなので，連続的な値で表現されている．これを必要なレベル数の整数値に変換することが量子化である．レベル数が大きければ細かく，小さければ荒く量子化される．量子化の処理の様子をFig.2.2に示す．

Figure 2.2 Quantization

2.1.3 ^符号化 (Encoding)

アナログ標本値をあるレベルのデジタル代表値のうち，最も近いレベルの値を選び，デジタル信号として数値で表現することが符号化である．符号化の処理の様子をFig.2.3に示す．最も近いレベルの値に整えるので，実際のアナログ値と異なる値として記録される．この値の差を量子化誤差と呼ぶ．量子化誤差が大きくなると，元の情報を復元することが困難となるため，AD変換では十分な量子化レベル数をとる．

(13)

2.2 ^表色系

画像処理において色は重要な役割を果たす．色の表し方を体系的に表したものが表色系である．

より厳密に人間の知覚する色を表す方法や，画像処理を効率的に行うための表色系の変換方法についても述べる[4]．

2.2.1 RGB ^表色系

RGB色空間は加法混色の代表である．加法混色とは，色を重ね合わせて別の色を作るとき，明るくなる混色のことである．人間の目は，赤(Red)・緑(Green)・青(Blue)の3色に反応するので，この3色を原色とする色空間は人間の目の構造に沿った色空間である[5]．RGBの加法混色

の様子をFig.2.4に示す．赤と青を混ぜるとマゼンダ，赤と緑を混ぜるとイエロー，緑と青を混ぜ

るとシアン，全てを混ぜると白になることが分かる．RGBのそれぞれに8bitを割り振り，256階調としてそれぞれの色を混色すると，256× 256× 256=16,777,206通りの色を表現することができる．1つの画素に必要な記憶容量は24bitであるので，24bitカラーと呼ばれる．

Figure 2.4 RGB color system[5]

2.2.2 YCbCr 表色系

YCbCr表色系はカラーテレビなどの映像で用いられる表色系であり，DVDやデジタルテレビ

などで採用されている．輝度成分を表すYと輝度以外の色差成分を表すCb^とCr^{に分けられて} いる．CbはYと青成分 Bの差を表し，CrはYと赤成分Rの差を表す．人間の目は輝度変化に敏感であり，輝度以外の色差の変化には鈍感であるということが知られているため，輝度と輝度以外の成分に分離し，輝度以外の成分を圧縮することで効率の良い伝送を行うことができる．RGB からYCbCrへの変換式はITU-R BT.601によって規格化されている．ITU-R BT.601とは，ア

(14)

ナログビデオ信号をデジタルビデオデータに変換するときのデータ形式を規定した国際規格である[6]．これはSDTV（Standard Definition Television，標準解像度テレビ）に向けられた変換

式であり， 





Y = 0.299R+ 0.587G+ 0.114B Cb= (B−Y)/1.772

Cr= (R−Y)/1.402

(2.1)

と定義される．YCbCr^とRGBの変換を行列で表現すると，



Y Cb Cr



=



0.299 0.587 0.114 0.596 −0.274 −0.322 0.211 −0.523 0.312







R G B



 (2.2)

となる．また，HDTV（High Definition Television，高精細テレビ）に向けられた変換式はBT.709

で定められ， 





Y = 0.2126R+ 0.7152G+ 0.0722B Cb= (B−Y)/1.8556

Cr = (R−Y)/1.5748

(2.3)

と定義される．YCbCrとRGBの変換を行列で表現すると，



Y Cb Cr



=



 0.2126 0.7152 0.0722

−0.1146 −0.3854 0.5000 0.5000 −0.4542 −0.0458







R G B



 (2.4)

となる．

YCbCrでは，輝度成分Yと輝度以外の色差成分Cb，Crの解像度を変えることで効率の良い

映像符号化を実現できる．そこで，様々なフォーマットが規格化されている．YもCbもCrも解像度を変えずに最高の画質で表現し，Y:Cb:Crの解像度比が4:4:4になっているものを4:4:4と呼び，合計24bitで表現される．CbとCrに対して，水平方向に間引くことによって，CbとCrを 1/2に圧縮したものを4:2:2と呼び，合計16bitで表現され2/3の圧縮となる．また，水平方向にも垂直方向にも間引くことによって，CbとCrを1/4に圧縮したものを4:2:0と呼び，合計12bit で表現され1/2の圧縮となる．色を扱う場合，符号量削減の観点からRGB表色系よりもYCbCr 表色系に変換してから使用することが多い．

(15)

2.3 ^{画像圧縮の基礎技術}

2.3.1 PCM ^と DPCM

まず，全ての画像圧縮の基本であるPCM^（Pulse Code Modulation，パルス符号変調）は，2.1 で述べたように，アナログ画像を標本化して，その値を量子化し，デジタル表現することである．

標本化の間隔はナイキストの定理から定めることができるので，量子化間隔をどの程度にすればよいかを考える必要がある．モノクロ画像信号の場合，量子化の代表値の数が少ないと，現実的には存在しないはずなのに表示される擬似的な境界線である偽輪郭(False Contouring)が表れてしまう．代表値の数を多くすると画像は綺麗になるが，符号量は増加してしまうので，丁度良い代表値の数を設定する必要がある．SDTV映像や HDTV映像に対しては，8bit（代表値の数が

2⁸ = 256個）の量子化を行うと実用的であることが分かっている．この量子化の数のことを色深

度といい，色深度が8bitのときに表現できる256パターンのことを256階調と呼ぶ．

PCM信号をそのまま送るのではなく，PCM信号の差分を送ることによって，さらなる高圧縮を実現することができる．この技術がDPCM^（Diﬀerential PCM^，差分PCM^{）である．最初の} 画素に対しては1つ前の画素が存在しないので，そのまま伝送し，次の画素からは前の画素値の差分を伝送する．DPCMの複号器では，すでに送信されてきた複号済みの画素値に差分である予測誤差を毎回加えていくことによって，元のPCM信号を再現することができる．Fig.2.5^に国際標準化作業で用いられている試験画像の1つであるSusieのDPCMの様子を示す．左図が原画像であり，右図が画素間の差分値を画像にしたものである．差分値は-255〜255の値をとるので，

差分値0はグレーで表現されている．また，それぞれの画像の画素値の振幅分布を Fig.2.6に示す．左図は原画像のY成分についてのPCM画素値の振幅分布であり，右図はDPCM予測誤差値の振幅分布を表す．予測誤差の振幅分布は0に偏る分布になっていることから，予測により圧縮の効果が得られることが分かる．

Figure 2.5 DPCM (Diﬀerential Pulse Code Modulation)[7]

(16)

Figure 2.6 Distribution of DPCM[7]

予測に用いる画素は一般的に隣接するものを用いると効果の高い圧縮が得られる．隣接する画素は空間的なものを用いても良いし，時間的なものを用いても良い．この画素が符号化しようとする画素と同じフレーム内に存在する場合の予測をフレーム（画面）内予測，異なるフレームに存在する場合の予測をフレーム（画面）間予測と呼ぶ．

2.3.2 ^{フレーム間予測符号化}

現在の動画像は1秒間に24フレームや30フレームの画像を表示しているため，フレーム間での画像の変化が小さい．被写体の動きの変化が少ないほどこの画像の変化は小さいため，DPCM の方法をフレーム間に適用することで，高い効果が期待できる．これをフレーム間予測符号化 (Inter Frame Predictive Coding)と呼び，フレーム間に存在する冗長性を除去して符号化効率を向上させる[8]．

最も単純なフレーム間予測符号化は，現在のフレームを符号化対象のフレームとし，直前のフレームを参照フレームとして同じ位置の画素値を用いて予測を行う．符号化対象フレームの時間をt，画像の位置(x, y)における画素値をu(x, y, t)とする．直前のフレームの画素値u(x, y, t−1) を用いて，予測誤差e(x, y, t)は，

e(x, y, t) =u(x, y, t)−u(x, y, t−1) (2.5) と表現できる．単純なフレーム間予測を用いた予測誤差の生成の様子をFig.2.7に示す．左図が対象フレーム，中図が参照フレーム（予測フレーム），右図が予測誤差を表す．

(17)

Figure 2.7 The most simple inter frame predictive coding[8]

このフレーム間予測符号化は，1フレーム前の画像信号を必要とするため，大容量のメモリがあって初めて実現できるので，1970年代にやっと装置が実現し，リアルタイムの動画像伝送に用いられるようになった．

2.3.3 動き補償フレーム間予測符号化

フレーム間予測符号化では，最も単純な方法を用いると前のフレームとの差分を予測誤差とすることで圧縮効果をはかっているが，フレーム間に存在する動きが少ない動画像に対してのみ有効な圧縮方法である．動画像に大きな動きがあると，フレーム間の類似性は減少し，差分をとっても情報量を減らすことはできず，かえって増やしてしまう場合もある．しかし，フレーム内に存在する被写体のフレーム間での動き情報があれば，これを用いて予測画像を生成することができ，そのうえで予測誤差を求めれば非常に効果的である．フレーム間での被写体の局所的な動き情報をベクトルで表したものを動きベクトル(Motion Vector)と呼ぶ．動きベクトルの生成の様

子をFig.2.8に示す．左図が直前の参照フレームであり，右図が現在のフレームと動きベクトルを

表す．赤色の矢印が動きベクトルであり，フレーム間で被写体がどれだけ動いたのかを表す．分かりやすいように，前フレームの被写体を透明で示してある．

Figure 2.8 Motion vector

(18)

この動きベクトルを用いて予測画像を生成し，直前のフレームとの予測誤差を計算する技術を動き補償フレーム間予測符号化(Motion Compensation Inter Frame Predictive Coding) と呼ぶ．動きベクトルを探し求める処理にかなり多くの計算時間を必要とするので，1980年代にやっと実用化された．

実際の動き補償はフレーム内を小さなブロックに分割してブロックごとに動きベクトルを求めている．ブロックごとに参照フレーム内で最も差分が小さくなるブロックを探索する．伝送される情報はブロックごとの動きベクトルと予測誤差である．ブロックを小さくすることで細かい動きを予測することができるので予測誤差は減っていくが，動きベクトルの情報量が増加していくため，適当な大きさのブロックを選択する必要がある．符号化対象フレームの対象ブロックにおける動きベクトルを(vx(x, y), vy(x, y))とすると，直前のフレームの画素値と動きベクトルから生成される予測フレームの画素値は，u(x−v_x(x), y−v_y(y), t−1)と表すことができる．よって，予測誤差e(x, y, t)は，

e(x, y, t) =u(x, y, t)−u(x−vx(x), y−vy(y), t−1) (2.6) と表現できる．動き補償フレーム間予測を用いた予測誤差の生成の様子をFig.2.9に示す．左図が対象フレームと動き補償による動きベクトル，中図が動き補償によって得られた予測フレーム，

右図が予測誤差を表す．

Figure 2.9 Inter frame predictive coding by motion compensation[8]

(19)

フレームとGOP^の概要をFig.2.10^に示す．Bフレームは双方向から予測を行うので，精度向上が期待できる．しかし，未来のフレームを参照フレームとするため，各フレームは時間順が異なる順序で符号化処理を行う必要がある．したがって，処理遅延の増大につながる．双方向動き補償予測符号化は1990年代になって実用化された．

Figure 2.10 Three types of frames and GOP

動き補償フレーム間予測では，動きベクトルを正確に求めることで効果的な圧縮が得られるが，

計算量が莫大になるため，同時に少ない量で計算することが求められる．動きベクトルを求める処理のことを動き検出(Motion Detection)と呼び，一般的にはブロックごとに最も参照フレーム内のブロックとの差分が小さくなるように計算するブロックマッチング(Block Matching)法が良く使われる．

対象フレームをu ，参照フレームをs とする．また，ブロックの大きさをw×hとし，ブロックの左上の画素を(x, y)とする．このとき，参照フレーム中で対象フレーム内のブロックと同様の位置から(vx, vy)だけ移動した位置にあるブロックの予測誤差は，

D(v_x, v_y) :=

w−1∑

i=0 h−1∑

j=0

L(u(x+i, y+j), s(x+i+v_x, y+j +v_y)) (2.7)

となる．ここで，関数 L(a, b) は，2 つの画素の値の差を定義する関数であり，L1 ノルム L1 = |a−b| ^やL2 ノルム L2 = (a−b)² が用いられる．ブロックマッチングにより，対象フレーム内のブロックと参照フレーム内のブロックの差分が最小になればよいので，最も良い動きベクトル(v^∗_x, v_y^∗)は，

(v_x^∗, v^∗_y) := arg min

(vx,vy)∈S

D(v_x, v_y) (2.8)

のように表すことができる．ここで，集合Sは動きベクトルの探索範囲w×hを表す．

(20)

2.3.4 ^{離散コサイン変換} (DCT)

DCT^（Discrete Cosine Transform，離散コサイン変換）とは，画素値を画素領域の表現f(i, j) から周波数領域の表現F(u, v)へ変換することである．ここで，(i, j)は画素の位置を表し，(u, v) は2次元周波数を表す．これは画素単位で変換するのではなく，8画素ｘ8画素などのブロック単位で変換するブロック符号化技術の1つである．DCTは元の画像信号を周波数成分で表現する変換なので，逆変換を行うことによって元の画像信号を復元することができる．DCTは画像領域による表現から周波数領域による表現に変えているだけなので，この変換によって情報が消去されることはなく，すべて保存される．画素領域から周波数領域に変換することをFDCT（Forward DCT，順方向DCT），周波数領域から画素領域に逆変換することをIDCT（Inverse DCT）と呼ぶ．FDCTとIDCTの変換式の例として，ブロックサイズが8x8のときを例とした式を以下に示す．FDCTは，

F(u, v) = 1

4C(u)C(v)

∑7 i=0

∑7 j=0

f(i, j)cos(2i+ 1)uπ

16 cos(2j+ 1)vπ

16 (2.9)

と定義され，IDCTは，

f(i, j) = 1 4

∑7 u=0

∑7 v=0

C(u)C(v)F(u, v)cos(2i+ 1)uπ

16 cos(2j + 1)vπ

16 (2.10)

と定義される．ここで，C(u)とC(v)は以下とする．

C(u) = { ₁

√2(u= 0)

1(u ̸= 0) C(v) = { ₁

√2(v= 0)

1(v̸= 0) (2.11)

DCTによって元の画像がどのように変化するのかをFig.2.11に示す．左図が元画像であり，右図が8x8^{のブロックごとに}DCT変換して出てきた値を画像値に直して表示した結果である．赤いほど値が大きく，青いほど値が小さいことを表す．また，ブロック内の左上が低周波成分を表し，右に行けばいくほど水平方向の周波数成分uが高周波成分になることを表す．下に行けばいくほど鉛直方向の周波数成分vが高周波成分になることを表す．元の画像は画素値が均等に散らばっているのに比べて，DCT変換後の値は0近辺の低周波成分に値が集中していることが分か

(21)

Figure 2.11 An example of DCT[9]

DCTを行うだけでは，画像領域から周波数領域へ変換しているだけなので，符号量は変化していない．DCT処理後，DCTを構成する各要素の情報データはビット数を減らすために量子化される．つまり，値をある値で割ることによってビット切り捨て処理を行い，情報伝達に必要な符号量を大幅に削減する．人間の視覚特性として，画像の変化が激しく細かい画像は画素値が変化してもあまり検知されないという傾向がある．一方，画像の変化が少ない平坦な画像はわずかな画素値の変化で検知されてしまう傾向がある．したがって，変化が大きい高周波成分の情報を切り捨てるような量子化を行っても人間には気づかれにくいため，このような量子化を実行することができ符号化効率を向上させることができる．

2.3.5 ^{可変長符号化}

可変長符号化とは，情報理論を用いて符号をより効率の良い表現に変換する処理のことである．

対象となる符号は画像の圧縮処理によって生じる動きベクトルなどの符号化モードの情報や予測誤差をDCT変換し量子化した結果の情報などである．この処理は完全に元の信号を再現することができる可逆的処理である．符号化する対象の発生頻度の違いから効率的に情報を圧縮し，より短い符号で表現する．その方法は2種類存在する．1つ目は，あらかじめ発生頻度によって設計された情報を参照しながら符号化を行うハフマン符号化である．2つ目は，発生頻度に適応して動的に符号化を行う算術符号化である．

ハフマン符号化はコンパクト符号化の一種で，平均符号長を小さくすることができる符号化である[10]．各情報の出現頻度をあらかじめ求め，頻度が高い文字を短い符号で表し，低い文字を長い

(22)

符号で表現することで平均符号長を最小とする．例として，データ「AADCABCAEDAECDAA^」をハフマン符号化してみる．この場合，5文字を使用しているので，符号化するためには3bit必要である．したがって，通常の符号化では，Tab.2.1のように符号を割り振る．このような符号

Table 2.1 Fixed length code Character Fixed length code

A 000

B 001

C 010

D 011

E 100

の振り方を固定長符号といい，この固定長符号によってデータを表すと，「000 000 011 010 000 001 010 000 100 011 000 100 010 011 000 000」となり，3bit× 16=48bitのデータである．このデータを出現頻度順に並べ，Tab.2.2のように可変長符号を割り振る．出現頻度が高い符号ほど短い符号を用いる．この可変長符号によってデータを表すと，「0 0 110 10 0 1111 10 0 1110 110

Table 2.2 Variable length code

Character A number of appearance Variable length code

A 7 0

C 3 10

D 3 110

E 2 1110

B 1 1111

0 1110 10 110 0 0」となり，合計34bitのデータであり，固定長符号に比べてビット量を削減していることが分かる．平均ビット長も3bitから2.125bitとなり，データ量の圧縮ができていることが分かる．

(23)

そこで，算術符号化では，直線状の0^から1までの区間を対象事象の発生確率に応じて区分けする[11]．例えば，記号a, b, cの発生確率を0.2, 0.6, 0.2とする．記号列abbbcを符号化する例を考える．符号化の過程をFig.2.12に示す．

Figure 2.12 Arithmetic coding

このように，0から1の区間に発生確率に則して記号を配置し，記号列に沿ってさらに区間を分割していく．すると，記号列abbbcの表す区間は0.11296〜0.1216となる．実際の算術符号はこの区間に含まれるひとつの実数を指定する．この区間内で最も符号長が短い値を選んだ方が良いので，0.1171875を選ぶとすると，その値を2進数で表現すると0.0001111となるので，0001111 の7bitを出力すればよいことになる．abbbcはもともとの平均符号長は2bitであるが，1.4bitにまで圧縮されたことになる．

2.3.6 ハイブリッド符号化

これまでで述べてきたような動き補償予測符号化による「予測」と離散コサイン変換による「変換」の双方を用いる画像圧縮符号化方式が現在主流となっており，その方式のことをハイブリッド符号化(Hybrid Coding)と呼ぶ．ハイブリッド符号化の処理をFig.2.13に示す．まず，動き補償フレーム間予測を行い，動画像の持つ時間方向の冗長度を除去する．次に，離散コサイン変換をし，画像領域から周波数領域に変換した後，高周波成分に対して丸め処理を行う量子化によって，予測誤差に残存する空間方向の冗長度を除去する．また，量子化されたデータに対して発生頻度に応じて可変長符号化を行うことによって，エントロピー的な冗長度を除去する．圧縮率の目安として，動き補償で1/2，離散コサイン変換と量子化で1/10^〜1/20^{，可変長符号化で}2/3^〜 1/2程度の圧縮が可能であり，合計して1/30〜1/80程度の圧縮を実現できる[12]．

Figure 2.13 A process of hybrid coding

(24)

2.4 動画像圧縮符号化の標準化動向

1980年代から現代にいたるまで，画像圧縮符号化技術は様々な発展を遂げてきた．その発展には，符号化技術の標準化機関が関わっている．符号化方式の標準化活動を行った機関は主に2 つある．1 つはデータの蓄積を主に行ってきた ISO/IECに所属するMPEG (Moving Picture Experts Group)であり，もう1つは通信系を主に行ってきたITU-Tに所属するVCEG (Video Coding Experts Group)である．それぞれの機関で発展してきた標準化技術の歴史をFig.2.14に示す．青色で示しているのがVCEGによって標準化された規格，橙色で示しているのがMPEG によって標準化された規格，緑色で示しているのがVCEGとMPEGの2つの機関によって標準化された規格を表す．それぞれの詳細について述べる．

Figure 2.14 History of video coding standards

2.4.1 H.261

ITU-Tによって 1989 年12月に H.261 が標準化された．H.261 はISDNによるテレビ会議やテレビ電話を主な用途に開発された動画像符号化標準である．リアルタイム通信を目標に標準化が進められた．対象とするビットレートは64〜1920kbps である．H.261は世界共通の映像フォーマットであるCIF（Common Intermediate Format，共通中間フォーマット）を採用している．CIFは解像度が352x288画素であり，フレームレートは30fpsである．H.261は動き補償予測とDCT^の2つの手法を取り入れたハイブリッド符号化アルゴリズムも採用している．動き

(25)

2.4 動画像圧縮符号化の標準化動向

効果が表れる．このフィルタは符号化制御で適応的に使うことができる．また，H.261^では2^次元VLC(variable Length Code，可変長符号化)も採用している．

2.4.2 MPEG-1

ISO/IECの MPEGによって 1991 年11 月にMPEG-1 が標準化された．MPEG-1 はCD- ROMの蓄積容量(700MB)と読み出し速度(1.2Mbps)に注目し，蓄積面から動画像符号化を行っ

ている．H.261と同様にハイブリッド符号化アルゴリズムを採用しているが，動き補償フレーム

間予測符号化では，双方向動き補償フレーム間予測符号化を採用し，Bフレームの考え方が取り入れられた．それにより，時間軸にそって符号化する従来の手法ではなく，符号化順序が時間軸に沿わないランダムアクセス方式も採用されている．動き補償は動き検出の探索部分でもそれまでと異なるものを採用している．H.261^では1画素精度で動き補償を行っていたが，さらに正確な動きを計測するために，1/2画素精度の動き補償を行っている．すなわち，動きベクトルの精度が水平方向垂直方向ともに2倍ずつ向上している．その他にも，トリック・モードや適応量子化なども採用された．

2.4.3 H.262/MPEG-2

1994年 11 月にITU-T とISO/IEC によって初めて合同で標準化が行われた．ITU-T では

H.262 ^{をつくり，}ISO/IEC ^では，MPEG-2ビデオという共通テキストがつくられた．放送分

野・通信分野・蓄積分野のあらゆるアプリケーションに共通に使える汎用的な符号化を目指した．

ビットレートは4〜10Mbpsでアナログテレビジョン放送の受信に匹敵するレベルを目標とした．

H.262/MPEG-2では，それまでにH.261やMPEG-1で培われた技術を採用しているほか，インターレース信号に対して効率よく符号化を行うフィールド/フレーム適応DCTやフィールド/フレーム適応予測などが新たに採用されている．

MPEG-2には，階層符号化が取り入れられている．階層符号化とは，1つの解像度で符号化を

行うのではなく，基本的な解像度画像を用意し，まずはその解像度の画像を符号化する．その後，

より高解像度の画像を得るための追加の符号化を行う多層符号化技術である．この技術によって，

様々な画質の符号化を行うことができるようになり，回線やディスプレイの解像度に応じて適応的にデータを送り画像を適応的に再現するスケーラビリティ機能を実現した．また，このころプロファイルとレベルが定義され，現在のデジタルテレビ放送やDVDなどにも広く使用されている．その他の機能として，低遅延モード，誤り耐性，適応スキャン，改良 IDCTなどがあげられる．

(26)

2.4.4 H.263

ITU-T^によって 1992^年末からH.263 の標準化作業が開始された．目的は，GSTN^（General Switched Telephone Network，アナログ電話網）によるテレビ電話実現のためである．テレビ電話システムの中で音声情報や多重化のためのオーバーヘッドを除くと，画像に対して割り当てられるビットレートは10〜40kbps程度になってしまうため，高度な圧縮を行う必要がある．1996 年3月に初めて初版が勧告され，機能拡張が続々と行われた．1998年2月に H.263+，2000年 11月にH.263++が承認された．H.263では，ループ内フィルタが使われない代わりに1/2画素精度の動き補償が行われ，DCT係数符号化のために3 次元可変長符号化が採用された．また，

ビットストリームの構成方法に関するシンタックスも定義され，符号化効率はH.261に比べて2 倍程度の向上が得られた．

2.4.5 MPEG-4

ISO/IECによって，1998年10月にMPEG-4が標準化された．MPEG-4では，映像シーンをオブジェクトごとに分けて符号化する手法を取り入れている．そのため，BIFS（Binary Format

for Scene，シーン記述フォーマット）も用意されている．各オブジェクトに適した符号化技術に

よって符号化効率を向上させることができ，応用システムと利用者の間で会話的にオブジェクトを操作することによって多彩なサービスを可能にしている．MPEG-4では，誤り耐性の向上も図っており，パケット損失が避けられない時でも元の画像を再現できるようになっている．その他の機能として，人口画像符号化，スプライト符号化，グローバル動き補償などがあげられる．

2.4.6 H.264/AVC

ITU-T と ISO/IEC によって合同で JVC(Joint Video Team) を設立し，2003 年 5 月に H.264/AVCが標準化された．H.264/AVCという呼び名が一般的だが，H.264やMPEG-4 Part 10^やMPEG-4 AVCなどと呼ばれることもある．MPEG-4 Part 2^やH.263 ^{に比べて，同様の} 品質を保ちながら半分のビットレートを実現する高圧縮率を可能にした．H.264/AVCは非常に優れた符号化方式であるため，テレビ会議システムや携帯電話の通信分野からワンセグ放送や

(27)

2.5 ^{画質評価手法}

動き補償を行うとき，動き探索精度を従来の1/2^{画素精度から}1/4画素精度に細かくし，水平垂直方向共に2倍以上の動き精度向上を果たしている．

• ^{複数参照画面予測}

参照フレームを複数定義し，その中から最適なものを選択して動き補償予測を行う．適応的に重み係数をつけて予測信号を生成することによって，フェード画像等に有効に対応する．

• ^{フレーム内予測}

フレーム内の符号化について，DCTを行うだけでなく，フレーム内予測を入れて効率をあげる．

• 4x4変換

DCTの処理単位を8x8から4x4画素にして歪みを目立ちにくくしている．

• ^{算術符号化}

DCT係数の量子化結果を可変長符号化するときに，ハフマン符号化だけでなく算術符号化を採用することによって，より符号化効率を高める．

2.4.7 H.265/HEVC

H.264/AVCと同様にITU-TとISO/IECによって合同で，2013年4月にH.265/HEVCが標準化された．H.264/AVCに比べて2倍の符号化効率を目標に規格化が行われた．詳しい内容は3 章で記述する．

2.5 ^{画質評価手法}

画質を評価する方法は主観評価と客観評価の2種類の方法が存在する[13]．画質の主観評価とは複数の人間による感覚に基づいた評価方法である．サービス品質に高く相関した結果が得られるが，人間の個人的な感覚による評価であるので，人によってばらつきがあり，同一の実験を多くの人に行って統計処理を行う必要がある．一方，客観評価は原画像と圧縮された画像を定量的に比較し評価を行う．数値による計算で一意的に定めることができるので，主観評価よりも簡単に求めることができる．しかし，人間の感覚を表現する評価を簡単に行うことができないので，場合によっては主観評価値と大きく異なる結果になることもある．

以下では，一般的な客観画質評価手法であるPSNRについてと，それを用いた圧縮性能を比較するためのRD曲線について述べる．

(28)

2.5.1 PSNR

圧縮を行うと，必ずノイズが発生する．もともとの信号と圧縮によって発生したノイズの比を

SNR（Signal to Noise，信号対雑音比）によって表すことは一般的である．原画像の信号分散を

s²，雑音電力をe²とすると，信号対雑音比SN Rは SN R= 10 log₁₀ s²

e² (2.13)

と定義される．ここで，雑音電力e² は，解像度M ×N の原画像S と圧縮後の劣化画像N を用いて，

e² = 1 M N

M∑−1 x=0

N∑−1 y=0

(S(x, y)−N(x, y))² (2.14) と定義される．これは，原画像と劣化画像の差分二乗平均であり，MSE(Mean Squared Error) という．したがって，

M SE =e² (2.15)

である．原画像の信号分散 s² ではなく，輝度変化の最大値を使って MSE との比を表現した

PSNR (Peak SNR)が画質評価の分野では多く使われる．色深度が8bitのとき，輝度変化の最大

値は255であるので，P SN Rは，

P SN R= 10 log₁₀ 255² M SE

= 20 log₁₀ 255

√M SE (2.16)

と定義される．動画像については，フレームごとにPSNRを計算し，その平均値を動画像全体の PSNRとする．PSNRの単位はデシベル (dB)が用いられる．MSEが小さければ小さいほど圧縮による劣化が少ないことを表すので，PSNRが高ければ高いほど圧縮画像は原画像に近く，評価が高いということである．一般的に，PSNRが35dB以上で高品質な画像を表し，30dB以下となると画質が悪いと言われる．

2.5.2 RD ^曲線

(29)

2.6 ^{符号化構造}

縮効率が悪いので，グラフが右下に行けばいくほど符号化効率が低いことを表す．したがって，こ

の例ではMethod Aのほうが符号化効率が高いことを表す．具体的な数値での比較方法は2種類

存在する．1つ目は BD-Bitrateである．PSNR値を一定とし，そのときのビットレートの差が

BD-Bitrateであり，同画質における符号量の違いから評価を行う．2^つ目はBD-PSNR^である．

ビットレートを一定とし，そのときのPSNRの差がBD-PSNRであり，伝送速度が等しいときの画質の違いから評価を行う．

Figure 2.15 Rate-Distortion curve

2.6 ^{符号化構造}

それぞれの提案手法を共通条件で実験して評価を行う際の符号化構造が一般的に3つ存在する．

IO（Intra Only，Iピクチャのみ），LD（Low Delay，低遅延ピクチャ），RA（Random Access，ランダムアクセス）である．以下ではそれぞれの符号化構造について説明する．

• IO（Intra Only，Iピクチャのみ

IOの符号化構造では，動画像の全てのフレームをIフレームとして符号化を行う．すなわち，

フレーム内予測のみを行う符号化であり，時間方向の参照が無いので，どのフレームもすぐに複号ができる．フレーム内予測のみなので符号化にかかる計算時間も少ないが，予測がしにくいため，符号化効率は悪い．

• LD（Low Delay，低遅延ピクチャ）

(30)

LDの符号化構造では，フレーム間予測を採用するが，全て過去フレームを用いた予測を行う．過去のフレームのみを使うため，複号はすぐに行うことができ，符号化の遅延を抑えることができる．

• RA（Random Access，ランダムアクセス）

RAの符号化構造では，フレーム間予測を採用するが，過去と未来の双方向のフレームを用いた予測を行う．未来のフレームを用いるためフレームの符号化順序を入れ替える．複号時に過去のフレームが存在していないので遅延が発生してしまうが，効率の高い構造となる．RA の符号化構造をFig.2.16に示す．

Figure 2.16 Random access

(31)

第 3 ^章

符号化研究： HEVC ^{の符号化技術}

本章では，最新の動画像符号化技術であるHEVCに採用された要素技術を述べる．

3.1 ^概要

まずH.265/HEVCエンコーダーのブロック図をFig.3.1に示す．まずブロック分割後，フレー

ム内予測や動き補償フレーム間予測を行う．その後DCT変換し，量子化を行った後，符号化を行いビットストリームを伝送する．ループ内フィルタを用いることでより符号化精度を高めている．

次節から各ブロックの詳細を述べていく．

Figure 3.1 Block diagram of HEVC encoder[14]

(32)

第3^{章符号化研究：}HEVC^{の符号化技術}

3.2 ブロック分割による様々な符号化ユニット

フレームをブロックに分割して符号化処理を行うことは，昔から行われている．また，ブロックサイズを可変にすることもH.264/AVCから採用されているが，H.265/HEVC^{ではさらにその} 自由度を高め様々なブロック分割単位を定義した．以下にその4種類の符号化単位を示す．

• CTU（Coding Tree Unit，符号化ツリーユニット）

• CU（Coding Unit，符号化ユニット）

• PU（Prediction Unit，予測ユニット）

• TU（Transform Unit，変換ユニット）

近年，4K^や8K^などのUHDTV (Ultra High Definition Television)と呼ばれる超高精細動画像の普及に伴い，H.265/HEVCも解像度の高い動画像に対して効率よく符号化を行う必要がある．

これらの分割は，その需要に則したものであり，より大きなブロックサイズを所持する一方，細かいブロックサイズも用意しているので，用途によって様々なブロックを用いて符号化を行うことができる．以下では，これらの4種類の符号化単位の詳細を述べていく．

3.2.1 CTU

CTU^（Coding Tree Unit，符号化ツリーユニット）は，フレームをラスタスキャン順に固定

ブロックサイズで分割した1つ1つのブロックのことである．CTUのブロックサイズは16x16, 32x32, 64x64の3種類から選択できるが，H.265/HEVCはUHDTVなどを対象とした符号化を行うので，通常64x64のサイズに設定されている．これは従来のH.264/AVC^{のマクロブロック}

サイズ16x16に対して水平垂直共に4倍のサイズであるので，高解像度に向けた動画像符号化方

式であることが分かる．Fig.3.2にフレームのCTU分割例を示す．フレームの解像度を960x540 とし，フレームを分割しているブロックがCTUである．CTUのサイズは 64x64とした．解像度が64の倍数でないとブロックが切れてしまうため，この例のように，端のブロックサイズのみ

64x64でなくなることもある．

(33)

3.2 ブロック分割による様々な符号化ユニット

Figure 3.2 CTU (Coding Tree Unit)

3.2.2 CU

CU（Coding Unit，符号化ユニット）は，CTUを符号化しやすいようにさらに分割したブロッ

クである．再帰的な四分木によってブロック分割を行う．CU のサイズは 8x8, 16x16, 32x32, 64x64 が用意されている．最小CU サイズである8x8 のCUはSCU（Smallest Coding Unit，最小符号化ユニット）と呼ばれ，最大CU ^{サイズである}64x64^のCU^はLCU^（Largest Coding Unit，最大符号化ユニット）と呼ばれる．CU 分割は四分木で階層化することができるので，プログラムで扱いやすいデータ構造となっている．冗長度が多い部分については64x64のCUを選択し，冗長度が少ない部分については8x8^のCUを選択することで，データに則した適応的な符号化を行うことができる．H.264/AVCのマクロブロックよりも可変ブロックサイズの自由度が高まっている．Fig.3.3に1つのCTUのCU分割例を示す．1つのCTU内では，各CUを深さ優先探索のラスタスキャン順に処理を行う．

(34)

Figure 3.3 CU (Coding Unit)

3.2.3 PU

PU^（Prediction Unit，予測ユニット）は，符号化の基本単位CU をさらに分割したブロック

である．Fig.3.4に示すように，PUの分割の仕方は8種類存在する．上図の4種類のような正方

形や長方形の分割の仕方はH.264/AVCのマクロブロックをサブマクロブロックに分割する方法と同様であるが，下図のような縦と横の長さの比が1:2以外の長方形のブロックはH.265/HEVC によってはじめて採用された．この下図 4 種類の分割のことを AMP（Asymmetric Motion

Partitioning，非対称動き分割）と呼ぶ．これら 8種類の分割はインター CU のみで使用され

る．すなわち，フレーム間予測符号化を行うCUのみ8種類の分割方法がある．イントラCUは

2Nx2NとNxNの2種類のみを使用する．すなわちフレーム内予測符号化を行うCUは2種類の

分割方法を用いる．また，NxNの分割方法はSCUだけで利用が可能などの細かい制限なども存在する．また，実際にCU/PU分割された例をFig.3.5に示す．背景などの変化が少ない部分では大きいサイズのCU/PUが選択され，エッジなどの変化が大きい部分は小さいサイズのCU/PU が選択されていることが分かる．

(35)

3.3 ^{フレーム内予測}

Figure 3.4 PU (Prediction Unit)

Figure 3.5 An example of CU/PU partition

3.2.4 TU

TU（Transform Unit，変換ユニット）は，CUの予測誤差を扱うために各CUを再帰的な四分木ブロック分割によって生成されるブロックである．4x4, 8x8, 16x16, 32x32のブロックサイズが存在し，このTUを用いてDCT変換と量子化が行われていく．

3.3 ^{フレーム内予測}

動き補償フレーム間予測符号化だけでなく，フレーム内における隣接画素間での類似性を利用して，フレーム内予測符号化もH.265/HEVC^{では採用されている．}PUごとに予測モードを設定し，TU単位で符号化やフレーム内予測が行われる．予測の仕方は方向性予測と非方向性予測の2

(36)

種類が存在し，非方向性予測はPlanar^予測とDC^予測の 2種類に分けられるので，フレーム内予測は大きく分けて3つの予測モードに分けられる．以下では3種類の予測モードについて詳しく述べる．

• Planar予測

近傍4個の参照画素値を使用して，滑らかに予測画素値を生成する．扱うTU 内の左上の画素を(0,0) ^{とし，そこからの画素}(x, y)を用いる．近傍の画素値を u(x, y)^{，予測画素値を} u_pred(x, y)，TUサイズをN とすると，

u_pred(x,y)=^(N⁻¹⁻^x)u(⁻1,y)+(x+1)u(N,−1)+(N−1−y)u(x,−1)+(y+1)u(−1,N)+N

2N (3.1)

と定義される．Planar予測を図で表すと，Fig.3.6のようになる．(N,−1)の画素が(N−1, y) の位置にあるように見立て，(−1, N)の画素が(x, N−1)の位置にあるように見立てて処理を行う．

Figure 3.6 Planar prediction[7]

• DC（直流）予測

現在のTUの上と左のTUに存在する2N個の参照画素からその平均値を計算することで予

(37)

3.4 ^{フレーム間予測}

個である．参照方向はFig.3.6^のように33^{方向である．この}33^{方向のうち}1^{つを選び，参} 照画素を選択するが，33方向もあるので通常小数画素となる．したがって，最も近い2画素を用いて内分点により予測画素値を決定する．Fig.3.7に方向性予測の参照方向図を示す．

Figure 3.7 Angular prediction[7]

3.4 ^{フレーム間予測}

フレーム間予測は従来と同様に動き補償フレーム間予測符号化によって行われる．画素精度

はH.264/AVC^{と同様に輝度信号は}1/4^{画素精度，色差信号は} 1/8画素精度であるが，線型内

挿の小数画素生成の際にH.264/AVCでは 6タップのフィルタ用いていたが，H.265/AVCでは 8タップか7タップのフィルタを用いる．以下では輝度信号についてのみ動き補償予測を述べていく．小数画素生成の際には水平方向と鉛直方向の積和演算を行った後丸め処理を一気に行う．

H.264/AVCでは2段階に分けて丸め処理を行っていたので，ここで演算誤差を減少させている．

画素精度の位置関係を表したものをFig.3.8に示す．また，小数画素生成時のフィルタをTab.3.1

に示す．Fig.3.8では，青色の部分が整数画素を表し，それ以外の部分は小数画素である．

(38)

Figure 3.8 Pixel accuracy

Table 3.1 Filters of pixel accuracy (Harf-pel, Quarter-pel)

Index -3 -2 -1 0 1 2 3 4

Harf-pel -1 4 -11 40 40 -11 4 1 Quarter-pel -1 4 -10 58 17 -5 1 N/A

フレーム間予測は，H.264/AVCと同様に複数の参照ピクチャを持ち，H.265/HEVC^ではRPL

（Reference Picture List，参照ピクチャリスト）に格納される．参照ピクチャリストはL0とL1 が用意され，1つを用いる場合は片方向予測，2 つを用いる場合は双方向予測を行うことがで

きる．MPEG-2では双方向予測に用いるL0^とL1 は前方向予測と後方向予測を用いていたが，

H.264/AVC以降は，2つのリストはどちら方向の予測を用いてもよく，両方とも同じ方向でも

(39)

3.5 ^{ループ内フィルタ}

予測動きベクトル候補は，Fig.3.9に示すように，隣接する5つのブロックの中から最も差分が小さくなるものを選ぶ．時間予測動きベクトル候補は，Fig.3.10に示すように，同一PU内の同一位置にあるブロックか右下のブロックから選ぶ．もう1つの動きベクトル予測として，隣接する符号化済みブロックのインデックスだけを伝送するマージ符号化も存在する．動きベクトルや変換係数を伝送しないスキップモードがあり，最も少ない符号量で符号化を行うことができる．

Figure 3.9 Spacial motion vector prediction

Figure 3.10 Temporal motion vector prediction

3.5 ^{ループ内フィルタ}

量子化処理によって符号化歪みが発生する問題が従来からあった．そこで，符号化ループ内にフィルタを設置し，歪みを低減する手法が提案された．H.265/HEVCにおけるループフィルタは主にブロック歪みを低減するデブロッキングフィルタとリンギング歪みを低減する SAOが存在する．

(40)

3.5.1 デブロッキングフィルタ

ブロックベースの符号化を行うと，複号フレームにブロック歪みが発生する．フレーム間予測では複号済みのフレームを参照するため，ブロック歪みが生じたフレームを用いて複号する．このとき，画質劣化が伝搬していってしまうという問題が発生するので，逆量子化・逆変換後に動き補償を施した再構成フレームに対し，ブロック境界に発生するブロック歪みを抑制するようなフィルタをかけることで画質劣化を防ぐ．このフィルタがデブロッキングフィルタである．デブロッキングフィルタはブロック歪みが発生している部分に適応的に使用する．そのための判定プロセスをFig.3.11に示す．

Figure 3.11 A process of deblocking filter

デブロッキングフィルタは8x8のブロックのPUやTUの境界のみを対象としている．以下，

輝度信号についてのみデブロッキングフィルタ処理を述べる．まず，ブロック強度を調査する．

デブロッキングフィルタを使用するかブロック境界に隣接する2つのブロックのうち少なくとも一方がフレーム内予測ブロックでなければならない．そのとき，ブロック強度が高いと判断し，ブロック境界値の判定処理へ進む．水平方向のブロック境界図の例をFig.3.12に示す．このブロッ

(41)

3.5 ^{ループ内フィルタ}

タをかける．以下に示す6式を全て満たすとき，強めのデブロッキングフィルタをかける．











2×(|p2₀−2p1₀+p0₀|+|q2₀−2q1₀+q0₀|)< β/2² 2×(|p23−2p13+p03|+|q23−2q13+q03|)< β/2²

|p3₀−p0₀|+|q0₀−q3₀|< β/2³

|p33−p03|+|q03−q33|< β/2³

|p0₀−p0₀|<(5tc+ 1)/2

|p03−p03|<(5tc+ 1)/2

(3.4)

上2式は空間面でのアクティビティが低いことを判断し，次の2式は境界のそれぞれが平坦な信号であるかを判断し，最後の2式はブロック境界に隣接する 2つの画素の差が閾値を超えていないかどうかを判断する．ここで，tcは量子化パラメータやブロック強度から生成される閾値である．

Figure 3.12 Block boundary

3.5.2 SAO

SAO（Sample Adaptive Oﬀset，サンプル・アダプティブ・オフセット）は，デブロッキングフィルタの後に適用されるループ内フィルタの1つである．主にリンギング現象の低減やデコード時に発生する可能性のある画素値のずれを補正するために使われる．SAOはEO（Edge

Oﬀset，エッジ・オフセット）とBO（Band Oﬀset，バンド・オフセット）により構成されてい

る．H.265/HEVCの動き補償フレーム間予測では，1/4画素精度の動き補償を行うが，その時に

用いるフィルタのタップ数が長いためにエッジ付近で画素値が波打つリンギング現象が起きやすい．そこで，隣接画素を用いてオフセット値の加減算を行う．これは平滑化処理を行っている事と同等なので，リンギング現象の低減につながる．また，動き補償フレーム間予測では，動きベクトルの予測も行っており，正確な動きベクトルではないものが選択されることもある．そのときに，画素のずれが生じてグラデーションなどで一定のオフセットがついてしまうことがある．そ

(42)

こで，画素値の階調を32個のバンドに分割し，連続するバンドに属する画素に対してバンドごとに設けられたオフセット値を使って画素値を変更する．

3.6 ^{エントロピー符号化}

入力信号に対して，発生確率に基づいて符号を割り当てるエントロピー符号化（可変長符号化）

について，H.265/HEVCでは何が採用されているのかを説明する．情報ごとに異なる方式が採用されており，ヘッダ情報などの基本的な要素については，固定長符号や0 次指数ゴロム符号が用いられる．一方，スラスセグメントデータ以下の要素についてはCABAC（Context-based Adaptive Binary Arithmetic Coding，コンテキスト適応型2値算術符号）が用いられる

• 0次指数ゴロム符号

0次指数ゴロム符号では，符号列がユーナリー符号で表現される．単一要素の長さと終端要素について記録し，要素に符号がある場合は対応表に基づき要素値を決める．

• CABAC

CABACでは，まずシンタックス要素値を2値信号に変換する．次に，符号化すべき要素が

おかれている状況に合わせて選択されるコンテキスト番号を導出する．コンテキスト番号には対応するコンテキスト値が存在し，その値は2値信号の発生確率を表すのでその確率を用いて算術符号化を実行する．これらの処理はCTU ブロックごとに行われる．並列化処理を実行しやすくするために，コンテキスト値を保存したりすることもある．

3.7 ^{プロファイル}

プロファイルとは，動画像を符号化・複号するときのアルゴリズムのための構成要素を表したものである．H.265/HEVCでは，最初の規格化が完了した時点で3種類のプロファイルが規定された．

1つ目は，メイン・プロファイルであり，YCbCr4:2:0の8bit動画像に対するプロファイルである．2つ目は，メイン10・プロファイルであり，YCbCr4:2:0の10bit動画像に対するプロファ

グローバルモーション検出を用いた 8K 動画の H.265/HEVC 符号化画質改善

2014 年度修士論文