• 検索結果がありません。

グローバルモーション検出を用いた 8K 動画の H.265/HEVC 符号化画質改善

N/A
N/A
Protected

Academic year: 2021

シェア "グローバルモーション検出を用いた 8K 動画の H.265/HEVC 符号化画質改善"

Copied!
116
0
0

読み込み中.... (全文を見る)

全文

(1)

2014 年度修士論文

グローバルモーション検出を用いた 8K 動画の H.265/HEVC 符号化画質改善

及び

歪みを考慮した交通道路標識認識

指導:

甲藤 二郎

教授

2015 年 2 月 6 日

早稲田大学 理工学術院 基幹理工学研究科 情報理工学専攻

5113B057-1 高田涼生

(2)
(3)

目次

1章 序論 1

1.1 はじめに . . . 1

1.2 研究目的 . . . 1

1.3 本論文の構成と概要 . . . 3

2章 符号化研究:関連技術 5 2.1 AD変換 . . . 5

2.1.1 標本化(Sampling) . . . 5

2.1.2 量子化(Quantization) . . . 6

2.1.3 符号化(Encoding) . . . 6

2.2 表色系 . . . 7

2.2.1 RGB表色系 . . . 7

2.2.2 YCbCr表色系 . . . 7

2.3 画像圧縮の基礎技術 . . . 8

2.3.1 PCMとDPCM . . . 9

2.3.2 フレーム間予測符号化. . . 10

2.3.3 動き補償フレーム間予測符号化 . . . 11

2.3.4 離散コサイン変換(DCT) . . . 14

2.3.5 可変長符号化 . . . 15

2.3.6 ハイブリッド符号化 . . . 17

2.4 動画像圧縮符号化の標準化動向 . . . 18

2.4.1 H.261 . . . 18

2.4.2 MPEG-1 . . . 19

2.4.3 H.262/MPEG-2 . . . 19

2.4.4 H.263 . . . 20

2.4.5 MPEG-4 . . . 20

2.4.6 H.264/AVC . . . 20

2.4.7 H.265/HEVC . . . 21

2.5 画質評価手法 . . . 21

2.5.1 PSNR . . . 22

2.5.2 RD曲線 . . . 22

2.6 符号化構造 . . . 23

(4)

目次

3 符号化研究:HEVCの符号化技術 25

3.1 概要. . . 25

3.2 ブロック分割による様々な符号化ユニット . . . 26

3.2.1 CTU . . . 26

3.2.2 CU . . . 27

3.2.3 PU . . . 28

3.2.4 TU . . . 29

3.3 フレーム内予測 . . . 29

3.4 フレーム間予測 . . . 31

3.5 ループ内フィルタ . . . 33

3.5.1 デブロッキングフィルタ . . . 34

3.5.2 SAO . . . 35

3.6 エントロピー符号化 . . . 36

3.7 プロファイル . . . 36

4章 符号化研究:提案手法 37 4.1 H.265/HEVCの問題点 . . . 37

4.2 グローバルモーション . . . 38

4.3 グローバルズームモーションを持つ動画に対する提案法 . . . 38

4.3.1 概要 . . . 38

4.3.2 ズーム情報の検出 . . . 39

4.3.3 Bフレームのサイズ変換 . . . 44

4.4 グローバル回転を持つ動画に対する提案法 . . . 49

4.4.1 概要 . . . 49

4.4.2 回転情報の検出 . . . 49

4.4.3 Bフレームの回転変換. . . 51

4.4.4 補間できない部分を別途送信 . . . 52

5章 符号化研究:実験 55

(5)

目次

5.2.6 CUや動きベクトルの変化の分析 . . . 62

5.2.7 主観的比較. . . 64

5.3 8K回転動画に対する実験 . . . 65

5.3.1 動きベクトルの法線の交点の分布 . . . 65

5.3.2 補間できない部分に対する処理結果 . . . 65

5.3.3 RD曲線による評価 . . . 67

6 画像認識研究:関連技術 69 6.1 HSV表色系 . . . 69

6.2 Cannyエッジ . . . 70

6.3 SIFT特徴量 . . . 71

7章 画像認識研究:従来手法 77 7.1 概要. . . 77

7.2 対応物判定処理 . . . 78

7.2.1 対応点探索処理 . . . 78

7.2.2 Votiong処理 . . . 78

7.2.3 従来手法の問題点 . . . 80

8章 画像認識研究:提案手法 81 8.1 概要. . . 81

8.2 標識部分の発見処理 . . . 82

8.3 標識の判別処理 . . . 85

9章 画像認識研究:実験 89 9.1 実験環境 . . . 89

9.2 色領域限定結果 . . . 90

9.3 標識発見率 . . . 91

9.4 標識判定結果 . . . 93

9.5 標識判定率 . . . 94

10章 結論 99 10.1 符号化研究について . . . 99

10.1.1 まとめ . . . 99

10.1.2 今後の課題. . . 100

10.2 画像認識研究について . . . 100

10.2.1 まとめ . . . 100

(6)

目次

10.2.2 今後の課題. . . 101

参考文献 103

謝辞 105

関連業績 107

(7)

1

序論

1.1 はじめに

近年,日本では4K(画素数3840x2160)や8K(画素数7680x4320)など超高精細動画像の放 送実現を目指して研究開発が盛んに行われている.2020年の東京オリンピック開催が決まったこ とから放送計画は前倒しされ,2014年の6月には4Kの試験放送が開始し,2016年には8Kの試 験放送も予定されている[1].これら4Kや8Kの非常に高精細な動画像をより高品質に圧縮する ために,最新の動画像符号化技術High Efficiency Video Coding (HEVC)[2]が2013年1月に標 準化された.HEVCの初期バージョンの規格化は終了しているが,その拡張仕様の規格化は現在 も進行中である.HEVCの要素技術の改善は社会からも需要が高く,今後もさらなる発展が期待 されている.

また,画像認識の分野では公共交通機関について,IT技術を用いた安全保障の研究が盛んに行 われている.近年ではADAS(Advanced Driver Assistance Systems,先進運転支援システム)

が向上し,ドライブを適応的にサポートするシステムは既に車の中に搭載され始めている[3].そ の中でも車載カメラから撮影された前方道路画像を分析し,交通道路標識を自動認識する研究が 進んでいる.このシステムはTSR (Traffic Sign Recognition)と呼ばれ,ADASに欠かせないシ ステムとなっており,今後もさらなる発展が予想される.

1.2 研究目的

動画像符号化技術には,動き補償フレーム間予測符号化と呼ばれる技術がある.動画像の前フ レームと後フレームの被写体がどれだけ動いたかを表す動きベクトルを計算し,その上で動き補 償を施した予測誤差を計算すると,効率的な圧縮を行うことができる.正確な動きを予測すれば するほど,予測誤差を少なくすることができる.現在の動き予測はフレーム内を可変サイズのブ ロックに分割してブロックごとに動きを予測することでさらに精度を高めているが,平行移動の 動きのみで予測を行っているため,パンの動きは扱えるが,ズームや回転の動きを正確に補償す ることができない.また,ブロックごとの動き補償はローカルな動きに対応しやすく,カメラ全 体の動きであるグローバルモーションが存在した時に不利な動き補償となる.4K8Kの超高精細 動画像は解像度が大きいためフレーム内の動きも大きく,ズーム・回転による符号化効率の低下

(8)

第1章 序論

が著しいので,これらの問題の解決は重要である.そこで,私はグローバルモーション検出を用

いた 8K動画のH.265/HEVC符号化画質改善を行う手法を提案する.グローバルモーションを

発見することで全体の動きを個別に捉えないことで符号化効率を高める.アフィン変換を用いる ことで正確な動き変換を目指す.今後需要が高まる8K動画で実験を行い,提案手法が有効であ るかを確認する.その後,提案手法による動きベクトル値の変化や主観的な画質評価を行うこと で本手法の有効性を吟味する.

また,近年ではADAS (Driver Assistance Systems)が向上し,交通道路標識を自動認識する 研究が進んでいる.しかし,車載カメラ画像は車速によるぼやけや歪みが生じていることから認 識精度が下がる問題がある.そこで私は,事前の歪み補正処理や歪みを加えた標識テンプレート とのテンプレートマッチングを行うことで,認識率を向上させる手法を提案する.実際に道路画 像に対して実験を行い,提案手法が有効であるかを確認する.

(9)

1.3 本論文の構成と概要

1.3 本論文の構成と概要

本論文は,符号化研究と画像認識研究の2つの分野に分かれているので,それぞれについて順 に説明する.

[1] 序論

 本研究の背景と目的,本論文の構成と概要について述べる.

[2] 符号化研究:関連技術

 表色系や圧縮の基礎技術,動画像符号化の歴史,画質評価手法について述べる.

[ 3 ] 符号化研究: HEVC の符号化技術

 最新の動画像符号化技術であるHEVCの要素技術やその問題点について述べる.

[4] 符号化研究:提案手法

 HEVCの問題点を克服する提案手法の詳細について述べる.

[5] 符号化研究:実験

 符号化研究の提案手法の有効性を定量・定性的に評価する.

[ 6 ] 画像認識研究:関連技術

 HSV表色系,エッジ,特徴量について述べる.

[ 7 ] 画像認識研究:従来手法

 交通道路標識認識に関する従来手法を述べる.

[8] 画像認識研究:提案手法

 交通道路標識認識に関する提案手法を述べる.

[ 9 ] 画像認識研究:実験

 交通道路標識認識研究の提案手法の有効性を定量・定性的に評価する.

[ 10 ] 結論

 本論文の結論と今後の課題について研究ごとに述べる.

(10)
(11)

2

符号化研究:関連技術

2.1 AD 変換

現在の圧縮技術はデジタル処理によって行われている.したがって,マイクやビデオカメラか ら得られる音声や画像情報であるアナログ信号を電気信号であるデジタル信号へ変換する必要が ある.この変換は大きく3段階に分けられる.

標本化(Sampling):アナログ信号から一定の時間間隔で標本を取り出すこと

量子化(Quantization):標本化された情報を整数レベルに整えること

符号化(Encoding):量子化された信号をデジタル信号にすること

以下では,それぞれについて詳しく述べる.

2.1.1 標本化 (Sampling)

入力されたアナログ信号をデジタル化する最初の処理が標本化である.標本化とは,アナログ 信号のサンプルをとるという意味である.標本化の処理の様子を Fig.2.1に示す.この処理はナ イキストの定理により,元のアナログ信号の帯域の2倍以上の周波数(標本化周波数)で標本化 するとデジタル化された信号は元のアナログ信号に完全に復元できる.

Figure 2.1 Sampling

(12)

第2章 符号化研究:関連技術

2.1.2 量子化 (Quantization)

標本化された信号は,アナログ信号のままなので,連続的な値で表現されている.これを必要 なレベル数の整数値に変換することが量子化である.レベル数が大きければ細かく,小さければ 荒く量子化される.量子化の処理の様子をFig.2.2に示す.

Figure 2.2 Quantization

2.1.3 符号化 (Encoding)

アナログ標本値をあるレベルのデジタル代表値のうち,最も近いレベルの値を選び,デジタル 信号として数値で表現することが符号化である.符号化の処理の様子をFig.2.3に示す.最も近 いレベルの値に整えるので,実際のアナログ値と異なる値として記録される.この値の差を量子 化誤差と呼ぶ.量子化誤差が大きくなると,元の情報を復元することが困難となるため,AD変換 では十分な量子化レベル数をとる.

(13)

2.2 表色系

2.2 表色系

画像処理において色は重要な役割を果たす.色の表し方を体系的に表したものが表色系である.

より厳密に人間の知覚する色を表す方法や,画像処理を効率的に行うための表色系の変換方法に ついても述べる[4].

2.2.1 RGB 表色系

RGB色空間は加法混色の代表である.加法混色とは,色を重ね合わせて別の色を作るとき,明 るくなる混色のことである.人間の目は,赤(Red)・緑(Green)・青(Blue)の3色に反応するの で,この3色を原色とする色空間は人間の目の構造に沿った色空間である[5].RGBの加法混色

の様子をFig.2.4に示す.赤と青を混ぜるとマゼンダ,赤と緑を混ぜるとイエロー,緑と青を混ぜ

るとシアン,全てを混ぜると白になることが分かる.RGBのそれぞれに8bitを割り振り,256階 調としてそれぞれの色を混色すると,256× 256× 256=16,777,206通りの色を表現することが できる.1つの画素に必要な記憶容量は24bitであるので,24bitカラーと呼ばれる.

Figure 2.4 RGB color system[5]

2.2.2 YCbCr 表色系

YCbCr表色系はカラーテレビなどの映像で用いられる表色系であり,DVDやデジタルテレビ

などで採用されている.輝度成分を表すYと輝度以外の色差成分を表すCbCrに分けられて いる.CbはYと青成分 Bの差を表し,CrはYと赤成分Rの差を表す.人間の目は輝度変化に 敏感であり,輝度以外の色差の変化には鈍感であるということが知られているため,輝度と輝度以 外の成分に分離し,輝度以外の成分を圧縮することで効率の良い伝送を行うことができる.RGB からYCbCrへの変換式はITU-R BT.601によって規格化されている.ITU-R BT.601とは,ア

(14)

第2章 符号化研究:関連技術

ナログビデオ信号をデジタルビデオデータに変換するときのデータ形式を規定した国際規格であ る[6].これはSDTV(Standard Definition Television,標準解像度テレビ)に向けられた変換

式であり, 

Y = 0.299R+ 0.587G+ 0.114B Cb= (B−Y)/1.772

Cr= (R−Y)/1.402

(2.1)

と定義される.YCbCrRGBの変換を行列で表現すると,

Y Cb Cr

=

0.299 0.587 0.114 0.596 0.274 0.322 0.211 0.523 0.312

R G B

 (2.2)

となる.また,HDTV(High Definition Television,高精細テレビ)に向けられた変換式はBT.709

で定められ, 

Y = 0.2126R+ 0.7152G+ 0.0722B Cb= (B−Y)/1.8556

Cr = (R−Y)/1.5748

(2.3)

と定義される.YCbCrとRGBの変換を行列で表現すると,

Y Cb Cr

=

 0.2126 0.7152 0.0722

0.1146 0.3854 0.5000 0.5000 0.4542 0.0458

R G B

 (2.4)

となる.

YCbCrでは,輝度成分Yと輝度以外の色差成分Cb,Crの解像度を変えることで効率の良い

映像符号化を実現できる.そこで,様々なフォーマットが規格化されている.YもCbもCrも解 像度を変えずに最高の画質で表現し,Y:Cb:Crの解像度比が4:4:4になっているものを4:4:4と呼 び,合計24bitで表現される.CbとCrに対して,水平方向に間引くことによって,CbとCrを 1/2に圧縮したものを4:2:2と呼び,合計16bitで表現され2/3の圧縮となる.また,水平方向に も垂直方向にも間引くことによって,CbとCrを1/4に圧縮したものを4:2:0と呼び,合計12bit で表現され1/2の圧縮となる.色を扱う場合,符号量削減の観点からRGB表色系よりもYCbCr 表色系に変換してから使用することが多い.

(15)

2.3 画像圧縮の基礎技術

2.3.1 PCM DPCM

まず,全ての画像圧縮の基本であるPCMPulse Code Modulation,パルス符号変調)は,2.1 で述べたように,アナログ画像を標本化して,その値を量子化し,デジタル表現することである.

標本化の間隔はナイキストの定理から定めることができるので,量子化間隔をどの程度にすれば よいかを考える必要がある.モノクロ画像信号の場合,量子化の代表値の数が少ないと,現実的 には存在しないはずなのに表示される擬似的な境界線である偽輪郭(False Contouring)が表れて しまう.代表値の数を多くすると画像は綺麗になるが,符号量は増加してしまうので,丁度良い 代表値の数を設定する必要がある.SDTV映像や HDTV映像に対しては,8bit(代表値の数が

28 = 256個)の量子化を行うと実用的であることが分かっている.この量子化の数のことを色深

度といい,色深度が8bitのときに表現できる256パターンのことを256階調と呼ぶ.

PCM信号をそのまま送るのではなく,PCM信号の差分を送ることによって,さらなる高圧縮 を実現することができる.この技術がDPCMDifferential PCM,差分PCM)である.最初の 画素に対しては1つ前の画素が存在しないので,そのまま伝送し,次の画素からは前の画素値の 差分を伝送する.DPCMの複号器では,すでに送信されてきた複号済みの画素値に差分である予 測誤差を毎回加えていくことによって,元のPCM信号を再現することができる.Fig.2.5に国際 標準化作業で用いられている試験画像の1つであるSusieのDPCMの様子を示す.左図が原画 像であり,右図が画素間の差分値を画像にしたものである.差分値は-255〜255の値をとるので,

差分値0はグレーで表現されている.また,それぞれの画像の画素値の振幅分布を Fig.2.6に示 す.左図は原画像のY成分についてのPCM画素値の振幅分布であり,右図はDPCM予測誤差 値の振幅分布を表す.予測誤差の振幅分布は0に偏る分布になっていることから,予測により圧 縮の効果が得られることが分かる.

Figure 2.5 DPCM (Differential Pulse Code Modulation)[7]

(16)

第2章 符号化研究:関連技術

Figure 2.6 Distribution of DPCM[7]

予測に用いる画素は一般的に隣接するものを用いると効果の高い圧縮が得られる.隣接する画 素は空間的なものを用いても良いし,時間的なものを用いても良い.この画素が符号化しようと する画素と同じフレーム内に存在する場合の予測をフレーム(画面)内予測,異なるフレームに 存在する場合の予測をフレーム(画面)間予測と呼ぶ.

2.3.2 フレーム間予測符号化

現在の動画像は1秒間に24フレームや30フレームの画像を表示しているため,フレーム間で の画像の変化が小さい.被写体の動きの変化が少ないほどこの画像の変化は小さいため,DPCM の方法をフレーム間に適用することで,高い効果が期待できる.これをフレーム間予測符号化 (Inter Frame Predictive Coding)と呼び,フレーム間に存在する冗長性を除去して符号化効率を 向上させる[8].

最も単純なフレーム間予測符号化は,現在のフレームを符号化対象のフレームとし,直前のフ レームを参照フレームとして同じ位置の画素値を用いて予測を行う.符号化対象フレームの時間 をt,画像の位置(x, y)における画素値をu(x, y, t)とする.直前のフレームの画素値u(x, y, t−1) を用いて,予測誤差e(x, y, t)は,

e(x, y, t) =u(x, y, t)−u(x, y, t−1) (2.5) と表現できる.単純なフレーム間予測を用いた予測誤差の生成の様子をFig.2.7に示す.左図が 対象フレーム,中図が参照フレーム(予測フレーム),右図が予測誤差を表す.

(17)

2.3 画像圧縮の基礎技術

Figure 2.7 The most simple inter frame predictive coding[8]

このフレーム間予測符号化は,1フレーム前の画像信号を必要とするため,大容量のメモリが あって初めて実現できるので,1970年代にやっと装置が実現し,リアルタイムの動画像伝送に用 いられるようになった.

2.3.3 動き補償フレーム間予測符号化

フレーム間予測符号化では,最も単純な方法を用いると前のフレームとの差分を予測誤差とす ることで圧縮効果をはかっているが,フレーム間に存在する動きが少ない動画像に対してのみ有 効な圧縮方法である.動画像に大きな動きがあると,フレーム間の類似性は減少し,差分をとっ ても情報量を減らすことはできず,かえって増やしてしまう場合もある.しかし,フレーム内に 存在する被写体のフレーム間での動き情報があれば,これを用いて予測画像を生成することがで き,そのうえで予測誤差を求めれば非常に効果的である.フレーム間での被写体の局所的な動き 情報をベクトルで表したものを動きベクトル(Motion Vector)と呼ぶ.動きベクトルの生成の様

子をFig.2.8に示す.左図が直前の参照フレームであり,右図が現在のフレームと動きベクトルを

表す.赤色の矢印が動きベクトルであり,フレーム間で被写体がどれだけ動いたのかを表す.分 かりやすいように,前フレームの被写体を透明で示してある.

Figure 2.8 Motion vector

(18)

第2章 符号化研究:関連技術

この動きベクトルを用いて予測画像を生成し,直前のフレームとの予測誤差を計算する技術を 動き補償フレーム間予測符号化(Motion Compensation Inter Frame Predictive Coding) と呼 ぶ.動きベクトルを探し求める処理にかなり多くの計算時間を必要とするので,1980年代にやっ と実用化された.

実際の動き補償はフレーム内を小さなブロックに分割してブロックごとに動きベクトルを求め ている.ブロックごとに参照フレーム内で最も差分が小さくなるブロックを探索する.伝送され る情報はブロックごとの動きベクトルと予測誤差である.ブロックを小さくすることで細かい動 きを予測することができるので予測誤差は減っていくが,動きベクトルの情報量が増加していく ため,適当な大きさのブロックを選択する必要がある.符号化対象フレームの対象ブロックにお ける動きベクトルを(vx(x, y), vy(x, y))とすると,直前のフレームの画素値と動きベクトルから 生成される予測フレームの画素値は,u(x−vx(x), y−vy(y), t1)と表すことができる.よっ て,予測誤差e(x, y, t)は,

e(x, y, t) =u(x, y, t)−u(x−vx(x), y−vy(y), t1) (2.6) と表現できる.動き補償フレーム間予測を用いた予測誤差の生成の様子をFig.2.9に示す.左図 が対象フレームと動き補償による動きベクトル,中図が動き補償によって得られた予測フレーム,

右図が予測誤差を表す.

Figure 2.9 Inter frame predictive coding by motion compensation[8]

(19)

2.3 画像圧縮の基礎技術

フレームとGOPの概要をFig.2.10に示す.Bフレームは双方向から予測を行うので,精度向上 が期待できる.しかし,未来のフレームを参照フレームとするため,各フレームは時間順が異な る順序で符号化処理を行う必要がある.したがって,処理遅延の増大につながる.双方向動き補 償予測符号化は1990年代になって実用化された.

Figure 2.10 Three types of frames and GOP

動き補償フレーム間予測では,動きベクトルを正確に求めることで効果的な圧縮が得られるが,

計算量が莫大になるため,同時に少ない量で計算することが求められる.動きベクトルを求める 処理のことを動き検出(Motion Detection)と呼び,一般的にはブロックごとに最も参照フレーム 内のブロックとの差分が小さくなるように計算するブロックマッチング(Block Matching)法が 良く使われる.

対象フレームをu ,参照フレームをs とする.また,ブロックの大きさをw×hとし,ブロッ クの左上の画素を(x, y)とする.このとき,参照フレーム中で対象フレーム内のブロックと同様 の位置から(vx, vy)だけ移動した位置にあるブロックの予測誤差は,

D(vx, vy) :=

w−1

i=0 h−1

j=0

L(u(x+i, y+j), s(x+i+vx, y+j +vy)) (2.7)

となる.ここで,関数 L(a, b) は,2 つの画素の値の差を定義する関数であり,L1 ノルム L1 = |ab| L2 ノルム L2 = (ab)2 が用いられる.ブロックマッチングにより,対象フ レーム内のブロックと参照フレーム内のブロックの差分が最小になればよいので,最も良い動き ベクトル(vx, vy)は,

(vx, vy) := arg min

(vx,vy)S

D(vx, vy) (2.8)

のように表すことができる.ここで,集合Sは動きベクトルの探索範囲w×hを表す.

(20)

第2章 符号化研究:関連技術

2.3.4 離散コサイン変換 (DCT)

DCTDiscrete Cosine Transform,離散コサイン変換)とは,画素値を画素領域の表現f(i, j) から周波数領域の表現F(u, v)へ変換することである.ここで,(i, j)は画素の位置を表し,(u, v) は2次元周波数を表す.これは画素単位で変換するのではなく,8画素x8画素などのブロック単 位で変換するブロック符号化技術の1つである.DCTは元の画像信号を周波数成分で表現する変 換なので,逆変換を行うことによって元の画像信号を復元することができる.DCTは画像領域に よる表現から周波数領域による表現に変えているだけなので,この変換によって情報が消去され ることはなく,すべて保存される.画素領域から周波数領域に変換することをFDCT(Forward DCT,順方向DCT),周波数領域から画素領域に逆変換することをIDCT(Inverse DCT)と呼 ぶ.FDCTとIDCTの変換式の例として,ブロックサイズが8x8のときを例とした式を以下に 示す.FDCTは,

F(u, v) = 1

4C(u)C(v)

7 i=0

7 j=0

f(i, j)cos(2i+ 1)uπ

16 cos(2j+ 1)vπ

16 (2.9)

と定義され,IDCTは,

f(i, j) = 1 4

7 u=0

7 v=0

C(u)C(v)F(u, v)cos(2i+ 1)uπ

16 cos(2j + 1)vπ

16 (2.10)

と定義される.ここで,C(u)とC(v)は以下とする.

C(u) = { 1

2(u= 0)

1(u ̸= 0) C(v) = { 1

2(v= 0)

1(v̸= 0) (2.11)

DCTによって元の画像がどのように変化するのかをFig.2.11に示す.左図が元画像であり,右 図が8x8のブロックごとにDCT変換して出てきた値を画像値に直して表示した結果である.赤 いほど値が大きく,青いほど値が小さいことを表す.また,ブロック内の左上が低周波成分を表 し,右に行けばいくほど水平方向の周波数成分uが高周波成分になることを表す.下に行けばい くほど鉛直方向の周波数成分vが高周波成分になることを表す.元の画像は画素値が均等に散ら ばっているのに比べて,DCT変換後の値は0近辺の低周波成分に値が集中していることが分か

(21)

2.3 画像圧縮の基礎技術

Figure 2.11 An example of DCT[9]

DCTを行うだけでは,画像領域から周波数領域へ変換しているだけなので,符号量は変化して いない.DCT処理後,DCTを構成する各要素の情報データはビット数を減らすために量子化さ れる.つまり,値をある値で割ることによってビット切り捨て処理を行い,情報伝達に必要な符 号量を大幅に削減する.人間の視覚特性として,画像の変化が激しく細かい画像は画素値が変化 してもあまり検知されないという傾向がある.一方,画像の変化が少ない平坦な画像はわずかな 画素値の変化で検知されてしまう傾向がある.したがって,変化が大きい高周波成分の情報を切 り捨てるような量子化を行っても人間には気づかれにくいため,このような量子化を実行するこ とができ符号化効率を向上させることができる.

2.3.5 可変長符号化

可変長符号化とは,情報理論を用いて符号をより効率の良い表現に変換する処理のことである.

対象となる符号は画像の圧縮処理によって生じる動きベクトルなどの符号化モードの情報や予測 誤差をDCT変換し量子化した結果の情報などである.この処理は完全に元の信号を再現するこ とができる可逆的処理である.符号化する対象の発生頻度の違いから効率的に情報を圧縮し,よ り短い符号で表現する.その方法は2種類存在する.1つ目は,あらかじめ発生頻度によって設 計された情報を参照しながら符号化を行うハフマン符号化である.2つ目は,発生頻度に適応して 動的に符号化を行う算術符号化である.

ハフマン符号化はコンパクト符号化の一種で,平均符号長を小さくすることができる符号化であ る[10].各情報の出現頻度をあらかじめ求め,頻度が高い文字を短い符号で表し,低い文字を長い

(22)

第2章 符号化研究:関連技術

符号で表現することで平均符号長を最小とする.例として,データ「AADCABCAEDAECDAA をハフマン符号化してみる.この場合,5文字を使用しているので,符号化するためには3bit必 要である.したがって,通常の符号化では,Tab.2.1のように符号を割り振る.このような符号

Table 2.1 Fixed length code Character Fixed length code

A 000

B 001

C 010

D 011

E 100

の振り方を固定長符号といい,この固定長符号によってデータを表すと,「000 000 011 010 000 001 010 000 100 011 000 100 010 011 000 000」となり,3bit× 16=48bitのデータである.こ のデータを出現頻度順に並べ,Tab.2.2のように可変長符号を割り振る.出現頻度が高い符号ほど 短い符号を用いる.この可変長符号によってデータを表すと,「0 0 110 10 0 1111 10 0 1110 110

Table 2.2 Variable length code

Character A number of appearance Variable length code

A 7 0

C 3 10

D 3 110

E 2 1110

B 1 1111

0 1110 10 110 0 0」となり,合計34bitのデータであり,固定長符号に比べてビット量を削減し ていることが分かる.平均ビット長も3bitから2.125bitとなり,データ量の圧縮ができているこ とが分かる.

(23)

2.3 画像圧縮の基礎技術

そこで,算術符号化では,直線状の0から1までの区間を対象事象の発生確率に応じて区分け する[11].例えば,記号a, b, cの発生確率を0.2, 0.6, 0.2とする.記号列abbbcを符号化する例 を考える.符号化の過程をFig.2.12に示す.

Figure 2.12 Arithmetic coding

このように,0から1の区間に発生確率に則して記号を配置し,記号列に沿ってさらに区間を分 割していく.すると,記号列abbbcの表す区間は0.11296〜0.1216となる.実際の算術符号はこ の区間に含まれるひとつの実数を指定する.この区間内で最も符号長が短い値を選んだ方が良い ので,0.1171875を選ぶとすると,その値を2進数で表現すると0.0001111となるので,0001111 の7bitを出力すればよいことになる.abbbcはもともとの平均符号長は2bitであるが,1.4bitに まで圧縮されたことになる.

2.3.6 ハイブリッド符号化

これまでで述べてきたような動き補償予測符号化による「予測」と離散コサイン変換による「変 換」の双方を用いる画像圧縮符号化方式が現在主流となっており,その方式のことをハイブリッ ド符号化(Hybrid Coding)と呼ぶ.ハイブリッド符号化の処理をFig.2.13に示す.まず,動き補 償フレーム間予測を行い,動画像の持つ時間方向の冗長度を除去する.次に,離散コサイン変換 をし,画像領域から周波数領域に変換した後,高周波成分に対して丸め処理を行う量子化によっ て,予測誤差に残存する空間方向の冗長度を除去する.また,量子化されたデータに対して発生 頻度に応じて可変長符号化を行うことによって,エントロピー的な冗長度を除去する.圧縮率の 目安として,動き補償で1/2,離散コサイン変換と量子化で1/101/20,可変長符号化で2/3 1/2程度の圧縮が可能であり,合計して1/30〜1/80程度の圧縮を実現できる[12].

Figure 2.13 A process of hybrid coding

(24)

第2章 符号化研究:関連技術

2.4 動画像圧縮符号化の標準化動向

1980年代から現代にいたるまで,画像圧縮符号化技術は様々な発展を遂げてきた.その発展 には,符号化技術の標準化機関が関わっている.符号化方式の標準化活動を行った機関は主に2 つある.1 つはデータの蓄積を主に行ってきた ISO/IECに所属するMPEG (Moving Picture Experts Group)であり,もう1つは通信系を主に行ってきたITU-Tに所属するVCEG (Video Coding Experts Group)である.それぞれの機関で発展してきた標準化技術の歴史をFig.2.14に 示す.青色で示しているのがVCEGによって標準化された規格,橙色で示しているのがMPEG によって標準化された規格,緑色で示しているのがVCEGとMPEGの2つの機関によって標準 化された規格を表す.それぞれの詳細について述べる.

Figure 2.14 History of video coding standards

2.4.1 H.261

ITU-Tによって 1989 年12月に H.261 が標準化された.H.261 はISDNによるテレビ会議 やテレビ電話を主な用途に開発された動画像符号化標準である.リアルタイム通信を目標に標 準化が進められた.対象とするビットレートは64〜1920kbps である.H.261は世界共通の映像 フォーマットであるCIF(Common Intermediate Format,共通中間フォーマット)を採用して いる.CIFは解像度が352x288画素であり,フレームレートは30fpsである.H.261は動き補償 予測とDCT2つの手法を取り入れたハイブリッド符号化アルゴリズムも採用している.動き

(25)

2.4 動画像圧縮符号化の標準化動向

効果が表れる.このフィルタは符号化制御で適応的に使うことができる.また,H.261では2 元VLC(variable Length Code,可変長符号化)も採用している.

2.4.2 MPEG-1

ISO/IECの MPEGによって 1991 年11 月にMPEG-1 が標準化された.MPEG-1 はCD- ROMの蓄積容量(700MB)と読み出し速度(1.2Mbps)に注目し,蓄積面から動画像符号化を行っ

ている.H.261と同様にハイブリッド符号化アルゴリズムを採用しているが,動き補償フレーム

間予測符号化では,双方向動き補償フレーム間予測符号化を採用し,Bフレームの考え方が取り 入れられた.それにより,時間軸にそって符号化する従来の手法ではなく,符号化順序が時間軸 に沿わないランダムアクセス方式も採用されている.動き補償は動き検出の探索部分でもそれま でと異なるものを採用している.H.261では1画素精度で動き補償を行っていたが,さらに正確 な動きを計測するために,1/2画素精度の動き補償を行っている.すなわち,動きベクトルの精度 が水平方向垂直方向ともに2倍ずつ向上している.その他にも,トリック・モードや適応量子化 なども採用された.

2.4.3 H.262/MPEG-2

1994年 11 月にITU-T とISO/IEC によって初めて合同で標準化が行われた.ITU-T では

H.262 をつくり,ISO/IEC では,MPEG-2ビデオという共通テキストがつくられた.放送分

野・通信分野・蓄積分野のあらゆるアプリケーションに共通に使える汎用的な符号化を目指した.

ビットレートは4〜10Mbpsでアナログテレビジョン放送の受信に匹敵するレベルを目標とした.

H.262/MPEG-2では,それまでにH.261やMPEG-1で培われた技術を採用しているほか,イン ターレース信号に対して効率よく符号化を行うフィールド/フレーム適応DCTやフィールド/フ レーム適応予測などが新たに採用されている.

MPEG-2には,階層符号化が取り入れられている.階層符号化とは,1つの解像度で符号化を

行うのではなく,基本的な解像度画像を用意し,まずはその解像度の画像を符号化する.その後,

より高解像度の画像を得るための追加の符号化を行う多層符号化技術である.この技術によって,

様々な画質の符号化を行うことができるようになり,回線やディスプレイの解像度に応じて適応 的にデータを送り画像を適応的に再現するスケーラビリティ機能を実現した.また,このころプ ロファイルとレベルが定義され,現在のデジタルテレビ放送やDVDなどにも広く使用されてい る.その他の機能として,低遅延モード,誤り耐性,適応スキャン,改良 IDCTなどがあげら れる.

(26)

第2章 符号化研究:関連技術

2.4.4 H.263

ITU-Tによって 1992年末からH.263 の標準化作業が開始された.目的は,GSTNGeneral Switched Telephone Network,アナログ電話網)によるテレビ電話実現のためである.テレビ電 話システムの中で音声情報や多重化のためのオーバーヘッドを除くと,画像に対して割り当てら れるビットレートは10〜40kbps程度になってしまうため,高度な圧縮を行う必要がある.1996 年3月に初めて初版が勧告され,機能拡張が続々と行われた.1998年2月に H.263+,2000年 11月にH.263++が承認された.H.263では,ループ内フィルタが使われない代わりに1/2画素 精度の動き補償が行われ,DCT係数符号化のために3 次元可変長符号化が採用された.また,

ビットストリームの構成方法に関するシンタックスも定義され,符号化効率はH.261に比べて2 倍程度の向上が得られた.

2.4.5 MPEG-4

ISO/IECによって,1998年10月にMPEG-4が標準化された.MPEG-4では,映像シーンを オブジェクトごとに分けて符号化する手法を取り入れている.そのため,BIFS(Binary Format

for Scene,シーン記述フォーマット)も用意されている.各オブジェクトに適した符号化技術に

よって符号化効率を向上させることができ,応用システムと利用者の間で会話的にオブジェクト を操作することによって多彩なサービスを可能にしている.MPEG-4では,誤り耐性の向上も 図っており,パケット損失が避けられない時でも元の画像を再現できるようになっている.その 他の機能として,人口画像符号化,スプライト符号化,グローバル動き補償などがあげられる.

2.4.6 H.264/AVC

ITU-T と ISO/IEC に よ っ て 合 同 で JVC(Joint Video Team) を 設 立 し ,2003 年 5 月 に H.264/AVCが標準化された.H.264/AVCという呼び名が一般的だが,H.264やMPEG-4 Part 10MPEG-4 AVCなどと呼ばれることもある.MPEG-4 Part 2H.263 に比べて,同様の 品質を保ちながら半分のビットレートを実現する高圧縮率を可能にした.H.264/AVCは非常に 優れた符号化方式であるため,テレビ会議システムや携帯電話の通信分野からワンセグ放送や

(27)

2.5 画質評価手法

動き補償を行うとき,動き探索精度を従来の1/2画素精度から1/4画素精度に細かくし,水 平垂直方向共に2倍以上の動き精度向上を果たしている.

複数参照画面予測

参照フレームを複数定義し,その中から最適なものを選択して動き補償予測を行う.適応的 に重み係数をつけて予測信号を生成することによって,フェード画像等に有効に対応する.

フレーム内予測

フレーム内の符号化について,DCTを行うだけでなく,フレーム内予測を入れて効率をあ げる.

4x4変換

DCTの処理単位を8x8から4x4画素にして歪みを目立ちにくくしている.

算術符号化

DCT係数の量子化結果を可変長符号化するときに,ハフマン符号化だけでなく算術符号化を 採用することによって,より符号化効率を高める.

2.4.7 H.265/HEVC

H.264/AVCと同様にITU-TとISO/IECによって合同で,2013年4月にH.265/HEVCが標 準化された.H.264/AVCに比べて2倍の符号化効率を目標に規格化が行われた.詳しい内容は3 章で記述する.

2.5 画質評価手法

画質を評価する方法は主観評価と客観評価の2種類の方法が存在する[13].画質の主観評価と は複数の人間による感覚に基づいた評価方法である.サービス品質に高く相関した結果が得られ るが,人間の個人的な感覚による評価であるので,人によってばらつきがあり,同一の実験を多く の人に行って統計処理を行う必要がある.一方,客観評価は原画像と圧縮された画像を定量的に 比較し評価を行う.数値による計算で一意的に定めることができるので,主観評価よりも簡単に 求めることができる.しかし,人間の感覚を表現する評価を簡単に行うことができないので,場 合によっては主観評価値と大きく異なる結果になることもある.

以下では,一般的な客観画質評価手法であるPSNRについてと,それを用いた圧縮性能を比較 するためのRD曲線について述べる.

(28)

第2章 符号化研究:関連技術

2.5.1 PSNR

圧縮を行うと,必ずノイズが発生する.もともとの信号と圧縮によって発生したノイズの比を

SNR(Signal to Noise,信号対雑音比)によって表すことは一般的である.原画像の信号分散を

s2,雑音電力をe2とすると,信号対雑音比SN RSN R= 10 log10 s2

e2 (2.13)

と定義される.ここで,雑音電力e2 は,解像度M ×N の原画像S と圧縮後の劣化画像N を用 いて,

e2 = 1 M N

M1 x=0

N1 y=0

(S(x, y)−N(x, y))2 (2.14) と定義される.これは,原画像と劣化画像の差分二乗平均であり,MSE(Mean Squared Error) という.したがって,

M SE =e2 (2.15)

である.原画像の信号分散 s2 ではなく,輝度変化の最大値を使って MSE との比を表現した

PSNR (Peak SNR)が画質評価の分野では多く使われる.色深度が8bitのとき,輝度変化の最大

値は255であるので,P SN Rは,

P SN R= 10 log10 2552 M SE

= 20 log10 255

√M SE (2.16)

と定義される.動画像については,フレームごとにPSNRを計算し,その平均値を動画像全体の PSNRとする.PSNRの単位はデシベル (dB)が用いられる.MSEが小さければ小さいほど圧 縮による劣化が少ないことを表すので,PSNRが高ければ高いほど圧縮画像は原画像に近く,評 価が高いということである.一般的に,PSNRが35dB以上で高品質な画像を表し,30dB以下と なると画質が悪いと言われる.

2.5.2 RD 曲線

(29)

2.6 符号化構造

縮効率が悪いので,グラフが右下に行けばいくほど符号化効率が低いことを表す.したがって,こ

の例ではMethod Aのほうが符号化効率が高いことを表す.具体的な数値での比較方法は2種類

存在する.1つ目は BD-Bitrateである.PSNR値を一定とし,そのときのビットレートの差が

BD-Bitrateであり,同画質における符号量の違いから評価を行う.2つ目はBD-PSNRである.

ビットレートを一定とし,そのときのPSNRの差がBD-PSNRであり,伝送速度が等しいときの 画質の違いから評価を行う.

Figure 2.15 Rate-Distortion curve

2.6 符号化構造

それぞれの提案手法を共通条件で実験して評価を行う際の符号化構造が一般的に3つ存在する.

IO(Intra Only,Iピクチャのみ),LD(Low Delay,低遅延ピクチャ),RA(Random Access, ランダムアクセス)である.以下ではそれぞれの符号化構造について説明する.

IO(Intra Only,Iピクチャのみ

IOの符号化構造では,動画像の全てのフレームをIフレームとして符号化を行う.すなわち,

フレーム内予測のみを行う符号化であり,時間方向の参照が無いので,どのフレームもすぐ に複号ができる.フレーム内予測のみなので符号化にかかる計算時間も少ないが,予測がし にくいため,符号化効率は悪い.

LD(Low Delay,低遅延ピクチャ)

(30)

第2章 符号化研究:関連技術

LDの符号化構造では,フレーム間予測を採用するが,全て過去フレームを用いた予測を行 う.過去のフレームのみを使うため,複号はすぐに行うことができ,符号化の遅延を抑える ことができる.

RA(Random Access,ランダムアクセス)

RAの符号化構造では,フレーム間予測を採用するが,過去と未来の双方向のフレームを用い た予測を行う.未来のフレームを用いるためフレームの符号化順序を入れ替える.複号時に 過去のフレームが存在していないので遅延が発生してしまうが,効率の高い構造となる.RA の符号化構造をFig.2.16に示す.

Figure 2.16 Random access

(31)

3

符号化研究: HEVC の符号化技術

本章では,最新の動画像符号化技術であるHEVCに採用された要素技術を述べる.

3.1 概要

まずH.265/HEVCエンコーダーのブロック図をFig.3.1に示す.まずブロック分割後,フレー

ム内予測や動き補償フレーム間予測を行う.その後DCT変換し,量子化を行った後,符号化を行 いビットストリームを伝送する.ループ内フィルタを用いることでより符号化精度を高めている.

次節から各ブロックの詳細を述べていく.

Figure 3.1 Block diagram of HEVC encoder[14]

(32)

第3章 符号化研究:HEVCの符号化技術

3.2 ブロック分割による様々な符号化ユニット

フレームをブロックに分割して符号化処理を行うことは,昔から行われている.また,ブロッ クサイズを可変にすることもH.264/AVCから採用されているが,H.265/HEVCではさらにその 自由度を高め様々なブロック分割単位を定義した.以下にその4種類の符号化単位を示す.

CTU(Coding Tree Unit,符号化ツリーユニット)

CU(Coding Unit,符号化ユニット)

PU(Prediction Unit,予測ユニット)

TU(Transform Unit,変換ユニット)

近年,4K8KなどのUHDTV (Ultra High Definition Television)と呼ばれる超高精細動画像 の普及に伴い,H.265/HEVCも解像度の高い動画像に対して効率よく符号化を行う必要がある.

これらの分割は,その需要に則したものであり,より大きなブロックサイズを所持する一方,細 かいブロックサイズも用意しているので,用途によって様々なブロックを用いて符号化を行うこ とができる.以下では,これらの4種類の符号化単位の詳細を述べていく.

3.2.1 CTU

CTUCoding Tree Unit,符号化ツリーユニット)は,フレームをラスタスキャン順に固定

ブロックサイズで分割した1つ1つのブロックのことである.CTUのブロックサイズは16x16, 32x32, 64x64の3種類から選択できるが,H.265/HEVCはUHDTVなどを対象とした符号化を 行うので,通常64x64のサイズに設定されている.これは従来のH.264/AVCのマクロブロック

サイズ16x16に対して水平垂直共に4倍のサイズであるので,高解像度に向けた動画像符号化方

式であることが分かる.Fig.3.2にフレームのCTU分割例を示す.フレームの解像度を960x540 とし,フレームを分割しているブロックがCTUである.CTUのサイズは 64x64とした.解像 度が64の倍数でないとブロックが切れてしまうため,この例のように,端のブロックサイズのみ

64x64でなくなることもある.

(33)

3.2 ブロック分割による様々な符号化ユニット

Figure 3.2 CTU (Coding Tree Unit)

3.2.2 CU

CU(Coding Unit,符号化ユニット)は,CTUを符号化しやすいようにさらに分割したブロッ

クである.再帰的な四分木によってブロック分割を行う.CU のサイズは 8x8, 16x16, 32x32, 64x64 が用意されている.最小CU サイズである8x8 のCUはSCU(Smallest Coding Unit, 最小符号化ユニット)と呼ばれ,最大CU サイズである64x64CULCULargest Coding Unit,最大符号化ユニット)と呼ばれる.CU 分割は四分木で階層化することができるので,プ ログラムで扱いやすいデータ構造となっている.冗長度が多い部分については64x64のCUを選 択し,冗長度が少ない部分については8x8CUを選択することで,データに則した適応的な符 号化を行うことができる.H.264/AVCのマクロブロックよりも可変ブロックサイズの自由度が 高まっている.Fig.3.3に1つのCTUのCU分割例を示す.1つのCTU内では,各CUを深さ 優先探索のラスタスキャン順に処理を行う.

(34)

第3章 符号化研究:HEVCの符号化技術

Figure 3.3 CU (Coding Unit)

3.2.3 PU

PUPrediction Unit,予測ユニット)は,符号化の基本単位CU をさらに分割したブロック

である.Fig.3.4に示すように,PUの分割の仕方は8種類存在する.上図の4種類のような正方

形や長方形の分割の仕方はH.264/AVCのマクロブロックをサブマクロブロックに分割する方法 と同様であるが,下図のような縦と横の長さの比が1:2以外の長方形のブロックはH.265/HEVC によってはじめて採用された.この下図 4 種類の分割のことを AMP(Asymmetric Motion

Partitioning,非対称動き分割)と呼ぶ.これら 8種類の分割はインター CU のみで使用され

る.すなわち,フレーム間予測符号化を行うCUのみ8種類の分割方法がある.イントラCUは

2Nx2NとNxNの2種類のみを使用する.すなわちフレーム内予測符号化を行うCUは2種類の

分割方法を用いる.また,NxNの分割方法はSCUだけで利用が可能などの細かい制限なども存 在する.また,実際にCU/PU分割された例をFig.3.5に示す.背景などの変化が少ない部分では 大きいサイズのCU/PUが選択され,エッジなどの変化が大きい部分は小さいサイズのCU/PU が選択されていることが分かる.

(35)

3.3 フレーム内予測

Figure 3.4 PU (Prediction Unit)

Figure 3.5 An example of CU/PU partition

3.2.4 TU

TU(Transform Unit,変換ユニット)は,CUの予測誤差を扱うために各CUを再帰的な四分 木ブロック分割によって生成されるブロックである.4x4, 8x8, 16x16, 32x32のブロックサイズ が存在し,このTUを用いてDCT変換と量子化が行われていく.

3.3 フレーム内予測

動き補償フレーム間予測符号化だけでなく,フレーム内における隣接画素間での類似性を利用 して,フレーム内予測符号化もH.265/HEVCでは採用されている.PUごとに予測モードを設定 し,TU単位で符号化やフレーム内予測が行われる.予測の仕方は方向性予測と非方向性予測の2

(36)

第3章 符号化研究:HEVCの符号化技術

種類が存在し,非方向性予測はPlanar予測とDC予測の 2種類に分けられるので,フレーム内 予測は大きく分けて3つの予測モードに分けられる.以下では3種類の予測モードについて詳し く述べる.

Planar予測

近傍4個の参照画素値を使用して,滑らかに予測画素値を生成する.扱うTU 内の左上の画 素を(0,0) とし,そこからの画素(x, y)を用いる.近傍の画素値を u(x, y),予測画素値を upred(x, y),TUサイズをN とすると,

upred(x,y)=(N1x)u(1,y)+(x+1)u(N,1)+(N1y)u(x,1)+(y+1)u(1,N)+N

2N (3.1)

と定義される.Planar予測を図で表すと,Fig.3.6のようになる.(N,1)の画素が(N1, y) の位置にあるように見立て,(1, N)の画素が(x, N1)の位置にあるように見立てて処理 を行う.

Figure 3.6 Planar prediction[7]

DC(直流)予測

現在のTUの上と左のTUに存在する2N個の参照画素からその平均値を計算することで予

(37)

3.4 フレーム間予測

個である.参照方向はFig.3.6のように33方向である.この33方向のうち1つを選び,参 照画素を選択するが,33方向もあるので通常小数画素となる.したがって,最も近い2画素 を用いて内分点により予測画素値を決定する.Fig.3.7に方向性予測の参照方向図を示す.

Figure 3.7 Angular prediction[7]

3.4 フレーム間予測

フレーム間予測は従来と同様に動き補償フレーム間予測符号化によって行われる.画素精度

はH.264/AVCと同様に輝度信号は1/4画素精度,色差信号は 1/8画素精度であるが,線型内

挿の小数画素生成の際にH.264/AVCでは 6タップのフィルタ用いていたが,H.265/AVCでは 8タップか7タップのフィルタを用いる.以下では輝度信号についてのみ動き補償予測を述べて いく.小数画素生成の際には水平方向と鉛直方向の積和演算を行った後丸め処理を一気に行う.

H.264/AVCでは2段階に分けて丸め処理を行っていたので,ここで演算誤差を減少させている.

画素精度の位置関係を表したものをFig.3.8に示す.また,小数画素生成時のフィルタをTab.3.1

に示す.Fig.3.8では,青色の部分が整数画素を表し,それ以外の部分は小数画素である.

(38)

第3章 符号化研究:HEVCの符号化技術

Figure 3.8 Pixel accuracy

Table 3.1 Filters of pixel accuracy (Harf-pel, Quarter-pel)

Index -3 -2 -1 0 1 2 3 4

Harf-pel -1 4 -11 40 40 -11 4 1 Quarter-pel -1 4 -10 58 17 -5 1 N/A

フレーム間予測は,H.264/AVCと同様に複数の参照ピクチャを持ち,H.265/HEVCではRPL

(Reference Picture List,参照ピクチャリスト)に格納される.参照ピクチャリストはL0とL1 が用意され,1つを用いる場合は片方向予測,2 つを用いる場合は双方向予測を行うことがで

きる.MPEG-2では双方向予測に用いるL0L1 は前方向予測と後方向予測を用いていたが,

H.264/AVC以降は,2つのリストはどちら方向の予測を用いてもよく,両方とも同じ方向でも

(39)

3.5 ループ内フィルタ

予測動きベクトル候補は,Fig.3.9に示すように,隣接する5つのブロックの中から最も差分が小 さくなるものを選ぶ.時間予測動きベクトル候補は,Fig.3.10に示すように,同一PU内の同一 位置にあるブロックか右下のブロックから選ぶ.もう1つの動きベクトル予測として,隣接する 符号化済みブロックのインデックスだけを伝送するマージ符号化も存在する.動きベクトルや変 換係数を伝送しないスキップモードがあり,最も少ない符号量で符号化を行うことができる.

Figure 3.9 Spacial motion vector prediction

Figure 3.10 Temporal motion vector prediction

3.5 ループ内フィルタ

量子化処理によって符号化歪みが発生する問題が従来からあった.そこで,符号化ループ内に フィルタを設置し,歪みを低減する手法が提案された.H.265/HEVCにおけるループフィルタは 主にブロック歪みを低減するデブロッキングフィルタとリンギング歪みを低減する SAOが存在 する.

(40)

第3章 符号化研究:HEVCの符号化技術

3.5.1 デブロッキングフィルタ

ブロックベースの符号化を行うと,複号フレームにブロック歪みが発生する.フレーム間予測 では複号済みのフレームを参照するため,ブロック歪みが生じたフレームを用いて複号する.こ のとき,画質劣化が伝搬していってしまうという問題が発生するので,逆量子化・逆変換後に動 き補償を施した再構成フレームに対し,ブロック境界に発生するブロック歪みを抑制するような フィルタをかけることで画質劣化を防ぐ.このフィルタがデブロッキングフィルタである.デブ ロッキングフィルタはブロック歪みが発生している部分に適応的に使用する.そのための判定プ ロセスをFig.3.11に示す.

Figure 3.11 A process of deblocking filter

デブロッキングフィルタは8x8のブロックのPUやTUの境界のみを対象としている.以下,

輝度信号についてのみデブロッキングフィルタ処理を述べる.まず,ブロック強度を調査する.

デブロッキングフィルタを使用するかブロック境界に隣接する2つのブロックのうち少なくとも 一方がフレーム内予測ブロックでなければならない.そのとき,ブロック強度が高いと判断し,ブ ロック境界値の判定処理へ進む.水平方向のブロック境界図の例をFig.3.12に示す.このブロッ

(41)

3.5 ループ内フィルタ

タをかける.以下に示す6式を全て満たすとき,強めのデブロッキングフィルタをかける.















2×(|p202p10+p00|+|q202q10+q00|)< β/22  2×(|p232p13+p03|+|q232q13+q03|)< β/22

|p30−p00|+|q00−q30|< β/23

|p33−p03|+|q03−q33|< β/23

|p00−p00|<(5tc+ 1)/2 

|p03−p03|<(5tc+ 1)/2

(3.4)

上2式は空間面でのアクティビティが低いことを判断し,次の2式は境界のそれぞれが平坦な信 号であるかを判断し,最後の2式はブロック境界に隣接する 2つの画素の差が閾値を超えてい ないかどうかを判断する.ここで,tcは量子化パラメータやブロック強度から生成される閾値で ある.

Figure 3.12 Block boundary

3.5.2 SAO

SAO(Sample Adaptive Offset,サンプル・アダプティブ・オフセット)は,デブロッキン グフィルタの後に適用されるループ内フィルタの1つである.主にリンギング現象の低減やデ コード時に発生する可能性のある画素値のずれを補正するために使われる.SAOはEO(Edge

Offset,エッジ・オフセット)とBO(Band Offset,バンド・オフセット)により構成されてい

る.H.265/HEVCの動き補償フレーム間予測では,1/4画素精度の動き補償を行うが,その時に

用いるフィルタのタップ数が長いためにエッジ付近で画素値が波打つリンギング現象が起きやす い.そこで,隣接画素を用いてオフセット値の加減算を行う.これは平滑化処理を行っている事 と同等なので,リンギング現象の低減につながる.また,動き補償フレーム間予測では,動きベク トルの予測も行っており,正確な動きベクトルではないものが選択されることもある.そのとき に,画素のずれが生じてグラデーションなどで一定のオフセットがついてしまうことがある.そ

(42)

第3章 符号化研究:HEVCの符号化技術

こで,画素値の階調を32個のバンドに分割し,連続するバンドに属する画素に対してバンドごと に設けられたオフセット値を使って画素値を変更する.

3.6 エントロピー符号化

入力信号に対して,発生確率に基づいて符号を割り当てるエントロピー符号化(可変長符号化)

について,H.265/HEVCでは何が採用されているのかを説明する.情報ごとに異なる方式が採 用されており,ヘッダ情報などの基本的な要素については,固定長符号や0 次指数ゴロム符号 が用いられる.一方,スラスセグメントデータ以下の要素についてはCABAC(Context-based Adaptive Binary Arithmetic Coding,コンテキスト適応型2値算術符号)が用いられる

0次指数ゴロム符号

0次指数ゴロム符号では,符号列がユーナリー符号で表現される.単一要素の長さと終端要素 について記録し,要素に符号がある場合は対応表に基づき要素値を決める.

CABAC

CABACでは,まずシンタックス要素値を2値信号に変換する.次に,符号化すべき要素が

おかれている状況に合わせて選択されるコンテキスト番号を導出する.コンテキスト番号に は対応するコンテキスト値が存在し,その値は2値信号の発生確率を表すのでその確率を用 いて算術符号化を実行する.これらの処理はCTU ブロックごとに行われる.並列化処理を 実行しやすくするために,コンテキスト値を保存したりすることもある.

3.7 プロファイル

プロファイルとは,動画像を符号化・複号するときのアルゴリズムのための構成要素を表した ものである.H.265/HEVCでは,最初の規格化が完了した時点で3種類のプロファイルが規定さ れた.

1つ目は,メイン・プロファイルであり,YCbCr4:2:0の8bit動画像に対するプロファイルで ある.2つ目は,メイン10・プロファイルであり,YCbCr4:2:0の10bit動画像に対するプロファ

Figure 2.7 The most simple inter frame predictive coding[8]
Figure 2.9 Inter frame predictive coding by motion compensation[8]
Figure 2.16 Random access
Figure 3.1 Block diagram of HEVC encoder[14]
+7

参照

関連したドキュメント

ル(TMS)誘導体化したうえで検出し,3 種類の重水素化,または安定同位体標識化 OHPAH を内部標準物 質として用いて PM

攻撃者は安定して攻撃を成功させるためにメモリ空間 の固定領域に配置された ROPgadget コードを用いようとす る.2.4 節で示した ASLR が機能している場合は困難とな

青色域までの波長域拡大は,GaN 基板の利用し,ELOG によって欠陥密度を低減化すること で達成された.しかしながら,波長 470

低Ca血症を改善し,それに伴うテタニー等の症 状が出現しない程度に維持することである.目 標としては,血清Caを 7.8~8.5 mg/ml程度 2) , 尿 中Ca/尿 中Cr比 を 0.3 以 下 1,8)

生活のしづらさを抱えている方に対し、 それ らを解決するために活用する各種の 制度・施 設・機関・設備・資金・物質・

・難病対策地域協議会の設置に ついて、他自治体等の動向を注 視するとともに、検討を行いま す。.. 施策目標 個別目標 事業内容

排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報

排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報