動画像圧縮符号内の動きベクトルの応用 Application of Motion Vector in Video Compression Code

(1)

動画像圧縮符号内の動きベクトルの応用 Application of Motion Vector in Video Compression Code

情報工学専攻高寺達也

TAKADERA Tatsuya

要約

:

動画像圧縮符号化方式の

1

つである

H.264/MPEG-4 AVC

を取り上げ，符号化される情報を整理し，その内の

1

つである動きベクトルの画像解析への応用を検討した．

キーワード

:

動画像圧縮符号

, H.264/MPEG-4 AVC,

動きベクトル

1

序論

1.1

背景

デジタル映像機器の普及に伴い，映像コンテンツ

(

以下ではすべてデジタルコンテンツを対象とする

)

の制作は容易になり，世界中にはすでに相当量の映像コンテンツが蓄積されていると思われる．また映像機器の進歩に伴い，映像コンテンツ自体も高精細になり大容量化している．

それらの映像コンテンツは通常，動画像圧縮符号化技術を用い圧縮され，伝送・蓄積されるが，映像コンテンツの増大，高精細・大容量化に伴い，圧縮された動画像データを処理・解析する手間も増す一方である．

1.2

目的

本研究は，圧縮された動画像データの加工・解析を動画像圧縮符号化技術に着目し高速に処理することを目的としている．

通常，動画像データの加工・解析を行うためには，符号化された情報を復号してから解析を行う必要がある

(

加工の場合は再符号化も必要となる

).

高度に圧縮された動画像データほど，

その復号や符号化に手間がかかるが，ある種の加工・解析では，

符号化情報を利用することでその手間を省略できるものと考えられる．

本稿では，近年普及が進みつつある動画像圧縮符号化方式

H.264/MPEG-4 AVC

を取り上げ，その符号化される情報の整理を行うとともに，その中の

1

つである動きベクトルについて，画像解析への応用を検討する．

2

動画像圧縮符号化方式

[2]

2.1

概要

映像コンテンツは，一定時間間隔の静止画像

(

ピクチャ

)

の連なりからなるが，単純にそれら

1

枚

1

枚の画像を保存し動画像データとすると，容量面で非効率的である．

標準テレビ

(SDTV)

を無圧縮で伝送・蓄積した場合，

100Mbps

の

FTTH

でも帯域が足りず，

4.7GB

の

DVD

には約

5

分程度しか記録できない．

そこで，何らかの動画像圧縮符号化方式を用い，連続する画像を圧縮符号化して動画像データとする方法が一般的にとられる．

近年の動画像圧縮符号化方式は，予測，変換，可変長符号化という主に

3

つの技術を中心に構成されている．次節以降で，

この

3

つの技術について簡単に説明する．

2.2

予測

予測とは，画素を単位として処理する画素符号化

(pel-based coding)

技術の

1

つで，符号化対象の画素値を周囲あるいは前後から予測し，その予測方法と予測値との差分を符号化する技

術である．

画素値を予測する方法はさまざまあり，単純なものには，

隣り合う画素値の差分を符号化する

DPCM(diﬀerential pulse code modulation)

や，前のピクチャから次のピクチャを予測する単純フレーム間予測

(simple interframe prediction)

がある．

他に，動き補償フレーム間予測

(motion compensated inter- frame prediction)

では，映像の動き情報を利用して前後のピクチャから符号化対象ピクチャを予測する．その際には，動き情報を表すための動きベクトル

(motion vector)

と画素値の差分が符号化される．

2.3

変換

変換とは，複数の画素からなるブロックを単位として処理するブロック符号化

(block-based coding)

技術の

1

つで，画素値そのものや予測によって生成された差分値に偏りがあることを利用し，それらの値をより圧縮効率を高められる表現形式へ変換する技術である．

代表的なものには，

DCT(discrete cosine transform :

離散コサイン変換

)

がある．自然画では，ある画素値とその周辺の画素値は似通っていることが多いことから，

DCT

を用いて周波数表現に変換することで，情報の偏りを大きくして圧縮効率を上げることができる．

DCT

で変換した結果は

DCT

係数と呼ばれ，

DC(direct current :

直流

)

成分と

AC(alternate current :

交流

)

成分からなる．多くの場合，画素値がなだらかに変化するため，

DCT

係数は低周波成分に集中する．

2.4

可変長符号化

可変長符号化とは，値の出現頻度に応じて長さの異なる符号を割り当てることで，固定長符号化に比べ，情報を符号化した際の符号長の総計を減らす技術である．

可変長符号化では値の出現頻度の偏りが大きいほど効率的な符号化が可能であり，予測や変換によって値を偏らせることは，可変長符号化での効率を上げることにつながる．

2.5

代表的な動画像圧縮符号化方式

代表的な動画像圧縮符号化方式を表

1

に示す．

特に

H.262 | MPEG-2

は，

DVD

への映像記録や

BS/CS

・地上デジタル放送に利用されており一般的な認知度も高く，現在最も普及している動画像圧縮符号化方式の

1

つである．また，

最新の動画像圧縮符号化方式への影響も大きく，多くの技術がこれを基本としている．

本研究では，将来性などの観点から，次章で説明する

H.264/MPEG-4 AVC

を研究対象として採用した．

3 H.264/MPEG-4 AVC[1]

3.1

概要

H.264/MPEG-4 AVC

は，

ISO/IEC JTC-1

と

ITU-T

が合同チーム

JVT (Joint Video Team)

を結成し策定した動画像圧縮符号化標準である．

Blu-ray Disc

の映像記録方式として採用され，またワンセグ

(2)

表

1

代表的な動画像圧縮符号化方式

名称特徴圧縮率

H.261 ⃝40KBPS 1

〜

2Mbps

の伝送速度で，

VHS

程度の画像品質を実現

⃝ 2

^{ノン・}

インターレース方式を採用

1/20

〜

1/200

H.262 | MPEG-2

ビデオ

⃝4Mbps 1

〜

10Mbps

で

SDTV

，

15Mbps

〜

30Mbps

で

HDTV

品質を実現

⃝ 2

ノン・インターレースに加え，インターレース方式も可能

1/12

〜

1/50

H.263 ⃝ 1 H.261

の改良

版で約

2

倍の圧縮効率を実現．伝送速度は

20kbps

〜

2Mbps ⃝ 2

誤り耐性の向上が図られている

1/12

〜

1/100

MPEG-4

ビジュアル

⃝ 1

^{低伝送速度で} オブジェクト単位の動画像圧縮符号化を実現

⃝ 2

インターネット上や携帯電話のマルチメディア圧縮に適用

⃝ 3

伝送速度は

10kbps

〜

40Mbps

1/20

〜

1/200

H.264/MPEG-4 AVC ⃝H.263 1

に比べ

2

倍の圧縮効率を実現

⃝ 2

伝送速度は

10kbps

〜

240Mbps

1/20

〜

1/100

放送にも利用されるなど，近年急速に普及が進んでいる．

圧縮符号化の基本的な考え方は，現在広く利用されいる

H.262 | MPEG-2

と同様のものであり，また競合技術である

VC-1

とも類似点が多い．

最大の特徴は圧縮効率の高さであり，

H.262 | MPEG-2

と比較して同程度の画質で

2

倍程度の圧縮率があるが，符号化・復号処理にはより手間を要する．

2005

年には，

HDTV

や業務用向けの高精細・高画質・高精度符号化に対応すべく，高忠実度化規格

(FRExt : Fidelity Range Extensions)

が

ITU-T

で勧告となった．

以降では，高忠実度化規格から導入された要素も含め

H.264/MPEG-4 AVC

について説明をしていく．

3.2

画像フォーマット

H.264/MPEG-4 AVC

の符号化処理の対象となる，あるいは復号処理によって出力される画像フォーマットに関して，そのカラー・フォーマットとインターレース画像の取り扱いについて説明する．

3.2.1

カラー・フォーマット

H.264/MPEG-4 AVC

では，

H.262 | MPEG-2

などの従来の動画像圧縮符号化方式と同じく，画像信号を輝度信号と

2

つの色差信号に分けて符号化する．

輝度信号に対し色差信号の解像度が縦横半分である

4:2:0

が最も基本的な形式になる．他に，横方向の解像度のみが半分の

4:2:2

，輝度信号と色差信号の解像度が同じ

4:4:4

，色差信号を持たないモノクロ

(monochrome)

がある．

ここで輝度信号・色差信号と呼んでいるものは，

3

刺激色

(tri-stimulus colour)

なら特に決まりはなく，よく扱われる輝度信号

Y

と色差信号

C

b

, C

r で構成される

YC

b

C

r の他に，

YC

g

C

o や

RGB

として知られる

GBR

などでも良い．

本論文では簡単のため，代表して輝度信号を

Y

，

2

つの色差信号を

C

b

, C

r として記す．

3.2.2

インターレース画像

H.264/MPEG-4 AVC

では，

H.262 | MPEG-2

と同様に，テレビ信号の画像フォーマットとして広く使われている，画素ラインごとに交互に時刻の異なる

2

つのフィールド信号を並べたインターレース信号を扱える．

インターレース画像は，

2

つのフィールドからなり，空間的に上位に位置するトップ・フィールドと，下位に位置するボトム・フィールドが交互に並んでいる．

インターレース画像を符号化する際には，

2

つのフィールドをまとめて

1

つのフレームとして扱うフレーム・ピクチャ

(frame picture)

と，

2

つのフィールドを独立した

2

つのピクチャとして扱うフィールド・ピクチャ

(ﬁeld picture)

をピクチャ単位に切り替えて符号化できる．

フレームに対する符号化がフレーム符号化，同じくフィールドに対する符号化がフィールド符号化となる．

さらに，

H.264/MPEG-4 AVC

では，フレーム・ピクチャ中のマクロブロックを縦に

2

つ合わせたマクロブロック・ペアごとに，フレーム符号化とフィールド符号化を選択できる

MBAFF

に対応している．

ノン・インターレース信号に関しては，フレーム符号化と同じ扱いになる．

3.3

主要技術

H.264/MPEG-4 AVC

では，ピクチャをスライスと呼ばれる領域に分ける．スライスはマクロブロックと呼ばれる

16 × 16

画素の小領域からなり，このスライスとマクロブロックは符号化の際に

1

つの重要な単位となる．

それらを踏まえて，

H.264/MPEG-4 AVC

における予測，変換，可変長符号化の主要技術をまとめる．

3.3.1

予測

H.264/MPEG-4 AVC

の予測には，大きく

2

つ，画面内予測と動き補償予測が用いられる．

画面内予測は，符号化対象ブロックに対し，その近傍の符号化済みブロックを用いて画素値を予測する手法である．一方，

動き補償予測は，符号化済みピクチャから動き情報を指定して符号化対象ブロックの画素値を予測する手法である．

■画面内予測

H.264/MPEG-4 AVC

における，輝度の画面内予測では，マクロブロックを

4 × 4

，

8 × 8

に分割するか，

(3)

16 × 16

のマクロブロックそのものを単位として予測する．

4 × 4

ブロックの場合，符号化対象マクロブロックの左，上，

右上，左上の符号化済みブロックから予測を行い，予測方向などを表す予測モードは

9

通りある．

8 × 8

ブロックの場合も同様に

4

つのブロックから予測を行い，予測モードは

9

通りある．

16 × 16

ブロックの場合は左のマクロブロックと上のマクロブロックから予測を行い，予測モードは

4

通りある．

4 × 4

や

9 × 8

のブロックに分割した場合，各ブロックの符号化順序は決められており，各ブロックごとに予測モードを符号化する．参照するブロックが存在しない条件では，その予測モードの使用が禁止されているか，他のブロックの画素と同一と見なすといった方法がとられる．隣接ブロックの予測モードが同じ場合には，続く予測モードは符号化しないその代わり，

各ブロックで必ず予測モードが同じかどうかのフラグを符号化する．

16 × 16

画素の場合，予測モードはマクロブロック・タイプとして符号化される．

色差の画面内予測では，マクロブロック中に含まれる色差のサイズで予測を行い，予測モードは

4

通りある．

色差の予測モードは輝度信号の予測モードと独立して選択でき，

2

つの色差それぞれに対して予測モードを符号化する．

■動き補償予測

H.264/MPEG-4 AVC

の動き補償予測では，

マクロブロックを

16 × 16

，

16 × 8

，

8 × 16

，

8 × 8

，

8 × 4

，

4 × 8

，

4 × 4

のブロックに適応的に分割し予測を行う，可変動き補償予測が用いられ，各ブロックごと（ただし，最小で

8 × 8

ブロックごと）に参照ピクチャを示す参照インデックスを符号化し，全てのブロックに対して動きベクトルを符号化する．

H.264/MPEG-4 AVC

では，

1/4

画素精度での動き補償が行われ，

6

タップ

FIR

フィルタによって

1/2

画素精度の，

2

タップ平均値フィルタによって

1/4

画素精度の予測信号が生成される．

参照ピクチャはブロックごとに異なってもよく，

P

スライスでは，各ブロックに対して最大で

1

つ参照ピクチャを指定でき，

B

スライスでは，各ブロックに対して最大で

2

つ参照ピクチャを指定できる．

動きベクトルに対しても予測が行われれ，左，上，右上の動きベクトルから中央値をとってその差分が符号化される．予測された動きベクトルと符号化する動きベクトルが等しい場合，

スキップト・マクロブロックとして，スキップトであることを示す以外の情報を符号化しないことができる．

この他に

B

スライスでは，参照ピクチャリストを

2

つ持ち，参照ピクチャ

L0

のみを使用する

L0

予測，参照ピクチャ

L1

のみを使用する

L1

予測，その両方を使用する双予測

(Bi- prediction)

，そして，動き情報を参照ピクチャの動き情報から生成するダイレクト予測，という

4

つの予測モードがある．

さらに，ダイレクト予測には

2

種類のモードがあり，時間方向の動きの相関を利用する時間ダイレクト・モードと，空間方向の動きの相関を利用する空間ダイレクト・モードがある．ダイレクト予測では動き情報が予測のみで生成できるため，動きベクトルを符号化する必要はない．

さらに，

H.264/MPEG-4 AVC

では動き補償予測に対して，

参照ピクチャから予測信号を生成する際に重み付けを行う重み付き予測が可能である．

3.3.2

変換

H.264/MPEG-4 AVC

の変換には，整数精度

DCT

と離散アダマール変換

(DHT)

が用いられる．

マクロブロックを

4 × 4

または

8 × 8

画素単位に分けて，整数精度

DCT

で変換し，直流成分はさらにそれらのみを集めて

DHT

で変換する．

表

2 NAL

ユニットの種類

識別子内容

1 · · · 5

各種ピクチャのスライス

6 SEI (Supplemental Enhancement Information) 7 SPS (Sequence Parameter Set)

8 PPS (Picture Parameter Set)

従来は実数

DCT

が用いられていたが，

H.264/MPEG-4 AVC

では整数精度

DCT

になり，デコーダの復号結果が一致するようになった．

3.3.3

エントロピー符号化

変換後の

DCT

係数値などには

CAVLC

や

CABAC

が使われ，その他のシンタックス要素には指数ゴロム符号などが使われる．エントロピー符号化には，指数ゴロム符号，

CAVLC

，

CABAC

が中心に用いられる．

■指数ゴロム符号指数ゴロム符号

(Exp-Golomb codes)

は，

プレフィクス

+

セパレータ

+

サフィックスからなる符号で，

セパレータが現れるまで続くプレフィクスの符号長と同じ長さのサフィックスがあり，そのサフィックスの値が符号番号となる．

符号番号は，そのものを値とする場合と，符号付き値にマッピングする場合，あるいは直接シンタックス要素の値にマッピングする場合などがある．

■

CAVLC CAVLC (context-adaptive variable length cod- ing :

コンテキスト適応型可変長符号化

)

は，量子化しされた

DCT

係数値の符号化にのみ用いられる．

変換係数をジグザグ・スキャンによって

1

次元ベクトルとした後，係数値やランなど復号に必要な情報を符号化する際に，

いくつかの

VLC

テーブルを適応的に選択し符号化する．

■

CABAC CABAC (context-adaptive binary arithmetic coding :

コンテキスト適応型

2

値算術符号化

)

は，

2

値算術符号化器と，シンタックス要素を

2

値信号に変換する

2

値化部，そして

2

値信号の発生確率を計算・更新するコンテキスト計算部で構成される．

シンタックス要素の

2

値化にもさまざまあり，シンタックス要素に応じてどの

2

値化方法をとるかが決められている．

3.4

ビット・ストリームの構成

3.4.1 NAL

ユニット

H.264/MPEG-4 AVC

で符号化されたビット列は，

NAL (Network Abstraction Layer)

ユニットと呼ばれる単位でまとめられ，これは伝送・蓄積するための下位システムにマッピングする単位となる．

NAL

ユニットは，ピクチャのスライス情報を持つ

VCL (Video Coding Layer) NAL

ユニットと，それ以外の符号化にかかわる情報を持つ非

VCL NAL

ユニットとに大別できる．

NAL

ユニットの種類には主要なものに表

2

にあげるものがあり，

NAL

ユニットのヘッダには種類を表す識別子が収められている．

このうち，

SPS

と

PPS

には，一連のピクチャをまとめたシーケンスレベル，あるいはピクチャレベルでの符号化にかかわる情報が含まれている．ゆえに，復号に際しても重要な役割を果たす．

一方，

VCL NAL

ユニットに相当する識別子

1 · · · 5

の

NAL

ユニットには，画素値や差分値を変換・符号化したものと，ブロックサイズや予測に用いられる各種パラメータが含まれている．この中には，本研究で応用を検討する動きベクトルも含ま

(4)

れる．

3.4.2

アクセス・ユニット

アクセス・ユニットは，ビット・ストリームにおいてピクチャ単位にアクセスできるよう，いくつかの

NAL

ユニットをまとめたものである．

アクセス・ユニットにおける

NAL

ユニットの並び順には制限があり，必ず存在する

NAL

ユニットは，主ピクチャのスライスを持つ

NAL

ユニットのみである．

アクセス・ユニットの境界は，パラメータを見極めることで判断できるが，必要があれば，アクセス・ユニットの先頭にアクセス・ユニット・デリミタを置き，境界を明示することができる．下位システムがアクセス・ユニットを識別する仕組みを持たない場合には特に有効である．

3.4.3

システム多重化

H.264/MPEG-4 AVC

のビット・ストリームは通常，

MPEG-2

システム，

MP4

ファイル・フォーマット，

RTP(Real- time Transport Protocol)

などによって，必要な付加情報が加えられシステム多重化される．

4

動きベクトルの応用

4.1

概要

H.264/MPEG-4 AVC

によって符号化される情報の中には，

符号化前には直接得られない情報が含まれている．その中でも特に動きベクトルに注目し，画像解析への応用を検討する．

4.2

動きベクトル

動き補償予測では，マクロブロックを

16 × 16

から

4 × 4

までの可変サイズで分けて，各ブロックごとに相対的な参照位置を示す動きベクトルを符号化する．参照するピクチャはマクロブロックごとあるいはサブマクロブロックごとに符号化される．

H.264/MPEG-4 AVC

における動き補償予測は

1/4

画素精度で行われる．動きベクトルの水平成分が取り得る範囲は

[ − 2048, 2047.75] (

単位は画素

)

であり，動きベクトルの垂直成分が取り得る範囲は，デコーダの性能を規定する各レベルごとに限界が定められており，最大で

[ − 512, 511.75] (

同上

)

である．

動きベクトルの符号化には，動きベクトルに対する予測も用いられる．隣接する符号化済みブロックの中央値を予測値として，求めた動きベクトルとの差分を符号化する．

また，予測値をそのまま動きベクトルとして扱うダイレクト・モードと呼ばれる予測方法もある．この場合，動きベクトルはいっさい符号化されない．ダイレクトモードには，時間ダイレクト・モードと空間ダイレクト・モードがあり，いずれの場合でも，表示順序で後方にある最も近い参照ピクチャをアンカー・ピクチャとして，符号化対象ブロックと同位置にあるアンカー・ピクチャのアンカー・ブロックの動きベクトルを利用する．

4.3

画像解析への応用

符号化時に動きベクトルを決定するときは，一般的に符号化対象マクロブロックの近傍から探索を行い決定する手法が用いられる．そのため，動きベクトルはおおよそ映像の動きを表していると考えられる．この仮定の下に，動きベクトルの画像解析への応用を検討する．

特に，映像自身の動きが緩やかである場合，動きベクトルはオプティカルフローの代替として使える可能性がある．動画像圧縮符号化に用いられる動きベクトル検出法は，オプティカル

フローのブロックマッチングに近く，符号内の動きベクトル情報を代わりに利用できれば，復号・解析の手間を省くことができると考えられる．

また，固定カメラから取られた映像コンテンツの場合，動きベクトルを移動体検出に利用できると考えられる．カメラ側が映像をあらかじめ符号化して伝送する場合には，その復号・解析の手間を省くことができる．他にも，固定カメラで長時間録画された中から，映像の変化が大きい部分をピックアップすることにも応用できると考えられる．

4.4

問題点

動画像圧縮符号内の動きベクトルを画像解析に応用するにはいくらか問題点がある．

まず，動きベクトルはすべてのピクチャに必ず存在するわけではない．動きベクトルは動き補償予測が用いられるマクロブロックにのみ存在する．

H.264/MPEG-4 AVC

では，ある程度の間隔ごとに

IDR (Instantaneous Decoding Refresh)

ピクチャがあり，

IDR

ピクチャは画面内符号化のみで構成されるため，ある程度の間隔ごとに動きベクトルがまったく検出されないピクチャが存在することになる．

また，

H.264/MPEG-4 AVC

では，動き補償予測を基本とするスライスに画面内予測を取り入れることができ，マクロブロックによっては動きベクトルが存在しないものもある．

さらに，根本的な問題になるが，動画像圧縮符号化方式は符号に対する制約を定めているだけで，どのような手法で符号化するかは完全にエンコーダ依存であり，動きベクトルが目的に則したものであるという保証はない．

しかしながら，動きベクトルの応用が実用的に有効かどうかは，さまざまなソースで実験し，その相関を調べる必要がある．

5

まとめ

近年の実用的な動画像圧縮符号化方式，特に

H.264/MPEG-4 AVC

について符号化情報をまとめ，動きベクトルの画像解析への応用を検討し，実験のためのプログラムを作成した．今後は，実際の動画像データを数多く解析しどの程度の有用性があるのかを検証していく必要がある．

謝辞

本研究を進めるにあたり研究室の同輩

,

後輩にはお世話になった

.

ここに記して感謝の意を表す

.

参考文献

[1] ITU-T, “ITU-T Recommendation H.264 (03/2005) Advanced video coding for generic audiovisual ser- vices”, ITU-T, 2005.

[2]

大久保榮監修

,

角野眞也

,

菊池義浩

,

鈴木輝彦共編

, “

インプレス標準教科書シリーズ改訂版

H.264/AVC

教科書

”,

インプレス