博士論文審査結果報告書

(1)

1

早稲田大学大学院情報生産システム研究科

博士論文審査結果報告書

論文題目

Research on Transcoding of MPEG-2/H.264 Video Compression

申請者 Wei, Xianghui

情報生産システム工学専攻マルチメディアシステム研究

2 0 0 9 年 2 月

(2)

2

ビデオトランスコーディングとは、あるフォーマットで作成されたビデオストリームデータを他の異なるフォーマットのデータへ変換することである。インターネットでのデータアクセスや様々なメデイア間のデータ変換では、異種のフォーマットを持つデータを扱う必要があり、効率的なデータ変換の手段を提供することは、今後のマルチメディアシステムにおいて重要な課題となっている。トランスコーダを使えば、例えばハイビジョンの高品質なビデオデータをコード変換してPDAやPCでも見られるようにすることや、衛星デジタル放送のMPEG-2形式のハイビジョンデータをH.264/AVC形式の再生機で見ることが可能となる。このためには異なるネットワークプラットホーム間で、さまざまの性能と形式のマルチメディア機器のビデオ内容を変換できる必要がある。ビデオトランスコーダは、使用可能なネットワーク回線容量に対して、ビデオデータフォーマットの形式変換を行い。ビット転送速度とフレーム転送速度を動的に調整し送受信することを可能とする必要がある。特に、高品質画像のMPEG-2フォーマットで作成されたハイビジョン放送が普及してきており、大量な動画像のデータの格納が問題となってきた。そこで、

MPEG-2 に比べて約 50％のデータ量を削減できる H.264/AVC 方式が注目されており。データの格納を

H.264/AVCで行うことが望まれている。すなわち、MPEG-2形式からH.264/AVC形式へフォーマット変換する効率良いトランスコーダの開発が望まれている。

本論文では、HDTVアプリケーションのためにMPEG-2からH.264/AVCへの効率的なトランスコーディングの実現を目指している。MPEG-2は1994年に画像圧縮の標準方式として採用されて以来、地上波デジタル放送、衛星放送、DVDコンテンツにおいてハイビジョン画像の視聴のために広く世界で使用されてきた。一方、H.264/AVC 規格は、2003 年に ITU-T のビデオコーディングエキスパートグループ(VCEG)と ISO/IECのMPEGの専門家から成るITU-T/ISO/IECジョイントビデオチーム(JVT)により開発された画像圧縮規格である。MPEG-2からH.264/AVCへのトランスコーディングは、それらの方式間でデータ形式と構文に違いがあるため、多くの技術課題を解決せねばならない。大きな課題は画像データの再利用化を徹底的に図り、メモリと演算回路の間のチャネルバンド幅を削減することと、演算量の削減を図り演算回路そのもののハードウェア量を削減することである。動画圧縮においては動き予測(ME: Motion Estimation)機能が最も大きな演算量とハードウェア量を必要とするが、その処理では探索するウィンドウの再利用方式により性能が変わる。本論文では、MPEG-2からH.264/AVCへのトランスコーディングの効率化を実現するために、２つの探索ウィンドウの再利用方式(Level CとLevel C+)に基づいた新しい高性能なトランスコーディング方法を提案している。

本論文は以下の6つの章から構成されている。

第１章は序論でありトランスコーディング機能と既存のトランスコーディングシステムの方式を紹介している。既存のトランスコーディングシステムにおけるデータ再利用の体系を紹介し、その後、ビデオのエンコーディング時のメモリバンド幅の削減手法について紹介している。とくに画像圧縮で使用するデータとして、現フレームと参照フレームを述べ、参照フレームの再利用可能な探索ウィンドウの程度により、Level A、Level B、 Level C、Level C+、Level D の５種類に分類し各方式の説明を行っている。

第２章ではLevel C探索ウィンドウ再利用方式に基づくMPEG-2からH.264/AVCへの新しいトランスコーディング方式を提案している。Level C方式は、隣接しているマクロブロック(MB: MacroBlock)のMPEG-2

(3)

3

の動きベクトル( MV: Motion Vector)に類似性が強いという特徴で、ここではこの特徴に着目して新たなトランスコーディング方式を考案している。連続したMBのMVの差分が予め定義された閾値以下であれば、

それらのMV領域は平坦と考え、ある規則的な一定間隔で並んだMVとして設定する。すわなち、ウィンドウの水平軸で１６ピクセルだけ異なった２つの連続したMBが並んでいると表現される。MV領域が平坦であれば、連続する２つのMBは、重なる探索ウィンドウを共有化でき、参照フレームへのメモリアクセス回数を削減できる。もしMV領域が平坦でなければ、検索ウィンドウは共有化しないで参照フレームへアクセスを行う。シミュレーション実験の結果によれば、多くの場合、連続する２つのMBは検索ウィンドウを共有化できることが判明した。HDTV720p の動画コンテンツでの例では全体の MB の内、平均 93.1%の検索ウィンドウを共有化できることが判明した。このため参照フレームへのアクセス回数を大幅に削減できチャネルバンド幅を減らすことが可能となった。またPSNR(Peak Signal to Noise Ratio)で画質評価した結果では、まったく画質の劣化がみられなかった。参照フレームの冗長アクセス度(Rα: Redundancy Access Factor) は2.91を達成し、チャネルバンド幅は121.6Mバイト／秒で、オンチップメモリは2.25Kバイトであった。 Level CのH.264/AVCエンコーダと比較して、60%削減でき、チップ上のメモリも86%削減できた。このトランスコーディング方式は研究的にも新規性があり、実用面からも有用なものと評価できる。

第３章ではLevel C+の探索ウィンドウ再利用手法を利用したMPEG-2からH.264/AVCへのトランスコーディングを提案している。特にチャネルバンド幅を最大限に削減することを目的として手法の提案を行っている。動き予測においてチャネルバンド幅を削減するには、輝度データだけではなく色差データを含めてVLCやDCT/IDCT等を考慮する必要がある。本論文では動き予測ユニット(MEU: Motion Estimation Unit) に対して探索ウィンドウを設定し、動きベクトルクリップング処理を行い、MEU内の各MBが水平な検索ウィンドウと垂直な探索ウィンドウの再利用を図る手法を提案した。その結果冗長アクセス度として、

Rα=1.48を達成し、チャネルバンド幅は88.3Mバイト／秒であった。この値はLevel Cと比較して37%を削減したことになる。一方、オンチップメモリは11.0K バイトで4.8倍に増加した。実用的なビデオトランスコーディングシステム設計では、冗長アクセス度として Rα< 2 が必要とされており、十分に実用で使えるレベルになっており、実用面からも有効な成果となっている。

第４章はMPEG-2からH.264/AVCへのトランスコーダの整数動き予測(IME: Integer Motion Estimation) モジュールのアーキテクチャを提案し回路設計を行った結果を示している。第３章で提案したLevel Cの方式に対して、並列SAD(Sum of Absolute Difference)を輝度差の総和計算回路に用い、メモリコントロールに特徴ある方式を導入したアーキテクチャとなっている。メモリでの入力と出力が競合を避け、IME処理を停止しないでモジュールを実行させることが重要である。従来提案されている方法は Ping-Pang と呼ばれている方法で、１つのSRAMを使用中時に、もう１つのSRAMを更新する方式であるが、平坦でない共有化ができないデータに対しては本方式は適用できない。本論文で提案したアーキテクチャは、参照画素を4つのメモリバンク(Mem0-3)に格納する。2つのメモリは、47×16の参照画素のMEを実行することに使用する。また、各MBのME操作のための参照画素は、3つのメモリバンクに格納する。本論文の方式は、MV範囲が平坦である時には循環しながらMem0-2 にアクセスし、MV範囲が非平坦である時に、

Mem3を使用することで解決を図っている。実験結果では、提案したアーキテクチャはLevel Cでのチェネルバンド幅を達成できた。LSI 回路で実装化することによって、本研究の成果が実現できることも確か

(4)

4 められ、より説得力のある研究成果となっている。

第５章はMPEG-2からH.264/AVCへのトランスコーディングを行う際に、必要となってくる高精度な探

索ウィンドウの中心点を効率良く見つける方法を提案している。トランスコーディングでは、計算量が膨大となるために、完全な動き予測計算を行うことはしない。その代わりエンコードする時に、動き予測の計算複雑度を減らすため、MPEG-2デコーダで計算された動きベクトルの端点を探索の中心として再利用する。しかし、量子化誤差と異なるブロック形状へのマッピング誤差のために、入力される動きベクトルが正しい値でなくなる。ソフトウエアでトランスコーディングを実装する際には、動きベクトルを改良計算 (Motion Vector Refinement)することで動きベクトルの精度を改善する。しかし、余分なイレギュラーメモリアクセスがあることから、動きベクトル自身の改良はハードウェアの設計に適していない。そこで本論文では動きベクトルの平坦性に着目し、精度を判定しながら、ハードウェア向けの探索中心点を改良するアルゴリズムを提案している。実験結果では、MPEG-2の動きベクトルだけを利用して探索中心点を求める手法と比べて、CDF (Cumulative Distribution Function)で評価した結果では、提案した手法は探索中心の精度を 24.8%改善できることを示している。この手法を使えば、ビットレートが平均

13.46%を削減、PSNRも平均0.62dbの改善を図ることができた。探索中心点を精度良く見つける方法は第

２～４章の手法に適用でき、トランスコーダの性能を向上させることができることが判明し、有効な研究成果であると言える。

第６章は研究の結果のまとめと今後の課題を示している。

以上、本論文は、HDTVアプリケーションのためにMPEG-2からH.264/AVCへの効率的なトランスコーディングを目指し、２つの探索ウィンドウの再利用方式(Level CとLevel C+)に基づいた新しい高性能なトランスコーディング方法を方式面とハードウェア実装面から実現している。LSI 回路として実装したところ、提案した高速予測アルゴリズムとアーキテクチャは従来提案されたものに比べて、画質を保ちながら計算量とハードウェア量を画期的に改善できることが明らかになった。現在、製品化されているトランスコーダはデータの再利用、即ち探索ウィンドウの再利用は考慮しておらず、本論文の成果により再利用の優位性を定量的に示したことは将来の製品化に対して示唆を与えるものであり、その成果は実用的にも高く評価できる方法と判断できる。

よって本論文は博士（工学）の学位論文として価値あるものと認める。

２００９年１月１４日

審査員

主査早稲田大学教授工学博士（早稲田大学）後藤敏早稲田大学教授工学博士（京都大学）木村晋二早稲田大学准教授博士（情報科学）（早稲田大学）池永剛

博士論文審査結果報告書

早稲田大学大学院情報生産システム研究科