1
早稲田大学大学院情報生産システム研究科
博士論文審査結果報告書
論 文 題 目
Research on Transcoding of MPEG-2/H.264 Video Compression
申 請 者 Wei, Xianghui
情報生産システム工学専攻 マルチメディアシステム研究
2 0 0 9 年 2 月
2
ビデオトランスコーディングとは、あるフォーマットで作成されたビデオストリームデータを他の異な るフォーマットのデータへ変換することである。インターネットでのデータアクセスや様々なメデイア間 のデータ変換では、異種のフォーマットを持つデータを扱う必要があり、効率的なデータ変換の手段を提 供することは、今後のマルチメディアシステムにおいて重要な課題となっている。トランスコーダを使え ば、例えばハイビジョンの高品質なビデオデータをコード変換してPDAやPCでも見られるようにするこ とや、衛星デジタル放送のMPEG-2形式のハイビジョンデータをH.264/AVC形式の再生機で見ることが可 能となる。このためには異なるネットワークプラットホーム間で、さまざまの性能と形式のマルチメディ ア機器のビデオ内容を変換できる必要がある。ビデオトランスコーダは、使用可能なネットワーク回線容 量に対して、ビデオデータフォーマットの形式変換を行い。ビット転送速度とフレーム転送速度を動的に 調整し送受信することを可能とする必要がある。特に、高品質画像のMPEG-2フォーマットで作成された ハイビジョン放送が普及してきており、大量な動画像のデータの格納が問題となってきた。そこで、
MPEG-2 に比べて約 50%のデータ量を削減できる H.264/AVC 方式が注目されており。データの格納を
H.264/AVCで行うことが望まれている。すなわち、MPEG-2形式からH.264/AVC形式へフォーマット変換 する効率良いトランスコーダの開発が望まれている。
本論文では、HDTVアプリケーションのためにMPEG-2からH.264/AVCへの効率的なトランスコーディ ングの実現を目指している。MPEG-2は1994年に画像圧縮の標準方式として採用されて以来、地上波デジ タル放送、衛星放送、DVDコンテンツにおいてハイビジョン画像の視聴のために広く世界で使用されてき た。一方、H.264/AVC 規格は、2003 年に ITU-T のビデオコーディングエキスパートグループ(VCEG)と ISO/IECのMPEGの専門家から成るITU-T/ISO/IECジョイントビデオチーム(JVT)により開発された画像圧 縮規格である。MPEG-2からH.264/AVCへのトランスコーディングは、それらの方式間でデータ形式と構 文に違いがあるため、多くの技術課題を解決せねばならない。大きな課題は画像データの再利用化を徹底 的に図り、メモリと演算回路の間のチャネルバンド幅を削減することと、演算量の削減を図り演算回路そ のもののハードウェア量を削減することである。動画圧縮においては動き予測(ME: Motion Estimation)機能 が最も大きな演算量とハードウェア量を必要とするが、その処理では探索するウィンドウの再利用方式に より性能が変わる。本論文では、MPEG-2からH.264/AVCへのトランスコーディングの効率化を実現する ために、2つの探索ウィンドウの再利用方式(Level CとLevel C+)に基づいた新しい高性能なトランスコー ディング方法を提案している。
本論文は以下の6つの章から構成されている。
第1章は序論でありトランスコーディング機能と既存のトランスコーディングシステムの方式を紹介 している。既存のトランスコーディングシステムにおけるデータ再利用の体系を紹介し、その後、ビデオ のエンコーディング時のメモリバンド幅の削減手法について紹介している。とくに画像圧縮で使用するデ ータとして、 現フレームと参照フレームを述べ、参照フレームの再利用可能な探索ウィンドウの程度に より、Level A、Level B、 Level C、Level C+、Level D の5種類に分類し各方式の説明を行っている。
第2章ではLevel C探索ウィンドウ再利用方式に基づくMPEG-2からH.264/AVCへの新しいトランスコ ーディング方式を提案している。Level C方式は、隣接しているマクロブロック(MB: MacroBlock)のMPEG-2
3
の動きベクトル( MV: Motion Vector)に類似性が強いという特徴で、ここではこの特徴に着目して新たなト ランスコーディング方式を考案している。連続したMBのMVの差分が予め定義された閾値以下であれば、
それらのMV領域は平坦と考え、ある規則的な一定間隔で並んだMVとして設定する。すわなち、ウィン ドウの水平軸で16ピクセルだけ異なった2つの連続したMBが並んでいると表現される。MV領域が平 坦であれば、連続する2つのMBは、重なる探索ウィンドウを共有化でき、参照フレームへのメモリアク セス回数を削減できる。もしMV領域が平坦でなければ、検索ウィンドウは共有化しないで参照フレーム へアクセスを行う。シミュレーション実験の結果によれば、多くの場合、連続する2つのMBは検索ウィ ンドウを共有化できることが判明した。HDTV720p の動画コンテンツでの例では全体の MB の内、平均 93.1%の検索ウィンドウを共有化できることが判明した。このため参照フレームへのアクセス回数を大幅 に削減できチャネルバンド幅を減らすことが可能となった。またPSNR(Peak Signal to Noise Ratio)で画質評 価した結果では、まったく画質の劣化がみられなかった。参照フレームの冗長アクセス度(Rα: Redundancy Access Factor) は2.91を達成し、チャネルバンド幅は121.6Mバイト/秒で、オンチップメモリは2.25Kバ イトであった。 Level CのH.264/AVCエンコーダと比較して、60%削減でき、チップ上のメモリも86%削 減できた。このトランスコーディング方式は研究的にも新規性があり、実用面からも有用なものと評価で きる。
第3章ではLevel C+の探索ウィンドウ再利用手法を利用したMPEG-2からH.264/AVCへのトランスコー ディングを提案している。特にチャネルバンド幅を最大限に削減することを目的として手法の提案を行っ ている。動き予測においてチャネルバンド幅を削減するには、輝度データだけではなく色差データを含め てVLCやDCT/IDCT等を考慮する必要がある。本論文では動き予測ユニット(MEU: Motion Estimation Unit) に対して探索ウィンドウを設定し、動きベクトルクリップング処理を行い、MEU内の各MBが水平な検 索ウィンドウと垂直な探索ウィンドウの再利用を図る手法を提案した。その結果冗長アクセス度として、
Rα=1.48を達成し、チャネルバンド幅は88.3Mバイト/秒であった。この値はLevel Cと比較して37%を 削減したことになる。一方、オンチップメモリは11.0K バイトで4.8倍に増加した。実用的なビデオトラ ンスコーディングシステム設計では、冗長アクセス度として Rα< 2 が必要とされており、十分に実用で 使えるレベルになっており、実用面からも有効な成果となっている。
第4章はMPEG-2からH.264/AVCへのトランスコーダの整数動き予測(IME: Integer Motion Estimation) モジュールのアーキテクチャを提案し回路設計を行った結果を示している。第3章で提案したLevel Cの 方式に対して、並列SAD(Sum of Absolute Difference)を輝度差の総和計算回路に用い、メモリコントロール に特徴ある方式を導入したアーキテクチャとなっている。メモリでの入力と出力が競合を避け、IME処理 を停止しないでモジュールを実行させることが重要である。従来提案されている方法は Ping-Pang と呼ば れている方法で、1つのSRAMを使用中時に、もう1つのSRAMを更新する方式であるが、平坦でない 共有化ができないデータに対しては本方式は適用できない。本論文で提案したアーキテクチャは、参照画 素を4つのメモリバンク(Mem0-3)に格納する。2つのメモリは、47×16の参照画素のMEを実行すること に使用する。また、各MBのME操作のための参照画素は、3つのメモリバンクに格納する。 本論文の方 式は、MV範囲が平坦である時には循環しながらMem0-2 にアクセスし、MV範囲が非平坦である時に、
Mem3を使用することで解決を図っている。実験結果では、提案したアーキテクチャはLevel Cでのチェ ネルバンド幅を達成できた。LSI 回路で実装化することによって、本研究の成果が実現できることも確か
4 められ、より説得力のある研究成果となっている。
第5章はMPEG-2からH.264/AVCへのトランスコーディングを行う際に、必要となってくる高精度な探
索ウィンドウの中心点を効率良く見つける方法を提案している。トランスコーディングでは、計算量が膨 大となるために、完全な動き予測計算を行うことはしない。その代わりエンコードする時に、動き予測の 計算複雑度を減らすため、MPEG-2デコーダで計算された動きベクトルの端点を探索の中心として再利用 する。しかし、量子化誤差と異なるブロック形状へのマッピング誤差のために、入力される動きベクトル が正しい値でなくなる。ソフトウエアでトランスコーディングを実装する際には、動きベクトルを改良計 算 (Motion Vector Refinement)することで動きベクトルの精度を改善する。しかし、余分なイレギュラーメ モリアクセスがあることから、動きベクトル自身の改良はハードウェアの設計に適していない。そこで本 論文では動きベクトルの平坦性に着目し、精度を判定しながら、ハードウェア向けの探索中心点を改良す るアルゴリズムを提案している。実験結果では、MPEG-2の動きベクトルだけを利用して探索中心点 を求める手法と比べて、CDF (Cumulative Distribution Function)で評価した結果では、提案した手法 は探索中心の精度を 24.8%改善できることを示している。この手法を使えば、ビットレートが平均
13.46%を削減、PSNRも平均0.62dbの改善を図ることができた。探索中心点を精度良く見つける方法は第
2~4章の手法に適用でき、トランスコーダの性能を向上させることができることが判明し、有効な研究 成果であると言える。
第6章は研究の結果のまとめと今後の課題を示している。
以上、本論文は、HDTVアプリケーションのためにMPEG-2からH.264/AVCへの効率的なトランスコー ディングを目指し、2つの探索ウィンドウの再利用方式(Level CとLevel C+)に基づいた新しい高性能なト ランスコーディング方法を方式面とハードウェア実装面から実現している。LSI 回路として実装したと ころ、提案した高速予測アルゴリズムとアーキテクチャは従来提案されたものに比べて、画質を保 ちながら計算量とハードウェア量を画期的に改善できることが明らかになった。現在、製品化され ているトランスコーダはデータの再利用、即ち探索ウィンドウの再利用は考慮しておらず、本論文の 成果により再利用の優位性を定量的に示したことは将来の製品化に対して示唆を与えるものであり、その 成果は実用的にも高く評価できる方法と判断できる。
よって本論文は博士(工学)の学位論文として価値あるものと認める。
2009年1月14日
審査員
主査 早稲田大学教授 工学博士(早稲田大学) 後藤 敏 早稲田大学教授 工学博士(京都大学) 木村 晋二 早稲田大学准教授 博士(情報科学)(早稲田大学)池永 剛