• 検索結果がありません。

映像ソリューション向けメディア 処理技術

N/A
N/A
Protected

Academic year: 2021

シェア "映像ソリューション向けメディア 処理技術"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

映像ソリューション向けメディア

処理技術

Media Processing Technologies for Audio-Visual Solutions

あ ら ま し 富士通研究所では,富士通が展開する映像ソリューションの基盤となる,オーディオ/ビデ オなどのメディア符号化に関する高品質化技術と,これらの技術をソリューションとして展 開するためのシステム化技術の研究開発を行っている。 本稿では,富士通の製品に適用された最新成果を紹介する。まずオーディオ符号化技術と して,5.1チャネル音声に対応し,原音と差異のない高音質性能を実現するAAC(Advanced Audio Coding)圧縮技術を紹介する。つぎにビデオ符号化技術として,H.264|MPEG-4 AVCにおいて,放送の生中継への適用を目的として,世界最高水準である300 msの映像伝送 の低遅延化を実現した技術を紹介する。最後に,システム化技術として,並列処理による高 速化と,共通インタフェースによるマルチコーデックへの迅速な対応を特長とする高速トラ ンスコードシステムを紹介する。 Abstract

Fujitsu Laboratories Ltd. has been developing underlying technologies for Fujitsu’s audio-visual solutions to improve the quality of audio-video coding, along with related system technologies required to develop solutions using these technologies. In this paper, we describe some of the latest results being used in Fujitsu products. We first introduce a high-performance Advanced Audio Coding (AAC) compression technology for 5.1-channel audio that is subjectively indistinguishable from the original audio signal. Then, we discuss an H.264/MPEG-4 AVC-compliant video coding technology for live broadcasting that achieves market-leading end-to-end video-transfer latency of 300 ms. Finally, we introduce a high-speed transcoding system that achieves its high speed through parallel processing and supports multiple coding standards via a common programming interface.

鈴木政直(すずき まさなお) 画像・バイオメトリクス研究セン ター 所属 現在,音声符号化方式,実現技術, 応用の研究開発に従事。 数井君彦(かずい きみひこ) 画像・バイオメトリクス研究セン ター 所属 現在,動画像符号化方式の研究開発 に従事。 此島真喜子(このしま まきこ) 画像・バイオメトリクス研究セン ター 所属 現在,映像配信システムの研究開発 に従事。

(2)

映像ソリューション向けメディア処理技術

表-1 開発したAACエンコード技術の仕様

符号化方式 MPEG-2 AAC

準拠規格 ISO/IEC 13818-7:2006,ARIB STD-B32 出力形式 ADTS(Audio Data Transport Stream)形式 サンプリング 周波数 24 kHz,48 kHz チャネル数 モノラル,ステレオ,デュアルモノラル, 5.1サラウンド ビットレート ま え が き 2011年に予定されるアナログ放送の終了を背景 に,地上デジタル放送への移行が進んでいる。一方, 有線,無線網のブロードバンド化,端末の高性能化 に伴い,YouTubeなどインターネット上の動画共有 サービスや,アクトビラ,地上デジタル放送のIP 再送信などの映像配信サービスが年々増加している。 富士通研究所では,今後ますます需要が高まる, オーディオ,ビデオのメディア符号化の要素技術, およびシステム化技術の研究開発を行っている。 本稿では,製品化された最新の成果として,オー デ ィ オ で は 高 音 質 AAC ( Advanced Audio Coding)符号化技術,ビデオでは映像伝送の低遅 延化技術,システム化では符号化方式を実時間の 1/nで高速変換するトランスコードシステムについ て述べる。 オーディオ符号化技術 映像配信サービスでは,従来のステレオよりも臨 場感に優れた5.1チャネル音声のコンテンツが増加 しており,5.1チャネル音声を高音質に圧縮できる オーディオ符号化技術への需要が高まっている。 国 際 標 準 化 団 体 ISO/IEC ( International Organization for Standardization/International Electrotechnical Commission)では,マルチメディ ア専門家グループであるMPEG(Moving Picture Experts Group)において,5.1チャネル音声に対応 したオーディオ符号化方式としてMPEG-2 AAC(1) (以下,AAC)を標準化した。AACは,日本の地上/ 衛星/IPデジタル放送規格(2)やアクトビラなどに採 用されている。ただし,ISO/IECではAACのデー タ形式とデコード方式のみを規格化し,エンコード 方式を規定していない。このため,エンコード技術 の優劣がコンテンツの音質を左右する重要なかぎと なっている。 本 章 で は , 富 士 通 が 提 供 す るBroadsight , FENICS IP ビ デ オ 配 信 サ ー ビ ス な ど の 映 像 ソ リューションに採用された5.1チャネルAACエン コード技術について述べる。本技術は,独自の圧縮 技術により,低ビットレートで原音に近い音質を実 現する。 ● 開発技術の仕様 開発したAACエンコード技術の仕様を表-1に示 す。本技術はMPEG-2規格に準拠している。サン プリング周波数は24 kHzと48 kHzに対応し,モノ ラルから5.1サラウンドまでの幅広い音声チャネル 数に対応する。 ● 課題 5.1チャネル音声は,映画やDVDでも採用されて おり,前方3チャネル,後方2チャネルおよび低域 効果用の1チャネル(0.1と表記する)の計6個の音 声チャネルで再生するため,従来のステレオに比べ て,音の広がりや重低音の表現力が優れている。 AACは,5チャネル音声に対して320 kbpsで原音に 近い音質を実現することを目標として標準化されて いるが,日本のデジタル放送では,実質6チャネル 分の情報量を持つ5.1チャネル音声に対して,同じ 320 kbpsの低ビットレート条件で符号化するため, 音質に関して以下の問題がある。 (1) 各チャネルの情報量配分の問題 多くの情報を必要とする音を少ない情報量(ビット レート)で符号化すると音質が劣化する。とくに,5.1 チャネル音声では,1チャネルあたりの情報量が少ない ため,各チャネルの情報量を固定値とすると,符号化に 多くの情報量が必要なチャネルでは音質が劣化し,逆に 少ない情報量で十分なチャネルでは情報量が無駄に使用 される。したがって,入力信号の性質に応じて各チャネ ルの情報量を決定する必要がある。 (2) アタック音の符号化効率の問題 アタック音(打楽器などの音)は,定常音に比べ て符号化に必要な情報量が多くなる。複数のチャネ ルにアタック音が存在すると,5.1チャネル全体の 情報量が目標値を超える可能性が増え,単純な情報 量の削減ではアタック音の音質が劣化する。した がって,アタック音の符号化効率を改善する必要が ある。 32~384 kbps

(3)

映像ソリューション向けメディア処理技術

● 特長 (1) 情報量配分技術の改良による音質向上 独自の心理聴覚分析技術により,聴覚特性を考慮 して入力音の複雑度を算出し,複雑度に基づいて各 チャネルの情報量を決定する。つまり,複雑度が大 きいチャネルには多くの情報量が必要と判定して符 号化のための情報量を多く割り当て,複雑度が小さ いチャネルには割り当てる情報量を少なくすること により,合計の情報量を変えずに音質を向上した。 (2) アタック音の音質向上 主観的に重要なアタック音の近傍では時間分解能 を細かく(情報量を多く)して符号化し,アタック 音の近傍以外では時間分解能を粗く(情報量を少な く)することにより,全体の情報量を増やさずにア タック音の音質を向上した。 ● 音質評価結果 開発方式の音質をMUSHRA(MUlti Stimulus test with Hidden Reference and Anchor)(3)法によ

り評価した。MUSHRA法は,原音と符号化音を 聞き比べ,各符号化音の音質を0(非常に悪い) ~100(非常に良い)の範囲で評価する方法であ る。評価音として,打楽器,映画,交響楽,ポッ プスなどの10種類の5.1チャネル音源(サンプリ ング周波数48 kHz)を用い,開発方式のビット レートは320 kbpsとした。音楽の専門家24名に よる評価結果を図-1に示す。この結果より,開発 方式は,320 kbpsの低ビットレート条件で,原音 に対して統計的な有意差がなく,ほぼ同等の音質 であることを確認した。 ● まとめと今後の展開 富士通が提供するBroadsight,FENICS IPビデ オ配信サービスなどの映像ソリューションに採用さ れた,5.1チャネルAACエンコード技術について述 べた。開発方式は,320 kbpsの低ビットレート条 件で原音に近い高音質を提供できる。今後は,さら なる高音質化を図っていく予定である。 ビデオ符号化における低遅延化技術

H.264|MPEG-4 AVC(4),(5)(以下,H.264/AVC)

は,ITU-T(International Telecommunication Union Telecommunication Standardization Sector ) と ISO/IECが共同で策定した最新の映像圧縮の国際標 準で,その高い圧縮率と高画質性を生かし,モバイ ルからブロードバンドまでの通信や放送などに幅広 く利用されている。 富士通は早期からH.264/AVCの研究開発(6)を行っ ており,その成果を応用し,2006年にリアルタイ ム映像伝送装置IP-9500を発表した。IP-9500は, その高画質性が国内外の放送局に高く評価され,導 入が進められている。 放送局での利用シーンは,局間の素材伝送のほか に,リアルタイム性が必要な衛星回線を利用した取 材先からの生中継,IP網を利用した遠隔地の天気 カメラや河川監視カメラ映像の収集・蓄積にも広 がっている。 リアルタイム伝送を実現するためには,カメラ入 力から符号化,復号,再生画像表示までに必要な時 間(以下,遅延)を減らすことが非常に重要である。 とくに生中継では,スタジオと現場との掛け合いの 際に,違和感なく会話を行うためには遅延を300 ms (ネットワーク伝送を含む場合は500 ms)以下に抑え る必要がある。 95%信頼度区間 図-1 音質評価結果 IP-9500は,当初は高画質性を優先したため遅延 が1 s以上あった。このため,IP-9500を導入した放 送局からは,生中継向けの低遅延化が強く要望され ていた。そこでH.264/AVCの高画質性を維持しつ つ低遅延化を実現する技術を開発した。 ● 課題 ビデオ符号化における遅延は主に,フレーム(動 画像の各画面)ごとに変動する発生情報量に起因す る。ビデオ符号化では一般的に,圧縮効率を高める ために過去のフレームと現在のフレームの差分のみ

Fig.1-Listening test result for AAC encoder compared with original signal(not compressed).

(4)

映像ソリューション向けメディア処理技術

を符号化するインターフレームと,ビットストリー ムを画像崩れを起こさずに途中から再生すること (再引込み)を可能にするために現在のフレーム内 情報のみで符号化するイントラフレームを用いるが, イントラフレームでの発生情報量は,インターフ レームの数倍以上に大きくなり,固定レートで伝送 する場合,数フレーム以上の時間がかかる。すなわ ち,イントラフレームの符号化データは,すべてを 受信・復号・表示するまでの遅延が大きくなり,リ アルタイム伝送の課題であった。 ● イントラスライス方式の採用 遅延を小さくするには,各フレームの発生情報量 を均一化するイントラスライス方式が有効である。 イントラスライス方式の原理を図-2に示す。各フ レームはインターフレームのみから構成される。イ ントラフレームを帯状に裁断化したイントラスライ スを,インターフレームの中に巡回配置する。これ により,イントラフレームでの発生情報量が一巡時 間(イントラスライス周期)の中に分散され,各フ レームの発生情報量が均一になる。その結果, 300 msの遅延を達成した。 ● H.264/AVCへの適用 イントラスライス方式をH.264/AVCに適用する 場合,二つの課題がある。 (1) 再引込みの保証 再引込みを確実に行うために,現在のフレーム (例:図-2のフレーム3)を差分符号化する際,過去 のフレーム(同,フレーム2)中の,イントラスラ イスが巡回済みで画像崩れのない領域,具体的には イントラスライスとその上側の領域(同,フレーム 2の太枠内)のみを使用する制御にした。 さらに,画質向上のために適用する画面内フィル タで,イントラスライスが巡回しておらず画像崩れ の可能性がある領域,具体的にはフレーム3の太線 より下のデータを処理に用いないことで画像崩れの 影響がイントラスライス巡回済みの領域に波及する ことを防いだ。 (2) イントラスライス適用時の画質改善 H.264/AVCでは,イントラフレームの画質と, インターフレームの画質が異なる。イントラスライ ス適用時には,フレーム内でイントラスライスとそ れ以外の領域の間に画質の違いが発生し,結果巡回 するイントラスライスが知覚されてしまう。これを 回避するために,情報量割当てを工夫することで, 高画質化を実現した。 ● 製品化と今後の展開 本低遅延機能は,IP-9500に追加されお客様への 提供を開始した。300 msという業界最高水準の低 遅延が認められ,衛星中継,ロードレース中継など で活躍している。今後も,さらなる低遅延化,およ び画質改善を図っていく予定である。 高速トランスコードシステム ハイビジョンから携帯電話まで,様々な映像配信 サービスが年々増加しており,再生条件の異なる ネットワークや端末への配信の需要が高まっている。 例えば,ユーザが投稿した様々な符号化方式の映像 を即時に配信する場合,映像を高速にトランスコー ド(符号化方式変換)する必要がある。また,放送 と比較して進化の速いネットワーク映像配信技術に 対応し,かつSaaS(Software as a Service)など でトランスコードサービスを行う場合は,ソフト ウェアで実現することが好ましい。 本章では,一方式のファイルから他方式のファイ ルへの変換を対象とした,汎用サーバで動作可能な ソフトウェアによる高速トランスコードシステムに ついて述べる。 イントラスライス イントラスライス周期 時間 インター フレーム フレーム 1 2 3 図-2 イントラスライス方式の原理 ● 課題 (1) トランスコード処理の高速化 高速化には一般的に並列処理が有効である。並列 処理には,処理を分割する方法(処理分割)とデー タを分割する方法(データ分割)の2種類があり, 処理分割による並列化では,トランスコード処理内 において処理待ちが頻繁に発生し,高速化が難しい。

(5)

映像ソリューション向けメディア処理技術

(2) 様々な方式間での変換処理 お客様の幅広い要求仕様である複数の符号化方式 に柔軟かつ迅速に対応する必要がある。 ● 高速化への対応 処理分割に対しデータ分割は,トランスコード処 理において処理待ちが発生するのが,それぞれ分割 したデータの処理完了時点であり,高速化に有効で ある。そこで,本システムでは,変換元のファイル を同一時間長の複数の小ファイルに分割し,複数台 のサーバでそれぞれの小ファイルを処理する構成と した。本システムの構成と処理方法を図-3に示す。 (1) ファイルの分割と結合 ビットストリームの途中からの復号を可能にする ため,現在のフレーム内情報のみで符号化するイン トラフレームの先頭をファイル分割の区切りとした。 分割したファイルを独立してトランスコード処理し た場合,結合点において,符号化による画質の劣化 度合いが異なるために違和感が生じることが多い。 このため,それぞれのサーバで互いに数秒のフレー ムを重複して処理し,重複部分のビットストリーム 解析と符号化条件の調整を行うことにより,結合点 前後の映像連続性を確保した。 (2) プログラム構造 システム全体は,各分割ファイルのトランスコー ド処理を行うスレーブスレッド(処理単位)と,複 数サーバ間の連携およびサーバ内で複数のスレーブ スレッドを並列実行するマスタースレッドから構成 される。マスタースレッドは,使用可能なサーバ数, 各サーバのCPU使用率に基づき,各サーバで最適 なスレッド数を動的に割り当てることにより,柔軟 な制御を実現している。 本システムのトランスコード処理性能を表-2に示 す。MPEG-2のHDTV(1440×1080i)3分間のス ト リ ー ム をH.264/AVCに変換した場合である。 サーバは富士通製PRIMERGY RX200 S4(CPUは Xeon X5460×2個で8 CPUコア,3.16 GHz)で, 1スレッドあたり2 CPUコアを使い,富士通研究所 作成の多重化,ビデオ,オーディオソフトウェアラ イブラリを用いて測定した。 本システムでは,サーバ3台による並列処理で実 時間の1/3.9での高速変換を達成している。 マスタスレッド トランスコード処理 : : (a)処理領域を一部重複させる トランスコード処理 (a) (a) スレーブスレッド1 スレーブスレッド2 : : 変換後のファイル (結合前) トランスコード処理 スレーブスレッドn (a) (b)の重複箇所は 取り除いて 規格違反を チェックした後 1本にまとめる 変換後の ファイル 入力 出力 指示 直接参照 またはコピー : (b) (b) (b)は重複分 変換元の ファイル 多重化 分離 オーディオ エンコーダ 多重化 キャプ チャ /受信 出力 送出 変換元 ファイル 変換後 ファイル トランスコード処理の全体制御ブロック 共通インタフェースを 設定するコンポーネント メタデータ変換 ビデオ エンコーダ オーディオ デコーダ ビデオ デコーダ オーディオ サンプリング 変換 ビデオ 解像度 変換 図-3 並列処理方法

(6)

映像ソリューション向けメディア処理技術

表-2 処理性能と測定条件 ・処理性能 分割ファイル数 分割なし 4 8 12 サーバ台数 1 1 2 3 CPUコア数 2 8 16 24 処理時間(s) 366 119 67 46 実時間比 2.0 1/1.5 1/2.7 1/3.9 ・測定条件 ストリーム:3分,HDTV(1440×1080i) 変換元 変換後 多重化 MPEG-2 PS MPEG-2 TS ビデオ MPEG-2 Video H.264/AVC オーディオ MPEG-1 Layer2 MPEG-2 AAC

● 複数の符号化方式への対応 幅広い要求仕様に柔軟かつ迅速に対応するために は,デコーダ,エンコーダ,多重化などのトランス コーダのコンポーネント(図-3上部参照)追加時の 開発コストを抑える必要がある。本システムでは, これらコンポーネントの制御を行うトランスコード 処理の全体制御フローを同一とするため,共通イン タフェースとして,ほとんどの大手電機,家電, LSIメーカが共同参画するKhronos Groupが策定し た業界標準OpenMAXを採用した。(7) OpenMAXは, システムの環境を限定せず,抽象度が高いことを特 長とし,コーデック内部の処理ブロック,コーデッ ク,アプリケーションの間についてそれぞれインタ フェースを定めている。本システムでは,全体制御 部 と コ ー デ ッ ク 間 の イ ン タ フ ェ ー ス で あ る OpenMAX IL(Integration Layer)を実装した。 共通インタフェースを,個々のコンポーネント固 有のAPI(Application Programming Interface) の上位APIとして定義することにより,コンポーネ ントを追加する際の開発箇所を,APIと共通インタ フェースの間に限定することが可能となった。 現在,MPEG-2,MPEG-4,H.264/AVCなどの 国際標準化方式だけでなく,Windows Mediaなど の 代 表 的 な デ フ ァ ク ト コ ー デ ッ ク や ,BML (Broadcast Markup Language),字幕,番組情報

など,メディア情報のメタデータに対応している。 また,OpenMAXに準拠したコンポーネントの追加 実装が容易となった。 ● 製品化と今後の展開 本トランスコードシステムは,基盤技術として, FENICS IPビデオ配信サービスをはじめ,各種メ ディアサービス用のトランスコードシステムとして 採用されている。今後は,様々なソリューションに 対応するため,OS環境(システムコールやコマン ド)まで含めた共通化インタフェースを開発する予 定である。 む す び

富士通が提供するBroadsight, FENICS IPビデオ 配信サービスなどの映像ソリューションに採用され, それらの特長となっているオーディオ/ビデオコー デック,およびシステム化技術の最新の成果につい て述べた。 富士通研究所では,今後もオーディオ符号化, ビデオ符号化の高品質化および低遅延化を図ると ともに,Linux, RTOSなど複数のOSや組込み機 器などにも適用可能なシステム化技術の研究開発 により,様々な映像ソリューションに対応してい く予定である。 参 考 文 献

(1) ISO/IEC 13818-7 : Generic coding of moving pictures and associated audio information. - Part 7:Advanced Audio Coding(AAC).2006.

(2) ARIB STD-B32:デジタル放送における映像符号 化,音声符号化および多重化方式標準規格.電波産業会. (3) ITU-R Recommendation BS.1534-1:Method for

the subjective assessment of intermediate quality level of coding systems.2001 - 2003.

(4) ITU-T Recommendation H.264:Advanced Video Coding for generic audiovisual service. 2007. (5) ISO/IEC 14496-10 : Information Technology --

Coding of audio-visual objects -- Part 10:Advanced Video Coding. 2008.

(6)中川章:H.264/AVCの適用動向と富士通の取組み.

FUJITSU,Vol.58,No.2,p.136-142(2007). (7) The Khronos Group Inc:OpenMAXTM Integration

Layer Application Programming Interface Specification Version 1.0. December 16, 2005.

参照

関連したドキュメント

ご使用になるアプリケーションに応じて、お客様の専門技術者において十分検証されるようお願い致します。ON

ご使用になるアプリケーションに応じて、お客様の専門技術者において十分検証されるようお願い致します。ON

ご使用になるアプリケーションに応じて、お客様の専門技術者において十分検証されるようお願い致します。ON

・対象書類について、1通提出のう え受理番号を付与する必要がある 場合の整理は、受理台帳に提出方

撮影画像(4月12日18時頃撮影) 画像処理後画像 モックアップ試験による映像 CRDレール

昨年度同様、嘔吐物処理の研修、インフルエンザ対応の研修を全職員が受講できるよう複

の会計処理に関する当面の取扱い 第1四半期連結会計期間より,「連結 財務諸表作成における在外子会社の会計

の会計処理に関する当面の取扱い 第1四半期連結会計期間より,「連結 財務諸表作成における在外子会社の会計