マルチメディア処理 LSI の高性能化に関する研究

(1)

マルチメディア処理 LSI の高性能化に関する研究

Study on high performance architecture for multimedia processing LSIs

2005 年 3 月

早稲田大学大学院理工学研究科

河合浩行

(2)

(3)

(4)

第 1 章

序論

(8)

１．１．マルチメディア処理LSI の高性能化における課題

半導体プロセス技術と LSI設計技術は驚異的な速度で進歩を続けており、社会全般の至るところで LSIを組み込んだシステムが構築され、そのシステムにより提供されるサービスを意識することなく享受するユビキタス社会が現出し始めている。

あらゆる情報の発信母体である媒体（メディア）が扱う情報は、文字、画像・映像、

音声に集約される。これら情報をデジタル情報として扱えるように変換・処理し、

目的に応じて統合し、インターネットなどのネットワーク網を通じてそれら情報を相互に送受信することにより、アナログ情報を扱う場合には想像し得なかった勢いで情報の共有化が進んでいる。1980年代後半から本格的な技術展開が検討され始めたマルチメディア処理は、文字情報だけでなく、映像や音声情報をインタラクティブにコンピュータで処理することを指している。今後の更なるマルチメディア処理の普及には、広帯域のデータ伝送技術などに加えて、大量のデータを高速に処理できる高性能LSIが不可欠となっている[1][2][3]。

システムへの応用が始まっている画像処理技術としては、文字認識技術を使う OCR（Optical Character Reader）や自動車の自動走行などに応用され始めたオプティカルフローなどの画像認識技術、携帯電話、PDAや FA機器、電化製品などの GUI（Graphical User Interface）、カーナビゲーションシステムや家庭用ゲーム機に用いられる２次元／３次元グラフィックス技術、そしてTV電話／TV会議システムや DVD レコーダーに用いられるビデオ信号処理技術がある。応用製品の普及に伴い、これら画像処理技術に対する高性能化と処理機能の多機能化への要求が今後一層高まると考えられる。各種画像処理に要求される演算処理量を図 1.1 に示す。

図に示されるように、画像認識処理、3 次元グラフィックス処理およびビデオ信号処理はともに１GOPS を超える高い処理性能を必要としている[4][5][6][7][8]。

一方、システムの中核を担うＣＰＵの性能トレンドは図1.2に示す通りである[9]。

図1.2 に示されているように、高性能 CPUの動作周波数は４GHｚに近づいた辺りから向上率に低下傾向が現れている。その理由の一つは、チップの消費電力を抑えることが困難になってきたことが上げられる。同様の傾向は組み込み用マイクロプロセッサにおいても見られる。組み込み用マイクロプロセッサに対する低消費電力要求は高性能 CPU に対するものより厳しく、CPU より低い数百 MHz 帯において動作周波数向上率の低下が現れ始めている。VLSI の消費電力の推移を図 1.3 に示す[10][11]。1990 年までは５V 単一電源であったために微細化の進展とともに３年で４倍消費電力が増加した。1990年代に入ると、使用される電源電圧が低下し、増加率が３年で 1.4 倍に低下した。ITRS (International Technology Roadmap for

Semiconductors)は2005年以降の消費電力増加率の目標値を３年で1.1倍としてお

り、消費電力を抑制するための技術開発が重要となっている。このようにCPUの

(9)

図 1.1 画像処理の演算処理量

図 1.2 CPU 性能の推移

(10)

図 1.3 VLSI の消費電力推移

高性能化は多くの技術的課題の解決を必要とするようになってきた。

マルチメディアシステムにおいて、CPU性能は OS（Operating System）などの処理の実行に割り振られなければならないため、CPU 性能のうち画像処理に向けられる実行性能は限られる。CPUと組み合わせることによって多機能化と高性能化要求に対応するために、特に処理量が多い画像処理用アクセラレータとして画像処理専用 LSI の開発が盛んに行われてきた[12][13][14][15][16][17][18]。画像処理 LSI は複数アルゴリズムに対応できるようにプログラム制御方式を採用しているものと、

単一機能をターゲットとしてハードワイヤード方式を採用する LSI に大別できる。

画像認識処理、グラフィックス処理やビデオ信号処理のシステム性能の更なる向上を実現するためには、半導体微細化技術の進展に加えて、高性能かつ多様化する処理に対応できる柔軟なLSI アーキテクチャ技術の開発が必要である。一方、半導体微細化の進展はシステム・オン・チップの流れを加速している。そのため、画像処理機能等のマルチメディア処理機能もまた例外ではなく、ＣＰＵやその他の機能コアと組み合わされ１チップに集積される傾向にある。こうした要求に応えるべく、

プログラム制御方式をベースとして、高性能化だけではなく、機能の多様化、シス

(11)

テム LSIの小型化、さらにはそのシステムLSI を使用するシステム開発工期短縮も考慮したアーキテクチャ技術の開発が重要となっている [19][20][21][22]。

１．２．マルチメディア処理LSI における高性能化と設計効率化

画像認識処理は大きく３段階の処理に分類される。第一段階は画像前処理、第二段階は特徴抽出処理、そして最後がマッチング処理である[23]。例えば、ノイズ除去のための空間フィルタリング処理などの画像前処理は局所画像データと係数行列の畳み込み演算を多用し膨大な演算能力を必要とする。第二段階では、ヒストグラム、面積やモーメントといったような特徴量が画像前処理後の画像から抽出される。

一般に、この特徴抽出処理は条件分岐命令を多用する。第三段階では、特徴量にもとづいて入力画像とテンプレートとの類似度が評価され、類似度をソーティングすることによって、テンプレートの中からいくつかの候補が選択される。この類似度を求める処理はマッチング処理と呼ばれ、その演算量はテンプレート数とテンプレート毎の特徴ベクタの次元数に依存する。日本語文字認識システムでは、１文字を認識するために約 0.8×10⁶個の距離計算が実行されているものもある。図 1.4に画像認識処理の一例として文字認識における処理内容と演算量を示す。この演算量は JIS第一水準の印刷文字を処理するOCRシステムのシミュレーション結果より求めた。また、図の下に、各処理の特徴を明らかにするために、条件分岐処理と繰り返し処理について概略傾向を示している。距離計算は演算量の多い繰り返し処理が多い。他方、文字列切り出し処理では演算量は少ないが、条件分岐処理が多くなっている。また、特徴抽出処理は中間的な位置づけであることが分かる。このように画像認識システムにおける処理は多様且つ高い演算能力を必要とする。OCRシステムでは条件分岐処理が多い部分をCPUでS/W 処理し、繰り返しの多い処理は専用画像処理LSIで高速に処理するというアプローチがとられている。

従来の画像処理 LSIは２種類のアプローチに分類することができる。一方はハードワイヤードアプローチであり、他方はプログラマブル DSP（Digital Signal

Processor）アプローチである。後者はさらに、Flynn氏の分類定義によるところの

SISD（Single Instruction stream Single Data stream）、SIMD（Single Instruction stream Multiple Data stream）、そして MIMD（Multiple Instruction stream Multiple Data stream）という３つのサブグループに分類できる。従来のハードワイヤード LSIの主要な応用分野は、機能面の柔軟性が低いために、画像の実時間前処理に制限されている[17][24]。ハードワイヤード LSI をシステム基板に実装したシステムでは、アルゴリズム変更が必要となった場合、変更後のアルゴリズムに対応した LSIに置き換えなければならない。また、システム機能の一部を変更する必要が生じた場合、システム設計者はその都度システム基板の再設計に多大な時間を

(12)

（印刷（JIS第一水準）OCRシステム：シミュレーション結果）

図 1.4 画像認識処理（文字認識処理内容と演算量分布）

費やさなければならないという問題がある。

従来のプログラマブル DSPの多くは SISDタイプに属している[25][26]。それらは高い機能的自由度を有しているが、リアルタイムに画像前処理を実行するに十分な処理能力を持っていない。SIMD グループや MIMD グループに属する並列処理 DSPは、SISDタイプ DSPにおける処理能力上の障害を克服すべく導入された。しかしながら、それら並列処理 DSP のデータ転送機能は局所画像処理にのみ対応可能なレベルのかなり制限のあるものとなっている。そのために、それら DSP は例えば効率よくマッチング処理を行うことができない[16][18] [27]。リアルタイムに画像認識処理を行うに十分な処理能力と機能面での柔軟性を持ったプログラマブル DSP向きアーキテクチャ技術開発が重要な課題である。合わせて、認識処理に必須である類似度計算（並列処理）と、類似度計算結果にもとづいて候補を選択するソーティング処理（逐次処理）の処理フローを滑らかに結合する手法も重要な課題とである。

一方、３次元グラフィックスは今日プロフェッショナルユースの CAD／CAMからコンピュータゲームといったアプリケーションまで広く用いられ、またインターネットでの商業広告、カーナビゲーションシステムそして携帯情報端末（携帯電話

(13)

Frame Buffer

Geometry LSI

Rendering Controller

CPU

Clipping Traversal

Setup Edge Proccesing Texture Generation

Pixel Operation Transformation

Lighting

図 1.5 3 次元グラフィックス処理フロー

や PDA など）にも用いられている。３次元グラフィックスのこうした応用分野の広がりは、OpenGL と Direct3D といった業界標準的な３次元グラフィックス API

（Application Program Interface）の策定・普及と合わせて、CPU とグラフィックス用 LSI の高性能化が大きく寄与している[5][28][29]。図 1.5に３次元グラフィックスの典型的な処理フローを示す[30][31]。また、グラフィックス・サブシステムの構成を図 1.6 に示す[28]。３次元グラフィックス処理は３グループに分類することができる。第一のグループはトラバーサル処理と呼ばれ、ＣＰＵが描画対象（オブジェクト）の形状や属性を含むグラフィックスデータを生成する処理である。ジオメトリ処理は座標変換、クリッピング処理と光源計算処理を総称するものである。

座標変換は通常４ｘ４行列のコンボリュ−ション演算によって実行される。クリッピング処理はさらに２個のプロセス、すなわちクリップテストと実クリップ処理に分けることができる。クリップテストでは、描画オブジェクトを形作る線分や三角形がビューボリューム内にあるか否かを試験により判定する。実クリップ処理では、

オブジェクトの線分や三角形がビューボリュームを構成するクリップ面と交差する場合、これら線分や三角形を内部と外部で分断し、内部にある部分のみを後段の描画処理に引き渡す。これにより、無駄な演算と外部メモリアクセスを減らすことが可能となる。光源計算は、より現実的な表現を得るために、環境光、拡散光、反射光とスポットライトによる照明効果を算出する処理である。上述のジオメトリ処理は、最終的に表示される絵の品質を高めるために高い演算精度を必要とするため、

(14)

図 1.6 ３次元グラフィックス・サブシステム

CPU もしくはジオメトリ処理専用 LSI によって処理される。第三番目の処理ステップは、レンダリング処理と呼ばれる。レンダリング処理において、ポリゴンに含まれる画素毎の位置情報と色情報が、ジオメトリ処理の出力であるポリゴン頂点の座標値と色情報から内挿演算によって算出された後、フレームバッファメモリに書き込まれる。レンダリング処理の出力は、一般に整数値で表現されており、レンダリング処理は、一部を除いて、整数演算で実行可能である。これまでのレンダリングコントローラ LSIは、単一 LSI上に複数の処理パイプラインを集積し、並列処理によってレンダリング処理の高速化を図っている[32]。

これまで特定用途向けの高価格システムの技術であった３次元グラフィックス技術の一般化という流れはまだ始まったばかりであり、３次元グラフィックス技術が今後多様な応用分野に広がっていくためには、より高速なインタラクティビティとより現実感溢れる３次元イメージ画像生成技術が必要とされる。そうした技術開発と普及促進のためには、半導体技術を駆使した CPU とグラフィックス LSI の更なる高性能化・小型化が重要となる。ここ数年３次元グラフィックスLSI は性能向上に関して飛躍的な進歩を遂げた。しかしながら、これら３次元グラフィックス LSI では、主として、画素単位の描画処理を行うレンダリング性能の向上が行われ、ポリゴンの頂点単位の処理を行うジオメトリ処理はＣＰＵの処理性能に依存してきた。

ＣＰＵの性能は半導体技術の進歩に合わせて、ムーアの法則に沿って改善されていくと考えられてきたが、システムの機能の高度化が CPU 性能の向上を上回る勢い

(15)

で進んでいる。３次元グラフィックス応用システム機能の高度化は、CPU にジオメトリ処理以外の非常に多くの複雑なタスク処理を要求し、CPUによるジオメトリ処理がシステム性能のボトルネックになると考えられている[33] [34]。今後の高機能システムにとって、ジオメトリ処理 LSIの高性能化が重要になりつつある。

これまでに発表されているジオメトリ処理LSIは２つのカテゴリーに分類できる。

一方はハードワイヤードアプローチであり、他方はプログラマブルアプローチである。ハードワイヤード方式の LSIは、処理回路の並列度を上げることにより処理能力を改善することを目指している[35] [36][37]。しかし、デファクトスタンダードの３次元グラフィックス API である OpenGL が市場からの高機能化要求に応えるべく、扱う処理モードの拡張・見直しを継続しており、こうした機能拡張に柔軟に対応可能なプログラマブル方式 LSIの高性能化が望まれている[28]。グラフィックスLSI の技術進歩は止まるところを知らず、LSI製造技術の進歩と相まって、今後の３次元グラフィックスの応用分野は、ハイエンド PC、高性能ゲーム機、携帯ゲーム機、携帯電話や PDA に止まらず、情報家電製品などのより身近な用途に広がりつつあり、その動きを支える基盤技術として、多様な機能要求に柔軟に対応できるプログラマブル方式ジオメトリ処理LSIの高性能化に向けたアーキテクチャ手法の開発が課題である。

以上の画像認識処理LSIと３次元グラフィックス用ジオメトリ処理LSIにおける課題を解決するために、機能面で柔軟性を持つプログラム制御方式の並列処理をベースとする新しいアーキテクチャを提案する。アーキテクチャ手法として、データ転送機能、SIMD 型アーキテクチャの性能低下要因となる条件分岐処理により生じる処理時間オーバーヘッドを低減するための条件分岐処理方式、さらに並列処理コアとその結果を集約しLSIスループットを高めるための集約型後処理ユニットを結合させるハイブリッドアーキテクチャを提案する。

上述の画像認識処理LSI や３次元グラフィックス LSIを含む ASIC（Application Specific IC ）はシステムの小型化・低価格化に欠かせないキーコンポーネントになっている。半導体プロセス技術の進歩に伴い ASICの集積度と速度性能は飛躍的に向上し、システムのオン・チップ化が進行している。こうした ASICの大規模化・

高機能化は回路設計やテスト設計（テスト回路設計とテストパターン生成）の時間を増大させつつある。回路設計時間は既存の設計資産を再利用するセルベース設計

（ビルディング・ブロック型スタンダード・セル）方式を使って短縮できる。セルベース設計方式では乗算器、RAM、ROM 等の機能ユニット（セル）に関する設計時に必要なデータ（論理図、レイアウトデータ）が予めライブラリ・データベースに登録されている。LSI 設計者は必要なセル及びそのセルの設計データをデータベースから取り出してASIC設計に使用し設計時間を短縮できる。

一方テスト設計の面から考えると、LSI のテストパターンは出荷段階での良否判定基準となるものであり、故障検出率の高いテストパターンが望まれる。ところが

(16)

高故障検出率を持つテストパターンを人手で作成する場合、故障シミュレーションには膨大な時間を要する。また、ASIC が大規模になるほど制御・観測に使えるピン数に対する素子数の比が増加しテストパターン生成がより困難となる。そこでテストパターン生成時間の短縮とテストパターン生成容易化のために、自動テストパターン生成プログラム及びテストパターン自動生成を考慮した特別な回路（テスト容易化回路）が採用されている[38]。テスト容易化設計として、テスト時に LSI内部のレジスタの状態を直接観測・制御できるようにするスキャン方式が広く採用さ

れている[39][40][41]。その他 LSI内部にテストパターン生成機能と故障検出機能

を持たせる BIST（Built-in Self-Test）回路も研究されている[42][43][44]。しかし、これらの方式は付加ゲート数の増加が多く、大規模システム LSIの面積にさらなる増加を引き起こし、通常動作時（非テスト時）の LSI動作速度の低下や故障の見逃しといった問題がある[45]。マルチメディア処理 LSIの高性能化を考える上でも設計効率向上とテスト容易化設計は重要である。特に、通常動作の速度性能に影響を与えず付加回路量を少なくできるテスト容易化設計手法の開発が課題となっている。

１．３．本研究の目的

本論文は、1.2 節で明らかにしたマルチメディア処理 LSI の高性能化に向けた課題を解決することを目的とする。マルチメディア処理 LSIの高性能化のための課題への解決策として、機能柔軟性を持つプログラム制御方式の並列処理をベースとする新しいアーキテクチャ手法を提案する。提案するアーキテクチャ手法は、大局的

（チップレベル）データ転送機能と局所的（演算ユニット内部）データ転送機能の両面でのデータ転送手法、SIMD型アーキテクチャの性能低下要因となる条件分岐処理により生じる処理時間オーバーヘッドを低減するための条件分岐処理方式、さらに並列処理コアとその結果を集約しLSIスループットを高める集約型後処理ユニットを結合させるハイブリッドアーキテクチャを提案する。また、大規模な高性能システム LSIの設計効率化のため、セルベース設計環境における効果的なテストパターン生成法としてデータベースを活用しテストパターンアセンブリという新しい概念を導入したテストパターン生成法を提案するとともに、付加回路量が少なくかつ高性能LSIの通常動作速度に影響を与えないテスト容易化設計を提案する。更に、

上記提案手法をマルチメディア処理 LSIに適用し、それらの有効性を考察する。

(17)

１．４．本論文の内容

第１章：序論

本研究に関連する分野における歴史的背景と研究内容の概説，およびマルチメディア処理 LSIとして画像認識処理 LSIと３次元処理 LSIの動向について述べる。

第２章：データ転送方式による高性能化

「データ転送方式による高性能化」では、マルチメディア処理 LSIの高性能化に欠かせない効率的なデータ転送方式を提案する。

マルチメディア処理の基盤技術の一つである実時間画像認識処理では、これまでシステムは画像処理アルゴリズム毎に専用化されたLSIを組み合わせて構築されてきた。こうしたシステムはアルゴリズムや処理シーケンスの変更に対し柔軟性が低いという問題がある。柔軟性を高くするためにプログラム制御方式が適用されている。しかしプログラム制御では、命令制御による各種データの転送制御に多大な時間を費やすため、LSI の動作周波数を高くしその時間を補償しなければならない。

したがって、プログラム制御による実現はシステムの性能と消費電力面で問題がある。本章では、特に多量のデータを扱い、かつ処理内容に応じてデータへのアクセス方法が異なる実時間画像認識処理（画像前処理、特徴抽出処理、マッチング処理）

に対応しうるプログラム制御方式プロセッサアーキテクチャを得ることを目的として、特にデータ転送方式について検討を行いチップレベルと演算器レベルという２階層で効率的なデータ転送方法を提案する。

チップレベルの大局的転送方式は、DMAC（Direct Memory Access Controller）、

階層化バス、マルチバンク構成データメモリとオーバーラップアドレッシング法からなる共通プラットフォーム・アーキテクチャ上で、画像認識処理において必要とされる多様なデータ転送形態を実現できることを示す。

演算器レベルの局所的転送方式として、画像認識処理アルゴリズムから演算器間接続パスの使用頻度解析を行い、処理性能向上に有効な演算器間接続を明らかにする。また、他のマルチメディア処理である３次元グラフィックス処理のひとつであるジオメトリ処理で必要な累乗計算の高速化にも、局所的データ転送パスが、ハードウエア付加量を抑えながら、処理性能向上に寄与しうることを示す。

第３章：分岐処理のロス削減による高性能化

「分岐処理のロス削減による高性能化」では、マルチメディア処理LSI の高性能化に不可欠な条件分岐を伴う処理の高速処理方式を提案する。

(18)

画像処理、グラフィックス処理や画像圧縮処理はベクトル演算を多用する。ベクトル演算性能を向上するために一般的に用いられる方法はパイプライン処理である。

画像認識における特徴抽出処理、３次元グラフィックスにおけるジオメトリ（幾何学演算）処理では、処理結果に基づく条件分岐処理が必要である。パイプライン方式は連続的にデータ処理を続けるときに最小１クロックサイクルのスループットを達成できるアーキテクチャである。しかし条件分岐処理がパイプライン化されたハードウエアへのデータの連続する流れを阻害し実効的な処理性能の低下を引き起こす。条件分岐による性能低下を抑止する方法として、マルチ分岐制御、多数決分岐制御と遠隔分岐制御という３種類の分岐制御方式を提案し、その有効性を考察する。

マルチ分岐制御はLSI 外部より与えられる制御コードを解析して Case 文に相当する処理をハードウエアで実現する分岐制御方式である。多数決分岐制御は、並列演処理ハードウエアを構成する演算ユニット（Processing Unit: 以後ＰＵと略す）毎の状態フラグに対して一種の多数決判断を導入し、分岐先選択を可能とするものである。遠隔分岐制御は、実時間処理が求められるアプリケーションであるプログラムシーケンスを繰り返す場合に、その繰り返し処理命令自身を繰り返し対象プログラム領域から離れたところに配置することを可能とし、繰り返し対象プログラム領域に含まれる命令数を従来方式より削減減らすことを可能とする。

第４章：ハイブリッドアーキテクチャによる高性能化

「ハイブリッドアーキテクチャによる高性能化」では、汎用性を持った並列演算コアと専用ハードウエアのハイブリッドアーキテクチャを提案する。

並列処理部と並列 PU出力を統合する集約型後処理方式を提案し、画像認識処理においてその有効性を考察する。さらに、３次元グラフィックスのジオメトリ処理の中でもプログラム制御による実現では処理オーバーヘッドが極めて大きく、その処理の高速化が困難と考えられてきたクリップテストが、集約型後処理方式の考え方を導入することにより効率よく処理しうることを考察する。

第５章：高性能マルチメディア LSIの設計効率化

「高性能マルチメディア LSIの設計効率化」では、セルベース設計 LSI中に埋め込まれたライブラリマクロセルやマルチメディア処理LSIに用いられる並列演算コア等のリピートマクロセルに対する、大規模 VLSI におけるテスト生成時間の指数関数的増大に対処しうるテスト生成容易化手法を提案する。

提案手法は、テスト容易化回路設計とテストパターン自動編集方法に関するものである。テスト容易化回路として、クロック制御方式とバスドライバ回路を提案する。

これらテスト回路を用いることにより高性能 LSI の通常動作性能に影響を与えず、

(19)

さらに通常動作のために設けられている回路をテスト時にも有効活用でき付加回路量を低減できる。テストパターン自動編集方法は、データベースを活用したテストパターンアセンブリという新しい概念を導入したものであり、LSI に埋め込まれたマクロセルの高故障検出率テストパターンを故障シミュレーションを行うことなく生成できることを示す。

繰り返し用いられるマクロセルがLSIに組み込まれた状態でのテストパターン生成は LSI規模の増大するにつれて膨大な時間を要する。この問題に対して、他の各種設計情報と同じくデータベース化した当該マクロセル単体テストパターンを使い、

LSIの外部端子から LSIに埋め込まれたマクロセルの入出力端子に至る信号伝播経路を探索し、その経路を活性化する手順（アクセスシーケンス）に基づいてセル単体テストパターンをLSIレベルテストパターンに自動編集する方法を提案する。この方法はテスト容易化設計に自由度を許容でき、上述の高性能 LSIの性能に影響を与えず付加回路量を減らすテスト容易化設計と組み合わせることができる。

第６章：試作 LSIの評価結果

本章では、第２章、第３章、第４章で提案したアーキテクチャ手法を導入したマルチメディア処理 LSIについて述べ、それぞれの LSIの試作結果および評価結果について考察する。さらに、第５章で提案したテスト容易化手法をビデオ信号処理 DSPに適用した結果について考察する。

第７章：結論

本研究で得られた，マルチメディア処理LSIのアーキテクチャ手法、設計効率化技術とそれらの実現結果について総括し、今後の課題について述べる。

(20)

「マルチメディア処理 LSI の高性能化に関する研究」

第１章

第２章

第３章

第４章第５章

第６章

マルチメディア処理 LSIの高性能化実現上の課題

設計効率化高性能化

「データ転送方式による高性能化」

・大局的転送方式（チップレベル）

・局所的転送方式（演算器レベル）

「分岐処理のロス削減による高性能化」

・マルチ分岐制御方式

・多数決分岐制御方式

・遠隔分岐制御方式

「ハイブリッドアーキテクチャによる高性能化」

・集約型後処理方式 − リンケージユニット

− クリップテスト回路

「高性能マルチメディア LSI の設計効率化」

・テスト容易化回路

・組み込みマクロセル用テストパターン自動編集手法

・ジオメトリ処理 LSI（GE1）による高性能化の検証

・画像認識 LSI（IRE）による高性能化の検証

・ビデオ信号処理 DSP（DISP）による高性能化と設計効率化の検証第７章

結論

(21)

参考文献

［1］日経エレクトロニクス、“21 世紀へ、始動するマルチメディア”、No.471、

1989.4.17、pp.121-146（1989）.

［2］富永英義、“マルチメディア時代の画像入力技術（総論）”、テレビジョン学会誌 Vol.44、No.11、pp.1481−1485 (1990).

［3］ J. FLANAGAN, “Technologies for Multimedia Information Systems”、

電子情報通信学会論文誌、D-II、Vol.J75-D-II、No.2、pp.164-178 (1992 年 2月).

［4］安田浩、“ 画像処理 LSI の今後の展望 ”、テレビジョン学会誌、 Vol.40、

No.12 (1986).

［5］河合浩行、“グラフィックス LSI”、2004半導体テクノロジー大全、pp.55-58 (2004).

［6］ H. Kawai, Y. Inoue, R. Streitenberger and M. Yoshimoto, “A Highly Parallel DSP Architecture for Image Recognition,” IEICE TRANS.

FUNDAMENTALS, VOL.E78-A, NO.8, pp.963-970 (Aug. 1995).

［7］ K. Inoue, H. Nakamura, H. Kawai,“A 10Mb Frame Buffer Memory with Z-Compare and A-Blend Units,”IEEE JOURNAL OF SOLID-STATE CIRCUITS, VOL.30, NO.12, pp.1563-1568 (Dec. 1995).

［8］ K. Inoue, H. Nakamura, H. Kawai, T, Tani, Y. Sakemi, H. Matsuoka, M.Ishikawa, J.Matsumoto, K.Yamamoto, K.Takahashi, M.Yamawaki, E.

Yokomoto, C.A. Hart, J. Lin, K. Ishihara, K. Shimotori, " A 10Mb 3D frame buffer memory with Z-compare and A-bend units," 1995 ISSCC Digest of Technical Papers, pp.302-303 (Feb. 1995).

［9］日経 BP NIKKEI ELECTRONICS、“ シングルコアよりマルチコア ”、

2004.8.30、pp.97-131 (2004年 8月).

［10］ T. Sakurai, “Perspectives on Power-Aware Electronics,” 2003 ISSCC Digest of Technical Papers, pp.26-29 (2003).

［11］日経 BP NIKKEI MICRODEVICES、“LSI メーカーの緊急課題熱を制する“、No.225、pp.21-43 (March 2004).

［12］松本、他、“画像処理分野をねらったデータフロー型プロセッサ LSI”、日経エレクトロニクス 1984.4.9、pp.181-218、(1984).

［13］ Kanuma A. et al., ”A 20MHz 32b Pipelined CMOS Image Processor,”

1986 ISSCC Digest of Technical Papers, pp.102-103 (1986).

［14］ Mori T., et al., “A Micro-Programmable Real-time Image Processor,”

1986 ISSCC Digest of Technical Papers、pp.144-145（1986）.

［15］ Aono K., et al.,“Implementation of a Bipolar Real-time Image Signal

(22)

Processor RISP-II,” IEEE Journal of Solid State Circuits, Vol.22、No.3, pp.403-408（1987）.

［16］ K. Asada et al., ”A BiCMOS Image Signal Processor with Line Memories,” 1987 ISSCC Digest of Technical Papers, THPM 15.2（Feb.

1987）.

［17］ J. Norsworthy, David M. Pfeiffer, Michael K. Corry, Jay A. Thompson, “A Parallel Image Processor Chip,” 1988 ISSCC Digest of Technical Papers, pp.158-159（1988）.

［18］ Maruyama, M., Nakahira, H., Araki, T., Sakiyama, S., Kitao, Y., Aono, K.

and Yamada, H., ”A 200MIPS Image Signal Multiprocessor on a Single Chip,” 1990 ISSCC Digest of Technical Papers, pp.122−123 (Feb. 1990).

［19］亀山正俊、河合浩行、藤本仁志、児玉幸夫、岩崎建樹、”携帯端末用”Z3D”

グラフィックスエンジン”、三菱電機技報、Vol.76、No.8、pp.29-32 (2002 年 8月).

［20］ M. Kameyama, Y. Kato, H. Fujimoto, H. Negishi, Y. Kodama, Y. Inoue, H.

Kawai, "3D Graphics LSI Core for Mobile Phone "Z3D"," Graphics Hardware 2003, ACM SIGGRAPH / Eurographics Workshop Proceedings, pp.60-67 (July 2003).

［21］亀山正俊、大西宏、加藤義幸、河合浩行、児玉幸夫、“携帯用 3D-LSIコア

Z3D(1) −ハードウェアアーキテクチャ−”、電子情報通信学会 2003 年総

合大会、Ｄ-11-122 (2003年3月).

［22］河合浩行、小原淳子、井上善嗣、根岸博康、亀山正俊、"携帯用 3D-LSIコア Z3D(2) −ジオメトリエンジン−"、電子情報通信学会2003 年総合大会、

Ｄ-11-123 (2003年3月).

［23］賀好宣捷、“ 画像処理技術の動向 ”、シャープ技報、第 34 号、pp.15-21 (1986).

［24］ P. Ruetz and R. Brodersen,"A realtime image processing chip set," IEEE ISSCC Dig. Tech. Papers, pp.148-149 (Feb. 1986).

［25］ K. Aono, M. Maruyama, T. Mori, H. Yamada, and K. Hataya, "A Realtime Image Signal Processor (version II) with Micro-programmable and Expandable Architecture," in Proc. Of ESSCIRC'86, pp.98‐100 ( Sept.

1986).

［26］ T. Oto, K. Kitagami, T. demura, Y. Araki, and T. Takada, "A NEW DSP ARCHITECTURE SUITED OR IMAGE ANALYSIS," Proc. of IEEE ICASSP'91, pp.1181-1184 (1991).

［27］ T. Fukushima, Y. Kobayashi, and T. Bandoh, "An image signal processor," in IEEE ISSCC Dig. Tech. Papers, pp.258-259 (Feb. 1983).

(23)

［28］亀山正俊、根岸博康、中村尚、笹田達義、河合浩行、“三次元グラフィックス技術と３D チップセットへの応用 ”、三菱電機技報、Vol.72、No.9、 pp.10-13 (1998年 9月).

［29］脇本欣吾、笹田達義、河合浩行、根岸博康、松岡秀人、"第二世代３次元グラフィックスチップセット"、三菱電機技報、Vol.72 No.3、pp.20-23 (1998 年 3月).

［30］ J.D. Foley, A. van Dam, S.K. Feiner, and J.F. Hughes, "Computer Graphics Principles and Practice," Second Edition, Addison-Wesley Publishing Company (1990).

［31］ OpenGL Architecture Review Board, "OpenGL Programming Manual,"

The Official Guide to Learning OpenGL, Release 1, Addison-Wesley (1993).

［32］中村尚、井上一成、河合浩行 "三次元グラフィックス用フレームバッフアメモリ（3D-RAM）"、三菱電機技報、Vol.69、No.3、pp.292-296 (1995年 3月).

［33］ N. Trevett, " A 3D Geometry and Lighting Processor for the PC,"

Symposium Record, Hot Chips IX, pp. 235-246 (Aug. 1997).

［34］ M. Awaga, "3D graphics geometry processor for PC," IEICE Trans.

ELECTRON, Vol. E81-C, No. 5, pp. 733-736 (May 1998).

［35］ N.Trevett, "GLINT Gamma3: A High-Performance Geometry Accelerator," 11th MICROPROCESSOR FORUM, 3D Graphics Accelerator Session, pp. 1-10 (0ct. 1998).

［36］ V. Eerola, "Pyramid3D Real-time Graphics Processor," Symposium Record, Hot Chips IX, pp. 253-264 (Aug. 1997).

［37］ H. Suzuki, H. Kawai, H. Makino and Y. Matsuda, “Novel VLIW Code Compaction Method for a 3D Geometry Processor," IEICE TRANS.

FUNDAMENTALS, Vol.E84-A, No.11, pp.2885-2893 (Nov. 2001).

［38］ M. Emori, T. Aikyo, Y. Machida, J. Shikatani, "ASIC CAD System Based on Hierarchical Design –for –Testability," Proc. IEEE ITC, pp.404-409 (1990).

［39］ E.B. Eichelberger, T.W. Williams, "A Logic Design Structure for LSI Testing," Proc. 14th DAC, pp.462-468 (1977).

［40］ A. Yamada et al., "Automatic System Level Test Generation and Fault Location for Large Digital Systems," Proc.15th DAC, pp.347-352 (1978).

［41］ H. Ando, "Testing VLSI with Random Access Scan," COMPCON80, pp.50-52 (1980).

［42］ A. Samad, M. Bell, "Automating ASIC Design for-Testability-the VLSI

(24)

Test Assistant," Proc. IEEE ITC 1989, pp.819-828 (1989).

［43］ Mc Cluskey E.J. "Built-in Self-test Techniques," IEEE Design & Test, Vol.2, No.2, pp.21-28 (April 1985).

［44］樹下行三、”ＶLSIのテスト容易化設計技術の研究動向”、情報処理、Vol.30、

No.12、pp.1451-1460 (1989).

［45］岩崎一彦，畠山一実，宮本俊介、”テスト容易化設計技術の専用 VLSIへの適用”、情報処理、Vol.30、No.12、pp.1479-1486 (1989).

(25)

第 2 章

データ転送方式による

高性能化

(26)

２．１．緒言

本章では、マルチメディア処理LSI の高性能化に欠かせない効率的なデータ転送方式を提案する。マルチメディア処理の一つである実時間画像認識処理は、外部入力されるかもしくはメモリに格納された大量のデータを効率よく扱う必要がある。

これまでは画像処理機能毎に専用化されたLSIを組み合わせてシステムを構築してきた。こうしたシステムは、アルゴリズム変更や処理シーケンスの変更に対し、柔軟性が低いという問題がある。システムの柔軟性を高くするにはプログラム制御方式LSI が適している。命令制御による各種データの転送制御はオーバーヘッドが大きくなるため、一般的にLSIの動作周波数を高くしその時間を補償している。したがって、これまでのプログラム制御方式アプローチはシステムの消費電力面で課題を持っている。本章では、特に多量のデータを扱い、かつ処理内容に応じてデータのハンドリング方法が異なる実時間画像認識処理（画像前処理、特徴抽出処理、マッチング処理）に対応しうるプログラム制御方式プロセッサアーキテクチャを得ることを目的として、特にデータ転送方式について検討を行い、共通のプラットフォーム・アーキテクチャ上でチップレベルと演算器レベルという２階層で効率的なデータ転送方法を提案する。

チップレベルの大局的転送方式は、DMAC（Direct Memory Access Controller）、

階層化バス、マルチバンク構成データメモリと新しいオーバーラップアドレッシング方法を用いて共通プラットフォーム・アーキテクチャを構築することにより、画像認識処理における多様なデータ転送形態を実現できることを示す。

演算器レベルの局所的転送方式として、画像認識処理アルゴリズムを用いて演算器間接続パス使用頻度の定量的解析を行い、処理性能向上に有効な最適化された演算器間接続を明らかにする。さらに、他のマルチメディア処理として、３次元グラフィックス処理のひとつであるジオメトリ処理における累乗計算の高速化に対して、

局所的データ転送パスが、少ないハードウエア付加量で処理性能を向上するのに有効であることを示す。

２．２．画像認識処理 LSIの高性能化 [1]

２．２．１．画像認識 LSI の概要

画像認識処理は、前処理、特徴抽出処理、マッチング処理からなり、各処理には様々なアルゴリズムがある。従来の画像認識システムにおいては、専用 LSIによる高速化あるいは DSP によるプログラマビリティの向上という 2 つのアプローチがと

(27)

られてきた[2] [3][4]。前者は、主に実時間前処理に用いられ高速処理性能を有するが、種々のアルゴリズムに対する柔軟性に欠ける。そのために、システム機能が変更された場合には、その都度 LSIおよびシステムボードの再設計に多大な時間とコストを要するという問題がある。また、後者は、アルゴリズムに対するフレキシビリティを備えているが、SISD（Single Instruction stream Single Data stream）

型DSPの場合には、その処理性能は実時間前処理を行うには不十分である。今回、

多くの画像認識アルゴリズムに広く対応しかつ高い処理性能を実現しうるSIMD型画像認識プロセッサLSI向けアーキテクチャの検討を行った。

２．２．２．局所的データ転送方式 [5]

パイプライン処理は同一の処理を大量データに施す処理を含む画像認識処理の高速化に有効である。複合演算処理は、演算器間に局所的データ転送パスを設け演算器をパイプラインチェイン方式で動作させることにより、高いデータスループットを得ることができる。本節では、どのような複合演算機能が画像認識処理の高性能

表 2.1 サンプルプログラム

Category Function

5*5 smoothing filter Edge detection (Laplacian)

Edge detection ( Kirsch, binary image ) Edge detection ( Kisrch, gray scale image) Thinning ( Deuch )

Preprocessing

Density (of black pixels in a local region) Projection profile

Histogram Filet

Area

Local Direction Code (LDC) Peripheral (PHL)

Moment DCT (8*8)

Pattern matching (binary image) Pattern matching (gray scale image) Vector matching ( City-block ) Feature Extraction

Matching

Operation

Σaxb

Σa Σa Σa max, min

Σa Σa Σa Σaxb Σaxb Σa and b,

Sorting Σ|a-b|,

Sorting Σa

(28)

化に有効かについて検討を行った。この検討は、HDL（Hardware Description

Language）モデルと表 2.1に示した画像前処理、特徴抽出処理とマッチング処理か

らなる 17 種類のサンプルプログラムを使って行った。各サンプルプログラムで用いられる主な演算を表 2.1 の Operation 欄に示す。多くの複合演算機能の実装は、

LSI の面積増大につながり、消費電力増大、クロック周波数の低下を引き起こす。

そのため、ハードウエアでの実現とソフトウエアでの実現の切り分けの最適化が LSI のコスト性能比を高める上で重要である。本節では、LSI の性能を左右する演算ユニットのアーキテクチャを決定するにあたり、複合演算機能が処理性能にどれだけ寄与するかを定量的に解析し、ハードウエア実装すべき複合演算機能を決定する。図 2.1に検討に用いた演算ユニットの構成を示す。演算器は画像処理 LSIに広く搭載されている演算器を使用することとし、図 2.1 に示すように、算術論理演算

用（ALU）、乗算器（MPY）、ビット演算器（BMU）と累算器（AU）を持つことを

前提条件とした。局所パスの候補は、図2.1 示した a〜iの計 9個である。図 2.2は、

各局所パスごとにサンプルプログラムによる使用頻度をまとめたものである。図 2.2 において、縦軸はパス使用頻度（最大値、平均値）であり、横軸はその局所パスを使ったサンプルプログラム数を示している。ここで、使用頻度とは、あるサンプルプログラム実行にかかる総サイクル数に対する各局所パスが活性化されたサイクル数の比である。図2.2よりパス aとパスbの使用頻度の最大値はともに97.6％

であり、これら２個のパスは高速処理実現に不可欠であることを示している。パスｃとパスｆはともに9種類のサンプルプログラムで使用されており、これらをハー

図 2.1 局所データパス候補

(29)

図2.2 局所データパス活性化頻度

表 2.2 複合処理機能

命令セット機能

lrada llada ara subsr subsra subaba sacc andbc andbca enrbc enrbca mpyr mac

Logical right shift -and-accumulate Logical left shift -and-accumulate Arithmetic right shift-accumulate Subtract-square-arithmetic right shift

Subtract-square-arithmetic right shift-accumulate Subtract-absolute-accumulate

Set immediate data to WR And-"1"bit count

And-"1"bit count-accumulate Exnor-"1"bit count

Exnor-"1"bit count-accumulate Multiply-arithmetic right shift

Multiply-arithmetic right shift-accumulate

(30)

ドウエア化することは多くの画像処理アルゴリズムの高性能化にとって有効である。

パスｇ、パスｈとパス iの使用頻度は低いため、専用パスは設けず S/Wで個別演算命令を組み合わせて実現してもトータル性能への影響は少ない。パスｄは、パス e とパス fの組み合わせで実現することとし削除した。以上の結果として、上記 a、b、

c、eと fの計５パスを備えた演算ユニットアーキテクチャは、画像認識処理（画像前処理、特徴抽出処理、マッチング処理）の高性能化に最適化されたものである。

表 2.2 に、本演算ユニットアーキテクチャにおいて実行可能な１３種類の複合処理を定義し、対応する演算命令を示す。

２．２．３．大局的データ転送方式 [5]

画像認識処理において必要とされるデータ転送機能は以下の４種類に分類できる。

１）局所画像切り出し

ラスタスキャン入力データから局所空間データを切り出す処理。

空間フィルタ処理など。

２)テーブル参照

ラベリング処理、ヒストグラム処理。

３)ブロードキャスト転送マッチング処理など。

４)演算ユニット間データシフト特徴抽出処理など。

局所画像切り出しとテーブル参照は、データメモリ（DM）と演算ユニット（PU）

間のデータ転送機能であり、ブロードキャスト転送とデータシフト転送は PU間データ転送である。データシフトは、i番目の PUが｛（i+n）MOD P｝番目の PUからの出力を受け取る機能である。ここでPは演算ユニットの並列数である。

共通のハードウエアプラットフォーム・アーキテクチャ上で上記１）から４）のデータ転送機能を実現するために、階層化バス構造、ハイブリッドアドレシング・

ダイレクト・メモリアクセス制御、オーバーラップアドレシング機能付アドレス生成ユニットとデータメモリのマルチバンク化を採用するアーキテクチャを以下に述べる。

２．２．３．１．階層化バス

(31)

図 2.3 SIMD型プロセッサ

図 2.3 に示すように、画像認識処理プロセッサにおけるバスとして、グローバルバスとローカルバスの２レベルの階層化バス構成を採用する[6]。本例では SIMDコア並列度は８とした。グローバルバスは、GPU0-7、GDM、GID と GDI0-7 である。

グローバルバスは、シフト転送、ブロードキャスト転送とDMAC（Direct Memory

Access）転送に寄与する。命令でシフト値ｎを指定することによって、 GPUバス

を経由して、i番目（0≦i≦7）のPU が{(i+n)MOD8}番目の PUの出力を受信できる。GDM バスと GID バスはブロードキャスト転送に用いる。GDM バスは選択されたデータメモリから読み出されたデータをブロードキャストするためのデータバスである。GID バスは即値データを転送するために用いる。GDI０-７バスは、８本の DMA 転送用バスであり、１対１に対応するデータメモリに外部入力データを転送するために用いる。GDI0はさらに、データメモリ DM0にラスタスキャンデータを転送するときにも使用する。各 PU 内のデータメモリと各演算器間のデータ転送にはローカルバス（Aバス、B バスと Cバス）を設ける。A バスと Bバスは PU内各演算器に対する演算入力データ転送用である。A バスと Bバスはセレクタを介し

てGPU、GID、GDMバスと対応するデータメモリ DMのいずれかに接続可能であ

(32)

る。Cバスは、対応するデータメモリ DMと直接接続され、演算結果の転送に使われる。これらローカルバス上のデータ転送は、グローバルバスを使うデータ転送と独立に実行可能であり、SIMD コアの並列処理性能を最大限に活かすためのシームレスなデータ供給が可能である。

２．２．３．２．ダイレクト・メモリアクセス制御

外部メモリからデータメモリDMへのデータ転送は内蔵するダイレクト・メモリアクセス（DMA）コントローラにより制御する[7]。DMAコントローラは独立したアドレスレジスタを内部／外部データメモリ用に備え、外部データメモリ I/F 部の DMA 専用ポートを経由してデータ転送を行なう。DMA 転送データは GDI バスを介して内部データ・メモリに転送される。GDI0 はラスター・スキャン画像データ転送用バスを兼ねる。DIバスはパラレル・データ転送用データ・バスである。DMA コントローラ内の DMA 制御レジスタにより DMA 転送開始指示及び使用する内部バス選択を行なう。DMA 転送終了時、DMA 部はウエイト状態に入る。DMA コントローラ内にある制御レジスタは転送終了後も前回設定された値を保持する。DMA コントローラは FIFOモードと非 FIFOモードという２通りの動作モードをサポートする。DMA 制御レジスタに FIFO モードを設定することにより、ラスタ・スキャン画像データの転送／局所画像切り出しが行なえる。FIFOモード時、DMA転送はデータメモリアドレス生成ユニット（AGU）のカーネル切り出し処理と同期して動作するようにハードウエアで制御される。DMA 転送はカーネル切り出し処理の終了までウエイト状態になり次の転送を行なわずデータ上書きを防止する。FIFO モードでは、内部データ転送には IMIバスが自動的に選択される。FIFO モードではDMA制御レジスタのうち転送ワード数レジスタは無効となる。DMA制御レジスタに非 FIFOモードを設定することにより、８個のデータの同時転送が可能である。

このモードでは、DMA 転送は命令動作と独立に行なわれ、内部データバスとして DI0-7 バスが自動的に選択される。データメモリＤＭ0− ７のバンク分割とこの非 FIFOモード転送により SIMDコア部に効率良くデータを供給でき処理の高性能化が可能となる。

２．２．３．３．オーバーラップアドレス生成ユニット

アドレス生成ユニット（AGU）は、３ユニット構成（AGUA、 AGUB、AGUC）

を採用し、２ソース／１ディスティネーションの３アドレスを同時に生成可能である。AGUB には、局所画像処理の高速化に有効な特殊なアドレシング機能として図

(33)

2.4 に示す新たに提案するオーバーラップアドレシング機能を付加している。このアドレシング機能では、AGUBの生成するアドレス数が局所画像（カーネル）の水平画素数と等しくなるまでベースアドレス値のインクリメント処理を行い、連続するアドレスを生成する。AGUBが生成する各カーネルの２番目の画素読み出しアドレス（図中１番目カーネルのアドレス１）が AR10n レジスタに保持されるように

AR10nレジスタは書き込み制御される。このAR10nレジスタに保持されているア

ドレスが次のカーネルの先頭画素読み出しアドレスとなる。AGUBのこのアドレス生成機能は、DMA コントローラによりデータメモリ DM にデータを上書きするのを禁止するために、DMA コントローラの動作と同期して実行するよう制御する。局所画像の切り出しは、このオーバーラップアドレシング機能によりソフトウエアの介在なしに連続的に行うことができる[7]。

Control Logic

＋

1

Kernel-Size(=3) FIFO-Flag

2 1*

0

3 2*

1

4 3*

2

1st. Kernel 2nd. Kernel 3rd. Kernel

(* → ar10n) ar10n ar10

図 2.4 オーバーラップアドレシング

(34)

２．２．３．４．マルチバンクデータメモリ

データメモリDM０-７は各演算ユニットPUと接続されるローカルメモリであり、

対応する PUへの演算ソースの供給および演算結果の保持を行う。各 DMはシングルポート SRAMを３バンク使い構成する。一般に画像処理システムでは、画像認識処理プロセッサの外部 IO はボード上の配線容量の影響を受けて LSI 内部程高速動作できない。したがって、外部データ入力時間間隔内に最低１注目画素分の処理を行えれば、リアルタイムに画像前処理を行うことが可能となる。ここで導入するマルチバンク構成データメモリと DMA 転送の組み合わせは、SIMD 演算コアへの効率的なデータ供給を可能とする。DMのアドレスには、図 2.3に示すように、AGU 出力（GAD0-2）、DMAアドレス（GDMA）、と演算器出力データが接続される。テーブル参照機能は、DM のアドレスとして演算器出力データを選択することで実現できる。DM動作としてFIFO動作を選択した場合、GIDバスと隣接 DM出力が各 DMの入力ポートに接続され、DMを最大水平サイズが（ワード数／バンク x3バンク）画素（例えば、512ワードｘ3バンク＝1536画素）の大容量FIFOメモリとして機能する。FIFOモードでは、隣接DMから読み出されたデータが DM（DM0を除く）への書き込みデータに選択され、GDMA バスで指定される全 DM に共通の書き込み先アドレスに書き込まれる。DM0 には GDI0バス経由で入力される外部入力データが書き込みデータとなる。

２．２．３．５．大局的データ転送

2.2.3.1〜2.2.3.4節で述べたアーキテクチャ手法を共通ハードウエア・プラットフ

ォームとすることにより、画像認識処理で必要となるチップレベルデータ転送形態である、LSI レベルでの大局的なデータ転送機能である局所画像切り出し、テーブル参照、ブロードキャスト転送と PU 間データシフトが実現できることを以下に述べる。

(１)局所画像切り出し

ラスタスキャン入力画像から局所画像を切り出す処理は、FIFO メモリと FIFO メモリから局所画像を構成する画素データを読み出す機能で実現できる。図2.5 は、

FIFOモードにおけるデータメモリ DM バンクへのアクセスシーケンスを具体的に示したものである。また、図2.6 はFIFOモードにおける DM間の接続構成を示している。これらの図で、各 DMにある DDMレジスタは、AGUBにより特殊な命令を使うことなく自動的に生成される連続アドレスを使い各DMのバンクAから読み出されるデータ列の中心画素データをフェッチする。DDMレジスタに保持された

(35)

図2.5 FIFOモード時の DMバンク選択シーケンス

bank bank bank GDMA

GDI0

A B C

bank bank bank

A B C

bank bank bank

A B C

GAD1

to PU0 to PU1 to PU2

DM1 DM2 DM0

DDM0 DDM1 DDM2

図2.6 FIFOモード（局所画像切り出し）転送

(36)

データはローカルパスを経由して右隣りの DM に転送され、その DM のバンク B に書き込まれる。全てのDM0-7への書き込み動作は DMAコントローラの制御によって命令動作と独立に実行され、DM0 にラスタスキャン入力データが書き込まれるのに同期して実行される。AGUB によるアドレス生成も、DMA コントローラによる DM への上書きを防ぐために、DMA コントローラの動作に同期して行う。DM のバンク Aから１スキャンライン分の読み出しが終わると、次のラインデータを読み出すために読み出し対象バンクはバンク Bに切り替えられる。同時に、書き込み対象バンクはバンクCに切り替えられる。このデータ転送機能は、AGUB中のレジスタ更新に命令によるアドレス更新処理を必要とせず、水平サイズ５画素の空間フィルタが、DMA転送の時間間隔（５サイクル）内に実行可能である。

(２)テーブル参照

本アーキテクチャにより、各 PUは参照テーブルに対するリード・モディファイ・

ライトを含むテーブル参照を実行できる。テーブル参照機能はDMのアドレスバスとして演算ユニットの出力データを選択することにより可能となる。図 2.7 はテーブル参照処理におけるデータフローを示している。リード・モディファイ・ライト動作のために、演算ユニットの出力データはパイプライン遅延回路（PD）を介して DM の書き込みアドレスポートに接続され、PU からの書き込みデータとの待ち合わせを行う。今回検討に用いた画像認識処理プロセッサでは、８個の異なったアドレスに対するテーブル参照処理が８並列 PUによって同時処理可能となり、ヒストグラム処理などを大幅に高速化できる。

bank bank bank

A B C

DM0

Write Address

Read Address

bank bank bank

A B C

DM1

bank bank bank

A B C

DM2

PD: Pipeline Delay

PU0 PU1 PU2

PD PD PD

Read Address

Read Address Write

Address Write

Address

図 2.7 テーブル参照モード転送

(37)

bank bank bank

A B C

DM0

bank bank bank

A B C

DM1

bank bank bank

A B C

DM2

GDM-Bus

PU0 PU1 PU2

DDM0 DDM1 DDM2

図 2.8 ブロードキャストモード転送

（３）ブロードキャスト転送

図 2.8はブロードキャスト転送における DMとPU間のデータフローを示している。ブロードキャストされるデータは、DM からの読み出しデータか命令で与える即値データのいずれかである。図 2.8 は、GDM バスを介したブロードキャスト転送を示している。非 FIFOモードでは、各 DM 内にある DDMレジスタは常に PU の演算ソースの一方を保持する。本方式では、８個の DDMレジスタ中のいずれかのデータを命令により選択し、GDMバスを経由して全 PUに転送可能である。

（４）シフト転送

図 2.9 は、３個の PUのみが活性化された構成におけるシフト処理の概要を示したものである。GPU0-2は、3系統の 16bit バスでありPU0-2間のデータシフト処理用転送経路となる。シフト量ｎを持つ命令が発行されると、i番目の PUが、GPU バスを経由して、｛（i+n）MOD3｝番めの PUからの出力データを受信する。図2.9 は、n＝１の場合を例示したものである。このシフト機能によって、通常 PU が並列に動作する SIMDアーキテクチャに PU間の横方向連携の自由度を付加でき、柔軟なアーキテクチャとすることができる。

(38)

GPU0 GPU1 GPU2 Shift value

PU1 PU2

PU0

図 2.9 シフトモード転送

２．３．３次元グラフィックス LSIの高性能化２．３．１．３次元グラフィックス LSIの概要

３次元グラフィックス処理LSIの開発が盛んに行われているが、システム性能の向上を考える上で CPU の処理負荷を軽減することが重要な課題となっている。３次元グラフィックス処理の中で CPU にとって大きな負荷となっているジオメトリ処理を実行するジオメトリ処理LSI に対する要求が高まっている。ジオメトリ処理には、座標変換、光源計算、クリッピング処理と投影処理等が含まれる。ジオメトリ処理の入力データは描画オブジェクトを構成する頂点毎の座標値および色データなどであり、座標要素データおよび色要素データに対する処理はそれぞれ同一となる場合が多くあり、SIMD型アーキテクチャによる並列処理が適している。しかし、

光源計算処理では累乗演算という特殊な演算が必要であるなど、単に汎用的な演算器を組み合わせた SIMD型アーキテクチャ導入だけでは、ジオメトリ処理の高性能化にとって不十分である。本節では、高性能なジオメトリ処理 LSI実現に向けたアーキテクチャ技術として、演算ユニット内部の局所的なデータ転送方式による３次元グラフィックス特有の複雑な演算処理を高性能化する手法を提案する。

２．３．２．局所的データ転送方式 [8]

ジオメトリ処理において、描画するオブジェクト表面が光源からの光によってど

マルチメディア処理 LSI の 高性能化に関する研究

マルチメディア処理 LSI の 高性能化に関する研究

Study on high performance architecture for multimedia processing LSIs

2005 年 3 月

早稲田大学大学院理工学研究科

河合 浩行

目次

第 1 章

序論

「マルチメディア処理 LSI の高性能化に関する研究」

参考文献

第 2 章

データ転送方式による

高性能化

1

DM1 DM2 DM0

マルチメディア処理 LSI の高性能化に関する研究

マルチメディア処理 LSI の高性能化に関する研究

河合浩行