修士論文概要書

(1)

修士論文概要書

2008 年 2 月提出学籍番号

3606U090–3

CD

専門分野情報・ネットワーク専攻研究指導設計解析システム研究

氏名

傍士雄介

指導

教員

柳澤政生 ^印

研究

題目

オンチップルータにおけるバッファ構成最適化手法に関する研究

1 はじめに

近年，SoC設計におけるIPコア同士を結合するチップ内接続網としてNetwork-on-a-Chip（NoC）が提案され，注目を集めている．NoCアーキテクチャを用いることにより，

プロセス技術の微細化に伴い発生する，グローバル配線による配線遅延やクロストーク等の予測困難な物理事象の問題の解決が期待される．しかし，一方でオンチップルータ

（以後ルータと呼ぶ）による面積，消費電力のオーバーヘッドが問題となる．そこで本論文では，ルータにおいて多くの面積，消費電力を占めるバッファ領域に着目し，チャネルごとにバッファ構成を最適化する手法を提案する．提案手法は限られたバッファ資源の範囲内でネットワークのパフォーマンスを最大化することを目的とし，最適化されたバッファ構成を自動で得ることができる．

本論文は以下のように構成される．第2章ではオンチップルータについて述べる．第3章ではシミュレーションベースのバッファ構成最適化手法を提案し，第4章では計算機実験を行い提案手法の有効性を示す．

2 オンチップルータ

NoCは，並列計算機やSystem Area Network（SAN）で用いられてきたパケット転送技術をチップ内のIPコア間のデータ転送に応用し，チップ内でネットワークを構築する技術であり，プロセッサコアやオーディオ/ビデオコーデックなどの専用IP，広範なインタフェースIP（USB，イーサネット，シリアルATA，DVB-H，HDMI等）やメモリ等をルータを介して接続する．提案手法はこのルータに着目する．

図1に仮想チャネルを持つワームホール・ルータを示す．

ルータはrouting logic，vc allocator，sw aloocator，そしてバッファごとのステート情報を保持するバッファから構成される．ルータではヘッダ情報を持つフリット（ヘッダフリット）が到着すると，以下の4サイクルをかけて処理する．

1. routing computation：ヘッダフリットを解析して送信方向を決定し，転送方向のバッファとの関連付け要求をvc allocatorに送る．

2. virtual-channel allocation：パケットを受け取る側のルータの入力チャネルから，関連付けがされていないバッファをラウンドロビンで選択し，パケットと関連付ける．

3. crossbar allocation：関連付けが成立している全入力チャネルのバッファから，1組にだけクロスバの使用許可を与える．

4. crossbar transfer：関連付けられたバッファにフリットを転送する．

sw allocator(p) vc allocator(p,v) invc

state

invc state routing

lobic

・・

・・・・

outvc state

・・・・・・

credit out

flit in

credit in

flit out Xbar(p,w)

input controller

・・

FIFO

図 1: 仮想チャネル・ルータ.

ノード

オンチップルータ

図 2: MESHトポロジ.

NoCではこのようなルータをチップ上に複数個持ち，ネットワークを構成する．例えば図2のMESHトポロジでは，

チップ上にノードと同数のルータを持つ．このように多数のルータを持つ構成は，並列処理性能に優れる反面，面積，

消費電力の増大が問題となる．対策としてルータ中で多くのコストを占めるバッファ領域の削減が行われるが，単純に削減するだけではネットワークの性能が低下してしまう．

そこで，ルータの各チャネルごとにバッファ構成を最適化する方法が有効となる．負荷が大きいチャネルには多くのバッファ資源を割当て，負荷が小さいチャネルには少量のバッファ資源を割当てることで，少量のバッファ資源で高い性能のネットワークが構築できる．

3 バッファ構成最適化手法

提案手法はバッファ長と仮想チャネル数の最適化に対応しており，限られたバッファ資源の範囲内で平均パケット遅延時間が最小となるバッファ構成を得ることを目的とする．既存研究では，提案手法が対象とするワームホールルーティング，仮想チャネル数の最適化に対応した手法は確認されていない．提案するバッファ構成最適化フローを図3 に示す．入力として以下の4種類のデータを与える．

• バッファ初期構成：全てのチャネルに1-flit分のバッファを与えた構成

• MESHサイズ：MESHトポロジの縦，横の長さ

(2)

トラフィック情報

シミュレーションバッファ初期構成

仮想チャネル追加シミュレーションバッファ長追加

シミュレーション

L_L< L_V

Y N

使用バッファ総数+1

Y

N

最終バッファ構成 mesh サイズ

バッファ長追加仮想チャネル追加

使用バッファ総数

< B

バッファ資源制約 B

図 3: バッファ構成最適化フロー.

• バッファ資源制約B：フリット単位で表した利用可能 なバッファ総量

• トラフィック情報：ネットワーク上のパケット通信の宛先，発生頻度

手順を示す．まず，これらを入力としてシミュレーションを行い，ボトルネックとなるチャネルを検出する．ボトルネック検出手段として以下の2種類のパケット転送のブロックの発生回数用いる．

1. バッファ長を増やすことで回避できるブロック 2. 仮想チャネルの追加で回避できるブロック

次にバッファ資源をバッファ長を増やすために割当てるか，

仮想チャネルを増やすために割当てるかを決定する．まず，

バッファ長を増やすことで回避できるブロックの発生回数が最も多いバッファに対してバッファ長を1-flitだけ増やし，シミュレーションを行って平均パケット遅延時間LLを求める．同様に，仮想チャネル追加で回避できるブロックの発生回数が最も多いチャネルに対してバッファ長1-flitの仮想チャネルを挿入し，平均パケット遅延時間LV を求める．そしてこれらを比較してLL < LV ならば，バッファ長を追加し，LL > LV ならば仮想チャネルを追加する．なお，これらのシミュレーション時に得られるそれぞれのブロック回数は，次のループでバッファ長/仮想チャネル追加シミュレーションを行う際に利用する．そして，使用バッファ総数を1-flit分だけ増やし，バッファ資源制約Bに達しているかどうかを比較する．バッファ資源制約Bに達していれば最終バッファ構成として出力し，そうでなければ再びバッファ長/仮想チャネル追加シミュレーションを行う．

このようにループを繰り返すことで，ボトルネックとなるチャネルには多くのバッファ資源が割当てられる．そして得られた構成はチップ上のルータのチャネルごとに異なる構成を持つ．

4 計算機実験

本実験では，C++言語で記述したフリットレベルのイベントドリブン型NoCシミュレータを用いて，各バッファ構成の平均パケット遅延時間の比較を行う．実験条件を以下に示す．

• ネットワークトポロジ：6×6 MESH

• ルーティング法：XYルーティング

• パケット長：16-flits

• 入力パターン：Uniform Traffic，Hotspot Traffic

• シミュレーション期間：40,000サイクル（ただし，4,000 サイクルまでに生成されたパケットは測定対象外）

Uniform Trafficとは，ポアソン分布に従って均等な確率で各ノードでパケットを生成し，そのパケットの宛先をランダムで指定した場合のトラフィックである．Hotspot Traffic とはUniform Traffic に加えて特定のノードを宛先とするパケットを増加させた場合のトラフィックである．

バッファ資源制約B = 1920（1920-flits分のバッファ）

として提案手法によって得られた構成と，各チャネルを均一なバッファ構成とした場合の平均パケット遅延時間の比較を表1に示す．表中の均一なバッファ構成の実験結果は，

同量のバッファ資源を用いたバッファ構成の中で最も小さい平均パケット遅延時間を用いている．Uniform Trafficでは同量のバッファ資源を用いた均一な構成より劣るという結果となった．これはUniform Traffic では均一な構成がバッファ構成の最適解となるためである．提案手法ではブロック回数の検出が生成する入力パターンに依存するため，

誤差が生じたと考えられる．Hotspot Trafficでは，10%のホットスポットを設けた場合（Hotspot–1）も20%のホットスポットを設けた場合（Hotspot–2）も遅延時間の改善が見られる．特にHotspot–2の場合は，提案手法で用いたバッファ資源の倍に相当するバッファを用いた均一な構成

（B=3840）よりも平均パケット遅延時間が小さくなる．これはネットワーク上のトラフィックの局所性が高まることにより，提案手法によるバッファ構成最適化の効果がより高まったためと考えられる．この場合，提案手法を用いることで半分のバッファ資源で均一な構成と同等のパフォーマンスが得られることになり，提案手法は有効であることを示せた．

表1: 平均パケット遅延時間の比較．

入力パターン均一な構成均一な構成提案手法

（B=1920）（B=3840）（B=1920）

Uniform(0.008) 179.7 123.0 185.3

Hotspot–1(0.0063) 202.0 120.9 130.4

Hotspot–2(0.00475) 172.2 113.6 110.3

5 おわりに

本論文では，オンチップルータのバッファ構成最適化手法を提案し，提案手法を用いることにより，少量のバッファ資源で高い性能のネットワークが実現できることを示した．

今後の課題として，ブロックの重要度による重み付け手法の確立が挙げられる．現在は対象とするブロックの発生回数のみを検出しているが，ブロックの検出方法を改良することによって，より精度の高いボトルネックチャネルの検出が可能となると考えられる．

修 士 論 文 概 要 書