CMH に関する予備評価 - Cache-based Network Processor (CBNP) の提案と構成の提案と構成

第 3 章 Cache-based Network Processor (CBNP) の提案と構成の提案と構成

3.5 CMH に関する予備評価

CMHは，PLCミスを起こしたトークンを受信し，CMT (Cache Miss Table)を利用して同一フローに属するパケットのトークンが重複しないようにP-Engineへ割り当てる．また，同一フローに属するパケットのトークンはCMTの各エントリに対応するCMQ (Cache Miss Queue)へFIFO 順に記録する．ここでは，CMTとCMQに必要なエントリ数について考察する．

3.5.1 CMTのエントリ数に関する予備評価

あるパケットのトークンがPLCミスを起こした場合，CMHのCMTでもミスを起こせば，

P-EngineのPEで処理するが，一般にパケット処理で想定されている処理サイクル数は様々である．

例えば，半二重20Gbps回線のパケット処理が可能なEZchip社のNP-1cでは，検索処理(TOPsearch ステージ)に32PEを用い，並列処理によって，PEあたり256サイクルの処理時間を確保するとされている[4]．この予備評価では，200サイクル〜2400サイクル程度をPEでの妥当な処理時間と考えて議論を進める．

同一フローに属するパケットだけが連続する場合，CMTのエントリ数は，P-Engineでの1トークンの処理時間分，すなわち，200サイクル〜2400サイクル程度の間に受信するパケットの数と同じだけ必要である．例えば，100Gbit Ethernetを想定すると，最小長のパケットは6.72nsに1個ずつ到着する．333MHz動作のCBNPを想定すると，最短で2.24サイクルに1パケット到着するので，200サイクル〜2400サイクルの間には，89個〜1072個のパケットが到着することとなる．

先のPLCの予備評価より，ネットワークトラフィックには十分な時間的局所性があるため，この間に到着するパケットが全て異なるフローである可能性は低い．しかしながら，PLCをノンブロッキングとするためには，CMTのエントリ数は，全てが異なるフローのパケットである最悪の場合を考慮したエントリ数，すなわち，1000エントリ程度が望ましい．

また，CMTは，PLCミスを起こした全てのトークンを連続的に受信することでPLCをノンブロッキングにする役割を担う必要があるため，理想的にはフルアソシアティブメモリで構成することが望ましい．ただし，フルアソシアティブメモリはCAMに代表されるように，全エントリにタグの比較器を設ける必要があり，面積及び消費電力の増大を招く．特にCBNPでのタグは，トー

クンのA/E-Infoであり，400bit前後と非常に大きいため影響が大きい可能性が高い．そこで，面

積と消費電力の増大を防ぐため，セットアソシアティブメモリを利用する手段も有力である．ただし，あるウェイが利用しつくされた場合，CMT内の他のエントリが空いていてもCMTを利用できないため，後続トークンのPLC参照をブロッキングしてしまう可能性がある．このようなケースでのブロッキングを緩和するために少数のフルアソシアティブエントリを設けるのが理想的である．一般にある程度の高速動作を前堤とするならば，4ウェイ程度が目安と考えられる．以上より，4ウェイ・セットアソシアティブ，1024エントリ(256エントリ/^ウェイ)に加え，8〜16エントリ程度のフルアソシアティブエントリを持つCMTが，実現可能な実装例として考えられる．

予備評価として，CMTにどの程度のエントリ数が必要となるか調べるために，実際のネットワークトラフィックとして，PLCの予備評価でも利用したHCRLとWIDEのトレースを用いてソフトウェアシミュレーションを行なった．パケットフローは送信元IPアドレスと宛先IPアドレス(IPv4)で区別した．PLCは，4ウェイ・セットアソシアティブ，4Kエントリで，CRCハッシングとし，PEでの処理レイテンシを200サイクル〜3200サイクルの範囲で評価した．パケット長は，トレースに記録されているサイズそのままとし，パケット間隔を詰めることで100Gbpsの仮想Ethernet回線のワイヤレート処理を333MHz (1サイクルは3ns)で行なうことを想定した．

3.5. CMH^{に関する予備評価}

1 2 5 10 20 30 50 100 200

200 400 600 800 1600 2400 3200

Number of Token on P-Engine

PE latency @HCRL (cycle) total:Single

#of PLC miss:Single

#of CMT miss:Single total:Merged

#of PLC miss:Merged

#of CMT miss:Merged

図3.11: PEレイテンシとP-Engine処理トークン数の関係(HCRLトレース，仮想100Gbps回線，

333MHz動作，SRC/DST IPv4アドレス利用)

10 20 30 40 50 70 100 200 500

200 400 600 800 1600 2400 3200

Number of Token on P-Engine

PE latency @WIDE (cycle) total:Single

#of PLC miss:Single

#of CMT miss:Single total:Merged

#of PLC miss:Merged

#of CMT miss:Merged

図3.12: PEレイテンシとP-Engine処理トークン数の関係(WIDEトレース，仮想100Gbps回線，

333MHz動作，SRC/DST IPv4^{アドレス利用})

3.5. CMH^{に関する予備評価}

図3.11にHCRLの結果，図3.12にWIDEの結果を示す．横軸はPEのレイテンシ，縦軸はPLC ミスを起こしてP-Engineで同時に処理を進めるトークン数(パケット数)である．凡例のSingleはアグリゲーションなし，Mergedはアグリゲーションありを示す．また，totalはPLC参照を行なった総トークン数，# of PLC missはPLCミスしたトークン数，# of CMTはCMTミスしたトークン数である．総アクセス数は，アグリゲーションあり/なしに関係なく同様の値となっているが，

PLCミス数，CMTミス数は，アグリゲーションありの方がネットワークトラフィックの時間的局所性が弱められるため，増加している．ここで，PLCミス数はCMTが同時に処理するトークン数を意味している．仮にCMHでCMQを備えない場合，CMTでこの全てのトークンを管理することになる．また，CMTミス数は，CMTが同時に処理するトークンのうち，異なるフローのトークンの数である．同じミスのトークンは，CMTでは同一エントリを利用し，CMTに関連づけられたCMQで管理する．このため，CMTミス数は，CMTが管理しなければならないトークンの最大数を意味する．

コア網であるWIDEの方がネットワーク通信の時間的局所性がHCRLより低く，また，平均パケット長もHCRLより小さいため，全ての領域でトークン数が多くなっているのがわかる．ここで，CMTに必要なエントリ数は，これらのグラフではCMTミス数に相当する．グラフからは，

WIDEの場合でも200サイクル〜2400サイクル程度とすれば，アグリゲーションなしで21〜78 エントリ，アグリゲーションありで28〜145エントリである．このため，見積もった1000エントリは事実上，フルアソシアティブ構成のCMTであれば十分なエントリ数であると考えられる．また，4ウェイ・セットアソシアティブのCMT (256セット/^ウェイ)と8〜16エントリ程度のCMT でも，CMTが利用するCRCハッシングによって同一セットのコンフリクトミスが十分少なくなると考えれば，やはり十分なエントリ数であると考えられる．

3.5.2 CMQのエントリ数に関する予備評価

CMQは，同一フローに属するパケットのトークンをCMH内でFIFO順に保持する．同一フローに属するパケットだけが連続する場合，CMQの深さは，CMTのエントリ数の考察同様，P-Engine での1トークンの処理時間分，すなわち，200サイクル〜2400サイクル程度の間に受信するパケットの数と同じだけ必要である．例えば，100Gbit Ethernetの場合，最小長のパケットは6.72nsに1 個ずつ到着する．333MHz動作のCBNPを想定すると，2.24サイクルに1パケットとなり，200サイクル〜2400サイクルの間には，89個〜1072個のパケットを受信することとなる．しかしながら，インターネット上では唯一つだけのフローが流れ続けることはないため，CMQの深さを89

〜1072とするのは過剰である．200サイクル〜2400サイクルの間に10，または20フロー程度が存在すると仮定すると，CMQの深さは，それぞれ，9〜108または，5〜54程度で十分と考えられる．

ここで，CMTのエントリ数の予備評価の結果から考えれば，CMQのエントリ数が最大となるケースは，所定のサイクル数の間に1トークンしか出現しないフローが大量に出現し，大量のトークンが出現するフローが一つだけ出現するケースである．このとき，CMQの最大エントリ数は，

図3.12のPLCミス数からCMHミス数を減じて1を加えたものとなる．すると，200サイクル〜

2400サイクルの場合，14〜102エントリとなる．また，大量のトークンが出現するフローがCMT ミス数の10%とすると5.3〜7.7エントリ，5%とすると7.5〜13.6エントリとなる．以上を考慮すると，CMQには16エントリ程度を用意すれば実用上は十分であると考えられる．

ドキュメント内論文要旨 (ページ 65-68)