• 検索結果がありません。

第 6 章 メモリ・サブシステム

6.5 命令ストリーム・バッファ

Itanium 2プロセッサの命令ストリーム・バッファ(ISB)は、L1IとL2の間に置かれている。ISB は、L1Iのライン・フィル・バッファとして機能し、命令プリフェッチ機能を補助する。ISBは、

8つの64バイト・キャッシュ・ラインと8つのダブルバンドル・ペアを含むフル・アソシアティ ブ・バッファである。

L2から返されるL1Iライン(デマンド・ミスまたはプリフェッチ)は、すべてISB内にストアさ れる。返されるキャッシュ・ラインがデマンド・ミスである場合、そのラインは命令パイプライ ンに転送され、L1I内に移動される。このキャッシュ・ラインは、アイドル期間になるまでISB内 にとどまり、それからL1Iに移動することも、L1Iに移動する前にビクティムにされることもあ る。ただし、L1Iは読み出しとフィルが同時に行えるため、ISBエントリの存続期間は非常に短 い。ISBエントリがビクティムにされるのは非常にまれである。

ISBはL1Iと並行してアクセスされる。ISBヒットは、L1Iヒットと同じレイテンシを持つ。ター ゲット・ラインがISBとL1Iの両方にヒットした場合は、ISB内のラインが無効にされる。

6.6 1 次データ・キャッシュ

1次データ・キャッシュ(L1D)は、マルチポート、16KB、4ウェイ・セット・アソシアティブ、物 理アドレス指定キャッシュ(ライン・サイズ64バイト)である。L1Dは、ノンブロッキング、イ ンオーダー・キャッシュである。最小仮想ページを表す下位の仮想アドレス・ビット11:0は変換 されず、キャッシュのインデックスとして使用される。

L1Dは、2つの専用ロード・ポートと2つの専用ストア・ポートを持つ。これらのポートは固定 ポートであるが、発行ロジックは発行グループ内のロードとストアを移動して、適切なメモリ・

ポートに送り込める。ロード・ポートはデュアル・ポートであり、任意の2つのロード・アドレ スを競合なしに並行して読み出せる。ストアは、幅8バイト、8グループのL1Dデータ配列にア クセスする。複数のストアが競合する可能性があるが、これらの競合がパフォーマンスに与える 影響を制限する特殊なハードウェアが用意されている。

L1Dのアクセス・レイテンシは1サイクルである。ただし、他のロード操作のアドレスのために 使用される場合(つまり、ポインタ追跡)、レイテンシは2サイクルになる。L1Dは、ライトアロ ケートなしのライトスルー・ポリシーを使用する。すべてのストアは、L1Dにヒットするかミス になるかを問わず、L2キャッシュに送られる。ストアがL1Dにヒットした場合は、L1Dを更新す るためのデータ配列が使用可能になるまで、そのデータはストア・バッファに保持される。これ らのストア・バッファは、ストア・データをマージし、それを制限なしでその後のロードに転送 できる。ロード・ミスになったときは、テンポラルなヒント、ロードのタイプ、使用可能なリ ソースに従って、L1Dの割り当てが行われる。

L1Dは、整数データ・パスに緊密に統合されている。すべての整数ロードは、L1Dを通して、レ ジスタ・ファイル/バイパス網にデータを返さなければならない。したがって、整数L1Dミスも、

L2、L3、またはメモリによって処理された後、整数レジスタ・ファイルへのL1Dデータパスを使 用する。このとき、同じL1Dデータパスを要求するコア・ロードはすべてブロックされる。

浮動小数点ロードはL1Dにアクセスしないため、4つのメモリ・ポートのどれでも制限付きで発 行できる。浮動小数点ロード・ペアと、ALATとの相互作用を伴う任意の浮動小数点ロードは、

ロード・ポートだけがディスパーサルできる。lfetch命令はデータをコアに配布しないが、2つ のロード・ポートだけがこの命令を発行できる。これは、lfetchによってL1Dのフィルが行われる 場合があるが、この機能は2つのロード・メモリ・ポートだけがサポートしているためである。

アライメントの合っていない整数ロードが8バイト境界を超えた場合、アライメントの合ってい ないデータ参照の例外が発生する。サポートしているアライメントの詳細は、5.5節「データ・ア ライメント」を参照のこと。

6.6.1 L1D ロード

コア・ロード要求がL 1 Dにアクセスするとき、L 1 Dデータ配列へのアクセスがL 1 Dヒットになっ た場合は、データをコアに配布する。ヒットになるには、L 1 D T L B、D T L B、L 1 D タグ内に対応す るエントリが必要である。ロードがミスになるか、強制的にL 1 D ミスになった場合は、要求は(リ ソースが十分にあれば) L 2に渡され、L 1 D のフィルが行われる。浮動小数点ロードと順序づけされ た操作は、強制的にL 1 Dミスになるが、L 1 Dのフィルは行われない。

L1Dのリソースは、L2に対する実行待ちのL1Dフィル要求を最大8つまで保持できる。9個以上 のミスが未処理になっている場合は、その次のミスはL2に渡され、L1Dのフィルは行われない。

同じL1Dラインに2つ以上のアクセスがあり、それらがL1Dミスになった場合は、L1Dのフィル を要求するアクセスは1つだけである。その他のアクセスは、処理のためにL2に渡され、その L1Dラインのフィル要求を行わない。

6.6.2 L1D ストア

L1Dはライトスルー・キャッシュであるため、すべてのストア要求はL2キャッシュに渡される。

ストアは、L1DミスになってもL1Dに影響を与えない。ただし、ストアがヒットした場合は、

L1Dは、その後のロードが新しいデータを参照できるように、データ配列を更新しなければなら ない。この処理のために、ストア・データがレジスタから読み出され、L1Dパイプラインに送ら れる。各ストア・パイプライン(M2/M3)は、別々のストア・リソースと制御ロジックを持つ。

L1Dデータ配列を更新するデータの準備ができた時点で、競合がなければ、L1Dデータ配列が更 新される。しかし、同時に他の操作がデータ配列に書き込む場合(例えば、L1Dのフィルまたは ロードが同じ8バイト・バンクにアクセスしたり、ストアが別のMポート上で同じバンクにアク セスする場合)、必要な更新ができなくなる。この場合は、ストア・データはストア・バッファに 移され、データ配列が使用可能になるのを待つ。ストア・バッファは、同じ幅8バイトのL1D データ・バンクにアクセスする、新しいストアのコアレシングができる。ストア・バッファが データ配列を更新できないとき、コアレシングできない新しいストアがストア・バッファを要求 する場合は、L1Dパイプラインがストールし、その間にストア・バッファがデータを排出する。

この構造では、同じグループをターゲットとするストアは、同じL1Dパイプラインに発行する方 がよい。例えば、バンク0に対するアクセスはすべてM2に発行し、バンク1に対するアクセスは すべてM3に発行するとよい。データ配列を更新するとき、M2とM3が競合しないため、遅延な しに配列を更新できる。

6.6.3 ロードとストアの留意点

一部のメモリ要求は、時間の間隔があっても、互いに影響を与える場合がある。この項では、

ヒットとミスの両方について、こうした相互作用を説明する。

6.6.3.1 ロード/ロードの競合

L1Dは真のデュアル・ポート・キャッシュであるため、L1Dロード・ヒットは互いに競合しない。

しかし、L1Dロード・ミスは、バンクの競合のためにL2上で競合することがある。レイテンシを 短縮する必要がある場合は、同じ発行グループ内の複数のロードが同じL2バンクにアクセスしな いように、特に注意する必要がある。すなわち、L2に対するアクセスについては、A[7:4]は一意 でなければならない。

L1Dへの発行待ちのロードが、L2/L3またはシステム・バスから返される、より以前のロードに割 り込まれた場合は、さらに複雑なロード/ロードの競合が発生する。この場合は、古い方のロード が優先され、新しい方のロードが待たなければならない。このようなイベントは予測しにくいた め、コードによって避けることが難しい。ただし、L2キャッシュは、1サイクル内に返される整

数ロードが1つだけである場合、常にM1ポートを使用する。したがって、ロードのためにM1 ポートを使用しないことで競合を回避できる。ただし、クリティカル・パス内では、この方法を 使用してはならない。

ロードと、L2データ・パスを使用してコアに情報を伝達する特殊な要求の間にも、これと同様の 競合が発生する。これらの要求とは、probe、thash、ttag、tpa、tak命令である。

6.6.3.2 ロード/ストアの競合

ロードとストアの競合は、ロードとストアのどちらが先に発生したかによって、全く異なる影響 を与える。発行グループは本質的に並列的であるが、ロードとストアは発行グループ内の位置に 従って順序づけられる。

ロードがストアに先行し、ロードがヒットになった場合は、競合は発生しない。しかし、ロード がストアに先行し、ロードとストアの両方がL1Dミスである場合は、大きな影響を与える。この 場合、ロードはL1Dミスになり、L1Dのフィルを要求しそうである。ロードに関連するフィルよ り前に、L1Dによってストアが検出された場合は、ストアはL1Dミスになる。したがって、この ストアは、L1Dに関連するフィル・バッファ・エントリを無効にし、L1Dのフィルを中止させる。

この処理が必要なのは、ストアがL1Dフィルより前に入力データを更新する機会がないためであ る。Itanium 2プロセッサは、後続するロードが先行するストアを参照するように保証しなければ ならないため、フィルはキャンセルされ、キャッシュ・ラインへのストアのマージはL2によって 処理される。ストアより前にフィルが行われた場合は、フィルが実行され、L1Dの通常のストア 更新が行われる。この項の説明は、ロードとストアがA[49:6]、すなわちL1Dキャッシュ・ライン 全体を共有している場合に適用される。

6.6.3.3 ストア/ロードの競合

ストアがロードに先行する場合は、ストア・データはロードによって参照されなければならない。

これらの要求がL1Dミスになった場合は、L2がこの参照可能性を保証する。これらの操作がL1D にヒットした場合は、ロードに対する応答は、共通のアドレス・ビットと、ストアからロードま での間隔が何サイクルかによって決まる。

表6-5に、ストア/ロードの競合のさまざまなペナルティを示す。ペナルティは、ロードがストア と同じデータにアクセスするのか、ストア・データの一部にアクセスするのか、ストアに全く依 存しないのかによって異なる。

5サイクルのペナルティと17サイクルのペナルティは、ストア要求とロード要求の両方がL2に渡 され、L2の競合状態に直面するために発生する。3サイクルのペナルティと1サイクルのペナル ティは、L1Dがロード要求を再循環するために発生する。再循環の間に、L1Dはデータ配列をス トア・データで更新し、ストアがなかったかのようにロードを実行できる。競合を避けるには、

ストアからロードまでの間隔が4サイクル以上必要である。

6.6.3.4 整数アクセスと浮動小数点アクセスの相互作用

浮動小数点ロードと浮動小数点ストアは、L1Dを無視して直接L2に渡される。L1Dキャッシュ内 のラインに対する浮動小数点ストアが発生すると、そのL1Dラインは無効にされる。整数データ と浮動小数点データが同じL1Dキャッシュ・ラインを共有している場合、これによって問題が起 表 6-5. ストアからロードへのフォワーディングのペナルティ

ストアから

ロードまでの間隔 ストアの内部をロード ストアの外部をロード アドレスの比較

0サイクル 17サイクル 17サイクル 11:2

1サイクル 3サイクル 5サイクル 11:2

2サイクル 3サイクル 3サイクル 49:2

3サイクル 1サイクル 3サイクル 49:2