ストレージクラスメモリのアクセスレイテンシが実行時間に及ぼす影響の評価

4. 新型高速不揮発メモリを活用した階層型主記憶を実現する省電力仮想記憶システム

4.4 フルシステムシミュレーションによる評価

4.4.3 ストレージクラスメモリのアクセスレイテンシが実行時間に及ぼす影響の評価

まず、各種ストレージクラスメモリのアクセスレイテンシが実行時間に及ぼす影響について PARSEC ベンチマークを用いて評価した結果を図 4.3～図 4.5 に示す。スワップデバイスのアクセスレイテンシが性能に与える影響のトレンドカーブを見極めるために、ここでは同アクセスレイテンシを幅広く変化させる。具体的には、それぞれの図の横軸に示すように、レイテンシを、SRAM や DRAM 相当のレイテンシから始めて、ストレージクラスメモリで想定されているレイテンシ、SSD や HDD 相当のレイテンシまで変化させている。図の縦軸はベンチマークの実行サイクル数である。

図の一番左側の縦棒だけは特別扱いで、アクセスレイテンシが 0 というわけではなく、

十分なサイズの DRAM のみでベンチマークが実行された場合の実行サイクル数を示している。

つまり、スワップ処理が発生せず、スワップ処理によるオーバヘッドがないメモリサイズで実行している。即ち、この縦棒と同じ高さで引かれている線より上は、データ転送オー

バヘッドなどのスワップ処理に掛かるオーバヘッドであると考えることができる。

図 4.3. アクセスレイテンシが実行時間に及ぼす影響 (facesim)

まず、PARSEC の中ではメモリアクセスが多く提案方式に不利な条件での評価が可能になる facesim を用いて評価をおこなった。評価は、スワップ処理が発生しないために必要な DRAM サイズに対して、1/5 程度まで DRAM サイズを小さくして実行した。シミュレーション結果を図 4.3 に示す。この図からアクセスレイテンシが SSD や HDD 程度の付近では、スワップ処理のオーバヘッドが非常に大きいことが分かる。DRAM 量よりも必要なメモリ量が大きなアプリケーションを実行するとスワップが発生し始めた途端に処理時間が急激に増大し、実用的な処理時間で実行できないことを示している。

一方で、ストレージクラスメモリで想定されているレイテンシでは SSD や HDD 程度のアクセスレイテンシでは実用的な処理時間で実行できないほどのスワップ処理が発生しても、

性能低下はほとんど確認できない程度に抑えられることが確認できた。提案方式に不利な条件である facesim で得られた結果であり他の PARSEC ベンチマークでは提案方式の効果はより大きくなると考えられる。

さらに、数百 ns～数μs という幅広いレンジの中では最も遅い、アクセスレイテンシが

数μ秒の付近でもアプリケーション性能に影響が小さいことが確認でき、例えば PCM 系のようなライトが遅い SCM でも有効であることが確認できた。この結果より、速度は DRAM が牽引するため、ストレージクラスメモリは大容量化しやすくビット単価も低くしやすい数 μs のストレージクラスメモリが向くことが明らかになった。

つぎに、必要なメモリサイズが一番大きくメモリアクセスローカリティも高い提案方式に有利なベンチマークである dedup を用いて評価をおこなった。dedup については、facesim の場合と同程度のスワップ処理を引き起こすように DRAM サイズを 1/25 程度まで小さくして実行した場合の結果を図 4.4 に示す。

図 4.4. アクセスレイテンシが実行時間に及ぼす影響 (dedup)

この場合についても、facesim の実行結果と同様の傾向を示しており、アクセスレイテンシが SSD や HDD 程度の付近ではスワップ処理のオーバヘッドが非常に大きい一方で、アクセスレイテンシが数μ秒以下の付近までは、SSD や HDD 程度のアクセスレイテンシでは実用的な処理時間で実行できないほどのスワップ処理が発生しても性能低下は抑制されていることが確認できる。

以上の結果から、アクセスレイテンシが数μ秒程度のストレージクラスメモリがスワッ

プデバイスとして利用可能になれば、ある程度のスワップが発生しても処理性能が大きく低下しないことを確認することができた。

図 4.5. アクセスレイテンシが実行時間に及ぼす影響 (canneal)

最後に、図 4.5 にランダムアクセスが多いベンチマークである canneal のシミュレーション結果を示す。canneal はこれまでの 2 つのベンチマークとは傾向が異なる。具体的には、

DRAM サイズを小さくした途端にスワップ処理のオーバヘッドが急激に大きくなり、スワップデバイスのアクセスレイテンシが数μ秒程度のところでも、スワップ処理のオーバヘッドが大きく、実行サイクルが DRAM のみで実行した場合の倍以上多くなってしまうことが判明した。これは、canneal の細かい粒度でランダムアクセスしてメモリアクセスの局所性が低いという特性と従来型の仮想記憶方式との相性の悪さが原因である。従来型の仮想記憶方式では、頻繁にランダムアクセスが発生するワークロードでは、極端なケースでは必要なページを 4KB などの単位でページインしたあとで、数バイトのみアクセスし、すぐにページアウトされてしまう。このように、頻繁にランダムアクセスが発生するワークロードでは、スワップ処理が頻発し、単にスワップデバイスを低速な HDD や SSD から高速なスト

レージクラスメモリに置き換えらればよいわけではないことが明らかになった。

これまで、ストレージクラスメモリクラスの速度を持つスワップデバイスが想定されていなかったため顕在化しなかった従来型の仮想記憶方式の課題を本研究の評価により明らかにすることができた。今回の評価結果から、仮想記憶方式の今後の課題の一つとしてはページサイズが挙げられる。これまではラージページ[123]を利用することが重要と考えられてきたが、ストレージクラスメモリの性能を引き出すためには、ストレージクラスメモリが持つバイトアドレッサビリティを活かし、ランダムアクセスパタンではより小さいページサイズを利用できるようにすることも重要と考えられる。

さらに、canneal についてベンチマーク実行時間の内訳を図 4.6 に示す。この図では、実行時間をユーザモードとカーネルモードで分けて表示している。カーネルモードの処理時間は、スワップ処理に掛かる OS オーバヘッドによる時間とデータ転送時間の合計と見ることができる。本評価はフルシステムシミュレーションでおこなっているため、速度が SRAM なみに高速なスワップデバイスという理想的なスワップデバイスを使った場合の評価が可能になることを利用し、データ転送時間の影響を非常に小さくした場合の評価をおこなった。その結果、実行時間がストレージクラスメモリを想定した場合と変わらないことが判明した。これは、ストレージクラスメモリで想定されるレイテンシのスワップデバイスを用いた場合のカーネルモードの処理の大部分は OS オーバヘッドが大部分を占めることを意味している。これはスワップ処理ごとにコンテキストスイッチが発生するためと考えらえる。これはストレージクラスメモリをプロセッサに I/O 接続していることが原因であるため、ストレージクラスメモリを DIMM に搭載しプロセッサと接続することで、ビッグデータ処理などのランダムアクセスが多いアプリケーションのオーバヘッドを大幅に削減できる可能性を示唆する結果が得られた。このように、プロセッサとストレージクラスメモリをどのようなインタフェースで接続するか、そして、それがアプリケーションの性能や消費電力にどのように影響するかは、今後のコンピュータシステムを設計するうえで重要な課題である。本評価では、ストレージクラスメモリを DIMM 化すること、そして、小さいページサイズを利用可能にすることなどが本方式の対象アプリケーションをランダムアクセスが多いものにまで広げていくうえで重要であることを明らかにした。

図 4.6. canneal ベンチマークの実行時間の内訳

4.4.4 ストレージクラスメモリのアクセス電力が消費電力に及ぼす影響の評

ドキュメント内メモリ階層制御により高性能・低消費電力を実現する (ページ 98-103)