• 検索結果がありません。

並列コード

インテル Parallel Studio XE 2020 の最新情報 エンタープライズ クラウド HPC AI アプリケーションの並列コードを高速化 久保寺 陽子

インテル Parallel Studio XE 2020 の最新情報 エンタープライズ クラウド HPC AI アプリケーションの並列コードを高速化 久保寺 陽子

... ▪ プラットフォーム・プロファイラー - システムメトリックを素早く分かりやすく表示 ▪ I/O 解析 - PCIe* デバイスメトリックを強化 ▪ HPC 解析 - ベクトル化メトリックを合理化、プロセス/スレッド・アフィニティーを表示 ▪ アプリケーション・パフォーマンス・スナップショット - 通信パターン診断、多くのランクをプロファイル ▪ マイクロアーキテクチャー解析 – 最新のプロセッサーに対応 (開発コード名 ...

52

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-HPC-151 No /10/1 OpenFOAM による流体コードの Hybrid 並列化の評価 1 内山学 ファムバンフック 1 2 千葉修一 3 井上義昭 3 浅見暁 本報告は流体コード

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-HPC-151 No /10/1 OpenFOAM による流体コードの Hybrid 並列化の評価 1 内山学 ファムバンフック 1 2 千葉修一 3 井上義昭 3 浅見暁 本報告は流体コード

... Hybrid 並列化の評価 内山学 †1 ファム バン フック †1 千葉修一 †2 井上義昭 †3 浅見暁 †3 本報告は流体コード OpenFOAM を基にして,MPI 並列と Thread 並列を用いた Hybrid 並列の検討を行う.OpenFOAM は Thread 並列には対応していないため, CG 法と BiCG 法を対象に Thread ...

6

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎

... 並列計算ソフトウェア I 小規模もしくは,使いやすい方から紹介する. ベクトル化,SIMD ハードウェア,ソフトウェア,ライブラリの「準備」をしさえすれば… プログラミング的な意味での特殊なテクニックはほぼ不要. ...

59

インテル® コンパイラーを使用した OpenMP* による並列プログラミング

インテル® コンパイラーを使用した OpenMP* による並列プログラミング

... このセッションの目的 明示的な並列プログラミング手法として注目されてきた OpenMP* による並列プロ グラミングに加え、インテル® コンパイラーがサポートする OpenMP* 4.0 と 4.5 の 機能を使用したベクトル・プログラミングとオフロード・プログラミングの概要をリフ レッシュし、インテル® コンパイラー V19.1 でサポートされる OpenMP* 5.0 の機能 ...

43

Microsoft PowerPoint - 講義1:離散化と並列化.pptx

Microsoft PowerPoint - 講義1:離散化と並列化.pptx

... ヤコビ法のMPI並列化の方針(その3) • 各プロセスでの計算には,上下の部分の値 が必要であることに注意. ▫ スレッド並列では, の部分に同時にアクセスしないようにする. ▫ プロセス並列では,上下部分の値を転送する必要がある. ...

36

コンピュータ将棋と並列化

コンピュータ将棋と並列化

... • コンピュータがあまりに非力だった。ぬかみそ的なコード。 – 統計情報による絞り込み • 激指「実現確率打ち切り探索」 – 機械学習によって評価関数を調整、なるべく絞らない ...

37

講師取締役千田範夫シニアコンサルタント竹内宗孝 の事業内容 Winmostar の開発 販売 科学技術計算コードの並列化 高速化 およびカスタム開発 計算化学コンサル etc 2

講師取締役千田範夫シニアコンサルタント竹内宗孝 の事業内容 Winmostar の開発 販売 科学技術計算コードの並列化 高速化 およびカスタム開発 計算化学コンサル etc 2

... ノード内並列計算(共有メモリ型) • HDDをSSDにすることでディスクI/Oを高速化、GPGPUで 演算を高速化 etc. • Linuxクラスタ上のGromacsにジョブ投入することでス ケールアップを実現(「リモートジョブ投入機能」) ...

46

マルチコア時代の並列プログラミング

マルチコア時代の並列プログラミング

... Sequence lock Optimistic lock (楽観的なロック) 任意のデータ + counter 読み込みスレッドだけなら lock-free 書き込みスレッドは lock が必要 Counter が偶数なら解放、奇数なら占有状態 counter data 1.. Read counter と読んで、 1が奇数か、 1≠3なら失敗。 data を破棄して[r] ...

34

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム

... • ノード内の演算性能だけではなく,全対全通信の最適 化においても自動チューニングが必要になる. • 今後,並列スーパーコンピュータの規模が大きくなるに 従って、FFTの効率を向上させることは簡単ではない. ...

51

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム

... • ノード内の演算性能だけではなく,全対全通信の最適 化においても自動チューニングが必要になる. • 今後,並列スーパーコンピュータの規模が大きくなるに 従って、FFTの効率を向上させることは簡単ではない. ...

51

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎

... 並列計算のまとめ ハードウェアによって並列化の方法が異なるので,ソフトウェアも それに合わせて選択する. 他のソフトウェアに比較すると, MPI はプログラムを書く人が並 列化を考えねばならず,やや敷居が高い. ...

60

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

...  cudaError_t cudaMallocPitch ( void** devPtr, size_t* pitch, size_t width, size_t height ). — widthバイトのメモリを、height行分、取得する。 — 行は、pitchバイトで整列する。[r] ...

23

目次 概要.. 3 演習 1: 静的 PARALLEL ヘルパークラスを使用した既存のアルゴリズムの並列化 6 タスク 1 実行時間の長いサービスを並列化する 6 演習 2: 並列タスクの作成と実行. 23 タスク 1 並列タスクを特別な設定なしに実行する 23 タスク 2 Wait() メソッドと

目次 概要.. 3 演習 1: 静的 PARALLEL ヘルパークラスを使用した既存のアルゴリズムの並列化 6 タスク 1 実行時間の長いサービスを並列化する 6 演習 2: 並列タスクの作成と実行. 23 タスク 1 並列タスクを特別な設定なしに実行する 23 タスク 2 Wait() メソッドと

... メモ: 値を取得するには、data.Result プロパテゖを調べます。Result プロパテゖの 呼び出し時にタスクが完了していれば、値がすぐに返されます。完了していなけれ ば、タスクが完了して値を取得できるようになるまで、実行中のコードがブロック されます。上記の例では、Result プロパテゖをすぐに呼び出していますが、これは 理想的な処理ではありません。Task<T> ...

47

モデルベース並列化ツールeMBPの紹介

モデルベース並列化ツールeMBPの紹介

... ■Matlab/Simulinkで設計された制御モデルから生成されるCソースコード並列化。 ■モデルの構造を頼りに並列化を行うため、設計者の意図が反映される。 ■ブロック毎の実行性能の見積りにハードウェア構造記述SHIM (※1)を採用。 ■コア割り当ては、「階層クラスタリング(※2)」アルゴリズムを利用 ...

37

高速なコードを素早く開発 インテル Parallel Studio XE 設計 ビルド 検証 チューニング C++ C Fortran Python* Java* 標準規格に基づく並列モデル : OpenMP* MPI インテル TBB バージョン 2017 の主な機能 インテル Distribut

高速なコードを素早く開発 インテル Parallel Studio XE 設計 ビルド 検証 チューニング C++ C Fortran Python* Java* 標準規格に基づく並列モデル : OpenMP* MPI インテル TBB バージョン 2017 の主な機能 インテル Distribut

... 無断での引用、転載を禁じます。 * その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 最適化に関する注意事項 3 インテル® Parallel Studio XE インテル® C/C++ および Fortran コンパイラー インテル® MKL 工学、科学、金融系アプリケーション向けに最適化されたルーチン インテル® DAAL データ解析/マシン[r] ...

68

SGI AltixUV1000 並列化プログラミング講習会

SGI AltixUV1000 並列化プログラミング講習会

... 浮動小数点演算の多いループや大きなデータセットを処理するコードで性能向上が見込めます。 -axSSE4.2および-xSSE4.2オプションとの組み合わせでより詳細なデータ依存性解析をします。 -fast -xHOST –O3 –ipo –no-prec-div –staticを有効にするマクロオプションです。 ...

121

第5回お試しアカウント付き並列プログラミング講習会

第5回お試しアカウント付き並列プログラミング講習会

... GNU make sh sh sh sh sh sh コマンド コマンド コマンド コマンド コマンド コマンド -j で指定した数まで 同時に実行する ` HA8000クラスタシステムの場合、1ノードでは使 えるCPUコア数は16まで ` 多数のノードを使用すれば、よりたくさんの処理 を行うことが可能 ` GXP make を使用すると複数ノードで並列makeを 実[r] ...

11

並列処理の背景

並列処理の背景

... CUDA プログラムはカーネルという名前の並列関数を呼び出します。各カーネルは、 複数の並列スレッドによる並列実行となります。 図1に示すように、スレッドをまとめたものをスレッドブロック、スレッドブロックを まとめたものをグリッドと呼び、プログラムやコンパイラではこれらを単位として取 り扱います。スレッドブロックを構成するスレッド1本1本がそれぞれカーネルのイン スタンス一つを実行するのです ...

40

MBP(モデルベース並列化)を用いたクロスレイヤ設計

MBP(モデルベース並列化)を用いたクロスレイヤ設計

... • 重要:すべての依存関係がブロック線図上の線として表現さ れていること – 実際には例外あり。SimulinkではData Store Memory →現状では依存関係をつけるか、同一Data Store Memoryに対するす べてのアクセスブロックを同じコアに配置して生成コードの順序を 変えないことで対応 ...

68

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ)

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ)

... で、対象ブロックの中で、使われた時間が最も古いものを選ぶ方法です。つ まり最近使われていないものを選びます。最近使われたものは、また使われ る可能性が高いので、追い出しの対象にするのは良くないです。LRUは最後 に使われたのが最も古いものを選ぶので、局所性の原則に適っています。こ れは2ウェイの場合、最後に使われた方のビットをセットしておけば良いので ...

34

Show all 2139 documents...

関連した話題