• 検索結果がありません。

CUDAによる並列処理へ

講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法 MPI による並列プログラム作成 ( 午後 ) プロセス間通信による並列処理 処理の分割 + データの

講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法 MPI による並列プログラム作成 ( 午後 ) プロセス間通信による並列処理 処理の分割 + データの

... 集団通信 MPI_Barrierを使った解決策  全プロセスを同期させる集団通信 MPI_Barrierを時間計測前に実行する。  全プロセスで開始時刻と終了時刻をほぼ揃うので、ランク0だけで計測できる。  ただし、 MPI_Barrierによる通信コストや待ち時間が計測値に含まれる。 ...

68

フランカーと妨害刺激の処理の類似性による干渉抑制への影響

フランカーと妨害刺激の処理の類似性による干渉抑制への影響

... く,妨害刺激と処理の類似性の高い刺激をフランカーと して配置することが妨害干渉の抑制に重要であることを 示した。 それでは,なぜ知覚負荷によらず妨害刺激と処理の類 似性の低い刺激を配置した場合は妨害干渉が認められ (実験1),処理の類似性の高い刺激を配置した場合は妨 害干渉が抑制された(実験2)のであろうか。処理の類 似性の低い刺激を配置した場合に妨害干渉が生じる結果 ...

8

情報処理学会研究報告 IPSJ SIG Technical Report 並列 FMO プログラム OpenFMO の性能最適化 稲富雄一, 眞木淳, 高見利也, 本田宏明, 小林泰三, 南里豪志, 青柳睦, 南一生 数万 ~ 数 10 万並列での効率的な実行を目指して, 並列フラグメント分子軌道プ

情報処理学会研究報告 IPSJ SIG Technical Report 並列 FMO プログラム OpenFMO の性能最適化 稲富雄一, 眞木淳, 高見利也, 本田宏明, 小林泰三, 南里豪志, 青柳睦, 南一生 数万 ~ 数 10 万並列での効率的な実行を目指して, 並列フラグメント分子軌道プ

... MPI_Recv による worker group からの要求待ちをしていることが分かる.各 worker group 内で GC のマスタプロセスとなっている rank=1と rank=8 のプロセスは,worker group 内の他のワーカプロセスからのジョブ要求待ちで,こちらも方法1と同様に MPI_Recv による待ちとなっていることが分かる.ストレージプロセスである rank=7 ...

8

2E1-2 状態遷移の並列比較によるNFA照合高速化

2E1-2 状態遷移の並列比較によるNFA照合高速化

... 1. はじめに パターン文字列照合問題は与えられたパターン文字列と一 致する部分文字列を、与えられたテキスト文字列から検索し 出現位置を応答する問題である。パターン文字列照合は文書 に対する検索にはじまり、テキストマイニングの前処理や、侵 入検知など広く現れる情報処理における基本的な問題である。 パターン文字列照合のなかでも正規表現照合は、パターンに正 規表現が利用できるため複雑なパターンに対応できる重要な技 ...

4

GPGPUによる高速画像処理

GPGPUによる高速画像処理

...  GPU:cudaMalloc によりグローバルメモリを確保 int N = 512; // 行列A, B, Cのサイズ float *hA, *hB, *hC; // CPU(host)側で利用するメモリのポインタ float *dA, *dB, *dC; // GPU(device)側で利用するメモリのポインタ ...

137

Hadoop とは 大規模なデータを並列分散処理を行うフレームワークを提供 Google による MapReduce および Google File System(GFS) の論文をベースに開発された Apache プロジェクトの OSS MapReduce MapReduce 分散処理フレームワー

Hadoop とは 大規模なデータを並列分散処理を行うフレームワークを提供 Google による MapReduce および Google File System(GFS) の論文をベースに開発された Apache プロジェクトの OSS MapReduce MapReduce 分散処理フレームワー

... ジューリングを行う ● タスクの単位 – 1つのタスクが1つの入力スプリット(デフォルトではブロック単位)を処理 ● 可能な限り「処理すべきデータを持っているノード」タスクを割り当てる ...

39

1E2-2 トランスポジションテーブルを利用したIDA*探索の閾値による並列化

1E2-2 トランスポジションテーブルを利用したIDA*探索の閾値による並列化

... 一方, 並列IDA*の場合, 最適解の f 値より大きい 閾値で探索を行うプロセスが発生してしまうことがあ る. 従って, 最初に解を発見したプロセスが最適化解を 発見できる閾値を探索しているとは限らないため, 発見 された解の最適性の保証を行う必要がある. これに対 する対処法として, 閾値 t で探索中のプロセスが解を発 見した際, 閾値が t より大きいプロセスは直ちに探索を 終了して,t ...

2

高性能,高生産性を実現する 大規模メモリ・並列処理システムソフトウエアの研究

高性能,高生産性を実現する 大規模メモリ・並列処理システムソフトウエアの研究

... る実行時間の比較 MpC:Cに最低限の拡張 (shared 分散マップ配列)+ OpenMP SMSを利用したクラスタ向け7点ステンシル計算プログラム 大域データshared宣言により,通常Cプログラムと同等な記述で. マルチコア並列(OpenMP)とマルチノード並列(mSMS)を実現 Tsubame3.0 (東工大) ...

10

OpenMP/OpenACC によるマルチコア メニィコア並列プログラミング入門 Fortran 編第 Ⅱ 部 :OpenMP 中島研吾 東京大学情報基盤センター

OpenMP/OpenACC によるマルチコア メニィコア並列プログラミング入門 Fortran 編第 Ⅱ 部 :OpenMP 中島研吾 東京大学情報基盤センター

... 対角スケーリング,点ヤコビ前処理 • 前処理行列として,もとの行列の対角成分のみを取り出 した行列を前処理行列 [M] とする。 – 対角スケーリング,点ヤコビ( point-Jacobi )前処理 ...

96

コンピュータ将棋と並列化

コンピュータ将棋と並列化

... • 伊藤毅志, 小幡拓弥, 杉山卓弥, 保木邦仁. 将棋における合議アルゴリズム — 多 数決による手の選択. IPSJ, Vol. 52, No. 11, pp. 3030–3037, 2011. • 田中哲朗,金子知適. コンピュータ将棋の不遜な挑戦 : 4.大規模クラスタシステ ムでの実行 -GPS将棋の試み-. 情報処理, Vol. 51, No. 8, pp. 1008-1015, 2010. • ...

37

並列計算プログラミング超入門

並列計算プログラミング超入門

... 並列計算プログラミング超入門 佐々木誠 (株)日本総合研究所 [email protected] さて、ここまでの記事であなたの手元には PC クラスターが構築されているでしょう。た だ、そのままでは単なる PC をネットワークでつないだシステムにすぎません。これからこ の上で「並列計算」を行なうソフトウェアを自ら構築するか、他所から導入するかするわ ...

19

並列プログラミング入門(OpenMP編)

並列プログラミング入門(OpenMP編)

...  例えば、間接参照を含むルーチンで同一のアドレスをアクセスしてしまうような処理は、競合 が発生しており、スレッドセーフではなくなります。  スレッドセーフでない処理の例:  COMMONやSAVE属性の変数にアクセスしている関数・サブルーチンで、排他制御が正しく ...

101

並列有限要素法による 一次元定常熱伝導解析プログラム C 言語編 中島研吾 東京大学情報基盤センター

並列有限要素法による 一次元定常熱伝導解析プログラム C 言語編 中島研吾 東京大学情報基盤センター

... MPI_Irecv • 受信バッファ「 recvbuf 」内の,連続した「 count 」個の送信メッセージを,タグ「 tag 」 を付けて,コミュニケータ内の,「 dest 」から受信する。「 MPI_Waitall 」を呼ぶまで, 受信バッファの内容を利用した処理を実施してはならない。 • MPI_Irecv ...

90

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-HPC-151 No /10/1 OpenFOAM による流体コードの Hybrid 並列化の評価 1 内山学 ファムバンフック 1 2 千葉修一 3 井上義昭 3 浅見暁 本報告は流体コード

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-HPC-151 No /10/1 OpenFOAM による流体コードの Hybrid 並列化の評価 1 内山学 ファムバンフック 1 2 千葉修一 3 井上義昭 3 浅見暁 本報告は流体コード

... 予備解析として同じ格子数で serial job を実行したが, HK_BMC2 は HK_CM に比べて 10%程度遅い.また, HK_BMC2 の 8 threads での並列計算時の加速率は約 5.5 で あった.ノード数が少ない場合の HK_BMC2 と HK_CM の 差は,その影響が現れていると考える.なお,24 ノードで の HK_BMC2 の実行効率の低下は,一部の計算で thrashing ...

6

並列処理の背景

並列処理の背景

... • メモリ環境についても、演算入力は少数の格子点データと幾分大きな テクスチャ・データだけであり、演算出力は画像1枚程度の大きさのピ クセルごとに3色のデータを保持しながら順次それらを送り出すだけで 済むため、相応に大きな外部の半導体メモリとかなり広いメモリバン ド幅による接続で十分に対応しており、演算対象データの局所性が高 いのでローカルメモリと内部キャッシュによってデータの読み書き性 ...

40

並列分散ワークフロー処理システムの研究開発

並列分散ワークフロー処理システムの研究開発

... – タスクの依存関係から、実行順序を決定 – 依存関係がないタスクを並列に実行可能 – ルール定義により、共通の処理を記述 – ファイルの有無やタイムスタンプを見て、途中から実行を再開 ...

21

インテル® コンパイラーを使用した OpenMP* による並列プログラミング

インテル® コンパイラーを使用した OpenMP* による並列プログラミング

... OpenMP* のオフロード機能 (14:30 – 15:30) OpenMP* 4.0 で追加されたオフロード機能を利用することで、これまで共有メモリー型並列 処理に加え分散メモリー型の並列処理を表現できるようになりました。このセッションでは、 注目されるヘテロジニアス・プログラミング環境での OpenMP* オフロード機能について説明 します ...

43

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

...  cudaError_t cudaMallocPitch ( void** devPtr, size_t* pitch, size_t width, size_t height ). — widthバイトのメモリを、height行分、取得する。 — 行は、pitchバイトで整列する。[r] ...

23

並列処理論2

並列処理論2

... 17 スレッド間並列(マルチスレッド:MT) • スレッド: – 同一プロセス内で複数制御フロー(スレッド)を用意. – 個別の制御フローを個別のスレッドに対応させる. – スレッドをPEのスケジュール単位とする. ...

85

PVMによる並列処理システム構成の試み

PVMによる並列処理システム構成の試み

... PVM について紹介程度以上に書かれている 書籍は利用できなかった.使用した PVM のパージョンは PVM3. l別々に処理しであとからそれらを集めてまとめること が可能なもの 例えば,数値積分は区間を分割して積分しその和を 求めることにより最終結果を得る.また,ここで報告 する行列の積も,被乗算される行列を行に分割して分 害 1 ) すれば,並列処理された個々の結果[r] ...

3

Show all 10000 documents...

関連した話題