• 検索結果がありません。

CUDAによる並列処理に置き換え.

講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法 MPI による並列プログラム作成 ( 午後 ) プロセス間通信による並列処理 処理の分割 + データの

講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法 MPI による並列プログラム作成 ( 午後 ) プロセス間通信による並列処理 処理の分割 + データの

...  現在利用されているほとんどの並列計算機は、MPIのライブラリが実装されている。  MPIの規格準拠していれば、基本的互換性は確保されている。  欠点1.並列プログラムの作成が複雑  プロセス毎のデータ配置やプロセス間の通信等を全て自分で記述しないといけないた ...

68

統合並列処理向けの多項式計算ソフトウェアの試作 (数式処理における理論と応用の研究)

統合並列処理向けの多項式計算ソフトウェアの試作 (数式処理における理論と応用の研究)

... データ並列とタスク並列 並列処理は、 大きく分けて、 データ並列処理とタスク並列処理の 2 つの形態がある。 それぞれの特徴を表 2 まとめた。 データ並列処理は、 ベクタ計算機上での処理代表さ れるよう、 ...

13

Wuの方法の並列化における負荷分散について (数式処理における理論と応用の研究)

Wuの方法の並列化における負荷分散について (数式処理における理論と応用の研究)

... 上で行い、 並列計算ではプロセッサ数を 2,4,6 へ変化させた。 計算時間は $\mathrm{R}\mathrm{i}\mathrm{s}\mathrm{a}/\mathrm{A}\mathrm{S}\mathrm{i}\mathrm{r}$ が 持つ time $()$ 関数で計り、 実時間により比較した ( 表 1) 。なお、 表中の並列版でのプロセッ サ数は、 マスタ、 ...

10

Hadoop とは 大規模なデータを並列分散処理を行うフレームワークを提供 Google による MapReduce および Google File System(GFS) の論文をベースに開発された Apache プロジェクトの OSS MapReduce MapReduce 分散処理フレームワー

Hadoop とは 大規模なデータを並列分散処理を行うフレームワークを提供 Google による MapReduce および Google File System(GFS) の論文をベースに開発された Apache プロジェクトの OSS MapReduce MapReduce 分散処理フレームワー

... – どのブロックがどのノードあるか ● メタデータは基本的メモリ上で管理し処理を高速化 ● 実際のデータの読み書きはクライアントと DateNode が直接通信 – NameNode はボトルネックなりにくい ...

39

力学構造の周波数応答解析を行う並列処理プログラムの開発

力学構造の周波数応答解析を行う並列処理プログラムの開発

... 力学構造の周波数応答解析を行う並列処理プログラムの開発 林 拓也 名古屋大学 情報文化学部 自然情報学科 複雑システム系 畔上研究室 数値解析は様々な現象に対してモデル化された微分方程式を離散化された変数の連 立 1 次方程式に変換して近似解を求める方法である.より複雑な問題に対して数値解析 を用いるためには,計算量の大規模化に対する対策が必要となる.本[r] ...

1

置き換えBOOK

置き換えBOOK

... 7. 変換後、「変換処理情報の保存」 ダイアログボックスが表⽰されます。 「保存」をクリックすると、「変換処理情報」(変換ログ)を CSV ファイル形式で残すことができます。 MEMO 保存した CSV ファイルは GP-Pro/PBIII for Windows からの変換時の相違点が記述されてい ...

40

多項式の高速多点評価法とその並列処理について : 高速プログラムの開発へ向けて(数式処理における理論と応用の研究)

多項式の高速多点評価法とその並列処理について : 高速プログラムの開発へ向けて(数式処理における理論と応用の研究)

... DFT による多項式乗算アルゴリズム ( の計算量 $M(d)=o(d\log d)$ ) の主要な部分は (逆) 変換である ...DFT による乗算というのは, 基本的 $\mathrm{e}\mathrm{v}\mathrm{a}\mathrm{l}\mathrm{u}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\ ...

10

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

... 2DでのBLOCK・THREADの割り当て  GlobalID は、(x, y , z )方向計算できる — GlobalID(x) = blockDim.x * blockIdx.x + threadIdx.x — GlobalID(y) = blockDim.y * blockIdx.y + threadIdx.y — GlobalID(z) = blockDim.z * blockIdx.z + ...

23

行列Horner法の並列化による行列の固有ベクトル計算の効率化について (数式処理研究の新たな発展)

行列Horner法の並列化による行列の固有ベクトル計算の効率化について (数式処理研究の新たな発展)

... 法を並列化することによる算法の効率化を提案した.Horner 法は本来逐次的な計算法であるが,我々の方 法では, Horner 法の計算順序を工夫することで,逐次的な計算依存しない部分を並列化可能であること を示した.計算機実験では,特に,特性多項式の因子の次数が 512 次や 1024 次といった高次の場合おい ...

10

拡張行列ホーナー法と行列スペクトル分解の並列算法 (数式処理 : その研究と目指すもの)

拡張行列ホーナー法と行列スペクトル分解の並列算法 (数式処理 : その研究と目指すもの)

... よく知られているよう、 ホーナー法では、 $A$ が $m$ 次平方行列、 $G$ が $m\cross m’$ 行列のとき、 $m$ 次平方行 列と $m\cross m’$ 行列の積計算が $\deg f$ 回必要である。 したがって、 計算量は $O(m^{2}m’\deg f)$ となる。 次にわれわれの提案する拡張行列ホーナー法について述べる。 $n$ 次多項式 $f(x)$ に対し $d<n$ ...

8

インテル® コンパイラーを使用した OpenMP* による並列プログラミング

インテル® コンパイラーを使用した OpenMP* による並列プログラミング

... で追加されたオフロード機能を利用することで、これまで共有メモリー型並列 処理加え分散メモリー型の並列処理を表現できるようなりました。このセッションでは、 注目されるヘテロジニアス・プログラミング環境での OpenMP* オフロード機能について説明 ...

43

高性能,高生産性を実現する 大規模メモリ・並列処理システムソフトウエアの研究

高性能,高生産性を実現する 大規模メモリ・並列処理システムソフトウエアの研究

... PGAS をベースとした共有メモリ型並列計算基盤に対してTM(トランザクショナルメモリ)の機能を提供 し,これをコヒーレンス制御活用することにより,生産性と性能を両立する分散共有メモリ処理系の実 現を目指す.マルチコアプロセッサ向けのTMをベースとして,分散用の機能を追加して拡張することでシ ステムを実現する.今年度は,PGAS ...

10

モジュラー計算の擬似並列実行(数式処理における理論とその応用の研究)

モジュラー計算の擬似並列実行(数式処理における理論とその応用の研究)

... 式 よると、 $T_{\mathrm{S}}$ が $T_{\mathrm{C}}$ 比べてそれほど大きくはないのではないかと思われる。 この予想を裏付けるため、 153 節与えた 2 つのプロシジャ mplus と mcplus, および乗算に対する 同様の 2 つのプロシジャmtimes と mctimes の実行時聞を計測した (ただし、mplus と mtimes ...

7

行列Horner法の並列化の実装について (数式処理研究の新たな発展)

行列Horner法の並列化の実装について (数式処理研究の新たな発展)

... 本稿では,行列どうしの乗算法として古典的な算法 ( 詳細は第 3.1 節を参照 ) を用いる仮定の下,行列 Horner 法の計算量を見積もった上で,行列積の演算の並列化が最も並列化の効果が期待できると判断し, 2 種類の異なる並列化法を試みた.並列計算の実装は,数式処理システム Risa $/$ Asir と,小原 [9] による並 ...

9

マルチコア時代の並列前処理手法 (科学技術計算アルゴリズムの数理的基盤と展開)

マルチコア時代の並列前処理手法 (科学技術計算アルゴリズムの数理的基盤と展開)

... OpenMPMPI ハイブリッド並列プログラミングモデルが Flat MPI と同等かそれを上回る性能を発揮することがわ かった.更に,First Touch Data Placement, 連続メモリアク セスのためのデータ再配置を適用することにより,特にコ ア当たり問題規模が小さい場合の性能が改善されること ...

10

数独問題のイデアル構造による階層付けとブーリアングレブナ基底による並列計算 (数式処理とその周辺分野の研究)

数独問題のイデアル構造による階層付けとブーリアングレブナ基底による並列計算 (数式処理とその周辺分野の研究)

... $I$ 含まれる semi-solution polynomial を associated solution polynomial 置 き換える操作を繰り返すことで contradiction polynomial を含むまでの操作の回数を, $I_{0}$ に対する $X+\{s\}$ の $br$ -rank(basic refutable-rank) と呼ぶ. 前述の XY-wing の例 ...

10

有理区間数とGPU並列処理による陰関数描画について (Computer Algebra : Design of Algorithms, Implementations and Applications)

有理区間数とGPU並列処理による陰関数描画について (Computer Algebra : Design of Algorithms, Implementations and Applications)

... 文献 [3] では, NVIDIA GeForce GTX-285 を使用していた力 $\nwarrow$ 本稿の計算方法の変更の利点を明確 調査するため, Mac Book を用いて実験を行った.使用した計算機は, CPU Core 2 Duo 2. $4GHz,$ NVIDIA GeForece $320M256MB$ (メインメモリ上) $48core$ , CUDA 3.2 である.また,描画対象 ...

5

CCSに基づく並列処理言語の実装(計算理論とその応用||)

CCSに基づく並列処理言語の実装(計算理論とその応用||)

... プロセスについて手続き起動プロセスを作り , 手続き呼び出しはそれを通して行なうようした. この場合 , 手続き呼び出しは呼出側が, 手続き起動プロセスと通信して , 新た生成された手続きプロ セスの番号を受けとり, この番号を用いて手続きの呼び出しを行なうようなっている. 手続き起動プロセスは, 式の $W(n)$ にあたる. ...

4

並列処理の背景

並列処理の背景

... Kepler GK110 では、カーネルから別カーネルを起動することがで、必要なストリー ムやイベントを生成したり、追加ワークの処理必要な依存関係を管理することがホ スト CPUの関与なし実行できます。 GPU 上で再帰的な実行パターンやデータ依存の実行パターンを生成・最適化するこ とが可能なり、(中略)システムの CPU のワークロードを別のタスク振り分け ...

40

ParGAPによるアソシエーションスキームの並列バックトラック計算 (Computer Algebra : Algorithms, Implementations and Applications)

ParGAPによるアソシエーションスキームの並列バックトラック計算 (Computer Algebra : Algorithms, Implementations and Applications)

... 入力から、例えば 6 行目まで完成した relation matr 板で、 まだ生成されていないものを全て求めて、得ら れた行列に対して step 1 と同様、時間制限付で、それから先の可能な relation matrix を計算する。 得ら れた結果の処理は step 1 と同様する。 \tilde -Sea 『 hed in step 2 ...

7

Show all 10000 documents...

関連した話題