• 検索結果がありません。

行列ベクトル積:ローカル計算 #1

今回の内容 CUDA 付属のライブラリ cublas 行列 ベクトル積, 行列 行列積 cusperse 行列格納形式 cufft 余弦波の FFT curand モンテカルロ法による円周率計算 Thrust 913

今回の内容 CUDA 付属のライブラリ cublas 行列 ベクトル積, 行列 行列積 cusperse 行列格納形式 cufft 余弦波の FFT curand モンテカルロ法による円周率計算 Thrust 913

...  C言語 におけるA[i][j]のメモリ上の配置  0/256,0/256,0/256・・・1/256,1/256,1/256・・・2/256,2/256,2/256 ・・・  Fortran におけるA(i,j)のメモリ上の配置 ←BLAS  ...

58

行列乗算におけるストラッセンの方法の拡張(数値計算アルゴリズムの研究)

行列乗算におけるストラッセンの方法の拡張(数値計算アルゴリズムの研究)

... 倍数とする。 $\mathrm{A},\mathrm{B},\mathrm{C}$ のブロック行列のサイズは $\mathrm{p}\cross \mathrm{r}_{\text{、}}\mathrm{r}\cross \mathrm{p}_{\text{、}}\mathrm{p}\cross \mathrm{p}$ で次の様になる。 $\mathrm{p}=\mathrm{P}/\mathrm{n}$ , ...

9

HPCS5 5/5/9 5年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Comuting Symosium 5 などの行列とベクトルの演算 Level- 演算 は 演算回数 に対して必要となるデータ量が多く マルチコア計算機に おいて高い実行性能を実

HPCS5 5/5/9 5年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Comuting Symosium 5 などの行列とベクトルの演算 Level- 演算 は 演算回数 に対して必要となるデータ量が多く マルチコア計算機に おいて高い実行性能を実

... に対する解法は,図 1 に示されるように,様々 なアプローチが考えられる.従来法では,赤や緑の線で示 されるように,与えられた一般化固有値問題を標準固有値 問題に変換し,標準固有値問題を解いた結果を,一般化固 有値問題の固有ベクトルに逆変換するという手順が取ら れる.しかしながら,これらの解法は Level-1 , Level-2 演 算を多く含み,マルチコア計算機で十分な性能を引き出す ...

9

行列計算専用大規模集積回路の開発

行列計算専用大規模集積回路の開発

... 3 ハウスホルダ法を並列処理する方法 17 しかし、並列コンピュータでのプログラミングはできるかぎり共有メモリやプロ セッサ間の通信が少なくなるようなコーディングをする。つまり、出来るだけ高速 なローカルメモリにデータをおいたまま計算を続けられるようにする。何故ならルー タを介した通信は、プロセッサの演算処理に比べて低速であるからである。それぞ ...

82

BLAS を用いた高精度な行列積アルゴリズムの使用メモリ量の削減とその性能について (科学技術計算における理論と応用の新展開)

BLAS を用いた高精度な行列積アルゴリズムの使用メモリ量の削減とその性能について (科学技術計算における理論と応用の新展開)

... というメモリ量が必要である 1. ここでは,入力される行列 $A,$ $B$ と $AB$ の計算結果を保存 するためのメモリ量を含んでいない.この手法は,ベクトルの内積単位で高精度計算をす る方法に比べれば非常に膨大なメモリ量を必要とするため,次章に実装レベルで使用する ...

10

表計算による待ち行列のシミュレーション テーマパークアトラクション待ち時間の再現 ( 坂本 ) 表計算による待ち行列のシミュレーション テーマパークアトラクション待ち時間の再現 坂本 紫 Simulation of the queue by the spreadsheet Reproduction

表計算による待ち行列のシミュレーション テーマパークアトラクション待ち時間の再現 ( 坂本 ) 表計算による待ち行列のシミュレーション テーマパークアトラクション待ち時間の再現 坂本 紫 Simulation of the queue by the spreadsheet Reproduction

... この関数はシミュレーション結果の解析例を示す際に使用する。 基準セルの位置から,指定した行数分上方向(マイナス値)か行数分下方向(プラス 値)に移動,指定した列数分左方向(マイナス値)か列数分右方向(プラス値)に移動, そのセル位置のデータを返す。たとえばOFFSET(A1,2,3,1,1) はセルA1の位置から下に2 ...

17

東海地区ベクトル並列計算機保守請負契約

東海地区ベクトル並列計算機保守請負契約

... ③ MS Windows Server の管理者(Administrator)経験:1 年以上 ④ MS Windows 系 OS 及び MS Office 製品についてのユーザ支援経験:1 年以上 注2 要員数は参考値(原子力機構の想定)であることから、受注者の裁量で要員数 を変更する提案が可能である。 (例:上記 (2)の業務であれば、情報システム関連機器 の運用経験が 8 年以上の要員 2 ...

13

行列Horner法の並列化による行列の固有ベクトル計算の効率化について (数式処理研究の新たな発展)

行列Horner法の並列化による行列の固有ベクトル計算の効率化について (数式処理研究の新たな発展)

... とおく. 2. [各部分列における途中結果のベクトル計算] 式 (20) における各部分列 $L_{0}$ , . . . , $L_{s-1}$ において, $L_{j}$ に対する途中結果となるベクトルの列 $L_{j}’=[u_{l_{0}+\cdots+l_{j-1}}’, . . . , u_{l_{0}+\cdots+l_{j}-1}’]$ ...

10

FPGAを用いた行列計算専用プロセッサの設計

FPGAを用いた行列計算専用プロセッサの設計

... 化したコンピュータである専用コンピュータを用いる手法が O (N) 法に代表される新 アルゴリズムの開発とともに一般的になってきた。本研究では行列計算を対象とし、 専用プロセッサを設計することによって計算時間短縮を試みる。 また従来、対象のアーキテクチャの性能評価を行うには大別して、ソフトウェアで エミュレーションを行う方法、あるいは実際に対象のアーキテクチャをハードウェアと ...

139

行列の最小多項式計算について (Computer Algebra : Design of Algorithms, Implementations and Applications)

行列の最小多項式計算について (Computer Algebra : Design of Algorithms, Implementations and Applications)

... 前の節で与えた定理をそのままの形で用いて,最小多項式を求めるアルゴリズムを構成することができ る.しかし,行列のサイズが大きい場合は定理をそのままの形で用いたような計算法では計算量が膨大な ものとなり,最小多項式の計算法としては実用性に乏しいものとなる.そこで本研究では,この定理とラン ダムに生成させた 2 ...

8

スカラー計算機とベクトル計算機における固有値コードの性能評価(数値計算アルゴリズムの現状と展望II)

スカラー計算機とベクトル計算機における固有値コードの性能評価(数値計算アルゴリズムの現状と展望II)

... に関する標準固有値問題 $\mathrm{T}\mathrm{v}_{\mathrm{i}}=\lambda \mathrm{i}\mathrm{V}_{\mathrm{i}}(\mathrm{i}--1,2, \cdots, \mathrm{m}, \cdot\cdot \mathrm{n})$ を解く ために $1$ ) $\backslash$ 種々の固有値コードが開発されているが、 ...

6

ハードウェア記述言語を用いた行列計算専用プロセッサの設計

ハードウェア記述言語を用いた行列計算専用プロセッサの設計

... から構成されている. PeakFPGA は PeakVHDL で記述した VHDL ファイルを実 際のディジタル回路に変換するツールである. MAX+plus II と同様に, PeakVHDL&FPGA も 1 つの設計に関連する全て のファイルを 1 つのプロジェクトとして管理する.従って,新しい設計は MAX+plus II と同じくプロジェクトの新規作成から始まる. ...

89

差分スキームの再考によるベクトル計算機向き不完全LU分解について(数値計算アルゴリズムの現状と展望)

差分スキームの再考によるベクトル計算機向き不完全LU分解について(数値計算アルゴリズムの現状と展望)

... Fig. 6. Distribution of $D_{i}$ and dcpeudency of $CO11Vt^{1},rgt^{\backslash }11(:c$ for cliffnsioll $coc^{\backslash }.lfie\cdot.i_{1^{\backslash }.11}tD_{1}$ 一方、 MICCG 法でボアソン方程式を解いた場合の収束性を ...

10

ベクトル計算機による RSA 暗号ふるいの高速化 (科学技術計算アルゴリズムの数理的基盤と展開)

ベクトル計算機による RSA 暗号ふるいの高速化 (科学技術計算アルゴリズムの数理的基盤と展開)

... を 1 つ加えると、 2 件以上のデータが得られるデータも利用している。この処理は ふるい心臓部に比較し、プログラム処理は非常に複雑であるが、計算量は少ない。そ のため、本来はふるい処理の計算量は、この追加基底処理まで考えて比較すべきで ある。しかし、この追加基底処理まで考えた評価をすると、ふるい本体の高速化評価 の基準がぼやける。また、追加基底処理を含めて高速化評価すると、この処理方法と ...

17

多項式行列の行列式の補間による計算(II) (Computer Algebra : Design of Algorithms, Implementations and Applications)I

多項式行列の行列式の補間による計算(II) (Computer Algebra : Design of Algorithms, Implementations and Applications)I

... 最小多項式の次数が行列サイズに – 致する場合のみに利用できる算法を紹介する . 正確 には , 一致しない場合にもこの算法を利用することができるがそのときに方法 I と比較する とこの方法のほうが非効率であるためこの方法を利用すべきでない . 数値計算の GMRES 法に対応する . $v$ を乱数ベクトルとして $A^{k}v$ を有限体 $\mathbb{Z}/p\mathbb{Z}$ ...

7

行列のスペクトル分解・固有ベクトルの分散計算 (Computer Algebra : Design of Algorithms, Implementations and Applications)

行列のスペクトル分解・固有ベクトルの分散計算 (Computer Algebra : Design of Algorithms, Implementations and Applications)

... していることが分かる. これは計算全体における行列多項式計算の比重が高まることを示している. さらに, 注目すべきは $n\geq 64$ ではコア数 4 を越えて , super linear になっていることである . これは通信時間のコ ストよりも, Risa $/Asir$ のガーベージコレクタのコストの方が大きくなっていることを意味しているとも考 えられる. ...

4

目次 1. ベクトルに関する基本事項 ベクトルとスカラー 座標系とベクトルの成分表示 ベクトルの内積 ベクトルの外積 ベクトルの三重積 場の考え方と流束の概念 スカラー場とベクトル場 流束と流束密度

目次 1. ベクトルに関する基本事項 ベクトルとスカラー 座標系とベクトルの成分表示 ベクトルの内積 ベクトルの外積 ベクトルの三重積 場の考え方と流束の概念 スカラー場とベクトル場 流束と流束密度

... このようにある領域中に含まれる水量を評価するためには、考える領域の表 面を通しての水の流入、流出を計算する必要がある。後で具体的な例で詳しく 説明するが、簡単にいってしまうと、考えている物理量に対して、流束は、こ の表面“全体”を通過する物理量の値であり、流束密度は、 “単位面積あたり” に通過する物理量の値である。上の例のように、考えている物理量が表面を通 ...

172

非対称行列の積型反復解法をめぐって(数値計算アルゴリズムの現状と展望)

非対称行列の積型反復解法をめぐって(数値計算アルゴリズムの現状と展望)

... そのとき , 我々は適当な手続きで多項式列 $H_{0},$ $H_{1},$ $\cdots,$ $H_{n}$ を生成し, $H_{0}(A)r_{0},$ $H_{1}(A)r_{1)}\cdots,$ $H_{n}(A)r_{n}$ を用いて , $r_{0}$ , $r_{1},$ $\cdots,$ $r_{n}$ の収束の加速をはかることを考える . ただし, ...

9

2012 年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Computing Symposium 2012 HPCS /1/24 京 コンピュータにおける疎行列とベクトル積の 性能チューニングと性能評価 南一生 井上俊介 堤重信 前田拓

2012 年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Computing Symposium 2012 HPCS /1/24 京 コンピュータにおける疎行列とベクトル積の 性能チューニングと性能評価 南一生 井上俊介 堤重信 前田拓

... それぞれのループにおいて最外ループの J ループ でブロック分割によるスレッド並列化が行なわれ ている.Z 方向のループの性能予測値は,4 章に示 した通りである. X 方向の性能予測は,ほぼ Z 方向 の性能予測と同じである.異なるのは4つの V の ロードのうち3つの V の要素が,Z 方向の差分では L1 オンキャッシュと予測されるのに対し,X 方向 差分では, 16KB×4=64KB の範囲にあるため ...

9

Show all 10000 documents...

関連した話題