Top PDF 行列ベクトル積：ローカル計算 #1

今回の内容 CUDA 付属のライブラリ cublas 行列ベクトル積, 行列行列積 cusperse 行列格納形式 cufft 余弦波の FFT curand モンテカルロ法による円周率計算 Thrust 913

...  C言語におけるA[i][j]のメモリ上の配置  0/256,0/256,0/256･･･1/256,1/256,1/256･･･2/256,2/256,2/256 ･･･  Fortran におけるA(i,j)のメモリ上の配置 ←BLAS  ...

58

行列乗算におけるストラッセンの方法の拡張(数値計算アルゴリズムの研究)

... 倍数とする。 $\mathrm{A},\mathrm{B},\mathrm{C}$ のブロック行列のサイズは $\mathrm{p}\cross \mathrm{r}_{\text{、}}\mathrm{r}\cross \mathrm{p}_{\text{、}}\mathrm{p}\cross \mathrm{p}$ で次の様になる。 $\mathrm{p}=\mathrm{P}/\mathrm{n}$ , ...

9

HPCS5 5/5/9 5年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Comuting Symosium 5 などの行列とベクトルの演算 Level- 演算は演算回数に対して必要となるデータ量が多くマルチコア計算機において高い実行性能を実

... に対する解法は，図 1 に示されるように，様々なアプローチが考えられる．従来法では，赤や緑の線で示されるように，与えられた一般化固有値問題を標準固有値問題に変換し，標準固有値問題を解いた結果を，一般化固有値問題の固有ベクトルに逆変換するという手順が取られる．しかしながら，これらの解法は Level-1 ， Level-2 演算を多く含み，マルチコア計算機で十分な性能を引き出す ...

9

行列計算専用大規模集積回路の開発

... 3 ハウスホルダ法を並列処理する方法 17 しかし、並列コンピュータでのプログラミングはできるかぎり共有メモリやプロセッサ間の通信が少なくなるようなコーディングをする。つまり、出来るだけ高速なローカルメモリにデータをおいたまま計算を続けられるようにする。何故ならルータを介した通信は、プロセッサの演算処理に比べて低速であるからである。それぞ ...

82

BLAS を用いた高精度な行列積アルゴリズムの使用メモリ量の削減とその性能について (科学技術計算における理論と応用の新展開)

... というメモリ量が必要である 1. ここでは，入力される行列 $A,$ $B$ と $AB$ の計算結果を保存するためのメモリ量を含んでいない．この手法は，ベクトルの内積単位で高精度計算をする方法に比べれば非常に膨大なメモリ量を必要とするため，次章に実装レベルで使用する ...

10

表計算による待ち行列のシミュレーションテーマパークアトラクション待ち時間の再現 ( 坂本 ) 表計算による待ち行列のシミュレーションテーマパークアトラクション待ち時間の再現坂本紫 Simulation of the queue by the spreadsheet Reproduction

... この関数はシミュレーション結果の解析例を示す際に使用する。基準セルの位置から，指定した行数分上方向（マイナス値）か行数分下方向（プラス値）に移動，指定した列数分左方向（マイナス値）か列数分右方向（プラス値）に移動，そのセル位置のデータを返す。たとえばOFFSET(A1,2,3,1,1) はセルA1の位置から下に2 ...

17

東海地区ベクトル並列計算機保守請負契約

... ③ MS Windows Server の管理者(Administrator)経験：1 年以上 ④ MS Windows 系 OS 及び MS Office 製品についてのユーザ支援経験：1 年以上注２要員数は参考値（原子力機構の想定）であることから、受注者の裁量で要員数を変更する提案が可能である。（例：上記 (2)の業務であれば、情報システム関連機器の運用経験が 8 年以上の要員 2 ...

13

行列Horner法の並列化による行列の固有ベクトル計算の効率化について (数式処理研究の新たな発展)

... とおく． 2. ［各部分列における途中結果のベクトルの計算］式 (20) における各部分列 $L_{0}$ , . . . , $L_{s-1}$ において， $L_{j}$ に対する途中結果となるベクトルの列 $L_{j}’=[u_{l_{0}+\cdots+l_{j-1}}’, . . . , u_{l_{0}+\cdots+l_{j}-1}’]$ ...

10

FPGAを用いた行列計算専用プロセッサの設計

... 化したコンピュータである専用コンピュータを用いる手法が O (N) 法に代表される新アルゴリズムの開発とともに一般的になってきた。本研究では行列計算を対象とし、専用プロセッサを設計することによって計算時間短縮を試みる。また従来、対象のアーキテクチャの性能評価を行うには大別して、ソフトウェアでエミュレーションを行う方法、あるいは実際に対象のアーキテクチャをハードウェアと ...

139

行列の最小多項式計算について (Computer Algebra : Design of Algorithms, Implementations and Applications)

... 前の節で与えた定理をそのままの形で用いて，最小多項式を求めるアルゴリズムを構成することができる．しかし，行列のサイズが大きい場合は定理をそのままの形で用いたような計算法では計算量が膨大なものとなり，最小多項式の計算法としては実用性に乏しいものとなる．そこで本研究では，この定理とランダムに生成させた 2 ...

8

スカラー計算機とベクトル計算機における固有値コードの性能評価(数値計算アルゴリズムの現状と展望II)

... に関する標準固有値問題 $\mathrm{T}\mathrm{v}_{\mathrm{i}}=\lambda \mathrm{i}\mathrm{V}_{\mathrm{i}}(\mathrm{i}--1,2, \cdots, \mathrm{m}, \cdot\cdot \mathrm{n})$ を解くために $1$ ) $\backslash$ 種々の固有値コードが開発されているが、 ...

6

ハードウェア記述言語を用いた行列計算専用プロセッサの設計

... から構成されている． PeakFPGA は PeakVHDL で記述した VHDL ファイルを実際のディジタル回路に変換するツールである． MAX+plus II と同様に， PeakVHDL&FPGA も 1 つの設計に関連する全てのファイルを 1 つのプロジェクトとして管理する．従って，新しい設計は MAX+plus II と同じくプロジェクトの新規作成から始まる． ...

89

差分スキームの再考によるベクトル計算機向き不完全LU分解について(数値計算アルゴリズムの現状と展望)

... Fig. 6. Distribution of $D_{i}$ and dcpeudency of $CO11Vt^{1},rgt^{\backslash }11(:c$ for cliffnsioll $coc^{\backslash }.lfie\cdot.i_{1^{\backslash }.11}tD_{1}$ 一方、 MICCG 法でボアソン方程式を解いた場合の収束性を ...

10

ベクトル計算機による RSA 暗号ふるいの高速化 (科学技術計算アルゴリズムの数理的基盤と展開)

... を 1 つ加えると、 2 件以上のデータが得られるデータも利用している。この処理はふるい心臓部に比較し、プログラム処理は非常に複雑であるが、計算量は少ない。そのため、本来はふるい処理の計算量は、この追加基底処理まで考えて比較すべきである。しかし、この追加基底処理まで考えた評価をすると、ふるい本体の高速化評価の基準がぼやける。また、追加基底処理を含めて高速化評価すると、この処理方法と ...

17

多項式行列の行列式の補間による計算(II) (Computer Algebra : Design of Algorithms, Implementations and Applications)I

... 最小多項式の次数が行列サイズに – 致する場合のみに利用できる算法を紹介する . 正確には , 一致しない場合にもこの算法を利用することができるがそのときに方法 I と比較するとこの方法のほうが非効率であるためこの方法を利用すべきでない . 数値計算の GMRES 法に対応する . $v$ を乱数ベクトルとして $A^{k}v$ を有限体 $\mathbb{Z}/p\mathbb{Z}$ ...

7

ブロック5重対角行列群に対するベクトル計算機向けの効率的な解法について(数値計算アルゴリズムの研究)

... (8) 3.2 $\mathrm{s}\mathrm{h}\mathrm{e}\Gamma ...

8

行列のスペクトル分解・固有ベクトルの分散計算 (Computer Algebra : Design of Algorithms, Implementations and Applications)

... していることが分かる. これは計算全体における行列多項式計算の比重が高まることを示している. さらに, 注目すべきは $n\geq 64$ ではコア数 4 を越えて , super linear になっていることである . これは通信時間のコストよりも, Risa $/Asir$ のガーベージコレクタのコストの方が大きくなっていることを意味しているとも考えられる. ...

4

目次 1. ベクトルに関する基本事項ベクトルとスカラー座標系とベクトルの成分表示ベクトルの内積ベクトルの外積ベクトルの三重積場の考え方と流束の概念スカラー場とベクトル場流束と流束密度

... このようにある領域中に含まれる水量を評価するためには、考える領域の表面を通しての水の流入、流出を計算する必要がある。後で具体的な例で詳しく説明するが、簡単にいってしまうと、考えている物理量に対して、流束は、この表面“全体”を通過する物理量の値であり、流束密度は、 “単位面積あたり” に通過する物理量の値である。上の例のように、考えている物理量が表面を通 ...

172

非対称行列の積型反復解法をめぐって(数値計算アルゴリズムの現状と展望)

... そのとき , 我々は適当な手続きで多項式列 $H_{0},$ $H_{1},$ $\cdots,$ $H_{n}$ を生成し, $H_{0}(A)r_{0},$ $H_{1}(A)r_{1)}\cdots,$ $H_{n}(A)r_{n}$ を用いて , $r_{0}$ , $r_{1},$ $\cdots,$ $r_{n}$ の収束の加速をはかることを考える . ただし, ...

9

2012 年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Computing Symposium 2012 HPCS /1/24 京コンピュータにおける疎行列とベクトル積の性能チューニングと性能評価南一生井上俊介堤重信前田拓

... それぞれのループにおいて最外ループの J ループでブロック分割によるスレッド並列化が行なわれている．Z 方向のループの性能予測値は，4 章に示した通りである． X 方向の性能予測は，ほぼ Z 方向の性能予測と同じである．異なるのは４つの V のロードのうち３つの V の要素が，Z 方向の差分では L1 オンキャッシュと予測されるのに対し，X 方向差分では， 16KB×4=64KB の範囲にあるため ...

9

行列ベクトル積：ローカル計算 #1

関連した話題