• 検索結果がありません。

Publication 論文 鈴村研究室 大規模データ処理・ストリームコンピューティング

N/A
N/A
Protected

Academic year: 2018

シェア "Publication 論文 鈴村研究室 大規模データ処理・ストリームコンピューティング"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

ータ ー 処理 ける GPU タ 並列を用いた

ー 異常検知

鈴村 豊太郎

Scalable Anomaly Detection on Data Stream Processing with GPU Task

Parallelism

K

OJI

U

ENO

and

T

OYOTARO

S

UZUMURA

東京 業大学

Tokyo Institute of Technology

‡ IBM東京基礎研究所 IBM Research - Tokyo

1.

近年 ン 技術や ッ ワ 技術

発遉 IT 高度化 伴

大 ン 得

到来 い . 伴い 入力

処理 処理 近年活発

研究 産業界 利用 始 い .

処理 処 く生

情報 流 び

蓄 積 く 逐 次 処 理 い く い う 新

い計算 あ . ッ 処理 計

算 対 象 全 蓄 積 計 算

従来 手法 遊い 応答 要求

場合や 系列 前後 僅 参

照 い計算や 全 蓄積 物理的 困

難 処理 適 い .

処 理 ン

ン 処 理 異

常 変化点検知 あ . 場 生産 ン

監視や 群 検知 ン

得 処 理

解析 異常 検出 いう あ .異常検知 い 多様 入力 柔 軟 扱 え 変 化 点 検 出 求

処理 蓄積 く 処理 いう新 い

計算 あ .変化点検知 SST(Singular Spectrum Transformation) 使

異常検知 処理 一辺 長 500 行列 演算 必要 .GPU

使 高速化 既存手法 い行列 計算 高速化 い. GPU

並列 解決 .GPU 並列 実装 特異値分解 行列 300-500

CPU 対 4倍程度 高速化 IKA-SST ウ ン ウ 20-500 CPU

20倍 高速化 遉 異常検知機構 実現 示 .

Stream computing has emerged as a new processing paradigm that processes incoming data streams in a real-time fashion. On the other hand, many recent efforts have shown the suitability of GPGPU to high performance computing. By bringing two new trends, this paper proposes new innovative method called GPU task parallelism to optimize stream computing with GPGPUs. In this paper we implement the proposed approach over SVD (Singular Value Decomposition) and IKA-SST, a powerful algorithm of change point detection. The experimental results show that the proposed implementation of SVD provides performance gain by around 4 times order against quad-core and the proposed implantation of IKA-SST provides around 20 times order against single-core. This result validates the scalability of our proposed approach.

(2)

例え ン 中 常 一定 値 出

続 あ 常 状態 値 変化 続

あ 値 変化 常 変化

異 常 変 化 検 出 い 場 合

あ 単純 対応 い.

SST[1] (Singular Spectrum Transformation) 比較的最近提案 手法 少 い

設定 多様 入力 対応 いう特徴

持 優 変化点検出 あ 最初

提 案 SST 特 異 値 分 解 (Singular Value Decomposition, SVD) 使 算 特異値分解 計算 大 く

多く 処理 い .

高速 計算 能 近似 IKA-SST[2] 提案 い .

近似 使 計算 能

限界 あ .異常検知 応用例 あ

場 生産 ン 管理 ン 数 数

万 あ 考え 多く

処理 求 い .

近年 一般向 PC 搭載

ッ 処理 ニ ッ GPU 高 い 計算 性能 注 目 GPU 汎用計算 利用 技術 General-Purpose computing on Graphics Processing Units, GPGPU 研究

行わ い .CPU 比較 GPU

多 数 積 ッ 高 速

特徴 あ 特徴 活

CPU 数倍 性能 発揮

本論文 GPU 使 SST 性能最適化 行う. 々 先行研究[20] い 特異値分解 使 わ ウ 変 換 二 対 角 化 GPU 並列 高速化 行い GPU 並列 有効性 示 本論文 GPU 部分 並列化 加え CPU 計算 部分 連携方

法 示 ン 異常検

知機構 処理系 実装 .本論文

貢献 示 .

1. SST 計算処理 GPU 高速化 法 提案 .

2. GPU 利用効率 GPU 並列 手法 提案 .

3. SST GPU処理 処理系 実装 実適用 能 状態 性能評価

降 章 SST 3章 既

存手法 問題点 説明 .4章 解決方法 あ GPU 並列 説明 5SST GPU 並列 説明 6 性能評

7章 関連研究 8章 後 展望 い 説明 .

2. 変化点検知ア SST

SST[1] 計 算 方 法 簡 単 説 明

SST 各 刻 い 過去 現 部分

系列 特異値分解 いう行列演算

特徴抽出 行い 抽出 特徴 同士

差異 変化度 .

SST 計算 特異値分解 必要 特異値分解 非常 計算 多い演算

確 求 近 似 使 高 速 化 IKA-SST[2] い う 手 法 提 案 IKA-SST 特異値分解 計算 単純

比 数十倍~数百倍高速 あ .本論文 特異値分解 確 計算 SST IKA-SST 区別 SVD-SST 記述 .

2.1 SVD-SST

SVD-SST 説明

系 列

x t

t

|

 {

(実 数 全 体)

}

考 え

.ウ ン ウ

w

w

部分

系 列 列

T t t w

t x x

x t

s

( ) (

1

,  ,

1

, )

く.部分系列

w

本並 行列

)]

1

(

,

),

(

[

)]

1

(

),

2

(

,

),

(

[

2 1

  

t s w

t s

t s t s w t s

H

H

定義 .

整数 あ .

H

1,

H

2

一辺 長

w

方行列 あ . 1.

H

1 特 異 特 異 値 い 順

r

(

w

)

個求

u

(1),

u

(2),

,

u

(r) . 過去側 特徴 あ .

2.

H

2 最 大 特 異

μ

t .

μ

t

現 特徴 あ .

3. 変化度 z

(

t

)

r

i

t z

1

)

2

(

1

)

( μ

T

u

(i) (1)

計算 .

ウ ン ウ

w

検 知 い 変 化 間

選択 . r 系列

性質 3~5程度 選択 . 変 化 度 計 算 長

2

w

1

系列 必要 .

2.2 IKA-SST

(3)

IKA-SST 説明 .

あ 定数

a

規化 ン

a

0 初期化 く.

1.

H

T2

H

2 最大固有

μ H

2 最大

特異 乗法 反復法

求 . 初期

a

い .

2.

a μ a

0 規化

a

ッ 次

μ

求 使用 .

3.

r

0

μ

,

β 1

0

,

q

0

0

,s

0

初期化

Lanczos 実 行

1

,  ,

k

1 1

, ,

k

s T s s

s s s s s s

s T s s

s s s

s s

r

r

q

q

q

H

r

q

H

q

q r

1 1 1

1 1

1

(2)

4.

{

ai

}

対 角 要 素

{

i

}

副 対 角 要 素

称 対 角 行 列

T

k 固 有 固 有 値

大 い順 r 個求

) ( ) 1 (

, ,

xr

x

5. 変化度 z

r

i

xi

z

1 2 ) (

]

[

1

(3)

得 .k う .

 

 

 2 1 odd

even

2

r r

r

k r (4)

Lanczos反復

H

1

q

s

積 あ

H

1 系列

ン ウ ン ウ 行列

行列 保持 く 計算 能 あ .同様

μ

乗法 求 場合

H

2

積 行列 保持 く 計算 能 あ .

3. 既存手法 適用とそ 問題点

SST 高速化 特異値分解

容易 GPU 計算

CULA[3] 用い SVD-SST 高速化 [5]CULA LAPACK GPU実装 開発

い あ . 1 特異値分解

CULA 計算 場合 CPU 計算 場合

SVD-SST 変化度 計算 あ . 実験 環境 詳 細 [5] 参 照 い

い.結果 ウ ン ウ

w

450 GPU 高速 400 CPU 高速 あ .SVD-SST 計算 特異値分解 依 存 一辺 長 w 行 列 特 異 値分 解 必

要 計算

( )

w3

O w

い 計算 大 く 計算 間

w

400 十分 場合 多い.

多く ン 対 異常検知

行い い場合 計算 関係

w

あ 大

く い. CULA 利用

場合 w

450

SVD-SST 高速化 実用 問題 あ .

w

い場合 CULA 高速化

い い行列 十分 並列性 得

い あ .GPU 効率 く利用 数 千 個 演 算 並 列 計 算

求 .

w

い場合 数千

並列性 遉 い 単

一 ッ 性能 劣 GPU 計算 CPU 遅い いう結果 う.CULA

数 行列 並列 計算 い 変

化度 複数同 求 い場合 計算 間

ニ 増加 何 高速化 得

い.

1 CULA 利用 場合 SVD-SST 計算

4. GPU 並列

前章 述 問題 解決 本論文

GPU 並列 提案 2

従来 計算手法 同 行列 計算

い い行列 GPU 効率 く利

用 . 対 GPU

並列 い行列 複数 行列 同

計算 GPU 効率 く利用

.同 行列 計算 い従来

計算手法 並列性 依存 並列計

算 あ . 対 本論文 提案手法

(4)

並列性 加え 複数 行列 同 計算 いう 並列性 使 並列計算手法 あ .

提案手法 GPU 並列 ぶ. 章 既存 GPU実装 あ 場合 実装 GPU 並列 適用 方法 い 述

. 述 い 手法 行列計算 く 広範 応用 能 手法 あ .本論文 NVIDIA 開 発 GPGPU 開 発 環 境 CUDA[4] 使用 CUDA 処理 連続性

保証 CUDA [4] いう概念 あ 処理

異 .

大きい行列 小さい行列

利用率

小さい行列 小さい行列

小さい行列 小さい行列

小さい行列

GPUタ 並列 従来 計算手法

GPU

2 GPU 並列 効果 4.1 GPU

CUDA 使 GPU

い 簡単 説明 .GPU 計算

GPU 関 数 記 述

CUDA C言語 一部拡張 言語 GPU

記述 .GPU

CPU 実行 起動

CUDA GPU 起動 関数 び出

う 記述 . GPU

GPU

CPU GPU 間 通信 明

示的 記述 必要 あ .

CPU 動作 通常

変わ い. ッ

GPU び出 転送

順番 CPU 計算 部分 記述 .

GPU 使

GPU 関数 び出 う 入

い .

4.2 GPU実行 並列化

n 並列 計算 方法 考え

単純 ッ n 個立 並列化

方法 思い く う. ッ 複数立

実行 場合 CPU 計算 部分

OS 並列化

GPU 部分 機能

並列化 . 現 ン CUDA

ン ン 適用 制約

厳 い.例え び出 順序 規則 必要 あ や最大16個 並列化

い 制約 あ う 制約 あ

ン ン 機 能 利 用 方 法 計 算 効 率 悪い.

本論文 複数 計

算 方法 採用 . 方法 CUDA ッ ッ 独 立 性 利 用 あ . CUDA 基本的 計算 SIMD

行 処理

CUDA Warp 32

単 あ . Warp

実行 能 あ . ッ ッ い

Warp あ ッ ッ

異 割 当 計 算

能 あ .

3

例 あ . 例

表 構造体 定義 構造体 配列

引数 渡 . CUDA

ID 使 識別 複数

並列 処理 .

struct Task { int m, n; float* a; };

/*taskArray Taskへ ポインタ 配列 */

__global__ void kernel_func(struct Task* taskArray[]) { Task* task = taskArray[blockIdx.y];

int m = task ->m, n = task ->n; float* a = task ->a;

/* を実行 */ }

3 GPU 並列

4.3 CPU部分 並列化

単一 ッ GPU 起動

いう 実現 CPU部分

計算 n個 計算 ッ 計算 ッ

別 ッ 入 .計算

GPU び出 ッ

委譲 . ッ 複数 計算 ッ

GPU び出

列 実行 .計算 ッ ッ

実行 い GPU 終了 待 GPU

終了 CPU 部分 計算 再開

. う 方法 GPU 並列 実現 能 あ .

方法 数 CPU

ッ 必要 .OS 提供 ッ

機能 利用 ッ 数 限 あ

大 生 ン .SST

(5)

異 常検 知 GPU 数百 ~ 数 千

個 並列化 必要 ッ 数

制限 問題 . 実装

効 率 い 軽 ッ あ

解決 . 現 う

普及 い い 本論文 計算 ッ

ン 駆動型 書 換え ッ

使 計算 問題 解決 .

解決方法 既存 GPU

多く 変更 必要 望 い

い 将来 効率 い軽 ッ

出現 変更 必要 く .

5. SST GPU 並列実装

章 紹 GPU

並列 実装 . 章 実装 詳細 説明 . 5.1 SVD-SST GPU 並列実装

SVD-SST 特異値分解 使 変化度 計算

. 特異値分解 GPU 並列 実装

n

m

行列A SVD VT

U

A

(5)

分解 あ . U m

m

交行列 V n

n 直交行列

m

n 対角 行列 あ .

対角要素 特異値 U

特 異 V 特 異 ぶ. 現

主流 特異値分解 前半 二

対角化 行い 後半 特異値 特異 計算

いう ッ 計算 あ .

二 対 角 化 ウ 変 換 効 率 く 計算 能 あ .特異値 特異

計 算 関 QR[6] 分 割 統 治 法[7] MR3[8,9] I-SVD[10] 様々

提案 い 本論文 QR法 使用 .

ウ 変換 二 対角化 QR

特異 計算部分 GPU 計算 .QR 法 特異値 計算 部分 関 並列化

GPU 計算 効率 悪い.

部分 CPU 計算 .

QR 計算 CPU 特異値

計算 次 GPU 特異 計算 .

必要 計算 GPU 転送 い . 4 CPU, GPU 計算部分

転送 書い あ .

行列 対 特異値分解

実装 .SVD-SST 変化度

計算 特異値分解 回行う

回 特異値分解 含 並列 計算

n個 変化度 同

計算 い場合 2n個 行列 特異値分解

並列 計算 .

CPU 通信 GPU

行列 ータ

二重対角化

左右 行列も同時に計算

二重対角要素 特異値を計算

(∑) 計算 ータ

特異ベク ル を計算(U, V) 特異ベク ル

左右 行列

特異ベク ル 中間 ータ

4 特異値分解 GPU 並列実装 5.2 IKA-SST GPU 並列実装

IKA-SST 2.2 13 計算 大部分 占 . 部分 行列 縮処理

行 縮前 行列 扱わ

い あ . 中 4 固有

求 い 一辺 長 k (=5~10)

いう い行列 計算 計算 い.

い 並列 使 高速化

難 い. 中13 GPU

計算 固有値 求 変化度 計算

部分 CPU 行う .

μ

法 求 .

H

1,

H

2 w

w 行列 GPU

1 行列

w CUDA 最大1024

GPU 512CUDA

ッ 扱う w 最大

1024 対応

CPU 通信 GPU

ータ

行列Tを計算 行列T

変化度スコア

zを計算 時系列 ータ、

ベク ルa GPU

5 IKA-SST GPU 並列実装

変化度 計算 長

2

w

1

系列 必要 . 系列 点

追加 び 変化度 計算 場合 長

(6)

1

1

2

w

前回 計算 使用

値 同 GPU 記憶

転送 点 い. 長

w

a

利用

次 計算 必要 . い

GPU 展開

必要 応 書 換 え いう手法 用い .

6. 性能評価

章 前 章 実 装 SVD-SST IKA-SST GPU 並列実装 CPU実装 較 .CPU 実 装 ATLAS 3.8.3[11] LAPACK 3.3.0[12] 使 用 CPU AMD Phenom X4 9850 4 , 2.5GHz 8GB OS CentOS 5.4 GPU GeForce 8800GTS 512, Tesla C1060, GeForce GTX460 使用 .CUDA3.2 あ . 6.1 特異値分解 性能評価

6,7,8 特異値分解 GPU 並列実装 性能評価結果 あ .一辺 長 512 行列

対 特 異値 分 解 計算 間 測 定 .CPU 実装 LAPACK SGESVD 使用 行列 乱 数 生 演算 単精度 行 .CPU 実装

並列化 能 4

使 CPU 4 使用 い .GPU

転送 間 含 . 数nn

個 行列 特異値分解 計算 あ . 6 特異値分解 計算 間 あ . 特異値

特異 特異 求 い .

7 CPU実装 GPU実装 高速化率

CPU 実装 性能 不 定

曲線 い い.全体的 行列 大

GPU 高速化率 高く 行列 416256 Tesla C1060 場合4.14

8 Tesla C1060 GPU 並列実装 実行 間内訳 あ .GPU実装 対角化 CPU計算 GPU計算 完全 分 い

CPU計算 終わ GPU 計算 始 い CPU計算 GPU 計算

並列化 高速化 見

込 .

6.2 SVD-SST 性能評価

特 異 値 分 解 GPU 並 列 実 装 使 SVD-SST 実装 IBM

処理系System S[13] 使用 分散処理 能 異 常 検 知 機 構 実 装 . System S SPADE 言語

記述 .各

入力 対 選別

や変換 処理 行う.SPADE 多く 組

込 用意 い C++Java

記 述 定 義 (UDOP) 使

用 . SVD-SST UDOP

実装 .

最大 4 分散処理 GPU 最大 16

使用 性能評価 行 . 9 結果

あ .使用 ン 1 GeForce 8800 GTS 512 4 搭載 GPU 6.1 使用 環境 SST w=320

過 去 側 系 列

8

=

2

w

1 8

計算 影響 い. r 3~5

広範 適用 能 精度 近似 使わ 特異

値分解 求 い 高精度 計算

う大 r =12 .入力 波長変

動 あ 弦波 使用 . 9 横軸

使用 GPU CPU 数 あ .例え 横軸 N 場合 GPU N GPU N個 CPU 使 計算 CPU N CPU 使 計算 N=1~4 1

使用 計測 . 9 16 GPU 線 形 性 能 向 い 分 .16

GPU 305 /

ン 対 変化度

計算 5秒 行う 1525

同 処理 性能 あ .

6.3 IKA-SST 性能評価

IKA-SST GPU 並列実装 性能 CPU実装 比較 CPU実装 LAPACK ATLAS 使用 IKA-SST 計算 IKA-SST

k

k

対称 対角行列 固有

演 算 あ k 10

LAPACK 複数あ 固有値 関数 simple driver SSTEV 使用

系 列 ン ウ ン ウ

行列

H

1,

H

2

い 行列 保持 い 計算

BLAS 用い 実装 BLAS 最 適 関 数 用 意 SIMD 使 最 適 化 専用 実装

.性能評価 BLAS 使 場合 専用 ン 使 用 場 合 両 方 い 性 能 測 定

CPU 実装 ッ 実行

CPU 1 使用 IKA-SST

SVD-SST 場合

=

2

w

18

r 系列 3~5

(7)

選択 性能評価 表例 r =3

r Lanczos反復 反復回数や行列

T

k

影響 3~5 値 範 い

他 値 性能 傾向 変わ い

思わ . 計算精度 単精度 GPU 実装 並列数 500

10 変化度 100万個 計算 測定 結果 あ .GeForce 8800 GTS

数 制限 ウ ン ウ 400 計測

い.GeForce GTX460 GeForce 8800 GTS

計 算 間 同 . 対

Tesla C1060 倍程度高速 CPU実装 ウ ン ウ 80 70 方 計算 間 長く い 原因 ATLAS70

対 最 適 化 い い あ 能性 高い.

11 12 CPU GPU 高速化 率 あ .CPU実装 SIMD 使 高速化

専用 ン 使用 い . 前述 通

CPU 実装 実行 .ウ

90 高速化率 Tesla C1060 21-26 8800 GTS GTX460 11-14

ン ウ 一定 あ .ウ ン

90 高速化率 高く Tesla C1060 最高76(w

60

)

IKA-SST SVD-SST System S 実装 性能評価 行 . 13 結果 あ . GPU数 対 GPU実装 同 数 CPU 使用 CPU実装 対 12 倍 高速化 遉 .16GPU 用い 場合

88.9/秒 あ . 毎秒88.9万 処理 い

0.01 0.1 1 10 100

32 96 160 224 288 352 416 480

Running time in seconds

Matrix Size (w) Tesla C1060 GeForce 8800 GTX CPU

6 GPU CPU 特異値分解 実行 間 秒 数64

0 1 2 3 4 5 6 7 8 9

32 96 160 224 288 352 416 480

Speedup

Matrix Size (w) Tesla C1060 (タ 数64) Tesla C1060 (タ 数256) GeForce 8800GTS ( 64) GeForce 8800GTS ( 256)

7 特異値分解 GPU CPU 高速化率 数64, 256

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

32 96 160 224 288 352 416 480

Matrix Size (w)

二重対角化 特異値 特異ベ ータ転送

8 特異値分解 GPU 並列実 装 実行 間内訳 Tesla C1060

64

0 50 100 150 200 250 300 350

0 4 8 12 16

Throughput (scores/sec)

Number of GPUs/CPUs GPU

CPU

9 SVD-SST System S実装

1 10 100 1000 10000

0 100 200 300 400 500

Running time in seconds

Matrix Size (w)

CPU CPU(SIMD)

GeForce GTX460 Tesla C1060 GeForce 8800 GTS

10 IKA-SST 変化度 100万個 計算

0 5 10 15 20 25 30

100 150 200 250 300 350 400 450 500

Speed up

Matrix Size(N x N)

GeForce GTX460 Tesla C1060 GeForce 8800GTS

11 IKA-SST GPU CPU 高速化率 CPU 1 比較

0 10 20 30 40 50 60 70 80 90

10 20 30 40 50 60 70 80 90 100

Speed up

Matrix Size(N x N) GeForce GTX460 Tesla C1060 GeForce 8800GTS

12 IKA-SST GPU CPU 高速化率 CPU 1 比較

0 100,000 200,000 300,000 400,000 500,000 600,000 700,000 800,000 900,000 1,000,000

0 4 8 12 16

Throughput(Number of scores/sec)

Number of GPUs/CPUs GPU

CPU

13 IKA-SST System S実装

(8)

100ms 間隔 ン ン 対 異常検知 行 場合 8

ン 処 理 性 能

あ .

7. 関連研究

GPGPU 近年活発 研究 [14,15,16] 処理 適用 関 研究 い .GPU 並 列 関 Guevara[17] 研究 .彼

変更 GPU 並列化 手法 提

案 い 彼 手法 並列化 数個

程度 あ 数百 並列実行

い.

特異値分解 GPU 高速化 関 研究 [18][19] 非常 行列

高速化 遉 い い行列 対

高速化 い い.GPU 使 行列計算

高速化 関 研究 非常 大

行列 対象 い . い行列 並列処理 関 研究 い.

8. まとめと今後 展望

変化点検知 SST 使 異常検知

処理 一辺 長 500 行 列 計算 必要 .GPU 使 高速化 考

え 場合 既存手法 高速化

GPU 並列 解決

.特異値分解 行列 300-500 4 CPU 4倍程度 高速化 IKA-SST

ン ウ 20-500 CPU20

倍 高速化 遉 .

本 論 文 提案 GPU 並 列 手法 SST 適用 問題 多くあ 思わ

. 既存実装 GPU 並列化

や 変 更 必 要

手動 行う . 既

存実装 GPU 並列化 自動 実行

ワ 後 課題 あ .

[1] Tsuyoshi Ide, Keisuke Inoue, Knowledge Discovery from Heterogeneous Dynamic Systems using Change-Point Correlations, in Proc. 2005 SIAM International Conference on Data Mining (SDM 05), pp.571-576, Newport Beach, CA, USA, April 21-23, 2005.

[2] Tsuyoshi Ide, Koji Tsuda. Change-point detection using Krylov subspace learning. Proceedings of 2007 SIAM International Conference on Data Mining (SDM2007),

pp.515-520, Minneapolis, Minnesota, USA, April, 2007. [3] CULA. http://www.culatools.com/.

[4] NVIDIA, CUDA C Programming Guide, Version 4.1, 2011.

[5] 森田康 , 鈴村豊太郎. 処理

い 変 化点 検 知 実 装 GPU 性能 最 適化. 電子情報通信学会 学研究会, Jun 2010 [6] G. J. F. Francis, The QR transformation, Parts I and II,

Computer Journal, Vol.4, pp.265-271, 332-345, 1961-62. [7] J. J. M. Cuppen, A divide and conquer method for the symmetric tridiagonal eigenproblem, Numerische Mathematik, Vol.36, pp.177–195, 1981.

[8] 山本有作, 密行列固有値解法 最近 発展(I), 日本 応用数理学会論文誌, Vol.15, No.2, pp.181-208, 2005. [9] I. S. Dhillon, A New O(n2) Algorithm for the Symmetric

Tridiagonal Eigenvalue/Eigenvector Problem, Ph.D. thesis, Computer Science Division, University of California, Berkeley, California, May, 1997.

[10] 高 田 , 木 村 欣 司, 岩 崎 , 中 村 佳 , 高 速 特

異値分解 開発, 情報処理学会論

文 誌 ン ン ,

47(SIG_7(ACS_14)), pp.81-90, 2006. [11] ATLAS. http://math-atlas.sourceforge.net/. [12] LAPACK. http://www.netlib.org/lapack/.

[13] J. L. Wolf, N. Bansal, et al, SODA : An Optimizing Scheduler for Large-Scale Stream-Based Distributed Computer Systems, Middleware 2008.

[14] N. Fujimoto. Faster matrix-vector multiplication on GeForce 8800GTX. IEEE International Parallel & Distributed Processing Symposium, 2008.

[15] Yi Yang, Ping Xiang, Jingfei Kong, Huiyang Zhou. A GPGPU compiler for memory optimization and parallelism management. ACM SIGPLAN Conference on Programming Language Design and Implementation, 2010.

[16] Victor W. Lee, Changkyu Kim, Jatin Chhugani, Michael Deisher, et al. Debunking the 100X GPU vs. CPU myth: an evaluation of throughput computing on CPU and GPU. ISCA, pp.451-460, Saint-Malo, France, June, 2010.

[17] Marisabel Guevara, Chris Gregg, Kim Hazelwood, Kevin Skadron. Enabling Task Parallelism in the CUDA Scheduler. Proceedings of the Workshop on Programming Models for Emerging Architectures (PMEA), pp.69-76, September 2009.

[18] Sheetal Lahabar, P. J. Narayanan. Singular value decomposition on GPU using CUDA. IEEE International Symposium on Parallel & Distributed Processing Symposium. 2009.

[19] 深 谷 猛, 山 本 有 作, 畝 山 多 加 志, 中 村 佳 . 方 行 列 向 特異 値 分 解 CUDA 高 速 化. HPCS, Jan 2009.

[20] , 鈴村豊太郎. 処理

GPU 並列 用い 異常

検 知 機 構 実 現. ン ッ ン ン

2010.

参照

関連したドキュメント

We present a Sobolev gradient type preconditioning for iterative methods used in solving second order semilinear elliptic systems; the n-tuple of independent Laplacians acts as

Using right instead of left singular vectors for these examples leads to the same number of blocks in the first example, although of different size and, hence, with a different

In this paper, we we have illustrated how the modified recursive schemes 2.15 and 2.27 can be used to solve a class of doubly singular two-point boundary value problems 1.1 with Types

For a given complex square matrix A, we develop, implement and test a fast geometric algorithm to find a unit vector that generates a given point in the complex plane if this point

[25] Nahas, J.; Ponce, G.; On the persistence properties of solutions of nonlinear dispersive equa- tions in weighted Sobolev spaces, Harmonic analysis and nonlinear

“Breuil-M´ezard conjecture and modularity lifting for potentially semistable deformations after

Section 3 is first devoted to the study of a-priori bounds for positive solutions to problem (D) and then to prove our main theorem by using Leray Schauder degree arguments.. To show

In this paper, we have proposed a modified Tikhonov regularization method to identify an unknown source term and unknown initial condition in a class of inverse boundary value