Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング IC2010 ueno paper

(1)

処理 GPU 並列用い

異常検知機構実現

^鈴村 ^豊 ^郎

東京業大学〒_152-8550東京都目黒区大岡山_2-12-1 IBM^{東京基礎研究所} ^〒242-8502 ^{神奈川県大和市} ^鶴間 1623-14 E-mail: [email protected], [email protected]

あ処理蓄積処理本論文

処理ン ₁ あ変化検知 _GPU 高速化扱う．変化検

知大対規模計算繰返場合多 _GPGPU 手法高

速化． _GPU 並列高速化提案．変化検知１あ

特異変換計算多特異値解占い特異値解計算う二対角化

GPU ^並列 ^実装 ^行列 320 ^数256 CPU 1 ^対 17.22^倍 ^高速

化遉．

キワ処理異常検知 _SST _GPGPU _GPU 並列特異値解

Scalable Anomaly Detection on Data Stream Processing

with GPU Task Parallelism

Koji UENO and Toyotaro SUZUMURA

Tokyo Institute of Technology 2-12-1 Ookayama, Meguro-ku, Tokyo, 152-8550 Japan IBM Research - Tokyo 1623-14 Shimotsuruma, Yamato-shi, Kanagawa, 242-8502 Japan

E-mail: [email protected], [email protected]

Abstract Recently data stream processing has been extensively studied as the new computing paradigm for processing a massive amount of streaming data in real time without storing them on the secondary storage. In this paper we propose a new task parallelism method on GPGPU to improve the performance and scalability of a real-time anomaly detection algorithm called SST (Singular Spectrum Transformation) for a massive amount of sensor data. Since the main computationally dominant part of SST is a singular value decomposition, we successfully implemented the bidiagonalization with the proposed task parallelism. Our experimental result demonstrates that our optimization achieves 17.22 times performance gain on GPU against 1 core CPU when the number of tasks is 256 and the matrix size is 320.

Keyword Data Stream Processing, Anomaly Detection, SST, GPGPU, GPU Task Parallelism, SVD

1.

近用途多様化伴い大

容易入手う知

識発見要課題い．知識発見１

異常変化検知あ．ン

ッッニンッ

ワ異常検知やンン観測

ッッ監視株引

や場生産ン監視広範応用需

要高い．対処

理う処理可能計算

あ昨活発研究い．

近一般向 _PC 搭載ッ

処理ニッ Graphics Processing Unit, GPU ^高い計

算性能注目 _GPU ッ外汎用計

算利用技術 General-Purpose computing on Graphics Processing Units, GPGPU ^研究 ^盛 ^行わ

い _CPU 比較 _GPU ン

多数集積ッ高速特徴あ

特徴活 _CPU 数倍性

能発揮

本論文 _GPU 用い変化検知高速化考

え．章 ₂章処理変

化検知特異変換概要 ₃章

変化検知 _GPGPU 適用問題 _GPU

並列解決方法 ₄章特異値解 _GPU 並列実装詳細 ₅章性能評価 ₆章関連研究

(2)

7^章 ^後 ^展望 ^い ^述 ^．

本論文貢献示．

1. ^多数 ^系列 ^同 ^処理 GPU

並列提案．

2._GPU ^並列 ^ン ^変化

検知特異変換扱い特異

値解計算う二対角化実装．

GPGPU ^手法 ^高速化 ^行

列 ₃₂₀ 場合数₂₅₆ _CPU

1 ^対 17.22^倍 ^高速化

GPU ^並列 ^用性 ^示 ^．

3._GPU ^並列 ^変化 ^検知 ^{高速化} ^場

合問題や一般的 _GPGPU 異

い特異値解 _GPU 並列実装例

示．

2. ^処理 ^変化 ^検知

章処理概要

処理ン１あ変化

検知及び変化検知１あ特異

変換_[5] い述．

2.1 ^処理

処理処生

情報流び蓄

積逐次処理いいう新い計算

あ．ッ処理計算対象全

蓄積計算従来手法遊

い応答要求場合や系列

前後僅参照い計算や

全蓄積物理的困難処理適い．

う手法音声や動画ン一

部処理利用い処

理抽象汎用化幅広い処理対適用

う洗練処理系い

従来異い．

散環境実行可能処理系

M.I.T. Borealis[15]^や IBM Research System

S[16] ^存在

後述 _GPGPU 開発環境_CUDA 処

理連続性保証いう概念あ

処理

異．

2.2 ^変化 ^検知 SST

系列変化生機構あ

変化生定義．

処理扱う様々

ン中異常変化検知最ン

視ン１あ．変化検

知何種類存在計算処理軽い単

純や計算多複雑変化

検出多様あ

最適ン依存あ．本論文

特環境動的異常害検知

行う計算多い知

変化検知特異変換_[5]

Singular Spectrum Transformation, SST ^扱う．

SST ^他 ^手法 ^異 ^特定 ^確率 ^仮

定い入力系列多様性比較的頑強あ

局所解心配い．実用例自動車ン

監視や群エ検知ン

や機械用いい．

示．

1. ^系列 ^実数全体 ^考え ^．^ウ

ンウ長部系列列

^．

2. ^部 ^系列 ^本並 ^行列

定義．整数あ．

3. ^{特異値} ^解(Singular value decomposition, SVD) ^{特異値} ^大 ^{い順} ^{特異}

^個求 ^過去 ^表

ン．

4. ^特異値 ^解 ^最大 ^特異 ^現

在表ン．

5. ^変化

⁽¹⁾

計算．あ

．

SST SVD ^使う SVD ^非常 ^計算 ^多い

演算あ素直 _SVD 計算実装計算

間合わ処理い．何

高速化手法適用必要あ．

例えン複数あ各ン

一定間隔得場合う複数

系列扱う場合あ．_SST

系列独立扱い計算．変化

検知い多数系列扱う多

高速化望い．

3._GPU ^並列 ^変化 ^検知 ^高速化

変化検知大対同処理繰

返多 _GPU 使高速化期待．

3.1 SST^高速化 GPGPU^適用 ^問題

SST ^計算 ^い SVD ^高速化 ^要 ^．

GPU ^用い SVD ^高速化 ^い

Sheetal Lahabar ^研究[3]^や ^深谷 ^研究[6]

(3)

あ．数値計算 _LAPACK _CUDA[2]

移植 _CULA[7] _SVD 計算関数用

意い．森 _SVD 計算 _CULA 使う _SST計算高速化_[1] 試い．

研究や

変化検知適用問題あ．_SST 場合

大対 _SVD 繰返

処理計算関係行

列数十～数百抑えい．

GPU ^高速化 ^研究 ^非常 ^大

行列対象い． _SST 高速

化適用い．

実森 _[1] _CULA 用い _GPU 高速

化研究ウンウ ₄₀₀ _GPU

CPU ^遅い ^いう結果 ^． ^同様 ^森

研究ウンウ ₄₅₀

GPU CPU ^速い ^いう結果 ^ウ ^ン

ウ ₄₅₀ _GPU _SST 計算間 _1.68

あ．間

処理い．行列大 _GPU

優性大 _SST 計算間増

自明あ．ン数高々１

実験複数ン対性能向

見いい．

行列高速化い理行列

い _GPU 性能引出十並列性

確保いあ．

SVD ^{高速化} ^関 ^他 ^{研究} ^{同様} ^あ ^．

Sheetal Lahabar ^研究[3]^や深谷 ^研究[6]

数値計算 _BLAS _CUDA実装

あ _CUBLAS[8] 使用い．_CUBLAS 非常

大行列対象い中規模行列

高速化い．

3.2 ^並列 ^解決

前述通手法変化検知高速

化 _GPU 適用問題あ．

並列解決提案．_GPU い中規

模問題高速化並列性確保課題

．複数系列並列計算

並列入．並列並列性

高 _GPU 性能十引出

う．

3.3 ^並列 ^実現方法

CUDA[2] NVIDIA ^開発 GPGPU ^開発環境

あ本論文 _CUDA 使用．_NVIDIA

GPU ^関数 ^同 ^１ ^実

行い並列実現

必要．

GPU ^並列 ^い Marisabel Guevara

研究_[9] あ．彼 _CUDA

CUDA ^ッ ^独立 ^動作 ^着目

並列い．原理理解

NVIDIA GPU ^キ ^い ^理解

必要あ．

NVIDIA GPU ^多数 Streaming Multiprocessor (SM)

SIMD ^ニッ ^構 ^各

SM ^独立 ^発行 ^ニッ ^持 ^い ^．^１

SM ^最大24~32^個 warp ^同 ^実行

．_warp ₃₂ ッ _SIMD ニッ

実行単．同 _SM 割当

warp ^各 warp ^独立 ^ン ^持

擬似的並列実行い．

CUDA ^ッ ^いう概念 ^あ 1 ^ッ

あ最大₅₁₂個ッ実行．

ッ同期ン作．

ン通過ッ内全

ッ同期ン前実行

操作結果ッ内他全ッ

見えういうあ．

通常各_SM 複数ッ割当．

１ _warp 複数ッい

各ッ独立動作．

ッ条件岐異動作

う単一_GPU内異並列実

行．

々関数引数渡ン

ッ _ID 使各ッ異ッ

あ処理並列

実現．各ッ独立動作

間異動作可能あ．

各共い数

条件岐や引数数一定

．変化検知う大対同処

理繰返場合手法特効あ．

1 CUDA ^例 ^あ ^．^実装 ^あ

見やッ _ID 次元

ID ^統一 ^使用 ^． ^ッ ID ^次

元最大_65,536 ッ _ID ₁

次元最大 _65,536個処理

．

NVIDIA ^開発 ^最新 GPU(Fermi) ^複数

同実行同実行可能

数 ₁₆ あ．変化検知数十～数百

系列同処理．_Fermi _GPU

1 GPU ^並列 ^関数 ^例

__global__ void kernel_func(float* A, int bda_{, … ){}

/* ^ッ ID ^使 ^識 */

float* bA = &A[bda*blockIdx.y];

/* ^何 ^実行 */

}

(4)

々提案手法最大₁₂₈ _1SMあ最大₈ ッ並列処理可能 _SM ₁₆個あ

並列処理同実行

機能々手法使方効率

計算．

並列実現あ

関数変更必要あ公開

いい_CUBLAS[8]や_CULA[7] 利用

関数新実装必要あ．

4._SVD GPU ^並列実装

GPU ^並列 ^ン SST ^扱い

SVD ^計算 ^う ^二 ^対角化 ^実装 ^． ^章

SVD GPU ^並列実装 ^詳細 ^述 ^．

4.1 SVD

SST ^密行列 SVD ^必要 ^．

^行列 SVD

⁽²⁾

解あ．直交行列 ^直交行列 ^対角行列 ^あ ^．

SVD GPU ^実装 Sheetal Lahabar ^研

究_[3] 参考．彼 _LAPACK 使わい

Golub-Reinsch ^使 GPU ^用い

高速化い． ₂

ッ構．行列ウ

変換二対角化．次二対角行列

shifted QR iteration ^対角化 ^．

本論文 ₂ ッう二対角化

並列 _GPU 実装．行列方行列

512 ^比較的 ^規模 ^対応 ^．

計算単精 _(float) 行い．

二対角化ッウ変換

繰返行列

⁽³⁾

解．二対角行列直交

行列あ．

^{方行列} ^二 ^{対角化} ^い

明．

後述計算方法

_係数

求．

_係数 _求 _．

⁽⁴⁾

．最初行列消去あ．次 , ^着目 ^同様 ^変換

2^番目 ^行 ^列 ^消去 ^． ^繰 ^返

最終的二対角行列計算．行

列消去

⁽⁵⁾

．

(6)

, ^行,^列 ^消去 ^使用 ^ウ

行列あ

⁽⁷⁾ あ．

^対応 ^係数

次う求．

(8)

う ^．

4.2 ^二 ^対角化 ^実装

ウ変換二対角化一般的

高速化ッ化_[4] いう手法用い．

局所的方高速キ

場合行列積行列積方高速．

ッ化行列積減行列積置

換え高速化いうあ．

ッ化計算減

複雑化．非常大行列

対効中規模行列対

効うい．並列実現

関数新実装必要

あ複雑化実装

増大．

う理ッ化い

実装．番目行列消去

⁽⁹⁾

表．

(10)

あ．

(5)

1 ^う ^．

1 ^二 ^対角化

1: for to do 2: ^計算

3: ^変換 ^適用 ^後 ^計算 4: ^計算

5: ^更新 6:_{end for}

4.3 ^実装 ^詳細

1 ^行列 ^二 ^対角化 1 ^並

列化．

変化検知使用ン

い．_GPU-CPU間

転送ン増二対角化

演算 _GPU 実装．_GPU-CPU 間

転送行列 _GPU 転送結果得

二対角行列帯要素 _CPU 転送あ．

関数替え

ッ行列無視

や共関数

静的確保 ₁ 関数大

無駄発生や．

関数替え回数減や共

無駄う望い．

１関数大

使用数や共大変化

ン関数．結果関数

び出回数 ₁ １あ３回

．

4.3.1 ^行列 ^積

行列列展開い

行列転置い場合素直ッ内積

求 _Coalesced

効率良い行列積．

行列転置場合手法

Coalesced ^効率 ^悪 ^．行列

転置場合次う手法

Coalesced ^．

2 ^行^列 ^転^置 ^積 1:

^{{ 16} ^Coalesced ^単 ^}

2: for to do

3: ^共 4: ^共

5: ^積

計算結果え

6:_{end for}

実装あ Tesla C1060 ^使用

GPU ^念頭 ^置 ^い ^他 GPU ^対

微調整最適化．

共ンン発

生いう共行列

16 ^倍数 ^数 ^同 ^ウ

確保い．

手法共制限行列 ₂₅₆

場合 ₁ ッ計算い．

行列大い場合複数ッ

使用計算．

手法 Partition camping[10] ^高い

発生速後明．

Partition camping ^あ

Partition ^集中 ^結果 ^書 ^効率

あ．共 _32bit幅 ₁₆個 _Fermi

32 ^個 ^ン ^い ^同 ^う

64byte ^幅 ^い Partition

い．あ _Partition 集中

ッう．

行列積関手法

結果 Tesla C1060 ^最悪 ^ン ^幅

1/8 ^速 ^出 ^い ^あ ^．

4.3.2

計算和演算あ．演算

実装あ Mark Harris Parallel Reduction[11]

参考．

4.4 ^ッ ^化

ッ化い方法実装

結果ン幅ッ

い．ッ化方

書減高速化

考えッ化実装．

[4] ^提案 ^い ^あ ^． ^ッ

GPU ^特性 32 ^．

3 ^二 ^対角化 ^ッ ^化

1: ^ッ 2: for to do

3: 4: ^転置 ^作 5: ^計算

6: ^変換 ^適用 ^後 ^計算 7: ^計算

8: for to do 9:

10: ^{最新} ^組 ^使 ^計算

11: ^計算

12: ^変換 ^適用 ^後 ^計算 13: ^計算

14:_{end for}

15: ^更新 16:_{end for}

(6)

4.5 ^ッ ^化 ^実装 ^詳細

ッ化い場合同様演算

GPU ^実装 ^．GPU-CPU^間 ^転送 ^行列

GPU ^転送 ^結果 ^得 ^二 ^対角行列

帯要素 _CPU 転送あ．

数い場合性能引出

3 10: ^計

算条件岐使並列並列化並列

高．

関数び出回数 ₃ 内

側１あ ₇回抑え．

行列積い行列転置積計算

場合う行列転置い場合遅

う．ッ化

ッ先頭行列転置

展開高速化．

4.5.1 ^行列 ^積

行列転置い場合ッ化い場合

同様手法使展開 _unroll 使

実行数減高速化．行

列積書ッ

実行数減意速変化

見．

行列転置場合 Partition camping ^発生 ^抑え

新手法考案．実装詳細割愛

手法行列転置い場合同

等 ₈割速遉．

4.5.2 ^行列転置

行列転置入力行列転置出力行列書込

操作あ．必要計算いン

幅ッ．場合 Partition camping

減要 _[10] 行列転置い

Partition camping ^減 ^方法 ^示 ^い ^．

Partition camping ^減 ^ッ ^実行順序

制御必要あ．_CUDA 式定義

１次元ッ _ID 使値い

ッ _SM 割当．

(11)

blockIdx gridDim ^ッ ID

ッ次元表 _CUDA 記法あ _blockIdx.x

blockIdx.y ^ッ ID ^値 gridDim.x

関数起動使用ッ方向

数あ．列行列展開い場合

複数ッ同行 _Partition

camping ^{発生} ^{う．行列転置} ^場合 ^{入力行}

列出力行列方同行複数ッ同

防い．実現

１次元ッ _ID 順番行列対角方向振

うい． _[10] ッ _ID

実ッ処理ッ標算出

式用いい．

bx,by ^実 ^処理 ^ッ ^標 ^あ ^．

々ッ _ID 次元並列使

用い手法使用

い． _bx,by 共初期値_blockIdx.x 開始

bx ^関数内 ^ン ^ン

．

並列複数行列同計算

間実行順序考慮い．

Partition camping ^ッ

間渉言う式₍₁₁₎ ッ _ID

次元同ッ渉大影響

．々ッ _ID 次元 _ID

使用次元１内並列処理使

用方法１内ッ間渉

減全体渉減いう

優い．逆う複雑

間渉考え．

4.5.3 ^行列積

行列積 _CUBLAS 使え十大持行

列場合 Tesla C1060 330GFLOPS ^速 ^出

NVIDIA Programming Guide[2] ^あ ^手法

200GFLOPS^弱 ^出 ^．

Yi Yang GPGPU ^最適化 ^ン ^研究[12]

行い．彼 _GPU 最適化意識い

いン最適化

CUBLAS ^同等 ^速 ^動作

生い．行列積最適化後例

示い利用．彼

使え Programming Guide[2]

あ手法数１程減

CUBLAS ^同等 ^性能 ^出 ^．彼 ^提案 ^い

最適化手法１ッあ．行列積

例示い ₃₂ ッ

あ．々 ₃₂ ッ

16 ^ッ 2 ^実装 ^比

較 ₁₆ ッ方高速

採用．

5.^性能評価

評価環境 _CPU AMD Phenom X4 9850 (4

, 2.5GHz) 8GB OS CentOS 5.2 GPU Tesla C1060 ^{用い} ^．LAPACK[17](Version 3.2.1) ATLAS[18](Version 3.8.3) ^用い 1 ^実行

CPU ^速 ^．

前章通１行列二対角化 ₁

．_CPU 各行列 _LAPACK 二対角関

(7)

数あ _SGEBRD 二対角化全行列二対角化終了間計測．_GPU

CPU-GPU^間 ^転送 ^含 ^間 ^計測 ^．

計測 ₅ 回実行均い

．行列ン値生 _CPU _GPU

計算行列同単精浮動数型使用い．

2 ^数 256 GPU,CPU ^実

行間あ．_X軸行列 _Y軸実行間対

数目盛い．中_Simple ッ化い

い_GPU実装 _Block ッ化 _GPU実装示

い．他同様あ． ₃ _GPU _CPU 対高速化率あ．_X 軸行列 _Y 軸

GPU CPU ^対 ^高速化率 ^あ ^． ^数 64

場合 ₂₅₆ 場合計測．

場合ッ化実装方ッ

化い場合速いいう結果．行列

320 ^数256 ^場合 ^ッ ^化 ^実装

0.584 CPU 1 ^実行 ^間 10.06 17.22

倍高速化遉．

計測全場合い行列 ₂₅₆

512 ^{場合} ^速 ^い ^． Partition

camping 4.3.1^章 ^原因 ^思わ ^．計測 ^使用

GPU Tesla C1060 ^場合 Partition 8^個

行列 ₂₅₆や ₅₁₂ 場合影響出やい．

ッ化い実装 Partition camping ^影響

いう見え行列

Partition camping ^影響 ^速 ^い

行列 ₂₅₆ ₅₁₂ 場合速相対的

見えあ．ッ化実装

Partition camping ^減 ^力 ^あ ^程 ^改

善行列 ₂₅₆ ₅₁₂ _Partition

camping ^発生 ^抑え ^速 ^発生

．

4 ^行列 448 ^固定 ^数 ^変え

GPU CPU ^対 ^高速化率 ^あ ^．X^軸

数対数目盛い．_GPU 実装 ₁

1 ^ッ ^割 ^当 ^計算 ^い ^部 ^多い．

Tesla C1060 SM^数 30 ^あ ^数 30

十性能引出い．

数₃₂ 良好結果得．

6.^関連研究

6.1 SST^高速化 ^関 ^研究

特異変換 SST (Singular Spectrum

Transformation) ^発案者 ^あ ^井手氏 ^高速

化研究_[14] い．彼 _FELIX-SST いう

手法次う高速化い．_SST

2.2^章 ^過去 ^現在 2 ^行列 SVD

求い．過去側特異大い方

個使用現在側最大特異使用．

最大特異変方程式復法解

法使効率求．過去側

0.001 0.01 0.1 1 10 100

0 64 128 192 256 320 384 448 512 576

実行時間秒

行列サイ _n

Simple Block CPU

2 ^数256 ^場合 GPU CPU ^二 ^対角化

実行間

0 2 4 6 8 10 12 14 16 18 20 22

0 64 128 192 256 320 384 448 512 576

Speed up ( CPU / GPU )

行列サイ n

Simple(64) Block(64) Simple(256) Block(256)

3 ^数64 ^場合 256 ^場合 GPU CPU

対高速化率

0 4 8 12 16 20 24

1 2 4 8 16 32 64 128 256 512

Speed up ( CPU / GPU )

タク数

Simple Block

4^行列 448^固定 ^数 ^変え GPU

CPU ^対 ^高速化率

(8)

い特異求 Implicit kernel^近似

使効率変化求．手法

ウンウ ₂₅₀ い ₁₃₀倍高速

化い．

6.2 GPU ^並列 ^関 ^研究

GPU ^{並列} ^関 Marisabel

Guevara ^研究[9] ^あ ^． ^修

並列実現手法提案い．彼

手法数比例条件岐や引数

数増えいう問題あ．数

効数多いッ大

．変化検知場合各大

多数系列処理場合あ

彼手法変化検知高速化

適用い．

6.3 GPU ^使 ^行列計算 ^高速化 ^関 ^研究

SVD ^高速化 ^い Sheetal Lahabar, ^研

究_[3]や深谷研究_[6] あ．彼

手法非常大行列対効

い行列高速化い．

GPU ^使 ^行列計算 ^高速化 ^関 ^研究 ^非常

多い．研究非常大行列

対象いい行列対高速化関

研究い．

7. ^後 ^展望

本論文大対変化検知

GPU ^適用 ^場合 ^手法 ^い ^述 ^．

GPGPU ^研究 ^非常 ^大 ^行列 ^大

問題対象い変化検知適用

い． _GPU 並列高速

化手法提案．

変化検知 _SST _SVD 使う

SVD ^計算 ^う ^二 ^対角化 GPU ^並列 ^実装

．性能評価結果行列 ₃₂₀ 数₂₅₆

CPU 1 ^対 17.22^倍高速化 ^．

GPU ^並列 ^変化 ^検知

中規模計算繰返ン

GPU ^高速化 ^適用 ^示 ^．

本論文 _SVD ₂ ッう二対角

化実装後 _SST 全体 _GPU 実装

GPU ^並列 ^変化 ^検知 ^高速化 ^実証

必要あ．

謝辞：

本研究一部学研究費補金挑戦的萌芽研究

課題番 :22650017) ^行わ ^．

参考文献

[1] ^森 ^康 ,^鈴村豊 ^郎. ^処理

用い変化検知実装 _GPU 性能最適化 _.電子情報通信学会学研究会_{, 2010}

6

[2] NVIDIA CUDA Programming Guide, Version 3.0, 2010.

[3] Sheetal Lahabar, P. J. Narayanan. Singular value decomposition on GPU using CUDA. IEEE International Symposium on Parallel & Distributed Processing Symposium. 2009.

[4] Jaeyoung Choi, Jack J. Dongrra, David W. Walker. The design of a parallel dense linear algebra software library: Reduction to Hessenberg, tridiagonal and bidiagonal form. Numerical Algorithms, Volume 10, Number 2, 379-399. 1995.

[5] Tsuyoshi Ide, et al, Knowledge Discovery from Time-series Data using Nonlinear Transformations, The 4th Data Mining Workshop of JSSST 2004 [6] ^深谷猛, ^山本 ^作, ^畝山多 ^志, ^中村佳 . ^方行

列向特異値解 _CUDA 高速化_{. HPCS,}

2009.

[7] CULA. http://www.culatools.com/.

[8] NVIDIA Corporation. NVIDIA CUBLAS Library. http://developer.download.nvidia.com/compute/cuda/3 _1/toolkit/docs/CUBLAS_Library_3.1.pdf

[9] Marisabel Guevara, Chris Gregg, Kim Hazelwood, Kevin Skadron. Enabling Task Parallelism in the CUDA Scheduler. Proceedings of the Workshop on Programming Models for Emerging Architectures (PMEA). September 2009, pages 69-76.

[10] G. Ruetsch and P. Micikevicius. Optimizing Matrix Transpose in CUDA. NVIDIA, 2009.

[11] Mark Harris. Optimizing Parallel Reduction in CUDA. http://developer.download.nvidia.com/compute/cuda/1 _1/Website/projects/reduction/doc/reduction.pdf, 2008. [12] Yi Yang, Ping Xiang, Jingfei Kong, Huiyang Zhou. A

GPGPU compiler for memory optimization and parallelism management. ACM SIGPLAN Conference on Programming Language Design and Implementation, 2010.

[13] N. Fujimoto. Faster matrix-vector multiplication on GeForce 8800GTX. IEEE International Parallel & Distributed Processing Symposium, 2008.

[14] T. Ide. Speeding up Change-Point Detection using Matrix Compression. IBIS, 2006.

[15] Daniel J. Abadi, etc., The Design of the Borealis Stream Processing Engine, 2nd Biennial Conference on Innovative Data Systems Research (CIDR’05), Asilomar, CA, January 2005

[16] J. L. Wolf, N. Bansal, et al, SODA : An Optimizing Scheduler for Large-Scale Stream-Based Distributed Computer Systems, Middleware 2008.

[17] LAPACK. http://www.netlib.org/lapack/. [18] ATLAS. http://math-atlas.sourceforge.net/.

Publication 論文 鈴村研究室 大規模データ処理・ストリームコンピューティング IC2010 ueno paper

処理 GPU 並列 用い

異常検知機構 実現

鈴村 豊 郎