Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング

(1)

ーター処理ける GPU タ並列を用いた

ー異常検知

司

_†

鈴村豊太郎

_‡

Scalable Anomaly Detection on Data Stream Processing with GPU Task

Parallelism

_K

OJI

_U

ENO

_and

_T

OYOTARO

_S

UZUMURA

†^東京 ^業大学

Tokyo Institute of Technology

‡ IBM^{東京基礎研究所} IBM Research - Tokyo

1. ^め

近年ン技術やッワ技術

発遉 _IT 高度化伴

大ン得

到来い．伴い入力

処理処理近年活発

研究産業界利用始い．

処理処く生

情報流び

蓄積く逐次処理いくいう新

い計算あ．ッ処理計

算対象全蓄積計算

従来手法遊い応答要求

場合や系列前後僅参

照い計算や全蓄積物理的困

難処理適い．

処理ン

ン処理異

常変化点検知あ．場生産ン

監視や群検知ン

得処理

解析異常検出いうあ．異常検知い多様入力柔軟扱え変化点検出求

処理蓄積く処理いう新い

計算あ．変化点検知 SST(Singular Spectrum Transformation) ^使

異常検知処理一辺長 ₅₀₀ 行列演算必要．_GPU

使高速化既存手法い行列計算高速化い． _GPU

並列解決．_GPU 並列実装特異値分解行列 _300-500

４ _CPU 対４倍程度高速化 _IKA-SST ウンウ _20-500 _CPU

対 ₂₀倍高速化遉異常検知機構実現示．

Stream computing has emerged as a new processing paradigm that processes incoming data streams in a real-time fashion. On the other hand, many recent efforts have shown the suitability of GPGPU to high performance computing. By bringing two new trends, this paper proposes new innovative method called GPU task parallelism to optimize stream computing with GPGPUs. In this paper we implement the proposed approach over SVD (Singular Value Decomposition) and IKA-SST, a powerful algorithm of change point detection. The experimental results show that the proposed implementation of SVD provides performance gain by around 4 times order against quad-core and the proposed implantation of IKA-SST provides around 20 times order against single-core. This result validates the scalability of our proposed approach.

(2)

例えン中常一定値出

続あ常状態値変化続

あ値変化常変化

異常変化検出い場合

あ単純対応い．

SST[1] (Singular Spectrum Transformation) 比較的最近提案手法少い

設定多様入力対応いう特徴

持優変化点検出あ最初

提案 _SST 特異値分解 (Singular Value Decomposition, SVD) ^使 ^計算特異値分解計算大く

多く処理い．

高速計算能近似 _IKA-SST[2] 提案い．

近似使計算能

限界あ．異常検知応用例あ

場生産ン管理ン数数

万あ考え多く

処理求い．

近年一般向 _PC 搭載

ッ処理ニッ _GPU 高い計算性能注目 GPU ^ッ ^外 ^汎用計算 ^利用技術 General-Purpose computing on Graphics Processing Units, GPGPU ^研究 ^盛

行わい．_CPU 比較 _GPU ン

多数積ッ高速

特徴あ特徴活

CPU ^数倍 ^性能 ^発揮 ^．

本論文 _GPU 使 _SST 性能最適化行う．々先行研究_[20] い特異値分解使わウ変換二対角化 GPU ^並列 ^高速化 ^行い GPU 並列有効性示本論文 _GPU 部分並列化加え _CPU 計算部分連携方

法示ン異常検

知機構処理系実装．本論文

貢献示．

1. SST ^計算処理 GPU ^高速化 ^手法提案．

2. GPU ^利用効率 ^高 GPU ^並列手法提案．

3. SST GPU^処理 ^処理系実装実適用能状態性能評価

．

降章 _SST ₃章既

存手法問題点説明．₄章解決方法あ _GPU 並列説明 ₅章 _SST GPU ^並列 ^い ^説明 ^．6^章 ^性能評

価 ₇章関連研究 ₈章後展望い説明．

2. ^{変化点検知ア} SST

SST[1] ^{計算方法} ^{簡単} ^{説明} ^次 ^う

．_SST 各刻い過去現部分

系列特異値分解いう行列演算

特徴抽出行い抽出特徴同士

差異変化度．

SST ^計算 ^{特異値分解} ^必要 ^あ ^．特異値分解非常計算多い演算

確求近似使高速化 IKA-SST[2] ^{いう手法} ^{提案} ^い ^． IKA-SST ^{特異値分解} ^計算 ^単純

比数十倍～数百倍高速あ．本論文特異値分解確計算 _SST _IKA-SST 区別 _SVD-SST 記述．

2.1_SVD-SST ^ア

SVD-SST ^説明 ^．

系列

_

_x _t

_

t

^|

 {

⁽^{実数全体}⁾

^}

^{考え}

．ウンウ

_w

長

_w

部分

系列列

T t t w

t ^x ^x

x t

s

( ) _ (

_ _₁

,  ,

_₁

, )

^く．^部分系列

w

本並行列

)]

1 (

,

),

(

[

)]

1 (

),

2 (

,

),

(

[

2 1



  











t s w

t s

t s t s w t s



H

定義．

_

整数あ．

H

1,

H

₂

一辺長

_w

方行列あ． 1.

H

₁ ^{特異} ^{特異値} ^大 ^{い順}

r

( _

w

)

^個求

u

⁽¹⁾,

u

⁽²⁾,



,

u

⁽^r⁾ . 過去側特徴あ _.

2.

_H

₂ ^{最大} ^{特異}

_μ

_t ^求 .

_μ

_t

現特徴あ _.

3. ^変化度 z

(

t

)



_





^r

i

t z

1

)

2

(

1 )

( _μ

^T

u

⁽ⁱ⁾ ₍₁₎

計算．

ウンウ

_w

検知い変化間

選択． _r 系列

性質 _3~5程度選択．変化度計算長

₂

_w

_1 _ _

系列必要．

2.2_IKA-SST ^ア

(3)

次 _IKA-SST 説明．

_

あ定数

_a

規化ン

a

0 ^初期化 ^く．

1.

_H

^T₂

_H

₂ ^最大固有

_μ _ _H

₂ ^最大

特異乗法反復法

求．初期

_a

用

い．

2.

a _ μ _ _ a

₀ ^規化 ^．

a

ッ次

_μ

求使用．

3.

r

₀

_ _μ

,

_{β 1}

₀

_

,

q

₀

_ 0

,s

_ 0

^初期化

Lanczos ^反^復 ^{実行}

_

₁

,  , _

_k

1 1

^, ^, 

k_

 ^

^求 ^．

s T s s

s s s s s s

s T s s

s s s

s s

r

q

H

r

q

H

q

q r























1 1 1

1 1

1

(2)

4.

_{

a_i

_}

^{対角要素}

{ _

_i

}

^{副対角要素} ^対

称対角行列

T

k ^{固有} ^{固有値}

大い順 _r 個求

) ( ) 1 (

, ,

x^r

x



^．

5. ^変化度 z



_





^r

i

xi

z

1 2 ) (

]

[

1

₍₃₎

得．_k う．

 

  ^ 

 2 1 odd

even

2

r r

r

k r ₍₄₎

中 _Lanczos反復

H

1

q

_s

積あ

H

1 ^本 ^系列

ンウンウ行列

行列保持く計算能あ．同様

_μ

乗法求場合

_H

₂

積行列保持く計算能あ．

3. ^既存手法 ^適用とそ ^問題点

SST ^高速化 ^あ ^{特異値分解}

容易 _GPU 計算

CULA[3] ^用い SVD-SST ^高速化 ^試 [5]^．CULA LAPACK GPU^実装 ^開発

いあ． ₁ 特異値分解

CULA ^計算 ^場合 CPU ^計算 ^場合

SVD-SST ^変化度 ^あ ^計算 ^間あ．実験環境詳細 _[5] 参照い

い．結果ウンウ

_w

₄₅₀ GPU ^方 ^高速 400 CPU ^方高速あ．_SVD-SST 計算特異値分解依存一辺長 _w 行列特異値分解必

要計算

₍ ₎

w3

O ^あ ^．w ^大

い計算大く計算間

う

_w

₄₀₀ 十分場合多い．

多くン対異常検知

行いい場合計算関係

_w

あ大

くい． _CULA 利用

場合 _w

_ ₄₅₀

_SVD-SST 高速化実用問題あ．

w

^い場合 ^CULA ^高速化

いい行列十分並列性得

いあ．_GPU 効率く利用数千個演算並列計算

求．

_w

い場合数千

並列性遉い単

一ッ性能劣 _GPU 計算 _CPU 遅いいう結果う．_CULA 複

数行列並列計算い変

化度複数同求い場合計算間

ニ増加何高速化得

い．

1 CULA ^利用 ^場合 SVD-SST ^計算 ^間

4._GPU^タ ^並列

前章述問題解決本論文

GPU ^並列 ^提案 ^． 2 ^あ ^う

従来計算手法同行列計算

いい行列 _GPU 効率く利

用．対 _GPU

並列い行列複数行列同

計算 _GPU 効率く利用

．同行列計算い従来

計算手法並列性依存並列計

算あ．対本論文提案手法

(4)

並列性加え複数行列同計算いう並列性使並列計算手法あ．

提案手法 _GPU 並列ぶ．章既存 _GPU実装あ場合実装 _GPU 並列適用方法い述

．述い手法行列計算く広範応用能手法あ．本論文 NVIDIA ^{開発} GPGPU ^{開発環境} ^あ CUDA[4] ^使用 ^．CUDA ^処理 ^連続性

保証 _CUDA _[4] いう概念あ処理

異．

大きい行列小さい行列

利用率

小さい行列小さい行列

小さい行列

GPUタ並列従来計算手法

GPU ア

2 GPU ^並列 ^効果 4.1_GPU ^ロ

CUDA ^使 GPU ^ン

い簡単説明．_GPU 計算

GPU ^{関数} ^{記述} ^．

CUDA C^言語 ^一部拡張 ^言語 GPU

記述．_GPU

CPU ^実行 ^ッ ^起動 ^．

CUDA GPU ^起動 ^関数 ^び出

う記述． _GPU

見 _GPU

あ _CPU _GPU 間通信明

示的記述必要あ．

ッ _CPU 動作通常

変わい．ッ

GPU ^び出 ^や ^転送

順番 _CPU 計算部分記述．

GPU ^使 ^ッ

中 _GPU 関数び出う入

い．

4.2_GPU^実行 ^並列化

n ^個 ^並列 ^計算 ^方法 ^考え

単純ッ _n 個立並列化

方法思いくう．ッ複数立

実行場合 _CPU 計算部分

OS ^ン ^並列化 ^．

GPU ^部分 ^ン ^ン ^機能

並列化．現ン _CUDA

ンン適用制約

厳い．例えび出順序規則必要あや最大₁₆個並列化

い制約あう制約あ

ンン機能利用方法計算効率悪い．

本論文複数計

算方法採用．方法 _CUDA ッッ独立性利用あ． CUDA ^基本的 ^計算 SIMD ^実

行処理

ッ _CUDA _Warp ₃₂ ッ

単あ． _Warp 異

実行能あ．ッッい

く _Warp あッッ

異割当計算

能あ．

3 ^ッ ^ッ ^割 ^当

例あ．例

表構造体定義構造体配列

引数渡． _CUDA

ッ _ID 使識別複数

並列処理．

struct Task { int m, n; float* a; };

/*taskArray Taskへポインタ配列 */

__global__ void kernel_func(struct Task* taskArray[]) { Task* task = taskArray[blockIdx.y];

int m = task ->m, n = task ->n; float* a = task ->a;

/*何を実行る*/ }

3 GPU ^並列 ^例

4.3_CPU^部分 ^並列化

単一ッ _GPU 起動

いう実現 _CPU部分

計算 _n個計算ッ計算ッ

別ッ入．計算

ッ _GPU び出ッ

委譲．ッ複数計算ッ

GPU ^び出 ^並

列実行．計算ッッ

実行い _GPU 終了待 _GPU

終了 _CPU 部分計算再開

．う方法 _GPU 並列実現能あ．

方法数 _CPU 側

ッ必要．_OS 提供ッ

機能利用ッ数限あ

大生ン．_SST

(5)

異常検知 _GPU 数百～数千

個並列化必要ッ数

制限問題．実装

効率い軽ッあ

解決．現う

普及いい本論文計算ッ

ン駆動型書換えッ

使計算問題解決．

解決方法既存 _GPU

多く変更必要望い

い将来効率い軽ッ

出現変更必要く．

5._SST GPU^タ ^並列実装

章紹 _GPU

並列実装．章実装詳細説明． 5.1_SVD-SST GPU^タ ^並列実装

SVD-SST ^{特異値分解} ^使 ^変化度 ^計算

．特異値分解 _GPU 並列実装

．

n

m _

^行列^A ^SVD VT

U

A

_ _

⁽⁵⁾

分解あ． _U _m

_

_m 直

交行列 _V _n

_

_n 直交行列

_

_m

_

_n 対角行列あ．

_

対角要素特異値 _U

特異 _V 特異ぶ．現

主流特異値分解前半二

対角化行い後半特異値特異計算

いうッ計算あ．

二対角化ウ変換効率く計算能あ．特異値特異

計算関 _QR 法_[6] 分割統治法_[7] MR³[8,9] I-SVD[10] ^様々

提案い本論文 _QR法使用．

ウ変換二対角化 _QR法

特異計算部分 _GPU 計算．_QR 法特異値計算部分関並列化

い _GPU 計算効率悪い．

部分 _CPU 計算．

QR ^法 ^計算 CPU ^特異値

計算次 _GPU 特異計算．

必要計算 _GPU 転送い． 4 CPU, GPU ^計算部分

転送書いあ．

行列対特異値分解

実装．_SVD-SST 変化度

計算特異値分解回行う

回特異値分解含並列計算

． _n個変化度同

計算い場合 _2n個行列特異値分解

並列計算．

CPU 通信 GPU

行列ータ

二重対角化

左右行列も同時に計算

二重対角要素特異値を計算

(_∑) _{計算ータ}

特異ベクルを計算(U, V) 特異ベクル

左右行列

特異ベクル中間ータ

4 ^{特異値分解} GPU ^並列実装 5.2_IKA-SST GPU^タ ^並列実装

IKA-SST 2.2^章 ^中1^～3 ^計算大部分占．部分行列縮処理

行縮前行列扱わ

いあ．中 ₄ 固有

求い一辺長 _k_(=5~10)

いうい行列計算計算い．

い並列使高速化

難い．中₁～₃ _GPU

計算固有値求変化度計算

部分 _CPU 行う．

_μ

乗

法求．

H

1,

H

₂ w

_

w ^行列 GPU

1 ^あ ^ッ ^数 ^行列 ^同

w ^．CUDA ^最大1024 ^ッ ^一

部_GPU ₅₁₂ ッ _CUDA

ッ扱う _w 最大

1024 ^対応 ^．

CPU 通信 GPU

ータ

行列Tを計算 行列T

変化度スコア

zを計算 時系列ータ、

ベクルa GPU

5 IKA-SST GPU ^並列実装

変化度計算長

₂

_w

_1 _ _

系列必要．系列点

追加び変化度計算場合長

(6)

1

2

w

_ _ _ _

^点 ^前回 ^計算 ^使用

値同 _GPU 記憶

転送点い．長

w

a

^ッ ^利用

次計算必要．い

用 _GPU 展開

必要応書換えいう手法用い．

6. ^性能評価

章前章実装 _SVD-SST IKA-SST GPU ^並列実装 CPU^実装 ^比較．_CPU 実装 ATLAS 3.8.3[11] LAPACK 3.3.0[12] ^{使用} ^．CPU AMD Phenom X4 9850 4 , 2.5GHz 8GB OS CentOS 5.4 ^あ ^．GPU GeForce 8800GTS 512, Tesla C1060, GeForce GTX460 使用．_CUDA ン _3.2 あ． 6.1 ^{特異値分解} ^性能評価

6,7,8 ^{特異値分解} GPU ^並列実装性能評価結果あ．一辺長 ₅₁₂ 行列

対特異値分解計算間測定．_CPU 実装 _LAPACK _SGESVD 使用行列乱数生演算単精度行．_CPU 実装

並列化能 ₄ ッ

使 _CPU ₄ 使用い．_GPU

転送間含．数_n個 _n

個行列特異値分解計算あ． ₆ 特異値分解計算間あ．特異値

特異特異求い．

7 CPU^実装 ^対 GPU^実装 ^高速化率 ^あ

．_CPU 実装性能不定

曲線いい．全体的行列大

い _GPU 高速化率高く行列 ₄₁₆ 数₂₅₆ Tesla C1060 ^場合4.14^倍 ^遉

． ₈ Tesla C1060 ^動 GPU 並列実装実行間内訳あ．_GPU実装対角化 _CPU計算 _GPU計算完全分い

CPU^計算 ^全 ^終わ GPU ^計算 ^開始い _CPU計算 _GPU 計算

並列化高速化見

込．

6.2_SVD-SST ^性能評価

特異値分解 _GPU 並列実装使 SVD-SST ^実装 IBM

処理系System S[13] ^使用 ^分散処理能異常検知機構実装． System S SPADE ^言語

記述．各

入力対選別

や変換処理行う．_SPADE 多く組

込用意い _C++や _Java

記述定義 _(UDOP) 使

用． _SVD-SST _UDOP

実装．

最大 ₄ 分散処理 _GPU 最大 ₁₆

使用性能評価行． ₉ 結果

あ．使用ン ₁ _GeForce 8800 GTS 512 4 ^搭載 ^い ^．GPU ^外 6.1^章 ^使用 ^ン ^同 ^環境 ^あ ^． SST ^ウ ^ン ^ウ w=320 ^．



^{過去側} ^現 ^側 ^{系列}

間 ₈ う

_

₌

₂

_w

_ ₁ _ ₈

．

_

計算影響い． _r _3~5

広範適用能精度近似使わ特異

値分解求い高精度計算

う大 _r ₌₁₂ ．入力波長変

動あ弦波使用． ₉ 横軸

使用 _GPU _CPU 数あ．例え横軸 _N 場合 _GPU _N _GPU _N個 CPU ^使 ^計算 ^い ^．CPU N^個 CPU ^使 ^計算 ^い ^．N=1~4 1

使用計測． ₉ _{16 GPU} 線形性能向い分．₁₆

GPU ^ッ 305 /^秒 ^あ ^．

ン対変化度

計算 ₅秒行う ₁₅₂₅ ン

同処理性能あ．

6.3_IKA-SST ^性能評価

次 _IKA-SST _GPU 並列実装性能 CPU^実装 ^比較 ^．CPU^実装 LAPACK ATLAS ^使用 IKA-SST ^計算 ^．IKA-SST

k

_

^対称 ^対角行列 ^固有 ^求

演算あ _k ₁₀ い

LAPACK ^複数あ ^固有値 ^求 ^関数 ^う simple driver ^あ SSTEV ^使用 ^．

系列ンウンウ

行列

^H

1^,

^H

2 ^積

い行列保持い計算

BLAS ^用い ^実装 ^能 ^あ BLAS ^{最適} ^{関数} ^{用意} ^い ^い SIMD ^使 ^{最適化} ^専用 ^ン ^実装

．性能評価 _BLAS 使場合専用ン使用場合両方い性能測定

． _CPU 実装ッ実行

CPU 1 ^使用 ^．IKA-SST



^SVD-SST ^場合 ^同



⁼

²

^w

 ¹  ⁸

． _r 系列 _3~5

(7)

選択性能評価表例 _r ₌₃

．_r _Lanczos反復反復回数や行列

T

k

影響 _3~5 値範い

他値性能傾向変わい

思わ．計算精度単精度 _GPU 実装並列数 ₅₀₀ ．

10 ^変化度 100^万個 ^計算 ^間 ^測定結果あ．GeForce 8800 GTS

数制限ウンウ ₄₀₀ 計測

い．GeForce GTX460 GeForce 8800 GTS

計算間同．対

Tesla C1060 ^{倍程度高速} ^あ ^．CPU^実装ウンウ ₈₀ ₇₀ 方計算間長くい原因 _ATLAS 長 ₇₀

対最適化いいあ能性高い．

11 12 CPU ^対 GPU ^高速化率あ．_CPU実装 _SIMD 使高速化

専用ン使用い．前述通

CPU ^実装 ^実行 ^い ^．ウ ^ン

ウ ₉₀ 高速化率 Tesla C1060 21-26^倍 8800 GTS GTX460 11-14^倍 ^ウ

ンウ一定あ．ウン

ウ ₉₀ 高速化率高く _Tesla C1060 ^最高76^倍(w

_ 60

) ^．

IKA-SST SVD-SST ^同 ^う System S 実装性能評価行． ₁₃ 結果あ． _GPU数対 _GPU実装同数 _CPU 使用 _CPU実装対 ₁₂ 倍高速化遉．_16GPU 用い場合

ッ _88.9 万 _/秒あ．毎秒_88.9万処理い

0.01 0.1 1 10 100

32 96 160 224 288 352 416 480

Running time in seconds

Matrix Size (w) Tesla C1060 GeForce 8800 GTX CPU

6 GPU CPU ^{特異値分解} ^実行間秒数₆₄

0 1 2 3 4 5 6 7 8 9

32 96 160 224 288 352 416 480

Speedup

Matrix Size (w) Tesla C1060 (タ数64) Tesla C1060 (タ数256) GeForce 8800GTS (^タ ^数64) GeForce 8800GTS (^タ ^数256)

7 ^{特異値分解} GPU CPU ^対高速化率数_{64, 256}

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

32 96 160 224 288 352 416 480

実行時間割合

Matrix Size (w)

二重対角化特異値特異ベータ転送

8 ^{特異値分解} GPU ^並列実装実行間内訳 Tesla C1060

数₆₄

0 50 100 150 200 250 300 350

0 4 8 12 16

Throughput (scores/sec)

Number of GPUs/CPUs GPU

CPU

9 SVD-SST System S^実装ッ

1 10 100 1000 10000

0 100 200 300 400 500

Running time in seconds

Matrix Size (w)

CPU CPU(SIMD)

GeForce GTX460 Tesla C1060 GeForce 8800 GTS

10 IKA-SST ^変化度 100^万個 ^計算 ^間

0 5 10 15 20 25 30

100 150 200 250 300 350 400 450 500

Speed up

Matrix Size(N x N)

GeForce GTX460 Tesla C1060 GeForce 8800GTS

11 IKA-SST GPU CPU ^対高速化率 _CPU ₁ 比較

0 10 20 30 40 50 60 70 80 90

10 20 30 40 50 60 70 80 90 100

Speed up

Matrix Size(N x N) GeForce GTX460 Tesla C1060 GeForce 8800GTS

12 IKA-SST GPU CPU ^対 ^高速化率 CPU 1 ^比較

0 100,000 200,000 300,000 400,000 500,000 600,000 700,000 800,000 900,000 1,000,000

0 4 8 12 16

Throughput(Number of scores/sec)

Number of GPUs/CPUs GPU

CPU

13 IKA-SST System S^実装 ^ッ

(8)

． _100ms 間隔ンン対異常検知行場合 ₈万

ン処理性能

あ．

7. ^関連研究

GPGPU ^近年活発 ^研究 ^い [14,15,16] 処理適用関研究い．_GPU 並列関 Guevara[17] ^研究 ^あ ^．彼

変更 _GPU 並列化手法提

案い彼手法並列化数個

程度あ数百並列実行

い．

特異値分解 _GPU 高速化関研究 [18]^や[19] ^あ ^． ^非常 ^大 ^行列 ^対

高速化遉いい行列対

高速化いい．_GPU 使行列計算

高速化関研究非常大

行列対象い．い行列並列処理関研究い．

8. ^{まとめと今後} ^展望

変化点検知 _SST 使異常検知

処理一辺長 ₅₀₀ 行列計算必要．_GPU 使高速化考

え場合既存手法高速化

． _GPU 並列解決

．特異値分解行列 _300-500 ４ CPU ^対 ^４倍程度 ^高速化 IKA-SST ^ウ

ンウ _20-500 _CPU 対 ₂₀

倍高速化遉．

本論文提案 _GPU 並列手法 SST ^外 ^適用 ^能 ^問題 ^多くあ ^思わ

．既存実装 _GPU 並列化

や変更必要

手動行う．既

存実装 _GPU 並列化自動実行

ワ後課題あ．

参考文献

[1] Tsuyoshi Ide, Keisuke Inoue, Knowledge Discovery from Heterogeneous Dynamic Systems using Change-Point Correlations, in Proc. 2005 SIAM International Conference on Data Mining (SDM 05), pp.571-576, Newport Beach, CA, USA, April 21-23, 2005.

[2] Tsuyoshi Ide, Koji Tsuda. Change-point detection using Krylov subspace learning. Proceedings of 2007 SIAM International Conference on Data Mining (SDM2007),

pp.515-520, Minneapolis, Minnesota, USA, April, 2007. [3] CULA. http://www.culatools.com/.

[4] NVIDIA, CUDA C Programming Guide, Version 4.1, 2011.

[5] ^森田康 , ^{鈴村豊太郎}. ^処理 ^用

い変化点検知実装 _GPU 性能最適化_. 電子情報通信学会学研究会, Jun 2010 [6] G. J. F. Francis, The QR transformation, Parts I and II,

Computer Journal, Vol.4, pp.265-271, 332-345, 1961-62. [7] J. J. M. Cuppen, A divide and conquer method for the symmetric tridiagonal eigenproblem, Numerische Mathematik, Vol.36, pp.177–195, 1981.

[8] ^山本有作, ^{密行列固有値解法} ^最近 ^発展(I), ^日本応用数理学会論文誌, Vol.15, No.2, pp.181-208, 2005. [9] I. S. Dhillon, A New O(n2) Algorithm for the Symmetric

Tridiagonal Eigenvalue/Eigenvector Problem, Ph.D. thesis, Computer Science Division, University of California, Berkeley, California, May, 1997.

[10] ^{高田} ^美, ^{木村欣司}, ^{岩崎} , ^{中村佳} , ^{高速特}

異値分解開発_,情報処理学会論

文誌ンン _,

47(SIG_7(ACS_14)), pp.81-90, 2006. [11] ATLAS. http://math-atlas.sourceforge.net/. [12] LAPACK. http://www.netlib.org/lapack/.

[13] J. L. Wolf, N. Bansal, et al, SODA : An Optimizing Scheduler for Large-Scale Stream-Based Distributed Computer Systems, Middleware 2008.

[14] N. Fujimoto. Faster matrix-vector multiplication on GeForce 8800GTX. IEEE International Parallel & Distributed Processing Symposium, 2008.

[15] Yi Yang, Ping Xiang, Jingfei Kong, Huiyang Zhou. A GPGPU compiler for memory optimization and parallelism management. ACM SIGPLAN Conference on Programming Language Design and Implementation, 2010.

[16] Victor W. Lee, Changkyu Kim, Jatin Chhugani, Michael Deisher, et al. Debunking the 100X GPU vs. CPU myth: an evaluation of throughput computing on CPU and GPU. ISCA, pp.451-460, Saint-Malo, France, June, 2010.

[17] Marisabel Guevara, Chris Gregg, Kim Hazelwood, Kevin Skadron. Enabling Task Parallelism in the CUDA Scheduler. Proceedings of the Workshop on Programming Models for Emerging Architectures (PMEA), pp.69-76, September 2009.

[18] Sheetal Lahabar, P. J. Narayanan. Singular value decomposition on GPU using CUDA. IEEE International Symposium on Parallel & Distributed Processing Symposium. 2009.

[19] ^{深谷猛}, ^{山本有作}, ^{畝山多加志}, ^{中村佳} . ^{方行} 列向特異値分解 _CUDA 高速化_{. HPCS,} Jan 2009.

[20] ^司, ^{鈴村豊太郎}. ^処理

GPU ^並列 ^用い ^異常

検知機構実現_. ンッンン

2010.

Publication 論文 鈴村研究室 大規模データ処理・ストリームコンピューティング

ータ ー 処理 ける GPU タ 並列を用いた

ー 異常検知

司

鈴村 豊太郎

Scalable Anomaly Detection on Data Stream Processing with GPU Task

Parallelism

K

U

and

T

S





|

 {

}

w

w

( )  (

,  ,

, )

w

)]

1

(

,

),

(

[

)]

1

(

),

2

(

,

),

(

[



  



















H

H



H

H

w

H

( 

)

u

u



u

H

μ

μ

(

)







)

(

1

)

( μ

u

w

2

Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング

ーター処理ける GPU タ並列を用いた

ー異常検知

鈴村豊太郎

_K

_U

_and

_T

_S

_

_

^|

^}

_w

_w

( ) _ (

_

_w

( _

_H

_μ

_μ

( _μ

_w

₂

_1 _ _

_

_a

_H

_H

_μ _ _H

_a

a _ μ _ _ a

_μ

_ _μ

_{β 1}

_

_ 0

_ 0

_

,  , _

^, ^, 

 ^

_{

_}

{ _

  ^ 

_μ

_H