入力層分割による SOM 並列化

HOST

Pattern 0 Pattern 1

5.3 入力層分割による SOM 並列化

20000 40000 60000 80000 100000 120000 140000

0 20 40 60 80 100

Times of weight update

Competitive unit number

図 ^5.3: 競合層ユニットの重み更新回数

によるモデルと同様の問題が発生する．また，ウィナーの競合層上での位置が^PE間の境界に近く，近傍関数や学習率関数を距離の関数としている場合には，^PE間通信が余分に発生するという問題がある．^Myklebustによる並列化手法についても，競合層分割によるノード並列を基本にしているため，^PE間の負荷が不均一という問題は解決されていない．

また，競合層のサイズが大きい大規模^SOMでは，^PE間の通信が大幅に増加するために十分な高速化を行うことができないという問題もある．

以上の問題点を踏まえ，原理的に負荷の不均一が発生せず，大きな競合層を用いる大規模^SOMを高速に学習させる入力層分割法を次節で提案し，その評価を行う．

Input layer

Competitive layer

Input Neuron Input Neuron

Weights from competi-tive neurons to a input neuron C

A B

C D

Weights from competi-tive neurons to a input neuron D

Weights from competi-tive neurons to a input neuron A

Weights from competi-tive neurons to a input neuron B

PE 2 PE 3

PE 0 PE 1

図 ^5.4: 入力層分割法の概要

による並列化を提案し，その性能を評価する．

図^5.4に，入力層分割の概念を示す．各^PEは入力層のユニットを担当し，競合層の各ユニットへの重みを持つ．したがって，競合層のどのユニットがウィナー，あるいは近傍となって重み更新を行っても，すべての^PEが同等の処理をするため負荷の不均一は発生しない．

対象とする^SOMは入力層，競合層の²層とし，それぞれ^M ²^M，^N ²^N個のユニットからなり，ある時刻 ^t における入力ユニット ⁱ と出力ユニット ^j間の重みを ^Wi^j

(i =

1;111;M 2

; j = 1;111;N 2

)とする．この^SOMを^M ²^M個の^PEに分割し，各^PEは^N² 次元の重みベクトルを持つ．学習パターン^T ⁼^ft¹^;¹¹¹^;^tM

2gが入力層ユニットに入力された場合を考える．各^PEは学習パターンで対応する要素を用い，入力ベクトル要素^tⁱと重みベクトル^Wi^jとの間のユークリッド距離^d^jiを（^5.1）式に基づき計算する．

Algorithm 5.1 入力層分割法

1 Initialize W j

i (0).

2 Distributet

toeach PE i.

3 do on eachPE i,

4 for j=0 toN 2

5 d

=jjW j

(t)0T

i jj.

6 broadcastd j

and calclated j

= P

i d

,then sendittoPE i.

7 decidewinnerc=argmin

j d

and neighb ours N

(t)on each PE.

8 W

(t+1)=W j

(t)+h

cj (t)(W

i (t)0t

)j2N

c (t)

9 while d c

<LIMIT,orlearn formax iterations.

図 ^5.5: 入力層分割学習法のアルゴリズム

d j

= q

i 0W

i )

; j =1;111;N 2

(5:1)

各^PEiが^d^ji

; j =1;111;N

2を計算した後で，ⁱについて^d^jiを（^5.2）式により集計し，結果を全^PEにブロードキャストする．

d j

= M

i=1 d

(5:2)

その結果，競合層ユニット^jと学習パターン間の距離^d^jをすべての^PEが持つことになる．

各^PEは独立に^d^jが最も小さいものをウィナー^cとして選び，（^2.32）式，あるいは（^2.33）式で示される近傍関数^h^cjを用いて^cとその近傍^N^c^(t)の重みを更新する．したがって，各

PEは同一個数の重み要素を更新することになり，負荷の不均一は原理的に発生しないことになる．図^5.5に，入力層分割法による^SOMの並列学習アルゴリズムを示す．

5.3.2

入力層分割法の学習時間

2.3.2節と同様に，入力層分割を用いた並列^SOMの学習時間について考察する．入力層，

競合層はそれぞれ^M ²^M，^N ²^Nの²次元格子を構成しており，^N^P^E ⁼ ^M²個の^PEを持つ並列計算機に実装するとする．近傍関数は（^2.32）式，近傍範囲^N^c^(t)は（^2.34）式とした．

学習パターンは各要素に分解され，各要素が^PEに分配される．各^PEでは学習パターン要素と競合層ユニットへの重みとの²乗誤差を計算する．これに必要な時間^Td⁰は次式で

表される．

T 0

=N 2

add +t

mul ti

) (5:3)

次に競合層中のユニットで最も学習パターンに近いユニットを決定するが，これには各

PEが持つ誤差要素を集計する必要がある．この集計には簡単化のため，各^PEが一つのホストに誤差要素を送り，ホストで加算処理後各^PEにブロードキャストするというモデルを用いる．すべての^PEがホストにデータを送るのに必要な時間が^M²^t^comm，ホストが送られたデータを加算する時間が^(M² ⁰^1)t^add，加算した結果の平方根を計算するための時間が^N²^t^sq，計算結果を全^PEに送信するのに必要な時間が^M²^t^commであるので，誤差集計に必要な時間^Tc⁰ は次式のようになる．

T 0

=(M 2

01)t

add +N

sq +2M

comm

(5:4)

各^PEはホストから受信した集計後の誤差をもとにウィナーと近傍を決定するが，これは逐次処理を行ったときと同じ^T^s^;^Tⁿである．近傍^N^c^(t)内の競合層ユニット数は^Nc²

(t)なので，これの重み変更に必要な時間^Tuw⁰ は^(5.5)式で表される．

T 0

=(2t

add +t

mul ti )N

(t) (5:5)

以上より，学習パターン一つを入力層分割^SOMで学習するのに必要な時間^Ttotal^0somは（^5.3）式，（^5.4）式，（^5.5）式と^Tⁿ^;^T^sとの総和であり，（^5.6）式で表される．

T 0som

total

= T 0

d +T

c +T

n +T

s +T

= n

M 2

+N 2

+2N 2

(t)+1 o

add +

N 2

+N 2

(t)+4 o

multi

+N 2

sq +T

s +2M

comm

(5.6)

入力層分割法を用いて，^N^p個の学習パターンを^N^epoch回学習するのに必要な時間は，（^5.6）式に^N^pを乗じ，それを^N^epochまで加算した（^5.7）式で表されることになる．

T 0som

= N

epoch

t=1 N

p T

0som

total

(5:7)

5.3.3

競合層分割法の学習時間

本節では従来の競合層分割法による学習時間について議論する．入力層分割法と同じ条件を用い，^1PEに競合層の¹ユニットを割り当てると仮定する．学習パターンは¹パター

ン毎にすべての^PEにブロードキャストされ，並列に競合層ユニットの誤差を計算する．これに必要な時間^Td⁰⁰は（^5.8）式で表される．

T 00

=M 2

add +t

mul ti )+t

(5:8)

各^PEは単一の競合層ユニットを割り当てられているので，競合層全体でのウィナーを決定するためには一旦計算した誤差をホストに送る必要がある．ホストはウィナーを決定後，各^PEにウィナーをブロードキャストする．これに必要な時間^Tc⁰⁰は（^5.9）式となる．

T 00

=2N 2

comm +t

(5:9)

ウィナー決定後，近傍半径および学習率の決定には，他のモデルと同様に^Tⁿの時間が必要である．重みの更新は近傍範囲内のユニットを割り当てられた^PEのみが行い，他の^PE はアイドル状態で処理の終了を待つとすると，重み更新に必要な時間^Tuw⁰⁰ は（^5.10）式で表される．

T 00

=M 2

(2t

add +t

multi

) (5:10)

以上より，競合層を分割したときの並列モデルにより学習パターン¹つを処理するのに必要な時間^Ttotal^00somは（^5.11）式となる．

T 00som

total

= T 00

d +T

c +T

n +t

s T

= (3M 2

+2)t

add

+(2M 2

+4)t

mul ti

sq +t

s +2N

comm

(5.11)

以上より^N^p個の学習パターンを^N^epoch回学習するのに必要な時間^T^00somは（^5.12）式で表される．

T 00som

epoch N

p T

00som

total

(5:12)

5.3.4

入力層分割法と競合層分割法の比較

（^2.38）式による逐次処理^SOMと，（^5.6）式による入力層分割，および（^5.11）式による競合層分割による並列^SOMの処理時間を比較する．^M ⁼^N ⁼ⁿ，^N^epoch ⁼^1000,N^p ⁼¹⁰⁰，

=n2t

addとし，理想並列計算機上での各学習法による学習時間を図^5.6に示す．並列学習における学習時間の計算では，ユニット数と同数の^PEを使用すると仮定している．ま

1 1e+10 1e+20

10 100 1000 10000

Learning time (seconds)

Number of units on axis of each layer Input layer parallel model Competitive layer parallel model Serial

図 ^5.6: 逐次処理および理想並列計算機上での入力層分割と競合層分割学習法の学習時間

た，各学習時間の計算における各処理時間は，^nCUBE/2での実測により以下のように設定した．なお，通信時間^t^commは¹対¹通信のときの値である．

add

= 1sec:

multi

= 1sec:

= 10sec:

comm

= 100sec:

図^5.6に示すように，逐次処理と比較して並列処理を用いた学習は大幅な高速化が達成できる．これは，逐次処理では通信時間は各層の軸上のユニット数ⁿに対して^{O (n}⁴⁾で処理時間が増加するのに対し，並列化時には^O(n²⁾であり，ネットワークのサイズが大きくなるにつれ並列化による効果が大きくなる．モデルによるシミュレーションでは，¹⁰⁰²¹⁰⁰ の^SOMでは¹万個の^PEを用いた並列処理により約¹⁰⁰倍の，¹⁰⁰⁰²¹⁰⁰⁰の^SOMでは

約¹⁰⁰⁰⁰倍の高速化が達成できる．入力層分割法と競合層分割法を比較した場合，競合層

分割法の方がわずかに高速である．これは競合層分割法での²乗誤差の計算が並列で^t^sqで行うことができるのに対し，入力層分割法は^N²^t^sqとなることが一因と考えられる．

1 10 100 1000

1 10 100

Learning time (seconds)

Number of units on axis of input layer(M) Theoretical time

Learning time by ncube2

図 ^5.7: 並列^SOM学習法のモデルと実装結果の比較

図^5.7に，入力層分割法を^nCUBE/2に実装したときの学習時間とモデルによる計算時間を示す．このとき，入力層分割法での通信時間は配列加算通信を用いることにより，^2M²^t^comm から ^t⁰comm

;Mlen) となる．^t⁰commにおいて，^N^P^E ⁼ ^M²^;^M^{l en} ⁼ ^N²である．また，

SOMの規模は競合層を¹⁰²¹⁰とし，入力層のサイズを²²^2;⁴²^4;⁸²^8;¹⁶²¹⁶とし，

epoch

=100とした．図^5.7より，モデルによる計算時間は実装による実験結果と誤差^10%以内で一致している．この結果から，^SOMの学習時間検討の手段として（^5.7）式，

（^5.12）式を用いることは妥当と考えられる．

さて，図^5.8に^PE数とメッセージ長を考慮した通信時間を用いた場合の並列学習時間を示す．このときの通信時間は，^3.3.2節で示した（^3.29）式を用いた．図^5.8より，理想並列計算機上での比較では差が見られなかったが，メッセージ長や^PE数による通信遅延を考慮すると競合層分割法に比べて入力層分割法の学習時間が長くなっている．競合層分割法では通信で送られるメッセージ長は一定であるが，入力層分割法では競合層のユニット数に比例してメッセージ長が増加し，ネットワークの規模が大きくなるにしたがって一回の通信時間が増大する．このことから，各層で同一規模のユニットを持つ^SOMでは，競合層分割法の方がやや高速となる．

次に，入力層と競合層のユニット数が異なる場合について検討する．図 ^5.9に入力層を

1 1e+10 1e+20

10 100 1000 10000

Learning time (seconds)

Number of units on axis of each layer Input layer parallel model Competitive layer parallel model Serial

図 ^5.8: 通信遅延を考慮した並列^SOMの学習時間の比較

1002100として競合層のユニット数を変化させたときの学習時間を，図^5.10に競合層を

1002100に固定して入力層のユニット数を変化させたときの学習時間を示す．このとき，

=100;N

epoch

=1000である．

入力層を¹⁰⁰²¹⁰⁰に固定した場合，図^5.9より競合層ユニット数が少ない間は入力層分割法の方が高速である．しかし，競合層のユニット数が増加するにしたがって入力層分割法の学習時間は長くなり，競合層分割法の方が高速になる．入力層分割法では，（^5.6）式より学習時間が競合層サイズ^N²により主として支配されているため，競合層のサイズが大きくなると学習時間が長くなる．これに対し，（^5.11）式で示される競合層分割法の学習時間では^Nを含む項はなく，通信時間が^t⁰comm

(N 2

;1:0)で^Nを影響を受けるのみである．

図^5.10では競合層を¹⁰⁰²¹⁰⁰に固定し，入力層のサイズを変化させたときの学習時間を示す．入力層分割法では（^5.6）式から分かるように^t^add の係数と通信時間^t⁰comm

(M 2

;N 2

)

に^Mが含まれているため，入力層サイズが大きくなると学習時間が長くなっていく．しかし，競合層分割法では（^5.11）式より学習時間は^Mに支配されるため，入力層分割法よりも学習時間の増加が大きくなり，入力層のサイズがおよそ競合層の⁴倍以上では入力層分割法よりも学習時間が長くなる．

以上より，提案した入力層分割法は画像符号化などで多く用いられている大規模な入力

ドキュメント内 JAIST Repository (ページ 85-100)