SOM の並列学習法とその問題点

HOST

Pattern 0 Pattern 1

5.2 SOM の並列学習法とその問題点

5.2.1 Obermayer

による並列学習法

Obermayerら^[17]は，ニューロン数約¹万⁶千，入力パターンが⁹⁰⁰次元という大規模な^SOMを，^Thinking ^Machines社製超並列計算機^CM-2と自作のトランスピュータにより並列実行する手法を提案した．

脳内のニューロン間に見られる側抑制を実現するために同一層内の結合を設けると計算量がさらに増加するため，^SOMでは通常最大活性値を出力しているノードからの距離に反比例した係数を重み更新時に用いる．^Obermayerらはより生物の脳に近く，かつ計算量を削減するため競合層を興奮性，抑制性の係数を持つ²層とした．^Obermayerらによる²層モデルを図^5.1に示す．

図^5.1を格子網を持つ^CM-2，リング網を持つトランスピュータ上へ実装し，それぞれ細粒度，粗粒度処理として双方の性能を比較している．^CM-2では，競合層の¹ユニットを

CM上の^1PEに割り当て，トランスピュータでは^PE数が少ないため，競合層を分割して実装している．^Obermayerはこれらの手法により，入力次元数と競合層のユニット数にほぼ比例する処理時間で^SOMを実行できることを報告している．

5.2.2 Chwan

による並列化

Chwanら^[19]は，直鎖網上と²次元トーラス網上への^SOMの実装について述べている．

直鎖網上へは，競合層の²次元配列で垂直位置が重なるユニットを同一^PEに割り当てている．学習パターンは各^PEに入力された後，^PE上でのローカルウィナーが決定される．

各^PEはローカルウィナーのユニット番号をローテーションし，グローバルウィナーが決定される．その後，グローバルウィナーの近傍が決定され，近傍内に位置するユニットを持つ^PEが重みを更新する．

2次元トーラス網上への実装は競合層をブロックに分割し，各ブロックをトーラス網上の^PEに割り当てる．直鎖網への実装時と同じく，入力パターンが全^PEに与えられた後，

各^PEは担当するエリア内でのローカルウィナーを決定する．各^PEでのローカルウィナーから，競合層でのグローバルウィナーを決めて近傍を計算し，近傍内のユニットを持つ^PE により重みを更新する．

Chwanによるこの手法は，同一 ^PEに異なったエリアの競合層が割り当てられるため，

PEの利用効率が良好であるという利点がある．たとえば直鎖網では，近傍の直径が^PE数より大きければ，すべての^PEがビジー状態となる．しかし，学習終盤になり近傍直径が小さくなると，アイドルとなる^PEが増えるという問題がある．

5.2.3 Myklebust

による並列化

Myklebustら^[18]は，^5.2.1節や^5.2.2 節のモデルがいわゆるユニット並列モデルであることを指摘した．ユニット並列モデルは³章で示したように，特殊な場合を除いて通信量などの問題のため効率の良い並列化手法とは言えない．そこで^Myklebustはユニット並列モデルと学習セット並列を組み合わせて^SOMを並列化する手法を提案している．

Myklebustは^RENNSという演算ユニット，通信マネージャ，メモリを持つモジュール

16個を²次元トーラス網に接続した並列計算機を用い，その性能について評価している．

トーラス網への実装は図^5.2に示すような形に行う．ネットワークのコピー一つに複数のモジュールを割り当て，各コピーの中ではユニット並列モデルを用いている．また，同時にユニット並列モデル，学習セット並列モデルも単独に実装し，それぞれの学習速度を報告している．

Myklebustらは，ユニット並列モデルよりも学習セット並列モデルやそれらを組み合わ

せたモデルの方が高速に学習が可能であることを報告している．しかし，^3.2.2節で用いた

Original Competitive Layer Copy 0 Copy 1 Copy 2

Learning Set Torus Network

図 ^5.2: ^Myklebustによるユニット並列と学習セット並列を組み合わせた実装

ような重みのバッチ更新を用いるとトポグラフィックマップが生成されず，少数の学習パターンを処理した後に重みの更新操作が必要であると報告している．

5.2.4

従来の並列化手法の問題点

ユニット並列モデルを主体にした^Obermayer，^Chwanのモデル，およびユニット並列モデルと学習セット並列モデルを組み合わせた^Myklebustのモデルについて概説した．

ユニット並列モデルでは，^5.2.2節で述べたように学習が進むにつれて重み更新を行うユニット数が減少するため，競合層を分割するモデルでは学習後半の^PEの使用効率が悪化し，負荷が不均一になるという問題がある．図^5.3に，入力層²²¹，競合層¹⁰²¹⁰の^SOM に，ランダムに発生させた¹⁰⁰ 個の学習パターンを入力して¹⁵⁰⁰⁰回の学習を行ったときの，各競合層ユニットの重み更新回数を示す．

図^5.3から分かるように，ウィナー，あるいは近傍ユニットとして重み更新を行った回数が最も多いユニットは，約^145,000回，最も少かったユニットは約^54,000回であり，約^2.6 倍の開きがある．したがって，^Obermayerの並列モデルのような競合層分割によるユニット並列学習手法では，これがそのまま^PE間の処理時間の差となり並列化効率が低下してしまう．また，^Chwanらの実装では，¹つの^PEが複数のユニットを担当するため学習初期で近傍が大きいときの負荷は均一化されるが，学習が進んで近傍が小さくなると^Obermayer

20000 40000 60000 80000 100000 120000 140000

0 20 40 60 80 100

Times of weight update

Competitive unit number

図 ^5.3: 競合層ユニットの重み更新回数

によるモデルと同様の問題が発生する．また，ウィナーの競合層上での位置が^PE間の境界に近く，近傍関数や学習率関数を距離の関数としている場合には，^PE間通信が余分に発生するという問題がある．^Myklebustによる並列化手法についても，競合層分割によるノード並列を基本にしているため，^PE間の負荷が不均一という問題は解決されていない．

また，競合層のサイズが大きい大規模^SOMでは，^PE間の通信が大幅に増加するために十分な高速化を行うことができないという問題もある．

以上の問題点を踏まえ，原理的に負荷の不均一が発生せず，大きな競合層を用いる大規模^SOMを高速に学習させる入力層分割法を次節で提案し，その評価を行う．

ドキュメント内 JAIST Repository (ページ 82-85)