• 検索結果がありません。

( メ ニー コ ア プロ セッ サ向け進 化アルゴ リズムの 設計)

N/A
N/A
Protected

Academic year: 2021

シェア "( メ ニー コ ア プロ セッ サ向け進 化アルゴ リズムの 設計)"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

博 士 ( 情 報 科 学 ) ム ナ ワ ー ア シ ム 学 位 論 文 題 名

Redesigning Evolutionary Algorithms for /Iany Core   Processors

( メ ニー コ ア プロ セッ サ向け進 化アルゴ リズムの 設計)

学位論文内容の要旨

 Genetic algorithms (GA) are black box optimization algorithms inspired by the process of natural evo‑

 lution.  Being stochastic in nature such algorithms may require a large number of fitness evaluations  before co'nverging to the best or a near best solution.  Several parallel implementations of GAs have  been proposed in the last two decades. Most of these parallel GAs were designed either for super‑

 computer or cluster like environment and cannot be implemented efficiently over modern many‑core  processors. With the ever growing computational power of many‑core processors it is safe to assume  that many‑core processors will be personal supercomputers for the years to come.  Parallel imple‑

 mentation of algorithms over modem heterogeneous many‑core processors like GPU is vital than ever before.

In this dissertation we undertake the mammoth task to adapt Meta heuristic algorithms namely ad‑

vanced genetic algorithm over the modem many‑core computing paradigm. The main motivation of the research is to harness the computational power of asynchronous heterogeneous many‑core pro‑

cessors to solve combinatorial optimization problems using genetic algorithms and their derivatives.

 Heterogeneous many‑core processors may be difficult to program but the initial hardware cost and the  (efliciency/watt) ratings makes them extremely feasible for low budget users. There are two main ob‑

jectives of the current research. The first and foremost objective is to modify the existing algorithms in such a way that can enable them to take maximum advantage of the low lying parallel hardware resources. The algorithms must be modifedin a way that minimize the effect on the solution quality and output fidelity. Secondly, we further extend the research to build an entirely new advanced genetic algorithm that is compatible with the GPU SIMT architecture. In this dissertat:ion, we give a detailed methodology that can be followed to make an algorithm SIMD/SIMT compatible. We have also dis‑

cussed different kinds of optimization techniques that can be applied to an algorithm in order to make it more efficient over many‑core processors.

As for achieving the above mentioned objectives, we follow a step by step approach. The thesis starts with Cell Broadband Engine Architecture (CBEA) that has less than 10 processing cores and is relatively easier to program as compared to modern GPUs.  General purpose processor within the chip, overlapping memory operations with computation and relatively simple memory hierarchy are some of the things that make CBEA programming easier in comparison to a modern day GPU. Although the implementation can run unaltered on a CBEA, we used Sony Play Station 3 (PS3) for experimentation purposes. PS3 essentially has CBEA with only 6 SPEs available to the developer. We implemented a well‑known Capacitated Vehicle Routing Problem (CVRP), which is essentially a constrained version of multiple Travelling Salesman Problem (TSP).

‑ 179―

(2)

  In the next step, we moved to massively parallel many‑core systems with over 100 processing cores.

 For experimentation purposes, we have used nVidia C1060 Tesla, and C2050 Fermi GPU. We started  the research with existing well known advanced genetic algorithms including cellular genetic algo‑

 rithms (cGA) with local search and advanced Bayesian Optimization Algorithm (BOA) which is an  advanced multivariable Estimation of Distribution Algorithm (EDA). The operators and techniques   discussed help to speed up the execution without any loss in the output quality.

 In this last section of the thesis, we design an entirely new advanced genetic algorithm for solving  complex Mixed Integer Non Linear Programming (MINLP) problems. The algonthm is designed to  be suitable for the modern GPU architectures.  The thesis explains the detail design and implemen‑

 tation with interesting applications of the research. We provide a detailed empirical analysis of all  the techniques and algorithms to confirm the output quality after making the proposed changes in the  algorithm and operators.

  In order to test our algorithm and the parallel implementation we have used different real world prob‑

 lems.  The problems used for testing in this research ranges from classical problems like traveling   salesman problems (TSP) to more advanced Mixed Integer Non Linear Programming (MINLP) prob‑

 lems like chemical batch plant design problems and space mission trajectory design problems. All  the problems were carefully selected based on their relevance to the problems faced in the real world.

 We have performed elaborate experiments to verify the quality of the algorithms developed during this  research; moreover, we verify the quality of the algorithms that are modified for many‑core implemen‑

 tation. The quality of the algorithm over many‑core processor should match the quality of the original unmodified algorithm.

 Our algorithm for solving MINLPs is very different from the existing approaches in the literature. Ex‑

 isting algoritbms usually rely on advanced and complex operators or other deterministic methods that  are used in hybrid with the GAs. Our algorithm on the other hand makes a clever use of simple opera‑

tors to solve the difficult MINLP problems. Simple operators being easy to port for SIMD architecture gives our algorithm unprecedented ability to run efficiently over GPU like architectures.  With our design and implementation we show approximately 50x speedups over CPU only implementations.

We think that research in this area is stillin its infancy and more work needs to be done for developing advanced operators and meta heuristic algorithms compatible with the SIMD/SIMT architecture of modem many‑core processors. The algorithms should be able to make an efficient use of the memory hierarchy. The future many‑core processors will be fasters and will provide an easier and faster access to memory. The algorithms designed must be able to adjust themselves with the future architectures.

The computational power of today'  s heterogeneous processors can also help us in solving problems Iike automatic parameter tuning and construction of adaptive algorithms. This can be one of the areas for future work.

― 180 ‑

(3)

学 位 論 文 審 査 の 要 旨

主査 副査 副査 副査

教授 教授 教授 准教授

赤 間 古 川 高 井 棟 朝

学 位 論 文 題 名

     清 正志 昌彰 雅晴

Redesigning Evolutionary Algorithms forManyCOre     PrOCeSSOrS

     (メニーコアプロセッサ向け進化アルゴリズムの設計)

  近年 の半導 体プ ロセス 技術の 向上に より. 一つ のプロセッサ上に多数の演算コアを有するマル チコ ア,メ ニーコ アによ るア ーキテ クチャ が主流 とをりつっあり,特にグラフイック用途として Graphic Processing Unit (GPU)社ど数百程度の演算コアを有するアクセラレータが安価に使用でき るように顔ってきている,このようを背景により,スーパーコンピュータにおいては数万〜数十万コ アを 有するものも構築されつっあり,そのようを極めて多くの並列度を有する並列計算機を活用し た並列アルゴリズムの開発が急務とをっている,

  一方で,遺伝的アルゴリズムをど進化アルゴリズムの分野において,従来型のクラスタシステムを 前提 とした並列化について研究が進められてきたが.メニーコアアーキテクチャに適したアルゴリ ズムの開発および実装については,十分な検討が進められていをい.この状況において本論文では,

代表 的をマ ルチコ ア,メ ニー コアア ーキテ クチャ であるCell Broadband Engine(CeuBE)とG曲m1 Pu叩oseGr叩bjcProcessingUbit((弗G.PU)を前提とした進化アルゴリズムの設計および並列実装に ついて議論している.

  前者 (CeuBE)については,大規模かつ複雑を組み合わせ最適化問題である,Capacitatedvchide RDutmgnoblem(CVRP)を 解 く た め に必 要 と を る 進化 ア ル ゴ リ ズム の 設計お よぴCeuBE上 での 実装について議論した.アルゴリズムの設計にあたっては,遺伝的アルゴリズムと局所探索を組み合 わせ ること で,大 域的を 構造 に関す る探索 と,局 所的を経路情報に関する探索を実現している.

  実装 にあた って は,CellBEにおい て全体 の制御 を掴 当するPawerPmc謎sor皿cment(PPE)に大 域的 を探索 を割り 当て, 高速 を並列演算を実現する複数のSyne晒sdcnoc懿s血gロern跚t(SPE)に 局所 探索を担当させることで効果的を並列化を実現し,結果として従来のプロセッサ上の直列実装 に比 較して約15倍の性能向上を実現するとともに,問題サイズが1、000以上の大規模を問題に於い て有効な結果を得た.

  後 者 (GK刑Dに つ い ては, はじ めに, 代表的 な組み 合わ せ最適 化問題 のーつ であるMAXSArに つい て,遺 伝的ア ルゴリ ズム と局所 探索を 組み合 わせ たアル ゴリズ ムを用いて,GPGPUのsingle ksn11cdonMUldnIread(Smn) ア ー キ テ クチ ャ に合わ せた実 装を行 い, 多数の スレッ ドを同 期 させ て探索 を行う ことで ,従 来型の プロセ ッサ上 の直 列実装 と比較 して15〜25倍の 性能向 上を 実 現 した , 次 に , 確率 モデ ル構築 によ る先端 的を進 化アル ゴリ ズムで あるBりesi紐0pmmzぬ0n Algodmm毋( )A) につ いても ,その 計算コ ストの 大半を占めるモデル構築に要する探索をGK}PU

ー181―

(4)

上 で行うことで,10倍程度の性能向上 を実現するとともに,複雑顔確率構造を有する大規模問題へ の 適用に道を開いた .

  さらに,最も一般的かつ複雑社最適化問題として,整数と実数の変数および等式および不等式の制 約 条件が混在したMixed Integer Non‑Linear Programming(MINLP)を取り上げ,探索領域を適応的 に 絞り込むことで, 探索領域が高次元 で極めて大きい最適化問題に対して有効とをる進化アルゴリ ズ ムadaptive resolution GA(arGA)を開発するとと もに,そのGPGPU上における 効果的を実装に つ いて議論した.結果として,複雑かつ大規模をべンチマーク問題について,従来型のプロセッサ上 の 直列実装と比較し て40倍以上の性能 向上を実現した.

  これら提案された 進化計算アルゴリ ズムの設計およびメニーコアアーキテクチャの特徴を生かし た 実装により,従来は解くことが困難であった大規模かつ複雑を最適化問題に対して,数倍〜数十倍 の 性能向上を実現し,現実的誼計算時間で有用按解を得ることを可能にした.特に本研究で取り上げ たCeuBEお よびGPGPUにつ い ては ,安 価 誼ア クセラレータとし て有用をアーキテ クチャであり,

コ ス ト 面 の 有 利 さ か ら 開 発 ・ 設 計 プ ロ セ ス の 現 場 に お け る 活 用 が 期 待 さ れ る .   これを要するに,著者は,メニーコアアーキテクチャに適用可能を進化アルゴリズムの構築方法を 提 案し,従来方法との比較実験に基づぃてその有効性を検証したものであり,大規模並列進化アルゴ リ ズムの発展に貢献するところ大をるものがある.よって著者は,北海道大学博士(情報科学)の学 位 を授与される資格 あるものと認める .

―182―

参照

関連したドキュメント

In order to obtain more precise informations of b(s) and ~ , we employ Hironaka's desingularization theorem.. In this section, as its preparation, we will study the integration

Comparing the Gauss-Jordan-based algorithm and the algorithm presented in [5], which is based on the LU factorization of the Laplacian matrix, we note that despite the fact that

Oscillatory Integrals, Weighted and Mixed Norm Inequalities, Global Smoothing and Decay, Time-dependent Schr¨ odinger Equation, Bessel functions, Weighted inter- polation

[9] DiBenedetto, E.; Gianazza, U.; Vespri, V.; Harnack’s inequality for degenerate and singular parabolic equations, Springer Monographs in Mathematics, Springer, New York (2012),

We use these to show that a segmentation approach to the EIT inverse problem has a unique solution in a suitable space using a fixed point

• Do not disconnect connections to this equipment unless power has been removed or the area is known to be nonhazardous.Secure any external connections that mate to this

In section 3 all mathematical notations are stated and global in time existence results are established in the two following cases: the confined case with sharp-diffuse

In this work we give definitions of the notions of superior limit and inferior limit of a real distribution of n variables at a point of its domain and study some properties of