• 検索結果がありません。

Grid環境におけるタンパク質のエネルギー最小化による立体構造予測

N/A
N/A
Protected

Academic year: 2021

シェア "Grid環境におけるタンパク質のエネルギー最小化による立体構造予測"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

57回 月例発表会(20034月) 知的システムデザイン研究室 Grid 環境におけるタンパク質のエネルギー最小化による立体構造予測 青井 桂子

1 はじめに

自然に存在するタンパク質の立体構造は系の自由エネ ルギーの最小状態に対応している.このため,アミノ酸 配列情報からコンピュータシミュレーションにより最小 化問題としてタンパク質分子の立体構造が予測可能であ ると考えられる.タンパク質のエネルギー関数は局所的 に無数の,大域的にも複数の極小値を持つ.このため, 我々は SA と GA のハイブリッドアルゴリズムである 遺伝的交叉を用いた並列シミュレーテッドアニーリング (PSA/GAc)による立体構造予測を行っている. 一方で,ネットワーク上につながれた広い地域に配置 された計算資源を結びつけて,広域的に分散/並列処理 を行う Grid と呼ばれる新しい計算モデルが研究される ようになった. 本研究では,ネットワークを介して遠隔地にある計 算資源を利用するための Grid ミドルウェアである Net-Solveを用いて Grid 環境を構築し,Grid 環境に適した PSA/GAcのモデルを実装する.

2 これまでの研究

Grid環境におけるタンパク質のエネルギー最小化に よる立体構造予測の研究において,これまでに検討した ことは以下の 4 点である. 1. NetSolve上に PSA/GAc の計算モデルを構築 2. NetSolve Farming機能の適用 3. 本システムの導入による資源の供給量の測定 4. オーバーヘッド,Server での計算時間の測定 5. 3D表示のアプリケーションを作成

3 NetSolve の PSA/GAc 実装モデル

NetSolveは,Tennessee 大学の Jack Dongarra らに よって開発された Grid RPC System である.NetSolve システムはネットワーク上にあるハードウェアとソフト ウェアの両方の計算資源にリモートアクセスを可能にす る.GA と SA のハイブリッドである PSA/GAc は,複 数の逐次 SA を並列に実行し,一定間隔で遺伝的交叉を 行う.遺伝的交叉の処理では,もとの親と生成した子と の 4 個体のうち評価値の高い 2 個体を選択して,選択さ れた 2 個体から次の探索を行う. タンパク質のエネルギー計算は,その 1 つ 1 つの計算 に時間がかかるのではなく,エネルギー計算回数が膨大 になり,計算時間がかかることがわかっている.このた め,Server 側に逐次の SA を実行させ,交叉周期になる と Client 側に個体を返すモデルを考案し,構築した.

4 NetSolve Farming 機能の適用

NetSolve Farming機能を用いて,Grid 環境における PSA/GAcマスタースレーブモデルを作成した.これま で NetSolve の API として Client 側で用いてきた関数で は,一つの実行要求を行った場合に Server での実行が 終了して Client に値を返すまで次の実行要求を行うこ とができなかった.このため,並列処理を Server で実 行させる場合,Fig. 1 のように Client 側で複数のプロ セスを立ち上げて各々のプロセスが NetSolve の実行要 求を行う必要があった.NetSolveFarming 機能は類似処 理を一括して実行できる.このため,Fig. 2 のように, Client側で複数のプロセスを立ち上がらせることなく, 複数の実行要求を行うことができる. Genetic Crossover Ĕ Ē Ĕ Ē Master node Slave node Cambria System Agent Client proc1 proc2 proc3 proc4 NetSolve Client

NetSolve Agent NetSolve Server

SA

SA SA

SA

Fig. 1 NetSolve Farmingを用いないモデル

Genetic Crossover Ĕ Ē Ĕ Ē Master node Slave node Cambria System Agent Client NetSolve Client

NetSolve Agent NetSolve Server

SA

SA SA

SA

Fig. 2 NetSolve Farmingを用いたモデル

5 システムにおける単位時間あたりの計算量

個体数を増やした場合の,Grid 環境の PSA/GAc と 通常の PSA/GAc の単位時間あたりの評価計算回数の 比較を行う.

Grid環境の PSA/GAc では,Grid RPC システムの 一つである NetSolve を用いる.また,ユーザは 1 台の PCしか持たないものとし,NetSolve Server としては, CambriaSystemの 100 ノードを利用可能な資源とする.

(2)

16 32 64 128 0 1000 2000 3000 4000 5000 6000 7000 8000 # evaluation population size NetSolve҆ᄿиѓPSA/GAc ୌᅖѢPSA/GAc Fig. 3 単位時間 (1hour) あたりの評価計算回数の比較 Fig. 3に単位時間あたりの評価計算回数の比較を示 す.実験結果より,Grid 環境の PSA/GAc では個体数 が増えると逐次 SA の並列数が増えるため,外部 Server で利用する計算資源が増える.ユーザーが PC 1台しか 持たない場合でも,16 個体で 10 倍近く,128 個体の時 には 20 倍もの計算資源を手に入れられた.

6 システムにおける時間の測定

実装したシステムでは,Server での計算時間の他に通 信時間,NetSolve システムの NetSolve の Farming 機能 を用いており,Farming のさいにはシステムの待機時間 が生じる. Client Server ऱઍૐࠖ ෬௸ૐࠖ ෬௸ૐࠖ SA SA SA SA SA SA SA SA SA SA SA SA Genetic Cr osso v e r G e n e ti c C ro s s o v e r Client ᆫ౹സ࠿ૐࠖ 1࿁ߩRPCߩಣℂᤨ㑆 Fig. 4 1回の RPC の処理時間の内訳 対象タンパク質は 19 個の設計変数 (二面角) を持つ Met-enkephalinと,30 個の二面角を持つ (Ala)10である. 本実験では,各対象問題に対して,Server での SA の ステップ数を 32MCsweep, 64MCsweep, 128MCsweep, 256MCsweepにしたパターンのもので実験を行う.ま た,PSA/GAc における個体数 (並列数) を 2, 4, 8, 16, 32, 64, 128個体として実験を行った.各 MCsweep 数, 個体数で比較を行う.実験では Cambria Cluster を用 い,NetSolve Server として 224 ノードを割り当てた. 6.1 Server での計算時間の測定

Fig. 5と Fig. 6 に Met-enkephalin と (Ala)10におけ る各 MCsweep の時の Server での計算時間の比較を示 す.Fig. 5,Fig. 6 より MCsweep 数の増加に応じて計 算時間も長くなることが示された. 32 64 128 256 0 1 2 3 4 5

computation time [sec]

MCsweep Fig. 5 Met-enkephalin 計算時間 32 64 128 256 0 2 4 6 8 10 12 14 16 18

computation time [sec]

MCsweep Fig. 6 (Ala)10計算時間 6.2 システムの累積待機時間の測定 "isdl_netsl_farm"を用いた場合の各個体数に要す る累積待機時間 (待機時間) を Fig. 7 と Fig. 8 に示す. 1回の RPC に要する RPC は約 0.5sec であり,個体数 が増えるほど累積待機時間は増加する.対象問題が大規 模で,Server での計算時間が待機時間に比べて極端に長 い時間を要するものでなければ,非同期にすることなど を考える必要がある. 2 4 8 16 32 64 128 0 10 20 30 40 50 60 70 w

aiting time [sec]

population size

accumulated waiting time 1RPC waiting time Fig. 7 Met-enkephalin 待機時間 2 4 8 16 32 64 128 0 10 20 30 40 50 60 70 w

aiting time [sec]

population size accumulated waiting time 1RPC waiting time Fig. 8 (Ala)10待機時間

7 3D 表示のアプリケーションを作成

SC2002で行うデモ用の,タンパク質立体構造予測の 探索過程を 3D 表示するアプリケーションを作成した. Fig. 9 現在の探索結果の表示 Fig. 9では,現在計算中の個体における最優良個体の 構造と,これまで経験的に最適解とされる構造を並べ て表示している.最優良個体は,タンパク質の立体構造 予測においては,得られたエネルギーが最も低かった個 体を示している.Fig. 9 の右側の表にはこのとき実験で 用いたパラメータと探索過程で得られた履歴 (MCsweep とエネルギー値) が表示される.

8 今後の研究課題

NetSolveを用いた PSA/GAc の非同期モデルの実装 48

Fig. 5 と Fig. 6 に Met-enkephalin と (Ala) 10 におけ る各 MCsweep の時の Server での計算時間の比較を示 す.Fig

参照

関連したドキュメント

№3 の 3 か所において、№3 において現況において環境基準を上回っている場所でございま した。ですので、№3 においては騒音レベルの増加が、昼間で

小・中学校における環境教育を通して、子供 たちに省エネなど環境に配慮した行動の実践 をさせることにより、CO 2

小学校における環境教育の中で、子供たちに家庭 における省エネなど環境に配慮した行動の実践を させることにより、CO 2

車両の作業用照明・ヘッド ライト・懐中電灯・LED 多機能ライトにより,夜間 における作業性を確保して

車両の作業用照明・ヘッド ライト・懐中電灯・LED 多機能ライトにより,夜間 における作業性を確保して

最近の電装工事における作業環境は、電気機器及び電線布設量の増加により複雑化して

当面の間 (メタネーション等の技術の実用化が期待される2030年頃まで) は、本制度において

○事業者 今回のアセスの図書の中で、現況並みに風環境を抑えるということを目標に、ま ずは、 この 80 番の青山の、国道 246 号沿いの風環境を