• 検索結果がありません。

タンパク質の立体構造予測

N/A
N/A
Protected

Academic year: 2021

シェア "タンパク質の立体構造予測"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

74回 月例発表会(200411月) 知的システムデザイン研究室

タンパク質の立体構造予測

∼近傍構造と距離尺度から構成される高性能交叉手法 dMSXF∼

河本敏孝

Toshitaka Kawamoto

Abstract: Recently, Protein research have been wellknown. Protein research generally use Sim-ulated Annealing. But, in this paper, We introduce deterministic multi-step crossover fusion (In this paper, dMSXF) to take parameters. dMSXF is method of crossover that We decide step and neighbor individual. dMSXF is similar to Simulated Annealing. We found if the value of dMSXF parameters are large, search performance is high.

1

はじめに

近年,タンパク質の構造予測が注目されている.タン パク質は 20 種類のアミノ酸が鎖状に連結して作られる 物質であり,鎖状のアミノ酸が特定の形に折りたたまれ た状態で存在する.また,タンパク質の機能的性質はそ の立体構造によって決まることが知られており,構造の 解明は新薬の開発や病理の解明につながる.  本研究では,探索手法として遺伝的アルゴリズム (Ge-netic Algorithm,以下 GA) を用いた.GA は生物の遺 伝と進化の仕組みを模擬した確率的多点探索アルゴリズ ムである.   GA の大きな特徴のひとつは,多点探索法であり,解 同士の情報交換を探索に有効に利用している点である. 子個体と呼ばれる次世代の解候補は親と呼ばれる現世代 の解群から交叉オペレータによって生成される.このと き複数 (通常 2 つ) の親の良いところを受け継いだ子孫 を生成することが交叉オペレータの目的である.  しかしながら,GA を与えられた問題に適用するに当 たってはその問題にとって十分適切な交叉を設計するこ とは困難である.きつい制約条件を持つ問題では実行可 能解を生成することが困難であったり,必ずしも親の良 いところを受け継ぐ子個体を生成することができないた め,GA の性能を十分に引き出すことができない場合が 多い.  本研究では,このような GA の課題に対して,問題ご とに近傍構造と距離尺度から容易に構成できる高性能な 交叉手法,dMSXF を用いてタンパク質の構造予測を行 うことを目的とする.

2

deterministic Multi-step Crossover

Fusion(dMSXF)

dMSXFでは親個体 1 から親個体 2 に向けて局所探索 を行う過程において,まず,Fig1 にあるように親個体 1 と親個体 2 においてビットの違う部分の数をハミング距 離とする.このハミング距離をいくつかのステップに区 切り,ステップごとに親個体 2 に近づけていく.その際 のステップを dMSXF Step という.以下に dMSXF の アルゴリズムを示す.Fig1,Fig2 に dMSXF の探索の 様子を示す. 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ࡂࡒࡦࠣ〒㔌 Fig. 1 ハミング距離 • 探索点 X11 =親個体 1 とする • ステップ k における探索点 Xkの近傍にあるμ個の 解群を近傍 N(Xk)とする.N(Xk)のすべての近傍 解はかならずハミング距離 (近傍解,親個体 2) < ハミング距離 (Xk,親個体 2) を満たさなければな らない.N(Xk)の中でもっともよい近傍解を選択 する • 全ステップの中でもっとも良い解を親個体 1 と置き 換える.次に親個体 2 について,他の解,親個体 3 を取り出し,親個体 2 から親個体 3 に向けて探索を すすめる ⷫ1 ⷫ2 ㄭற୘૕ ㄭற୘૕ ㄭற୘૕ ㄭற୘૕ ㄭற୘૕ ㄭற୘૕ ㄭற୘૕ ㄭற୘૕ ̖̖ Step1 Step2 ㄭற୘૕ ㄭற୘૕ ㄭற୘૕ ㄭற୘૕ Step3 ⹏ଔ୯ ⹏ଔ୯ ⹏ଔ୯ ⹏ଔ୯ ⹏ଔ୯ ⹏ଔ୯ ⹏ଔ୯ ⹏ଔ୯ ⹏ଔ୯ Fig. 2 dMSXFの探索の様子 1

(2)

3

数値実験

3.1 実験概要 交叉手法に dMSXF を用いた GA をタンパク質に適 用し,対象問題として Met-enkephalin を用いた.パラ メータの中で個体数,dMSXF Step 数,近傍個体数の 検討を行った. 3.2 対象問題 本研究では,対象問題として Met-enkephalin を用い た.Table1 に対象問題 (Met-enkephalin) の特徴,Fig3 にその立体構造を示す. Table 1 Met-enkephalinの特徴 対象タンパク質 Met-enkephalin 二面角数   23 計算終了世代 Tyr-Gly-Gly-Phe-Met Fig. 3 Met-enkephalin 3.3 パラメータ 実験に用いたパラメータを Table2 に示す.それぞれ 平均値と中央値を比較し,交叉手法 dMSXF における最 適パラメータについて検討する. まず,最初に個体数を変化させて実験を行った.個体 数パラメータについては Table2 に示すとおりである.  次に,dMSXF Step を変化させて実験を行った.dM-SXF Stepパラメータについては Table2 に示すとおり である.  最後に,近傍個体数を変化させて実験を行った.近 傍個体数パラメータについては Table2 に示すとおりで ある.

4

実験結果

4.1 個体数 個体数を変化させた場合のエネルギーの中央値の履歴 を Fig4 に,平均値の履歴を Fig5 に示す.縦軸をエネル Table 2 GAパラメータ 対象タンパク質 Met-enkephalin 個体数   400,800,1600, 3200,6400 染色体長 207 設計変数長 23 計算終了世代 500 dMSXF Step 2,4,8,16, 32,64,128 近傍個体生成数 2, 4, 8, 16, 32 力場 OPLS-AA/L 試行数 10 ギー値,横軸を世代数とする. ୘૕ᢙ ୘૕ᢙ ୘૕ᢙ ୘૕ᢙ ୘૕ᢙ ਎ઍᢙ energy Fig. 4 エネルギーの中央値履歴 この結果を見ると,どの個体数でもほとんど変化は見 られないといえる.わずかながらではあるが個体数 3200 の場合がエネルギーが下がっている. 4.2 dMSXF Step 数 dMSXF Step数を変化させた場合のエネルギーの中央 値の履歴を Fig6 に,平均値の履歴を Fig7 に示す.dM-SXF Step数以外のパラメータに関して,個体数は 800, それ以外は Table2 にあるパラメータで実験している. これは,ある程度の精度で評価値を出し,かつ計算時間 の短いものを選択した. この結果を見ると dMSXF Step 数は少ない方が良い 効率で最適解を見つけることができるといえる. 4.3 近傍個体数 近傍個体数を変化させた場合のエネルギーの中央値の 履歴を Fig8 に,平均値の履歴を Fig9 に示す.近傍個体 数以外のパラメータについて,個体数を 800,それ以外 は Table2 にあるパラメータで実験した. この結果を見ると,近傍個体数は多い方が収束するス ピードが早いことがわかる. 2

(3)

Fig. 5 エネルギーの平均値の履歴 dMSXF_Step_2 dMSXF_Step_4 dMSXF_Step_8 dMSXF_Step_16 dMSXF_Step_32 dMSXF_Step_64 ਎ઍᢙ energy Fig. 6 エネルギーの中央値履歴 dMSXF_Step_2 dMSXF_Step_4 dMSXF_Step_8 dMSXF_Step_16 dMSXF_Step_32 dMSXF_Step_64 ਎ઍᢙ energy Fig. 7 エネルギーの平均値の履歴 Fig. 8 エネルギーの中央値履歴 Fig. 9 エネルギーの平均値の履歴  以上より,Met-enkephalin において最適なパラメー タは個体数は 3200,dMSXF Step は 2,近傍個体数は 32にすると良いことが確認できた.

5

SA との比較

次に,交叉手法 dMSXF を用いた GA と逐次 SA の 比較を行う.dMSXF のパラメータは前節で得られた最 適値 or 最良値を用いる.SA のパラメータは Table3 に 示す. Table 3 SAパラメータ 対象タンパク質 Met-enkephalin 最高温度   2.0 最低温度 0.01 クーリング率 0.99997 総 MCsweep 数 6000 近傍 180° 力場 OPLS-AA/L 試行数 10 それぞれの手法で探索終了時に得られたエネルギーの 中央値,および平均値の結果を Fig10 に示す.縦軸をエ ネルギー値,横軸を手法とする. Best Worst Median Average energy Fig. 10 SAとの比較 3

(4)

Fig10からも明らかなように,SA で解いた場合の方が 良いエネルギー値を出していることがわかる.これは, SAという手法が次元ごとに SA 処理を繰り返す MC-sweepであるのに対して,GA では全次元をもとに評価 している点にあると思われる.

6

まとめ

本研究では,dMSXF における最適パラメータの検 討を行い,最適パラメータを用いたタンパク質の立体 構造予測を dMSXF で行った.逐次 SA との比較によ り dMSXF ではタンパク質のエネルギー最小化問題と しては十分な結果が得られないということがわかった. dMSXFは完全に内挿的な交叉であり,単独で用いる場 合は初期集団の覆う範囲が最適解を含む,あるいは最適 解に必要な要素を初期集団に含むことを前提にしてい る.今後,この手法を改良,もしくはハイブリッドする ことによって新たなタンパク質構造解析手法を考えてい きたい.

参考文献

1) Kokoro Ikeda, Shigenobu Kobayashi.Deterministic Multi-step Crossover Fusion: A Handy Crossover for GAs.pp162-171.PPSN7,(2002). ”,2002

Fig. 5 エネルギーの平均値の履歴 dMSXF_Step_2dMSXF_Step_4dMSXF_Step_8 dMSXF_Step_16dMSXF_Step_32 dMSXF_Step_64 ਎ઍᢙenergy Fig

参照

関連したドキュメント

試験体は図 図 図 図- -- -1 11 1 に示す疲労試験と同型のものを使用し、高 力ボルトで締め付けを行った試験体とストップホールの

実験は,硫酸アンモニウム(NH 4 ) 2 SO 4 を用いて窒素 濃度として約 1000 ㎎/ℓとした被検水を使用し,回分 方式で行った。条件は表-1

2000 個, 2500 個, 4000 個, 4653 個)つないだ 8 種類 の時間 Kripke 構造を用いて実験を行った.また,三つ

ル(TMS)誘導体化したうえで検出し,3 種類の重水素化,または安定同位体標識化 OHPAH を内部標準物 質として用いて PM

averaging 後の値)も試験片中央の測定点「11」を含むように選択した.In-plane averaging に用いる測定点の位置の影響を測定点数 3 と

①物流品質を向上させたい ②冷蔵・冷凍の温度管理を徹底したい ③低コストの物流センターを使用したい ④24時間365日対応の運用したい

・逆解析は,GA(遺伝的アルゴリズム)を用い,パラメータは,個体数 20,世 代数 100,交叉確率 0.75,突然変異率は

セキュリティパッチ未適用の端末に対し猶予期間を宣告し、超過した際にはネットワークへの接続を自動で