ディスオーダー領域を考慮した タンパク質結晶化予測
48
0
0
全文
(2) 概. 要. タンパク質の立体構造を解析する手段として最も多く用いられている X 線結晶解析にお いて、タンパク質結晶化は必要不可欠な工程となっている。しかし、すべてのタンパク質 が簡単に結晶化するわけではなく、結晶化の条件を求め、タンパク質の結晶を得るまでに 時間や費用が十分に必要である。すなわち、タンパク質結晶化が X 線結晶解析のボトルネ ックとなっている。そこで、生物学的実験を行う前に結晶化するタンパク質を特定するこ とができれば実験にかかる時間や費用の削減につながる。現在、タンパク質結晶化を予測 する研究では、アミノ酸組成、疎水性、等電点が利用されている。加えて、結晶化に影響 を与えるようなタンパク質立体構造情報を利用することで精度の向上が予想されることか ら、本研究ではタンパク質立体構造情報を利用したタンパク質結晶化予測法を提案する。 本研究ではタンパク質立体構造としてディスオーダーを利用する。結晶化を阻害すると報 告されているディスオーダーが結晶化しづらくする因子として役立つと考え、タンパク質 結晶化予測の精度向上を図った。その結果、Accuracy が 75.7%となった。また、アミノ酸配 列におけるディスオーダーの割合からディスオーダーがタンパク質の結晶化を阻害してい ることが確認された。. 2.
(3) 目. 次. 第1章. はじめに ..............................................................................................................................4. 第2章. 関連研究 ..............................................................................................................................5. 2. 1. 結晶化しやすさをスコアリングする手法 ..................................................................5. 2. 1. 1. OB-Score ......................................................................................................................5. 2. 1. 2. XtalPred .......................................................................................................................7. 2. 1. 3. ParCrys ........................................................................................................................8 結晶化可否を予測する手法 ........................................................................................13. 2. 2 2. 2. 1. SECRET ....................................................................................................................13. 2. 2. 2. CRYSTALP ...............................................................................................................18. 2. 2. 3. CRYSTALP2 .............................................................................................................20. 2. 2. 4. MetaPPCP .................................................................................................................25. 2. 3. 関連研究の比較 ............................................................................................................27. 第3章. 提案手法 ............................................................................................................................29. 3. 1. 提案手法の概要 ............................................................................................................29. 3. 2. ディスオーダー予測 ....................................................................................................30. 3. 3. アミノ酸組成 ................................................................................................................31. 3. 4. 疎水性 ............................................................................................................................31. 3. 5. 等電点 ............................................................................................................................32. 3. 6. データセット ................................................................................................................33. 3. 7. 特徴選択 ........................................................................................................................34. 第4章. 実験 ....................................................................................................................................35. 4. 1. 実験 1 .............................................................................................................................35. 4. 2. 実験 2 .............................................................................................................................37. 4. 3. 考察 ................................................................................................................................40. 第5章. おわりに ............................................................................................................................43. 3.
(4) 第1章. はじめに. タンパク質立体構造は、酵素、抗体などのタンパク質の機能やタンパク質同士の相互作 用の解明、そして、創薬などにも利用される重要な情報である。タンパク質の立体構造解 析はヒトゲノムプロジェクト以降に始まった国際的な構造ゲノミクスと呼ばれるプロジェ クトが主体となって進められている。構造ゲノミクスではタンパク質の結晶があれば最も 安価で高速な X 線結晶解析によって立体構造決定が行われることが多いが、それにはタン パク質を結晶化しなければならない。しかし、すべてのタンパク質が簡単に結晶化するわ けではなく、タンパク質が結晶化する場合でも、それを得るまでに多くの時間や費用が必 要である。例えば、構造ゲノミクスでは試行錯誤の末 1 つのタンパク質の立体構造を決定 するのに約 66000 ドル必要であると報告されている[1]。そのため、すべてのタンパク質の 立体構造を解明するためにはさらなるコストの削減が必要である。そこで、生物学的実験 を行う前に結晶化するタンパク質を特定することで結晶化にかかる費用や時間の削減を図 ることが重要となっている。 タンパク質結晶化を予測する研究は大きく 2 つに分類することができる。1 つはタンパ ク質の結晶化しやすさに対してスコアを与える手法である。この手法は、OB-Score[2]、 XtalPred[3][4] 、ParCrys[5]といった手法が提案されている。2 つ目は、タンパク質を結晶化 するタンパク質と結晶化しないタンパク質の 2 つのクラスに分類する手法である。この手 法には、SECRET[6]、CRYSTALP[7]、CRYSTALP2[8]、MetaPPCP[9]が挙げられる。これら の手法には、生物学的な結晶化実験において考慮される指標(疎水性、等電点、膜貫通ヘ リックスの数、コイルの数、タンパク質のアミノ酸組成など)が使用されている。また、 ディスオーダーが結晶化を阻害する要因と報告されているため[10]、XtalPred には最も長い ディスオーダー領域の長さが利用されている。しかし、それぞれの構造内部のアミノ酸組 成やディスオーダーの割合などの情報が十分に活かしきれていない。 本研究では、タンパク質結晶化を阻害すると考えられているディスオーダー領域とオー ダー領域の 2 つの領域ごとのアミノ酸組成、タンパク質アミノ酸配列におけるディスオー ダーの割合、疎水性、等電点を利用することで予測精度の向上を図る。 本論文の構成は以下の通りである。まず、第 2 章でタンパク質結晶化予測の関連研究を 紹介する。第 3 章で提案手法を説明する。第 4 章で実験結果と提案手法と関連研究との比 較を行う。そして、第 5 章でまとめる。. 4.
(5) 第2章. 関連研究. タンパク質の結晶化を行う研究には、2. 1 の結晶化しやすさをスコアリングする手法と 0 の結晶化可否を予測する手法の 2 種類に分類することができる。. 2. 1. 結晶化しやすさをスコアリングする手法. 結晶化しやすさをスコアリングする手法の 1 番の特徴は、学習データセットに結晶化し たタンパク質の情報しか必要ないことである。. 2. 1. 1 OB-Score OB-Score は、Overton ら[2]が 2006 年に提案した手法で結晶化をスコアリングした最初の 手法である。 データセットの作成 . Dbrank_PDB データセット. PDB[11]から 3.0Å resolution 未満のタンパク質で、40%より大きな類似性を持った配列を取 り除いた 5,454 個のデータセット。結晶化したタンパク質の代表として扱う。 . コントロールデータセット. UniRef50[12]から得られる 794,085 個のタンパク質から構成されたデータセット。このデー タセットは結晶化するタンパク質と結晶化しないタンパク質の両方を含んでいる。 . PDB_U50 データセット. PDB と UniRef50 の両方に登録されているタンパク質に対して SEG[13]を用いることで低複 雑性領域を持ったタンパク質を取り除いたデータセット . テストデータセット. PSIBLAST ( E − value ≤ 10−6 、90% query coverage、95% identity ) [14] を 用 い て TargetDB[15]に登録されたタンパク質から PDB_U50 データセットに含まれるタンパク質に 類似したタンパク質を取り除いたデータから TDB_DIF データセットと TDB_WS データセ ットを作成する。 . TDB_DIF データセット 5.
(6) 「Diffraction-quality Crystals」とラベル付けされた 125 個のタンパク質から構成された データセット。結晶化するデータセット(ポジティブデータセット)として扱う。 . TDB_WS データセット. 「Crystallized」がラベル付けされる前に「work stopped」とラベル付けされた 440 個の タンパク質から構成されたデータセット。結晶化しないデータセット(ネガティブデ ータセット)として扱う。 スコアリング手法 使用される特徴は等電点(pI)と GRAVY hydrophobicity Index の 2 つである。 . pI. EMBOSS[16]によって決められた pKa を用いて Bioperl[17]で計算。 . GRAVY アミノ酸ごとにアミノ酸ごとに決められた疎水性指標のアミノ酸配列における総和を配. 列長で割った値。疎水性指標には Kyte-Doolittle 疎水性指標[18]を用いる。 pI は3 ≤ pI ≤ 13の範囲を 15 個の領域 (Pj: j = 1, …, 15)に、 GRAVY は−1.5 ≤ GRAVY ≤ 1.5を 10 個の領域(Gk: k = 1, …, 10)に分割する。そして、Pj と Gk の行列 Mjk を作成する。Mjk は pI が Pj の範囲にあり GRAVY が Gk の範囲にあるタンパク質の頻度を表している。そして、 Dbrank_PDB データセットと UniRef50 に対して Mjk を作成した。 また、794,085 個のタンパク質から構成された UniRef50 から 5,000 個ずつサンプリングし 100 個のグループを作成した。その 100 個のグループに対して Mjk の平均と標準偏差を求め、 DBrank_PDB データセットに対して Z-score(注目している標本値と平均との差を標準偏差 で割った値)を計算した。この Z-score を OB-Score と名付けた。OB-Score は、全てのタン パク質(UniRef50 データセット)と結晶化するタンパク質(Dbrank_PDB データセット)の 間の pI と GRAVY の差を標準化した指標である。 実験 TDB_DIF データセットと TDB_WS データセットに対して OB-Score を適用した。その結 果、TDB_DIF データセットの OB-Score の中央値は 5.03、TDB_WS データセットの OB-Score の中央値は 0.43 となった。また、ウィルコクソンの順位和検定によって P 値が2.2e−16 とな り、結晶化するするタンパク質から構成された TDB_DIF データセットの方が結晶化しない タンパク質で構成された TDB_WS データセットの方が OB-Score が高いことが分かった。. 6.
(7) 2. 1. 2 XtalPred XtalPred は、Slabinski ら[3][4]によって 2007 年に提案された手法である。 データセットの作成 . トレーニングデータセット. 2005 年までに TargetDB に登録されたデータから作成される。また、配列長を 50 から 700 までに限定した。 . ポジティブデータセット. X 線結晶解析によって構造が決定され PDB に登録されたタンパク質 . ネガティブデータセット. 「purified」とラベル付けしてあるが「crystallized」や「NMR」とラベル付けされてい ないタンパク質と 18 ヶ月以上 「purified」とラベル付けしてあるが「crystallized」 や 「NMR」 のラベル付けがされなったタンパク質で構造決定が継続されているもの ポジティブデータセットとネガティブデータセットはそれぞれ 1503 個と 2456 個のタンパ ク質が選択された。 . テストデータセット 2006 年から 2007 年にかけて新しく TargetDB に登録されたデータが利用されている。デ. ータセットの作成方法はトレーニングデータセットと同様で、ポジティブとネガティブな データセットはそれぞれ 1637 個と 3365 個のタンパク質から構成された。 ランキング手法 ランキングに用いる指標として次の 9 つの特徴から作られたヒストグラムが利用される。 . 配列長. . pI. . GRAVY hydropathy Index. . 最も長いディスオーダー領域の長さ. . Instability Index[19]. . 配列中の二次構造コイルの割合 7.
(8) . コイルドコイルの残基数. . 膜貫通へリックスの数. . NR データセット(PDB から 60%以上の類似性を持った配列を除外したデータセット) に対してマルチプルアラインメントにおける挿入の割合 ただし、等電点の確率分布は配列長によって大きく変わるため、配列長が 345 以上と 345. 未満のタンパク質を分けてヒストグラムを作成する。 タンパク質が結晶化する確率 P は、この 9 つの指標から次のような式で算出する。 n. 1. pni. P= i=1. n はヒストグラムが作成されたタンパク質の指標の数(n = 9)、pi は作成されたヒストグ 1. ラムごとの確率分布を指している。n は重み付けである。つまり、P はそれぞれ作成された 9 つのヒストグラムの中からスコアリングしたいタンパク質が含まれる領域における確率 分布をかけ合わせた値となっている。 実験 ディスオーダー領域の予測には DISOPRED2[20]、二次構造コイルの予測には PSIPRED[21]、 コイルドコイル構造の予測には COILS[22]、マルチプルアラインメントに PSIBLAST を利用 した。 全てのテストデータセットに対してスコアリングし、そのスコアを基にサイズが同じに なるように 5 つのグループに分割し、 それぞれのグループで結晶化可否の割合を測定した。 その中で、スコアが最も良いグループにおける結晶化成功率が 57%、スコアが最も低いグ ループでは結晶化成功率は 10%となった。. 2. 1. 3 ParCrys ParCrys は、Overton ら[5]によって 2008 年に提案された手法である。 データセットの作成 . PDB3958 データセット PISCES[23]を用いて PDB から 3.0Å resolution 以下で maximum R-factor が 0.3 以下のタン. パク質を 25%以上の類似性を持ったタンパク質を取り除いた 3958 個のタンパク質から構成 されたデータセット。トレーニングデータとして使用する。. 8.
(9) . FEAT-W データセット. OB-Score に用いられた手法から DIF728 や WS6025 をポジティブとネガティブなデータセ ットとして作成した。このデータセットのポジティブデータとネガティブデータの割合は 実環境におけるものと同じものと仮定し、スコアから結晶化するタンパク質と結晶化しな いタンパク質の 2 つに分けるための閾値を決定するために使用する。 . DIF728 データセット. 2006 年 2 月における TargetDB から「Diffraction-quality Crystals」とラベル付けされた 728 個のタンパク質。 . WS6025 データセット. 「Crystals」がラベル付けされる前に「work stopped」とラベル付けされた 6025 個のタ ンパク質。 . FEAT データセット. 特徴選択のために使用されるデータセットである。DIF728 データセットとそれと同じサ イズになるように WS6025 データセットからランダムサンプリングした WS728 データセッ トから構成されている。 . DEVEL_U50 データセット FEAT データセットと PDB3958 データセットと UniRef50 を組み合わせたデータセットに. 低複雑性領域を持ったタンパク質を除外するために SEG を、コイルドコイルや膜貫通ヘリ ックスを含んだタンパク質を除外するために helixfilt[24]を適用したデータセット。テスト データセットからトレーニングデータに配列が類似したタンパク質を除外するために使用 する。 . TEST-W データセット. ポジティブとネガティブなデータセットのサイズの比が実環境と同じであると仮定して、 実環境でのタンパク質のスコアリングを評価するために利用される。 . T_POS72 データセット. 以下の手順で得られるテスト用のポジティブデータセットである。 1.. 2007 年 8 月における TargetDB から 2006 年 4 月以降に登録されたタンパク質が用 いられる。これは、FEAT データセットとの重複をさけるためである。この中から 「Diffraction-quality Crystals」とラベル付けしてあるが「In PDB」にラベル付けさ 9.
(10) れていないタンパク質を選ぶ。 2.. PSIBLAST(5 iterations)を用いて DEVEL_U50 データセットと一致するものを除 外する。. 3.. HMMER[25]を用いて Pfam[26]データセットと比較する。HMMER によって Pfam ファミリーごとにクラスタリングされるが、その中で最高のスコアを持ったタン パク質と Pfam ファミリーと一致しなかった 16 個のタンパク質を取り出す。. 4.. 取り出されたデータセットは AMPS[27]を用いて Z-score(閾値 = 5)でクラスタリ ングを行い、72 個のタンパク質を得た。. . T_NEG610 データセット. 1.. PepcDB[28]から「work stopped」 「Cloned」とラベル付けされているが、「Crystals」 などの結晶化を示唆するラベル付けがされていないタンパク質を選ぶ。ただし、 「test target」 「duplicate target found」とラベル付けしてあるタンパク質は除外して ある。. 2~4.. T_POS72 データセットと同じ手順。. 5. TargetDB と PepcDB では登録されたタンパク質が異なるため、T_POS72 データセッ トと類似したタンパク質は取り除く必要がある。そこで、T_POS72 データセットと UniRef50 から SEG と helixfilt を適用して TPOS_U50 データセットを作成する。 PSIBLAST を用いて TPOS_U50 データセットに類似したタンパク質を除外する。そ の結果、4 つのタンパク質が除外され 610 個のタンパク質を得た。 . TEST データセット T_POS72 データセットと T_NEG610 を T_POS72 と同じサイズとなるようにランダムサ ンプリングした T_NEG72 データセットから構成した。評価のために使用する。. . TEST-RL データセット 配列長が制限された手法である SECRET や CRYSTALP と比較するために利用されるテス. トデータセットである。 . T_POS43 データセット. T_POS72 データセットからアミノ酸配列長が 46 から 200 までの範囲に制限したデータ セット。 . T_NEG43 データセット 10.
(11) T_NEG610 データセットからアミノ酸配列長が 46 から 200 までの範囲に制限し、デー タセットのサイズが T_POS43 データセットと同じになるようにランダムサンプリング したデータセット。 . FEAT-RL データセット . DIF246 データセット. DIF728 データセットからアミノ酸配列長が 46 から 200 までの範囲に制限したデータセ ット。 . WS246 データセット. WS6025 データセットからアミノ酸配列長が 46 から 200 までの範囲に制限し、データ セットのサイズが DIF246 データセットと同じになるようにランダムサンプリングした データセット。 スコアリング手法 予測手法にはパルザン窓確率密度関数推定(Parzen window probability density function estimation)を用いる。パルザン窓確率密度関数推定には次のような式が用いられる。 𝒑 𝒙 =. 𝑵. 𝟏 𝑵. 𝟐𝝅𝒉. 𝑫 𝒏=𝟏. 𝟏 𝐞𝐱𝐩 − 𝟐. 𝒙 − 𝒙𝒏 𝒉. 𝟐. ここで、h はガウシアン関数の標準偏差、xn は D 次元の特徴を持ったトレーニングデータ、 N はトレーニングデータセットの数を表している。また、 𝑥 − 𝑥𝑛 はスコアリングするサン プルとトレーニングデータとのユークリッド距離である。D 次元の特徴には次の 3 種類の特 徴が用いられた。 . 20 種類のアミノ酸の出現確率. . pI. . 疎水性 pI は EMBOSS によって定義された pKa 値を使用して Bioperl の pI calculator モジュールで. 求めた。また、疎水性にはアミノ酸ごとに決められた GES 疎水性指標[29]を用いてアミノ 酸配列における総和を計算し、配列長で割った値を用いる。 トレーニングデータセット(xn に利用する)には PDB3958 データセットを使用し、FEAT データセットによって AROC が最大になるような h を特定した。その結果、h は 0.040 とな った。また、結晶化しやすいタンパク質と結晶化しにくいタンパク質の 2 つのクラスに分 11.
(12) 類するために、Accuracy が最大になるようにパルザン窓確率密度関数推定に閾値を設定す る。 また、FEAT データセットを用いて特徴選択を行う。 1.. pI、疎水性、20 種類のアミノ酸から 1 種類の 3 つを組み合わせて AROC を求めラ ンキングする。. 2.. ランキング上位の組み合わせから順々にアミノ酸を pI、疎水性の 2 つの組み合わ せに加えていき AROC を求めていく。. 結果として、pI、疎水性、6 種類のアミノ酸(Ser(S)、Cys(C) 、Gly(G) 、Phe(F)、Thr (Y) 、Met(M) )の 8 つの特徴の組み合わせが最も良い AROC が得られた。パルザン窓確 率密度関数推定に使用する特徴はこの 8 つを使用する。 実験 ParCrys における結晶化しやすいタンパク質と結晶化しにくいタンパク質の閾値は FEAT データセットから求めたところ 3,564,600 となった。この閾値を用いて比較した。TEST-RL、 TEST、TEST-W を用いて比較をした結果を表 1 に示す。ここで、ParCrys-W は閾値の決定 を FEAT-W を用いて行ったものである。. 12.
(13) 表 1. 関連研究間での比較. 手法. テストデータ. Accuracy(%). MCC. AROC. ParCrys. TEST-RL. 79.1. 0.582. 0.844. OB-Score. TEST-RL. 69.8. 0.402. 0.711. ParCrys-W. TEST-RL. 67.4. 0.384. 0.844. SECRET. TEST-RL. 58.1. 0.163. 0.580. CRYSTALP. TEST-RL. 46.5. -0.070. ParCrys. TEST. 71.5. 0.446. 0.752. OB-Score. TEST. 68.0. 0.370. 0.752. ParCrys-W. TEST. 64.6. 0.319. 0.681. ParCrys. TEST-W. 74.0. 0.227. 0.738. OB-Score. TEST-W. 55.3. 0.217. 0.738. ParCrys-W. TEST-W. 53.2. 0.211. 0.701. 2. 2. 結晶化可否を予測する手法. タンパク質の結晶化可否を予測する手法として、2. 2. 1 で SECRET、0 で CRYSTALP、 0 で CRYSTALP2、2. 2. 4 で MetaPPCP について紹介する。. 2. 2. 1 SECRET SECRET は、Smialowski[6]らによって結晶化可否を予測する手法として 2006 年に提案さ れた手法である。 13.
(14) データセットの作成 タンパク質立体構造決定を行うには、NMR と X 線結晶解析の 2 種類が用いられることが 多い。X線結晶解析はタンパク質の結晶を利用し、低コストで迅速に構造決定を行うこと が可能であるのに対し、NMR は結晶化する必要はないが、高コストで時間がかかってしま う。そのため、X線結晶解析によって構造が決定できなかった場合についてのみ NMR によ って構造決定が行われることが多い。この前提をふまえると、NMR によってのみ構造が決 定されたタンパク質を結晶化しないタンパク質、X線結晶解析によって構造決定されたタ ンパク質を結晶化したタンパク質として扱うことが可能である。 PDB から配列長が 30 から 200 までの立体構造既知のタンパク質を利用する。特に、X 線 結晶解析や NMR によって構造が決定されたタンパク質のみを抽出する。 . XRAY データセット X 線結晶解析よって構造決定されたデータセット。. . NMR データセット NMR よって構造決定されたデータセット。. . NMR_ONLY データセット NMR から BLAST(bit score cutoff = 30)[14]を使い XRAY に類似した配列のタンパク質 を取り除いたデータセット。. . NMR_XRAY データセット BLAST を使うことで XRAY との配列相同性が 75%以上で配列長の差が 10%以下であ るような XRAY と高い配列相同性を持った NMR データセット。. NMR_ONLY、XRAY_NMR、XRAY は CD-HIT[30][31]を使って 50%以上の類似性を持った 配列を取り除いた。その結果、NMR_ONLY、XRAY_NMR、XRAY は 288 種類、367 種類、 5026 種類のタンパク質から構成された。 しかし、一般的にX線結晶解析によって構造決定されたタンパク質は NMR によって構 造決定されたタンパク質のより配列は長い。そこで、配列長の分布に依存されないように、 NMR_ONLY、XRAY_NMR、XRAY の 3 つのデータセットをサンプリングする。結果として 3 つのデータセットを学習とテストに利用する。 . SMALL データセット 配列長が 46 から 200 までの NMR_ONLY と XRAY_NMR から構成されたデータセット(ポ 14.
(15) ジティブ 192 個、ネガティブ 226 個)。 . BIG データセット 配列長が 43 から 200 までの NMR_ONLY と XRAY から構成されたデータセット(ポジ ティブ 202 個、ネガティブ 721 個)。. . 前処理用データセット 配列長が 65 から 200 までの NMR_ONLY と XRAY_NMR から構成されたデータセット(ポ ジティブ 147 個、ネガティブ 147 個)。. . 評価用データセット TargetDB から以下のようにして作成する。 1.. 40 から 200 の範囲で、 「soluble」や「purified」とラベル付けしてあるが「crystallized」 や「crystals」や「diffraction」とラベル付けされていないタンパク質を結晶化しづら いタンパク質として抽出する。. 2.. 1 年以上ラベル付けに変化のないタンパク質を抽出する。. 3.. BLAST を用いて PDB のタンパク質、NMR_ONLY、XRAY_NMR、XRAY と 50%以 上の配列相同性を持ったタンパク質を取り除く。. 4.. CD-HIT を用いて 50%以上の類似性を持った配列を除外する。. 予測手法 機械学習によって結晶化するタンパク質と結晶化しづらいタンパク質の 2 つに予測する ため、学習に用いる特徴について説明する。 1.. タンパク質を構成する 20 種類のアミノ酸の出現確率。. 2.. 2 つの連続したアミノ酸(ジペプチド)の出現確率。ジペプチドは 400 種類から構成さ れる。. 3.. GES、Kyte-Doolittle、Roseman[32]の 3 つの疎水性指標ごとに 20 種類のアミノ酸を 3 つ の性質(疎水性、中性、酸性)に分類する。その後、3 つの性質に分類されたアミノ酸 配列から長さが 1、2、3 の連続した領域(後は、ワードサイズとする)の出現頻度を 利用する。それぞれ、3 種類、9 種類、27 種類から構成される。. 4.. アミノ酸を次の 3 つの距離行列によって階層的クラスタリングを行う。. . 突然変異コスト行列 15.
(16) 立体構造既知のタンパク質においてあるアミノ酸が他の 19 種類のアミノ酸に置換され るのに必要な自由エネルギーの平均によって構成される行列。 . 一般コドン行列 RNA からタンパク質に翻訳される際に使われるコドンの類似度をアミノ酸同士の類似 度として構成した行列。. . オール行列 AAIndex[33][34]から得られた 557 種類のアミノ酸の性質と距離行列から作られた行列。 この 3 つの距離行列と階層的クラスタリングによって 7 つのグループが作られた。その. 結果を表 2 に示す。このそれぞれのグループにおいてワードサイズ 1、2、3 の組み合わせ について出現頻度を計算する。 また、判別器は 2 層構造となっている。1 層目は、ガウスカーネルを用いたサポートベ クターマシン(SVM)[35]を利用する。4 種類の特徴ごと、ワードサイズごとに SVM で学 習させる。また、SVM やカーネルに使用されるパラメータには最適なものを利用し、10 ク ロスバリデーションによって性能を評価する。そして、2 層目は単純ベイズ(Naïve Bayes classifier)を利用する。入力には 1 層目の出力を利用し、1 層目で行った 10 クロスバリデー ションをそのまま 2 層目の判別器の評価に利用する。. 16.
(17) 表 2. 階層型クラスタリングの結果. グループ名. 距離行列の種類. クラスタリング手法. 階層の深さ. G1. オール行列. UPGMA[36]. 4. G2. オール行列. UPGMA. 5. G3. オール行列. UPGMA. 2. G4. 一般コドン行列. Neighbor joining[37]. 1. G5. 一般コドン行列. Minimal evolution[38]. 2. G6. 突然変異コスト行列. UPGMA. 2. G7. オール行列. UPGMA. 3 グループ. 実験 まず、1 層目の判別器の前処理には、前処理用データセットが利用された。全ての特徴 は 0 から 1 の範囲に標準化した。また、SECRET の性能評価には、Accuracy、MCC が用い られる。実験用に BIG と SMALL データセットを用い、MCC に基づいて最適な判別器を判 定する。 まず、前述の 4 つの特徴を別々に学習させ、ワードサイズごとにトップ 4 を求める。 SMALL データセットにおける結果を表 3 にまとめる。ワードサイズ 2 の G5 グループの結 果が最もよく 63.4%の Accuracy が得られた。次に、10 クロスバリデーションを行った 12 種類の判別器の出力を 2 層目の判別器の入力として使用した。その結果、SMALL と BIG デ ータセットについてそれぞれ Accuracy が 67%、60.9%が得られた。. 17.
(18) 表 3 SMALL データセットによる 1 層目(SVM)の予測結果. ワードサイズ. グループ名. γ. C. Accuracy(%). MCC. 1. None. 1. 4. 62.679. 0.252. 1. G4. 8. 1. 61.722. 0.234. 1. G2. 9. 1. 61.483. 0.230. 1. G5. 9. 2. 60.526. 0.209. 2. G5. 0.1. 4. 63.397. 0.266. 2. G3. 0.1. 6. 59.809. 0.196. 2. G4. 0.3. 1. 58.612. 0.172. 2. G1. 0.5. 2. 56.459. 0.128. 3. Kyte Doolittle. 2. 1.5. 58.134. 0.163. 3. Rose. 0.3. 40. 57.895. 0.157. 3. G7. 0.9. 4. 56.459. 0.129. 3. GES. 0.3. 40. 54.545. 0.090. 2. 2. 2 CRYSTALP CRYSTALP は、Chen ら[7]によって 2007 年に提案された手法である。 データセットの作成 . トレーニングデータセット. NMR のみによって構造が決定されたタンパク質をネガティブ、X線結晶解析によって構造 18.
(19) 決定されたタンパク質をポジティブなデータとして扱う。ネガティブ、ポジティブなデー タセットはそれぞれ CD-HIT クラスタリングを用いて 50%以上の類似性を持ったタンパク 質は取り除いた。また、NMR によって構造決定されるタンパク質は比較的小さなタンパク 質が多く、逆に、X 線結晶解析によって構造決定されるタンパク質は大きいため、それぞれ の分布は大きく異なる。そのため、データセットには 200 以下の配列長のタンパク質を利 用する。その結果、それぞれ 192 種類、226 種類のタンパク質から構成された。. 予測手法 予測手法には単純ベイズを用いる。単純ベイズに用いられる特徴ベクトルは次の 3 つか ら構成される。 1.. 20 種類のアミノ酸の出現確率。. 2.. ジペプチドの出現確率。. 3.. k 個のインターバル(k = 1, 2, 3, 4)を置いたアミノ酸ペアの出現確率。. 2 つのアミノ酸の間にインターバルを置く理由は隣接したアミノ酸ペアよりもタンパク質 の折りたたみに影響を与えることが報告されているためである。 しかし、2020 個の特徴から構成されているがこのまま学習に利用すると過学習を起こし てしまうため、特徴選択を行う。特徴選択はフィルター手法を用い、評価には相関に基づ いた CFSS[39]と呼ばれる評価手法、探索には最良優先探索を用いる。特徴選択は 10 クロス バリデーションを行い、5 回以上出現した特徴を重要な特徴として学習に用いる。その結果 46 種類の特徴(そのうち、45 種類はインターバルを置いたアミノ酸ペア、1 種類は Tyr(Y) のアミノ酸組成)まで次元削減が行われた。 評価 手法の精度を測る評価手法として、Accuracy、Sensitivity、Specificity、MCC が用いられ る。実験の評価は 10 クロスバリデーションで行われた。 単純ベイズ以外の学習手法として、SVM、ロジスティック回帰[40]、IBK[41]、C4.5[42] と比較する。結果を表 4 に示す。最も良い結果が得られた手法は、CLASTALP で用いられ た単純ベイズで Accuracy が 77.51%である。次に良い精度が得られたのが多項式カーネルを 用いた SVM である。他の 3 つの手法は良い精度が得られなかった。また、CLASTALP と SECRET の Accuracy はそれぞれ 77.51%と 66.99%となり、CLASTALP の方が 10.5%高い。 同様に、MCC、Sensitivity、Specificity も高いことが分かった。. 19.
(20) 表 4. 学習手法と Accuracy と MCC. 学習手法. Accuracy(%). MCC. CRYSTALP. 77.51. 0.55. SVM. 76.08. 0.52. ロジスティック回帰. 71.53. 0.43. IBK. 72.49. 0.46. C4.5. 61.96. 0.24. 2. 2. 3 CRYSTALP2 CRYSTALP2 は、Kugan ら[8]によって 2009 年に提案された手法である。 データセットの作成 . D418 データセット SECRET で使用されたデータセット。ネガティブとポジティブなデータはそれぞれ 192 個と 226 個の合計 418 個から構成される。. また、CRYSTALP2 と CRYSTALP、SECRET、OB-Score、ParCrys、XtalPred と比較するため に、ParCrys で使用された 3 つのデータセット(FEAT データセット、TEST データセット、 TEST-RL データセット)と新しく作成したデータセットを用いて比較を行う。 . FEAT データセット トレーニングデータセットとして扱う。ネガティブ 728 個、ポジティブ 728 個で構成 されている。. . TEST データセット テストデータセットとして使用する。ネガティブ 72 個、ポジティブ 72 個で構成され ている。. . TEST-RL データセット 20.
(21) テストデータセットとして使用する。ネガティブ 43 個、ポジティブ 43 個で構成され る。配列長が 46 から 200 までのタンパク質のみで構成されている。 一方、FEAT、TEST、TEST-RL データセットは 2007 年 4 月より前に登録されたタンパク 質から作成されたデータセットであることから、より新しく登録されたタンパク質から新 しいテストデータセット(TEST-NEW)を作成する。 . TEST-NEW データセット. ポジティブ 1000 個、ネガティブ 1000 個のタンパク質から構成され、タンパク質を精製し やすくするために C 末端や N 末端に付加されたヒスチジンタグを取り除いた。 . ポジティブデータセット TargetDB に 2008 年 12 月 31 日までに「Diffraction-quality Crystals」とラベル付けさ れており「In PDB」とラベル付けされていない 1000 個のタンパク質を利用する。. . ネガティブデータセット PepcDB から作成され、 「work stopped」とラベル付けあされているタンパク質と 「cloned」とラベル付けしてあるが「Crystals」とラベル付けされていないタンパク 質が選ばれた。ポジティブなデータと同様に 1000 個のタンパク質を選出した。. 予測手法 学習に利用する特徴は CLASTALP で利用された特徴に次の 4 つの特徴を加えている。 1.. 連続した 3 つのアミノ酸(トリペプチド)の出現確率. 2.. 1 つのインターバルを置いた 3 つのアミノ酸の出現確率。つまり、Ai-AjAk、AiAj-Ak、 Ai-Aj-Ak の 3 つの場合を考慮する(Ai-、Aj、Ak は 20 種類のアミノ酸のいずれかを示し、 -はインターバルを示している)。. 3.. pI. 4.. 疎水性 pI は ExPASy[43]サーバーで計算し、疎水性は GES 疎水性指標の総和から求められた。結. 果として特徴ベクトルは 34022 個から構成されたが、特徴の数に対してサンプルの数が非 常に尐ない。そこで、等電点と疎水性を除いたすべての特徴に対して特徴選択を行う。特 徴選択は CLASTALP と同様にフィルター手法を用い、評価には相関に基づいた CFSS と呼 ばれる評価手法、探索には最良探索を用いる。そして、特徴選択には D418 データセットを 使用し、5 クロスバリデーションを行う。クロスバリデーションによって 1 回でも有用であ 21.
(22) るとして選択された特徴は重要な特徴として学習に利用する。結果として、1103 個の特徴 が重要であるとして学習に利用される。 また、学習には normalized Gaussian RBF ネットワーク[44]を利用する。これは、ガウス RBF 関数に基づいた隠れ層を持ったニューラルネットワークである。RBF 関数は k-means クラスタリングを用いて計算され、判別はロジスティック回帰によって求められる。クラ スタの数は予測するクラスの数である 2 つ、ガウス RBF 関数の幅とロジスティック回帰の リッジ値は D418 データセットを用いた 10 クロスバリデーションによるグリッド探索で決 定する。その結果、ガウス RBF 関数の幅は 2.0、ロジスティック回帰のリッジ値は 140 とな った。 実験 実験結果は次の表 5、. 22.
(23) 表 6、 表 7、表 8 にまとめた。. 表 5. D418 データセットにおけるクロスバリデーションの結果. 予測手法. Accuracy(%). MCC. SECRET. 70.5. 0.34. CRYSTALP. 77.5. 0.55. CRYSTALP2. 77.5. 0.55. 23.
(24) 表 6. TEST-RL データセットにおける実験結果. 予測手法. Accuracy(%). MCC. CRYSTALP. 46.5. -0.07. SECRET. 58.1. 0.16. 0.58. OB-Score. 69.8. 0.40. 0.71. ParCrys. 79.1. 0.58. 0.84. XtalPred. 76.7. 0.54. 0.82. CRYSTALP2. 69.8. 0.40. 0.72. 表 7. AROC. TEST データセットにおける実験結果. 予測手法. Accuracy(%). MCC. AROC. OB-Score. 64.6. 0.32. 0.68. ParCrys. 71.5. 0.45. 0.75. XtalPred. 79.2. 0.58. 0.83. CRYSTALP2. 75.7. 0.52. 0.79. 24.
(25) 表 8. TEST-NEW データセットにおける実験結果. 予測手法. Accuracy(%). MCC. AROC. ParCrys. 70.6. 0.43. 0.75. XtalPred. 70.0. 0.40. 0.76. CRYSTALP2. 69.3. 0.39. 0.74. 2. 2. 4 MetaPPCP MetaPPCP は、Miziantya ら[9]によって 2009 年に提案された手法である。 データセットの作成 CLASTALP2 で用いられた TEST-NEW データセットを学習とテストに使用する。 . TRAINING データセット TEST-NEW データセットをランダムに選択した 1500 個のタンパク質で構成した。. . TEST500 データセット TRAINING データセットを覗いた 500 個のタンパク質で構成した。. . TEST144 データセット ParCrys で用いられた TEST データセットを使用する。. 予測手法 既存手法の予測結果を特徴として組み合わせることで予測精度を向上させた手法である。 特徴として利用する既存手法は . OB-Score. . ParCrys. . XtalPred. . CLYSTALP2 25.
(26) の 4 つである。また、XtalPred によって得られる . 配列長. . pI. . GRAVY. . 最も長いディスオーダー領域の長さ. . Instability index. . 配列中の二次構造コイルの割合. . コイルドコイルの残基数. . 膜貫通へリックスの数. . PDB から 60%の類似性を持った配列を除外したデータセット(NR データセット) に対するマルチプルアラインメントにおける挿入の割合. . NR データセットに対するマルチプルアラインメントによって得られた相同配列 の数. . シグナルペプチドの予測. の 11 種類の特徴も利用する。 これらの特長に対して線形ロジスティック回帰(LOG)、単純ベイズ(NB) 、SVM、C4.5、 logistic model tree(LMT)[45]の 5 つの学習器を適用した。それぞれに利用されるパラメー タは TRAINING データセットからすべての特徴を利用して 5 クロスバリデーションによっ て決定する。また、パラメータが決定されたそれぞれの学習器ごとに 5 クロスバリデーシ ョンの特徴選択を行う。特徴選択にはラッパー手法が用い、探索には forward selection と backward elimination が用いた。また、評価には 5 クロスバリデーションにおける MCC の平 均を利用する。そして、最後に特徴選択されたそれぞれの学習器に対して TRAINING デー タセットを用いてもう一度最適なパラメータを設定する。この結果を表 9 に示す。4 つの 既存手法よりも既存手法を組み合わせた手法の方が良い精度が得られていることが分かる。 SVM を用いた手法が最も良い精度が得られているが、どの特徴が有用であるかが明示的で はないため、LMT による手法のほうが予測手法として適切であると考え、MetaPPCP と名 づけた。. 26.
(27) 表 9. 学習手法ごとのクロスバリデーションの結果. 学習方法. 特徴選択. 特徴の数. Accuracy(%). MCC. SVM. Forward selection. 12. 79.33. 0.59. LMT. Forward selection. 5. 78.40. 0.58. NB. Backward elimination. 12. 77.67. 0.57. LOG. Forward selection. 8. 77.47. 0.55. C4.5. Backward elimination. 6. 76.80. 0.55. 実験結果 MetaPPCP による決定木には CRYSTALP2、XtalPred、NR データセットにおける相同配列 の数、GRAVY hydropathy index、等電点が利用された。XtalPred と CRYSTALP2 が選ばれる 理由としてはそれぞれの予測結果が逆である可能性が ParCrys や OB-Score と比較して高く なっているからである。また、TEST500 データセットと TEST144 データセットで実験した ところ、Accuracy がそれぞれ 81.0%、80.56%、MCC がそれぞれ 0.63、0.61 となった。. 2. 3. 関連研究の比較. 関連研究の特徴を表 10 にまとめる。SECRET と CRYSTALP は学習に用いたデータセッ トに配列長制限があるため、その配列長制限を越えたタンパク質に対して予測を行うのは 不適切である。また、ParCrys で行われた TEST-RL データセットにおける Accuracy と MetaPPCP で行われた TEST144 データセットにおける Accuracy を図 1 にまとめる。TEST-RL データセットは配列長に 46 から 200 までの制限を設けたデータセットであるが、最も良い 精度がえられているのは配列長に制限のない ParCrys の 79.1%であった。また、TEST144 デ ータセットで最も良い Accuracy を得たのは MetaPPCP の 80.6%であった。一方で、ParCrys の Accuracy は 68.8%と TEST-RL データセットの Accuracy より 10%以上低いものとなってい る。また、XtalPred はどちらの場合でも 75%以上の Accuracy を保っている。配列長に影響 されずに Accuracy が保たれた理由としては、XtalPred のみで利用されているコイルなどの 構造的な情報が用いられているからだと考えられる。つまり、タンパク質の構造を予測に 利用すれば配列長に対して冗長な予測が可能になる。 27.
(28) 表 10. 関連研究の特徴. 予測手法. 特徴数. 学習手法. 配列長制限. OB-Score[2]. 2. Z-Score. XtalPred[3][4]. 9. 特徴ごとの出現確率の積. ParCrys[5]. 8. パルザン窓確率密度関数推定. SECRET[6]. 103. SVM と単純ベイズの 2 層構造. 46 から 200. CRYSTALP[7]. 46. 単純ベイズ. 46 から 200. CRYSTALP2[8]. 88. normalized Gaussian RBF ネットワーク. MetaPPCP[9]. 5. logistic model tree. 90. TEST-RL. 85. TEST144. Accuracy (%). 80 75 70 65. 60 55 50 45 40 CRYSTALP. SECRET. OB-Score. ParCrys. XtalPred. 予測手法 図 1. 関連研究の Accuracy の比較. 28. CRYSTALP2. MetaPPCP.
(29) 第3章. 提案手法. 本研究では、タンパク質の構造情報としてディスオーダーを利用したタンパク質結晶化 予測を提案する。3. 1 において提案手法の概要について説明した後、3. 2 において提案手法 で利用されるディスオーダー予測、3. 3、3. 4、3. 5 では学習に利用される特徴について説明 する。. 3. 1. 提案手法の概要. タンパク質結晶化予測の学習フローチャートを図 2 に示す。まず、結晶化するタンパク 質と結晶化しないタンパク質の 2 種類のタンパク質から構成されたデータセットを作成す る(データセット) 。それぞれのタンパク質についてディスオーダー予測を行う(ディスオ ーダー予測) 。ディスオーダー予測によってタンパク質アミノ酸配列がオーダー領域とディ スオーダー領域に分けることができ、それぞれの領域ごとにアミノ酸組成を計算すること が可能になる。そして、得られたアミノ酸組成は有用な特徴のみを学習に利用するため、 特徴選択を行う。また、それぞれのタンパク質ごとに疎水性、pI を計算し学習器の特徴と して使用する。最後の SVM で学習を行う。ディスオーダー予測、アミノ酸組成、疎水性、 pI についてはそれぞれ 3. 2、3. 3、3. 4、3. 5 において説明する。. 29.
(30) トレーニングデータセット. •疎水性 •pI. ディスオーダー予測. を計算. •オーダーのアミノ酸組成 •ディスオーダーのアミノ酸組成. •ディスオーダーの割合 •最も長いディスオーダーの割合. を計算. を計算. 特徴選択. 特徴として使用. 特徴として使用. 特徴として使用. 学習器. 図 2. 3. 2. 提案手法の学習フローチャート. ディスオーダー予測. ディスオーダーとは、タンパク質の中で安定した構造を持たない領域のことである。逆 に、タンパク質の中で安定した構造を持った領域をオーダーと呼ぶ。ディスオーダーはタ ンパク質の結晶化を阻害する要因の 1 つと報告されている。 提案手法では、トレーニングデータセットに対してディスオーダー予測を行うことでデ ィスオーダーを特定する。タンパク質のディスオーダー、オーダーごとにアミノ酸組成を 30.
(31) 求め、学習に利用する。提案手法ではディスオーダー予測には POODLE[46]を使用する。ま た、アミノ酸配列におけるディスオーダーの割合とアミノ酸配列における最も長いディス オーダーの割合を利用する。アミノ酸配列における最も長いディスオーダーの割合を利用 する理由は XtalPred で最も長いディスオーダー領域の長さが学習に利用されていたからで ある。. 3. 3. アミノ酸組成. タンパク質は 20 種類のアミノ酸によって構成されている。20 種類のアミノ酸にはそれ ぞれ疎水性などのタンパク質の性質に関わる情報が含まれているため、どの関連手法でも 利用されている。 提案手法では、以下の特徴を利用する。 . 20 種類のアミノ酸の出現確率. . 2 連続したアミノ酸(ジペプチド)の出現確率. . k 個のインターバルを置いた 2 つのアミノ酸(𝑘 = 1, 2, 3)の出現確率. アミノ酸組成は、ディスオーダーとオーダーごとにそれぞれ 1620 個、合計で 3240 個の特 徴が得られるが、この中から特徴選択を行い、結晶化予測に有効な特徴のみを使用する。. 3. 4. 疎水性. 20 種類のアミノ酸にはそれぞれ疎水性と呼ばれる指標がある。これは、アミノ酸と水と の親和の度合いを測る指標として利用される。また、生物学的な実験において結晶化する タンパク質かどうかを調べるために考慮される指標の 1 つである。 20 種類のアミノ酸の疎水性指標には多くの指標がある。その中から、 . Engelman ら[29]による疎水性指標(GES). . Kyte ら[18]による疎水性指標. . Abraham ら[47]による疎水性指標. . Bull ら[48]による疎水性指標. . Guy[49]による疎水性指標. . Miyazawa ら[50]による疎水性指標 31.
(32) . Roseman[32]による疎水性指標. . Wolfenden ら[51]による疎水性指標. の 8 種類を利用する。それぞれの疎水性についてタンパク質アミノ酸配列における総和を 求め、特徴として利用する。. 3. 5. 等電点. 物質が液体に溶けてイオンに分かれることを一般的に電離と呼ぶ。特に、その物質が負 の電荷を帯びた負イオンとなる基と正の電荷を帯びた正イオンになる基を持ち合わせた場 合に限って、電離後の物質全体の電荷平均が 0 となるような pH を等電点(pI)と呼ぶ。 タンパク質は、アミノ基のような負イオンとなる部分とカルボキシル基のような正イオ ンとなる部分を持っている。そのため pI が存在する。一般的に、アスパラギン酸やグルタ ミン酸といったカルボキシル基が多い酸性アミノ酸は pI が低く、アルギニン、ヒスチジン、 リシンといったアミノ基が多い塩基性アミノ酸は pI が高い。 タンパク質の pI を求めるためには、酸解離定数(pKa)が使用される。pKa は酸の強さ を定量的に測る指標の 1 つであり、酸性アミノ酸の方が大きく、塩基性アミノ酸の方が低 い値を持つ。また、アミノ基とカルボキシル基についても pKa が決められているが、側鎖 以外にあるアミノ基とカルボキシル基はペプチド結合するため、ペプチド結合後に残る側 鎖以外のカルボキシル基とアミノ基は C 末端と N 末端の 2 つのみである。 提案手法では、pKa には EMBOSS によって決められた指標を利用する。EMBOSS によ って決められた pKa を表 11 に示す。C 末端にはカルボキシル基、N 末端にはアミノ基のこ とである。また、C、D、E、H、K、R、Y はそれぞれシステイン、アスパラギン酸、グル タミン酸、ヒスチジン、リシン、アルギニン、ロイシンである。 pI の計算方法を説明する。まず、タンパク質のアミノ酸配列から pKa が決められている アミノ酸の出現回数をそれぞれカウントする。ただし、C 末端と N 末端は 1 つずつしか存 在しない。C 末端、D、E、C、Y から 表 11. EMBOSS による pKa. C 末端. N 末端. C. D. E. H. K. R. Y. 3.6. 8.6. 8.5. 3.9. 4.1. 6.5. 10.8. 12.5. 10.1. 32.
(33) COUNTA i. CHARGEA i = −. 1 + 10pKa A i −pH. Ai = C 末端, D, E, C, Y. を計算し、また、N 末端、H、K、R から CHARGEA i =. COUNTA i 1 + 10pH −pKa A i. Ai = N 末端, H, K, R. を計算する。そして、CHARGEA i の総和 CHARGEA i = 0. G = {C 末端, N 末端, D, E, C, Y, H, K, R}. A i =G. となるような pH を求める。このような pH が pI である。. 3. 6. データセット. 学習に用いられるデータセットと評価に利用するデータセットについて説明する。 . 評価に利用するデータセット 関連研究との比較のため、関連研究で用意されたデータセットを使用する。 . TEST500 データセット MetaPPCP で評価に利用されたデータセット。. . TEST144 データセット ParCrys で評価に利用されたデータセット。. . トレーニングデータセット TargetDB に登録された全タンパク質から選ぶ。 . ポジティブデータセット 「Diffuraction-quarity Crystals」とラベルづけされているタンパク質から構成した。. . ネガティブデータセット 「Purified」とラベルづけされており、3 年以上ラベル付けに変化がないタンパク質、 または、 「Purified」とラベルづけされており、その 3 年以上あとに「work stopped」 とラベル付けされたタンパク質から構成した。. 33.
(34) トレーニングデータセットは非冗長なデータセットにするために、CD-HIT を用いて 50%以 上の同一性を取り除いたデータセットにする。また、TEST500 データセットと TEST144 デ ータセットと 50%以上の同一性を持ったタンパク質は CD-HIT を用いてトレーニングデー タセットから除外した。そして、トレーニングデータセットに含まれるタンパク質には精 製しやすくするために C 末端、N 末端にヒスチジンタグが付加されているものがある。そ こで、トレーニングデータセットから Carson ら[52]によって説明されているヒスチジンタ グを全て取り除いた。ポジティブとネガティブデータセットがそれぞれ 2500 個のタンパク 質となるようにランダムサンプリングし、トレーニングデータセットとして使用する。. 3. 7. 特徴選択. 特徴選択は、機械学習を行う際に、過学習を防ぐためや次元削減を行うために利用され ている。本研究では、特にトレーニングデータセットに対して特徴の数が多いために過学 習を防ぐことを目的に特徴選択を行う。特徴選択は、CRYSTALP2 のように、フィルター手 法を用い、評価には CFSS、探索には最良優先探索を用いる。特徴選択は 5 クロスバリデー ションで行い、5 クロスバリデーションにおいて 2 回以上特徴選択によって選ばれた特徴を 最終的に用いる。. 34.
(35) 第4章. 実験. 4. 1. 実験 1. TEST144 データセット、TEST500 データセットによって評価した場合の精度を求め、関 連 研 究 と 比 較 す る 。 最 適 な パ ラ メ ー タ を 選 択 す る た め 、 C = 0.001, 0.01, 0.1, 1, 5, 10, 50, 100,500、γ = 0.001, 0.01, 0.1, 1, 5, 10, 50, 100の組み合わせを試 し、5 クロスバリデーションにおける Accuracy の平均が最も良いパラメータを調べる。パ ラメータ設定の結果を図 3 に示す。結果として、C = 500、γ = 0.1のとき Accuracy が 66.9% となり最も良い Accuracy が得られた。 提案手法で用いるパラメータを最も良い Accuracy が得られるC = 500、γ = 0.1としたとこ ろ、関連研究との比較の結果は表 12、表 13 の通りとなった。表 12 から MetaPPCP、XtalPred に継ぐ Accuracy、MCC、Specificity が得られているが Sensitivity は 0.78 と最も低い結果とな った。また、表 13 から MetaPPCP に継ぐ Accuracy、MCC、Specificity が得られ、Sensitivity は 4 番目に良い結果となった。提案手法では 2 つの異なるテストデータセットを用いても 1.7%の誤差しかなく安定した予測を行えることが分かった。. 70.00%. γ=0.001. 65.00%. Accuracy (%). γ=0.01 γ=0.1. 60.00%. γ=1 γ=5. 55.00%. γ=10 γ=50. 50.00%. γ=100 0.001 0.01. 0.1. 1. 5. 10. 50. C. 図 3. パラメータ設定の結果. 35. 100. 500.
(36) 表 12. TEST144 データセットにおける実験結果. Accuracy(%). MCC. Sensitivity. Specificity. 提案手法. 75.7. 0.51. 0.78. 0.74. MetaPPCP. 80.7. 0.61. 0.82. 0.79. OB-Score. 67.4. 0.38. 0.88. 0.47. ParCrys. 68.8. 0.38. 0.88. 0.47. XtalPred. 79.2. 0.58. 0.79. 0.79. CRYSTALP2. 75.7. 0.52. 0.79. 0.72. 表 13. TEST500 データセットにおける実験結果. Accuracy(%). MCC. Sensitivity. Specificity. 提案手法. 74.0. 0.49. 0.81. 0.68. MetaPPCP. 81.0. 0.63. 0.89. 0.73. OB-Score. 73.0. 0.49. 0.89. 0.58. ParCrys. 73.4. 0.48. 0.84. 0.63. XtalPred. 72.4. 0.45. 0.77. 0.68. CRYSTALP2. 68.4. 0.37. 0.73. 0.64. 36.
(37) 4. 2. 実験 2. 実験 1 において TEST144 データセットによる評価では提案手法と CLYSTALP2 の Accuracy には誤差が見られなかった。CRYSTALP2 に用いられた特徴は提案手法におけるディスオー ダー予測を行わなかった手法と類似しているため、ディスオーダー予測によって精度向上 が行われたかを調べる必要がある。そこで、ディスオーダー予測を行った場合とディスオ ーダー予測を行わなかった場合における精度を比較する。それぞれのフローチャートを図 4 に示す。ディスオーダー、オーダーに分けて特徴を抽出することで精度に変化が見られる かを確認するため、学習に利用する特徴にはアミノ酸組成のみを使用する。また、最適な パラメータを選択するため、C = 0.001, 0.01, 0.1, 1, 5, 10, 50, 100、γ = 0.001, 0.01, 0.1, 1, 5, 10 の組み合わせを試し、5 クロスバリデーションにおける Accuracy の平均が最も良いパラメ ータを調べる。 ディスオーダー予測を行った場合とディスオーダー予測を行わなかった場合においてさ まざまなパラメータを組み合わせた結果をそれぞれ図 5、図 6 に示す。ディスオーダー予 測を行った場合、C = 50、γ = 10において Accuracy が 66.5%となり最も良い Accuracy が得 られた。また、ディスオーダー予測を行わなかった場合、C = 100、γ = 1のとき Accuracy が 66.2%となり最も良い Accuracy が得られた。 ディスオーダー予測を行った場合の方が Accuracy が 0.2%高い。Accuracy の向上がわずか であるため、ディスオーダー予測を行った場合の Accuracy が向上しているといえるかを調 べるため、t 検定によって評価する。t 検定を行うため、ディスオーダー予測を行った場合 とディスオーダー予測を行わなかった場合のそれぞれについて 5 クロスバリデーションに おいて最適だったパラメータを用いて 10 クロスバリデーションを行った。その結果を表 14 に示す。ディスオーダー予測ありとディスオーダー予測なしの場合の両方とも同じデータ セットから作成されたトレーニングデータセットを使用しているため、それぞれの分散は 同じであると仮定した。その場合、t 検定における P 値は 0.81 となり、有効水準を 5%とし ても遥かに大きな値となってしまった。10 クロスバリデーションの Accuracy の平均につい て、ディスオーダー予測ありとディスオーダー予測なしの場合では有効な精度向上は得ら れなかった。. 37.
(38) トレーニングデータセット. トレーニングデータセット. ディスオーダー予測. •オーダーのアミノ酸組成 •ディスオーダーのアミノ酸組成. •配列全体のアミノ酸組成 を計算. を計算. 特徴選択. 特徴選択. 特徴として使用. 特徴として使用. 学習器. 学習器. (A)ディスオーダー予測を行った場合 図 4. (B)ディスオーダー予測を行わなかった場合. (A)ディスオーダー予測を行った場合のフローチャートと(B)ディスオーダー予測 を行わなかった場合のフローチャート. 38.
(39) 70.00% 68.00% 66.00%. Accuracy (%). 64.00% γ=0.001. 62.00%. γ=0.01. 60.00%. γ=0.1. 58.00%. γ=1. 56.00%. γ=5. 54.00%. γ=10. 52.00% 50.00% 0.001. 0.01. 0.1. 1. 5. 10. 50. 100. C 図 5. パラメータ設定の結果(ディスオーダー予測を行った場合). 70.00% 68.00% 66.00%. Accuracy (%). 64.00% γ=0.001. 62.00%. γ=0.01. 60.00%. γ=0.1. 58.00%. γ=1. 56.00%. γ=5. 54.00%. γ=10. 52.00% 50.00% 0.001. 0.01. 0.1. 1. 5. 10. 50. 100. C. 図 6. パラメータ設定の結果(ディスオーダー予測を行わなかった場合). 39.
(40) 表 14. ディスオーダー予測ありとなしの Accuracy(10 クロスバリデーション) 1回. 2回. 3回. 4回. 5回. 6回. 7回. 8回. 9回. 10 回. ディスオーダー予測あり. 64.4%. 65.2%. 64.8%. 66.6%. 68.8%. 68.0%. 66.0%. 67.4%. 64.0%. 66.8%. ディスオーダー予測なし. 67.6%. 65.4%. 63.4%. 63.6%. 67.6%. 66.4%. 64.6%. 66.4%. 68.0%. 67.2%. 4. 3. 考察. 実験 2 において特徴選択で得られた特徴の数は、ディスオーダー予測を行った場合は 160 個(オーダー105 個、ディスオーダー55 個) 、ディスオーダー予測を行わなかった場合 80 個であった。特徴選択の結果から有用な特徴はオーダーに多いことが分かる。また、ディ スオーダー予測を行った場合とディスオーダー予測を行わなかった場合において共通する アミノ酸組成の特徴を表 15 に示す。表 15 における特徴の「*」は 1 個のインターバルを 指す。表 15 の中でオーダーのみと共通する特徴は 23 個、ディスオーダーのみと共通する 特長は 5 個となっている(C**E、K***C はどちらにも含まれる) 。このような 28 個の特徴 がディスオーダー予測を行わなかった場合における特徴(つまり、配列全体における特徴) として有用であることから、ディスオーダーやオーダーの特徴が配列全体におけるアミノ 酸組成の中にそれぞれ反映されていることが分かる。その結果、提案手法とディスオーダ ー予測を行わなかった場合での Accuracy が同程度であったと考えられる。 また、提案手法の特徴として利用したアミノ酸配列におけるディスオーダーの割合から ディスオーダーと結晶化の関係が読み取ることができた。トレーニングデータセット、 TEST144 データセット、TEST500 データセットについてアミノ酸配列におけるディスオー ダーの割合とタンパク質の数の関係をそれぞれ図 7、図 8、図 9 に示す。どのデータセッ トでもディスオーダーの割合が高いタンパク質ほど結晶化しないタンパク質の割合が高い ことが分かる。例えば、トレーニングデータセットでは、アミノ酸配列におけるディスオ ーダーの割合が 0.4 より大きければ 82.8%の確率で結晶化しないタンパク質である。このこ とから、アミノ酸配列におけるディスオーダーの割合からディスオーダーが結晶化を阻害 することが確認することができた。. 40.
(41) 表 15. 提案手法とディスオーダー予測を行わなかった場合において共通する特徴. ディスオーダー予測行わなかった場合の特徴. A***F、A*F、A*N、A*Y、AY、C、C***L、C***T、C**S、 オーダーの特徴 F***A、G***L、HW、PY、Q*R、T***M、T*W、TD、W***V、 (25 個) WD、Y***G、Y*A、YA、YN、C**E、K***C ディスオーダーの特徴 C***C、C**R、I***W、L***C、S、C**E、K***C (7 個). 1800. Crystallized. 1600. Noncrystallized. タンパク質の数. 1400 1200 1000 800 600 400 200 0 0. 0.1. 0.2. 0.3. 0.4. 0.5. 0.6. 0.7. 0.8. 0.9. 1. アミノ酸配列におけるディスオーダーの割合 図 7. アミノ酸配列におけるディスオーダーの割合とタンパク質の数(トレーニングデータセット). 41.
(42) 60. Crystallized Noncrystallized. タンパク質の数. 50 40. 30 20 10 0 0. 0.1. 0.2. 0.3. 0.4. 0.5. 0.6. 0.7. 0.8. 0.9. 1. アミノ酸配列におけるディスオーダーの割合 図 8. アミノ酸配列におけるディスオーダーの割合とタンパク質の数(TEST144 データセット). 180. Crystallized. 160. Noncrystallized. タンパク質の数. 140 120 100 80 60. 40 20 0 0. 0.1. 0.2. 0.3. 0.4. 0.5. 0.6. 0.7. 0.8. 0.9. 1. アミノ酸配列におけるディスオーダーの割合 図 9. アミノ酸配列におけるディスオーダーの割合とタンパク質の数(TEST500 データセット). 42.
(43) 第5章. おわりに. 本研究では、ディスオーダー領域を考慮したタンパク質の結晶化予測を提案した。提案 手法ではタンパク質アミノ酸配列をディスオーダー、オーダーの 2 つの領域に分割しそれ ぞれのアミノ酸組成を特徴として学習させ、TEST144 データセットでは 75.7%、TEST500 データセットでは 74.0%の Accuracy が得られた。一方で、ディスオーダー予測を行った場 合とディスオーダー予測を行わなかった場合の Accuracy を比較したところ大きな差が見ら れなかった。その理由がアミノ酸配列全体におけるアミノ酸組成にディスオーダー、オー ダーのアミノ酸組成の特徴が含まれているためであることを示した。また、アミノ酸配列 におけるディスオーダーの割合からディスオーダーがタンパク質の結晶化を阻害している ことが確認された。 また、提案手法における改善点を以下に挙げる。 . アミノ酸組成の特徴が他の特徴に比べて多く、提案手法の精度がアミノ酸組成に強く 依存する。. . 特徴として膜貫通ヘリックスやコイルドコイルを利用する。. この 2 点を改善することでより精度が向上すると思われる。. 43.
(44) 謝. 辞. 本研究を行う上で御指導を頂いた山名早人教授、産業技術総合研究所において御指導頂 いた生命情報工学研究センター副研究センター長の野口保客員教授、ディスオーダー予測 を御手伝い頂いた産業技術総合研究所特別研究員の廣瀬修一氏に深く御礼申し上げます。 そして、様々な面でお世話になった研究室の先輩、同輩、後輩もこの場を借りて御礼申し 上げます。. 44.
(45) 参考文献 [1]. Robert. F: Protein Structure Initiative: Phase 3 or Phase out. Science, 319, pp.1610-1613 (2008). [2]. I.M. Overton and G.J. Barton: A normalised scale for structural genomics target ranking: the OB-Score, FEBS Letters, 580, pp.4005–4009 (2006). [3]. L. Slabinski, L. Jaroszewski, L. Rychlewski, I.A. Wilson, S.A. Lesley and A. Godzik: XtalPred: a web server for prediction of protein crystallizability, Bioinformatics, 23, pp.3403–3405 (2007). [4]. L. Slabinski, L. Jaroszewski, A.P.C. Rodrigues, L. Rychlewski, I.A. Wilson, S.A. Lesley and A. Godzik: The challenge of protein structure determination—lessons from structural genomics, Protein Science, 16, pp. 2472–2482 (2007). [5]. I.M. Overton, G. Padovani, M.A. Girolami and G.J. Barton: ParCrys: a Parzen window density estimation approach to protein crystallization propensity prediction, Bioinformatics, 24, pp. 901–907 (2008). [6]. P. Smialowski, T. Schmidt, J. Cox, A. Kirschner and D. Frishman: Will my protein crystallize? A sequence-based predictor, Proteins, 62, pp.343–355 (2006). [7]. K Chen, L Kurgan and M Rahbari: Prediction of protein crystallization using collocation of amino acid pairs. Biochem Biophys Res Commun., 355, pp.764-769 (2007). [8]. L. Kurgan, A.A. Razib, S. Aghakhani, S. Dick, M.J. Mizianty and S. Jahandideh: CRYSTALP2: sequence-based protein crystallization propensity prediction, BMC Structural Biology, 9, p. 50 (2009). [9]. M. J. Miziantya and L. Kurgan: Meta prediction of protein crystallization propensity, Biochem Biophys Res Commun., 390, pp.10-15 (2009). [10]. Oldfield C.J., Ulrich, E.L., Cheng, Y., Dunker, A.K., and Markley, J.L: Addressing the intrinsic disorder bottleneck in structural proteomics, Proteins, 59,pp.444–453 (2005). [11]. Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, and Bourne PE: The Protein Data Bank. Nucleic Acids Res., 28, pp.235-242 (2000). [12]. Apweiler R, Bairoch A, Wu CH, Barker WC, Boeckmann B, Ferro S, Gasteiger E, Huang H, Lopez R, Magrane M, Martin MJ, Natale DA, O'Donovan C, Redaschi N, and Yeh LS: UniProt: the Universal Protein knowledgebase. Nucleic Acids Res., 32, D115-119 (2004). [13]. Wootton JC: Non-globular domains in protein sequences: automated segmentation using complexity measures. Comput Chem., 18, pp.269-285 (1994). 45.
(46) [14]. Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, and Lipman DJ: Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res., 25, pp.3389-3402 (1997). [15]. Chen L, Oughtred R, Berman HM, and Westbrook J: TargetDB: a target registration database for structural genomics projects. Bioinformatics, 20, pp.2860-2862 (2004). [16]. Rice P, Longden I, and Bleasby A: EMBOSS: the European Molecular Biology Open Software Suite. Trends Genet, 16, pp.276-277 (2000). [17]. Stajich JE, Block D, Boulez K, Brenner SE, Chervitz SA, Dagdigian C, Fuellen G, Gilbert JG, Korf I, Lapp H, Lehväslaiho H, Matsalla C, Mungall CJ, Osborne BI, Pocock MR, Schattner P, Senger M, Stein LD, Stupka E, Wilkinson MD, and Birney E: The Bioperl toolkit: Perl modules for the life sciences. Genome Res., 12, pp.1611-1618 (2002). [18]. Kyte J and Doolittle RF: A simple method for displaying the hydropathic character of a protein. J Mol Biol, 157, pp.105-32 (1982). [19]. Guruprasad K, Reddy BV, and Pandit MW: Correlation between stability of a protein and its dipeptide composition: a novel approach for predicting in vivo stability of a protein from its primary sequence. Protein Eng., 4, pp.155–161 (1990). [20]. Ward JJ, Sodhi JS, McGuffin LJ, Buxton BF, and Jones DT: Prediction and functional analysis of native disorder in proteins from the three kingdoms of life. J Mol Biol., 337, pp.635-45 (2004). [21]. Jones D T: Protein secondary structure prediction based on position-specific scoring matrices. J. Mol. Biol., 292, pp.196–202 (1999). [22]. Lupas A, Van Dyke M, and Stock J: Predicting Coled Coils from Protein Sequences. Science, 252, pp.1162-1164 (1991). [23]. Wang G and Dunbrack RL Jr: PISCES: a protein sequence culling server. Bioinformatics, 12, pp.1589-1591 (2003). [24]. D. Jones personal communication. [25]. Eddy SR: Profile hidden Markov models. Bioinformatics, 14, pp.755-763 (1998). [26]. Finn RD, Mistry J, Schuster-Böckler B, Griffiths-Jones S, Hollich V, Lassmann T, Moxon S, Marshall M, Khanna A, Durbin R, Eddy SR, Sonnhammer EL, and Bateman A: Pfam: clans, web tools and services. Nucleic Acids Res., 34, D247-251 (2006). [27]. Barton GJ and Sternberg MJ: A strategy for the rapid multiple alignment of protein sequences. Confidence levels from tertiary structure comparisons. J Mol Biol., 198, pp.327-337 (1987). [28]. http://pepcdb.pdb.org. 46.
(47) [29]. Engelman DM, Steitz TA, and Goldman A: Identifying nonpolar transbilayer helices in amino acid sequences of membrane proteins. Annu Rev Biophys Biophys Chem, 15, pp.321-353 (1986). [30]. Li W, Jaroszewski L, and Godzik A: Clustering of highly homologous sequences to reduce the size of large protein databases. Bioinformatics, 17, pp.282-283 (2001). [31]. Li W, Jaroszewski L, and Godzik A: Tolerating some redundancy significantly speeds up clustering of large protein databases. Bioinformatics, 18, pp.77-82 (2002). [32]. Roseman MA: Hydrophilicity of polar amino acid side-chains is markedly reduced by flanking peptide bonds. J Mol Biol, 200, pp.513-522 (1988). [33]. Kawashima S and Kanehisa M: AAindex: amino acid index database. Nucleic Acids Res., 28, p.374 (2000). [34]. Kawashima S, Ogata H, and Kanehisa M: AAindex: Amino Acid Index Database. Nucleic Acids Res., 27, pp.368-369 (1999). [35]. Cortes, C. and Vapnik, V: Support-Vector Networks, Machine Learning, 20, pp.273-297 (1995). [36]. Michener C and Sokal R: A quantitative approach to a problem in classification. Evolution, 11, pp.130-162 (1957). [37]. Saitou N and Nei M: The neighbor-joining method: a new method for reconstructing phylogenetic trees. Mol Biol Evol., 4, pp.406-425 (1987). [38]. Rzhetsky A and Nei M: Statistical properties of the ordinary least-squares, generalized least-squares, and minimum-evolution methods of phylogenetic inference. J Mol Evol., 35, pp.367-375 (1992). [39]. M Hall: Correlation based feature selection for machine learning. Ph. D. dissertation, University of Waikato, Dept of Computer Science (1999). [40]. Le C.S and Houwelingen J.C: Ridge estimators in logistic regression. Applied Statistics, 41, pp.191-201 (1992). [41]. Aha D and Kibler D: Instance-based learning algorithms. Machine Learning, 6, pp.37-366 (1991). [42]. Ross Q: C.45: Programs for Machine Learning, Morgan Kaufmann Publishers, San Mateo, CA (1993). [43]. http://www.expasy.ch/. [44]. Bugmann G: Normalized Gaussian Radial Basis Function networks. Neurocomputing, 20, pp.97-110 (1998). [45]. Landwehr N, Hall M, and Frank E: Logistic model trees. Machine Learning, 59, pp.161-205 (2005). 47.
関連したドキュメント
RESULT and DISCUSSION scoreA と合成スコアについて scoreA の精度を調べるために,学習セットである
実験 4.1 実験方法 Albrecht データセット[3](パラメータ数 7,プロジェクト数 24)
起こる。そのため,この波長領域の光が反射さ
3 数値実験 3.1 実験概要 交叉手法に dMSXF を用いた GA をタンパク質に適 用し,対象問題として Met-enkephalin
おわりに 本稿では,多くの反復計算が必要であるシミュレー ションによるタンパク質立体構造予測システムとして, NetSolve
NetSolve Farming 機能を用いて,Grid 環境における PSA/GAc マスタースレーブモデルを作成した.これま で NetSolve の API
ンパク質を、別々に NG108-15 細胞の成長円錐に発現した。その結果、WT
中でエンドヌクレアーゼである RNaseIII や RNaseE の作用