• 検索結果がありません。

Protein Subcellular Location PredictionUsing Principal Component Analysis 物理学専攻 野上 大地 1

N/A
N/A
Protected

Academic year: 2021

シェア "Protein Subcellular Location PredictionUsing Principal Component Analysis 物理学専攻 野上 大地 1"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

主成分分析を用いたタンパク質の細胞内局在の判別

Protein Subcellular Location PredictionUsing Principal Component Analysis

物理学専攻  野上 大地

1

研究背景・目的

 タンパク質の局在判別を正確に行うことができれば、医療や創薬に役立つことが期待されている。した がって、より早く正確に判別を行うことは非常に重要なことであると広く知られており、これまでに様々な 研究がなされてきている

[1][2][3][4]。また、判別を行う際に必要とする情報量は少ないほうが好ましい。よ

り単純で簡単な方法で精度の高い判別を目指したい。なので本研究では、中野らの先行研究

[5]

と同様の手 法を用いてタンパク質の細胞内局在の判別を行うことを目的とした。その結果、主成分分析と線形判別分 析による判別が局在判別に有効な手法であると確認出来たことを報告する。

2

使用したデータ・解析手法

2.1

データセット

 本研究では、データセットとして

MultiLoc Animal/Plant[6]

を用いた。MultiLocは

Sequence Similarity

80

%以下でタンパク質のアミノ酸配列データが記述されている、局在判別のベンチマーク用のデータセッ トである。

2.2

タンパク質の物理化学的指標

2.1

のアミノ酸配列データから、タンパク質の物理化学的指標44成分を計算する。求めた物理化学的指 標は二次構造の個数や各アミノ酸の割合などであり、先行研究

[5]

と同様のものである。計算には配列解析用 のソフトウェア

EMBOSS[7]

とタンパク質のシグナルペプチド予測ツール

SignalP[8]

を用いた。

EMBOSS

はフリーソフトウェアであり、配列のアラインメント、タンパク質のアミノ酸配列やヌクレオチド配列の解 析などに用いることが出来る。

2.3

主成分分析

 主成分分析は多変量解析の一つであり、ある集団について個体の特徴が多くの変数で測定されていると き、個体の特徴を総合的に表す少数の指標(主成分)を変数の線形結合で合成する手法である。主成分分析 によって得られる関数は元の変数の数と同数である。

主成分は次式で表される。まず、個体が

N

個、変数が

m

個あるデータを

X i = (x i1 , x i2 , x i3 ,

…, x

im ), i = 1, 2, 3,

…, N と表す。すると

i

番目の個体の第1主成分を

P C i

として表すと、

P C i = ∑

j

a j x ij

となる。この時

a j

は合成変数

P C i

の分散、つまり情報量を最大化するように決定される。 同様に(図 2)のようにデータの広がり(分散)の大きい方向を順に第2主成分、第3主成分、・・・と計算していく。 

本研究においては個体がタンパク質、変数が各物理化学的指標となる。

1

(2)

2.4

判別分析

 判別分析は、あるデータがいくつかのグループに分かれる場合に、グループ分けの基準(判別関数)を調 べる分析手法である。本研究においては、(各データセットのタンパク質数×44成分)のデータに主成分 分析を行い主成分を計算し、情報量が少なくデータの差異がなくなる第34主成分以降を省いた。そして 第1から第2主成分、第1から第3主成分、・・・、第1から第33主成分まで、主成分数を増やしながらそ れぞれについて線形判別関数を求めた。 判別関数は次のように定式化できる。まず、N 個の個体が

k

個 の変数を持つデータを

X i = (x i1 , x i2 , x i3 ,

, x ik ), i = 1, 2, 3,

, N

と表す。

d

次元空間の

N

個のデータを2分割する面を考えると、その面に直交する直線

z i = ∑

k

a k x ik

が判別関数である。このとき係数

a k

は、直線

z

上にある

N

個の点の重心からの距離の二乗の和

N

i=1

(z i z) 2 = ∑

k n

k

i=1

(z i z k ) 2 +

N

i=i

(z z k ) 2 ,

→ 

S T = S W + S B

S B

(全体の重心とグループの重心の距離の二乗)を大きく、S

W

(各グループの重心からの距離の二 乗)を小さくするように決定される。

2.5

解析手順

 まずデータセットのタンパク質の物理化学的指標を算出し、主成分分析にかけた。そして、局在部位を任 意に2つ選択し、数の多い局在を数の少ない局在の数で分割した(余りが出る場合には分割した最後のグ ループに余りを含める)。

 数の多い局在のデータを

A、数の少ない局在のデータを B

とし、分割されたものを

A 1 , A 2 ,

…, A

M

とす る。

 まず主成分数を2つからはじめ、A

1

B

で判別関数を求める。求めた判別関数ですべてのタンパク質の 局在を判別し

posterior(以下 P)を算出した。

 同様の作業を

A 2 , A 3 ,

…, A

M

についても行い、Pの平均

P

AB

について

P A = exp [ 1

M

M

k=1

ln(P Ak ) ]

P B = exp [ 1

M

M

k=1

ln(P Bk ) ]

のように算出し、

P

の大きいほうの局在を選択する。さらにすべての局在部位の組み合わせで同様に行う。

 最後にどの局在に判別されたかの回数をとり一番大きいものを判別結果とした。

2

(3)

3

解析結果

3.1 MultiLoc Animal

MultiLoc Animal

では、第32主成分まで用いた判別が最も判別率が高く、(図4)のように結果が得られ

た。

1:

結果

Animal

判別結果と実際の局在が異なっている局在も多く見られるが、判別率は約6割という結果を得ることがで きた。

3.2 MultiLoc Plant

MultiLoc Plant

では、第33主成分まで用いた判別が最も判別率が高く、(図5)のように結果が得られた。

2:

結果

Plant

3

(4)

こちらも同様に誤判別している局在も多く見られるが、判別率は約6割という結果を得ることができた。

判別率は 判別率

=

対角成分の和

全体の総和 で算出している。

3.3

判別の性能に関して

 機械学習による判別の性能の基準になる値として、

M atthews Correlation Coef f icient

(M CC)

という値がある。4.1、4.2の結果から

M CC

を算出すると、高いものでも約

0.12

程で、判別の性能は良い とは言えない。

3.4

精度の向上

 本研究において、主成分は44の指標全てを用いて算出しているが、その指標のうちどれかが雑音にな り精度を下げている可能性も考えられる。

4

結論

 判別結果は約6割の判別率を得られたので、局在判別するにあたって主成分分析と線形判別分析を用い て判別する本研究の手法は有効であると言える。しかし判別の質は低く、精度の向上のために、より特徴的 な指標を選択する必要がある。それは、各指標の値に掛かる判別関数の各係数と主成分係数を算出するこ とで選択することができると考えられる。

参考文献

[1] Park K.-J., Kanehisa M. and Akiyama Y.: PLOC: Prediction of Subcellular Location of Proteins, GENOME INFORMATICS SERIES, pp.559-560 (2003).

[2] Matsuda S., Vert J. P., Saigo H., Ueda N., Toh H. and Akutsu T.: A novel representation of protein sequences for prediction of

subcellularlocation using support vector machines, Protein Sci., Vol.

14, No. 11,pp. 2804-2813 (2005).

[3] Imai K. and Nakai K.: Prediction of subcellular locations of proteins:where to proceed?, Proteomics, Vol. 10, No. 22, pp. 3970-3983(2010).

[4] Yoon Y. and Lee G G.: Subcellular Localization Prediction through Boosting Association Rules, IEEE/ACM Trans Comput Biol Bioinform(2011).

[5] Nakano Yuichi, Taguchi Y-h.: Feature extraction for discriminance of symbiotic/parasitic bacterial type III effector protein using principal component analysis, 2011 IEEE International Conference on Bioinformatics & Biomedicine, vol.2, pp.964-965 (2011).

[6] MultiLoc:http://abi.inf.uni-tuebingen.de/Services/MultiLoc

[7] Rice M. Peter, Bleasby J. Alan, Ison C. Jon: EMBOSS User’s Guide: Practical Bioinformatics, Cambridge University Press, 2011

[8] SignalP 3.0 Server http://www.cbs.dtu.dk/services/SignalP-3.0/

[9]

舟尾暢男:

The R Tips―データ解析環境 R

の基本技・グラフィックス活用集,オーム社, 2009

4

参照

関連したドキュメント

Regional Clustering and Visualization of Industrial Structure based on Principal Component Analysis for Input-output Table Data.. Division of Human and Socio-Environmental

東京大学 大学院情報理工学系研究科 数理情報学専攻. [email protected]

In the present paper, the methods of independent component analysis ICA and principal component analysis PCA are integrated into BP neural network for forecasting financial time

Secondly, the enumeration of finite group actions is a principal component of the analysis of singularities of the moduli space of conformal equivalence classes of Riemann surfaces of

RIMS Summer School (COSS 2018), Kyoto, July 2018.. Discrete Convex

As we saw before, the first important object for computing the Gr¨ obner region is the convex hull of a set of n > 2 points, which is the frontier of N ew(f ).. The basic

We also prove that principal (left) bundles lead to a bicategory together with a 2-functor from flat Hopf algebroids to trivial principal bundles. This turns out to be the

Keywords: Electrocardiogram; Parameterization; Quadratic spline wavelet; PCA variance estimator; Feature extraction; Validation; Principal component analysis; Independent