IPSJ SIG Technical Report Vol.2015-BIO-44 No /12/7 1,a) 1,b) 1,c) ( ) CATH CATH BLAST PSI-BLAST LSA 1. DNA DNA 4 A( ) T( ) G( ) C( ) 20 A( ) E(

(1)

タンパク質構造予測のための表現学習

椿真史

1,a)

新保仁

1,b)

松本裕治

1,c) 概要：本稿で我々はまず，近年急速に発展する機械学習，特に表現学習を用いた自然言語処理技術について概観する．そしてそれらの技術を，バイオインフォマティクスにおけるタンパク質の構造クラス分類へ適用する手法を提案する．自然言語処理における表現学習では，大規模な言語データ(コーパス)と教師なし機械学習手法を用いて，単語の意味を適切に捉える低次元ベクトル表現を獲得することができる．この単語ベクトルは汎用性が高く，自然言語処理の基礎研究だけでなく，情報検索や機械翻訳などのアプリケーションに至るまで現在幅広く利用されている．我々はこの表現学習を，タンパク質データベースであるCATHをコーパスとして適用することで，タンパク質の低次元ベクトル表現を獲得する．そしてこのタンパク質ベクトルを，CATHにおける構造クラス分類で評価する．実験は，BLASTでは検出が難しい相同性の低いタンパク質のみで行った．その結果，バイオインフォマティクスにおいて広く用いられる PSI-BLASTだけでなく，スペクトラムカーネルやLSAなどの既存の機械学習手法よりも，高精度かつ高速に構造クラスを分類することに成功した．

1. はじめに

生命情報，例えばDNAやタンパク質などは，ヌクレオチドやアミノ酸の配列として表現される．DNAは4種類のヌクレオチドであるA(アデニン)，T(チミン)，G(グアニン)，C(シトシン)から構成され，タンパク質は20種類のアミノ酸，例えばA(アラニン)，E(グルタミン酸)，F(フェニルアラニン)などから構成される．そして，これらの文字から構成される任意長の配列には，生命が持つ様々な情報がコードされている．例えば，“KEPEQL...AVS”というアミノ酸配列は，α-ヘリックスとβ-シートのサンドイッチ構造を持つなどの物理的な情報，さらには癌に対する影響や薬としての効用などの化学的な情報がコードされている．このような考え方は，我々が日常で用いる言語においても同様に当てはまる．例えば，“apple”, “gravitation”, “formulate”, “by”という単語が文法に基づいて，“Newton was inspired to formulate gravitation by watching the fall of an apple from a tree.” という文を構成し，そしてこの文はある特定の意味情報を表現している．このようなアナロジーを用いることで我々は，生命情報と言語情報との類似性を考えることができる．

1 _{奈良先端科学技術大学院大学}

Nara Institute of Science and Technology, 8916-5 Takayama, Ikoma, Nara 630-0192, Japan

a) _{[email protected]} b) _{[email protected]} c) _{[email protected]} 近年の自然言語処理では特に，単語ベクトル表現学習の研究が盛んに行われている[2], [3], [4], [5]．我々はこれらの手法を用いることで，単語の意味を表現するベクトルを獲得することができる．そしてこの単語ベクトルを用いることで，複数の単語から構成される文の意味を表現するベクトルを，新たに計算することができる．例えば最も単純な計算法では，文に含まれる単語のベクトルの平均を文ベクトルをする[6]．これと同様のアイディアは，前述の DNAやタンパク質などの配列に対しても適用することができる．つまり，DNAやタンパク質が持つ各々の文字から構成される任意長の配列は，何らかの意味，すなわち生命情報を持つベクトルとして表現することができるということである．前述のような自然言語処理の研究が行われる一方で，バイオインフォマティクスの研究では，タンパク質を様々な構造クラスに適切に分類することが重要とされる．そのような分類を，サポートベクターマシンなどの機械学習手法を用いて高精度に行うためには，まずタンパク質を何らかのベクトルで表現する必要がある．しかしその最初の段階において，以下のような問題が存在する．任意長のアミノ酸配列から構成されるタンパク質を，ベクトル空間においてどのように表現するのか？本稿ではこの問題を解決するために，自然言語処理におけ

(2)

Protein corpus p1 p2 pC ・・・ d-dimensional n-gram amino acid vectors (d=3, n=3 in this example) DEG WQL Word representation learning methods LSA Word2vec GloVe MNIFEMLRIDEGLRLKI… VLSEGEWQLVLHVWA… ADGIQDKICIGYLSNN… = = SNN = ・・・ Amino acid

sequence of protein Split into n-gram

Protein vector

…

Compositional function GRISMTVKK…DIEQEK

Learning of n-gram amino acid vectors

Composition of a protein representation from n-gram amino acid vectors

GRI RIS QEK 図1 提案法の概略図．我々はまず，n-gramアミノ酸をタンパク質の単語と定義した上でコーパスを作成する．次に，そのコーパスに対して自然言語処理における単語ベクトル表現学習を適用する．最後に，学習されたn-gramアミノ酸ベクトルからタンパク質ベクトルを構成する．る単語ベクトル表現学習を用いたタンパク質ベクトル表現学習を提案する．我々の目標は，効率的にタンパク質を表現する低次元ベクトルを獲得し，それを用いて高精度かつ高速にその構造クラスを分類あるいは予測することである．図1に提案法の概略図を示す．このアプローチで我々はまず，n-gramアミノ酸をタンパク質の単語と定義した上で，タンパク質データベースからコーパスを作成する．次に，そのコーパスに対して自然言語処理における単語ベクトル表現学習を適用する，本稿では，近年の代表的な手法であるWord2vec [4]とGlobal Vectors [5]を用いる．そ

して最後に，学習されたn-gramアミノ酸ベクトルからタンパク質ベクトル表現を構成する．我々はこのタンパク質ベクトルを，CATHの構造クラス分類を用いて評価することによって，その有用性を検証した．本研究の貢献は以下の3つである． ( 1 )近年の自然言語処理研究の単語ベクトル表現学習をバイオインフォマティクス研究に適用し，様々な既存手法と精度や速度について比較検証したのは，我々の知る限り本研究が初めてである． ( 2 )タンパク質ベクトルは教師なし機械学習によって獲得されたものであるが，BLASTでは検出が難しい相同性の低いタンパク質に対しても，既存手法より高精度かつ高速に構造クラスを分類することに成功した． ( 3 )我々のタンパク質ベクトルは，バイオインフォマティクスの様々な研究やアプリケーションにおいて，幅広く用いることができる．

2. 背景

この章で我々は，近年の自然言語処理研究における幾つかの単語ベクトル表現学習手法について概観する．詳細については，各論文とその実装を参照されたい．

2.1 Skip-gramとContinuous bag-of-words

Word2vec [4]のSkip-gramモデルでは，ターゲットの単語の周辺単語を予測するために有用なd 次元の単語ベクトルを学習する．より正確には，長さ T の単語列 w1, w2, w3, ..., wTを訓練データとして，以下で計算される確率 1 T T ∑ t=1 ∑ −c≤j≤c,j̸=0 log p(wt+j|wt) (1) の最大化を目的関数とする．ここで，cは周辺単語の数， wtはターゲットの単語(周辺単語における中心の単語)である．Skip-gramモデルでは，wtから周辺単語wt+jを予測する確率p(wt+j|wt)を，以下のように計算する． p(wt+j|wt) = exp(vwt+j⊤vwt) ∑W w=1exp(vw⊤vwt) . (2) W はすべての単語の異なり数(語彙数)，vwは単語wのd 次元ベクトルである．式(2)はソフトマックス関数と呼ばれ機械学習において広く用いられるが，word2vecでは語彙数W比例して計算コストが高くなるため実用的ではない(一般に語彙数は数万を越える)．この計算コストを削減するために，word2vecでは2つの手法が実装されている．階層的ソフトマックスとネガティブサンプリングである. 階層的ソフトマックスは，語彙数Wを直接用いることなく，式(2)における確率を推定する効率的な手法である．一方でネガティブサンプリングは，式(2)の内積をコーパスに出現する(w, c)のペアに対して最大化し，コーパスに出現しない(w, c′)のペア(これをネガティブサンプルと呼ぶ)に対して最小化することで，計算の効率化を図る．要約すると，Skip-gramは与えられた単語に対する周辺単語を予測する中で，単語ベクトル表現をランダム初期値から学習していくモデルである．一方で，word2vecで実装されてているもうひとつのモデルはContinuous bag-of-words と呼ばれ，Skip-gramとは逆のアプローチである．つまり，周辺単語のベクトルの総和からその中央の単語を予測する中で，単語ベクトル表現を学習していく(図3を参照)． 2.2 Global Vectors

Global Vectors [5] はGlobal Log-bilinear Regression

(GLR) に基づくモデルである．その特徴は，word2vec のようなローカルな文脈情報と，潜在意味解析のようなグローバルな単語の共起情報の双方を用いている点である． wiをi番目の単語，wiをwiのd次元ベクトル，cjを j番目の文書, cjをcjのd次元ベクトルとすると，Global Vectorsのコスト関数Jは以下のように定義される． J = W ∑ i,j=1 f (#(wi, cj))(w⊤i cj+ bi+ bj− log(#(wi, cj))2.

(3)

Original protein sequence

MNIFEMLRIDEG…

Words of proteins and Corpus _{● An amino acid is a word}

M N I F E M L R I … ● n-gram non-overlap split MNI FEM LRI DEG LRL … ● n-gram overlap split

MNI NIF IFE FEM MLR … 図2 本稿では，n-gramアミノ酸をタンパク質の単語として，overlap で分割する．ここで，Wは語彙数，#(w, c)は文書cに現れる単語wの数，biとbjはそれぞれ単語と文脈に対するバイアス項であり，これらは単語ベクトルwと文書ベクトルcと同様の学習パラメータである．そして，f (x)は重み関数であり， Penningtonら[5]はfを以下のように定義している． f (x) =    (x/xmax)α x < xmax 1 otherwise. (3) ここでαはハイパーパラメータであるがPenningtonら[5] は，行った幾つかの実験における適切な値としてこれを 0.75と定めている．このようにGlobal Vectorsの目的は，重み関数付き二乗誤差を最小化することである．この最適化には，近年開発されたAdaGrad [7]などの，効率的な勾配法が主に用いられる．

3. 提案法

この章で我々は，前章で述べた単語ベクトル表現学習を用いたタンパク質ベクトル表現学習を提案する．我々はまず，n-gramアミノ酸をタンパク質の単語と定義した上でコーパスを作成する．次に，そのコーパスに対して単語ベクトル表現学習を適用する，最後に，学習されたn-gram アミノ酸ベクトルからタンパク質ベクトルを構成する． 3.1 タンパク質における単語の定義とコーパスの作成我々は，単語ベクトル表現学習をタンパク質に適用するために，まずアミノ酸配列における単語を定義する．本稿では，n-gramアミノ酸をタンパク質の単語とする．n-gram アミノ酸とは，固定された長さnのアミノ酸配列である．またn-gramの分割法としては，overlapを用いる(図2を参照)．これらの手法は，Dongら[8]やその他のバイオインフォマティクス研究でよく用いられるものである．我々は，このn-gramアミノ酸とoverlap分割を用いることで，大規模なタンパク質データベースからコーパスを作成する．生物学的な観点からは，例えばパターン[9]やモチーフ[10]といったものをタンパク質の単語と定義することも可能だが，これらは今後の課題とする． 3.2 n-gramアミノ酸ベクトルの学習我々は，2章で述べたword2vecにおけるSkip-Gramと Skip-Gram Continuous Bag-of-Words Sum Input Output Input Output NIF IFE FEM MNI EML NIF FEM MNI EML IFE 図 3 Skip-gramは，与えられた単語に対する周辺単語を予測する中で，単語ベクトルを学習していく．一方でContinuous bag-of-wordsは，周辺単語のベクトルの総和からその中央の単語を予測する中で，単語ベクトルを学習していく．

Continuous bag-of-words，そしてGlobal Vectorの3つを，

前述したタンパク質コーパスに適用する．図3は，n-gram アミノ酸を単語としてoverlap分割されたタンパク質対して，word2vecを適用する概略図である．これによって我々は，n-gramアミノ酸に対するベクトル表現を獲得することができる． 3.3 タンパク質ベクトルの構成我々は，タンパク質であるアミノ酸配列Sに対するd次元ベクトル表現d(S)∈ Rdを，Sに含まれるn-gramアミノ酸ベクトルの平均として，以下のように定義する． d(S) = 1 |S| ∑ angram∈S d(angram). (4) ここで，|S|はSに含まれるn-gramアミノ酸の数，angram

はn-gramアミノ酸，そしてd(angram)∈ Rd はangramに

対するd次元ベクトル表現とする．これは，タンパク質に含まれるn-gramアミノ酸のbag-of-words表現であり， n-gramアミノ酸の系列情報は失われてしまう．しかしながら，このような単純な演算であっても，自然言語処理の様々なアプリケーションにおいてはある程度の性能を示すことが確認されている．

4. 実験

4.1 タンパク質コーパスと評価データセット我々はまず，3章で述べたタンパク質コーパスを作るために，タンパク質の階層的構造分類データベースである CATH*1_{を用いる．}_CATH_{の構造ラベルは，クラス}_(C:_タンパク質全体が取る大まかな二次構造)，アーキテクチャー (A:構造類似度が高いが，ホモロジーが認められないもの． SCOPのfoldに相当)，トポロジー(T:構造の一部が似て *1 _{http://www.cathdb.info/}

(4)

C: 1 Mainly Alpha A: 1.10 Orthogonal Bundle

T: 1.10.10 Arc Repressor Mutant, subunit A H: 1.10.10.10 "winged helix" repressor DNA…

C: 2 Mainly Beta A: 2.30 Roll T: 2.30.30 SH3 type barrels H: 2.30.30.40 SH3 Domains C: 3 Alpha Beta A: 3.60 4-Layer Sandwich T: 3.60.15 Metallo-beta-lactamase; Chain A H: 3.60.15.10 Metallo-beta-lactamase, chain A GSHMA… GIDPF… GRISM…

Sequence Structure Hierarchical labels of CATH

図4 CATHに登録されているタンパク質のアミノ酸配列とその構造，そして階層的なラベル(C, A, T, H)の例を示す．いることに基づく分類)，ホモロジー(H:配列相同性，構造類似性を考慮し共通祖先の存在が認められるもの．SCOP のsuperfamily に相当) の4つから構成されている(図4 参照)．また我々は，このCATHを用いて実験の評価データセットを作成し，構造クラス分類タスクを設定する．本稿では，BLASTを用いて相同性の低いタンパク質のみのデータセットを作成する．CATHに登録されている約9万のタンパク質から，BLASTのE-valueが10−3以上のタンパク質のみをフィルタリングする．その条件で得られたタンパク質の数は8718であり，それを4:1:5に分割し，それぞれを訓練データ(3923)，開発データ(436)，テストデータ (4359)とする．我々の目標は，相同性の低いタンパク質に対して，高精度にその構造クラスを予測することである．本稿では，最も単純なクラスCの予測のみを行う． 4.2 実装の詳細提案法と比較する既存手法には，相同性検索に広く用いられるPIS-BLAST，バイオインフォマティクスにおいて機械学習を用いた代表的な手法の一つであるスペクトラムカーネル，そしてDeerwester [11]の潜在意味解析(Latent Semantic Analysis (LSA))の3つとする．スペクトラムカーネルとLSAの実装は，Python，numpy，そしてscipy の巨大疎行列に対する効率的な分解アルゴリズムを用い

る．特にLSAは，自然言語処理研究において古くから単

語ベクトル表現として用いられているものであり，Dong

ら[8]によってバイオインフォマティクスに適用されてい

る．また我々は，単語ベクトル表現学習であるSkip-gram

(SG)，Continuous bag-of-words (CBOW)，そしてGlobal Vectors (GloVe)の実装について，それぞれのツールキットであるword2vec*2_と_Glove*3_{を用いる．そして分類器} *2 _{https://code.google.com/p/word2vec/} *3 _{http://nlp.stanford.edu/projects/glove/} Method Accuracy (%) PSI-BLAST 47.6 スペクトラムカーネル(Leslie et al. 2002) 63.0 LSA (Dong et al. 2006) 53.6

CBOW 68.3

SG 69.8

GloVe 71.2

表1 様々な既存法と提案法の精度の比較．LSA，word2vec，GloVe の次元数はすべて500次元とした．には，scikit-learn*4_{による実装のサポートベクターマシン} を用いる．モデルのハイパーパラメータは，開発データを用いてチューニングする．Word2vecやGloVeには多くのハイパーパラメータが存在するが，本稿では，3-gramアミノ酸をタンパク質の単語とした上で，その単語ベクトルの次元の違いによる性能を比較するに留める．その他のハイパーパラメータの違いが及ぼす影響の調査については，今後の課題とする．

5. 結果と考察

5.1 既存法と提案法の予測精度表1に，様々な既存法と提案法の結果を示す．以下，考察である． ( 1 )最も基本のベースラインであるPSI-BLASTが，最も低い精度となった．これは，E-valueが高く相同性の低いタンパク質のみからデータセットを作ったことで，適切なアライメントが取れなかったためである． ( 2 )スペクトラムカーネル[12]では，精度が60%を越える結果となった．スペクトラムカーネルでは，その特徴ベクトルが陽には計算されないが，陽に考えると， n-gramアミノ酸の頻度ベクトルがタンパク質ベクトルとなっている．このことから，頻度の情報は相同性の低いタンパク質の構造クラス分類においても，有効な特徴量であることが示唆される． ( 3 ) LSAについては，精度が低い結果となった．LSAはスペクトラムカーネルとは異なり，n-gramアミノ酸の頻度ベクトルを次元圧縮している．これによって失われる情報が原因で，分類精度が低下したと考えられる．このことは，次元圧縮によって得られる潜在的な情報を用いるよりもむしろ，共起頻度の情報をそのまま用いるスペクトラムカーネルの方が良い場合もあることを示している． ( 4 )提案法であるCBOW，SG，そしてGloVeは，すべてにおいて精度が65%を越える高い性能を示した．特に GloVeは70%を超えており，相同性の低いタンパク質であっても，その構造を高精度に予測することができ *4 _{http://scikit-learn.org/stable/index.html}

(5)

0.4 0.5 0.6 0.7 0.8 50 100 200 300 400 500

LSA CBOW SG GloVe

Protein vector dimensionality

Accuracy 図5 タンパク質ベクトルの次元と精度の関係．る．これはGloVeがword2vecとは異なり，ローカルな文脈情報とグローバルな共起情報の双方を考慮していることが，より頑健な予測に繋がったと考えられる． 5.2 タンパク質ベクトルの次元と精度あるいは速度の関係表5は，タンパク質ベクトルの次元と精度の関係を示している．一方で表6は，タンパク質ベクトルの次元と計算時間の関係を示している．以下，考察である． ( 1 )表5を見るように，タンパク質ベクトルの次元を増やすことによって，精度は多少向上するものの，おおむね一定である．また時に，次元の増加によって精度が下がる場合もある．単語ベクトル表現学習において，このベクトルの次元数は最も重要なパラメータではあるものの，CBOW，SG，そしてGloVeには他にも様々なパラメータが存在し，それらは相互に依存している．そのため，他のパラメータの調整も考慮した上で再び検証する必要があり，これは今後の課題である． ( 2 )表6を見るように，次元を増やせば増やすほど予測に時間がかかることがわかる．このことと表5から我々は，50次元程度のタンパク質ベクトルであってもある程度高精度に構造クラスを予測でき，かつその予測は10sec以内で行うことができるため，提案法が目指す高精度かつ高速な構造クラス分類は達成されたと言える．

6.

7. 結論

本稿で我々は，自然言語処理における単語のベクトル表現学習を用いて，タンパク質のベクトル表現を新たに獲得した．そしてこのタンパク質ベクトルを，CATHにおける構造クラス分類で評価した．実験では，バイオインフォマティクスにおいて広く用いられるPSI-BLASTだけでなく，スペクトラムカーネルやLSAなどの既存の機械学習手法よりも高精度かつ高速に，相同性が低いタンパク質の構造クラスを分類することに成功した．参考文献

[1] Searls, D. B.: The language of genes, Nature, Vol. 420, No. 6912, pp. 211–217 (2002).

[2] Bengio, Y., Ducharme, R., Vincent, P. and Janvin, C.: A neural probabilistic language model, Journal of Machine Learning Research (JMLR) (2003).

(6)

Kavukcuoglu, K. and Kuksa, P.: Natural Language Pro-cessing (Almost) from Scratch, The Journal of Machine Learning Research (JMLR) (2011).

[4] Mikolov, T., Chen, K., Corrado, G. and Dean, J.: Eﬃ-cient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781 (2013).

[5] Pennington, J., Socher, R. and Manning, C. D.: Glove: Global vectors for word representation, Proceedings of the Conference on Empirical Methods on Natural Lan-guage Processing (EMNLP) (2014).

[6] Mitchell, J. and Lapata, M.: Composition in Distribu-tional Models of Semantics, Cognitive Science, Vol. 34, No. 8, pp. 1388–1439 (2010).

[7] Duchi, J., Hazan, E. and Singer, Y.: Adaptive subgradi-ent methods for online learning and stochastic optimiza-tion, JMLR (2011).

[8] Dong, Q.-W., Wang, X.-L. and Lin, L.: Application of la-tent semantic analysis to protein remote homology detec-tion, Bioinformatics, Vol. 22, No. 3, pp. 285–290 (2006). [9] Dong, Q.-W., Lin, L., Wang, X.-L. and Li, M.-H.: A pattern-based SVM for protein remote homology detec-tion, IEEE (2005).

[10] Ben-Hur, A. and Brutlag, D.: Remote homology detec-tion: a motif based approach, Bioinformatics, Vol. 19, No. suppl 1, pp. i26–i33 (2003).

[11] Deerwester, S. C., Dumais, S. T., Landauer, T. K., Fur-nas, G. W. and Harshman, R. A.: Indexing by latent semantic analysis, JASIS (1990).

[12] Leslie, C. S., Eskin, E. and Noble, W. S.: The spectrum kernel: A string kernel for SVM protein classification., Pacific symposium on biocomputing, Vol. 7, pp. 566–575 (2002).

[13] Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D. and Lai, J. C.: Class-based n-gram models of nat-ural language, Computational linguistics, Vol. 18, No. 4, pp. 467–479 (1992).

[14] Blei, D. M., Ng, A. Y. and Jordan, M. I.: Latent dirichlet allocation, the Journal of machine Learning research, Vol. 3, pp. 993–1022 (2003).

[15] Widdows, D. and Cohen, T.: The semantic vectors pack-age: New algorithms and public tools for distributional semantics, Semantic Computing (ICSC), 2010 IEEE Fourth International Conference on, IEEE (2010). [16] Turney, P. D.: Domain and function: A dual-space

model of semantic relations and compositions, Journal of Artificial Intelligence Research (JAIR) (2012). [17] Erk, K.: Vector Space Models of Word Meaning and

Phrase Meaning: A Survey, Language and Linguistics Compass, Vol. 6, No. 10, pp. 635–653 (2012).

[18] Baroni, M., Bernardi, R. and Zamparelli, R.: Frege in space: A Program for Compositional Distributional Semantics, Linguistic Issues in Language Technologies (2013).

[19] Tsubaki, M., Duh, K., Shimbo, M. and Matsumoto, Y.: Modeling and Learning Semantic Co-Compositionality through Prototype Projections and Neural Networks, Proceedings of the Conference on Empirical Methods on Natural Language Processing (EMNLP) (2013). [20] Van de Cruys, T., Poibeau, T. and Korhonen, A.: A

Tensor-based Factorization Model of Semantic Compo-sitionality, North American Chapter of the Association for Computational Linguistics: Human Language Tech-nologies (NAACL-HLT) (2013).

[21] Socher, R., Perelygin, A., Wu, J. Y., Chuang, J., Man-ning, C. D., Ng, A. Y. and Potts, C.: Recursive deep

models for semantic compositionality over a sentiment treebank, Proceedings of the Conference on Empiri-cal Methods on Natural Language Processing (EMNLP) (2013).

[22] Ben-Hur, A. and Noble, W. S.: Kernel methods for predicting protein–protein interactions, Bioinformatics, Vol. 21, No. suppl 1, pp. i38–i46 (2005).

[23] Holley, L. H. and Karplus, M.: Protein secondary struc-ture prediction with a neural network, Proceedings of the National Academy of Sciences, Vol. 86, No. 1, pp. 152–156 (1989).

[24] Di Lena, P., Nagata, K. and Baldi, P.: Deep architec-tures for protein contact map prediction, Bioinformat-ics, Vol. 28, No. 19, pp. 2449–2457 (2012).

[25] Lena, P. D., Nagata, K. and Baldi, P. F.: Deep spatio-temporal architectures and learning for protein structure prediction, Advances in Neural Information Processing Systems, pp. 512–520 (2012).

IPSJ SIG Technical Report Vol.2015-BIO-44 No /12/7 1,a) 1,b) 1,c) ( ) CATH CATH BLAST PSI-BLAST LSA 1. DNA DNA 4 A( ) T( ) G( ) C( ) 20 A( ) E(

タンパク質構造予測のための表現学習

椿真史

新保仁

松本裕治

1.

はじめに

2.

背景

3.

提案法

4.

実験

5.

結果と考察

6.

関連研究

7.

結論