• 検索結果がありません。

IPSJ SIG Technical Report Vol.2015-BIO-44 No /12/7 1,a) 1,b) 1,c) ( ) CATH CATH BLAST PSI-BLAST LSA 1. DNA DNA 4 A( ) T( ) G( ) C( ) 20 A( ) E(

N/A
N/A
Protected

Academic year: 2021

シェア "IPSJ SIG Technical Report Vol.2015-BIO-44 No /12/7 1,a) 1,b) 1,c) ( ) CATH CATH BLAST PSI-BLAST LSA 1. DNA DNA 4 A( ) T( ) G( ) C( ) 20 A( ) E("

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

タンパク質構造予測のための表現学習

椿真史

1,a)

新保仁

1,b)

松本裕治

1,c) 概要:本稿で我々はまず,近年急速に発展する機械学習,特に表現学習を用いた自然言語処理技術につい て概観する.そしてそれらの技術を,バイオインフォマティクスにおけるタンパク質の構造クラス分類へ 適用する手法を提案する.自然言語処理における表現学習では,大規模な言語データ(コーパス)と教師 なし機械学習手法を用いて,単語の意味を適切に捉える低次元ベクトル表現を獲得することができる.こ の単語ベクトルは汎用性が高く,自然言語処理の基礎研究だけでなく,情報検索や機械翻訳などのアプリ ケーションに至るまで現在幅広く利用されている.我々はこの表現学習を,タンパク質データベースであ るCATHをコーパスとして適用することで,タンパク質の低次元ベクトル表現を獲得する.そしてこの タンパク質ベクトルを,CATHにおける構造クラス分類で評価する.実験は,BLASTでは検出が難しい 相同性の低いタンパク質のみで行った.その結果,バイオインフォマティクスにおいて広く用いられる PSI-BLASTだけでなく,スペクトラムカーネルやLSAなどの既存の機械学習手法よりも,高精度かつ高 速に構造クラスを分類することに成功した.

1.

はじめに

生命情報,例えばDNAやタンパク質などは,ヌクレオ チドやアミノ酸の配列として表現される.DNAは4種類 のヌクレオチドであるA(アデニン),T(チミン),G(グアニ ン),C(シトシン)から構成され,タンパク質は20種類の アミノ酸,例えばA(アラニン),E(グルタミン酸),F(フェ ニルアラニン)などから構成される.そして,これらの文 字から構成される任意長の配列には,生命が持つ様々な情 報がコードされている.例えば,“KEPEQL...AVS”とい うアミノ酸配列は,α-ヘリックスとβ-シートのサンドイッ チ構造を持つなどの物理的な情報,さらには癌に対する影 響や薬としての効用などの化学的な情報がコードされてい る.このような考え方は,我々が日常で用いる言語におい ても同様に当てはまる.例えば,“apple”, “gravitation”, “formulate”, “by”という単語が文法に基づいて,“Newton was inspired to formulate gravitation by watching the fall of an apple from a tree.” という文を構成し,そしてこの 文はある特定の意味情報を表現している.このようなアナ ロジーを用いることで我々は,生命情報と言語情報との類 似性を考えることができる.

1 奈良先端科学技術大学院大学

Nara Institute of Science and Technology, 8916-5 Takayama, Ikoma, Nara 630-0192, Japan

a) [email protected] b) [email protected] c) [email protected] 近年の自然言語処理では特に,単語ベクトル表現学習の 研究が盛んに行われている[2], [3], [4], [5].我々はこれら の手法を用いることで,単語の意味を表現するベクトルを 獲得することができる.そしてこの単語ベクトルを用いる ことで,複数の単語から構成される文の意味を表現するベ クトルを,新たに計算することができる.例えば最も単純 な計算法では,文に含まれる単語のベクトルの平均を文 ベクトルをする[6].これと同様のアイディアは,前述の DNAやタンパク質などの配列に対しても適用することが できる.つまり,DNAやタンパク質が持つ各々の文字か ら構成される任意長の配列は,何らかの意味,すなわち生 命情報を持つベクトルとして表現することができるという ことである. 前述のような自然言語処理の研究が行われる一方で,バ イオインフォマティクスの研究では,タンパク質を様々な 構造クラスに適切に分類することが重要とされる.そのよ うな分類を,サポートベクターマシンなどの機械学習手法 を用いて高精度に行うためには,まずタンパク質を何らか のベクトルで表現する必要がある.しかしその最初の段階 において,以下のような問題が存在する. 任意長のアミノ酸配列から構成されるタンパク質 を,ベクトル空間においてどのように表現するの か? 本稿ではこの問題を解決するために,自然言語処理におけ

(2)

Protein corpus p1 p2 pC ・・・ d-dimensional n-gram amino acid vectors (d=3, n=3 in this example) DEG WQL Word representation learning methods LSA Word2vec GloVe MNIFEMLRIDEGLRLKI… VLSEGEWQLVLHVWA… ADGIQDKICIGYLSNN… = = SNN = ・・・ Amino acid

sequence of protein Split into n-gram

Protein vector

Compositional function GRISMTVKK…DIEQEK

Learning of n-gram amino acid vectors

Composition of a protein representation from n-gram amino acid vectors

GRI RIS QEK 図1 提案法の概略図.我々はまず,n-gramアミノ酸をタンパク質 の単語と定義した上でコーパスを作成する.次に,そのコーパ スに対して自然言語処理における単語ベクトル表現学習を適 用する.最後に,学習されたn-gramアミノ酸ベクトルから タンパク質ベクトルを構成する. る単語ベクトル表現学習を用いたタンパク質ベクトル表現 学習を提案する.我々の目標は,効率的にタンパク質を表 現する低次元ベクトルを獲得し,それを用いて高精度かつ 高速にその構造クラスを分類あるいは予測することであ る.図1に提案法の概略図を示す.このアプローチで我々 はまず,n-gramアミノ酸をタンパク質の単語と定義した 上で,タンパク質データベースからコーパスを作成する. 次に,そのコーパスに対して自然言語処理における単語ベ クトル表現学習を適用する,本稿では,近年の代表的な手 法であるWord2vec [4]とGlobal Vectors [5]を用いる.そ

して最後に,学習されたn-gramアミノ酸ベクトルからタ ンパク質ベクトル表現を構成する.我々はこのタンパク質 ベクトルを,CATHの構造クラス分類を用いて評価するこ とによって,その有用性を検証した. 本研究の貢献は以下の3つである. ( 1 )近年の自然言語処理研究の単語ベクトル表現学習をバ イオインフォマティクス研究に適用し,様々な既存手 法と精度や速度について比較検証したのは,我々の知 る限り本研究が初めてである. ( 2 )タンパク質ベクトルは教師なし機械学習によって獲得 されたものであるが,BLASTでは検出が難しい相同 性の低いタンパク質に対しても,既存手法より高精度 かつ高速に構造クラスを分類することに成功した. ( 3 )我々のタンパク質ベクトルは,バイオインフォマティ クスの様々な研究やアプリケーションにおいて,幅広 く用いることができる.

2.

背景

この章で我々は,近年の自然言語処理研究における幾つ かの単語ベクトル表現学習手法について概観する.詳細に ついては,各論文とその実装を参照されたい.

2.1 Skip-gramContinuous bag-of-words

Word2vec [4]のSkip-gramモデルでは,ターゲットの 単語の周辺単語を予測するために有用なd 次元の単語 ベクトルを学習する.より正確には,長さ T の単語列 w1, w2, w3, ..., wTを訓練データとして,以下で計算される 確率 1 T Tt=1−c≤j≤c,j̸=0 log p(wt+j|wt) (1) の最大化を目的関数とする.ここで,cは周辺単語の数, wtはターゲットの単語(周辺単語における中心の単語)で ある.Skip-gramモデルでは,wtから周辺単語wt+jを予 測する確率p(wt+j|wt)を,以下のように計算する. p(wt+j|wt) = exp(vwt+j⊤vwt) ∑W w=1exp(vw⊤vwt) . (2) W はすべての単語の異なり数(語彙数),vwは単語wd 次元ベクトルである.式(2)はソフトマックス関数と呼ば れ機械学習において広く用いられるが,word2vecでは語 彙数W比例して計算コストが高くなるため実用的ではな い(一般に語彙数は数万を越える).この計算コストを削減 するために,word2vecでは2つの手法が実装されている. 階層的ソフトマックスとネガティブサンプリングである. 階層的ソフトマックスは,語彙数Wを直接用いることな く,式(2)における確率を推定する効率的な手法である. 一方でネガティブサンプリングは,式(2)の内積をコーパ スに出現する(w, c)のペアに対して最大化し,コーパスに 出現しない(w, c′)のペア(これをネガティブサンプルと呼 ぶ)に対して最小化することで,計算の効率化を図る. 要約すると,Skip-gramは与えられた単語に対する周辺単 語を予測する中で,単語ベクトル表現をランダム初期値から 学習していくモデルである.一方で,word2vecで実装され てているもうひとつのモデルはContinuous bag-of-words と呼ばれ,Skip-gramとは逆のアプローチである.つまり, 周辺単語のベクトルの総和からその中央の単語を予測する 中で,単語ベクトル表現を学習していく(図3を参照). 2.2 Global Vectors

Global Vectors [5] はGlobal Log-bilinear Regression

(GLR) に基づくモデルである.その特徴は,word2vec のようなローカルな文脈情報と,潜在意味解析のようなグ ローバルな単語の共起情報の双方を用いている点である. wii番目の単語,wiwid次元ベクトル,cjj番目の文書, cjcjd次元ベクトルとすると,Global Vectorsのコスト関数Jは以下のように定義される. J = Wi,j=1 f (#(wi, cj))(w⊤i cj+ bi+ bj− log(#(wi, cj))2.

(3)

Original protein sequence

MNIFEMLRIDEG…

Words of proteins and Corpus ● An amino acid is a word

M N I F E M L R I … ● n-gram non-overlap split MNI FEM LRI DEG LRL … ● n-gram overlap split

MNI NIF IFE FEM MLR … 図2 本稿では,n-gramアミノ酸をタンパク質の単語として,overlap で分割する. ここで,Wは語彙数,#(w, c)は文書cに現れる単語wの 数,bibjはそれぞれ単語と文脈に対するバイアス項であ り,これらは単語ベクトルwと文書ベクトルcと同様の 学習パラメータである.そして,f (x)は重み関数であり, Penningtonら[5]はfを以下のように定義している. f (x) =    (x/xmax)α x < xmax 1 otherwise. (3) ここでαはハイパーパラメータであるがPenningtonら[5] は,行った幾つかの実験における適切な値としてこれを 0.75と定めている.このようにGlobal Vectorsの目的は, 重み関数付き二乗誤差を最小化することである.この最適 化には,近年開発されたAdaGrad [7]などの,効率的な勾 配法が主に用いられる.

3.

提案法

この章で我々は,前章で述べた単語ベクトル表現学習を 用いたタンパク質ベクトル表現学習を提案する.我々はま ず,n-gramアミノ酸をタンパク質の単語と定義した上で コーパスを作成する.次に,そのコーパスに対して単語ベ クトル表現学習を適用する,最後に,学習されたn-gram アミノ酸ベクトルからタンパク質ベクトルを構成する. 3.1 タンパク質における単語の定義とコーパスの作成 我々は,単語ベクトル表現学習をタンパク質に適用する ために,まずアミノ酸配列における単語を定義する.本稿 では,n-gramアミノ酸をタンパク質の単語とする.n-gram アミノ酸とは,固定された長さnのアミノ酸配列である. またn-gramの分割法としては,overlapを用いる(図2を 参照).これらの手法は,Dongら[8]やその他のバイオイ ンフォマティクス研究でよく用いられるものである.我々 は,このn-gramアミノ酸とoverlap分割を用いることで, 大規模なタンパク質データベースからコーパスを作成す る.生物学的な観点からは,例えばパターン[9]やモチー フ[10]といったものをタンパク質の単語と定義することも 可能だが,これらは今後の課題とする. 3.2 n-gramアミノ酸ベクトルの学習 我々は,2章で述べたword2vecにおけるSkip-Gramと Skip-Gram Continuous Bag-of-Words Sum Input Output Input Output NIF IFE FEM MNI EML NIF FEM MNI EML IFE 図 3 Skip-gramは,与えられた単語に対する周辺単語を予測す る中で,単語ベクトルを学習していく.一方でContinuous bag-of-wordsは,周辺単語のベクトルの総和からその中央の 単語を予測する中で,単語ベクトルを学習していく.

Continuous bag-of-words,そしてGlobal Vectorの3つを,

前述したタンパク質コーパスに適用する.図3は,n-gram アミノ酸を単語としてoverlap分割されたタンパク質対し て,word2vecを適用する概略図である.これによって我々 は,n-gramアミノ酸に対するベクトル表現を獲得するこ とができる. 3.3 タンパク質ベクトルの構成 我々は,タンパク質であるアミノ酸配列Sに対するd次 元ベクトル表現d(S)∈ Rdを,Sに含まれるn-gramアミ ノ酸ベクトルの平均として,以下のように定義する. d(S) = 1 |S|angram∈S d(angram). (4) ここで,|S|Sに含まれるn-gramアミノ酸の数,angram

n-gramアミノ酸,そしてd(angram)∈ Rdangram

対するd次元ベクトル表現とする.これは,タンパク質 に含まれるn-gramアミノ酸のbag-of-words表現であり, n-gramアミノ酸の系列情報は失われてしまう.しかしな がら,このような単純な演算であっても,自然言語処理の 様々なアプリケーションにおいてはある程度の性能を示す ことが確認されている.

4.

実験

4.1 タンパク質コーパスと評価データセット 我々はまず,3章で述べたタンパク質コーパスを作るた めに,タンパク質の階層的構造分類データベースである CATH*1を用いる.CATHの構造ラベルは,クラス(C: ンパク質全体が取る大まかな二次構造),アーキテクチャー (A:構造類似度が高いが,ホモロジーが認められないもの. SCOPのfoldに相当),トポロジー(T:構造の一部が似て *1 http://www.cathdb.info/

(4)

C: 1 Mainly Alpha A: 1.10 Orthogonal Bundle

T: 1.10.10 Arc Repressor Mutant, subunit A H: 1.10.10.10 "winged helix" repressor DNA…

C: 2 Mainly Beta A: 2.30 Roll T: 2.30.30 SH3 type barrels H: 2.30.30.40 SH3 Domains C: 3 Alpha Beta A: 3.60 4-Layer Sandwich T: 3.60.15 Metallo-beta-lactamase; Chain A H: 3.60.15.10 Metallo-beta-lactamase, chain A GSHMA… GIDPF… GRISM…

Sequence Structure Hierarchical labels of CATH

4 CATHに登録されているタンパク質のアミノ酸配列とその構 造,そして階層的なラベル(C, A, T, H)の例を示す. いることに基づく分類),ホモロジー(H:配列相同性,構造 類似性を考慮し共通祖先の存在が認められるもの.SCOP のsuperfamily に相当) の4つから構成されている(図4 参照). また我々は,このCATHを用いて実験の評価データセッ トを作成し,構造クラス分類タスクを設定する.本稿で は,BLASTを用いて相同性の低いタンパク質のみのデー タセットを作成する.CATHに登録されている約9万の タンパク質から,BLASTのE-valueが10−3以上のタンパ ク質のみをフィルタリングする.その条件で得られたタン パク質の数は8718であり,それを4:1:5に分割し,それぞ れを訓練データ(3923),開発データ(436),テストデータ (4359)とする.我々の目標は,相同性の低いタンパク質に 対して,高精度にその構造クラスを予測することである. 本稿では,最も単純なクラスCの予測のみを行う. 4.2 実装の詳細 提案法と比較する既存手法には,相同性検索に広く用い られるPIS-BLAST,バイオインフォマティクスにおいて 機械学習を用いた代表的な手法の一つであるスペクトラム カーネル,そしてDeerwester [11]の潜在意味解析(Latent Semantic Analysis (LSA))の3つとする.スペクトラム カーネルとLSAの実装は,Python,numpy,そしてscipy の巨大疎行列に対する効率的な分解アルゴリズムを用い

る.特にLSAは,自然言語処理研究において古くから単

語ベクトル表現として用いられているものであり,Dong

ら[8]によってバイオインフォマティクスに適用されてい

る.また我々は,単語ベクトル表現学習であるSkip-gram

(SG),Continuous bag-of-words (CBOW),そしてGlobal Vectors (GloVe)の実装について,それぞれのツールキッ トであるword2vec*2Glove*3を用いる.そして分類器 *2 https://code.google.com/p/word2vec/ *3 http://nlp.stanford.edu/projects/glove/ Method Accuracy (%) PSI-BLAST 47.6 スペクトラムカーネル(Leslie et al. 2002) 63.0 LSA (Dong et al. 2006) 53.6

CBOW 68.3

SG 69.8

GloVe 71.2

1 様々な既存法と提案法の精度の比較.LSA,word2vec,GloVe の次元数はすべて500次元とした. には,scikit-learn*4による実装のサポートベクターマシン を用いる. モデルのハイパーパラメータは,開発データを用いて チューニングする.Word2vecやGloVeには多くのハイ パーパラメータが存在するが,本稿では,3-gramアミノ酸 をタンパク質の単語とした上で,その単語ベクトルの次元 の違いによる性能を比較するに留める.その他のハイパー パラメータの違いが及ぼす影響の調査については,今後の 課題とする.

5.

結果と考察

5.1 既存法と提案法の予測精度 表1に,様々な既存法と提案法の結果を示す.以下,考 察である. ( 1 )最も基本のベースラインであるPSI-BLASTが,最も 低い精度となった.これは,E-valueが高く相同性の 低いタンパク質のみからデータセットを作ったこと で,適切なアライメントが取れなかったためである. ( 2 )スペクトラムカーネル[12]では,精度が60%を越え る結果となった.スペクトラムカーネルでは,その特 徴ベクトルが陽には計算されないが,陽に考えると, n-gramアミノ酸の頻度ベクトルがタンパク質ベクト ルとなっている.このことから,頻度の情報は相同性 の低いタンパク質の構造クラス分類においても,有効 な特徴量であることが示唆される. ( 3 ) LSAについては,精度が低い結果となった.LSAは スペクトラムカーネルとは異なり,n-gramアミノ酸 の頻度ベクトルを次元圧縮している.これによって失 われる情報が原因で,分類精度が低下したと考えられ る.このことは,次元圧縮によって得られる潜在的な 情報を用いるよりもむしろ,共起頻度の情報をそのま ま用いるスペクトラムカーネルの方が良い場合もある ことを示している. ( 4 )提案法であるCBOW,SG,そしてGloVeは,すべて において精度が65%を越える高い性能を示した.特に GloVeは70%を超えており,相同性の低いタンパク質 であっても,その構造を高精度に予測することができ *4 http://scikit-learn.org/stable/index.html

(5)

0.4 0.5 0.6 0.7 0.8 50 100 200 300 400 500

LSA CBOW SG GloVe

Protein vector dimensionality

Accuracy 図5 タンパク質ベクトルの次元と精度の関係. る.これはGloVeがword2vecとは異なり,ローカル な文脈情報とグローバルな共起情報の双方を考慮して いることが,より頑健な予測に繋がったと考えられる. 5.2 タンパク質ベクトルの次元と精度あるいは速度の関係 表5は,タンパク質ベクトルの次元と精度の関係を示し ている.一方で表6は,タンパク質ベクトルの次元と計算 時間の関係を示している.以下,考察である. ( 1 )表5を見るように,タンパク質ベクトルの次元を増や すことによって,精度は多少向上するものの,おおむ ね一定である.また時に,次元の増加によって精度が 下がる場合もある.単語ベクトル表現学習において, このベクトルの次元数は最も重要なパラメータでは あるものの,CBOW,SG,そしてGloVeには他にも 様々なパラメータが存在し,それらは相互に依存して いる.そのため,他のパラメータの調整も考慮した上 で再び検証する必要があり,これは今後の課題である. ( 2 )表6を見るように,次元を増やせば増やすほど予測に 時間がかかることがわかる.このことと表5から我々 は,50次元程度のタンパク質ベクトルであってもあ る程度高精度に構造クラスを予測でき,かつその予測 は10sec以内で行うことができるため,提案法が目指 す高精度かつ高速な構造クラス分類は達成されたと言 える.

6.

関連研究

単語をベクトルによって表現する手法はこれまで数多く 提案されており,古くは単語の共起頻度行列の特異値分解 に基づく潜在意味解析から,近年ではニューラルネット ワークを用いたニューラル言語モデルに至るまで,そのア プローチは様々である[2], [3], [5], [11], [13], [14], [15], [16]. これによって,単語ベクトル間の距離や内積を計算するこ とで,単語間の意味的な類似度をある程度適切に計算する 0.0 7.5 15.0 22.5 30.0 50 100 200 300 400 500

LSA CBOW SG GloVe

Time

Protein vector dimensionality 図6 タンパク質ベクトルと計算時間の関係. ことができるようになった.しかし,複数の単語から句や 文の意味表現をベクトル空間上でどのように構成するかは 自明ではない.そのため,単語ベクトルを用いて句や文の 意味を表現するための構成法や学習法が,一つの研究分野 として新たに注目されるようになった[6], [17], [18]. この 研究では具体的に,複数の単語ベクトルとそれらに対する 構成関数を用いて,句や文のベクトルを適切に表現し学習 するモデルを構築する[19], [20], [21]. 一方でバイオインフォマティクスにおいても,機械学習 を用いた研究が盛んに行われてきた.特に,タンパク質の 構造分類あるいは構造予測においては,カーネル法を用い たサポートベクターマシンやニューラルネットワークが広 く用いられ,成功を収めている[12], [22], [23].また,自然 言語処理の代表的な技術である潜在意味解析も,タンパク 質の相同性検索に用いられている[8].特に近年では,機械 学習において研究が進むDeep Learningを,タンパク質の 構造予測に用いる研究が行われるようになった[24], [25].

7.

結論

本稿で我々は,自然言語処理における単語のベクトル表 現学習を用いて,タンパク質のベクトル表現を新たに獲得 した.そしてこのタンパク質ベクトルを,CATHにおけ る構造クラス分類で評価した.実験では,バイオインフォ マティクスにおいて広く用いられるPSI-BLASTだけでな く,スペクトラムカーネルやLSAなどの既存の機械学習 手法よりも高精度かつ高速に,相同性が低いタンパク質の 構造クラスを分類することに成功した. 参考文献

[1] Searls, D. B.: The language of genes, Nature, Vol. 420, No. 6912, pp. 211–217 (2002).

[2] Bengio, Y., Ducharme, R., Vincent, P. and Janvin, C.: A neural probabilistic language model, Journal of Machine Learning Research (JMLR) (2003).

(6)

Kavukcuoglu, K. and Kuksa, P.: Natural Language Pro-cessing (Almost) from Scratch, The Journal of Machine Learning Research (JMLR) (2011).

[4] Mikolov, T., Chen, K., Corrado, G. and Dean, J.: Effi-cient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781 (2013).

[5] Pennington, J., Socher, R. and Manning, C. D.: Glove: Global vectors for word representation, Proceedings of the Conference on Empirical Methods on Natural Lan-guage Processing (EMNLP) (2014).

[6] Mitchell, J. and Lapata, M.: Composition in Distribu-tional Models of Semantics, Cognitive Science, Vol. 34, No. 8, pp. 1388–1439 (2010).

[7] Duchi, J., Hazan, E. and Singer, Y.: Adaptive subgradi-ent methods for online learning and stochastic optimiza-tion, JMLR (2011).

[8] Dong, Q.-W., Wang, X.-L. and Lin, L.: Application of la-tent semantic analysis to protein remote homology detec-tion, Bioinformatics, Vol. 22, No. 3, pp. 285–290 (2006). [9] Dong, Q.-W., Lin, L., Wang, X.-L. and Li, M.-H.: A pattern-based SVM for protein remote homology detec-tion, IEEE (2005).

[10] Ben-Hur, A. and Brutlag, D.: Remote homology detec-tion: a motif based approach, Bioinformatics, Vol. 19, No. suppl 1, pp. i26–i33 (2003).

[11] Deerwester, S. C., Dumais, S. T., Landauer, T. K., Fur-nas, G. W. and Harshman, R. A.: Indexing by latent semantic analysis, JASIS (1990).

[12] Leslie, C. S., Eskin, E. and Noble, W. S.: The spectrum kernel: A string kernel for SVM protein classification., Pacific symposium on biocomputing, Vol. 7, pp. 566–575 (2002).

[13] Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D. and Lai, J. C.: Class-based n-gram models of nat-ural language, Computational linguistics, Vol. 18, No. 4, pp. 467–479 (1992).

[14] Blei, D. M., Ng, A. Y. and Jordan, M. I.: Latent dirichlet allocation, the Journal of machine Learning research, Vol. 3, pp. 993–1022 (2003).

[15] Widdows, D. and Cohen, T.: The semantic vectors pack-age: New algorithms and public tools for distributional semantics, Semantic Computing (ICSC), 2010 IEEE Fourth International Conference on, IEEE (2010). [16] Turney, P. D.: Domain and function: A dual-space

model of semantic relations and compositions, Journal of Artificial Intelligence Research (JAIR) (2012). [17] Erk, K.: Vector Space Models of Word Meaning and

Phrase Meaning: A Survey, Language and Linguistics Compass, Vol. 6, No. 10, pp. 635–653 (2012).

[18] Baroni, M., Bernardi, R. and Zamparelli, R.: Frege in space: A Program for Compositional Distributional Semantics, Linguistic Issues in Language Technologies (2013).

[19] Tsubaki, M., Duh, K., Shimbo, M. and Matsumoto, Y.: Modeling and Learning Semantic Co-Compositionality through Prototype Projections and Neural Networks, Proceedings of the Conference on Empirical Methods on Natural Language Processing (EMNLP) (2013). [20] Van de Cruys, T., Poibeau, T. and Korhonen, A.: A

Tensor-based Factorization Model of Semantic Compo-sitionality, North American Chapter of the Association for Computational Linguistics: Human Language Tech-nologies (NAACL-HLT) (2013).

[21] Socher, R., Perelygin, A., Wu, J. Y., Chuang, J., Man-ning, C. D., Ng, A. Y. and Potts, C.: Recursive deep

models for semantic compositionality over a sentiment treebank, Proceedings of the Conference on Empiri-cal Methods on Natural Language Processing (EMNLP) (2013).

[22] Ben-Hur, A. and Noble, W. S.: Kernel methods for predicting protein–protein interactions, Bioinformatics, Vol. 21, No. suppl 1, pp. i38–i46 (2005).

[23] Holley, L. H. and Karplus, M.: Protein secondary struc-ture prediction with a neural network, Proceedings of the National Academy of Sciences, Vol. 86, No. 1, pp. 152–156 (1989).

[24] Di Lena, P., Nagata, K. and Baldi, P.: Deep architec-tures for protein contact map prediction, Bioinformat-ics, Vol. 28, No. 19, pp. 2449–2457 (2012).

[25] Lena, P. D., Nagata, K. and Baldi, P. F.: Deep spatio-temporal architectures and learning for protein structure prediction, Advances in Neural Information Processing Systems, pp. 512–520 (2012).

表 1 様々な既存法と提案法の精度の比較. LSA , word2vec , GloVe の次元数はすべて 500 次元とした. には, scikit-learn *4 による実装のサポートベクターマシン を用いる. モデルのハイパーパラメータは,開発データを用いて チューニングする. Word2vec や GloVe には多くのハイ パーパラメータが存在するが,本稿では, 3-gram アミノ酸 をタンパク質の単語とした上で,その単語ベクトルの次元 の違いによる性能を比較するに留める.その他のハイパー パ

参照

関連したドキュメント

Once bulk deformation b is chosen (so that there is a torus fiber L whose Floer cohomology is non-vanishing), then we consider the Floer chain complex of L with a generic torus fiber

1-1 睡眠習慣データの基礎集計 ……… p.4-p.9 1-2 学習習慣データの基礎集計 ……… p.10-p.12 1-3 デジタル機器の活用習慣データの基礎集計………

[r]

In [LN] we established the boundary Harnack inequality for positive p harmonic functions, 1 &lt; p &lt; ∞, vanishing on a portion of the boundary of a Lipschitz domain Ω ⊂ R n and

Let Si be the 2 -category in the sense of [11, XII.3] whose objects are admissible sites C (Denition 3.6), whose 1 -morphisms are continuous functors C → D preserving nite limits

のようにすべきだと考えていますか。 やっと開通します。長野、太田地区方面  

Then, since S 3 does not contain a punctured lens space with non-trivial fundamental group, we see that A 1 is boundary parallel in V 2 by Lemma C-3 (see the proof of Claim 1 in Case

A H¨ older regularity result for signed solutions was obtained first by DiBenedetto in [3] for degenerate (p &gt; 2) p-laplacian type equations and then by Chen and DiBenedetto in