• 検索結果がありません。

双対分解によるマルチプルアラインメント

N/A
N/A
Protected

Academic year: 2021

シェア "双対分解によるマルチプルアラインメント"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2015-BIO-43 No.2 2015/9/12. 情報処理学会研究報告 IPSJ SIG Technical Report. 双対分解によるマルチプルアラインメント 穴水 拓郎1,a). 榊原 康文1,b). 佐藤 健吾1,c). 概要:バイオインフォマティクスにおいて塩基配列やアミノ酸配列を解析する手法として,配列アライン メントが広く用いられている.ペアワイズアラインメントは動的計画法で効率的に解けることが知られて いる.一方,マルチプルアラインメントは,その計算量の問題から累進法と呼ばれる近似手法で解くこと が多いが,最適解が保証されない.本研究では,マルチプルアラインメントを整数計画問題として定式化 し,双対分解によって総当たりのペアワイズアラインメントに相当する部分問題に分割することによって 最適解を効率よく求める手法を提案する.. Takuro Anamizu1,a). Yasubumi Sakakibara1,b). 1. はじめに 配列アラインメントとは,二本以上の配列を入力として 類似する塩基どうしが縦に揃うように並べる操作である. 特に,配列本数が二本のときをペアワイズアラインメン ト,三本以上のときをマルチプルアラインメントと呼ぶ.. Kengo Sato1,c). 列 s1 , . . . , sn のマルチプルアラインメント θ ∈ A(s1 , . . . , sn ) が総当たりのペアワイズアラインメントからなるとき,. θ = (z(1,2) , . . . , z(n−1,n) ) と書くこととする. マルチプルアラインメントの利益関数を,総当たりのペ アワイズアラインメントの利益関数の総和として定義する:. ペアワイズアラインメントは動的計画法で効率的に解ける. ˆ = G(z(1,2) , zˆ(1,2) ) + · · · + G(z(n−1,n) , zˆ(n−1,n) ) G(θ, θ). 一方,マルチプルアラインメントは累進法と呼ばれる近似. ペアワイズアラインメント z に関する利益関数 G(z, zˆ) は. 手法で解くことが多い.しかし累進法では最適解が保証さ. (1). 次のように定義される:. れず,繰り返し最適化法による精度改善は,計算時間とト レードオフになってしまう.本研究では,マルチプルアラ インメントを整数計画問題として定式化し,双対分解 [4] によって総当たりのペアワイズアラインメントに相当す る部分問題に分割することによって最適解を効率よく求 める手法 DMSA (Dual decomposition for Multiple Sequence. Alignment) を提案する.. 2. 手法 配列 a の長さを |a| と書くこととする.二本の配列 a, b が 与えられたとき,A(a, b) を a と b がとりうる全ての配列ア. G(z, zˆ) = (1 − σ)T P(z, zˆ) + σT N(z, zˆ). (2). ∑ ここで T P(z, zˆ) = i, j I(zi j = 1)I(ˆzi j = 1) は true positive の ∑ 数,T N(z, zˆ) = i, j I(zi j = 0)I(ˆzi j = 0) は true negative の数, σ は true positive と true negative のバランスを制御するパ ラメータである.期待精度最大化原理 [2] に基づき,ア ラインメント空間 A(s1 , . . . , sn ) 上に与えられる確率分布. P(θ | s1 , . . . , sn ) の下で,利益関数の期待値を最大化するマ ルチプルアラインメント θˆ を求める: ∑. ˆ = E[G(θ, θ)]. ラインメントの集合とする.アラインメント z ∈ A(a, b) は. ˆ P(θ | s1 , . . . , sn )G(θ, θ). (3). θ∈A(s1 ,...,sn ). |a| × |b| 次元の二値行列 z = (zi j ) で表わす.ここで zi j = 1 は,. ここで,マルチプルアラインメントの確率分布を次のよう. 塩基 ai と b j がアラインされていることを表す.n 本の配. に積近似する:. 1. a) b) c). 慶應義塾大学理工学部生命情報学科 Department of Biosciences and Informatics, Keio University [email protected] [email protected] [email protected]. ⓒ 2015 Information Processing Society of Japan. P(θ | s1 , . . . , sn ) ≈. ∏. P(z(k,l) | sk , sl ). (4). 1≤k<l≤n. その結果,期待利益関数は次のように近似することがで きる: 1.

(2) Vol.2015-BIO-43 No.2 2015/9/12. 情報処理学会研究報告 IPSJ SIG Technical Report |sk | ∑ |sl | [ ∑ ∑. ˆ ≈ E[G(θ, θ)]. ] (k,l) p(k,l) i j − σ zi j + C. は次のように書きかえることができる.. (5). 1≤k<l≤n i=1 j=1. L(λ, µ, ν, ξ) =. ここで. ∑. P(z | a, b)I(zi j = 1). (6). ϕ(k,l) ij =. はアラインメント事後確率であり,C は θ に依存しない定. |sm | ∑∑ (−λ(k,l,m) − µ(k,l,m) + νi(k,l,m) ) i jh i jh jh m>l h=1. 数である.. +. 本手法の目的は,マルチプルアラインメントが満たすべ. +. ンメントを計算することである.この最適化は次のような. −. maximize: |sk | ∑ |sl | [ ∑ ∑. ] (k,l) p(k,l) i j − σ zi j. (7). |sρ1 | ∑. |sρl−1 | |sρl+1 |. ···. ∑ ∑. il−1 =1 il+1 =1. ···. |sρk | ∑ ik =1. ξi(ρ) 1 ···ik. 劣勾配法によって式 (15) を λ, µ, ν, ξ に関して最小化する のアルゴリズムは以下のように動作する:(1) 入力配列の. ≤1. (1 ≤ ∀k ≤ n, 1 ≤ ∀l ≤ n, 1 ≤ ∀i ≤ |sk |). (8). ≤1. (9). (m,k) (l,m) ≤1 z(k,l) i j − z jh + zhi. (10). (m,k) (l,m) ≤1 z(k,l) i j + z jh − zhi. (11) (12). (1 ≤ ∀k < ∀l < ∀m ≤ n, 1 ≤ ∀i ≤ |sk |, 1 ≤ ∀ j ≤ |sl |, 1 ≤ ∀h ≤ |sm |) + ··· +. k−1 ,ρk ) z(ρ ik−1 ik. +. k ,ρ1 ) z(ρ ik i1. ≤k−1. Needleman-Wunsch アルゴリズムによって高速に解くこと ができる.(2) マルチプルアラインメントが満たすべき制. (1 ≤ ∀k < ∀l ≤ n, 1 ≤ ∀i < ∀ j ≤ |sk |, 1 ≤ ∀p < ∀q ≤ |sl |). (l,m) (m,k) − z(k,l) ≤1 i j + z jh + zhi. 総当たりのペアワイズアラインメントに分解して,それ ぞれ独立に最適化する.各ペアワイズアラインメントは. j=1. 1 ,ρ2 ) z(ρ i1 i2. ∑. ことによって元々の問題 (7) の解を得ることができる.そ. subject to:. z(k,l) jp. ∑. 3≤m≤n ρ∈Pm s.t. i1 =1 ρl =k,ρl+1 =l. 1≤k<l≤n i=1 j=1. z(k,l) ij. |sm | ∑∑ (m,k,l) (−λ(m,k,l) + µ(m,k,l) − νhi ) hi j hi j j m<k h=1. 整数計画問題として定式化することができる:. S (z; s) =. |sm | ∑ ∑ (k,m,l) (λ(k,m,l) − µ(k,m,l) − νih ) ih j ih j j k<m<l h=1. き制約の下,期待利益関数を最大化するマルチプルアライ. +. (15). ただし,. z∈A(a,b). z(k,l) iq. ] (k,l) (k,l) p(k,l) zi j i j − σ + ϕi j. 1≤k<l≤n i=1 j=1. p(a,b) = ij. |sl | ∑. |sk | ∑ |sl | [ ∑ ∑. (13). (∀ρ ∈ Pk , 1 ≤ ∀i p ≤ |sρ p | for 1 ≤ ∀p ≤ k). ただし,Pk は {1, . . . , n} の大きさ k の巡回順列の集合であ る.制約 (8) は,二本の配列の各々の塩基は高々 1 つの塩. 約 (10)-(13) と矛盾するアラインメントカラムに対応する スコアにペナルティを与える.以上の手順を繰り返すこと によって,マルチプルアラインメントが満たすべき制約の 下,目的関数すなわち期待精度を最大化するマルチプルア ラインメントを得る.. 3. 結果 前節で述べたアルゴリズムに基づき DMSA を実装した. アラインメント確率行列 (6) を計算するために,ProbCons [1] を用いた.実験結果は発表時に示す.. 基とのみアラインされることを意味する.制約 (9) は交差 するアラインメントを許さないことを表す.制約 (10)-(12) は,consistency transformation [3] に相当する.制約 (13) は, アラインメント列の順番に矛盾がないことを表す.. 参考文献 [1]. 制約 (10)-(12) および制約制約 (13) を目的関数に移すこ とによって,ラグランジュ双対関数を定義する. L(λ, µ, ν, ξ) = max S (z; s) +. ∑. |sk | ∑ |sl | ∑ |sm | ∑. [2] (14). (l,m) (m,k) λi(k,l,m) (1 − z(k,l) i j − z jh + zhi ) jh. 1≤k<l<m≤n i=1 j=1 h=1. +. ∑. |sk | ∑ |sl | ∑ |sm | ∑. (l,m) (m,k) µ(k,l,m) (1 − z(k,l) i j + z jh − zhi ) i jh. 1≤k<l<m≤n i=1 j=1 h=1. +. ∑. |sk | ∑ |sl | ∑ |sm | ∑. (l,m) (m,k) νi(k,l,m) (1 + z(k,l) i j − z jh − zhi ) jh. 1≤k<l<m≤n i=1 j=1 h=1. +. |sρ1 | ∑ ∑∑ 3≤k≤n ρ∈Pk i1 =1. ···. |sρk | ∑ ik =1. [3]. [4]. Do, C. B., Mahabhashyam, M. S., Brudno, M. and Batzoglou, S.: ProbCons: Probabilistic consistency-based multiple sequence alignment, Genome Res., Vol. 15, No. 2, pp. 330–340 (2005). Hamada, M. and Asai, K.: A classification of bioinformatics algorithms from the viewpoint of maximizing expected accuracy (MEA), J. Comput. Biol., Vol. 19, No. 5, pp. 532–549 (2012). Notredame, C., Higgins, D. G. and Heringa, J.: T-Coffee: A novel method for fast and accurate multiple sequence alignment, J. Mol. Biol., Vol. 302, No. 1, pp. 205–217 (2000). Sato, K., Kato, Y., Akutsu, T., Asai, K. and Sakakibara, Y.: DAFS: simultaneous aligning and folding of RNA sequences via dual decomposition, Bioinformatics, Vol. 28, No. 24, pp. 3218–3224 (2012).. k ,ρ1 ) k−1 ,ρk ) 1 ,ρ2 ) )) + z(ρ + · · · + z(ρ (k − 1 − (z(ρ ξi(ρ) ik i1 ik−1 ik i1 i2 1 ···ik. ここで,λ, µ, ν, ξ はラグランジュ未定乗数である.上の式 ⓒ 2015 Information Processing Society of Japan. 2.

(3)

参照

関連したドキュメント

 手術前に夫は妻に対し、自分が死亡するようなことがあっても再婚しない

 この論文の構成は次のようになっている。第2章では銅酸化物超伝導体に対する今までの研

テューリングは、数学者が紙と鉛筆を用いて計算を行う過程を極限まで抽象化することに よりテューリング機械の定義に到達した。

これらの定義でも分かるように, Impairment に関しては解剖学的または生理学的な異常 としてほぼ続一されているが, disability と

 リスク研究の分野では、 「リスク」 を検証する際にその対になる言葉と して 「ベネフ ィッ ト」

、肩 かた 深 ふかさ を掛け合わせて、ある定数で 割り、積石数を算出する近似計算法が 使われるようになりました。この定数は船

平成 29 年度は久しぶりに多くの理事に新しく着任してい ただきました。新しい理事体制になり、当団体も中間支援団

最も改善が必要とされた項目は、 「3.人や資材が安全に動けるように、通路の境界線に は印をつけてあります。 」は「改善が必要」3