タンパク質ドメイン構成に基づくプロテオーム圧縮
全文
(2) Vol.2014-MPS-100 No.11 2014/9/25. 情報処理学会研究報告 IPSJ SIG Technical Report. v1 12. v0. 9 15. v1. 6 8 12 10. 6. 4. v3. 13. 8. v2. v2. 9. 1. duplication both 0.85. 0.95. 11 7. v4. v0 6. 4 0.9. v3. v4. 0.85 0.8. 図 1 P = {P1 , P2 , P3 , P4 }, P1 = {D1 , D1 , D2 , D3 }, P2 = {D1 , D1 , D2 },. P3 = {D4 , D5 }, P4 = {D1 , D1 , D2 , D4 , D5 } に対するハイパーグ. 0.75. ラフ (左図) とその最小大域木 (右図).頂点 vi はタンパク質 Pi. 0.7. に対応する.. D.. E S S C D A O D X G M P H di . co . cer . po . ele . m . th . sa . rer . lae . ga . m . tro . sa sc li ev mb ga ela alia tiv io vi llu us glo pie oi s isi e ns no na a s cu dy ns de lu ae ga um s tes ste r. 図 2 Pfam ドメインを使った場合の各生物種の圧縮率.. 頂点の数が 2,つまり普通の辺だけの場合は多項式時間で最 小大域木を見つけることができるが,ハイパーエッジの頂点. る例がいくつか発見された.. の数が 3 以上の場合は NP 困難になることが知られている.. 4. おわりに. 例 と し て ,P = {P1 , P2 , P3 , P4 }, D = {D1 , D2 , D3 , D4 , D5 },. P1 = {D1 , D1 , D2 , D3 }, P2 = {D1 , D1 , D2 }, P3 = {D4 , D5 }, P4 =. 本研究では,タンパク質ドメイン構成に基づくプロテ. {D1 , D1 , D2 , D4 , D5 } に対しては,図 1 左が,可能な規則を. オーム圧縮のための発見的な手法を提案し,実際に 14 の. 有向辺とし,その辺の重みをその規則のコストとして,プ. 生物種に対して適用した.これまでに DNA 塩基配列やタ. ロテオーム P をハイパーグラフに変換したものである.. ンパク質アミノ酸配列に対する圧縮は研究されてきたが,. このハイパーグラフから得られる最小大域木が右図となる.. ドメイン構成に基づく圧縮では最初の研究である.また生. v0 はドメインをもたない仮想タンパク質を意味し,P2 , P3. 物の進化過程でみられる,遺伝子重複,遺伝子融合という. はそれぞれ規則 1 によりドメインから構成され,P1 は P2. 現象に基づいて文法を構成した.圧縮率では,M. musculus. から規則 2 の遺伝子重複により生成され,P4 は P2 と P3 か. と H. sapiens が他の生物種に比べて圧縮率が高く,高等な. ら規則 3 の遺伝子融合により生成される.. 生物種ほど同じドメインが頻繁に活用されていることが示. 本研究では現実的な時間で最適解を見つけることが困難. 唆された.しかしながら,生物種間の比較のためには,よ. な本問題に対して,規則 3 のハイパーエッジを除いて最適. り自由度の高い文法に対する最適化アルゴリズムの開発が. 解を見つけた後,同じ頂点に入る規則 3 のハイパーエッジ. 求められる.さらに現実的な時間で解を得るために効率的. のうち,重みが最適解の辺の重みよりも小さいものだけを. なアルゴリズムの開発が求められる.. 再び加えて最適解を求める,発見的な手法を提案する [3].. 3. 結果. 参考文献 [1]. UniProt データベース [4] から 14 の生物種,D. discoideum, E. coli, S. cerevisiae, S. pombe, C. elegans, D. melanogaster,. [2]. A. thaliana, O. sativa, D. rerio, X. laevis, G. gallus, M. musculus, P. troglodytes, H. sapiens について,タンパ. [3]. ク質ドメイン構成の情報を取得し,提案手法を適用した. 図 2 は Pfam ドメイン [5] を使った場合の各生物種の圧縮 率を示す.規則 1, 2 のみを使った場合の圧縮サイズは常. [4]. に,圧縮前のサイズよりも小さく,すべての規則を使った 場合の圧縮サイズよりも僅かではあるが大きかった.ま た元のサイズからの圧縮率の比較からは,M. musculus と. H. sapiens が他の生物種に比べて圧縮率が高く,同じドメ インが高等な生物種ほど頻繁に活用されていることが示唆. [5]. Grumbach, S. and Tahi, F.: A New Challenge for Compression Algorithms: Genetic Sequences, Information Processing & Management, pp. 875–886 (1994). Cao, M., Dix, T., Allison, L. and Mears, C.: A simple statistical algorithm for biological sequence compression, Proc. Data Compression Conference (DCC ’07), pp. 43–52 (2007). Hayashida, M., Ruan, P. and Akutsu, T.: Proteome compression via protein domain compositions, Methods, Vol. 67, pp. 380–385 (2014). The UniProt Consortium: Reorganizing the protein space at the Universal Protein Resource (UniProt), Nucleic Acids Research, Vol. 40, pp. D71–D75 (2012). Punta, M., Coggill, P. C., Eberhardt, R. Y., Mistry, J., Tate, J., Boursnell, C., Pang, N., Forslund, K., Ceric, G., Clements, J., Heger, A., Holm, L., Sonnhammer, E. L. L., Eddy, S. R., Bateman, A. and Finn, R. D.: The Pfam protein families database, Nucleic Acids Research, Vol. 40, pp. D290–D301 (2012).. された.さらに抽出された規則 3 の文法からは,一度他の 二つのタンパク質から遺伝子融合によって形成されたタン パク質が,他のタンパク質の遺伝子融合の材料になってい. ⓒ 2014 Information Processing Society of Japan. 2.
(3)
関連したドキュメント
By assumption γ is differentiable and has transverse intersections with the critical point spheres of the map from the free configuration space to the workspace. It follows that
The only thing left to observe that (−) ∨ is a functor from the ordinary category of cartesian (respectively, cocartesian) fibrations to the ordinary category of cocartesian
The idea is that this series can now be used to define the exponential of large classes of mathematical objects: complex numbers, matrices, power series, operators?. For the
Abstract: In this paper, we proved a rigidity theorem of the Hodge metric for concave horizontal slices and a local rigidity theorem for the monodromy representation.. I
[18] , On nontrivial solutions of some homogeneous boundary value problems for the multidi- mensional hyperbolic Euler-Poisson-Darboux equation in an unbounded domain,
Since the boundary integral equation is Fredholm, the solvability theorem follows from the uniqueness theorem, which is ensured for the Neumann problem in the case of the
Our method of proof can also be used to recover the rational homotopy of L K(2) S 0 as well as the chromatic splitting conjecture at primes p > 3 [16]; we only need to use the
Many families of function spaces play a central role in analysis, in particular, in signal processing e.g., wavelet or Gabor analysis.. Typical are L p spaces, Besov spaces,