E5-2
アラインメントされた配列集合からモチーフを
抽出する方法
福本 翔平
†北上 始
‡森 康真
‡†広島市立大学情報科学部知能工学科
‡広島市立大学大学院情報科学研究科知能工学専攻
〒731-3194 広島市安佐南大塚東 3 丁目 4 番 1 号
E-mail: †[email protected] ‡{kitakami, mori}@hiroshima-cu.ac.jp
あらまし 配列データベースから類似部分の多い部分配列,すなわち,モチーフを抽出す
る方法は,数多く提案されている.その中でも,文字の出現頻度を考慮した GS(ギブスサ
ンプリング)法は,最も有名な抽出方法として知られている.しかし,その方法は必ずし
も正しいとは限らない.その理由の一つとして,GS 法は,配列データごとに,類似部分配
列の位置を確率的に計算している為,それらの位置が常に変動するという問題がある.本
稿では,その問題を解決する為に,配列データベースを予めアラインメントした上で,ギ
ャップを考慮した新しいプロファイル計算法を用いて高い出現頻度を持つ類似部分配列を
抽出する方法を提案する.また,提案手法と従来手法(GS 法)の比較実験を行ったので,
その実験結果について報告する.
キーワード データマイニング,テキストマイニング,バイオインフォマティクス,科学
データ管理・科学データベース
1. はじめに
配列データベースから類似部分が存在するパ ターンを抽出する方法は,テキストデータの規則 的な共通部分を取り出すだけでなく,アミノ酸な どの分子配列データからモチーフを抽出する方法 として幅広く使用されている.アミノ酸は 20 種類 存在し,それぞれにはアルファベット1文字を対 応させて表現している.モチーフとは,アミノ酸 配列で生物学的に重要な機能を果たす特徴的な類 似パターンのことである.自然界には,さまざま なモチーフが存在するため,それらは,PROSITE[2] や Pfam などのデータベースで管理されている. 同じ機能を持つモチーフを集めてみると,それ らのアミノ酸配列は,お互いに類似しており,完 全に一致しない場合が多い.すなわち,モチーフ の表現には曖昧性が含まれている.このためモチ ーフの曖昧性は正規表現を用いて表現されている. 正規表現により,モチーフに含まれるアミノ酸配 列の類似性を簡単に把握することが出来る.正規 表現されたモチーフを導出するためには,類似す る部分配列を配列データベースから抽出する方法 が大変重要になるが,様々な抽出方法が存在する. その中でも最も有名な抽出方法として知られてい るのが,GS(
ギブスサンプリング)
法である. GS 法は文字の出現頻度を考慮した確率的最適 化アルゴリズムであり,抽出する配列の長さ k を ユーザが指定する事で,その長さ k を持つ類似部 分配列(以後,k-類似部分配列と呼ぶ)を出力する 事が出来る.しかし,GS 法は,計算結果の精度が毎回変動し,必ずしも良い結果を出力するとは限 らない.理由の一つとして,GS 法は配列データご とに,ランダムに与えた初期値に基づいて類似部 分配列の位置を確率的に更新している為,計算途 中でそれらの位置が常に変動し,結果が安定しな いという問題が発生する. 本稿では,この問題を解決する為に,配列デー タベースを予めアラインメントした上で,高い出 現頻度を持つ類似部分配列を抽出する GS-Align 法 を提案する.具体的には,先ず,マルチプルアラ インメント[1]により各配列の最適な位置にギャッ プを挿入する.これにより,各配列の長さを整え, 配列間の類似部分を同じ位置に配置したデータベ ースを作成できる.次に,ギャップ文字ができる だけ類似部分配列に含まれないようにするために, ギャップを考慮した新しいプロファイル計算法を 導入し,プロファイルを計算する.最後に,GS 法 で用いられている評価方法を取扱い,類似部分が より多く存在するパターンを抽出する.これによ り GS 法を使用する際に常に変動していた結果を 可能な限り抑え,ある程度まとまった結果を抽出 可能にする. 以下,本稿の構成を示す.2 章では類似部分配 列抽出に関する関連研究について述べる.3 章は従 来の手法である GS 法の詳細について,4 章では提 案手法である GS-Align 法の詳細について述べる.5 章では GS 法と GS-Align 法の結果を比較して評価 を行い,6 章では本稿のまとめと今後の課題につい て述べる.
2.関連研究
配列データベースから k-類似部分配列を抽出 する方法で,最も有効な手法は,Lawrence らが提 案した GS(ギブスサンプリング)法[3][4]である. GS 法では,配列データベース内からランダムに取 り出した複数の文字列の出現頻度を計算して頻度 の多い文字列に変更するという基本操作がある. この基本操作を繰り返し実行することで,モチー フの構成要素となる k-類似部分配列を探索する. この一連の動作は統計値を推定するアルゴリズム ではなく,解を繰り返し求め直す事で近似の解を 求めていく焼きなまし法と言う手法である.正確 には焼きなまし法の一種である確率的最適化アル ゴリズムと見做すことができる. GS 法は k-類似部分配列を抽出するにあたって 非常に有効な手段となっている.しかしながら, 出力されたデータは,必ずしも正確なモチーフを 抽出しているとは限らない.配列データベース内 の k-部分文字列を取り出す際は,配列ごとに確率 的に k-類似部分配列を見つけ出すという計算を行 っているので,k-類似部分配列の存在位置の探索が 不安定であり,結果が本来抽出すべきモチーフか ら外れる可能性があるという問題を抱えている. この問題を解決するために,本稿では,以下の 処理手順から成る GS-align 法を提案している. (1) 予め収集した配列データベースをマルチプル アラインメントする.その結果をマルチプルア ラインメント済み配列集合と呼ぶ. (2) マルチプルアラインメント済み配列集合に対 して新しいプロファイル計算法を適用し,プロ ファイルから相対エントロピーが最大となる クラスタを1つだけ選択する.ただし,クラス タとは,マルチプルアラインメント済み配列集 合の同じ列から選択される k-部分文字列の集 合をさす.3.従来の抽出手法
本章では,従来の手法である GS 法を用いた類 似部分配列の抽出方法と,抽出した類似部分配列 (k-部分配列集合)の評価方法について説明する. k-部分配列集合とは,GS 処理において,配列デー タベースの各配列からランダムに取り出される長さ k の部分文字列集合の事である.k の値はユーザ ー側が任意で与え,それにより k の値分の部分文 字列を取り出す仕組みとなっている.以下に配列 データベースと k -部分配列集合の詳細を示す.
3.1 ギブスサンプリング
配列データベース DB は n 種類の文字からなる 文字集合∑ = {𝑎1, 𝑎2, … , 𝑎𝑛}で定義されているとす る.また,全配列数はDB = {𝑠1, 𝑠2, … , 𝑠𝑁}の式から N 本として見なす. 図 1 配列データベースと k-部分配列集合 GS 法の主な目的は図 1 のように,文字列集合 であるDB = {𝑠1, 𝑠2, … , 𝑠𝑁}から,ユーザが定めた k 値分の k -部分配列を取り出し,お互いにできるだ け類似した部分配列集合となるように様々な計算 方法を行って変更していくものである.その計算 を行うためには,プロファイル,出現頻度,背景 頻度の三種類の方法が挙げられる.GS 法を実行し た際に存在する k -部分配列集合に対して,これら 三種類の計算方法は以下のように定められている. (1) プロファイル プロファイルの初期値は,各配列データか らランダムに選択された k-部分配列の集合 を用いて計算される.その後は,新しく計 算された出現頻度や背景頻度を用いて,再 計算される.取り出した k-部分配列集合に おいて,k 個の列ごとに n 個の各文字に対す る生起確率を計算する.それにより n×k 個 の結果が算出され,それらを n×k 行列で表 現したものをプロファイル(𝑝𝑛,𝑘)と呼ぶ. プロファイルは出現頻度を求める際に必要 となる. (2) 出現頻度 候補となる k-部分文字列集合に存在する1 つの文字列𝑥 = 〈𝑎1, 𝑎2, … , 𝑎𝑘〉の出現頻度𝑃𝑥 を 計 算 す る . 計 算 方 法 は𝑃𝑥= 𝑝11× 𝑝22× … × 𝑝𝑛𝑘と定められている.ちなみに x の部 位に存在する文字𝑎𝑖が行列の i 行目に対応す るならば,𝑝𝑖𝑗は j 列目における文字𝑎𝑖の生起 確率と見なす.これにより,文字列 x の確 率が高ければ k-部分配列集合の総意に類似 し,低ければ類似しない事が意味される. 図 2 k-部分配列集合とプロファイル (3) 背景頻度 解候補である k -部分配列集合以外の部位 BS に存在する各文字∑= {𝑎1, 𝑎2, … , 𝑎𝑛}の出 現確率を背景頻度としている.文字𝑎𝑖の背景 頻度𝑏𝑎𝑖は BS に存在する文字𝑎𝑖の生起確率 と見なす.これにより k-部分文字列集合に 存在する一つの文字列𝑥 = 〈𝑎1, 𝑎2, … , 𝑎𝑘〉の 背景頻度𝑄𝑥は,𝑏𝑎1× 𝑏𝑎2× … × 𝑏𝑎𝑘と計算す る事で求められる.図 3 k-部分文字列群に対する BS 法 GS 法は,DB = {𝑠1, 𝑠2, … , 𝑠𝑁}からランダムに選 択された行列 Z を用いる事で,出現頻度が高くか つ背景頻度の低い k-部分文字列集合を抽出する処 理を行っており,そのアルゴリズムを図4に示す. ① DB の各配列に対して,k-部分配列の開始点𝑠𝑡𝑖 をランダムに選び,それらを行列順に並べた k-部分文字配列S = {𝑠𝑡1, 𝑠𝑡2, … , 𝑠𝑡𝑁}を初期値 とする. ② DB からランダムに一つの配列 Z を選択する. ③ Z 以外である N-1 個の配列データベース DB -Z から図 2 のようなプロファイル(𝑝𝑛,𝑘)を 算出する. ④ 配列 Z の長さを L と見なす.Z 内に存在する |𝑙𝑖| − 𝑘 + 1 (𝑖 = 1, … , 𝐿)個の k-部分配列 x につ いて,出現頻度𝑃𝑥および背景頻度𝑄𝑥を計算し, 双方の比である𝑅𝑥= 𝑃𝑥/𝑄𝑥を算出する. ⑤ {𝑅1, 𝑅2, … , 𝑅|𝑙𝑖|−𝑘+1} (𝑖 = 1, … , 𝐿)となった各値 から,比例した確率でランダムに𝐸𝑟を選択し, 𝐸𝑟に対応する k-部分配列を新たな開始点𝑠𝑡𝑍と して更新する. ⑥ 結果が収束するまで②~⑥を繰り返す.繰り 返し回数は多いほど良い結果が出力される が,その分実行時間が大幅に伸びる. 図 4 GS 法のアルゴリズム
3.2 k-部分配列集合の評価法
配列データベース DB から抽出する類似部分配 列を評価する方法として,相対エントロピーと呼 ばれる評価関数を用いている.その計算を行うた めには先ず,ベイズ統計解析を考慮したプロファ イル𝐸𝑖𝑗を式(1)のように定義する. 𝐸𝑖𝑗= (𝐶𝑖𝑗+ 𝑏𝑖) ((𝑛 − 1) + 𝐵) (1) 𝐶𝑖𝑗とは,プロファイル𝑝𝑛𝑘の i 行目に該当する 文字が j 列目に現れる数である.n は配列総数,B は(𝑛)12と定め,プロファイルの i 行目に該当する文 字の全配列に対する相対出現頻度を𝑓𝑖とする.また, プロファイルの i 行目に該当する文字の疑似度数𝑏𝑖 は𝑓𝑖∗ 𝐵としており,分子のゼロ除算を回避するた めに扱われている. この計算によって算出されたプロファイル𝐸𝑖𝑗 による相対エントロピーF は以下の式(2)となる. また,DB 内に存在する文字の種類は,扱う DB の 種類によって変動するので,ここでは 20 種類と仮 定する. 𝐹 = ∑ ∑ 𝐶𝑖𝑗𝑙𝑜𝑔 20 𝑗=1 𝑘 𝑖=1 (𝐸𝑖𝑗 𝑏𝑖) (2) この式を k-部分文字配列に当てはめる事によ って,得られた値が 0 に近ければ類似部分配列と して近似しており,0 よりもマイナス側に遠ざかれ ば類似していないものとして判断する事が出来る.4.提案する類似部分配列抽出法
本章では,配列データベース DB から比較的安 定した類似部分配列を抽出させる GS-Align 法を提 案する.そのために,先ず,DB に含まれる配列デ ータの長さを統一するために利用されるマルチプ ルアラインメント操作について説明する.次に, マルチプルアラインメントが行われたDB’ から同 じ 長 さ k の 類 似 部 分 配 列 の 集 合 を 抽 出 す る GS-Align 法について述べる. GS-Align 法と GS 法 を利用するに当たって,どちらも,ユーザ側が k-部分文字配列の k 値を予め設定しなければならな い.4.1 マルチプルアラインメント
マルチプルアラインメントとは生物学などで扱 われる手法の一つであり,DNA やアミノ酸等とい った配列を類似した部分で特定できるように並べ 替えたものである.以下では,これを単にアライ ンメントと呼ぶ.図5にアラインメントの例を示 す.この手法によって,配列データの各文字が他 の配列データのどの文字に対応するのかを決める ことができる.このため,類似部分配列を一目で 見つけやすくなる.アラインメント結果には,ギ ャップと呼ばれる記号(-)が存在しているが,こ れは類似部分を整列化させる為に組み込まれた記 号である. 図 5 アラインメントの例 配列データベース DB に含まれる各配列データ の長さは不統一であるが,ギャップを組み込むこ とで同じ長さに統一している.GS 法は DB の長さ が不統一であっても動作は可能であるが,解を安 定的に取得できない.我々が提案する手法は,ア ラインメントを予め実施するので,類似部分の整 列化と長さの統一化が図られ,解の安定的な取得 が期待できる. そのアラインメントを行うプログラムとして, 本稿では ClustalX[1]と呼ばれている系統解析用の プログラムを使用した.扱うデータに関しては PROSITE[2]から抽出した特定のアミノ酸データを 用いる.動作を行うためには先ず,ClustalX に読み 込ませるデータを FASTA 形式に変換する必要があ る.FASTA 形式とは,塩基配列やアミノ酸配列を アラインメントする為に用いられる表現方法であ り,1行目はシーケンスデータの詳細,2行目以 降は実際のデータの文字列で構成されている.本 稿 で も そ の 形 式 を 採 用 す る 必 要 が あ る が , PROSITE 内のアミノ酸データは FASTA 形式で既 に記述されている為,抽出を行うのみで良く,余 計な変換をする必要はない.これによってアライ ンメントされたデータを文字列集合DB’ として扱 い,提案手法であるプログラム GS-Align 法に与え, 類似部分を抽出していく. ただし,問題となる部分もあり,ClustalX によ るアラインメントはノイズも少なからず関与して いるので,完全にアラインメントされた結果が出 力される訳ではない.4.2 提案手法
GS-Align 法は,GS 法の問題点である出力結果の 変動や精度を改善することを意図して提案された 手法である.GS-Align 法で入力するデータはアラ インメントしたDB’ 以外に,抽出する配列の長さ k を設定する必要がある.k の値は抽出するモチー フの長さから決定し,DB’ はギャップも含まれて いる為その分の長さも考慮して決定する. GS-Align 法ではギャップを考慮した新しいプロ ファイル計算法により算出されるプロファイル 𝐺𝑛𝑘と,GS 法で行った k-部分配列集合の評価関数 である相対エントロピーの式(1)(2)を用いる.プロ ファイル𝐺𝑛𝑘の計算方法として,先ず GS 法で用い たプロファイル𝑝𝑛𝑘を𝐺𝑛𝑘とする.その後 k 列ごと の生起確率の合計値 SUM を求め,列ごとに存在す るギャップの生起確率を計算する。最後にそれら を n 個の各文字に割り当てるように1文字ごとの 確率 R を加算する. プロファイル𝐺𝑛𝑘を算出するための,新しいプロ ファイル計算方法は以下の式(3)(4)の通りである. 𝑅 =1 − 𝑆𝑈𝑀 𝑛 (3)𝐺𝑛𝑘= 𝐺𝑛𝑘+ 𝑅 (4) 評価する部分は GS 法と同じく予測される k-部分 配列集合である t×k だが,参照する範囲は異なる. 先ずアラインメントによって統一されたDB’ 全体 の長さを L とすると,1つの k-部分配列集合の長 さが k である事から,𝐿 − 𝑘 + 1個の k-部分配列集 合が作られる.以下では,DB’ を矩形の N×L 行列 とみなし,各集合(k×L 行列)を特にクラスタと呼 ぶ(図6).𝐿 − 𝑘 + 1個のクラスタを GS 法の評価 法に基づいて計算し,相対エントロピーの値が最 も高いクラスタを類似部分配列集合と見なして抽 出する. 図 6 DB’ 内に存在するクラスタ また,あるクラスタにおける文字列集合の始点 と終点にギャップが存在している場合は,その数 をカウントし,{一クラスタにおけるカウント数 ≤ 𝑡 ∗ 閾値}を満たす場合に限り,解の候補とする ため評価関数を計算する.理由の1つとして,モ チーフを表現する正規表現において,始点や終点 にギャップは存在しないことが挙げられる.よっ て,そのような k-部分配列集合を解の候補から除 外するための処置として行っている. しかし,このような操作を行っても,始点と終 点にギャップが含まれている文字列は完全には除 去できないので,そのようなギャップ入りの部分 文字列が存在する場合はその k-部分文字列だけを 削除する操作を行っている. GS-Align はアラインメントされた DB’を用いて 複数のクラスタから評価関数が最も大きいクラス タを抽出し,類似部分配列として表現する.図 7 に提案するアルゴリズムを示す. ① ClustalX にてアラインメントされた DB’ か ら,長さ k の値分の部分配列集合(t×k)を1 クラスタと見なす. ② プロファイル𝑝𝑛𝑘から1クラスタ分のプロフ ァイル𝐺𝑛𝑘を算出する. ③ プロファイル𝐺𝑛𝑘を基に相対エントロピーの 評価関数を算出する. ④ L-k+1 個分のクラスタが終了するまで,③~ ④を繰り返す. ⑤ L-k+1 個分の相対エントロピーから最も値の 大きい k-部分配列集合を呼び出し,k-類似部分 配列集合として出力する. 図 7. 提案するアルゴリズム
5. 評価実験
本章では,閾値を 0.1 として,提案手法の評価 実験を行う.性能評価のために使用した配列デー タベースは,PROSITE 内に登録されているアミノ 酸データセットを5つ用いた.扱う5つのデータ は,タンパク質の中でも有効な働きをする有名な アミノ酸配列データベースである.詳細は以下に 示す.モチーフの長さに関しては,ギャップ込み で表 1 および表 2 に示している. 表 1 PROSITE のデータセット 番号 モチーフ名 登録番号 長さ 件数 1 Kringle PS00021 24 95 2 Homeobox PS00027 129 1316 3 PTS_EIIA PS00372 22 51 4 HTH_ASNC PS00519 37 43 5 HTH_DEOR PS00894 35 81 1番目の クラスタ クラスタ i 番目の クラスタ N個 L文字 k 文字 … … k 文字 k 文字 (L-k+1)番目表 2 各モチーフの正規表現 従来手法(GS 法)の実行において,処理の繰 り返し回数は,データセットごとの DB 内の文字数 とした.繰り返し回数をそれ以上に増加させたが, 相対エントロピーが既に収束しているので,計算 結果が変化することがなかった. 従来手法と提案手法との性能を比較するため に,以下で定義される精度の式(5)を利用する. 精度(%)= 𝐵 𝐵 + 𝐶× 100 (5) ただし,そして検索で合致した範囲を B として, 検索されたノイズの部分を C とする.この式は本 来抽出すべき範囲と抽出した範囲がどの程度合致 しているかを数値化したものであり,百分率(%) で表され,数値が高い程一致している部分が多い と見なされる. 表 3 は,従来手法と提案手法の精度を比較した 表である. 表 3 提案手法と GS 法との精度結果比較 番号 モチーフ名 提案手法(%) 従来手法(%) 1 Kringle 79.70 64.44 2 Homeobox 79.71 87.75 3 PTS_EIIA 54.90 49.18 4 HTH_ASNC 59.27 41.76 5 HTH_DEOR 20.07 17.06 比較結果を見る限りでは,提案方式が従来手法 よりも確実に優れている訳ではない.そのため, 提案手法に対する改良の余地が未だに残されてい る.改良する部分としては,ギャップの少ないDB’ に対する計算方法の変更にある.4章で述べたよ うに,アラインメントされたDB’ には少なからず ノイズが発生する.そのノイズの割合や挿入され るギャップの頻度によって,提案手法で抽出され る類似部分配列集合の結果が変わることがある. 表 4 データセットにおけるモチーフ内のノイズ 番号 モチーフ名 ノイズの割合 1 Kringle 0.17894 2 Homeobox 0.19680 3 PTS_EIIA 0.45098 4 HTH_ASNC 0.04651 5 HTH_DEOR 0.02500 表 3 および表 4 より,ノイズが少なくギャップ の割合も少ない HTH_DEOR は,モチーフを抽出し にくい傾向となっている.すなわち,元の DB をア ラインメントする際に,モチーフ(正解)ではな い他の部分も類似した文字集合として整列されて しまう可能性があるので,そういった部分を類似 部分配列として探索してしまう事が問題となって いる. 番号 正規表現(ギャップ有) 1 [FY]-C-[RH]-[NS]-x(18)-[WY]-C 2 [LIVMFYG]-[ASLVR]-x(2)-[LIVMSTACN]-x-[LIVM]-{Y}-x(32)-{L}-[LIV]-[RKNQEST AIY]-[LIVFSTNKH]-W-[FYVC]-x-[NDQTA H]-x(80)-[RKNAIMW] 3 [DENQ]-x(6)-[LIVMF]-[GA]-x(7)-[LIVM]-A -[LIVM]-P-H-[GAC] 4 [GSTAP]-x(2)-[DNEQA]-[LIVM]-[GSA]-x(2 )-[LIVMFYT]-[GAN]-[LIVMST]-[ST]-x(6)-R-[LIVT]-x(2)-[LIVM]-x(13)-G 5 R-{G}-x(2)-[LIVM]-x(3)-[LIVM]-x(17)-[ST A]-x(2)-T-[LIVMA]-[RH]-[KRNAQ]-D-[LIV MF]
図 8 提案手法を HTH_DEOR で実行した結果 図 8 において,縦線が引かれている x 軸のパタ ーンが抽出すべきモチーフ(正解)であり,点で 示されている部分は,提案手法で抽出されたクラ スタである.ただし,クラスタの位置とは,クラ スタの 1 列目が DB’ 上に存在する位置をさす.こ の図からもわかるように,モチーフパターン(正 解)以外のクラスタにも相対エントロピーの最大 値に近いピークがいくつか存在する. すなわち, モチーフ(正解)以外に,k-類似部分配列集合と見 なされる可能性のあるクラスタが複数存在すると いう新たな問題がある.
6. まとめ
本稿では,DB をアラインメントする事によっ て k-類似部分配列であるモチーフの抽出を行った. 5 件のデータセットを用いた評価実験では,1 件の データセット(Homeobox)除いて,提案手法は従 来手法よりも精度が向上し,安定した結果を出力 した.Homeobox のデータセットについては,精度 が向上しなかった原因を調査し,改良を加える必 要がある. 今後の課題は,以下のとおりである. (1)相対エントロピーに関して,複数のピーク から正しいピークを選択する方法として,最 小汎化集合の要素を支持数でランキングする 方法も考えられる.支持数が最大となる汎化 配列パターンを含むクラスタは,正解になる かどうかの検討が重要である. (2)従来手法の図 3 にて行われている背景頻度 の取り扱いやDB’内の文字∑= {𝑎1, 𝑎2… 𝑎𝑛}の 関係性を数値化した Blosum62 など,クラス タ内のプロファイル以外から類似部分を探索 する新たな操作が必要である. 完全な解を探すことは難しいが,今後,新たな手 法を導入することにより,高精度な近似解を見つ けることができるのではないかと考えられる.謝辞
本研究の一部は,日本学術振興会・科学研究費 補助金(基盤研究(C),課題番号:20500137) の支援 により行われた.参考文献
[1] M.A.Larkin, G.Blackshields, N.P.Brown, R.Chenna, P.A.McGettigan, H.McWilliam, F.Valentin, I.M.Wallace, A.Wilm, R.Lopez, J.D.Thompson, T.J.Gibson and D.G.Higgins : Clustal W and Clustal X version 2.0, Bioinformatics, Applications Note, Vol.23 No.21, pp.2947-2948, 2007.
(ClustalX:http://www.clustal.org/) [2] PROSITE:http://prosite.expasy.org/
[3] Lawrence C. E., ALtschul, S. F., Bogushi, M. S., Liu, J. S., Neuwald, A. N. and Wotton, J.: Detecting subtle sequence signals: A Gibbs Sampling Strategy for Multiple Alignment, Science, 263, pp.208-214, 1993.
[4] Liu,J.S., Neuwald,A.N. and Lawrence,C.E.: Bayesian Model for Multiple Local Sequence Alignment and Gibbs Sampling Strategies, JASA, 90, pp.1156-1170, 1995. -6000 -5000 -4000 -3000 -2000 -1000 0 1 16 31 46 61 76 91 10 6 12 1 13 6 15 1 相 対 エ ン ト ロ ピ ー 値 文字列の先頭からの位置