• 検索結果がありません。

バイオインフォマティクスⅠ

N/A
N/A
Protected

Academic year: 2021

シェア "バイオインフォマティクスⅠ"

Copied!
46
0
0

読み込み中.... (全文を見る)

全文

(1)

バイオインフォマティクス

(第6回)

慶應義塾大学生命情報学科

榊原康文

(2)

階層クラスタリングの解:

[1] [2] [3] A: 0 0 0 B: 1 1 1 C: 2 1 2 D: 3 3 3 A: B: C: B: 1.732 C: 3.000 1.414 D: 5.196 3.464 2.449 入 力 ベ ク ト ル A B C D 系統樹 距離行列

(3)

データベース検索

データベースの高速検索

◆ 問い合わせ配列に類似した配列をデータベースより 見出す作業 ◆ 遺伝子配列のデータベースの大きさは膨大であるた め,アライメントなどの動的計画法に基づく方法では 時間がかかりすぎる

FASTA と BLAST

◆ 相同な配列では,きわめて短い領域ではあるが非常 に類似度の高い(ギャップのない)領域「語」が保存さ れている ◆ 「語」を単位とするヒットに基づく局所的な比較により 類似配列を検索する

(4)

データベース検索

BLASTによるデータベース検索

膨大なゲノムデータベースからの検索には高速

化が必須

ゲノムデータベース 入力配列 ■DNA配列 ■アミノ酸配列 類似遺伝子 アノテーション

(5)

BLAST

◆ FASTAのテーブル照合を,有限オートマトンを用いた検索方

法(Aho-Corasickアルゴリズム)により改良(高速で柔軟な語

の検索が可能)

◆ Basic Local Alignment Search Tool の略

① データベース中に,問い合わせ配列に含まれる領域と非常

に類似度の高い領域を見つける(有限オートマトン)

② 見つけた領域を伸張する(HSP領域)

③ 上位にランクされた配列と問い合わせ配列の(ギャップな

(6)

BLAST ①

◆ 問い合わせ配列を語(ワード)に分割し,さらに各語に類 似した語のリストを生成する – 語とは,配列中の固定長(アミノ酸の場合は3残基)の連続したア ミノ酸配列 – 問い合わせ配列をN末端からC末端まで走査し,語を切り出し,そ れに類似した語もすべてリストに加える – 類似の定義は,スコア行列および閾値 T を用いて,T を超えるス コアを持つ語同士はすべて類似と見なす ◆ データベースの配列の中に,リストに蓄えられた語と一致 するすべての箇所(ヒット)を,有限オートマトンを用いて検 索する – Aho-Corasickアルゴリズム

(7)

BLAST ①

◆ 問い合わせ配列を語(ワード)に分割し,さらに各語に類 似した語のリスト L を生成する

問い合わせ配列:

DDVIILKE

語に分割:

DDV,DVI,VII,IIL,ILK,LKE

類似語:

DEV,DII,VVI,VIL,VLK,IKE,

EDV,DIV,VIV,VVL,VIK,LKD,

EEV,DVV,...

(8)

BLAST ①

リスト L の語を部分にもつ配列を検索

(Aho-Corasickのアルゴリズム)

(9)

BLAST ② ③

配列データベース マッチした部分を伸ばす ◆ 検出されたヒット(語)を起点として,そのN末端,C末端に向 けて,問い合わせ配列とデータベース中の配列との残基間 対応を拡張し,ギャップを入れないアライメントを構築する ◆ アライメントスコアが増大する限り拡張を続ける ◆ アライメントスコアが閾値を超えた場合,HSP領域

(High-scoring Segment Pair)として報告する

◆ 最後にHSPを連結して最終的アライメントとして出力する

(10)

Aho-Corasick法

Aho-Corasick の文字列照合オートマトン: 検索対象配列 X 中に語のリスト L={w1,w2,…,wk}のどれかが 出現するか否かを調べるアルゴリズム

L={ ABA, ABC }

0 A 1 B 2 A 次の遷移 語の照合途中の遷移 受理 状態 有限オートマトンを作成: 3 C 4 B,C B A A C B C A B,C

(11)

Aho-Corasick法

X =

CAABABABCCCCBBBABACCC

L={ ABA, ABC }

0 A 1 B 2 A 3 C 4 B,C B A A C B C A B,C

(12)

Aho-Corasick法

X =

CAABABABCCCCBBBABACCC

L={ ABA, ABC }

0 A 1 B 2 A 3 C 4 B,C B A A C B C A B,C ヒット!

(13)

Aho-Corasick法

X =

CAABABABCCCCBBBABACCC

L={ ABA, ABC }

0 A 1 B 2 A 3 C 4 B,C B A A C B C A B,C 2回目ヒット!

(14)

Aho-Corasick法

X =

CAABABABCCCCBBBABACCC

L={ ABA, ABC }

0 A 1 B 2 A 3 C 4 B,C B A A C B C A B,C 3回目ヒット!

(15)

Aho-Corasick法

X =

CAABABABCCCCBBBABACCC

L={ ABA, ABC }

0 A 1 B 2 A 3 C 4 B,C B A A C B C A B,C 4回目ヒット!

(16)

Aho-Corasick法

参考文献

Alfred V. Aho, Margaret J. Corasick:

Efficient String Matching: An Aid to Bibliographic Search. CACM 18(6): 333-340 (1975)

「定理」

リスト L 中の文字の総計を m,

データベースの配列 X の長さを n とする.

オートマトンの生成に O(m) 時間,

文字列照合するのに O(n) 時間かかる.

(17)

検索のスコア値

配列類似性の統計的評価:

⚫ BLASTの最大の特徴は,ギャップなし局所アライメント の統計学的考察に基づく配列類似性についての評価の 組み込みにある ⚫ E-value Score E Sequences producing significant alignments: (bits) Value

gi|129369|sp|P04637|P53_HUMAN Cellular tumor antigen p53 (T... 703 0.0

gi|129367|sp|P13481|P53_CERAE Cellular tumor antigen p53 (T... 679 0.0

gi|3024332|sp|P56424|P53_MACMU Cellular tumor antigen p53 (... 679 0.0

gi|3024331|sp|P56423|P53_MACFA Cellular tumor antigen p53 (... 677 0.0

gi|10720194|sp|Q9TTA1|P53_TUPGB Cellular tumor antigen p53 ... 654 0.0

gi|10720190|sp|O36006|P53_MARMO Cellular tumor antigen p53 ... 612 e-175

(18)

ランダム配列モデル

ランダム配列モデル:

アミノ酸20種類の組成 P1, P2, …, P20 が与えられたとき, 配列中の各位置におけるアミノ酸の出現確率はこの組成 のみに依存し,お互いに独立であるモデル ⚫ ランダムな配列同士の比較が行われるとき,アライメント のスコアがどのような分布になるのかを解析した (Karlin & Altschul, 90)

⚫ 互いに関係がないのにも関わらずスコアの高いアライメ

(19)

ランダム配列モデル

極値分布:

⚫ (関連性のない)2つのランダム配列のアライメントのスコアの分布 は極値分布に従う ⚫ (Gumbel)極値分布: 特徴:高スコア領域に裾が歪んでいる ⚫ (参考)正規分布: 特徴:左右対称の釣鐘型 ③ ランダム配列のスコアとの比を取ることにより,類似度の判 定を高い精度で行うことができる ] 2 exp[ 2 1 ) ( 2 x x f = −  ] exp[ ) (x x e x f = − − −

(20)

ランダム配列のスコア分布

タンパク質の長さ ス コ ア 配列長ごとに正規化した スコアの分布 頻 度 タンパク質の配列長 に対するスコア分布 ランダム配列スコアの 極値分布 偶然性が高い 偶然性は低い

(21)

ランダム配列モデル

E-Value:

(関連性のない)ランダムな2つの配列(長さ m と n)が, スコア S 以上のアライメントとして出現する回数の期待値 m は問い合わせ配列長,n はデータベースのサイズ ⚫ そのデータベースに対して偶然そのスコア以上の値が出 るヒット数(false positive)の期待値 ⚫ 経験的には0.0001から0.01ぐらいの閾値が用いられる ⚫ 検索結果のE-valueが低い値であるほど, その結果は偶然でない確 かな一致であるとみなすことができ, 統計的に優位であると言える ⚫ E-valueは,配列長とデータベースの大きさに比例

value

-P

)

exp(

)

exp(

)

(

value

-E

=

=

=

=

mn

S

K

mn

S

Kmn

S

E

 

(22)

進化系統樹とは

約40億年前ころ(明確な証拠はない)に最初の生命

が誕生

系統(phylogeny):

◼ 地球上のすべての生物は共通の祖先から進化したと考え たときの,種間の進化的な関係 ◼ 進化系統樹(phylogenetic tree)で表現 ◆

生物学的な分類体系(参考):

◼ 生物を形質(形態,機能,成分)が似たもの同士に分けて体 系づける ◼ 「界(かい)」「門(もん)」「綱(こう)」「目(もく)」「科(か)」「属 (ぞく)」「種(しゅ)」 ◼ 近年では,伝統的な分類体系を系統学の知見を反映させ た体系に組替える

(23)

分子進化系統樹

分子(配列)進化系統:

◼ すべての配列がある共通祖先の共通遺伝子から受け継が れたと考えたときの,配列間の進化的な関係 ◆

注意点:

◼ (形態学的な)生物種の進化系統と配列に基づく分子進化 系統は常に一致するとは限らない ◼ どの配列(タンパク質,RNA配列など)を基にするかによっ ても得られる分子進化系統樹は異なる ◆

祖先の配列は手に入らない

◼ 進化のモデル・仮説が必要 ◼ コンピュータと数学・統計が主な解析ツールとなる

(24)

生命の系統樹をつくるためには

rRNAまたはミトコンドリアの配列が用いられる

◼ すべての生物に普遍的に存在

◼ 充分な配列変異の存在,変異の安定性

(25)

系統樹に関する用語

– 節点(node),枝(edge),枝長(進化の程度),根

(root),葉(leaf)

– 有根系統樹(rooted),無根系統樹(unrooted)

– 基本的に二分木

有根系統樹 無根系統樹

(26)

無根系統樹,有根系統樹

Chickenを外群とした時 の有根系統樹 数学的にアルゴリズム的に 扱いやすい 生物的進化に関連した分岐を表す 無根系統樹

(27)

進化系統樹

進化系統の簡単なモデル

A C ACG C C T A C AC C C A G C T A C ACT C CG A T AAC GCC C A G C T TA CG A C 共通祖先の配列 時間 ◆枝に沿って変異 ◆節点で種分化

(28)

進化系統樹の(再)構築問題

A C AC T C CG A T AAC GCC C A G C T TA CG 系統樹は?

(29)

16S rRNA に基づく生命の進化系統樹

(30)

進化系統樹の(再)構築問題

Human fqtpmviilqaimgsatlamtliift Chimp fqtpmiiifqaimgsatlaltliift Gorilla lqtpmviifqaimgsatlamtliift Seal fqlpmviifqaiiggatlalafitft Cow fqtpmviifqaiiggatlalalitft

Fin Whale lqtfmviifqaimgettlalafitft Blue Whale lqtfmviifqaimgettlvlaiitft Rat fqismiiifqaimggatlvlatitfi Mouse fqismiiifqaimggatlvlatitfi Chicken pqismiaffqaimggatlfaatitfi Cow root Chicken Seal Fin Whale

Blue Whale Mouse Rat ChimpHuman Gorilla

?

系統樹に沿って進化したと考えられる生体分子のアライメントが 与えられたときに,進化系統樹を構築(発見)する問題 問題のステップ: 1. 系統樹Tのトポロジー(構造)の決定 2. 系統樹Tにおける枝の長さの決定 3. 系統樹Tにおける根の位置の決定

(31)

系統樹の推定手法

距離に基づく手法:

– UPGMA法,近隣結合法 • 分子時計を仮定,加法性を利用して少しずつ構築 ◆

系統樹の評価に基づく手法:

– 最節約法,最尤法 • まず,系統樹の評価方法を決めておく – 最節約法:祖先配列から葉までの置換数が小さい – 最尤法:尤度(系統樹からデータ配列を得る確率) が高い • 評価が最良になるような系統樹を求める – 数え上げ:可能な系統樹から最も評価の良いものを選ぶ – メトロポリス法:現在の系統樹をちょっとずつ改良してゆく – などなど

(32)

最(大)節約法

◆ 全ての可能なトポロジーの(無根)系統樹について計算を行う → 一般に計算量が膨大になる トポロジー:葉に与えられた配列を割り当て,系統樹の形を一 つ定めたもの ◆ 各トポロジーに対して,最小の置換数で説明できる祖先節点 の配列を決定する ◆ すべてのトポロジーの中から,最小の置換数で説明できる系 統樹を選ぶ ◆ アライメントによって並べられた(縦の)カラム全てについて解 析を行う

(33)

最節約法

入力:4つのDNA配列

AAG

AAA

GGA

AGA

◆祖先節点の決定: 系統樹全体の置換数の和が 最小になるように決定 ◆各カラムは独立に計算可能

(34)

距離に基づく手法

距離テーブル:

配列 A:

AC

G

C

G

TTG

GG

C

GA

T

GG

C

AA

C

配列 B:

AC

G

C

G

TTG

GG

C

GA

C

GG

T

AA

T

配列 C:

AC

G

C

A

TTG

AA

T

GA

T

G

A

T

AA

T

配列 D:

AC

A

C

A

TTG

A

G

T

GA

T

AA

T

AAT

A

B

C

D

A

3

7

8

B

6

7

C

3

D

AB間の塩基置換の数

(35)

UPGMA法

(unweighted pair group method using

arithmetic averages)

1. アライメントから初期の距離テーブルを計算する 2. 距離が一番近いものを近隣ペアとする 3. クラスタ間距離=配列同士の距離の平均 4. ペアを一つのノードとして,距離テーブルを再構築する ◆ 基本的に,群間平均法(クラスタ間の平均距離)を用いた 階層クラスタリング ◆ 分子時計を仮定 ◆ UPGMA法の発展形が,NJ法(近隣結合法)

(36)

A B C D E A 22 39 39 41 B 41 41 43 C 18 20 D 10 E

具体例の計算

DEを近隣ペアとする 新しい距離テーブル A B C DE A 22 39 40 B 41 42 C 19 DE AD と AE の平均. 初期距離テーブル A B C D E A 22 39 39 41 B 41 41 43 C 18 20 D 10 E A B C D E 10 12 20 9 4 6 5

(37)

UPGMA法

(unweighted pair group method using

arithmetic averages)

1. 各配列のみからなるクラスタを作る 2. 距離 dij が最小のペアを xi, xj 求める 3. クラスタ xi, xj を融合して xk を作る 4. クラスタ間距離を再計算 5. 親節点 xk を高さ dij / 2 の位置に追加 6. クラスタが2個だけになったら,根を高さ dij / 2 に 置いて終了

(38)
(39)

有根系統樹の根の位置の特定

外群

◼ 調べてる配列よりも遠縁である特定の配列 ◆

外群を使うときに気をつけること

◼ 配列的に似ていて,かつ,充分な違いが必要 ◼ あまりに遠縁すぎるとランダムな要素を含んでしまう 系統樹 外群 ある系統樹について,根の位置を 限定する助けとなる

(40)

Hybridization(雑種形成)

◆ Hybridization は, 異なる種の間の交配によって,染色体を 組み合わせることにより起こる ◆ Hybridization は,一般に植物,魚,カエルに限定される 水あさ (water hemp) ブタ草 pigs weed 雑種

(41)

遺伝子の水平伝播

バクテリアでは,遺伝子を交換するいくつかのメカニ

ズムが知られている

– Transformation(形質転換) – Conjugation(接合) – Transduction(形質導入) http://www.pitt.edu/~heh1/research.html (例) 大腸菌とO157株(ベロ毒素)

(42)

網状進化(Reticulate Evolution)の簡単なモデル

a b1 h c b3 P Q 祖先ゲノム

(43)

今後の講義の予定

5月28日: 佐藤健吾先生(第1回)

6月 4日: 休講(慶早戦あるなしに関わらず)

6月11日: 医学部放射線科学(診断)

橋本 正弘 講師 講演

6月18日: 佐藤健吾先生(第2回)

6月25日: 佐藤健吾先生(第3回)

7月 2日: 佐藤健吾先生(第4回)

7月 9日: 休講(学会出張のため)

7月16日(海の日): 授業内期末試験

(44)

6月11日(月)の授業は

慶應義塾大学 医学部 放射線科学(診断) 講師

橋本 正弘 先生

特別講演:

「講演タイトルは未定ですが,人工知能のCT検査画像

解析などへの応用」

(出席とります!)

6月11日の講演の予告

(45)

7月16日授業内期末試験について

試験会場: 厚生棟大会議室 (会場がいつもの

教室と異なるので注意!)

試験の要領は通常通り:

すべて持ち込み不可

遅刻は開始30分(すなわち,15時15分)まで

学生証を提示

(46)

文字列照合の演習問題

学籍番号: 名前:

例題に示すように,Aho-Corasick 文字列照合オートマトンを用いて, 文字列上を探索して,ヒットする位置(受理状態の位置)を列挙 しなさい.また,途中の状態遷移も示しなさい.

参照

関連したドキュメント

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ

どにより異なる値をとると思われる.ところで,かっ

この見方とは異なり,飯田隆は,「絵とその絵

tiSOneと共にcOrtisODeを検出したことは,恰も 血漿中に少なくともこの場合COTtisOIleの即行

る、というのが、この時期のアマルフィ交易の基本的な枠組みになっていた(8)。

実際, クラス C の多様体については, ここでは 詳細には述べないが, 代数 reduction をはじめ類似のいくつかの方法を 組み合わせてその構造を組織的に研究することができる

※ 硬化時 間につ いては 使用材 料によ って異 なるの で使用 材料の 特性を 十分熟 知する こと

口腔の持つ,種々の働き ( 機能)が障害された場 合,これらの働きがより健全に機能するよう手当