• 検索結果がありません。

バイオインフォマティクスⅠ

N/A
N/A
Protected

Academic year: 2021

シェア "バイオインフォマティクスⅠ"

Copied!
37
0
0

読み込み中.... (全文を見る)

全文

(1)

バイオインフォマティクス

(第5回)

慶應義塾大学生命情報学科

榊原康文

(2)

QTSYTRY

QT-YTRK

QS-YPRY

多重アライメントの解

i 0 1 2 3 4 5 6 7 j Q T S Y T R Y Q T - Y T R K 0 0 -9 -20 -44 -52 -63 -72 -90 1 Q -16 21 10 -6 -14 -25 -34 -52 2 S -32 5 30 14 6 -5 -14 -32 3 Y -48 -11 14 12 38 27 18 0 4 P -64 -27 -2 -3 22 41 32 14 5 R -80 -43 -18 -19 6 25 62 44 6 Y -96 -59 -34 -35 5 9 46 66 多重アライメント: s(a, -)=s(-, a)=-8 , s(-, -)=0

(3)

クラスタリングとは

類似性にしたがって分類 (グループ分け)

クラスター : 内部の要素はお互いに似ているが、外部のもの とは異なる集合 クラスタリングにより 3つのグループに分類

(4)

遺伝子のグループ化

遺伝子(それがコードするタンパク質)の機能の同定

同じ機能を持つ遺伝子をグループ化

① (アミノ酸)配列の相同性に基づくグループ化

タンパク質のファミリー,スーパーファミリー,など

② マイクロアレイデータの発現プロファイルを用いた

遺伝子のクラスタリング

(5)
(6)

DNAマイクロアレイによる

遺伝子発現プロファイルの解析法

対象とする遺伝子の mRNAから cDNA を合成 (長さを 500塩基程度にそろえる ) ガラス基板上に スポットし乾燥・固定化 正常細胞 ↓ mRNA ↓ cDNA+ 蛍光色素Cy3(緑) 腫瘍細胞 ↓ mRNA ↓ cDNA+ 蛍光色素Cy5(赤) 蛍光強度差を検出

(7)

遺伝子発現プロファイルのクラスタリング

赤:好気性 緑:嫌気性 発現情報のみを用いて発現パターンの類似 した遺伝子をクラスター(グループ)にし ていく ◼ 酵母(S. cerevisiae)の既知遺伝子で,似た機能 をもつものは同じクラスターに分類されることを 確認(Eisen et al.,PNAS, 1998.) ◼ クラスタリングによって得られた結果に対し,同 一クラスター内の既知遺伝子の生物学的な注 釈(アノテーション情報)をもとに未知遺伝子の 機能を推定

(8)

マイクロアレイデータの発現プロファイル

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 条件1 (時間1) 条件2 (時間2) 条件10 (時間10) ● ● ● 遺伝子1 遺伝子2 遺伝子16 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 条 件 1 条 件 2 条 件 10

...

遺伝子1 遺伝子2 遺伝子16

(9)

発現プロファイルのクラスタリング

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 条 件 1 条 件 2 条 件 10

...

遺伝子1’ 遺伝子2’ 遺伝子16’

クラスター1 クラスター2 クラスター3

(10)

クラスタリングを用いたマイクロアレイ解析

発現データ (発現プロファイル)

– 行 :

遺伝子 (cDNA, EST, etc)

– 列 :

条件 (サンプル, 時間, etc) N genes M conditions

からなる N × M 行列

クラスタリング – 行 / 列成分に適用

– 要素 :

各遺伝子の 各条件における発現レベル

(11)

“Distinct types of diffuse large B-cell lymphoma identified by gene Expression profiling”, Alizadeh et al., Nature, 2000

び慢性大B細胞リンパ腫

(diffuse large B-cell lymphoma) 同一の組織学的所見だが, 臨床経過が著しく異なる患者の存在 階層クラスタリングを用いて がん化前の分化状態で分類 (臨床経過の予測が可能に)

マイクロアレイ解析の実際例

マイクロアレイ実験からの 大規模なデータは, コンピュータによる 解析が不可欠!!

(12)

クラスタリングの対象:二通り

① 条件にしたがって,

遺伝子

をクラスタリング

– 基本:遺伝子の分類 – 協調的に機能する / 類似の遺伝子セットの同定 – 典型的な発現パターンの同定 (細胞周期, 胞子形成, etc)

② 遺伝子にしたがって,

条件

をクラスタリング

– サンプルの分類(組織の状態の分類,疾患の分類) – 条件の検定 (既知の機能分類に分けられたかどうか, etc) (仮定 : 類似遺伝子なら発現プロファイルも似ている)

(13)

クラスタリングとは

類似性にしたがって分類 (グループ分け)

良いクラスタリングの条件 : 内部の要素はお互いに似ているが,

外部のものとは異なる集合

(14)

クラスタリング解析

◆ 類似性にしたがって分類 (グループ分け)

[類似性の尺度]

Distance-based : ユークリッド距離, マンハッタン距離, etc

Correlation-based : ピアソン相関係数, cosine相関係数, etc

Link-based : 隣接共通ノード, 密度, etc (グラフ理論)

Pattern-based :

(15)

類似性の尺度

入力ベクトル x = (x

1

, …, x

n

), y = (y

1

, …, y

n

)

ユークリッド距離 :

マンハッタン距離 :

(ピアソン)相関係数 :

=

-=

n i i i E

x

y

x

y

d

1 2

)

(

)

,

(

.

)

,

(

1

=

-=

n i i i M

x

y

x

y

d

= = =

-=

1 2 1 2 1

)

(

)

(

)

)(

(

)

,

(

i i i i i i i C

y

y

x

x

y

y

x

x

y

x

d

(値域:-1≦ dC ≦ 1)

(16)

どの尺度を使えばいいのか?

0 1 2 3 4 1 2 3 4 1.0 2.0 3.0 4.0 A 1.0 1.0 1.5 1.5 B 2.5 2.5 3.5 3.5 C 1.5 1.5 1.0 1.0 B A C

dc(A, B) = 1

dc(A, C) = -1

dE(A, B) = 3.54

dE(A, C) = 1

ユークリッド距離 ピアソン相関係数 どの尺度を使うか 何を検出したいのか

(17)

どの尺度を使えばいいのか?

◆ Correlation-based : 発現変化の相関をみる ◆ Distance-based : 発現変化の絶対量をみる どの尺度を使うか 何を検出したいのか (ピアソン相関係数,など) (一般に,マンハッタン距離の方がoutlinerに対してロバスト) 条件が経過時間ならば Corrleation-based 条件が様々な環境(熱ショック, 飢餓)ならば Distance-based

(18)

クラスタリングアルゴリズム

Unsupervised (教師なし, 事前ラベルなし) :

階層クラスタリング, k-means法

,

fuzzy k-means法, SOM(自己組織化マップ)法

クラスタ内の類似度 = 最大, クラスタ外の類似度 = 最小

[目標]

(19)

階層的クラスタリング

◼ ボトムアップ的手法 • Step1. 各要素分のクラスタを考える • Step2. 全てのペアの類似度を調べ, 類似度が最大のペアを1つにマージする • Step3. 全てのペアについて類似度を再計算 • Step4. クラスタが1つになるまで,Step2, 3 を繰り返す 現在のクラスタペアをマージしたクラスタを生成

(20)

階層的クラスタリング

系統樹(dendrogram) 階層的クラスタリングの結果:

(21)

階層クラスタリング

◼ クラスタの類似度の計算 • 最短距離法. クラスタ間の最短距離 • 最長距離法. クラスタ間の最長距離 • 群間平均法. クラスタ間の平均距離 ) , ( min ) , ( , d x y G G d j i y G G x j i = ) , ( max ) , ( , d x y G G d j i y G G x j i = ) , ( | || | 1 ) , ( , d x y G G G G d j i y G G x j i j i =

(22)

階層クラスタリング

◼ クラスタの類似度の計算 • 最短距離法. クラスタ間の最短距離 • 最長距離法. クラスタ間の最長距離 • 群間平均法. クラスタ間の平均距離 伸長したクラスタが得られる コンパクトなクラスタが得られる 平均的なサイズのクラスタが得られる

(23)

階層クラスタリング

◼ クラスタの類似度の計算 A B C • 最短距離法 • 最長距離法 • 群間平均法 A, C をマージ

(24)

階層クラスタリング

◼ クラスタの類似度の計算 A B C • 最短距離法 • 最長距離法 • 群間平均法 B, C をマージ

(25)

階層クラスタリング

◼ クラスタの類似度の計算 A B C • 最短距離法 • 最長距離法 • 群間平均法 A, C をマージ

(26)

階層クラスタリング

Step1. データセット Step2-1. 類似度計算

(27)

階層クラスタリング例:ユークリッド距離 (群間平均法)

[1] [2] A: 1 0 B: 2 2 C: 3 3 D: 0 -1 E: -1 1 A: B: C: D: B: 2.236 C: 3.605 1.414 D: 1.414 3.605 5.000 E: 2.236 3.162 4.472 2.236 入 力 ベ ク ト ル 距 離 行 列 距離マップ 系 統 樹 A B D C E A B C D E

(28)

階層クラスタリング例:ユークリッド距離

最短距離法 最長距離法 A B C D E B D A C E

(29)

階層クラスタリング例:ピアソン相関係数 (群間平均法)

[1] [2] A: 1 0 B: 2 2 C: 3 3 D: 0 -1 E: -1 1 A: B: C: D: B: 0.292 C: 0.292 0.000 D: 1.000 1.707 1.707 E: 1.707 1.000 1.000 1.707 入 力 ベ ク ト ル 距 離 行 列 距離マップ 系 統 樹 A B D C E B D E C A

= = = = 1 2 1 2 1 ) , ( i i i i i i i C y x y x y x d

(30)

階層的クラスタリングの応用例と問題点

“Systematic Variation in gene expression patterns in

Human cancer cell lines”, Ross, D., et al. Nature Genetics, 2000

◼ がんの種類に関して,関連する遺伝子を正しくグループ分け

することができた

CNS:中枢神経,renal:腎臓,ovarian:卵巣,leukaemia:白血病, colon:結腸,melanoma:メラノーマ(黒色腫)

(31)

k-means法

◼ トップダウン的手法 • Step1. 最終的なクラスタ数

k

を設定 • Step2. 任意の

k

個のクラスタ中心を設定 (random) • Step3-1. 各要素を最も近いクラスタ中心に割り当てる (一般に,ユークリッド距離に関して) • Step4. 重心が変化しなくなるまで,Step3 を繰り返す 各クラスタ中心を,そのクラスタ内の全要素の重心で 置き換える • Step3-2.

(32)

1 2 Step1. データセット Step2. クラスタ中心設定 Step3-1.クラスタ割り当て Step3-2. 新クラスタ中心算出

k-means法

1 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2

(33)

k-means法:ユークリッド距離

k=2 k=3 A B D C E A B D C E

(34)

k-means法の問題点

◼ 初期値に強く依存する クラスタ数 :

k

多くのヒューリスティックな解法が提案 (ベイズ推論を用いる,など) クラスタ中心の初期設定

事前に制約を設定する (Constrained k-means, etc)

◼ 得られた結果は

k

個のクラスタのみ

(35)

SOM (自己組織化マップ)法

• Step1. 最終的なクラスタ数 k, 繰り返し回数 T を設定 • Step2. k 個のクラスタ中心ノード配列を設定 (random) • Step4. 繰り返し回数Tに達するまで,もしくは全ての クラスタ中心が変化しなくなるまで,Step3 を繰り返す • Step3. 各要素に最も近いクラスタ中心(最整合ノード), およ び最整合ノードの半径 以内の近傍クラスタ中心 を決定

)

(i

最整合ノードおよびその近傍ノードを, だけ 該当要素の方向へ移動させる ) , (d i

2層ニューラルネットワークに基づく学習

(36)

クラスタリングによるマイクロアレイ解析は一般的だが …

様々なアルゴリズムが存在する

それぞれに長所・短所があるので,目的に合わせて 最適なアルゴリズム・パラメータを選択する

クラスタリング結果の妥当性・有意性評価は困難

ランダムデータからでも相関のあるクラスタは生成される 1. 注意深く,結果を解釈する (生物学的に) 2. 複数のソース(DNA配列情報, etc)と組み合わせて 有意性の高い結果を得るようにする

まとめ

(37)

階層クラスタリング演習問題

下記の4つの入力ベクトルを,階層クラスタリングを用いて,クラスタ リングした結果の系統樹を書きなさい.この時,距離関数は ユークリッド距離と群間平均法を用いなさい. 入 力 ベ ク ト ル 系統樹

参照

関連したドキュメント

TABLE 1: Primer sets, annealing temperatures (temp.) and expected amplified fragment sizes for reverse transcription–polymerase chain reaction analysis of genes encoding ephrin

Com- parison of L1 gene expression among HPV genotypes revealed the highest L1 expression in HPV 52-positive specimens, followed by HPV 58-positive specimens, and there was almost no

In addition, these chemokines exert overlapping but distinct actions on specific cell types through interacting with the cognate G protein- coupled receptors with seven

NELL1 (a) and NELL2 (b) mRNA expression levels in renal cell carcinoma cell lines OS-RC-2, VMRC-RCW, and TUHR14TKB and control HEK293T cells were analyzed using quantitative

Although mouse NS was included in the leukaemia stem cell gene signature, NS expression levels were not significantly different among AML patient clusters in our study (data

Consistent with this, the knockdown of ASC expression by RNA interference in human monocytic/macrophagic cell lines results in reduced NF-κB activation as well as diminished IL-8

Treatment with ONO-1301 increased hepatic HGF mRNA expression, but decreased the expressions of TGF-β1, connective tissue growth factor, α-smooth muscle actin, and type-I and

ABUNDANT EXPRESSION OF NUCLEOSOME ASSEMBLY PROTEIN 1 (NAP1) GENE IN GOLDFISH SCALE WITH LATERAL LINE.. LiHua LI 1 , Hironobu KATSUYAMA 2 , Son Ngoc DO 1 , Masayuki SAITO 1 ,