• 検索結果がありません。

12

マッピングの詳細

• フィルタリング

ローカルリアライメント

マッピングのプロセスでは、各リードがもっとも高いアライメントスコア(参照配列との一致度 を示すスコア)を示す場所にマッピングをしています。しかしながら、時には近傍のリードの マッピングの状況から、最も高いアライメントスコアではなくとも、もっともらしいマッピング結 果が考えられる場合があります。

たとえば上記例では、 は左横にずれることで、他のリードのマッピングとも一致し

もっともらしいマッピングになると考えられます。マッピングの段階では、各々のリードのアラ イメントスコアのみを考えているため、このような状況が発生します。

では、このような状況を修正するため、マッピングを部分的にやり直します。

この際、通常のマッピングの段階とは異なり、他のリードのマッピング状況を考慮するため、

先ほどのマッピングは以下のように変化します。

先ほどのマッピングよりも、こちらの方がもっともらしい結果であることが直感的に分かりま す。

原理

上図のようなリードと参照配列の組み合わせは右図のように書き下せる。

原理

グラフにして書き直し、それぞれのパスを通るリードのカバレッジを記入すると以下のように なる。このグラフを解く事で、 は実行されている。

Toolbox > NGS Core Tools >

Local Realignment

2種類のLocal Realignmentsがありま す。さらにGuided にはNo forceと Forceの2種類があります。

Non guided

Guided

No force

Force

マッピング後の デュプリケートの除去

Guided Local Realignment

ガイドとなるような変異(InsertionやDeletion)の情報をあらかじめ与えておく ことで、その領域のInsertion、Deletionを考慮してリアライメントを行う。

ガイドとなる変異情報がない場合、Local Realignment では、少なくとも1本の リードがInsertionやDeletionを支持している必要がある。このような場合、ガイ ドとなる変異情報を与えることで、InsertionやDeletion を効率的に検出できる ようになる。

Guided Local Realignment が有効な例

• マッピングされた後のリードから を取り除きます。

マッピング後のある領域で、Duplicateと考えられる配列がそれぞれ上記の数、存在するとする。

末端から見ていき、マイナーな枝に属する数が指定した割合より少ない場合マージされる。

注意点!

リードのスタート地点を起点として考えているため、 を行い、リード の 末端がトリムされると、正しく が行われない可能性があります。

クオリティの高いデータの場合、 末端がカットされることは非常に稀なた め、トリミングによる影響が出ることが考えにくく、トリミング後のご利用に 大きな問題は考えられません(トリミングの設定のもよりますが)。

どうしてもクオリティの低いデータで実施したい場合、マッピング後、マッ プしたリードを抜出し、トリミングを行う方が安全です。

SNV検出

種類の検出方法

• :クオリティと、変異の見られる頻

度から変異のサイトを検出 以前の

• :確率モデルを使い、変異のサイト

を検出。

使い分け:

変異の見られる頻度が、その領域において %以下のような場合は、

それよりも多い場合は、

をご利用ください。

Mapping後のデータに対し、を設定し、許容するミスマッ チや、gap、またQuality ScoreによりSNP detectionに含 めるデータのフィルタリングを行う。

SNP とCallするために、最低必要なカバレッジや、SNPの

:結果

Count: クオリティのフィルターをパスしたリードの数

Coverage: クオリティのフィルターをパスしたリードの数

Frequency: 変異が見られた頻度

Forward reads: その領域に見られたForwardリードの数

Reverse reads:その領域に見られたReverseリードの数

Forward/reverse: Forward/Total reads または Reverse/Total reads のうち小さい方の値。Forwardと Reverseが同じなら、0.5となる。

Average quality: 該当する領域の平均リードクオリティ。

Hyper-allelic: 倍数性から考えて、想定以上のアレルが観察される場合にYesとなる。

詳細

• 確率モデル( )を使った変異検出

与えられるリードから、そのポジションの を推定 と推定した が異なる場合、変異として結 果

A

A A T T C

?

?

: Site type (ex) A/A, A/T, A/C ... ? Reference

詳細

A B

A∩B

P(A) P(B)

P(A∩B)

) ( )

| ( )

( )

| (

) ( )

| ( )

(

) ( )

| ( )

(

B P B A P A

P A B P

B P B A P B

A P

A P A B P B

A P

) ( )

| ) (

| (

P A B P B

A B

P

ベイズの定理 事前確率

Prior

) (

) ( )

| ) (

| (

P R

S P S R R P

S

P

Reads :

type Site

:

R S

A

A A T T C

?

?

: Site type (ex) A/A, A/T, A/C ... ? Reference

)

| ( R S P

) ( P S

: Error Model を使って推定 : Genome Model を使って推定

詳細

が のとき、 の大部分は になると仮定し、初期の確率を以下のように設定 し、 アルゴリズムを使ってそれぞれの確率を推定する。

アルゴリズム( )は、得られたデータから推定したい現象が観察できない場合に、

その確率を推定する、一般的な統計の手法。

Site Type Initial Probability

A/A 0.2475

A/C 0.001

A/G 0.001

A/T 0.001

T/C 0.001

T/G 0.001

T/T 0.2475

G/C 0.001

C/C 0.2475

G/G 0.2475

G/- 0.001

A/- 0.001

C/- 0.001

詳細

リードに含まれるエラーを考慮するため、尤度のところにエラーを考慮した確 率を推定する。初期値を以下のように設定し、 アルゴリズムにて確率を推 定する。

Reference

A C G T -

Reads

A 0.90 0.025 0.025 0.025 0.025 C 0.025 0.90 0.025 0.025 0.025 G 0.025 0.025 0.90 0.025 0.025 T 0.025 0.025 0.025 0.90 0.025 - 0.025 0.025 0.025 0.025 0.90

詳細

変異コール

モデルと モデルにより事後確率が計算できました。この時、リ ファレンスと同じアレルである場合も計算されます。

: -> と考えます。 の事後確率が と計算できたとし ます。

ウィザード中のパラメータで、 参照配列と異なる確率 を指定しています。

これを とすると、 の確率は %以下であるということになります。

の確率が %という事は、指定した閾値を満たさないため、このポジショ ンは変異としてコールされません。

A

Reference それぞれの事後確率 A/A = 0.15

A/T = 0.8

?

詳細

変異コール

参照配列と異なる確率を %とすると、 が %の場合、そのポジションは変異 があるとされ、リファレンスと異なるアレル( )のうち、最も事後確率が高いも のを変異のアレルとして返します

A

Reference

それぞれの事後確率 A/A = 0.15

A/T = 0.8

A/C = 0.6

A/G = 0.01 .. etc.

?

活用例

• アプリケーションノート

健常デンマーク人200名とデンマーク 人結腸癌患者の比較による癌体細胞 変異の検出

健常者解析フロー

マッピング

変異検出

アミノ酸置換

クオリティの悪いものを除去

Local Realignment

癌患者解析フロー

マッピング

変異検出

アミノ酸置換

各種フィルタリング

Local Realignment

体細胞変異を除く

De Novo アセンブリ

原理

では グラフというネットワーク理論に基づいた方 法で アセンブリを実行します。

各リードからさらに短い長さの配列のセットを作成し、グラフを作成。

を利用しているオープンソースの方法では が有名です。

ライブラリ配列

リード

Word セット

原理

グラフではリードを短い配列に分断し( )、グラフを作成します。

(例) リード長 の場合は 個の ができる。

リード

AGTTGATCTTACTAGAGGAA

1 AGTTGATCTT 2 GTTGATCTTA 3 TTGATCTTAC 4 TGATCTTACT 5 GATCTTACTA 6 ATCTTACTAG 7 TCTTACTAGA 8 CTTACTAGAG 9 TTACTAGAGG 10 TACTAGAGGA 11 ACTAGAGGAA

原理

• グラフ作成 簡単な例として で考える

AACGT ACGTC CGTCA GTCAA TCAAG

AACGT – ACGTC – CGTCA – GTCAA - TCAAG

AACGT ACGTC CGTCA CGTCG GTCAA

CGTCA - GTCAA – TCAAG AACGT – ACGTC

CGTCG

AACGTCAAG

AACGTCAAG AACGTCG

原理

CGTCA - GTCAA – TCAAG - CAAGT - AAGTC

AACGT – ACGTC AGTCC - GTCCA CGTCG - GTCGA - TCGAG - CGAGT - GAGTC

CGTCA - GTCAA – TCAAG AACGT – ACGTC

CGTCG

このように作成される多くのグラフから様々なステップを経て、よ り確からしいContigを作成していく。

Bubble size はホモポリマーのようなシステマティックなエラーがあるときに変更すると有効なパラ メータ。

システマティックエラーがあると、分岐が起こり、それが長くつづく バブルを形成する。

システマティックエラーを含んだバブル

Bubble size はどこまでの長さをバブルの可能性があるとして調べに行くかの長さを設 定するパラメータ。

最小は12からで、上限5000。

まとめ

• 次世代シーケンサーの解析には様々なステップが経て結果 が出されている。

• それぞれのツールに含まれるパラメータは、アルゴリズムが どのように動くのかを分かると、理解も深まり、どのように動 かせばよいか、分かってくる。

• 解析手法は日進月歩で変化しているので、最新情報の

チェックも忘れなく。

関連したドキュメント