TTCAATCAATTGCGCTATGC - 使いこなそう！CLC Genomics Workbench パート１ QCからトリミング

12 マッピングの詳細

• フィルタリング

ローカルリアライメント

•

マッピングのプロセスでは、各リードがもっとも高いアライメントスコア（参照配列との一致度を示すスコア）を示す場所にマッピングをしています。しかしながら、時には近傍のリードのマッピングの状況から、最も高いアライメントスコアではなくとも、もっともらしいマッピング結果が考えられる場合があります。

•

たとえば上記例では、は左横にずれることで、他のリードのマッピングとも一致し

もっともらしいマッピングになると考えられます。マッピングの段階では、各々のリードのアライメントスコアのみを考えているため、このような状況が発生します。

•

では、このような状況を修正するため、マッピングを部分的にやり直します。

この際、通常のマッピングの段階とは異なり、他のリードのマッピング状況を考慮するため、

先ほどのマッピングは以下のように変化します。

•

先ほどのマッピングよりも、こちらの方がもっともらしい結果であることが直感的に分かります。

原理

•

上図のようなリードと参照配列の組み合わせは右図のように書き下せる。

原理

•

グラフにして書き直し、それぞれのパスを通るリードのカバレッジを記入すると以下のようになる。このグラフを解く事で、は実行されている。

•

Toolbox > NGS Core Tools >

Local Realignment

•

2種類のLocal Realignmentsがあります。さらにGuided にはNo forceと Forceの2種類があります。

–

Non guided

–

Guided

•

No force

•

Force

マッピング後のデュプリケートの除去

•

Guided Local Realignment

–

ガイドとなるような変異（InsertionやDeletion）の情報をあらかじめ与えておくことで、その領域のInsertion、Deletionを考慮してリアライメントを行う。

–

ガイドとなる変異情報がない場合、Local Realignment では、少なくとも1本のリードがInsertionやDeletionを支持している必要がある。このような場合、ガイドとなる変異情報を与えることで、InsertionやDeletion を効率的に検出できるようになる。

•

Guided Local Realignment が有効な例

• マッピングされた後のリードからを取り除きます。

マッピング後のある領域で、Duplicateと考えられる配列がそれぞれ上記の数、存在するとする。

末端から見ていき、マイナーな枝に属する数が指定した割合より少ない場合マージされる。

注意点！

•

リードのスタート地点を起点として考えているため、を行い、リードの末端がトリムされると、正しくが行われない可能性があります。

•

クオリティの高いデータの場合、末端がカットされることは非常に稀なため、トリミングによる影響が出ることが考えにくく、トリミング後のご利用に大きな問題は考えられません（トリミングの設定のもよりますが）。

•

どうしてもクオリティの低いデータで実施したい場合、マッピング後、マップしたリードを抜出し、トリミングを行う方が安全です。

SNV検出

種類の検出方法

• ：クオリティと、変異の見られる頻

度から変異のサイトを検出以前の

。

• ：確率モデルを使い、変異のサイト

を検出。

使い分け：

変異の見られる頻度が、その領域において％以下のような場合は、

それよりも多い場合は、

をご利用ください。

Mapping後のデータに対し、を設定し、許容するミスマッチや、gap、またQuality ScoreによりSNP detectionに含めるデータのフィルタリングを行う。

SNP とCallするために、最低必要なカバレッジや、SNPの

：結果

 Count: クオリティのフィルターをパスしたリードの数

 Coverage: クオリティのフィルターをパスしたリードの数

 Frequency: 変異が見られた頻度

 Forward reads: その領域に見られたForwardリードの数

 Reverse reads:その領域に見られたReverseリードの数

 Forward/reverse: Forward/Total reads または Reverse/Total reads のうち小さい方の値。Forwardと Reverseが同じなら、0.5となる。

 Average quality: 該当する領域の平均リードクオリティ。

 Hyper-allelic: 倍数性から考えて、想定以上のアレルが観察される場合にYesとなる。

詳細

• 確率モデル（）を使った変異検出

与えられるリードから、そのポジションのを推定と推定したが異なる場合、変異として結果

^A

A A T T C

?

: Site type (ex) A/A, A/T, A/C ... ? Reference

詳細

A B

A∩B

P(A) P(B)

P(A∩B)

) ( )

| ( )

( )

| (

) ( )

| ( )

(

) ( )

| ( )

(

B P B A P A

P A B P

B P B A P B

A P

A P A B P B

A P





) ( )

| ) (

| (

P A B P B

A B

P 

ベイズの定理事前確率

Prior

) (

) ( )

| ) (

| (

P R

S P S R R P

S

P 

Reads :

type Site

:

R S

^A

A A T T C

?

: Site type (ex) A/A, A/T, A/C ... ? Reference

)

| ( R S P

) ( P S

: Error Model を使って推定 : Genome Model を使って推定

詳細

• –

がのとき、の大部分はになると仮定し、初期の確率を以下のように設定し、アルゴリズムを使ってそれぞれの確率を推定する。

• アルゴリズム（）は、得られたデータから推定したい現象が観察できない場合に、

その確率を推定する、一般的な統計の手法。

Site Type Initial Probability

A/A 0.2475

A/C 0.001

A/G 0.001

A/T 0.001

T/C 0.001

T/G 0.001

T/T 0.2475

G/C 0.001

C/C 0.2475

G/G 0.2475

G/- 0.001

A/- 0.001

C/- 0.001

詳細

• –

リードに含まれるエラーを考慮するため、尤度のところにエラーを考慮した確率を推定する。初期値を以下のように設定し、アルゴリズムにて確率を推定する。

Reference

A C G T -

Reads

A 0.90 0.025 0.025 0.025 0.025 C 0.025 0.90 0.025 0.025 0.025 G 0.025 0.025 0.90 0.025 0.025 T 0.025 0.025 0.025 0.90 0.025 - 0.025 0.025 0.025 0.025 0.90

詳細

変異コール

•

モデルとモデルにより事後確率が計算できました。この時、リファレンスと同じアレルである場合も計算されます。

•

：－＞と考えます。の事後確率がと計算できたとします。

•

ウィザード中のパラメータで、参照配列と異なる確率を指定しています。

これをとすると、の確率は％以下であるということになります。

•

の確率が％という事は、指定した閾値を満たさないため、このポジションは変異としてコールされません。

^A

Reference それぞれの事後確率 A/A = 0.15

A/T = 0.8

?

詳細

変異コール

•

参照配列と異なる確率を％とすると、が％の場合、そのポジションは変異があるとされ、リファレンスと異なるアレル（）のうち、最も事後確率が高いものを変異のアレルとして返します。

^A

Reference

それぞれの事後確率 A/A = 0.15

A/T = 0.8

A/C = 0.6

A/G = 0.01 .. etc.

?

活用例

• アプリケーションノート

健常デンマーク人２００名とデンマーク人結腸癌患者の比較による癌体細胞変異の検出

健常者解析フロー

マッピング

変異検出

アミノ酸置換

クオリティの悪いものを除去

Local Realignment

癌患者解析フロー

マッピング

変異検出

アミノ酸置換

各種フィルタリング

Local Realignment

体細胞変異を除く

De Novo アセンブリ

原理

•

ではグラフというネットワーク理論に基づいた方法でアセンブリを実行します。

•

各リードからさらに短い長さの配列のセットを作成し、グラフを作成。

•

を利用しているオープンソースの方法ではが有名です。

ライブラリ配列

リード

Word セット

原理

•

グラフではリードを短い配列に分断し（）、グラフを作成します。

（例）リード長の場合は個のができる。

リード

AGTTGATCTTACTAGAGGAA

1 AGTTGATCTT 2 GTTGATCTTA 3 TTGATCTTAC 4 TGATCTTACT 5 GATCTTACTA 6 ATCTTACTAG 7 TCTTACTAGA 8 CTTACTAGAG 9 TTACTAGAGG 10 TACTAGAGGA 11 ACTAGAGGAA

原理

• グラフ作成簡単な例としてで考える

AACGT ACGTC CGTCA GTCAA TCAAG

AACGT – ACGTC – CGTCA – GTCAA - TCAAG

AACGT ACGTC CGTCA CGTCG GTCAA

CGTCA - GTCAA – TCAAG AACGT – ACGTC

CGTCG

AACGTCAAG

AACGTCAAG AACGTCG

原理

CGTCA - GTCAA – TCAAG - CAAGT - AAGTC

AACGT – ACGTC AGTCC - GTCCA CGTCG - GTCGA - TCGAG - CGAGT - GAGTC

CGTCA - GTCAA – TCAAG AACGT – ACGTC

CGTCG

このように作成される多くのグラフから様々なステップを経て、より確からしいContigを作成していく。

Bubble size はホモポリマーのようなシステマティックなエラーがあるときに変更すると有効なパラメータ。

システマティックエラーがあると、分岐が起こり、それが長くつづくバブルを形成する。

システマティックエラーを含んだバブル

Bubble size はどこまでの長さをバブルの可能性があるとして調べに行くかの長さを設定するパラメータ。

最小は12からで、上限5000。

まとめ

• 次世代シーケンサーの解析には様々なステップが経て結果が出されている。

• それぞれのツールに含まれるパラメータは、アルゴリズムがどのように動くのかを分かると、理解も深まり、どのように動かせばよいか、分かってくる。

• 解析手法は日進月歩で変化しているので、最新情報の

チェックも忘れなく。

ドキュメント内使いこなそう！CLC Genomics Workbench パート１ QCからトリミング (ページ 44-79)

TTCAATCAATTGCGCTATGC

12

マッピングの詳細

• フィルタリング

ローカルリアライメント

•

•

•

•

原理

•

原理

•

•

•

–

–

•

•

マッピング後の デュプリケートの除去

•

–

–

•

• マッピングされた後のリードから を取り除きます。

注意点！

•

•

•

SNV検出

種類の検出方法

• ：クオリティと、変異の見られる頻

度から変異のサイトを検出 以前の

。

• ：確率モデルを使い、変異のサイト

を検出。

使い分け：

：結果

詳細

• 確率モデル（ ）を使った変異検出

与えられるリードから、そのポジションの を推定 と推定した が異なる場合、変異として結 果

A

A A T T C

?

?

詳細

) ( )

| ( )

( )

| (

) ( )

| ( )

(

) ( )

| ( )

(

B P B A P A

P A B P

B P B A P B

A P

A P A B P B

A P











) ( )

| ) (

| (

P A B P B

A B

P 

Prior

) (

) ( )

| ) (

| (

P R

S P S R R P

マッピング後のデュプリケートの除去

• マッピングされた後のリードからを取り除きます。

度から変異のサイトを検出以前の

• 確率モデル（）を使った変異検出

与えられるリードから、そのポジションのを推定と推定したが異なる場合、変異として結果

^A

^A

^A

^A

• グラフ作成簡単な例としてで考える

• 次世代シーケンサーの解析には様々なステップが経て結果が出されている。

• それぞれのツールに含まれるパラメータは、アルゴリズムがどのように動くのかを分かると、理解も深まり、どのように動かせばよいか、分かってくる。