12
マッピングの詳細
• フィルタリング
ローカルリアライメント
•
マッピングのプロセスでは、各リードがもっとも高いアライメントスコア(参照配列との一致度 を示すスコア)を示す場所にマッピングをしています。しかしながら、時には近傍のリードの マッピングの状況から、最も高いアライメントスコアではなくとも、もっともらしいマッピング結 果が考えられる場合があります。•
たとえば上記例では、 は左横にずれることで、他のリードのマッピングとも一致しもっともらしいマッピングになると考えられます。マッピングの段階では、各々のリードのアラ イメントスコアのみを考えているため、このような状況が発生します。
•
では、このような状況を修正するため、マッピングを部分的にやり直します。この際、通常のマッピングの段階とは異なり、他のリードのマッピング状況を考慮するため、
先ほどのマッピングは以下のように変化します。
•
先ほどのマッピングよりも、こちらの方がもっともらしい結果であることが直感的に分かりま す。原理
•
上図のようなリードと参照配列の組み合わせは右図のように書き下せる。原理
•
グラフにして書き直し、それぞれのパスを通るリードのカバレッジを記入すると以下のように なる。このグラフを解く事で、 は実行されている。•
Toolbox > NGS Core Tools >Local Realignment
•
2種類のLocal Realignmentsがありま す。さらにGuided にはNo forceと Forceの2種類があります。–
Non guided–
Guided•
No force•
Forceマッピング後の デュプリケートの除去
•
Guided Local Realignment–
ガイドとなるような変異(InsertionやDeletion)の情報をあらかじめ与えておく ことで、その領域のInsertion、Deletionを考慮してリアライメントを行う。–
ガイドとなる変異情報がない場合、Local Realignment では、少なくとも1本の リードがInsertionやDeletionを支持している必要がある。このような場合、ガイ ドとなる変異情報を与えることで、InsertionやDeletion を効率的に検出できる ようになる。•
Guided Local Realignment が有効な例• マッピングされた後のリードから を取り除きます。
マッピング後のある領域で、Duplicateと考えられる配列がそれぞれ上記の数、存在するとする。
末端から見ていき、マイナーな枝に属する数が指定した割合より少ない場合マージされる。
注意点!
•
リードのスタート地点を起点として考えているため、 を行い、リード の 末端がトリムされると、正しく が行われない可能性があります。•
クオリティの高いデータの場合、 末端がカットされることは非常に稀なた め、トリミングによる影響が出ることが考えにくく、トリミング後のご利用に 大きな問題は考えられません(トリミングの設定のもよりますが)。•
どうしてもクオリティの低いデータで実施したい場合、マッピング後、マッ プしたリードを抜出し、トリミングを行う方が安全です。SNV検出
種類の検出方法
• :クオリティと、変異の見られる頻
度から変異のサイトを検出 以前の
。
• :確率モデルを使い、変異のサイト
を検出。
使い分け:
変異の見られる頻度が、その領域において %以下のような場合は、
それよりも多い場合は、
をご利用ください。
Mapping後のデータに対し、を設定し、許容するミスマッ チや、gap、またQuality ScoreによりSNP detectionに含 めるデータのフィルタリングを行う。
SNP とCallするために、最低必要なカバレッジや、SNPの
:結果
Count: クオリティのフィルターをパスしたリードの数
Coverage: クオリティのフィルターをパスしたリードの数
Frequency: 変異が見られた頻度
Forward reads: その領域に見られたForwardリードの数
Reverse reads:その領域に見られたReverseリードの数
Forward/reverse: Forward/Total reads または Reverse/Total reads のうち小さい方の値。Forwardと Reverseが同じなら、0.5となる。
Average quality: 該当する領域の平均リードクオリティ。
Hyper-allelic: 倍数性から考えて、想定以上のアレルが観察される場合にYesとなる。
詳細
• 確率モデル( )を使った変異検出
与えられるリードから、そのポジションの を推定 と推定した が異なる場合、変異として結 果
A
A A T T C
?
?
: Site type (ex) A/A, A/T, A/C ... ? Reference詳細
A B
A∩B
P(A) P(B)
P(A∩B)
) ( )
| ( )
( )
| (
) ( )
| ( )
(
) ( )
| ( )
(
B P B A P A
P A B P
B P B A P B
A P
A P A B P B
A P
) ( )
| ) (
| (
P A B P B
A B
P
ベイズの定理 事前確率
Prior
) (
) ( )
| ) (
| (
P R
S P S R R P
S
P
Reads :
type Site
:
R S
A
A A T T C
?
?
: Site type (ex) A/A, A/T, A/C ... ? Reference)
| ( R S P
) ( P S
: Error Model を使って推定 : Genome Model を使って推定
詳細
•
–
が のとき、 の大部分は になると仮定し、初期の確率を以下のように設定 し、 アルゴリズムを使ってそれぞれの確率を推定する。• アルゴリズム( )は、得られたデータから推定したい現象が観察できない場合に、
その確率を推定する、一般的な統計の手法。
Site Type Initial Probability
A/A 0.2475
A/C 0.001
A/G 0.001
A/T 0.001
T/C 0.001
T/G 0.001
T/T 0.2475
G/C 0.001
C/C 0.2475
G/G 0.2475
G/- 0.001
A/- 0.001
C/- 0.001
詳細
•
–
リードに含まれるエラーを考慮するため、尤度のところにエラーを考慮した確 率を推定する。初期値を以下のように設定し、 アルゴリズムにて確率を推 定する。Reference
A C G T -
Reads
A 0.90 0.025 0.025 0.025 0.025 C 0.025 0.90 0.025 0.025 0.025 G 0.025 0.025 0.90 0.025 0.025 T 0.025 0.025 0.025 0.90 0.025 - 0.025 0.025 0.025 0.025 0.90
詳細
変異コール
•
モデルと モデルにより事後確率が計算できました。この時、リ ファレンスと同じアレルである場合も計算されます。•
: -> と考えます。 の事後確率が と計算できたとし ます。•
ウィザード中のパラメータで、 参照配列と異なる確率 を指定しています。これを とすると、 の確率は %以下であるということになります。
•
の確率が %という事は、指定した閾値を満たさないため、このポジショ ンは変異としてコールされません。A
Reference それぞれの事後確率 A/A = 0.15
A/T = 0.8
?
詳細
変異コール
•
参照配列と異なる確率を %とすると、 が %の場合、そのポジションは変異 があるとされ、リファレンスと異なるアレル( )のうち、最も事後確率が高いも のを変異のアレルとして返します。A
Reference
それぞれの事後確率 A/A = 0.15
A/T = 0.8
A/C = 0.6A/G = 0.01 .. etc.
?
活用例
• アプリケーションノート
健常デンマーク人200名とデンマーク 人結腸癌患者の比較による癌体細胞 変異の検出
健常者解析フロー
マッピング
変異検出
アミノ酸置換
クオリティの悪いものを除去
Local Realignment
癌患者解析フロー
マッピング
変異検出
アミノ酸置換
各種フィルタリング
Local Realignment
体細胞変異を除く
De Novo アセンブリ
原理
•
では グラフというネットワーク理論に基づいた方 法で アセンブリを実行します。•
各リードからさらに短い長さの配列のセットを作成し、グラフを作成。•
を利用しているオープンソースの方法では が有名です。ライブラリ配列
リード
Word セット
原理
•
グラフではリードを短い配列に分断し( )、グラフを作成します。(例) リード長 の場合は 個の ができる。
リード
AGTTGATCTTACTAGAGGAA
1 AGTTGATCTT 2 GTTGATCTTA 3 TTGATCTTAC 4 TGATCTTACT 5 GATCTTACTA 6 ATCTTACTAG 7 TCTTACTAGA 8 CTTACTAGAG 9 TTACTAGAGG 10 TACTAGAGGA 11 ACTAGAGGAA
原理
• グラフ作成 簡単な例として で考える
AACGT ACGTC CGTCA GTCAA TCAAG
AACGT – ACGTC – CGTCA – GTCAA - TCAAG
AACGT ACGTC CGTCA CGTCG GTCAA
CGTCA - GTCAA – TCAAG AACGT – ACGTC
CGTCG
AACGTCAAG
AACGTCAAG AACGTCG
原理
CGTCA - GTCAA – TCAAG - CAAGT - AAGTC
AACGT – ACGTC AGTCC - GTCCA CGTCG - GTCGA - TCGAG - CGAGT - GAGTC
CGTCA - GTCAA – TCAAG AACGT – ACGTC
CGTCG
このように作成される多くのグラフから様々なステップを経て、よ り確からしいContigを作成していく。
Bubble size はホモポリマーのようなシステマティックなエラーがあるときに変更すると有効なパラ メータ。
システマティックエラーがあると、分岐が起こり、それが長くつづく バブルを形成する。
システマティックエラーを含んだバブル
Bubble size はどこまでの長さをバブルの可能性があるとして調べに行くかの長さを設 定するパラメータ。
最小は12からで、上限5000。