CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

(1)

CLC Genomics Workbench

ウェブトレーニングセミナー: 変異解析編

22 nd

_{Dec., 2015}

フィルジェン株式会社バイオサイエンス部

[email protected]

(2)

本日の内容

データのインポート・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・3

リファレンスデータの取得・・・・・・・・・・・・・・・・・・・・・・・・・・・10

データフォーマット・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・21

解析ワークフロー・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・22

変異のフィルタリング・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・77

変異データのエクスポート・・・・・・・・・・・・・・・・・・・・・・・・・・79

マニュアルダウンロード・・・・・・・・・・・・・・・・・・・・・・・・・・・・・81

セミナー案内・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・82

(3)

データのインポート

次世代シークエンス以外のデータ

次世代シークエンスデータ

アノテーションファイル

SAM/BAMファイル

Sangerシークエンスデータ

 本workbenchは各フォーマットに適したインポーターを用意しています。

 ToolbarのImportアイコンから表示されるインポーターから選択して、インポートを実行します。

※ PacBioインポーターはCLC Genome Finishing Moduleプラグイン（有償）をインストールすることで、利用できるようになります。

(4)

データのインポート

: illumina

ペアリードの場合、forwardとreverseのfastqファイルを選択 • ペアエンドであればPaired-end、メイトペアであればMate-pairを選択 • DistanceにDNAフラグメントのサイズを入力古いバージョンのilluminaソフトで処理されたデータの場合、該当するバージョンを指定 • Paired reads: ペアリードの場合はチェックする

• Discard read names: インポート時にリード名を削除 • Discard quality scores: インポート時にクオリティスコアを削除

(5)

データのインポート

: Ion Torrent

リードファイルを選択 sffファイルのインポートの場合、clippingされた情報を使用するか選択可能 • ペアエンドであればPaired-end、メイトペアであればMate-pairを選択 • DistanceにDNAフラグメントのサイズを入力 • Paired reads: ペアリードの場合はチェックする

• Discard read names: インポート時にリード名を削除 • Discard quality scores: インポート時にクオリティスコアを削除

(6)

データのインポート

: Ion Torrent

リードデータインポート: Ion Torrent (Unmapped BAMファイル)

※ご注意

 Ion Torrentのシークエンサーデータを処理するTorrent Suitでは、バージョン3.0以降、デフォルトではfastqファイルやsffファイルではなく、

Unmapped BAMファイルが作成されます。

 Unmapped BAMファイルはImport > Standard Importより、fastqファイルと同じようにインポートすることが可能です。

リードデータとしてインポート

マッピングデータとしてインポート

(7)

リード配列

リード名

クオリティスコア

(8)

データのインポート

アノテーションファイル

 全エクソームやターゲットアンプリコンのサンプル調製キットには、キャプチャー領域を指定するアノテーションファイルが各メー

カーから、ホームページや専用のポータルなどで、提供されています。

 こうしたアノテーションファイルはBEDファイルやGVFファイルなどのフォーマットとなっており、インポートすることが可能です。

 他にも様々なファイルをインポートすることが可能ですが、対象となるゲノムトラックが必要となります。

• VCF

• GFF/GTF/GVF

• BED

• Wiggle

• Complete Genomics Var file

• UCSC Variation table damp

(9)

データのインポート

ファイルタイプを選択(.bedならBED、.gffならGFF/GTF/GVFを選択)

アノテーションは、Import > Tracks...からインポートします。

インポートするファイルを選択

(10)

リファレンスデータの取得

Download機能を使用する方法

パブリックデータベースなどからダウンロードしたファイルをインポートする方法

(11)

リファレンスデータの取得:

Download機能の使用

(12)

リファレンスデータの取得:

Download機能の使用

ドロップダウンリストから生物種を選択

新規にゲノムをダウンロードする場合に選択

アノテーションデータのみを取得する場合に選択 ※ゲノムデータが予め取得されていることが前提

(13)

リファレンスデータの取得:

Download機能の使用

任意のアノテーションのボックスにチェックを入れます。

※選択した生物種により、表示されるアノテーションの種類は異なります;上図ではヒトを例示しています。

取得するデータにチェック

(14)

リファレンスデータの取得:

Download機能の使用

(15)

リファレンスデータの取得:

Download機能の使用

1. 検索キーワードを入力し、Start searchをクリック。

2. 検索結果から目的の配列を選択し、Download and Saveで配列をダウンロード。

(16)

リファレンスデータの取得:

Ensemblデータのインポート

 Ensemblのダウンロードページ（

http://asia.ensembl.org/info/data/ftp/index.html

）にアクセスし、目的とする生物種

の項目から、ゲノム配列とアノテーションファイルへのリンクをクリックします。

 リストには最新版が表示されます。古いデータを利用する場合、FTPサイト（

ftp://ftp.ensembl.org/pub/

）にアクセスし、目的

とするバージョンのデータを取得します。

ゲノム配列ファイルへのリンク

アノテーションファイルへのリンク

(17)

リファレンスデータの取得:

Ensemblデータのインポート

• ゲノム配列ファイルは染色体ごとに分割されているため、全てダウンロードする。

（

画面右下にX染色体、Y染色体、ミトコンドリアの配列データもあります。

）

(18)

リファレンスデータの取得:

Ensemblデータのインポート

全染色体のデータを選択

1. ImportメニューからTracks...をクリック。

2. Set parameters画面でファイルタイプをFASTAに指定し、インポートするデータを選択。

(19)

リファレンスデータの取得:

Ensemblデータのインポート

•

アノテーションファイルをダウンロードする。

•

通常、1つのファイルに全染色体分のデータを含んでいる。

(20)

リファレンスデータの取得:

Ensemblデータのインポート

1. ImportメニューからTracks...をクリック。

2. Set parameters画面でファイルタイプをGFF/GTF/GVFに、Reference Trackにゲノムトラックを設定してインポートするデータを選択。

(21)

データフォーマット

スタンドアローンフォーマット

リードマッピング染色体のセットやリード配列など配列のセット染色体一本など1つの配列

トラックフォーマット

ゲノムトラックアノテーショントラック変異トラックリード(マッピング)トラック

※青いヒストグラムが目印

 データフォーマットはスタンドアローンとトラックの2形式があり、基本的にはトラックを使用します。

 各データフォーマットを変換するツール（Convert To/From Tracks）が用意されています。

(22)

解析ワークフロー

: 使用するツール

Trim Sequences

Map Reads to

Reference

Local Realignment

Variant Detectors

Annotate with Overlap

Information

Amino Acid Changes

Annotate from Known

Variants

リードから低クオリティ領域の除去（トリミング）

リードのリファレンス配列へのマッピング

マッピングリードの補正

変異の検出

変異とオーバーラップする遺伝子情報のアノテーション

変異によるアミノ酸置換情報のアノテーション

既知変異（dbSNP）情報のアノテーション

(23)

Trim Sequences

: 概要

クオリティトリミング

アダプタートリミング

シークエンスフィルタリング

• Phred Scoreを基に、クオリティの低い領域を除去

• 正確にコールされなかった塩基を許容する数の設定

• アダプター配列の除去（アダプターリストが必要）

• アダプターリストはTrim Adapter Listツールで作成

• 指定した塩基数を5’/ 3’末端から削除

(24)

Trim Sequences

: クオリティトリミング原理

クオリティスコア:

 シークエンサーから取得されるリードの各塩基には、エラー確率の値が含まれています。

 このエラー確率の値は、Genomics Workbenchにインポートされた時点で、以下の式に従ってPhred Scoreに

変換されるようになっています。

 Phred Scoreの値が大きい程、精度が高いことを表しています。

𝑃ℎ𝑟𝑒𝑑𝑆𝑐𝑜𝑟𝑒 = −10 log

₁₀

𝑃

_𝑒𝑟𝑟

Phred Score

Error の確率

Base call の精度

10 1/10

90%

20 1/100

99%

30 1/1,000

99.9%

40 1/10,000

99.99%

50 1/100,000

99.999%

60 1/1,000,000

99.9999%

(25)

Trim Sequences

: クオリティトリミング原理

 クオリティトリミングでは、累積のクオリティスコアがある一定の値より連続して小さかった場合、その領域を取り除きます。

 具体的には以下:

1.Phred Scoreをp値へ変換

2.トリミング中に設定するパラメーター(Limit)とp値の差を計算。

3.差の累積和を計算; このとき、0以下の値は0となります。

4.トリミング後のリード開始点は累積和がはじめて0以上になった点、リード終了点は累積和が最大値を示す点になります。

𝑃

_𝑒𝑟𝑟

= 10

−

𝑃ℎ𝑟𝑒𝑑𝑆𝑐𝑜𝑟𝑒

10

(26)

Trim Sequences

: クオリティトリミング原理

リード配列

G

C

A

T

G

T

C

G

A

T

G

C

Phred score

4

8 15 30 32 23

10 31 31 20 15

11

10

9 p値

0.40 0.16 0.03 0.00 0.00 0.01 0.10 0.00 0.00 0.01 0.03 0.08 0.10 0.10 0.13

Limit - p値 (D)

-0.35 -0.11 0.02 0.05 0.05 0.04 -0.05 0.05 0.05 0.04 0.02 -0.03 -0.05 -0.05 -0.08

(D)の累積和

0.00 0.00 0.02 0.07 0.12 0.16 0.11 0.16 0.21 0.25 0.27 0.24 0.19 0.14 0.06

Limit = 0.05の場合

スタート点：

累積和が0より大きくなった塩基

終了点：

累積和が最大を示す塩基

0

10

20

30

40

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15 Phred scoreの棒グラフ

グラフにおいて、ある程度クオリティが高くなった箇所からリードを使い、連続して悪くなる箇所からリードをトリムしていることが確認できます。

※途中、1塩基のみクオリティが低いような場合は、必ずしもトリムされません。これにより、なるべくリードが長く保たれるようになります。

(27)

Trim Sequences

1. ToolboxからNGS Core Tools > Trim Sequencesを選択、ダブルクリック。

2. Select sequence dataにおいて、リードデータを選択してNextをクリック。

(28)

Trim Sequences

3. Quality trimmingの各オプションを任意で設定し、Nextをクリック。

• Quality trim: チェックを入れるとQuality trimを実行(デフォルトではチェック) • Quality limit: Quality trimにおける閾値を設定(デフォルトでは0.05)

• Ambiguous trim: チェックを入れるとAmbiguous trimを実行(デフォルトではチェック) • Ambiguous limit: 許容するambiguous baseの数を設定 (デフォルトでは2)

(29)

Trim Sequences

4. Adapter trimmingにおいて、アダプターリストがある場合、Trim adapter listに設定し、Nextをクリック。

特定のアダプター配列を除外する場合、アダプターリストを指定

逆相補鎖もアダプター配列の有無を検証する場合はチェック

(30)

Trim Sequences

5. Sequence filteringの各オプションを任意で設定し、Nextをクリック。

• Trim bases: チェックすると、指定した塩基数をリードの5’/ 3’末端から削除 • Filter on length: チェックすると、指定した長さより長い/ 短いリードを除外 ※デフォルトではいずれもチェックされていません

(31)

Trim Sequences

6. Result handlingにおいて、データを保存するためにSaveを選択し、Nextをクリック。

7. Save location for new elementsにおいて、データの保存先を指定してFinishをクリック。

• Save discarded sequences: トリミングにより除去された配列リストの作成 • Save broken pairs: ペアリードの一方のリードが削除されたリード配列リストの作成 • Create report: トリミング結果をまとめたレポートの作成(デフォルトではチェック)

(32)

Trim Sequences

リードのクオリティが向上

低クオリティ領域をカット

 トリミング後のデータは、オリジナルとは別のファイルとして出力されます。

 トリミングされたリードには、サンプル名の後ろに’trimmed’と付されます。

(33)

Map Reads to Reference

: 原理

CLC Genomics Workbenchにおいて、マッピングは2つのステップを経ます。

1. ローカルアライメント: リファレンス配列と似ている場所を探す

2. フィルタリング: 参照配列との類似性から、維持するリードを決定する

Reference Reads

(34)

Map Reads to Reference

: 原理（アライメント）

 アライメントにおいて、リードはリファレンスとの一致・不一致(match/mismatch)や挿入・欠失(insertion/deletion)の数に基づいてスコ

アリングされ、最も高いスコアを示す箇所にマップされます。

 リファレンスと一致する塩基につき1点が加算され、mismatchやinsertion/deletionの数だけ、そのペナルティコストが引かれていきます。

 マッピングのオプションにはLinear gapとAffine gapとがあり、それぞれスコアリングが異なります。

リード配列(20 bp)が全て一致した場合: 1x20 = 20 1塩基ミスマッチがあった場合: 1x19 – 2x1 = 17 2塩基Insertionがあった場合: 1x20 – 3x2 = 14

ローカルアライメントのスコアリング例 (Linear gap)

Mismatch cost Insertion cost Deletion cost : 2 : 3 : 3

(35)

Map Reads to Reference

: 原理（アライメント）

リード配列(20 bp)が全て一致した場合: 1x20 = 20 1塩基ミスマッチがあった場合: 1x19 – 2x1 = 17 2塩基Insertionがあった場合: 1x20 – 6x1 – 1x1 = 13

ローカルアライメントのスコアリング例 (Affine gap)

Mismatch cost Insertion open cost Insertion extend cost Deletion open cost Deletion extend cost

: 2 : 6 : 1 : 6 : 1

 Affine gapオプションではgapを開くときのコスト(open cost)と延長する時のコスト(extend cost)が別々に設定されています。

(36)

Map Reads to Reference

: 原理（アライメント）

Linear gapとAffine gap

Linear gap costの場合: Deletion cost = 3

AATTCGCGCGGCATTCGCGCC

AAATCG----GCATTCGCGCC

50 match

50 +6 +4 x(-3) +11 =55

Genome

Read

A

AATTCGCGCGGCATTCGCGCC

AAATCG

----GCATTCGCGCC

50 +6 =56

B

AATTCGCGCGGCATTCGCGCC

AAATCG----GCATTCGCGCC

50 +6 +(-6) +4 x(-1) +11 =57

Affine gap costの場合: Open cost = 6, Extend cost = 1

B’

Linear gapによるマッピングでは、Aのようにマッピングすべきような場合でも、リードの末端部分をアライメントしない(Bのブルーの箇所)ほうが、ア

ライメントスコアが高くなるため、大きな挿入や欠失がうまくマップできていないことがあります。Affine gapによるマッピングでは、こうした問題を防ぐ

ことができます。

(37)

Map Reads to Reference

: 原理（フィルタリング）

 フィルタリングにより、アライメントされたリードの内、いずれを後の解析のために残すかが決定されます。

 フィルタリングには、LengthとSimilarityの2つのFractionが影響します。

 Length Fractionではフィルタリング時に考慮する長さに関係し、Similarity FractionではLength Fractionで指定した長さにおける類

似性の程度に関与します。

リード長: 100 bp Length Fractionが0.5(デフォルト値): 100 bp x 0.5 = 50 bp Similarity Fractionが0.8(デフォルト値): 50 bp x 0.8 = 40 bp

リード長が100bpの時、デフォルト設定では40塩基がリファレンスと完全に一致していればリードは維持される。

フィルタリング例

(38)

Map Reads to Reference

1. ToolboxからNGS Core Tools > Map Reads to Referenceを選択、ダブルクリック。

2. Select sequencing reads画面でリードデータ（トリミング済）を選択し、Nextをクリック。

(39)

3. Referencesにリファレンス配列を設定し、Nextをクリック。

※特定のアノテーション領域のみマッピングするような場合（マスキングする場合）、Reference maskingオプションを設定します。

Map Reads to Reference

リファレンス配列を指定

No masking:

• マスキングを実施しません(デフォルト) Exclude annotated:

• 特定のアノテーション領域外に対してマッピング Include annotated only:

• 特定のアノテーション領域に対してのみマッピング Masking track:

(40)

4. Mapping optionsでLinearかAffineを選択し、その他オプションを任意で設定してNextをクリック。

Map Reads to Reference

Mismatch cost: • リードの塩基がリファレンスと一致しない場合のペナルティコスト • デフォルトでは2に設定 Insertion cost: • リード配列にinsertionがあった場合のペナルティコスト • デフォルトでは3に設定 Deletion cost: • リード配列にdeletionがあった場合のペナルティコスト • デフォルトでは3に設定 Length fraction: • フィルタリング時に考慮する長さの割合 • デフォルトでは0.5に設定 Similarity fraction: • フィルタリング時に考慮される長さの範囲における、類似性 • デフォルトでは0.8に設定

(41)

4. Mapping optionsでLinearかAffineを選択し、その他オプションを任意で設定してNextをクリック。

Map Reads to Reference

Mismatch cost:

• リードの塩基がリファレンスと一致しない場合のペナルティコスト • デフォルトでは2に設定

Insertion open cost:

• リード配列でinsertionが開始される場合のペナルティコスト • デフォルトでは6に設定

Insertion extended cost:

• Insertionが伸長される場合のペナルティコスト • デフォルトでは1に設定

Deletion open cost:

• リード配列でdeletionが開始される場合のペナルティコスト • デフォルトでは6に設定

Deletion extended cost:

• Deletionが伸長される場合のペナルティコスト • デフォルトでは1に設定 Length fraction: • フィルタリング時に考慮する長さの割合 • デフォルトでは0.5に設定 Similarity fraction: • フィルタリング時に考慮される長さの範囲における、類似性 • デフォルトでは0.8に設定

(42)

4. Mapping optionsでLinearかAffineを選択し、その他オプションを任意で設定してNextをクリック。

Map Reads to Reference

Global alignment:

• チェックが外れている場合、Local alignmentを実行 • デフォルトでは未チェック

Color space alignment:

• カラースペースによるエラー補正をする場合にチェック • デフォルトではチェック済み

Color error cost: • カラーのエラーコスト • デフォルトでは3に設定

Auto-detect paired distances:

• チェックが入っている場合、自動でペアの距離を決定 • デフォルトではチェック済み

Non-specific match handling:

• 同一スコアでマップされる個所が複数ある場合のリードの取扱 • Map randomlyでは一箇所に無作為にマップ

• Ignoreではそうしたリードを無視（除外） • デフォルトではMap randomlyが選択

(43)

5. Result handlingにおいて、データを保存するためにSaveを選択し、Nextをクリック。

6. Save location for new elementsにおいて、データの保存先を指定してFinishをクリック。

Map Reads to Reference

Create reads track:

• Track形式のマッピングデータを作成 • デフォルトではチェック済み

※基本的にはTrack形式を使用

Create stand-alone and mapping: • Stand-alone形式のマッピングデータを作成 Create summary report:

• 解析結果をまとめたレポートを作成 • デフォルトでは未チェック

Create list of un-mapped reads: • マッピングされなかったリード配列リストを作成 • デフォルトでは未チェック

(44)

Map Reads to Reference

トラックツールバーズームバー • 縮小して全体を表示 • 塩基配列が表示されるまで拡大

マッピングリードトラック（サンプル名の後ろに’Reads’が付されます）

(45)

Map Reads to Reference

背景に色がついている箇所: • リファレンス配列と異なる箇所リードの色は以下を表しています: • 緑: リファレンスのセンス鎖にマップされたリード • 赤: リファレンスのアンチセンス鎖にマップされたリード • 青: ペアとして認識されているリード • 黄: 非特異的にマッピングされたリード色が薄い箇所: • マッピングされていない領域（unaligned ends） ※こうした領域は、カバレッジの計算にも考慮されません

(46)

Local Realignment

: 原理

マッピングにおいて、各リードは最も高いアライメントスコアを示す場所にマップされます。しかし、近傍のマッピング状況から、そうした最も高いスコア

でアライメントされたマッピングよりも、よりもっともらしいマッピングが考えられる場合があります。ローカルリアライメントでは、よりもっともらしいマッピン

グを得るように、それを部分的に補正します。

例えば、Aに示すマッピングデータにおいて、上から第1、2および5番目のリードは、残りのリードがinsertionしている4塩基（GCCG）の領域を支持していません。しかし、Bのように、これら第1、2および5番目のリードの4塩基（GCCG）を左にずらすと、他のリードと一致し、よりもっともらしいマッピングになると考えられます。このように、ローカルリア Reference Mapped reads

(47)

Local Realignment

1. ToolboxからNGS Core Tools > Local Realignmentを選択、ダブルクリック。

2. Select read mapping画面でマッピングデータを選択し、Nextをクリック。

(48)

Local Realignment

3. Realignment settingsの各オプションを任意で設定し、Nextをクリック。

Realign unaligned ends:

• チェックした場合、Multi-pass realignmentの回数分、unaligned endsの再アライメントを実施 ※デフォルトではチェックされ、Multi-pass realignmentに2が入力されています

Guidance track track:

• 再アライメント時に、参照データとする変異データトラックを指定可能

※dbSNPやInDels and Structural Variantツールで取得した同一サンプルのSVデータ • Force realignment to guidance-variants: チェックした場合、再アライメントを、参照データと

合致するよう強制的に実施 ※デフォルトでは未チェック

(49)

Local Realignment

Create reads track：トラック形式のマッピングデータを作成 ※デフォルトではこちらが選択

Create stand-alone read mappings： Stand-alone形式のマッピングデータを作成 Output track of realigned regions: 再アライメント箇所を示すトラックデータを作成 ※デフォルトでチェック済み

4. Result handlingにおいて、データを保存するためにSaveを選択し、Nextをクリック。

(50)

Local Realignment

ローカルリアライメントされたマッピングトラック（マッピングトラック名に’locally realigned’が付されます）ローカルリアライメントされた領域を示すトラックデータマッピングリードトラック（ローカルリアライメント済）ローカルリアライメントトラックリファレンスゲノムトラック • 上は各トラックをTrack Listでまとめて表示させたものになります。ローカルリアライメントトラックでは、補正された領域が確認できます。 • Track ListはCreate Track Listツールから作成できます（後述）。

(51)

Variant Detectors

Basic Variant Detection:

• 特殊な統計モデルを使用せずに、SNV, Small InDelを検出します

• 設定を調整することで、検出可能な変異に制限を設けずに解析が可能です

Fixed Ploidy Variant Detection:

• 確率モデルを用いてSNV, Small Indelを検出します

• パラメータで指定したPloidy（倍数体）の値以上のアリルの変異を検出しません

• カバレッジ中に低頻度（15%以下）で存在する変異を検出しません

Low Frequency Variant Detection:

• 確率モデルを用いてSNV, Small Indelを検出します

• カバレッジ中に低頻度で存在する変異の検出が可能です

(52)

Variant Detectors

Basic Variant Detection:

• サンプルの倍数性や変異の頻度など、データに制限を設けずに変異を検出したい場合に使用

Fixed Ploidy Variant Detection:

• サンプルの倍数性が既知で、シークエンスエラーやマッピングアーティファクトを除外して変異を検出し

たい場合に使用

Low Frequency Variant Detection:

• サンプルの倍数性が未知、または複数のサンプルが混在しており、シークエンスエラーを除外して変異

を検出したい場合に使用

(53)

Variant Detectors

1. ToolboxからResequencing Analysis> Variant Detectorsから任意の変異検出ツールを選択、ダブルクリック。

2. Select read mappings画面でマッピングデータ（ローカルリアライメント済）を選択し、Nextをクリック。

(54)

Variant Detectors

Basic Variant

Fixed Ploidy Variant

Low Frequency Variant

Ploidy: 参照配列の倍数性を設定

Required variant probability (%): 変異の事後確率を設定

Required significance (%):

変異がシークエンスエラーによるものでは無いと評価する閾値を設定

(55)

Variant Detectors

Ignore positions with coverage above:

• 指定した値以上のカバレッジをもつ位置では、変異を検出しません Restrict calling to target regions:

• 指定した領域内に対してのみ、変異検出を実施します Ignore broken pairs:

• 変異検出の際、ペアリードの内、一方が失われたリード（broken pair）を無視します Ignore non-specific matches:

• No: 変異検出の際、非特異的リードを無視しません • Reads: 変異検出の際、非特異的リードを無視します

• Regions: 変異検出の際、Minimum read lengthで指定した値よりも長い非特異的リードがマップされた場合、その領域から変異をコールしません Minimum coverage: • 変異をコールする際に必要となる、最小カバレッジ数を指定します（デフォルトは10） Minimum count: • 変異をコールする際に必要となる、変異を有するリード数の最小値を指定します（デフォルトは2） Minimum frequency (%): • 変異をコールする際に必要となる、最低頻度（count/coverageで計算、デフォルトは35） ※Low Frequency Variant Detectionではデフォルトは1

(56)

Variant Detectors

5. Noise filtersの各オプションを任意に設定し、Nextをクリック。

Quality filters: 塩基のクオリティに関するフィルターオプション

Base quality filter: チェックすると、閾値に基づいてクオリティフィルタリングを実施

• Neighborhood radius: 変異部位から検証する範囲（塩基数）を指定（必ず奇数） • Minimum central quality: 変異が有すべき最小クオリティを指定

• Minimum neighborhood quality: radius内における、平均クオリティの最小値を指定 Direction and position filters:

• マップされたリードの方向(Forward/ Reverse)に関するフィルターオプション Read direction filter:

• チェックすると、一方向のリードにのみ多数認められる変異を除外Direction frequency (%)に、各方向のリードで変異が認められる最小頻度を設定

※アンプリコンには適していません Relative read direction filter:

• チェックすると、Read direction filterと同様のフィルタリングを統計的に実施 • Significance (%)に閾値を設定

Read position filter:

• チェックすると、リードの方向および変異の位置に基づいて、統計的にフィルタリングを実施 • システマチックなエラーを除外することを目的とし、ハイブリダイゼーションしたデータにおいて有効 • 各方向のリードを5つのセグメント（合計10セグメント）に分割し、変異の分布が予測値とどの程度

異なるかを検定

(57)

Variant Detectors

Remove pyro-error variants:

• チェックすると、Roche 454やIon Torrentなどの、パイロシークエンサー特有のエラーを除外 In homopolymer regions with minimum length:

• 除外するホモポリマー領域で検出されたInDelの長さの最小値を設定 With frequency below:

• 除外するホモポリマー領域で検出されたInDelのカバレッジ全体に対する最低頻度を設定

(58)

Variant Detectors

Create track：トラック形式の変異データを作成 ※デフォルトではこちらが選択

Create stand-alone read mappings： Stand-alone形式の変異データを作成

6. Result handlingにおいて、データを保存するためにSaveを選択し、Nextをクリック。

(59)

Variant Detectors

変異トラック（サンプル名の後ろに’Variant’が付されます）

(60)

Variant Detectors

•

Chromosome: 変異の検出された染色体番号

•

Region: 変異の位置

•

Type: 変異の種類(SNV, Insertion, Deletionなど)

•

Reference: リファレンスの塩基配列

•

Allele: 検出された塩基配列

•

Zygosity: 変異の接合性(HeteroかHomoか)

•

Count

※

: マップされたリードのうち、変異を有するリードの数

•

Coverage

※

: マップされたリード数

•

Frequency: 変異の頻度

※CountおよびCoverageについて: ForwardとReverseリードがオーバーラップする場合、両者を合わせたフラグメントがカウントされます; 2リードで1フラグメントとなり、1としてカウントされます。

(61)

Annotation

基本データ

アノテーションデータ

CLC Genomics Workbenchでは基本となる変異データに対して、

アノテーションツールを使用して様々なアノテーションをおこないます。

遺伝子情報の付加アミノ酸置換情報の付加既知変異情報の付加

(62)

Annotate with Overlap Information

1. Track Tools > Annotate and FilterからAnnotate with Overlap Informationを選択、ダブルクリック。

2. Select a variant track or an annotation track画面で変異トラックを選択し、Nextをクリック。

(63)

Annotate with Overlap Information

3. Overlap trackにGeneトラックを指定し、Nextをクリック。

(64)

Annotate with Overlap Information

4. Result handlingにおいて、データを保存するためにSaveを選択し、Nextをクリック。

(65)

Annotate with Overlap Information

変異トラック（サンプル名に’AO’が付加されます）

遺伝子情報

 変異データに、変異とオーバーラップする遺伝子情報が追加されます。

 青字は外部データベースにリンクしており、クリックすることでアクセスします。

(66)

Amino Acid Changes

1. Resequencing Analysis > Functional ConsequencesからAmino Acid Changesを選択、ダブルクリック。

2. Select variant tracks画面で変異トラックを選択し、Nextをクリック。

(67)

Amino Acid Changes

3. CDS、mRNA、ゲノムトラックを設定し、その他オプションを任意で設定してNextをクリック。

CDSトラックを指定

mRNAトラックを指定

ゲノムトラックを指定

Filter synonymous variants: • チェックすると、同義性置換の変異を除外 Filter CDS regions with no variants: • チェックすると、変異の認められなかったCDS領域をト

ラックから除外 Genetic code:

(68)

Amino Acid Changes

4. Result handlingにおいて、データを保存するためにSaveを選択し、Nextをクリック。

(69)

Amino Acid Changes

 Coding region change: 何番目の塩基が置換したか表示(例. c.[1531T>C]; coding DNAの1531塩基目がTからCに置換)  Amino acid change: 何番目のアミノ酸が置換したか表示(例. p.[Ser511Pro];タンパク質の511番アミノ酸がセリンからプロリンに置換)  Non-synonymous: 非同義置換情報を表示(変異が非同義置換であればYesと表示されます)

※~ in longest transcript: 転写産物が複数あるものの内、最も長い転写産物における置換情報が表示されます。

変異トラック（サンプル名に’AAC’が付加されます）

アミノ酸置換情報

(70)

Annotate from Known Variants

1. Resequencing Analysis > Annotate and Filter VariantsからAnnotate from Known Variantsを選択、ダブルクリック。

2. Select variant tracks画面で変異トラックを選択し、Nextをクリック。

(71)

Annotate from Known Variants

3. Known variants trackに既知変異トラックを指定し、その他オプションを任意に設定してNextをクリック。

※上の例では既知変異データとしてdbSNPを利用しています。

Automatically join adjacent MNVs and SNVs: • チェックした場合、隣り合うSNVやMNVを一つのMNVとする

(72)

Annotate from Known Variants

4. Result handlingにおいて、データを保存するためにSaveを選択し、Nextをクリック。

(73)

Annotate from Known Variants

変異トラック（サンプル名に’KNOWN’が付加されます）

dbSNP情報

 rsIDなど、dbSNPに登録されている情報が追加されます。

(74)

Create Track List

 各解析で取得されるトラックデータをリスト形式にまとめて表示することができます。

 トラックリストはCreate Track Listツールを使用することで作成します。

(75)

Create Track List

(76)

Create Track List

(77)

変異のフィルタリング

① クリック

② 条件設定

• 「＋」ボタンで条件を追加、「×」ボタンで条件を削除

• Filterボタンでフィルタリングの実行

 変異テーブルに含まれるアノテーション情報を基に、フィルタリングを掛けることが可能です。

 フィルタリングには、テーブルにあるフィルター機能を使用します。

(78)

変異のフィルタリング

: 非同義置換性変異の抽出

Non-synoymousを選択

「=」を選択

Yesを入力

条件に一致した変異の数

(79)

変異データのエクスポート

: サブセットデータの作成

1. フィルタリング条件に合致した全データを選択。

2. Create Track from Selectionをクリック。

3. 作成したサブセットをSaveアイコンから保存。

 フィルタリング後にそのままデータをエクスポートしても、エクスポートデータには全ての変異が含まれてしまいます。

 フィルタリングした変異のみをエクスポートする場合、一度サブセットデータを作成します。

(80)

変異データのエクスポート

1. Exportをクリック。

2. リストからExcelを選択してSelectをクリック。

3. ウィザードに従ってデータをエクスポート。

 ツールバーにあるExportアイコンから、様々なファイル形式でデータをエクスポートします。

 変異データをエクセルファイルとしてエクスポートすることが可能です。

(81)

マニュアルダウンロード

 CLC Genomics Workbenchは本セミナーで紹介した以外にも多くの機能を搭載しています。

 マニュアルでは搭載されているツールの機能や詳細が記載されています。

 マニュアルは以下のリンク先より取得できます。

(82)

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編