W6 は

161

①のあたりです。②FastQC実行結果のhtml ファイルはここにあるので、じっくり眺めたいヒトはどうぞ。~/Desktop/backupにもあります

①

②

 W11：ゲノムサイズ推定（KmerGenieのインストールと利用）



インストール、single-endで実行（結果の解説）、paired-endで実行（結果の解説）

 W12：配列長によるフィルタリング（Pythonプログラムの利用）

 DDBJ Pipeline（ W13からW17まではほぼ省略）



W18：k=131でのVelvet実行結果の解析



W19：Platanusの実行、W20：結果の解析、W21：ACGTカウント（塩基ごとの出現頻度解析）

 ロングリード(PacBio)データと公共DB



W2： PacBio生データはbax.h5形式、公共DBはsra形式とFASTQ形式



W3：公共DB (DRA)のFASTQファイルを入力としてFastQC



W4：NCBI SRA (SRA)が提供するSRA Toolkitのインストール



W5：利用(.sra



.fastqへの変換)、W6：FastQC

 DDBJ PipelineでHGAPを実行



W7：DDBJ Pipelineに解析したい生データファイル(.bax.h5)をアップロード



W8：DDBJ PipelineでHGAPを実行



W9：HGAPアセンブリ結果を眺める

W2-7 ： bax.h5 ファイル

Aug 03 2016, NGSハンズオン講習会 163

おさらい。DDBJ Pipeline上では、PacBio 用の

de novo

アセンブリ用プログラム HGAPを利用可能。しかし、①HGAPは bax.h5ファイルのみしか受け付けない

①

W7-1 ： bax.h5 ファイル準備

①

DDBJ Pipeline

にアップロードしたいbax.h5ファイルを手元のPCにダウンロードしておく。②ここでは

Desktop

上の

フォルダにダウンロード。ファイルサイズは約

2.4GB

に達するため、それなりに

時間はかかるだろう。もちろん講習会ではやりません！見るだけ！

②

W7-2 ：アップロード

Aug 03 2016, NGSハンズオン講習会 165

WinSCP

を用いて

DDBJ Pipeline

の実体である遺伝研スパコンにログインし、①「デスクトップ

– share

」、②

query

フォルダに移動した状態

① ②

W7-2 ：アップロード

①アップロードしたい

3

つのファイルを

②queryフォルダにドラッグ&ドロップ。

アップロードもそれなりに時間がかかる

①

②

W8-1 ： HGAP 実行

Aug 03 2016, NGSハンズオン講習会 167

②

de novo Assembly

、③

HGAP

、④

②

③

④

W8-1 ： HGAP 実行

①解析したい

3

つのファイルにチェックを入れて、②confirm

①

②

W8-2 ： 2 つのパラメータ

Aug 03 2016, NGSハンズオン講習会 169

①と②、

2

つの指定可能なパラメータがあります

①

②

W8-2 ：パラメータの解説

①

2

つのパラメータに関する解説

①

W8-3 ： HGAP 実行

Aug 03 2016, NGSハンズオン講習会 171

①ゲノムサイズは、乳酸菌の平均的なゲノムサイズである2.5MB。②minimum lengthは、Automatic

Estimation

（デフォルト）を指定して③

①

②

③

PDF

原稿

p104

左下

W8-3 ： HGAP 実行

①

RUN

、②

OK

②

①

W9-2 ：結果を眺める

Aug 03 2016, NGSハンズオン講習会 173

①

②

③

①

de novo

Assembly、②Job ID番号(21965) を頼りにすれば、このページに辿り着ける。

③赤枠部分を見ると、④コンティグ数は4つ

。このデータの正解は3つ（1 chromosome and 2 plasmids）。世間一般の評価通りのロングリード(PacBio)の長所がよく表れた結果

④

W9-2 ：結果を眺める

①Total contig sizeは、乳酸菌の一般的なゲノムサイズと近く妥当。②Maximum contig sizeのものが全体の9割以上を占めていることから、これが乳酸菌の染色体ゲノムなのだろうと妄想する

①

②

W9-3 ：ダウンロード

Aug 03 2016, NGSハンズオン講習会 175

①result.zipというzip圧縮ファイルをダウンロードして、その後の解析へと進んでいく

①

ドキュメント内 Rでゲノム・トランスクリプトーム解析 (ページ 161-176)

Contents

 W11：ゲノムサイズ推定（KmerGenieのインストールと利用）



 W12：配列長によるフィルタリング（Pythonプログラムの利用）

 DDBJ Pipeline（ W13からW17まではほぼ省略 ）





 ロングリード(PacBio)データと公共DB











 DDBJ PipelineでHGAPを実行







W2-7 ： bax.h5 ファイル

de novo

W7-1 ： bax.h5 ファイル準備

DDBJ Pipeline

Desktop

share

2.4GB

W7-2 ：アップロード

WinSCP

DDBJ Pipeline

– share

query

W7-2 ：アップロード

3

W8-1 ： HGAP 実行

de novo Assembly

HGAP

NEXT

W8-1 ： HGAP 実行

3

W8-2 ： 2 つのパラメータ

2

W8-2 ：パラメータの解説

2

W8-3 ： HGAP 実行

Estimation

NEXT

PDF

p104

W8-3 ： HGAP 実行

RUN

OK

W9-2 ：結果を眺める

de novo

W9-2 ：結果を眺める

W9-3 ：ダウンロード

 DDBJ Pipeline（ W13からW17まではほぼ省略）