bash プログラムを実行するセクション1 - お家でできるMacBookでやる次世代シーケンスデータ解析 pdf

できるようになること

行っても同じである。これを使ってbcl変換を行うために、必要な入力ファイルの確認を行う。基本的には、Genome Ana-lyzer の出力ファイルで

120114_HWUSI-EAS1748_00049_FC こういう名前の物があればよい。ファ

イルの内容物についてはCASAVAのマニュアルに記載があるので別途参照すること。外付けHDD内にこのファイルを置いてあってもbcl変換が可能であるが、外付けHDDの名前にスペースが入っているとうまくいかないことがあるのでアンダーバー等に変更しておくこと。次に、出力フォルダを決める。fastqは圧縮されたfastq.gzで出力されるので、70bp前後のシーケンスの場合には１フローセル辺り10GB程度になる。

fastqを解凍することを考えると、100GB程度の空き容量のあ

るメディア内で行うことが望ましい。今回は、外付けHDDで

あるLOGITEC_HD内のtestというディレクトリに格納した出

力ファイル

/Volumes/LOGITEC_HD/test/120114_HWUSI-EAS1748_00049_FC/ を入力ファイルにし、これまた外付け

SSDであるNOGEBLANC内に /Volumes/NOGEBLANC/

120114_5 という出力ファイルを作成して行うことにした。コ

マンドは、以下のようである。

nor$ configureBclToFastq.pl --input-dir

/Volumes/LOGITEC_HD/test/120114_HWUSI-EAS1748_00049_FC/Data/Inten sities/BaseCalls/

--output-dir /Volumes/NOGEBLANC/120114_5 --use-bases-mask y72

改行は入っていない。最後の--use-bases-mask y72 では、

65bp(シーケンス)+7bp(インデックスシーケンス)を合わせて

１つの配列として出力するように書いた。これがうまく行くと、

[2012-01-22 23:09:49] [configureBclToFastq.pl] INFO: Creating directory '/Volumes/NOGEBLANC/120114_5'

[2012-01-22 23:09:49] [configureBclToFastq.pl] INFO: Basecalling software: RTA [2012-01-22 23:09:49] [configureBclToFastq.pl] INFO:

version: 1.09 (build 35)

[2012-01-22 23:09:49] [configureBclToFastq.pl] WARNING:

'LocationFileType' element not found in

/Volumes/LOGITEC_HD/test/120114_HWUSI-EAS1748_00049_FC/Data/Intensities/BaseCalls/../RTAConfiguration.xml [2012-01-22 23:09:49] [configureBclToFastq.pl] INFO: Original

use-bases mask: y72

[2012-01-22 23:09:49] [configureBclToFastq.pl] INFO: Guessed use-bases

mask: yyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy,IIIIIIn Creating directory '/Volumes/NOGEBLANC/120114_5/Project_FC/Sample_lane1'

Creating directory '/Volumes/NOGEBLANC/120114_5/Project_FC/Sample_lane2' Creating directory '/Volumes/NOGEBLANC/120114_5/Project_FC/Sample_lane3' Creating directory '/Volumes/NOGEBLANC/120114_5/Project_FC/Sample_lane4' Creating directory '/Volumes/NOGEBLANC/120114_5/Project_FC/Sample_lane5' Creating directory '/Volumes/NOGEBLANC/120114_5/Project_FC/Sample_lane6' Creating directory '/Volumes/NOGEBLANC/120114_5/Project_FC/Sample_lane7' Creating directory '/Volumes/NOGEBLANC/120114_5/Project_FC/Sample_lane8' [2012-01-22 23:09:50] [configureBclToFastq.pl] WARNING: Couldn't determine control software version due to missing

/Volumes/LOGITEC_HD/test/120114_HWUSI-EAS1748_00049_FC/Data/Intensities/BaseCalls/../../../runParameters.x ml

[2012-01-22 23:09:50] [configureBclToFastq.pl] WARNING: use-base-mask length is 72 for read 1: expected length from config file is 65

[2012-01-22 23:09:50] [configureBclToFastq.pl] INFO: Read 1: length =

72: mask = yyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy

[2012-01-22 23:09:50] [configureBclToFastq.pl] WARNING: Read 2:

current cycle in mask is 73: first cycle in read is 66

[2012-01-22 23:09:50] [configureBclToFastq.pl] INFO: Read 2: length = 7: mask = IIIIIIn

[2012-01-22 23:09:50] [configureBclToFastq.pl] WARNING: use-base-mask length is 72 for read 1: expected length from config file is 65

[2012-01-22 23:09:50] [configureBclToFastq.pl] WARNING: Read 2:

current cycle in mask is 73: first cycle in read is 66

[2012-01-22 23:09:50] [configureBclToFastq.pl] INFO: Running self tests: 'make self_test'

[2012-01-22 23:09:53] [configureBclToFastq.pl] INFO: Running self tests on /Volumes/NOGEBLANC/120114_5 completed with no problems

となり、/Volumes/NOGEBLANC/120114_5 ディレクトリに

移動してmake をするように指示されているので、従って

n0rr:120114_4 nor$ cd /Volumes/NOGEBLANC/120114_5/

n0rr:120114_5 nor$ nohup make -j 2

とする。結果はnohup.outに記述される。また、

configureBclToFastq.pl が上手く動かない場合には、入力ファイルのパスが間違っている(Basecallsまで書くこと）こと、出力ディレクトリが既にあること、ディレクトリ名あるいはパス内にスペースが入っていること等が考えられるので対処すること。

bcl変換が終了すると、

/Volumes/NOGEBLANC/120114_5内にfastq.gzファイルが出来ている。次のステップでは、これらを解凍し、インデックスごとに分けて行くことになる。

解凍するには

dhcp186-162:120114_5 nor$ cd /Volumes/NOGEBLANC/120114_5/Project_FC/

Sample_lane1/

dhcp186-162:Sample_lane1 nor$ gunzip lane1_NoIndex_L001_R1_001.fastq.gz

とする。more やwc コマンドなどで確認して欲しい。解凍さ

れたfastqファイルをデマルチプレックスする場合のコマンド

ラインは以下のようになる。

nor$ more lane1_NoIndex_L001_R1_001.fastq |tr " " "_"| tr "\n" "\t" | sed -e 's/@HWUSI/

K@HWUSI/g' | tr "K" "\n" | awk -F "\t" '{print

$1"\t"substr($2,1,65)"\t+\t"substr($4,1,65)"\t"substr($2,66,6)}' > line_lane1.fastq.txt nor$ more line_lane1.fastq.txt | grep "ATCACG$" | awk '{print $1"\n"$2"\n"$3"\n"$4}' >

s_1_1_Index1_ATCACG.fastq

今回は新しく出てくるコマンドが多い。tr は置換を行うコマンドで、tr “A” “B” としたときAをBに置換する。sed は文字列の認識と置換を行うために使ったコマンドで、あまりに行数の多いテキストを処理できない弱点があるが、非常に便利である。awk はテキストを処理することが得意なスクリプト言語である。grepは特定の文字列を含んだ行を抜き出すコマンドで、今回はこれを使って特定のインデックス配列を含むシーケンスを抜きだしている。このような長いコマンドラインを理解する時には、パイプ”|”のところまでで区切ってmore コマンドで各処理を確認して行くのが良い。図示すると、 mo-reで展開したfasqファイルを

1. [tr " " "_” ] 半角スペースをアンダーバーに変える

2. [tr “\n” “\t”] 改行をタブに変える

3. [sed -e ‘s/@HWUSI/K@HWUSI/g’] @の前にKを入れる

4. [tr “K” “\n”] Kを改行に変える

5. [awk -F "\t" '{print $1"\t"substr($2,1,65)"\t+\t"substr($4,1,65)"\t"substr($2,66,6)}'] タブを行区切りと宣言し、１行目、タブ、２行目の１−６５文字、タブ、

+、タブ、４行目の１−６５文字、タブ、２行目の６６−７１文字を出力する。

6. [> line_lane1.fastq.txt] 名前を指定して書き出す。

ここまでで、fastqを１行にすることが出来た。また、行の最後にインデックス配列が来ているので、grepで分けやすくなっている。 grep "ATCACG$"では行の終わり

に”ATCACG”を含む行を取り出してくることが出来る。”$”に

よって、それが行の末尾に来た場合だけ認識するようになっている。従って先に１行表記にしたfastqファイルのうち、指定したインデックス６文字で終わる行を抜き出してやって、

タブ区切りになっている部分を改行に変えてやれば目的の

fastqファイルを得る事が出来る。

ここまでで、デマルチプレックスの方法を説明したが、実際にこれを使おうとすると、通常のランでは１レーンから８レーンまでのデータが出るうえに、それぞれから複数の

fastq.gzが出てくるために繰り返し何度も先ほどのコマンドラ

インを書かなければならない。インデックス配列の指定まで毎回やろうと思うとその苦労は大変なものになる。そこで、

bashで動くスクリプトにまとめて使うことを勧める。コマンドラインを記述したテキストファイルの拡張子を.shに変更

し、chmodコマンドで実行権限を与えた上で、sh コマンドで

テキストファイルを指定すると自動でコマンドラインが動く便利な物である。具体的に例示すると、

# $1: lane number. so 1 or 2 or 3 or 4 or 5 or 6 or 7 or 8

# This command lines are prepared for 65 bp single reads. If you want to use them for other length reads, mod-ify the number of "substr" region. 65->N and 66->N+1.

# Skip the unsupporting index separating greps. Use "#" to inactivation.

#making fastq 2 linefastq, separating index reads, and assembling them.

more lane"$1"_NoIndex_L00"$1"_R1_001.fastq |tr " " "_"| tr "\n" "\t" | sed -e 's/@HWUSI/K@HWUSI/g' |tr

"K" "\n" | awk -F "\t" '{print $1"\t"substr($2,1,65)"\t+\t"substr($4,1,65)"\t"substr($2,66,6)}' >

line_lane"$1".fastq.txt &&

more lane"$1"_NoIndex_L00"$1"_R1_002.fastq |tr " " "_"| tr "\n" "\t" | sed -e 's/@HWUSI/K@HWUSI/g'