セクション 3
メディアのフォーマット
次世代シーケンスデータのひとつの特徴として、大きな ファイルを扱うことがあげられる。数GBから数十GBのファ イルは日常的に扱うし、場合によっては100GBを超える。そ れらのファイルを扱うために、特別なソフトが必要である(テ キストエディタでFASTQファイルを開いてみてほしい。)が、
ハードにも多少の気を使わなければならない。HDDやSSDな どの容量はもちろん大切であるが、それはお店で聞けばわか るのではここではフォーマットについて述べる。
フォーマットはたくさんあるが、ここではFAT32、 NTS-F、Mac OS 拡張の3つを覚えていれば足る。FAT32は
win-dows PCの古いフォーマットで、買ったばかりの外付けHDD
やUSBメモリがこれになっていることがある。FAT32はほと んどすべてのOSに対応しており、windows PCでもmac でも 利用できるので便利であるが、ファイルサイズが4GB以上の ファイルを扱うことができない。数GBのファイルを扱う場合 に致命的である。NTSFはwindows PCの新しいフォーマット で、mac でもsnow leopard 以降なら対応させることができる
(参考:
http://doubleko.blog18.fc2.com/blog-entry-4027.html)。Linuxサーバーをwindows PC からのリ モートで利用している場合や、一度得られたデータを win-dows PC とmac で解析する場合にはNTFS が良いだろう。参
考にあげたホームページよりNTFS_Enabler.txtをダウンロー ドし、拡張子を.zipに変更して解凍。中に入っているファイル をダブルクリックしてパスワードを入力することで実行さ れ、NTSFフォーマットのメディアを扱うことができるように
なる。Mac OS 拡張はmac 専用のフォーマットで、ファイル
サイズの上限がBであるので、当面の間ファイルの大きさに悩 まされることはない。Time machine 用の外付けHDDなどを これにしている。
メディアのフォーマットをファイルサイズに合わせるので はなく、ファイルサイズをフォーマットに合わせる方法もあ
る。split コマンドなどでファイルを細分化してしまう方法
だ。先のセクションでbcl 変換について述べたが、通常のプ ロトコルでbcl 変換を行った場合にFASTQファイルは圧縮さ れた状態で出力され、また、こまかい複数のファイルに分け られて出力される。1つ1つのファイルサイズが4GBを超え なければ、全体で4GBを超えるディレクトリ/フォルダで
あってもFAT32で扱うことができ、実際にFAT32の汎用性は
便利であるのでFAT32を使うのも良い。
メディアのフォーマットを変更する場合には、ディスク ユーティリティを利用する。
起動すると、下図のようなUIである。
左のバーから対象のメディアを選択し、消去タブを選んで フォーマットを好きなものを選ぶ。名前も自由につけて構わ
ないが、名前にスペースや全角文字を入れているとそれが思 わぬ不具合の原因になることがあるのでさけた方が良い。
ターミナル上での取り回しを考えると、1文字目は小文字の アルファベットを推奨する。