第 1 章 配列データセットの作成 23
1.1.1 各ファイル形式の特徴
GenBank形式
Web上の配列データベースにおけるスタンダードなファイル形式です。配列データ以外に、その配列に関する 様々な注釈(annotation)情報を加えることができます。それらの情報に基づいたデータの加工処理もソフトウェ アを用いて簡単に行うことができるため大変便利です。人間にとってもプログラムにとっても可読性の高いファ イル形式と言えるでしょう。最も単純な場合は以下のような形式です。
ファイルの内容1.1 GenBank形式配列
1 LOCUS ABC1234 60 bp
2 DEFINITION TaxonA 18 S small subunit ribosomal RNA gene , partial sequence . 3 ORIGIN
4 1 AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA 5 //
6
7 LOCUS ABC1235 60 bp
8 DEFINITION TaxonB 18 S small subunit ribosomal RNA gene , partial sequence . 9 ORIGIN
10 1 AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA 11 //
12
13 LOCUS ABC1236 60 bp
14 DEFINITION TaxonC 18 S small subunit ribosomal RNA gene , partial sequence . 15 ORIGIN
16 1 AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA 17 //
24 第1章 配列データセットの作成
ほとんどの場合はもっと様々な情報を含んでいるので、これほどシンプルではありません。
FASTA形式
Web上の配列データベースは、この形式でのデータ出力にも対応していることが多いと思います。しかし、注
釈(annotation)情報はありませんので、それらの情報を用いた加工を行いたい場合には不適です。また、塩基配
列決定を行った場合には、波形の編集や複数の配列を結合(assemble)した後、このファイル形式に配列データを 書き出すことが多いでしょう。ほとんどの多重配列エディタ(multiple sequence editor)においてもスタンダード なファイル形式であり、いずれのソフトにおいても入力の互換性は高いと言えます。実際の配列編集を行う際に はこのファイル形式で作業することが多いでしょう。ClustalW/Xでは配列データキャラクタとして?に対応して いないため、もし?があるならNなどに置換しておく必要があります。以下に典型的なFASTA形式ファイルを 示します。
ファイルの内容1.2 FASTA形式配列 1 > TaxonA
2 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 3 > TaxonB
4 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 5 > TaxonC
6 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
Clustal形式
ClustalW/Xにおいて多重配列アライメント(multiple sequence alignment)を行った際に出力されるデフォルト ファイル形式です。オプション設定により他の形式での出力も可能です。
ファイルの内容1.3 Clustal形式配列 1 CLUSTAL 2.0.12 multiple sequence alignment
2 3
4 TaxonA AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 5 TaxonB AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 6 TaxonC AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 7 ************************************************************
PHYLIP形式
系統解析ソフトウェアにおいて最も多く利用されているファイル形式の一つです。単純なファイル形式ですが 方言が多くあり、解析ソフトウェアごとにマニュアルを良く読んで確認する必要があるのがやっかいです。配列 名の文字数に制限があり、元々は10文字しか使えませんでした。しかし、これを拡張して配列名と配列の間を スペースで区切ることにして配列名の文字数制限を緩めたものも多く使われています。最大の問題は、元々の配 列名文字数10文字の仕様では配列名と配列との間をスペースで区切る必要が無かったため、配列名が10文字
1.1 配列データファイルの形式と相互変換 25
ぴったりの場合に両者に互換性が無いことです。よって、この形式を用いる際には配列名を10文字以内にした 上で必ず配列名と配列の間をスペースで区切るようにし、元々のPHYLIP形式の仕様に準拠したものとするの が安全です。閲覧・編集に適したinterleaved形式もあり、テキストエディタでの操作に適しています。PHYLIP では配列内にはスペースが含まれていても問題ありませんが、ソフトウェアによっては配列は一続きの文字列で あることを仮定しているものもあります。interleaved形式に対応していないソフトウェアもあります。また、1 行空けてさらに同じ形式でデータを続けることで、ブートストラップリサンプリングしたりした多数のデータ セットを1ファイルに格納することもできます。GenBank・Clustal・FASTAではそのようなことはできません。
non-interleavedとinterleavedの違いは実際のファイルの中身を見ていただくのが分かり易いでしょう。以下
がnon-interleavedのPHYLIP形式配列ファイルです。
ファイルの内容1.4 non-interleaved PHYLIP形式配列 1 3 60
2 TaxonA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA
3 AAAAAAAAAA
4 TaxonB AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA
5 AAAAAAAAAA
6 TaxonC AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA
7 AAAAAAAAAA
そして、これがinterleavedのPHYLIP形式ファイルです。
ファイルの内容1.5 interleaved PHYLIP形式配列 1 3 60
2 TaxonA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA 3 TaxonB AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA 4 TaxonC AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA 5
6 AAAAAAAAAA
7 AAAAAAAAAA
8 AAAAAAAAAA
どちらも50座位で折り返しているのですが、non-interleaved形式ではそれぞれの配列ごとに折り返している のに対して、interleaved形式では全配列をセットで折り返しています。前述のようにinterleaved形式に対応し ていないソフトもありますが、non-interleavedなのに折り返しがあるファイルに対応していないソフトもありま すので注意が必要です。
NEXUS形式
系統解析ソフトウェアにおいて最も多く利用されているもう一つのファイル形式です。様々な「ブロック」を 記述することができ、対応しているソフトウェア用のコマンドを記述しておくことができます。その「ブロッ ク」に非対応のソフトウェアではその中の内容は無視されますので通常問題は生じません。配列もDataブロッ クというブロック内に記述します。本形式にも閲覧・編集に適したinterleaved形式があり、テキストエディタで の操作に向いています。また、PHYLIP形式と同様、さらにDataブロックを作成することで、ブートストラッ
26 第1章 配列データセットの作成
プリサンプリングしたりした多数のデータセットを1ファイルに格納することもできます。GenBank・Clustal・
FASTAではそのようなことはできません。
ファイルの内容1.6 NEXUS形式配列 1 #NEXUS
2
3 Begin Data ;
4 Dimensions NTax =3 NChar =60;
5 Format DataType = DNA Interleave Missing =? Gap = -;
6 Matrix
7 TaxonA AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 8 TaxonB AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 9 TaxonC AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 10
11 TaxonA AAAAAAAAAA 12 TaxonB AAAAAAAAAA 13 TaxonC AAAAAAAAAA
14 ;
15 End ;