バイオインフォマティクス
第
1
回
藤 博幸
バイオインフォマティクス
第
1回
藤 博幸
BIO
IT
配列解析
I
1. 相同配列
2. 配列アラインメント
3. 演習1 HIV 阻害薬のターゲット探索
4. 演習2 何が我々をヒトにしているのか
本日の課題
水素結合
アスパラギン酸 グルタミン酸 システイン チロシン リジン アルギニン ヒスチジン セリン スレオニン アスパラギン グルタミン グリシン アラニン バリン ロイシン イソロイシン メチオニン プロリン フェニルアラニン トリプトファン
アミノ酸は
”大文字”
で表記する
アミノ酸
C
H
H
N
H
R
O
H
O
C
側鎖
カルボキシル基
アミノ基
基本構造
主鎖
Arg (R)
Glu (E)
Asp (D)
Thr (T)
Cys (C)
Ser (S)
Lys (K)
Met (M)
His (H)
Phe (F)
Pro (P)
Trp (W)
Ala (A)
Gly (G)
Val (V)
Leu (L) Ile (I)
Tyr (Y)
Gln (Q)
Asn (N)
親水性
アミノ酸
解離性アミノ酸
疎水性アミノ酸
h.p://www.wdic.org/w/SCI/ペプチド結合
タンパク質は
20種類のアミノ酸がペプチド結合で
つながった紐状の分子
各アミノ酸を1文字で表現すると、一つのタンパク質
は、
20種類のアルファベットで構成された文字列
として表すことができる。
アミノ酸配列�
立体構造�
>LYC_HUMAN
MKALIVLGLVLLSVTVQGKVFERCELARTL
KRLGMDGYRGISLANWMCLAKWESGYNTRA
TNYNAGDRSTDYGIFQINSRYWCNDGKTPG
AVNACHLSCSALLQDNIADAVACAKRVVRD
PQGIRAWVAWRNRCQNRDVRQYVQGCGV
148
残基�ヒト・リゾチームのアミノ酸配列
���
(一文字表記)�ヒト・リゾチームの立体構造�
FASTA 形式
>LYC_HUMAN ヒト Lysozyme C
MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAK
WESGYNTRATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSAL
LQDNIADAVACAKRVVRDPQGIRAWVAWRNRCQNRDVRQYVQGCGV
“>” で始まる注釈行(通常、配列名)と
改行後に、1文字表記で塩基あるいはアミノ酸の配列を記す書式を
FASTA形式
といい、分子系統解析ばかりでなく、バイオインフォ
マティクス分野では配列の書式としてよく使われている。
前ページのように、一つのファイルに複数の
FASTA形式の
配列がおさめられている場合は、
マルチ
FASTA形式
とよぶ。
1. 相同配列 (homologous sequences)
相同タンパク質の形成
・
種分化����
ortholog
・
遺伝子重複
paralog
���� 機能の多様化に特に重要
分子進化�
(Molecular Evolution)
�上の機構で分岐した遺伝子に突然変異が生じる
ことで、配列が変化していくこと
�
基本ステップは
���
○
�塩基(アミノ酸)置換
���
○
�挿入/欠失��
5’ –ATTCCCGTGGTCATGTTTCGGGATGTA – 3’
置換
(subs2tu2on)
5’ –ATTCCCGTGGTCGTGTTTCGGGATGTA – 3’
5’ –ATTCCCGTGGTCATGTTTCGGGATGTA – 3’
挿入
(inser2on)
5’ –ATTCCCGTGGTCAGCTGTTCATGTTTCGGGATGTA – 3’
欠失
(dele2on
)
5’ –ATTCCCGTGGTCATGTTTCGGGATGTA – 3’
5’ –ATTCCCGTGGTCACGGGATGTA – 3’
挿入と欠失
はまとめて
INDEL
とよぶことも
ある。
*
α
祖先型の生物�
進化�
突然変異�
種分化�
種分化�
α
α
生物の種分化を反映したタンパク質の増加�
10 20 30 40 50
human VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSH
::: ::.:.::::::.:.:..::::::::::: :::::::::::::.::
mouse VLS
GE
DK
S
N
I
KAAWGK
I
G
G
H
GA
EYGAEALERMF
A
SFPTTKTYFPHFD
V
SH
10 20 30 40 50
60 70 80 90 100
human GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKL
::::::::::::::::..:..:.::.:.::::::::::::::::::::::
mouse GSAQVKGHGKKVADAL
AS
A
AG
H
L
DD
L
P
G
ALSALSDLHAHKLRVDPVNFKL
60 70 80 90 100
110 120 130 140
human LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
::::::::::.: ::.:::::::::::::::::::::::::
mouse LSHCLLVTLA
S
H
H
PA
D
FTPAVHASLDKFLASVSTVLTSKYR
20/141
110 120 130 140
突然変異
(muta2on)と置換(subs2tu2on)
突然変異は集団中の個体に生じる
※ 進化に寄与するのは体細胞ではなく生殖系列
突然変異
(muta2on)と置換(subs2tu2on)
有害な突然変異は、集団から除去される
(負の選択
or
純化淘汰)
突然変異
(muta2on)と置換(subs2tu2on)
有利な突然変異は急速に集団中に広まり
集団全体がその突然変異遺伝子で置き換
工業暗化
(industrial melanism)
白と黒の体色を持つオオモリエダシャク
田園都市では淡色型の方が目立ちにくくて小鳥に捕食されずに
生き残るのに対して工業地帯では煤煙でまわりが黒くなっている
ため暗化型のほうが目立ちにくいため
19世紀後半から、ヨーロッパの工業都市が発展するにつれて、
その付近に生息するガ(蛾)に暗色の変異が増加した
突然変異
(muta2on)と置換(subs2tu2on)
中立な突然変異の頻度はランダムに浮動し
確率的に集団中に固定 (選択的に中立)
中立な変化 自然選択
タンパク質をコードする遺伝子
における
分子レベルの変化の大部分は
中立的
突然変異
(muta2on)と置換(subs2tu2on)
個体に生じた突然変異が集団全体に広まること:
固定
EvoluQonary fate and funcQonal consequence
Gene A
duplication
Gene A'
Neofunctionalization
Subfunctionalization
Non-functionalization
(pseudogenization)
Gene A
Gene A
Gene A'
Non-processed
pseudogene A
(偽遺伝子)
Gene B
Gene A''
Function A
Functions A + B
Functions A' + A'' = A
重複+変異による
グロビン蛋白質の進化
embryonal gene
fetal gene
pseudo gene
adult gene
ε G γ Aγ Ψβ δ β ξ2 Ψα1 Ψα2 α2 α1 θChromosome 22
Chromosome11
Hemoglobinβ
Chromosome16
Hemoglobinα
Ψξ1 Myoglobin600-800 Million years ago
450-500 > 300 〜260 40-50 40-80(?) 100-140 〜35 150-200
*Myoglobin:
・モノマーで機能
*Hemoglobin:
・ヘテロテトラマー
で機能
・各発生段階で発現
するsubunitの組み合
わせを変える
↓
酸素分子との親和性
が変化し、段階に応
じた機能が微調整さ
れる
ex.)
α
2γ
2(胎児期)>
α
2β
2, α
2δ
2(成体)
4つのサブ ユニットが 協調的に 働き4分子の 酸素と結合Fundamentals of Molecular evotution, GENOMES second edition,
Molecular Biology of the Cell 4th editionを改変
●機能遺伝子の生成
ヘモグロビンα��� ヘモグロビンβ
ヒト��� ラット�� ヒト��� ラット�
ヒト、ラット
�の種分化�
遺伝子重複による
α
、βの形成�
orthologous
paralogous
祖先遺伝子�
2. 配列アラインメント (sequence alignment)
進化の過程での
INDELを考慮しながら、相同な配列の間の
対応する塩基(あるいはアミノ酸)を同じ位置に並べる操作
あるいは、その操作によってできたもの。
INDELに対応して
ギャップ
(gap)
とよばれる空記号を挿入し
位置をずらして、塩基やアミノ酸を対応づける。
通常、動的計画法
(dynamic programing algorithm)
や、その
バリエーションを用いて、配列間の類似度が高くとなるように
アラインメントが構築される。
アラインメントの原理は次回
マルチプルアラインメント
(mul2ple alignment)
分子系統樹を構築するには、まず複数本の相同配列
についてのマルチプルアラインメントを作成する。
リゾチームのアミノ酸配列
>LYC_HUMAN ヒト Lysozyme C MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTRATNYNAGDRST DYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVRDPQGIRAWVAWRNRCQNRDVR QYVQGCGV >LYC1_BOVIN ウシ Lysozyme C 1 MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTKATNYNPGSEST DYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVSEQGITAWVAWKSHCRDHDVSS YVEGCTL >LYC_CHICK ニワトリ Lysozyme C MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTD YGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDVQA WIRGCRL >LYC2_ONCMY マス Lysozyme C II MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQATNRNTDGSTDYGI FQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVLDPNGIGAWVAWRLHCQNQDLRSYVA GCGV >LYC_BOMMO カイコ Lysozyme MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENLMRNWVCLVEHESSRDTSKTNTNRNGSKDYGL FQINDRYWCSKGASPGKDCNVKCSDLLTDDITKAAKCAKKIYKRHRFDAWYGWKNHCQGSLPDISSC >LYSP_DROME ハエ Lysozyme P MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQLAKWTCIAQHESSFRTGVVGPANSNGSNDY GIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQRQQGWTAWSTWKYCSGSLPSINSC F �
��ヒト ��ウシ ��マス ニワトリ �カイコ ��ハエ�
リゾチームのアミノ酸配列 マルチプル・アラインメント
CLUSTAL W (1.81) multiple sequence alignment
LYC_HUMAN -MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTR LYC1_BOVIN -MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTK LYC2_ONCMY ----MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQ LYC_CHICK -MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQ LYC_BOMMO -MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENL---MRNWVCLVEHESSRDTS LYSP_DROME MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQ---LAKWTCIAQHESSFRTG : . . .:. ** *. : *. : :* * : **. * LYC_HUMAN ATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVR LYC1_BOVIN ATNYNPGSESTDYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVS LYC2_ONCMY ATNRN-TDGSTDYGIFQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVL LYC_CHICK ATNRN-TDGSTDYGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVS LYC_BOMMO KTNTN-RNGSKDYGLFQINDRYWCS--KGASPGKDCNVKCSDLLTDDITKAAKCAKKIYK LYSP_DROME VVGPANSNGSNDYGIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQR .. . *.***::***.::**. . . * : *. *: ::: : **::: LYC_HUMAN DPQGIRAWVAWRNRCQNRDVRQYVQGCGV LYC1_BOVIN E-QGITAWVAWKSHCRDHDVSSYVEGCTL LYC2_ONCMY DPNGIGAWVAWRLHCQNQDLRSYVAGCGV LYC_CHICK DGNGMNAWVAWRNRCKGTDVQAWIRGCRL LYC_BOMMO R-HRFDAWYGWKNHCQGS--LPDISSC--LYSP_DROME : ** *: * . : .* 手順
二次構造情報を重ねて表示�α helix �β strand
アミノ酸配列�
立体構造�
>LYC_HUMAN
MKALIVLGLVLLSVTVQGKVFERCELARTL
KRLGMDGYRGISLANWMCLAKWESGYNTRA
TNYNAGDRSTDYGIFQINSRYWCNDGKTPG
AVNACHLSCSALLQDNIADAVACAKRVVRD
PQGIRAWVAWRNRCQNRDVRQYVQGCGV
148
残基�ヒト・リゾチームのアミノ酸配列
���
(一文字表記)�ヒト・リゾチームの立体構造�
�置換や挿入/欠失は、一次構造中不均一に生じる
��
機能的制約と構造的制約 (疎水コア
、
モチーフ)
��モチーフとは、相同配列間で強く保存された短い領域をさす。
��モチーフの保存は、負の選択によって維持される。
�
Motif A
Motif B
Motif C
酵素の活性中心�
多量体の
会合面�
側鎖のパッキングが
疎水コア
密なため。表面近傍は
逆に置換や挿入/欠失
が生じやすい。�
保存的な領域は一次構造的には分散して
いても、三次構造上は近接している場合が
多い。
演習1
HIV阻害薬のターゲット探索
- モチーフの利用 -
セントラルドグマ
DNA
RNA
protein
転写
翻訳
逆転写
レトロウイルスを含む
レトロエレメント
ファイルの確認
RetroProtease.fasta
(テキスト形式のファイル)
ダウンロードしたものをデスクトップにおく
“メモ帳”で開いてmulQ-FASTA形式であることを確認
以下、メモ帳の開き方
1 左下 スタート をクリック
全てのプログラムをクリック
6. 開いた メモ帳 のメニューバーから ファイル を選択
7. プルダウンメニューから 開く を選択
8. ファイル選択ウィンドウで、ファイルのあるディレクトリまで移動
(ここではドキュメントdirectory)
9. テキスト形式のファイルだが、拡張子がfastaのため認識されない。
>gi|443546|pdb|7HVP|A Chain A, Protease Of Human Immunodeficiency Virus 1
PQITLWQRPLVTIRIGGQLKEALLDTGADDTVLEEMNLPGKWKPKMIGGIGGFIKVRQYDQIPVEIXGHK
AIGTVLVGPTPVNIIGRNLLTQIGXTLNF
> HIV2 protease (NP_663784 REGION: 523..603)
vtayiedqpv evlldtgadd sivagielgd nytpkivggi ggfintkeyk nveikvlnkr
vratimtgdt pinifgrnil t
> simian immunodeficiency virus SIV-mnd 2 (NP_758887 REGION: 72..166)
slwnrpttvv eiegqkveal ldtgaddtvi kdldlkgnwk pqiiggiggs invkqffnck
vtiagkttha svlvgptpvn ivgrnvlkkl gctln
>gi|4389337|pdb|1BAI|A Chain A, Rous Sarcoma Virus Protease
LAMTMEHKDRPLVRVILTNTGSHPVKQRSVYITALLDTGADDTVISEEDWPTDWPVMEAANPQIHGIGGG
IPVRKSRDMIELGVINRDGSLERPLLLFPLVAMTPVNILGRDCLQGLGLRLTNL
>gi|224443|prf||1104339A MoMuLV protease
TLDDQGGQGQEPPPEPRITLKVGGQPVTFLVDTGAQHSVLTQNPGPLSDKSAWVQGATGGKRYRWTTDRK
VHLATGKVTHSFLHVPDCPYPLLGRDLLTKLKAQIHFEGSGAQVMGPMGQPLQVL
1. 配列は、スペースがあいていても構わないことに注意
2. Ma\は大文字も、小文字も区別せずに配列を処理してくれるが、ソフトによっては
大文字あるいは小文字しか処理できない場合があるかもしれない
マルチ
fasta形式
MAFFTによるマルチプルアラインメント
ma\は宮田研究室で開発され、加藤和貴によって継続的に
開発されているマルチプルアラインメントのフリーソフトウェア
海外の多くの研究機関で利用されている。
Web上でのアラインメントサービスに加え、ダウンロードして自身の
PC上で利用できる。Mac, Windows, Linuxなど様々なOSに対応している
ここでは、既に関西学院大学の計算システム(
Windows環境)にインストール
されている
ma\を利用する。
Ma>を起動する
2. 検索ウィンドウにma\と入力
4. 入力ファイルを指定するために、mulQ-fasta formatのファイルが置かれた
Directoryを表示する。(ここからはWindows OS上での処理)
5. ドキュメントdirectoryが表示される。
Directoryからma\のウィンドウにファイルをドラッグすると、ファイル名が入力
される。ファイル名が入力されたら
enterキーをおす。
6. Outputすなわち、アラインメントを出力するファイル名を聞かれる、入力
ファイル名を参考に
Zドライブ上のファイル(新規でも既存の者でも良い)を指定し
Enterキーをおす。出力オプションを聞いてくるので2を指定する。
7. アラインメントのオプションを聞いてくる。1の—autoオプションを指定
して
enter
autoオプション
小規模データ丁寧に、大規模データそれなりにアライン
t7
8. 指定したファイルやオプションを、コマンドライン形式で確認してくる
問題なければ
Y を入力してenter
9. ウィンドウ中に、出力が表示
LUSTAL format alignment by MAFFT L-INS-i (v7.130b) gi|443546|pdb|7 PQITLW---QRPLVTIRIGGQL---KEALLDTGADDTVLEEMNLPG HIV2 ---VTAYIEDQP---VEVLLDTGADDSIVAGIELGD simian ---SLW---NRPTTVVEIEGQK---VEALLDTGADDTVIKDLDLKG gi|4389337|pdb| LAMTMEHK---DRPLVRVILTNTGSHPVKQRSVYITALLDTGADDTVISEEDWPT gi|224443|prf|| ---TLDDQGGQGQEPPPEPRITLKVGGQP---VTFLVDTGAQHSVLTQNPGPL : . *:****:.::: gi|443546|pdb|7 KW---KPKMIGGIGGFIKVRQ---YDQIPVEIXGHKAIGTVL----VGPTPVNIIGR HIV2 NY---TPKIVGGIGGFINTKE---YKNVEIKVLNKRVRATIM----TGDTPINIFGR simian NW---KPQIIGGIGGSINVKQ---FFNCKVTIAGKTTHASVL----VGPTPVNIVGR gi|4389337|pdb| DWPVMEAANPQ-IHGIGGGIPVRKSRDMIELGVINRDGSLERPLLLFPLVAMTPVNILGR gi|224443|prf|| SD---KSAWVQGATGGKRYRW---TTDRKVHLATGKVTHSFLH---VPDCPYPLLGR . .. : * * : : : ..: . * :.** gi|443546|pdb|7 NLLTQIGXTLN---F HIV2 NILT---simian NVLKKLGCTLN---gi|4389337|pdb| DCLQGLGLRLT---NL gi|224443|prf|| DLLTKLKAQIHFEGSGAQVMGPMGQPLQVL : *
Clustal形式
のアラインメント
強く保存しているセグメント(モチーフ)が2ケ所見いだされる
Clustal形式アラインメント下段のシンボルの意味
“*”では,完全に保存
“:”では,強い物理化学的類似性のあるグループで保存
“.”では,弱い類似性のあるグル―プで保存
強い弱いの基準は,
PAM250 行列において,アミノ酸間のスコアが0.5よ
り大きいか,
0.5以下かで分けている
PAM250行列については次回説明
Clustal形式:
後述
コマンドライン入力の場合:
–reorder
Fasta形式
:
コマンドライン入力の場合:デフォルト
Sorted Order:
アラインメントした際、近縁なもの
(guide tree上で
近い順番、
guide treeについて次回)を近くに配置
するように配列の順番を変更
コマンドライン入力の場合:
--reorder
Input Order:
Fasta形式の入力ファイルに入っている順番で
アラインメント中の配列が配置される
コマンドライン入力の場合:デフォルト
レトロウイルス・プロテアーゼのコンセンサス配列�
�
�
(Hydrophobic)-Asp-Thr-Gly-(Small Hydrophilic)�
�
�
検 証
X 線結晶構造解析からHIV プロテアーゼは酸性プロテーゼと類似の構造である。
M. Miller et al. Science 246, 1149 (1989).
������������ 実 験
[1] 既知酸性プロテアーゼの立体構造を鋳型としたHIV プロテアーゼの
ホモロジー・モデリン
グ
L.H. Pearl and W.R. Taylor, Nature 329, 351 (1987).
[2] 酸性プロテーゼ阻害剤(ペプスタチン)によるHIV プロテアーゼの阻害
R.F. Nutt et al. Proc. Natl. Acad. Sci. USA 85, 7129 (1988).
P.L. Darke et al. J. Biol. Chem. 264, 2307 (1989).
������ ��� 予 測
レトロウイルスのプロテアーゼは酸性プロテアーゼである。
H. Toh et al. EMBO J. 4, 1267 (1985)
H. Toh et al. Nature 315, 691 (1985)
実験可能で信頼性のある仮説を構築
バイオインフォマティクスの一つの役割
実験にかかるコスト(時間、金)を削減
演習
2
何が我々をヒトにしているのか
FOXP2の解析
ヒトゲノムとチンパンジーゲノム
ゲノム配列は
97% 一致
脊椎動物あるいは哺乳類の進化の過程では保存されているが、
ヒトではその配列が予想以上の速度で変化している遺伝子
あるいはタンパク質が候補
◎
non-coding RNA HAR1F
(HAR = human accelerated region)
大脳新皮質の発生の過程で特異的に発現
◎
alpha-tectorin
内耳の被蓋膜に局在するタンパク質
変異により先天性難聴
ヒト特異的な会話の発達に関与する可能性
◎
FOXP2
ヒトの会話に関する遺伝子として同定
KEファミリー:動詞や名詞などの屈折形態素(-ed,-es)などの産出
に特異的な言語障害。三世代
20数人にわたって調査。
七番染色体の
FAXP2の欠損が原因として同定
正高信男、辻幸夫
(2011)
“ヒトはいかにしてことばを
獲得したか
” 大修館書店
より
FOXP2は転写因子(transcripQonfactor)
DNAに結合して、他の遺伝子の転写を制御
R533H DNA結合ドメインの変異
R328X ナンセンス変異
終止コドンが形成されることで、タンパク質の
生合成が途中でとまってしまう
FOXP2が発現を制御している遺伝子の一つ
CNTAP2 (contacQn associated protein like 2)
CNTAP2の変異: 無意味な言葉を繰り返すことが困難
かつては
FOXP2は「文法遺伝子」と言われていた。
(1) FOXP2は脊椎動物に広く分布している
シナプス可塑性や神経の発達に関与
(1) 文法というより、コンテキスト情報を加味して発話の内容を
理解することや発話や運動能力に関わる。
「コンテキスト情報を加味して発話の内容を理解」とは?
「あなたは賢いですね」と言われた時、字義通りなのか、
皮肉なのかを、前後の文脈から理解
「文法遺伝子」は言い過ぎだが、人間のコミュニケーションに
関わる遺伝子であることは間違いない
FOXP2のどこがヒトと他の動物と異なっているのか?
我々を他の動物と(言語に関して)区別する変異の候補
をみつけたい
アラインメントから他の動物の
FOXP2では保存しているの
ヒト
FOXP2のみで変化しているサイトを候補として同定
(1) FoxP2.fastaをダウンロードして、デスクトップにおく
(2) メモ帳でFoxP2.fastaがマルチFasta形式であることを確認
(3) Ma\でマルチプルアラインメントを作成し、Clustal形式で
ファイルに保存
(4) 得られたアラインメントをメモ帳で開いて、上記サイトを確認
CLUSTAL format alignment by MAFFT L-INS-i (v7.130b) human MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-GDTSSEVSTVELLHLQQQQAL chimp MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-GDTSSEVSTVELLHLQQQQAL macaque MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-GDTSSEVSTVELLHLQQQQAL cat MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-GDTSSEVSTVELLHLQQQQAL boar MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-GDTSSEVSTVELLHLQQQQAL chicken MMQESATETISNSSMNQNGMSTL-GSQLDAGSRDGRSS-GDTSTEVSTVELLHLQQQQAL Anolis MMQESATETISNSSMNQNGMSTL-SSQLDASSRDGRSS-GDTGTEVSTVELLHLQQQQAL Xenopus MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-SDTSSEVSTVELLHLQQQQAL zebrafish MMQESANETISNSSMSQNGMSSL-SSQLDAGSRDGRSS-GETSSEVSAVELLHLQQQQAL fugu MMQESATETISNSSMSQNGMSTLSSSQLEAGSRDGRSSAGDTSSEVSTVELLHLQQQQAL ******.********.*****:* .***:*.******* .:*.:***:************ human QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL chimp QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL macaque QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL cat QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL boar QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL chicken QAARQLLLQQQTSGLKSPKGTDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL Anolis QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL Xenopus QAARQLLLQQQTSGLKSPKNNEKQRPLQVPVSMAMMTPQVITPQQMQQILQQQVLSPQQL zebrafish QAARQLLLQQPGSGLKSPKNNDKQRPLQVPVSVAMMSPQVITPQQMQQILQQQVLSPQQL fugu QAARQLLLQQPGSGLKSPKSQDKQRPLQVPVSVAMMSPQVITPQQMQQILQQQVLSPQQL ********** *******. :**********:***:***********************
human KH---GGLDLTTNNSSSTTSSNTS-KASPPITHHSIVNGQSSVL-SARRD--chimp macaque KH---GGLDLTTNNSSSTTSSTTS-KASPPITHHSIVNGQSSVL-NARRD--cat KH---GGLDLTTNNSSSTTSSTTS-KASPPITHHSIVNGQSSVL-SARRD--boar chicken Anolis KH---GGLDLTTNNSSSTTSSTTS-KASPPITHHSIVNGQSSVL-NARRD--Xenopus KH---GGLDLTTNISSSTTSTTTS-KASPPITHHSLLNGQASVL-SARRD--zebrafish KH---SGLDLSTNNNTSTTSTSNP-KASPPITHHSMSNGQSPALNNNRRE--fugu KHNSSGSTGGGNGGGLDLSTNNSSSTTSSSNPAKASPPLSHHSIANGQSPIL-NHRRERE ** .****:** .:****:... *****::***: ***:. * . **: