MIMKTTLLLISVLLTQALQSQGRPAIQDEAPAEPTSYTLDSGEKLELSCKAKEDTQKVTWTKDLVPLVDGEHTRLRNDQMEIEKVEP ADSGLYACFAQGLNSNHTEYFNISVTDEEDEVDSSSEEAKLSNDQNLPMAPVWAQPDKMEKKLHAVPASKTVKFRCQANGNPTPTLK WLKNGKEFKRDQRIGGFKVREHMWTIIMESVVPSDRGNYTCLVENRHGSINHTYQLDVVERSPHRPILQAGLPANRTAVVGSDVEFE CKVFSDPQPHIQWLKHIEVNGSRYGPDGLPYVRALKTAGVNTTDKEMEVLQIRNVSLEDAGEYTCLAGNSIGHSHHSAWLTVYKAVP PTQLPNQTYLEVLIYCVGFFLICVMVGTAVLAKMHSSAKKSDFNSQLAVHKLAKSIPLRRQVTVSVDSSSSMHSGGMLVRPSRLSSS GSPMLSGVSEYELPQDPRWEVQRDRLVLGKPLGEGCFGQVMMAEAMGMDKEKPNRITKVAVKMLKSDATEKDLSDLISEMEMMKIIG KHKNIINLLGACTQDGPLYVIVEFAAKGNLREYLRVRRPPGMEYCYNPDQVPVENMSIKDLVSCAYQVARGMEYLASKKCIHRDLAA RNVLVTEDNVMKIADFGLARDIHHIDYYKKTTNGRLPVKWMAPEALFDRIYTHQSDVWSFGVLLWEIFTLGGSPYPGVPVEELFKLL KEGHRMDRPSTCTHELYMMMRDCWHAVPSQRPTFKQLVEDLDRTLSMTSNQEYLDLSVSLDQFSPNFPDTRSSTCSSGEDSVFSHDA GADEPCLPKFPPHPNRGVAFKKR
(
FGF
受容体:細胞内にチロシ ンキ ナー ゼドメイ ンを持った 膜貫通型細 胞膜受容 体・FGF=fibroblast growth factor/繊維芽細胞増殖因子:創傷治癒、培養条件下で繊
維芽細胞の分裂を促進する。胚発生では中胚葉誘導に関与する)シグナルペプチドの検索
タンパク質のシグナルペプチドの予測:
1)SignalP 3.0 Server(http://www.cbs.dtu.dk/services/SignalP/)を開ける(デンマー クの Technical University が公開)
2)>zebrafish_Charon で検索してみよう。アミノ酸配列を枠内にコピーする。
Submit ボタンをクリックする。
練習:下のアミノ酸配列でも検索してみよう
>mouse_vitamin_D_receptor
MEAMAASTSLPDPGDFDRNVPRICGVCGDRATGFHFNAMTCEGCKGFFRRSMKRKALFTCPFNGDCRITKDNRRHCQACR LKRCVDIGMMKEFILTDEEVQRKREMIMKRKEEEALKDSLRPKLSEEQQHIIAILLDAHHKTYDPTYADFRDFRPPIRAD VSTGSYSPRPTLSFSGDSSSNSDLYTPSLDMMEPASFSTMDLNEEGSDDPSVTLDLSPLSMLPHLADLVSYSIQKVIGFA KMIPGFRDLTSDDQIVLLKSSAIEVIMLRSNQSFTLDDMSWDCGSQDYKYDITDVSRAGHTLELIEPLIKFQVGLKKLNL HEEEHVLLMAICIVSPDRPGVQDAKLVEAIQDRLSNTLQTYIRCRHPPPGSHQLYAKMIQKLADLRSLNEEHSKQYRSLS FQPENSMKLTPLVLEVFGNEIS
(ビタミンD受容体は、核に移行する蛋白質なのでシグナルペプチドは ない)
ドメインの検索
タンパク質のドメイン構造の予測-1:Pfam を使う(ドメイン検索で最も利用されている:機能ド メインを探すのに便利)
今日は、下のマウスのビタミンD受容体で検索します。
1) Pfam(http://pfam.sanger.ac.uk/)(イギリスのサンガー研究所)を開ける 2) SEQUENCE SEARCH ボタンを押す
3) 枠内にアミノ酸配列(試しに>mouse_vitamin_D_receptor)をコピーし、
submit を押す
4) みつかったドメイン構造がグラフィックで上に図示される。
5) 下には各ドメインの説明が表示される。
6) 一番右の Show/hide alignment を押すと、データベースに納められているドメイン配 列と問い合わせ配列のアライメントが表示される
7) ドメインネーム(上のグラフィックも同様)がアクティブで、それを押すと、ドメインの説 明、立体構図が表示される
8) 右上のグラフィックツールのうち、crystallographic structures を押すと、みつかった タンパク質の高次構造がグラフィックで示され、詳細な構造の説明も表示される。
PBD ID を押すと、タンパク質の高次構造(アルファへリックス構造等)が表示され
る。
>mouse_vitamin_D_receptor
MEAMAASTSLPDPGDFDRNVPRICGVCGDRATGFHFNAMTCEGCKGFFRRSMKRKALFTCPFNGDCRITKDNRRHCQACRLKRCVDI GMMKEFILTDEEVQRKREMIMKRKEEEALKDSLRPKLSEEQQHIIAILLDAHHKTYDPTYADFRDFRPPIRADVSTGSYSPRPTLSF SGDSSSNSDLYTPSLDMMEPASFSTMDLNEEGSDDPSVTLDLSPLSMLPHLADLVSYSIQKVIGFAKMIPGFRDLTSDDQIVLLKSS AIEVIMLRSNQSFTLDDMSWDCGSQDYKYDITDVSRAGHTLELIEPLIKFQVGLKKLNLHEEEHVLLMAICIVSPDRPGVQDAKLVE AIQDRLSNTLQTYIRCRHPPPGSHQLYAKMIQKLADLRSLNEEHSKQYRSLSFQPENSMKLTPLVLEVFGNEIS
(ビタミンD受容体;核タンパク質受容体ファミリーのメンバーで、骨形成等に関与する)
終わった人は、次のタンパク質で検索してみよう:
ゼブラフィッシュ・FGF レセプター
3D 構造の予測と検索
3D 構造の予測
下記のサイト(Swiss Institute of Bioinformatics)のツールを使って、得られたタンパク質 のアミノ酸配列をもとに 3D 構造を予測することが可能です。プログラムの原理は、構造 の解明されているタンパク質構造データベースから配列の近いものを抽出し、配列のア ライメントをもとに 3D 構造を予測します。検索の 4 つのプロセスとも、データがメールで送 り返されてくる仕組みになっています。そのため、授業中に検索することは無理です。興 味のある学生は各自で、試みて下さい。
http://swissmodel.expasy.org/
3D 構造データベースの閲覧 NCBIの利用
NCBI の Resource List の中にある Structure (Molecular Modelling Database)を使うと、タンパ ク質構造データベースに納められている 3D 構造を閲覧することができます。
↓NCBI homepage
↓Resource List から Structure (Molecular Modelling Database)を選択
↓左カラムの Searchを選択
↓Search の枠にタンパク質明を入力して検索(試しに prion, VDR で検索してみよう)
PDB (Protein Data Bank) の利用 www.pdb.org
上のアイコンから macromolecule を指定してキーワード検索(試しに prion, VDR で検
索してみよう)
3D 構造だけでなく、遺伝子の機能の解説も添えられている
NCBI blastp による検索
Blastp でデータベースを Protein Data Bank を選択して検索する(上の Protein Data Bank に登録されている高次構造の分かっているタンパク質に対して blastp 検索 が行われる)
配列類似遺伝子で高次構造の解析されているタンパク質が表示される。右の Accession ボタンを押すと、データが表示される。右に 3D 構造が図示される。
演習
データベースを使って、dopamine の構造、合成系、作用機序、合成部位、合成系の ノックアウトの表現型、薬剤等について情報収集する。
使用するサイト
構造:NCBI (PubChem) 合成系:KEGG
作用機序:KEGG 合成部位:ZFIN ノックアウト:MGI 薬剤:KEGG
1 月 14 日(第 14 回)
実習
Ensembl Genome Brower
— ゲノム塩基配列をデータベースから取り出す —
Ensembl Genome Brower(ゲノムデータの統括サイト)は、Sanger 研究所・EBI が管理するゲノ ムデータベースです。最大の特徴は、ゲノムの塩基配列を取り出すことができることにありま す。ノックアウトマウスの相同組換えに用いる配列、GFP を使ったレポーター遺伝子作製用 のプロモーター配列等が必要な場合に、Ensembl を使ってゲノム配列を取り出します。実習 では、Ensembl の説明と実際の配列の取り出し方を教えます。
使用法1)Ensembl を使って、試しにマウスの sonic hedgehog(shh)のゲノム配列を取り出し てみます。
1.下記のウェブサイトを開ける
http://www.ensembl.org/index.html (ensembl でキーワード検索) 2.生物種を指定する
マウスを選択
3.検索項目から gene を選び、遺伝子名(shh)をボックスに入れて検索
4.リストアップされてきた複数の遺伝子から、shhをクリック(ESMSUSG000000002633)する 染色体上の地図が表示される
5.左側のツールボックスの中からSequenceを選択してクリック
6.配列が表示される(エクソンは赤字、エクソン間の黒字の部分はイントロン、第一エクソン より上流はプロモーター領域の一部である)
7.戻って、Location からもゲノム構造を検索することができる
8.Export data で、範囲を選択して配列を取り出すことができる(より長いプロモーター配列を 取りですことができる)
使用法 2)Ensembl を使って、染色体の特定領域の配列を取り出す。
1. Location の右にあるChromosomeをクリックする
2. Location の右にあるボックスに、染色体番号と塩基番号を入力して GO : 試しに 10 番染色体、10,000,000-10,005,000 で検索してみよう
3. 左の列から、Export dataを選択。オプションはデフォルトのままにして、Textを選択する と、指定した領域の塩基配列が得られる。
-転写調節領域のコンセンサス結合配列の予測-
講義
遺伝子の発現調節機構
遺伝子は、特定の細胞また時期に発現するように調節されています。例えば、ペプ シノーゲンの発現は胃に限定されており、筋肉や脳では決して発現しないように制御 されています。発生に関係する遺伝子のなかには、魚類の孵化酵素のように一生のう ち孵化時に一度だけ発現する遺伝子もあります。このような発現調節に関する情報は、
ゲノムのコード領域ではなく、その近辺に存在する転写調節領域にコードされていま す(5’上流にある場合が多いが、3’下流にあるものやイントロンにある遺伝子も存 在する)。具体的には、転写因子が結合するコンセンサス結合配列がその情報と言うこ とになります。転写因子は、ゲノムの決まった配列を認識して結合します。その配列 がコンセンサス結合配列です。コンセンサス結合配列は、6-20 塩基ほどの短い配列で す。転写調節領域には、複数個のコンセンサス配列が存在し、複数の転写因子が結合・
解離することにより、遺伝子の転写を精密に調節しています。講義では転写調節のメ カニズムについて解説し、実習で転写調節領域のコンセンサス配列を検索します。
実習
マウスの sonic hedghog 遺伝子の 5’上流域の転写調節領域の配列をゲノムデベースか ら取り出し、コンセンサス結合配列を予測してみます。
コンセンサス結合配列の検索には幾つかのプログラムがありますが、実習では TFSearch を用います。
http://www.cbrc.jp/research/db/TFSEARCHJ.html
問題:マウスの sonic hedghog(shh)遺伝子の転写調節領域の配列をゲノムデータベースか ら取り出し、コンセンサス結合配列を予測する。
(1)最初にゼブラフィッシュの sonic hedghog 遺伝子の 5’上流域の転写調節領域の配列を ゲノムデベースから取り出します。
1) Emsembl (http://www.ensembl.org/index.html)を開けます 2) 対象性物から mouse を選択
3) 検索項目から gene を選び、shh で検索
4) 検索結果のページにある shh のアクセッションをクリック
5) 左側ボタンの Sequence をクリックすると、ゲノム配列が表示される
6) 第1エクソン(赤字)から上流の配列(転写調節領域)をメモ帳にコピーす る(-40 b あたりに TATA box (TATA(A/T)A(A/T))が存在することが分かる。その
約 40b 上流には CAAT Box (GCCAATCT)が配置する)
(2)次に、MOTIF Search を開ける
(http://www.cbrc.jp/research/db/TFSEARCHJ.html)
7) 上の枠に任意の名前を入力する
8) 下の枠に塩基配列をコピー、分類を脊椎動物とし、Exec をクリック
注意:コンセンサス配列は、ほとんどの場合 6-10b 程の短い配列であり、加えてある程度の 配列のバリエーションを許容します。そのため予想された配列には、実際には転写因子と相 互作用しない配列が高い比率で含まれます。検索結果は、目安程度に考えて下さい。実際 のコンセンサス配列を同定するためには、分子生物学の技術(ゲルシフトアッセイ、ルシフェ ラーゼをレポーターにしたプロモーター解析等)を使って実験的に検証する必要がありま す。
---
次世代シーケンス解析について
次世代シーケンス解析は、この数年で実用化された DNA シークエンス解析技術で、
その原理は従来のサンガー法を基礎とした蛍光シークエンサー(電気泳動で1塩基の 差で分離された DNA バンドをレーザー光を照射して蛍光検出する)とは全く異なり、
半導体の基盤に固着した DNA を1塩基の伸長反応ごとに結合した塩基を検出します。
ナノ技術により、1mm 四方で万単位のシークエンス解析が可能です。最も汎用されて いる Illumina 社の HiSeq200 では、1 リードのリード長は 100bp と短いですが、シー ケンサーを一度動かすと(1ラン)で 20 億リードが読まれます。つまり 1 ランで、
100-200Gbp(ギガ=10 億)の配列が得られることになります(1 ランで 8 サンプル解析 されるので、1 サンプルあたりの解読数は、100bp x 2.5 億リード=25Gb です。)。従来 の蛍光シーケンサーでは、1 ランで 700bp のリードが 96、総計約 67kb の塩基配列が得 られるのに比べると、オーダーが千万単位違います。つまり次世代シーケンサーが 1 台で、蛍光シーケンサーの千万台分の解析能力があるわけです。HiSeq200 では、ペア エンドのシークエンス解析(数 100bp の断片を両側から 100bp 読む:シングルエンド のシーケンス解析に対し、配列をコンティグに繋ぐ時に非常に有用である)
ヒトゲノムは約 30 億 bp なので、1 ランでほぼ解読可能なレベルで、現在では、個 人のゲノム解読も可能なわけです。次世代シーケンサーは 1 台が 1 億円以上するため、
研究室で購入することは非現実的ですが、依頼解析が随分廉価となり、1 サンプルの 解析が 30 万円程度まで下がっているため、今後は農学研究でも利用されていくことは 間違いありません。農学が対象とする生物も近いうちに、全ての種のゲノム解読が終 了するように思います。今後は系統間の塩基配列の違いを調べ、形質と配列との関係 を解析することが重要になると思われます。
ここで注意しなければならないことは、1 サンプルあたり 100bp の配列断片が 2.5 億個得られると言うことで、その解析はとうてい人の手に負えるはずはなく、コンピ ューター解析の技術が必須です。ゲノムにしても cDNA の配列を読むにしても、まず最 初に 100bp の配列断片から重なり合う部分を探して、配列をコンティグにつなげる必 要があります。配列解析のバイオインフォマティックスは現在非常に重要になってお り、まだ人材不足の状況です。
授業では、(1)次世代シーケンサーの塩基配列解読原理、(2)次世代シーケンス 解析の利用方法について講義します。