>zebrafish_fgfr1 - バイオインフォマティックス概論授業予定

MIMKTTLLLISVLLTQALQSQGRPAIQDEAPAEPTSYTLDSGEKLELSCKAKEDTQKVTWTKDLVPLVDGEHTRLRNDQMEIEKVEP ADSGLYACFAQGLNSNHTEYFNISVTDEEDEVDSSSEEAKLSNDQNLPMAPVWAQPDKMEKKLHAVPASKTVKFRCQANGNPTPTLK WLKNGKEFKRDQRIGGFKVREHMWTIIMESVVPSDRGNYTCLVENRHGSINHTYQLDVVERSPHRPILQAGLPANRTAVVGSDVEFE CKVFSDPQPHIQWLKHIEVNGSRYGPDGLPYVRALKTAGVNTTDKEMEVLQIRNVSLEDAGEYTCLAGNSIGHSHHSAWLTVYKAVP PTQLPNQTYLEVLIYCVGFFLICVMVGTAVLAKMHSSAKKSDFNSQLAVHKLAKSIPLRRQVTVSVDSSSSMHSGGMLVRPSRLSSS GSPMLSGVSEYELPQDPRWEVQRDRLVLGKPLGEGCFGQVMMAEAMGMDKEKPNRITKVAVKMLKSDATEKDLSDLISEMEMMKIIG KHKNIINLLGACTQDGPLYVIVEFAAKGNLREYLRVRRPPGMEYCYNPDQVPVENMSIKDLVSCAYQVARGMEYLASKKCIHRDLAA RNVLVTEDNVMKIADFGLARDIHHIDYYKKTTNGRLPVKWMAPEALFDRIYTHQSDVWSFGVLLWEIFTLGGSPYPGVPVEELFKLL KEGHRMDRPSTCTHELYMMMRDCWHAVPSQRPTFKQLVEDLDRTLSMTSNQEYLDLSVSLDQFSPNFPDTRSSTCSSGEDSVFSHDA GADEPCLPKFPPHPNRGVAFKKR

（

FGF

受容体：細胞内にチロシンキナーゼドメインを持った膜貫通型細胞膜受容体・

FGF=fibroblast growth factor/繊維芽細胞増殖因子：創傷治癒、培養条件下で繊

維芽細胞の分裂を促進する。胚発生では中胚葉誘導に関与する）

シグナルペプチドの検索

タンパク質のシグナルペプチドの予測：

１）SignalP 3.0 Server（http://www.cbs.dtu.dk/services/SignalP/）を開ける（デンマークの Technical University が公開）

２）>zebrafish_Charon で検索してみよう。アミノ酸配列を枠内にコピーする。

Submit ボタンをクリックする。

練習：下のアミノ酸配列でも検索してみよう

>mouse_vitamin_D_receptor

MEAMAASTSLPDPGDFDRNVPRICGVCGDRATGFHFNAMTCEGCKGFFRRSMKRKALFTCPFNGDCRITKDNRRHCQACR LKRCVDIGMMKEFILTDEEVQRKREMIMKRKEEEALKDSLRPKLSEEQQHIIAILLDAHHKTYDPTYADFRDFRPPIRAD VSTGSYSPRPTLSFSGDSSSNSDLYTPSLDMMEPASFSTMDLNEEGSDDPSVTLDLSPLSMLPHLADLVSYSIQKVIGFA KMIPGFRDLTSDDQIVLLKSSAIEVIMLRSNQSFTLDDMSWDCGSQDYKYDITDVSRAGHTLELIEPLIKFQVGLKKLNL HEEEHVLLMAICIVSPDRPGVQDAKLVEAIQDRLSNTLQTYIRCRHPPPGSHQLYAKMIQKLADLRSLNEEHSKQYRSLS FQPENSMKLTPLVLEVFGNEIS

（ビタミンＤ受容体は、核に移行する蛋白質なのでシグナルペプチドはない）

ドメインの検索

タンパク質のドメイン構造の予測-1：Pfam を使う（ドメイン検索で最も利用されている：機能ドメインを探すのに便利）

今日は、下のマウスのビタミンＤ受容体で検索します。

１） Pfam（http://pfam.sanger.ac.uk/）（イギリスのサンガー研究所）を開ける２） SEQUENCE SEARCH ボタンを押す

３）枠内にアミノ酸配列（試しに>mouse_vitamin_D_receptor）をコピーし、

submit を押す

４）みつかったドメイン構造がグラフィックで上に図示される。

５）下には各ドメインの説明が表示される。

６）一番右の Show/hide alignment を押すと、データベースに納められているドメイン配列と問い合わせ配列のアライメントが表示される

７）ドメインネーム（上のグラフィックも同様）がアクティブで、それを押すと、ドメインの説明、立体構図が表示される

８）右上のグラフィックツールのうち、crystallographic structures を押すと、みつかったタンパク質の高次構造がグラフィックで示され、詳細な構造の説明も表示される。

PBD ID を押すと、タンパク質の高次構造（アルファへリックス構造等）が表示され

る。

>mouse_vitamin_D_receptor

MEAMAASTSLPDPGDFDRNVPRICGVCGDRATGFHFNAMTCEGCKGFFRRSMKRKALFTCPFNGDCRITKDNRRHCQACRLKRCVDI GMMKEFILTDEEVQRKREMIMKRKEEEALKDSLRPKLSEEQQHIIAILLDAHHKTYDPTYADFRDFRPPIRADVSTGSYSPRPTLSF SGDSSSNSDLYTPSLDMMEPASFSTMDLNEEGSDDPSVTLDLSPLSMLPHLADLVSYSIQKVIGFAKMIPGFRDLTSDDQIVLLKSS AIEVIMLRSNQSFTLDDMSWDCGSQDYKYDITDVSRAGHTLELIEPLIKFQVGLKKLNLHEEEHVLLMAICIVSPDRPGVQDAKLVE AIQDRLSNTLQTYIRCRHPPPGSHQLYAKMIQKLADLRSLNEEHSKQYRSLSFQPENSMKLTPLVLEVFGNEIS

（ビタミンＤ受容体；核タンパク質受容体ファミリーのメンバーで、骨形成等に関与する）

終わった人は、次のタンパク質で検索してみよう：

ゼブラフィッシュ・FGF レセプター

3D 構造の予測と検索

3D 構造の予測

下記のサイト（Swiss Institute of Bioinformatics）のツールを使って、得られたタンパク質のアミノ酸配列をもとに 3D 構造を予測することが可能です。プログラムの原理は、構造の解明されているタンパク質構造データベースから配列の近いものを抽出し、配列のアライメントをもとに 3D 構造を予測します。検索の 4 つのプロセスとも、データがメールで送り返されてくる仕組みになっています。そのため、授業中に検索することは無理です。興味のある学生は各自で、試みて下さい。

http://swissmodel.expasy.org/

3D 構造データベースの閲覧 NCBIの利用

NCBI の Resource List の中にある Structure (Molecular Modelling Database)を使うと、タンパク質構造データベースに納められている 3D 構造を閲覧することができます。

↓NCBI homepage

↓Resource List から Structure (Molecular Modelling Database)を選択

↓左カラムの Searchを選択

↓Search の枠にタンパク質明を入力して検索（試しに prion, VDR で検索してみよう）

PDB (Protein Data Bank) の利用 www.pdb.org

上のアイコンから macromolecule を指定してキーワード検索（試しに prion, VDR で検

索してみよう）

3D 構造だけでなく、遺伝子の機能の解説も添えられている

NCBI blastp による検索

Blastp でデータベースを Protein Data Bank を選択して検索する（上の Protein Data Bank に登録されている高次構造の分かっているタンパク質に対して blastp 検索が行われる）

配列類似遺伝子で高次構造の解析されているタンパク質が表示される。右の Accession ボタンを押すと、データが表示される。右に 3D 構造が図示される。

演習

データベースを使って、dopamine の構造、合成系、作用機序、合成部位、合成系のノックアウトの表現型、薬剤等について情報収集する。

使用するサイト

構造：NCBI (PubChem) 合成系：KEGG

作用機序：KEGG 合成部位：ZFIN ノックアウト：MGI 薬剤：KEGG

1 月 14 日（第 14 回）

実習

Ensembl Genome Brower

— ゲノム塩基配列をデータベースから取り出す —

Ensembl Genome Brower（ゲノムデータの統括サイト）は、Sanger 研究所・EBI が管理するゲノムデータベースです。最大の特徴は、ゲノムの塩基配列を取り出すことができることにあります。ノックアウトマウスの相同組換えに用いる配列、GFP を使ったレポーター遺伝子作製用のプロモーター配列等が必要な場合に、Ensembl を使ってゲノム配列を取り出します。実習では、Ensembl の説明と実際の配列の取り出し方を教えます。

使用法１）Ensembl を使って、試しにマウスの sonic hedgehog（shh）のゲノム配列を取り出してみます。

１．下記のウェブサイトを開ける

http://www.ensembl.org/index.html (ensembl でキーワード検索) ２．生物種を指定する

マウスを選択

３．検索項目から gene を選び、遺伝子名(shh)をボックスに入れて検索

４．リストアップされてきた複数の遺伝子から、shhをクリック（ESMSUSG000000002633）する染色体上の地図が表示される

５．左側のツールボックスの中からSequenceを選択してクリック

６．配列が表示される（エクソンは赤字、エクソン間の黒字の部分はイントロン、第一エクソンより上流はプロモーター領域の一部である）

７．戻って、Location からもゲノム構造を検索することができる

８．Export data で、範囲を選択して配列を取り出すことができる（より長いプロモーター配列を取りですことができる）

使用法 2）Ensembl を使って、染色体の特定領域の配列を取り出す。

１． Location の右にあるChromosomeをクリックする

２． Location の右にあるボックスに、染色体番号と塩基番号を入力して GO : 試しに 10 番染色体、10,000,000-10,005,000 で検索してみよう

３．左の列から、Export dataを選択。オプションはデフォルトのままにして、Textを選択すると、指定した領域の塩基配列が得られる。

-転写調節領域のコンセンサス結合配列の予測-

講義

遺伝子の発現調節機構

遺伝子は、特定の細胞また時期に発現するように調節されています。例えば、ペプシノーゲンの発現は胃に限定されており、筋肉や脳では決して発現しないように制御されています。発生に関係する遺伝子のなかには、魚類の孵化酵素のように一生のうち孵化時に一度だけ発現する遺伝子もあります。このような発現調節に関する情報は、

ゲノムのコード領域ではなく、その近辺に存在する転写調節領域にコードされています（5’上流にある場合が多いが、3’下流にあるものやイントロンにある遺伝子も存在する）。具体的には、転写因子が結合するコンセンサス結合配列がその情報と言うことになります。転写因子は、ゲノムの決まった配列を認識して結合します。その配列がコンセンサス結合配列です。コンセンサス結合配列は、6-20 塩基ほどの短い配列です。転写調節領域には、複数個のコンセンサス配列が存在し、複数の転写因子が結合・

解離することにより、遺伝子の転写を精密に調節しています。講義では転写調節のメカニズムについて解説し、実習で転写調節領域のコンセンサス配列を検索します。

実習

マウスの sonic hedghog 遺伝子の 5’上流域の転写調節領域の配列をゲノムデベースから取り出し、コンセンサス結合配列を予測してみます。

コンセンサス結合配列の検索には幾つかのプログラムがありますが、実習では TFSearch を用います。

http://www.cbrc.jp/research/db/TFSEARCHJ.html

問題：マウスの sonic hedghog（shh）遺伝子の転写調節領域の配列をゲノムデータベースから取り出し、コンセンサス結合配列を予測する。

（１）最初にゼブラフィッシュの sonic hedghog 遺伝子の 5’上流域の転写調節領域の配列をゲノムデベースから取り出します。

１） Emsembl (http://www.ensembl.org/index.html)を開けます２）対象性物から mouse を選択

３）検索項目から gene を選び、shh で検索

４）検索結果のページにある shh のアクセッションをクリック

５）左側ボタンの Sequence をクリックすると、ゲノム配列が表示される

６）第１エクソン（赤字）から上流の配列（転写調節領域）をメモ帳にコピーする（-40 b あたりに TATA box (TATA(A/T)A(A/T))が存在することが分かる。その

約 40b 上流には CAAT Box (GCCAATCT)が配置する）

（２）次に、MOTIF Search を開ける

（http://www.cbrc.jp/research/db/TFSEARCHJ.html）

７）上の枠に任意の名前を入力する

８）下の枠に塩基配列をコピー、分類を脊椎動物とし、Exec をクリック

注意：コンセンサス配列は、ほとんどの場合 6-10b 程の短い配列であり、加えてある程度の配列のバリエーションを許容します。そのため予想された配列には、実際には転写因子と相互作用しない配列が高い比率で含まれます。検索結果は、目安程度に考えて下さい。実際のコンセンサス配列を同定するためには、分子生物学の技術（ゲルシフトアッセイ、ルシフェラーゼをレポーターにしたプロモーター解析等）を使って実験的に検証する必要があります。

---

次世代シーケンス解析について

次世代シーケンス解析は、この数年で実用化された DNA シークエンス解析技術で、

その原理は従来のサンガー法を基礎とした蛍光シークエンサー（電気泳動で１塩基の差で分離された DNA バンドをレーザー光を照射して蛍光検出する）とは全く異なり、

半導体の基盤に固着した DNA を１塩基の伸長反応ごとに結合した塩基を検出します。

ナノ技術により、1mm 四方で万単位のシークエンス解析が可能です。最も汎用されている Illumina 社の HiSeq200 では、1 リードのリード長は 100bp と短いですが、シーケンサーを一度動かすと（１ラン）で 20 億リードが読まれます。つまり 1 ランで、

100-200Gbp（ギガ=10 億）の配列が得られることになります（1 ランで 8 サンプル解析されるので、1 サンプルあたりの解読数は、100bp x 2.5 億リード=25Gb です。）。従来の蛍光シーケンサーでは、1 ランで 700bp のリードが 96、総計約 67kb の塩基配列が得られるのに比べると、オーダーが千万単位違います。つまり次世代シーケンサーが 1 台で、蛍光シーケンサーの千万台分の解析能力があるわけです。HiSeq200 では、ペアエンドのシークエンス解析（数 100bp の断片を両側から 100bp 読む：シングルエンドのシーケンス解析に対し、配列をコンティグに繋ぐ時に非常に有用である）

ヒトゲノムは約 30 億 bp なので、1 ランでほぼ解読可能なレベルで、現在では、個人のゲノム解読も可能なわけです。次世代シーケンサーは 1 台が 1 億円以上するため、

研究室で購入することは非現実的ですが、依頼解析が随分廉価となり、1 サンプルの解析が 30 万円程度まで下がっているため、今後は農学研究でも利用されていくことは間違いありません。農学が対象とする生物も近いうちに、全ての種のゲノム解読が終了するように思います。今後は系統間の塩基配列の違いを調べ、形質と配列との関係を解析することが重要になると思われます。

ここで注意しなければならないことは、1 サンプルあたり 100bp の配列断片が 2.5 億個得られると言うことで、その解析はとうてい人の手に負えるはずはなく、コンピューター解析の技術が必須です。ゲノムにしても cDNA の配列を読むにしても、まず最初に 100bp の配列断片から重なり合う部分を探して、配列をコンティグにつなげる必要があります。配列解析のバイオインフォマティックスは現在非常に重要になっており、まだ人材不足の状況です。

授業では、（１）次世代シーケンサーの塩基配列解読原理、（２）次世代シーケンス解析の利用方法について講義します。

ドキュメント内バイオインフォマティックス概論授業予定 (ページ 41-49)