バイオインフォマティクス第1回2018.pptx

(1)

バイオインフォマティクス

第

1 回

藤　博幸

バイオインフォマティクス

第

1回

藤　博幸

BIO

IT

(2)

配列解析

I

(3)

1.  相同配列

2.  配列アラインメント

3.  演習１ HIV 阻害薬のターゲット探索

4.  演習2　何が我々をヒトにしているのか

本日の課題

(4)

水素結合

(5)

アスパラギン酸グルタミン酸システインチロシンリジンアルギニンヒスチジンセリンスレオニンアスパラギングルタミングリシンアラニンバリンロイシンイソロイシンメチオニンプロリンフェニルアラニントリプトファン

アミノ酸は

”大文字”

で表記する

アミノ酸

C

H

N

H

R

O

H

O

C

側鎖

カルボキシル基

アミノ基

基本構造

主鎖

Arg (R)

Glu (E)

Asp (D)

Thr (T)

Cys (C)

Ser (S)

Lys (K)

Met (M)

His (H)

Phe (F)

Pro (P)

Trp (W)

Ala (A)

Gly (G)

Val (V)

Leu (L) Ile (I)

Tyr (Y)

Gln (Q)

Asn (N)

親水性

アミノ酸

解離性アミノ酸

疎水性アミノ酸

(6)

(7)

h.p://www.wdic.org/w/SCI/ペプチド結合

タンパク質は

20種類のアミノ酸がペプチド結合で

つながった紐状の分子

各アミノ酸を１文字で表現すると、一つのタンパク質

は、

20種類のアルファベットで構成された文字列

として表すことができる。

(8)

アミノ酸配列�

立体構造�

>LYC_HUMAN

MKALIVLGLVLLSVTVQGKVFERCELARTL

KRLGMDGYRGISLANWMCLAKWESGYNTRA

TNYNAGDRSTDYGIFQINSRYWCNDGKTPG

AVNACHLSCSALLQDNIADAVACAKRVVRD

PQGIRAWVAWRNRCQNRDVRQYVQGCGV

148

残基�

ヒト・リゾチームのアミノ酸配列

��

（一文字表記）�

ヒト・リゾチームの立体構造�

(9)

FASTA 形式

>LYC_HUMAN ヒト Lysozyme C

MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAK

WESGYNTRATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSAL

LQDNIADAVACAKRVVRDPQGIRAWVAWRNRCQNRDVRQYVQGCGV

“>” で始まる注釈行（通常、配列名）と

改行後に、１文字表記で塩基あるいはアミノ酸の配列を記す書式を

FASTA形式

といい、分子系統解析ばかりでなく、バイオインフォ

マティクス分野では配列の書式としてよく使われている。

前ページのように、一つのファイルに複数の

FASTA形式の

配列がおさめられている場合は、

マルチ

FASTA形式　　

とよぶ。

(10)

1.  相同配列 (homologous sequences)

(11)

相同タンパク質の形成

・

種分化��

ortholog

・

遺伝子重複

paralog

�� 機能の多様化に特に重要

分子進化�

(Molecular Evolution)

�上の機構で分岐した遺伝子に突然変異が生じる

ことで、配列が変化していくこと

�

基本ステップは

��

○ �塩基(アミノ酸)置換

��

○ �挿入/欠失��

(12)

5’ –ATTCCCGTGGTCATGTTTCGGGATGTA – 3’

置換

(subs2tu2on)

5’ –ATTCCCGTGGTCGTGTTTCGGGATGTA – 3’

5’ –ATTCCCGTGGTCATGTTTCGGGATGTA – 3’

挿入

(inser2on)

5’ –ATTCCCGTGGTCAGCTGTTCATGTTTCGGGATGTA – 3’

欠失　

(dele2on

₎

5’ –ATTCCCGTGGTCATGTTTCGGGATGTA – 3’

5’ –ATTCCCGTGGTCACGGGATGTA – 3’

挿入と欠失

はまとめて

INDEL

とよぶことも

ある。

*

(13)

α

祖先型の生物�

進化�

突然変異�

種分化�

α

生物の種分化を反映したタンパク質の増加�

10 20 30 40 50

human VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSH

::: ::.:.::::::.:.:..::::::::::: :::::::::::::.::

mouse VLS

GE

DK

S

N

I

KAAWGK

I

G

H

GA

EYGAEALERMF

A

SFPTTKTYFPHFD

V

SH

10 20 30 40 50

60 70 80 90 100

human GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKL

::::::::::::::::..:..:.::.:.::::::::::::::::::::::

mouse GSAQVKGHGKKVADAL

AS

A

AG

H

L

DD

L

P

G

ALSALSDLHAHKLRVDPVNFKL

60 70 80 90 100

110 120 130 140

human LSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

::::::::::.: ::.:::::::::::::::::::::::::

mouse LSHCLLVTLA

S

H

PA

D

FTPAVHASLDKFLASVSTVLTSKYR

20/141

110 120 130 140

(14)

突然変異

(muta2on)と置換（subs2tu2on)

突然変異は集団中の個体に生じる

※　進化に寄与するのは体細胞ではなく生殖系列

(15)

突然変異

(muta2on)と置換（subs2tu2on)

有害な突然変異は、集団から除去される

（負の選択

or

純化淘汰）

(16)

突然変異

(muta2on)と置換（subs2tu2on)

有利な突然変異は急速に集団中に広まり

集団全体がその突然変異遺伝子で置き換

(17)

工業暗化

(industrial melanism)

白と黒の体色を持つオオモリエダシャク

田園都市では淡色型の方が目立ちにくくて小鳥に捕食されずに

生き残るのに対して工業地帯では煤煙でまわりが黒くなっている

ため暗化型のほうが目立ちにくいため

19世紀後半から、ヨーロッパの工業都市が発展するにつれて、

その付近に生息するガ（蛾）に暗色の変異が増加した

(18)

(19)

突然変異

(muta2on)と置換（subs2tu2on)

中立な突然変異の頻度はランダムに浮動し

確率的に集団中に固定　（選択的に中立）

(20)

中立な変化　　　　　　自然選択

タンパク質をコードする遺伝子

における

分子レベルの変化の大部分は

中立的

(21)

(22)

突然変異

(muta2on)と置換（subs2tu2on)

個体に生じた突然変異が集団全体に広まること：

固定

(23)

EvoluQonary fate and funcQonal consequence

Gene A

duplication

Gene A'

Neofunctionalization

Subfunctionalization

Non-functionalization

(pseudogenization)

Gene A

Gene A'

Non-processed

pseudogene A

（偽遺伝子）

Gene B

Gene A''

Function A

Functions A + B

Functions A' + A'' = A

(24)

重複＋変異による

グロビン蛋白質の進化

embryonal gene

fetal gene

pseudo gene

adult gene

ε _G γ Aγ Ψ_β δ β ξ₂ Ψ_α1 Ψ_α2 α₂ α₁ θ

Chromosome 22

Chromosome11

Ｈemoglobinβ

Chromosome16

Hemoglobinα

Ψ_ξ1 Myoglobin

600-800 Million years ago

450-500 > 300 〜260 40-50 40-80(?) 100-140 〜35 150-200

＊Myoglobin：

・モノマーで機能

＊Hemoglobin：

・ヘテロテトラマー

で機能

・各発生段階で発現

するsubunitの組み合

わせを変える

↓

酸素分子との親和性

が変化し、段階に応

じた機能が微調整さ

れる

ex.)

α

₂

γ

₂

（胎児期）>

α

₂

β

₂

, α

₂

δ

₂

（成体）

４つのサブユニットが協調的に働き4分子の酸素と結合

Fundamentals of Molecular evotution, GENOMES second edition,

Molecular Biology of the Cell 4th editionを改変

●機能遺伝子の生成

(25)

ヘモグロビンα�� ヘモグロビンβ

ヒト�� ラット�� ヒト�� ラット�

ヒト、ラット

�の種分化�

遺伝子重複による

α

、βの形成�

orthologous

paralogous

祖先遺伝子�

(26)

2. 配列アラインメント　(sequence alignment)

進化の過程での

INDELを考慮しながら、相同な配列の間の

対応する塩基（あるいはアミノ酸）を同じ位置に並べる操作

あるいは、その操作によってできたもの。

INDELに対応して

ギャップ

(gap)

とよばれる空記号を挿入し

位置をずらして、塩基やアミノ酸を対応づける。

通常、動的計画法

(dynamic programing algorithm)

や、その

バリエーションを用いて、配列間の類似度が高くとなるように

アラインメントが構築される。

アラインメントの原理は次回

(27)

マルチプルアラインメント　

(mul2ple alignment)

分子系統樹を構築するには、まず複数本の相同配列

についてのマルチプルアラインメントを作成する。

(28)

リゾチームのアミノ酸配列

>LYC_HUMAN ヒト Lysozyme C MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTRATNYNAGDRST DYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVRDPQGIRAWVAWRNRCQNRDVR QYVQGCGV >LYC1_BOVIN ウシ Lysozyme C 1 MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTKATNYNPGSEST DYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVSEQGITAWVAWKSHCRDHDVSS YVEGCTL >LYC_CHICK ニワトリ Lysozyme C MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTD YGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDVQA WIRGCRL >LYC2_ONCMY マス Lysozyme C II MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQATNRNTDGSTDYGI FQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVLDPNGIGAWVAWRLHCQNQDLRSYVA GCGV >LYC_BOMMO カイコ Lysozyme MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENLMRNWVCLVEHESSRDTSKTNTNRNGSKDYGL FQINDRYWCSKGASPGKDCNVKCSDLLTDDITKAAKCAKKIYKRHRFDAWYGWKNHCQGSLPDISSC >LYSP_DROME ハエ Lysozyme P MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQLAKWTCIAQHESSFRTGVVGPANSNGSNDY GIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQRQQGWTAWSTWKYCSGSLPSINSC F �

(29)

��ヒト ��ウシ ��マスニワトリ �カイコ ��ハエ�

リゾチームのアミノ酸配列マルチプル・アラインメント

CLUSTAL W (1.81) multiple sequence alignment

LYC_HUMAN -MKALIVLGLVLLSVTVQGKVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTR LYC1_BOVIN -MKALIILGFLFLSVAVQGKVFERCELARTLKKLGLDGYKGVSLANWLCLTKWESSYNTK LYC2_ONCMY ----MRAVVVLLLVAVASAKVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQ LYC_CHICK -MRSLLILVLCFLPLAALGKVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQ LYC_BOMMO -MQKLIIFALVVLCVGSEAKTFTRCGLVHELRKHGFEENL---MRNWVCLVEHESSRDTS LYSP_DROME MKAFLVICALTLTAVATQARTMDRCSLAREMSKLGVPRDQ---LAKWTCIAQHESSFRTG : . . .:. ** *. : *. : :* * : **. * LYC_HUMAN ATNYNAGDRSTDYGIFQINSRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVR LYC1_BOVIN ATNYNPGSESTDYGIFQINSKWWCNDGKTPNAVDGCHVSCSELMENDIAKAVACAKQIVS LYC2_ONCMY ATNRN-TDGSTDYGIFQINSRYWCDDGRTPGAKNVCGIRCSQLLTADLTVAIRCAKRVVL LYC_CHICK ATNRN-TDGSTDYGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVS LYC_BOMMO KTNTN-RNGSKDYGLFQINDRYWCS--KGASPGKDCNVKCSDLLTDDITKAAKCAKKIYK LYSP_DROME VVGPANSNGSNDYGIFQINNKYWCKPADGRFSYNECGLSCNALLTDDITNSVKCARKIQR .. . *.***::***.::**. . . * : *. *: ::: : **::: LYC_HUMAN DPQGIRAWVAWRNRCQNRDVRQYVQGCGV LYC1_BOVIN E-QGITAWVAWKSHCRDHDVSSYVEGCTL LYC2_ONCMY DPNGIGAWVAWRLHCQNQDLRSYVAGCGV LYC_CHICK DGNGMNAWVAWRNRCKGTDVQAWIRGCRL LYC_BOMMO R-HRFDAWYGWKNHCQGS--LPDISSC--LYSP_DROME : ** *: * . : .* 手順

二次構造情報を重ねて表示�α helix �β strand

(30)

アミノ酸配列�

立体構造�

>LYC_HUMAN

MKALIVLGLVLLSVTVQGKVFERCELARTL

KRLGMDGYRGISLANWMCLAKWESGYNTRA

TNYNAGDRSTDYGIFQINSRYWCNDGKTPG

AVNACHLSCSALLQDNIADAVACAKRVVRD

PQGIRAWVAWRNRCQNRDVRQYVQGCGV

148

残基�

ヒト・リゾチームのアミノ酸配列

��

（一文字表記）�

ヒト・リゾチームの立体構造�

(31)

�置換や挿入/欠失は、一次構造中不均一に生じる

��

機能的制約と構造的制約（疎水コア

、

モチーフ）

��モチーフとは、相同配列間で強く保存された短い領域をさす。

��モチーフの保存は、負の選択によって維持される。

�

Motif A

Motif B

Motif C

酵素の活性中心�

多量体の

会合面�

_{側鎖のパッキングが}

疎水コア

密なため。表面近傍は

逆に置換や挿入/欠失

が生じやすい。�

保存的な領域は一次構造的には分散して

いても、三次構造上は近接している場合が

多い。

(32)

演習１

HIV阻害薬のターゲット探索

- モチーフの利用 -

(33)

セントラルドグマ

DNA

RNA

protein

転写

翻訳

逆転写

レトロウイルスを含む

レトロエレメント

(34)

(35)

ファイルの確認

RetroProtease.fasta

(テキスト形式のファイル）

ダウンロードしたものをデスクトップにおく

“メモ帳”で開いてmulQ-FASTA形式であることを確認

以下、メモ帳の開き方

(36)

1 左下　スタート　をクリック

全てのプログラムをクリック

(37)

(38)

(39)

(40)

6. 開いた　メモ帳　のメニューバーから　ファイル　を選択

7. プルダウンメニューから　開く　を選択

(41)

8. ファイル選択ウィンドウで、ファイルのあるディレクトリまで移動

　　

(ここではドキュメントdirectory)

9.  テキスト形式のファイルだが、拡張子がfastaのため認識されない。

(42)

(43)

(44)

>gi|443546|pdb|7HVP|A Chain A, Protease Of Human Immunodeficiency Virus 1

PQITLWQRPLVTIRIGGQLKEALLDTGADDTVLEEMNLPGKWKPKMIGGIGGFIKVRQYDQIPVEIXGHK

AIGTVLVGPTPVNIIGRNLLTQIGXTLNF

> HIV2 protease (NP_663784 REGION: 523..603)

vtayiedqpv evlldtgadd sivagielgd nytpkivggi ggfintkeyk nveikvlnkr

vratimtgdt pinifgrnil t

> simian immunodeficiency virus SIV-mnd 2 (NP_758887 REGION: 72..166)

slwnrpttvv eiegqkveal ldtgaddtvi kdldlkgnwk pqiiggiggs invkqffnck

vtiagkttha svlvgptpvn ivgrnvlkkl gctln

>gi|4389337|pdb|1BAI|A Chain A, Rous Sarcoma Virus Protease

LAMTMEHKDRPLVRVILTNTGSHPVKQRSVYITALLDTGADDTVISEEDWPTDWPVMEAANPQIHGIGGG

IPVRKSRDMIELGVINRDGSLERPLLLFPLVAMTPVNILGRDCLQGLGLRLTNL

>gi|224443|prf||1104339A MoMuLV protease

TLDDQGGQGQEPPPEPRITLKVGGQPVTFLVDTGAQHSVLTQNPGPLSDKSAWVQGATGGKRYRWTTDRK

VHLATGKVTHSFLHVPDCPYPLLGRDLLTKLKAQIHFEGSGAQVMGPMGQPLQVL

1. 配列は、スペースがあいていても構わないことに注意

2. Ma\は大文字も、小文字も区別せずに配列を処理してくれるが、ソフトによっては

大文字あるいは小文字しか処理できない場合があるかもしれない

マルチ

fasta形式

(45)

MAFFTによるマルチプルアラインメント

ma\は宮田研究室で開発され、加藤和貴によって継続的に

開発されているマルチプルアラインメントのフリーソフトウェア

海外の多くの研究機関で利用されている。

Web上でのアラインメントサービスに加え、ダウンロードして自身の

PC上で利用できる。Mac, Windows, Linuxなど様々なOSに対応している

ここでは、既に関西学院大学の計算システム（

_{Windows環境)にインストール}

されている

_{ma\を利用する。}

(46)

Ma>を起動する

(47)

2. 検索ウィンドウにma\と入力

(48)

(49)

4. 入力ファイルを指定するために、mulQ-fasta formatのファイルが置かれた

Directoryを表示する。（ここからはWindows OS上での処理）

(50)

5. ドキュメントdirectoryが表示される。

Directoryからma\のウィンドウにファイルをドラッグすると、ファイル名が入力

される。ファイル名が入力されたら

_{enterキーをおす。}

(51)

6. Outputすなわち、アラインメントを出力するファイル名を聞かれる、入力

ファイル名を参考に

Zドライブ上のファイル（新規でも既存の者でも良い）を指定し

Enterキーをおす。出力オプションを聞いてくるので2を指定する。

(52)

7. アラインメントのオプションを聞いてくる。1の—autoオプションを指定

して

enter

autoオプション

　小規模データ丁寧に、大規模データそれなりにアライン

(53)

t7

8. 指定したファイルやオプションを、コマンドライン形式で確認してくる

問題なければ　

Y を入力してenter

(54)

9. ウィンドウ中に、出力が表示

(55)

(56)

LUSTAL format alignment by MAFFT L-INS-i (v7.130b) gi|443546|pdb|7 PQITLW---QRPLVTIRIGGQL---KEALLDTGADDTVLEEMNLPG HIV2 ---VTAYIEDQP---VEVLLDTGADDSIVAGIELGD simian ---SLW---NRPTTVVEIEGQK---VEALLDTGADDTVIKDLDLKG gi|4389337|pdb| LAMTMEHK---DRPLVRVILTNTGSHPVKQRSVYITALLDTGADDTVISEEDWPT gi|224443|prf|| ---TLDDQGGQGQEPPPEPRITLKVGGQP---VTFLVDTGAQHSVLTQNPGPL : . *:****:.::: gi|443546|pdb|7 KW---KPKMIGGIGGFIKVRQ---YDQIPVEIXGHKAIGTVL----VGPTPVNIIGR HIV2 NY---TPKIVGGIGGFINTKE---YKNVEIKVLNKRVRATIM----TGDTPINIFGR simian NW---KPQIIGGIGGSINVKQ---FFNCKVTIAGKTTHASVL----VGPTPVNIVGR gi|4389337|pdb| DWPVMEAANPQ-IHGIGGGIPVRKSRDMIELGVINRDGSLERPLLLFPLVAMTPVNILGR gi|224443|prf|| SD---KSAWVQGATGGKRYRW---TTDRKVHLATGKVTHSFLH---VPDCPYPLLGR . .. : * * : : : ..: . * :.** gi|443546|pdb|7 NLLTQIGXTLN---F HIV2 NILT---simian NVLKKLGCTLN---gi|4389337|pdb| DCLQGLGLRLT---NL gi|224443|prf|| DLLTKLKAQIHFEGSGAQVMGPMGQPLQVL : *

Clustal形式

のアラインメント

強く保存しているセグメント（モチーフ）が２ケ所見いだされる

(57)

Clustal形式アラインメント下段のシンボルの意味

“*”では，完全に保存 

“:”では，強い物理化学的類似性のあるグループで保存  

“.”では，弱い類似性のあるグル―プで保存 

強い弱いの基準は，

_{PAM250 行列において，アミノ酸間のスコアが0.5よ}

り大きいか，

_{0.5以下かで分けている}

PAM250行列については次回説明

(58)

Clustal形式：

後述

コマンドライン入力の場合：

–reorder

Fasta形式

：

コマンドライン入力の場合：デフォルト

Sorted Order:

アラインメントした際、近縁なもの

(guide tree上で

近い順番、

guide treeについて次回）を近くに配置

するように配列の順番を変更

コマンドライン入力の場合：

--reorder

Input Order:

Fasta形式の入力ファイルに入っている順番で

アラインメント中の配列が配置される

コマンドライン入力の場合：デフォルト

(59)

(60)

(61)

レトロウイルス・プロテアーゼのコンセンサス配列�

�

(Hydrophobic)-Asp-Thr-Gly-(Small Hydrophilic)�

�

(62)

(63)

(64)

　　　　　　検証

X 線結晶構造解析からHIV プロテアーゼは酸性プロテーゼと類似の構造である。

_{M. Miller et al. Science 246, 1149 (1989).}

��　実験

[1] 既知酸性プロテアーゼの立体構造を鋳型としたHIV プロテアーゼの

ホモロジー・モデリン

グ

_{L.H. Pearl and W.R. Taylor, Nature 329, 351 (1987).}

[2] 酸性プロテーゼ阻害剤（ペプスタチン）によるHIV プロテアーゼの阻害

R.F. Nutt et al. Proc. Natl. Acad. Sci. USA 85, 7129 (1988).

P.L. Darke et al. J. Biol. Chem. 264, 2307 (1989).

�� 予測

レトロウイルスのプロテアーゼは酸性プロテアーゼである。

H. Toh et al. EMBO J. 4, 1267 (1985)

H. Toh et al. Nature 315, 691 (1985)

(65)

(66)

実験可能で信頼性のある仮説を構築

バイオインフォマティクスの一つの役割

実験にかかるコスト（時間、金）を削減

(67)

演習

2 何が我々をヒトにしているのか

FOXP2の解析

(68)

ヒトゲノムとチンパンジーゲノム

ゲノム配列は

_{97% 一致}

(69)

脊椎動物あるいは哺乳類の進化の過程では保存されているが、

ヒトではその配列が予想以上の速度で変化している遺伝子

あるいはタンパク質が候補

◎

　

non-coding RNA HAR1F

(HAR = human accelerated region)

大脳新皮質の発生の過程で特異的に発現

◎

　

alpha-tectorin

内耳の被蓋膜に局在するタンパク質

変異により先天性難聴

ヒト特異的な会話の発達に関与する可能性

(70)

◎　

FOXP2

ヒトの会話に関する遺伝子として同定

KEファミリー：動詞や名詞などの屈折形態素（-ed,-es)などの産出

に特異的な言語障害。三世代

20数人にわたって調査。

七番染色体の

FAXP2の欠損が原因として同定

正高信男、辻幸夫

(2011)

“ヒトはいかにしてことばを

獲得したか

_{”　大修館書店}

より

(71)

FOXP2は転写因子（transcripQonfactor)

DNAに結合して、他の遺伝子の転写を制御

R533H DNA結合ドメインの変異

R328X ナンセンス変異　

　　　　　終止コドンが形成されることで、タンパク質の

　　　　　生合成が途中でとまってしまう

FOXP2が発現を制御している遺伝子の一つ

CNTAP2 (contacQn associated protein like 2)

CNTAP2の変異: 無意味な言葉を繰り返すことが困難

(72)

かつては

FOXP2は「文法遺伝子」と言われていた。

(1) FOXP2は脊椎動物に広く分布している

シナプス可塑性や神経の発達に関与

(1) 文法というより、コンテキスト情報を加味して発話の内容を

理解することや発話や運動能力に関わる。

「コンテキスト情報を加味して発話の内容を理解」とは？

「あなたは賢いですね」と言われた時、字義通りなのか、

皮肉なのかを、前後の文脈から理解

「文法遺伝子」は言い過ぎだが、人間のコミュニケーションに

関わる遺伝子であることは間違いない

(73)

FOXP2のどこがヒトと他の動物と異なっているのか？

　　我々を他の動物と（言語に関して）区別する変異の候補

　　をみつけたい

アラインメントから他の動物の

FOXP2では保存しているの

ヒト

FOXP2のみで変化しているサイトを候補として同定

(1)  FoxP2.fastaをダウンロードして、デスクトップにおく

(2)  メモ帳でFoxP2.fastaがマルチFasta形式であることを確認

(3) Ma\でマルチプルアラインメントを作成し、Clustal形式で

ファイルに保存

(4) 得られたアラインメントをメモ帳で開いて、上記サイトを確認

(74)

CLUSTAL format alignment by MAFFT L-INS-i (v7.130b) human MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-GDTSSEVSTVELLHLQQQQAL chimp MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-GDTSSEVSTVELLHLQQQQAL macaque MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-GDTSSEVSTVELLHLQQQQAL cat MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-GDTSSEVSTVELLHLQQQQAL boar MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-GDTSSEVSTVELLHLQQQQAL chicken MMQESATETISNSSMNQNGMSTL-GSQLDAGSRDGRSS-GDTSTEVSTVELLHLQQQQAL Anolis MMQESATETISNSSMNQNGMSTL-SSQLDASSRDGRSS-GDTGTEVSTVELLHLQQQQAL Xenopus MMQESATETISNSSMNQNGMSTL-SSQLDAGSRDGRSS-SDTSSEVSTVELLHLQQQQAL zebrafish MMQESANETISNSSMSQNGMSSL-SSQLDAGSRDGRSS-GETSSEVSAVELLHLQQQQAL fugu MMQESATETISNSSMSQNGMSTLSSSQLEAGSRDGRSSAGDTSSEVSTVELLHLQQQQAL ******.********.*****:* .***:*.******* .:*.:***:************ human QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL chimp QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL macaque QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL cat QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL boar QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL chicken QAARQLLLQQQTSGLKSPKGTDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL Anolis QAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQL Xenopus QAARQLLLQQQTSGLKSPKNNEKQRPLQVPVSMAMMTPQVITPQQMQQILQQQVLSPQQL zebrafish QAARQLLLQQPGSGLKSPKNNDKQRPLQVPVSVAMMSPQVITPQQMQQILQQQVLSPQQL fugu QAARQLLLQQPGSGLKSPKSQDKQRPLQVPVSVAMMSPQVITPQQMQQILQQQVLSPQQL ********** *******. :**********:***:***********************

(75)

human KH---GGLDLTTNNSSSTTSSNTS-KASPPITHHSIVNGQSSVL-SARRD--chimp macaque KH---GGLDLTTNNSSSTTSSTTS-KASPPITHHSIVNGQSSVL-NARRD--cat KH---GGLDLTTNNSSSTTSSTTS-KASPPITHHSIVNGQSSVL-SARRD--boar chicken Anolis KH---GGLDLTTNNSSSTTSSTTS-KASPPITHHSIVNGQSSVL-NARRD--Xenopus KH---GGLDLTTNISSSTTSTTTS-KASPPITHHSLLNGQASVL-SARRD--zebrafish KH---SGLDLSTNNNTSTTSTSNP-KASPPITHHSMSNGQSPALNNNRRE--fugu KHNSSGSTGGGNGGGLDLSTNNSSSTTSSSNPAKASPPLSHHSIANGQSPIL-NHRRERE ** .****:** .:****:... *****::***: ***:. * . **:

　

二つの候補サイトが選ばれる

T303N 　魚類ではS

N325S ネコとアフリカツメガエルは例外だが強く保存

FoxP2の構造はDNA結合ドメインしか決定されていないので、構造上の表示

は行わない（行えない）

(76)

マウスの

FOXP2で、この２つのサイトをヒトのアミノ酸に

変化させた実験が行われた。

ミッキーマウスは生まれなかった

しかし、大脳基底核

(basal ganglia, 運動制御や学習に関与)の

線条体

(striatum)中のmedium spiny neuron (spiny neuron =

有棘細胞、

MS細胞とよばれる。GABAを伝達物質とする抑制性

ニューロン）の樹状突起の長さやシナプス可塑性が増大していた。

(Enard et al. 2009)

この観察とヒトの言語能獲得との関係は不明

(77)

(78)

(79)

点数

(4) 100-90

(3) 89-80

(2) 79-70

(1) 69-60

達成目標

(3)に加え、レトロウイルスのプロテアーゼの触媒機構を、モチーフを使ってどのように推測したかを説明できる。 FoxP2に関して、ヒトを特徴付けるサイトをアラインメントからどのようにして見つけたかを説明できる。 (2)に加え、 MulQ FASTA形式、 Clustal形式について説明できるアラインメントツール_{ma\の使い方} について説明できる。 Ma\を使ってアラインメントを作成できる。 (1)に加え、　アラインメントについて説明できる。モチーフとは何か、モチーフと立体構造の関係、モチーフの保存が負の選択により維持されることを説明できる相同、オーソロガス、パラロガス、種分化、遺伝子重複について説明出来る遺伝子重複後の p_{seudogenizaQon,} neofuncQonalizaQ on, subfuncQonalizaQo nについて説明できる。突然変異と置換、負の選択、正の選択、中立、分子進化について説明できる。

バイオインフォマティクス第1回2018.pptx

バイオインフォマティクス

第

1

回

藤 博幸

バイオインフォマティクス

第

1回

藤 博幸

BIO

IT

配列解析

I

1. 相同配列

2. 配列アラインメント

3. 演習１ HIV 阻害薬のターゲット探索

4. 演習2 何が我々をヒトにしているのか

本日の課題

水素結合

アミノ酸は

”大文字”

で表記する

アミノ酸

C

H

H

N

H

R

O

H

O

C

側鎖

カルボキシル基

アミノ基

基本構造

主鎖

Arg (R)

Glu (E)

Asp (D)

Thr (T)

Cys (C)

Ser (S)

Lys (K)

Met (M)

His (H)

Phe (F)

Pro (P)

Trp (W)

Ala (A)

Gly (G)

Val (V)

Leu (L) Ile (I)

Tyr (Y)

Gln (Q)

Asn (N)

親水性

アミノ酸

解離性アミノ酸

疎水性アミノ酸

h.p://www.wdic.org/w/SCI/ペプチド結合

タンパク質は

20種類のアミノ酸がペプチド結合で

つながった紐状の分子

各アミノ酸を１文字で表現すると、一つのタンパク質

は、

20種類のアルファベットで構成された文字列

として表すことができる。

アミノ酸配列�

立体構造�

>LYC_HUMAN

MKALIVLGLVLLSVTVQGKVFERCELARTL

KRLGMDGYRGISLANWMCLAKWESGYNTRA

TNYNAGDRSTDYGIFQINSRYWCNDGKTPG

AVNACHLSCSALLQDNIADAVACAKRVVRD

PQGIRAWVAWRNRCQNRDVRQYVQGCGV

148

ヒト・リゾチームのアミノ酸配列

藤　博幸

藤　博幸

1.  相同配列

2.  配列アラインメント

3.  演習１ HIV 阻害薬のターゲット探索

4.  演習2　何が我々をヒトにしているのか

��

FASTA形式　　

1.  相同配列 (homologous sequences)

種分化��

�� 機能の多様化に特に重要

��

��

欠失　

₎