Microsoft PowerPoint - バイオインフォマティクス2017_01P.ppt

(1)

1

バイオインフォマティクスとは

?

第

1回配付資料

バイオインフォマティクスとは

?

_?

第

1 ₁

回配付資料

2018/02/15 金沢大学金沢大学医薬保健研究域薬学系医薬保健研究域薬学系

髙橋広夫

2017年度バイオインフォマティクス第1回 2

バイオインフォ演習

レポートについて

3

課題

①次世代シーケンサーのデータにバイオインフォマティクスを応用した研究の成功例を、原著論文(出典)を示しつつ、概説せよ。(A4 約4ページ)(コピペ不可。写真はコピペ可だが、引用をきちんと示すこと) ②動植物でバイオインフォマティクス成功例について、バイオインフォマティクスの必要性が分かるような形で、原著論文(出典)を示しつつ、概説せよ。(ただし、動物の研究A4 2ページ＋植物の研究A4 2ページ) 半角のアンダーライン半角の数字半角のアンダーライン ※課題はメールで高橋<[email protected]>へ送る。 (メール提出の際は、タイトル「バイオインフォマティクス演習1_学籍番号(半角)_名前(全角)」) 「Bioinfo20180228_学籍番号(半角)_名前(全角).doc」という名前で添付) メール本文に・相手の名前を書きましょう・自分の名前を名乗りましょう・要件を書きましょう・ファイル名は、指定通りに・タイトルも指定通りに最終日2/28まで に提出!! 4

講義の前に

5

講義の資料置き場

Internet Explorerを起動しGoogleを使って「高橋広夫」で検索 2ページ目ぐらいにあるかも Googleか確認 (bingではない) 6 「講義の資料置き場」をクリック

講義の資料置き場

(2)

7

講義の資料置き場

バイオインフォマティクス

をクリック

8

統合メールのマナー

(課題をメールで提出して

もらう場合があるので

)

9

課題をメールでだす場合に

メール本文に

・

相手の名前

を書きましょう

・

自分の名前

を名乗りましょう

・

要件を書きましょう

・

ファイル名は、指定通り

に

・

タイトルも指定通り

に

他の講義や一般的な共通ルールです

10

千葉大学統合メール

(署名作成)

①ツールを選択 ②署名管理 ③新規作成 11

千葉大学統合メール(署名作成)

①設定名(適当) ・応用生命化学科・応用生命化学科・学籍番号・学籍番号・氏名・氏名は必須!! 「千葉大学」や「学年」は書いた方がベター 12

千葉大学統合メール(プロフィール作成)

①ツールを選択 ②プロフィール管理 ③新規作成

(3)

13

千葉大学統合メール(プロフィール作成)

①プロフィール名(適当) ③自分の名前(正確に) ②チェック ④自分の統合メールアドレス ⑤先ほど自分で作った署名を選択 ⑥OK 14

千葉大学統合メール(メール作成)

メール作成 15

千葉大学統合メール

(メール作成)

プロフィール確認署名確認 16

千葉大学統合メール

(転送)

②転送 ①ツールを選択 ③新規作成 17

千葉大学統合メール(転送)

設定名(任意) 18

バイオインフォマティクスの意義

生物実験結果生物酵母ヒト植物解析(生物統計 ・生物情報処理) 結論新事実の発見発表(報告書・学会発表・論文発表・新聞での発表) ウェブツール・データベース・統計処理ソフト(R)・Excel 解釈マウス

(4)

19

生物統計学

生物学

(Biology)

統計学

(Statistics)

＋

生物統計学

(Biostatistics)

20

生物統計学の必要性

×10匹 7匹完治疾患マウス薬剤A投与薬剤Aの有効率は70%と言っていいのか？？ 10 10匹の疾患マウス匹の疾患マウスの有効性は70% 疾患マウス全体の有効性は70%とは言えない 21

生物統計学の必要性

疾患マウス全体(∞匹)

標本

(sample) (sample) 10匹の疾患マウス統計的推測母集団 (population) 推定検定 22

検定の必要性

血圧降下剤A コントロール (処置無し症例) 血圧血圧降下剤B それぞれの患者見た目でなんとなく効いてそう微妙！！血圧降下剤AとBの効果を統計的に、判定する(客観的に) 生物実験の解釈には、統計は不可欠である！！ 23

生物統計学とバイオインフォマティクス

バイオインフォマティクス

(Bioinformatics)

生物統計学

(Biostatistics)

生物統計手法だけで十分か？生物学を勉強するものにとって、統計手法を使いこなす必要がある (最低限理解できていれば、深いところまで知っている必要はない) 生物実験を解釈するためには、生物統計学だけでなく、バイオインフォマティクスの手法を使いこなすことが大事 24

バイオインフォマティクス

生物学

(Biology)

情報学

(Informatics)

＋

バイオインフォマティクス

(Bioinformatics)

(5)

25

情報学と統計学

情報学確率を基礎にして,不確実性を含むデータから, 一定の確実さをもった判断を下す学問統計学情報をどのように扱うかについて考え研究する学問ニューロンを数学的に模倣帰無分布例: 検定・推定例: ニューラルネットワークパターン認識、データマイニング応用生命化学科の皆さんにとって手段の一つ(車の原理を知らなくても運転可) PCRやウエスタンブロットなど生化学的な手段と同じ(目的では無い) x1 x2 x3 xn w2 w1 w3 wn 入力出力ニューロンモデル w = 結合係数 f = 出力関数 O f 0.00 0.10 0.20 0.30 0.40 -3 -2 -1 0 1 2 3 f(x) x 26

バイオインフォマティクスが生まれた時期

PubMed

米国国立バイオテクノロジー情報センター (National Center for Biotechnology Information: NCBI)

国立衛生研究所(National Institutes of Health: NIH) の下の

国立医学図書館（National Library of Medicine： NLM) の一部門世界約85ヶ国、約5600誌の文献を検索することのできる医学・生物文献データベース 27

バイオインフォマティクスが生まれた時期

なぜPubMed!? バイオの最新情報はすべてPubMedに集まる

PubMed

本など、情報として古い！！ (日本語の本なら尚更) http://www.ncbi.nlm.nih.gov/pubmed/ 医療・生物系の論文検索サイト(英語) Googleで「PubMed」で検索すれば見つかる PubMedで “Bioinformatics”[Title/Abstract] で検索する 14,361件の論文がヒット 28

バイオインフォマティクスが生まれた時期

PubMed

14,361件の論文がヒットもっとも初期の論文

Beltrame F, Tagliasco V. "Confocal microscopy and cellular bioinformatics.", Cytotechnology. 19931993;11 Suppl 1:S72-4. 研究成果として論文になるまで1-5年はかかる 1990年前後にバイオインフォマティクスが生まれた 29

バイオインフォマティクスが生まれた時期

1980年8月 EMBL(欧)データライブラリー設立 1982年9月 GenBank(米) 設立 1983年7月ウイルスのがん遺伝子とヒト遺伝子との相同性の発見 199?年 bioinformaticsが、生物情報科学と訳される 1981年3月 Smith-Waterman アルゴリズム発表 1984年4月 DDBJ(日) 設立 1985年3月 FASTA アルゴリズム発表 1990年10月 BLAST アルゴリズム発表 1997年9月 BLAST2 アルゴリズム発表 1991年8月 WWW (World Wide Web) 登場

30

補足: PubMedの使い方

＋

• GoogleでPubMedをサーチ

(6)

31

補足: PubMedの使い方

キーワードを入力して右の「Search」をクリック使い方は、Googleとほぼ同じ(キーワードを入力して検索) 例: gene bioinformatics • PubMedのトップページ 32

補足: PubMedの使い方1

• geneとbioinformaticsの２つのキーワードの検索結果 Total Total 105071050744 論文論文論文論文11 論文論文22 論文論文33 論文のタイトル(ここをクリックすると詳細が表示) 論文の著者 33

1990年前後までの生物学

1970年-1980年塩基配列ATCGを決定する技術の発達セントラルドグマ (1958年にクリックが提唱した分子生物学の概念) DNA 複製 RNA タンパク質転写翻訳遺伝情報遺伝情報 34 バイオインフォマティクスを説明する前に・・・ヒトゲノム計画アメリカエネルギー省(DOE) 国立衛生研究所(NIH) 30億ドルの予算 1990年10月 6か国24機関米国:59% 英国:31% 日本: 6% 貢献度 1991年から参加ドラフト 2000年6月正式版 2003年4月ヒトゲノム 28億6千万塩基対 (99%)

塩基が分かっただけ

ヒトゲノム計画

創薬・生命現象解明

？

35

補足: ゲノム上でシーケンス困難な領域

染色体テロメア(Telomere) セントロメア(Centromere) 独自のリピート配列を持ち決定困難 36 開始コドン終止コドンアミノ酸翻訳転写 _ORF

GAATATGAACAGCATCGC CTAAAATGC CTTATACTTGTCGTAGCGGATTTTACG GAAUAUGAACAGCAUCGCCUAA AAUGC

網羅的な生物情報

約30億塩基対約3万遺伝子約10～20万種類ゲノム(Genome) トランスクリプトーム (Transcriptome) プロテオーム (Proteome) 疾患部位v.s. 正常組織ヒトv.s. サル患者v.s. 健常人 DNA DNA mRNA mRNA タンパク質タンパク質 mRNA mRNAやタンパク質タンパク質の測定技術の進歩測定技術の進歩による膨大なデータ膨大なデータ違い違いメカニズムの解明メカニズムの解明

(7)

37

網羅的な生物情報とバイオインフォマティクス

ゲノム膨大な生物情報  ゲノム情報  遺伝子発現情報  タンパク質発現情報 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 バイオインフォマティクスバイオインフォマティクス生物酵母マウスヒト植物解析 38

バイオインフォマティクスとその拡大

初期の初期のバイオインフォマティクスゲノム・配列情報現在の現在のバイオインフォマティクスゲノム・配列情報だけでなく、生物情報一般生物物理学バイオインフォマティクス物理化学的シミュレーション立体構造データ解析以前、バイオインフォマティクスと呼ばれなかった分野もバイオインフォマティクスにタンパク質の立体構造一例一例 39

バイオインフォマティクスとその拡大

生物をモデル化(細かいところは無視) オミックス情報から生物をシステムとして理解する生物をシステムとして理解する数理生物学システムバイオロジーオミックス Omics ジーノム(発音) ゲノム(Genome) トランスクリプトーム(Transcriptome) プロテオーム(Proteome) メタボローム(Metabolome) フェノーム(Phenomeome)

バイオインフォマティクス 40

バイオインフォマティクス概観

 配列解析(塩基配列・アミノ酸配列・アライメント)  タンパク質構造解析  相互作用解析(遺伝子相互作用・タンパク質相互作用)  発現解析(遺伝子発現・タンパク質発現)  医療統計(基礎統計、オッズ、生存解析)  多型解析(SNP、CNV)  パスウェイ解析 41

データベースとは？

 特定のテーマに沿ったデータを集めて管理生物情報データベース主に、web上で構築されている。 • ゲノム情報 • 遺伝子発現情報 • タンパク質発現情報 • 代謝ネットワーク • タンパク質構造  容易に検索・抽出などの再利用可能  コンピュータによって実現されたもの(狭義) 各国(各研究機関) がそれぞれ構築統合した大規模なデータベース 42  ゲノム情報(塩基配列)データベース

データベースとは？

(DNA Data Bank of Japan: DDBJ)

GenBank

国立遺伝学研究所 (National Institute of Genetics: NIG)

欧州バイオインフォマティクス研究所（European Bioinformatics Institute : EBI）

米国国立バイオテクノロジー情報センター (National Center for Biotechnology Information: NCBI)

INSDC

(International Nucleotide Sequence Database Collaboration)

三大国際塩基配列データバンク

(European Molecular Biology Laboratory

(European Molecular Biology Laboratory--Bank : EMBLBank : EMBL--Bank) Bank)

1500億塩基ヒト:約30億塩基

(8)

43 DDBJの登録総塩基数の推移 199 6 199 8 (bp) 図1 DDBJの登録総塩基数の推移指数関数的? 44

データベース(DB)とは？

特許・論文

研究

世界で誰もやってないことを行う

応用・製品化

データベースへの登録がほぼ義務化生物情報のデータベースの多くは個々の研究者が登録したデータ正しさは、誰も保証しない。ほとんどのDBは無料。有料のものも存在する。  ゲノム情報(塩基配列)データベース一般の研究者が登録・・・何故？ 45  タンパク質(アミノ酸)配列データベース

データベースとは？

PIR: Protein Information Resource

• タンパク質／アミノ酸配列データベースをもつ重要サイト

PRF: Protein Research Foundation wwPDB : Worldwide Protein Data Bank

• 国際的なタンパク質／アミノ酸配列データベースサイト UniProt (SWISS-PROT と TrEMBL が合併)

• SWISS-PROTは、研究者が人手でハイレベルのアノテーション（付加情報）をつけたタンパク質／アミノ酸配列データベース • TrEMBLは、コンピュータにより自動でアノテーション（付加情報）をつけたタンパク質／アミノ酸配列データベース • 蛋白質研究奨励会が提供しているアミノ酸配列データベース • タンパク質と核酸の3次元構造を蓄積している国際的なデータベース UniProt • SWISS-PROTに吸収された • オンライン情報検索等が可能 • PDBに蓄積されている構造データは、実験的に決定されたデータ 46  塩基配列・アミノ酸配列のデータベース検索

データベースとは？

BLAST (Basic Local Alignment Search Tool) バイオインフォマティクス手法の一つ DNAの塩基配列あるいはタンパク質のアミノ酸配列のアライメントを行うためのアルゴリズムもしくはプログラムあとで説明日本では、国立遺伝学研究所がDDBJ等を検索するツールとして公開検索できる事が重要 47

データベースとは？

何が出来るか？ • blastn(塩基配列 × 塩基配列データベース)  塩基配列・アミノ酸配列のデータベース検索

BLAST (Basic Local Alignment Search Tool)

• blastx(塩基配列[アミノ酸配列] × アミノ酸配列データベース) • tblastx(塩基配列[アミノ酸配列] × 塩基配列データベース[アミノ酸配列]) • tblastn(アミノ酸配列 × 塩基配列データベース[アミノ酸配列]) • blastp(アミノ酸配列 × アミノ酸配列データベース) クエリ配列 48

データベースとは？

図で表すと 塩基配列塩基配列データベース DDBJ EMBL GenBank  アミノ酸配列データベースアミノ酸配列 UniProt PRF wwPDB アミノ酸配列アミノ酸配列塩基配列塩基配列検索したいアミノ酸配列アミノ酸配列(翻訳) アミノ酸配列アミノ酸配列翻訳翻訳  塩基配列・アミノ酸配列のデータベース検索 BLAST (Basic Local Alignment Search Tool)

(9)

49 生物

データベースとは？

何がうれしいの？ GAATATGAA RGD 興味ある塩基配列興味あるアミノ酸配列 BLAST BLAST  既知遺伝子の一部であると判明  塩基配列・アミノ酸配列のデータベース検索

BLAST (Basic Local Alignment Search Tool)

 異種の生物で機能を推測酵母マウスヒト植物 50  タンパク質構造データベース

データベースとは？

wwPDB : Worldwide Protein Data Bank

• タンパク質と核酸の3次元構造を蓄積している国際的なデータベース３次元構造データベースなのでそのままでは、数値の羅列視覚化ソフトが必要 • PDBに蓄積されている構造データは、実験的に決定されたデータ • RCSB PDB(米)、MSD-EBI(欧)、PDBj(日本)の三つの組織で運営 51

データベースとは？

 タンパク質立体構造データ PDB IDコードどの座標にどの原子があるか分かる 52  タンパク質構造データベース

データベースとは？

視覚化ソフトが必要 RasMolによるタンパク質の3次元構造の視覚化 53  タンパク質構造データベース

データベースとは？

どんな視覚化ソフトがあるか？ RasMol • Rasmolベース • 高速なアルゴリズムを実装(安価なPCでも表示可能) Chime 有り水分子が進入できない領域を埋める PyMOL • 高画質(OpenGLを使用) 分子表面表示無し • 多機能(コマンド操作で操作は煩雑) • 分子表面の表示は出来ない • ブラウザ(IE等)内で使うプラグイン • 分子表面表示が可能 • 機能拡張可能原子原子 54

分子表面表示

有り水分子が進入できない領域を埋める分子表面表示無し原子原子他の分子と相互作用する場所の同定に有効

(10)

55

データベースとは？

 代謝ネットワークデータベース

KEGG (Kyoto Encyclopedia of Genes and Genomes) 京都遺伝子ゲノム百科事典 • バイオインフォマティクス研究用のデータベース • 遺伝子、タンパク質、代謝やシグナル伝達などの分子間ネットワークに関する情報を統合したデータベース • 京都大学化学研究所の金久教授らによるプロジェクト(1996年) • 二項関係に基づいた情報として整理代謝物代謝物 56

データベースとは？

代謝物例: グルタミン酸代謝マップ酵素反応  代謝ネットワークデータベース

KEGG (Kyoto Encyclopedia of Genes and Genomes)

詳しく見てみる 57

データベースとは？

2-オキソグルタルアマート α-ケトグルタル酸コハク酸フマル酸リンゴ酸オキサロ酢酸クエン酸クエン酸回路 ( TCA回路 ) ( クレブス回路 ) KEGGのこのような反応経路の集合体 58

配列解析

59

配列比較と生物の進化

相同性検索類似性のある配列を同種・異種のゲノムからサーチ

 進化

マウスヒト共通祖先突然変異突然変異突然変異似ている配列似ている配列とその起源その起源は？？ ①種分化による相同タンパク生成オルソログ（ortholog) ₆₀

配列データベースとクエリ配列

 クエリ配列とは？？ Query (質問) DB(データベース) ATCGATCGAT こんな配列があるか？ ATCGATCGAT

DBに問い合わせる配列の事

完全一致配列あり ATCGTATCGAT 類似配列ありクエリ配列

(11)

61

配列データベースとアライメント

 アライメントとは？？ Alignment (整列) GCGAATCGATCGATTTCGCAGCAATGCGTTT GGGGGGGGCCCCATCGATCGATGGCGCGGG クエリ配列 DB配列アライメント前 GCGAATCGATCGATTTCGCAGCAAT GGGGGGGGCCCCATCGATCGATGGCGCGGG クエリ配列 DB配列アライメント後似ている配列を隣り合うように整列させること ₆₂

配列比較とアライメント

ATCGATCGAT サーチしたい配列検索したいデータベース CCCCATCGATCGATGGGG 完全一致 CCCCATCGTATCGATGGGG ATCGATCGAT 部分一致 4の10乗=105万種類偶然で一致する可能性は高くない (より長い配列なら尚更) 何か意味があるクエリ配列 10塩基 63

ギャ

ッ

プ

配列比較とアライメント

ATCGATCGAT

CCCC

ATCG

T

ATCGAT

GGGG

 ギャップとアライメント

ATCG

ヘモグロビンαのアライメントの例

サーチしたい配列データベース配列 1個余分な塩基がある

ATCGAT

－

ギャップを入れることで余分な配列がある場合もアライメントが可能 64

配列比較と生物の進化

 ヘモグロビンαのアライメントヒトとマウスのアミノ酸比較アミノ酸レベルでは、ほとんど同じ。アライメントでそれが判明 65

配列比較と生物の進化

②遺伝子重複による相同タンパク生成突然変異祖先配列配列1 配列2 遺伝子重複配列1 _配列2’ 同一アミノ酸変化機能変化祖先タンパク質から機能が多様化した複数の相同タンパク質が生成パラログ(paralog) 66

γ

②遺伝子重複による相同タンパク生成の例

配列比較と生物の進化

 ヘモグロビン(4量体)

γ

α

β

α

胎児の血液中成人の血液中ヘモグロビンにはα、β、γサブユニットがあり、相同タンパク質である酸素運搬能力が高い

(12)

67 補足

配列比較と生物の進化

偽遺伝子(pseudogene: シュードジーン) 進化の過程で機能を失った遺伝子遺伝子遺伝子A A ゲノム遺伝子重複遺伝子重複ゲノム遺伝子遺伝子A A 遺伝子遺伝子A A ゲノム遺伝子遺伝子A A 偽遺伝子偽遺伝子機能無し突然変異 68

配列比較と生物の進化

• グローバルアライメント

MI-GMITG

MITGM-TG

 アライメントは、相同タンパクを発見するための手段

MIGMITG---MITGMTG

例: 2つのアミノ酸配列MIGMITGとMITGMTGのアライメントローカルアライメントグルーバルアライメント • ローカルアライメント 69

アルゴリズム

(言葉の定義)

 アルゴリズムとは？？  なんらかの問題を解くための手順手順のことである  対応する日本語は「算法（さんぽう）」例: 数学的帰納法のアルゴリズム自然数全体に関する命題P(n) (n∈N) が真であることを証明 ①P(0) は真である。 ②任意の自然数k に対し，P(k) が真であれば，P(k+1) も真である。よって任意の自然数n について P(n) は真である。 70

配列解析アルゴリズム

 ダイナミックプログラミングによるアライメント最適化とは？

アライメント問題

経路最適化問題

I

A

M －

S

A

－

M O

S

a b d c e L(b,d) L(b,e) L(c,e) L(a,c) L(a,b) 71

配列解析アルゴリズム

 ダイナミックプログラミングによるアライメント最適化とは？

部分問題に分解

経路最適化問題

ダイナミック・プログラミングの原理

アライメント問題

経路最適化問題

72

ダイナミックプログラミング

 ダイナミックプログラミングとは？？ adへの最短ルートを求めたい候補は２通りある a b d c e a b d a c e b d ｂｂは絶対に通る部分問題に分解 abb と bbd ① ②

(13)

73  ダイナミックプログラミングとは？？ a b b d a c e b b d a b b d a c e b b d b b b b ＋＋ ① ② この範囲で最短ルートであれば adへのルートでも最短 ① ② 問題の分割ダイナミックプログラミングの原理同じ最短ルート最短ルート全体として最短ルート

ダイナミックプログラミング

74 上の文字列にギャップ左の文字列にギャップ最短。ただし、上左が要一致

配列解析アルゴリズム

 アライメント問題から経路最適化問題へ A A I I M M S S AIMS

AIMSとAMOSAMOSの配列のアライメント

A A S S O O M M 経路問題 75 上の文字列にギャップ左の文字列にギャップ最短。ただし、上左が要一致

配列解析アルゴリズム

AIMSとAMOSAMOSの配列のアライメント

A A S S O O M M 76 上の文字列にギャップ左の文字列にギャップ最短。ただし、上左が要一致

配列解析アルゴリズム

AIMSとAMOSAMOSの配列のアライメント

赤色の部分を通るのが最短赤色の部分を通るのが最短 A A S S O O M M 77 上の文字列にギャップ左の文字列にギャップ最短。ただし、上左が要一致

配列解析アルゴリズム

ダイナミックプログラミングの原理でダイナミックプログラミングの原理でAASSを部分問題に分解して解くを部分問題に分解して解く A A S S O O M M 78 上の文字列にギャップ左の文字列にギャップ最短。ただし、上左が要一致

配列解析アルゴリズム

赤丸赤丸●●を通るように最短経路を探索を通るように最短経路を探索今回は、１通りしかない今回は、１通りしかない A A S S O O M M

(14)

79 上の文字列にギャップ左の文字列にギャップ最短。ただし、上左が要一致

配列解析アルゴリズム

ギャップの計算ギャップの計算 A A S S O O M M 80

配列解析アルゴリズム

 アライメント問題から経路最適化問題へ A A A A S S I I M M S S AIMS

O O M M

I

A

M －

S

M O

－

S

アライメント完了

81

配列解析アルゴリズム

 マルチプルアライメント AIMS

AIMSとAMOSAMOSの２配列だけでなくてさらにAMSOOAMSOO

I

A

M －

S

M O

－

S

A

－

M

－

S

O O

３つ以上の配列をアライメント 82

配列解析アルゴリズム

BLAST • Smith-Watermanアルゴリズムの変形版

A G T T A C

A C T T A G

クエリ配列クエリ配列データベース配列データベース配列 W=3 第1ステップ第2ステップ第3ステップ Wのサイズの完全一致完全一致を探索ギャップ無しアライメントギャップありアライメント

A G T T A C

A C T T A G

クエリ配列クエリ配列データベース配列データベース配列

A G T T A C

A C T T A G C

データベース配列データベース配列クエリ配列クエリ配列 BLASTは、第１・２ステップで、一致度の低いものはステップ３を行わないここがSmith-Watermanアルゴリズムと異なる 83

プロテオミクスとタンパク質立体構造解析

ここからプロテオミクスと

タンパク質の立体構造解析

84

プロテオミクスの位置付け

プロテオミクスとは？？タンパク質の構造タンパク質構造と機能機能を対象とした網羅的な解析プロテオーム解析対象対象包括的情報包括的情報学問体系学問体系遺伝子 (Gene) 転写物 (Transcript) タンパク質 (Protein) ゲノム (Genome) トランスクリプトーム (Transcriptome) プロテオーム (Proteome) ゲノミクス (Genomics) トランスクリプトミクス (Transcriptomics) プロテオミクス (Proteomics) 生物の網羅的・包括的情報と研究生物の網羅的・包括的情報と研究

(15)

85

プロテオミクスとは

• 相互作用解析  タンパク質に関する網羅的な解析・・・多くのタンパク質は他のタンパク質と相互作用し、機能する 実験的手法 • 発現解析 • 相互作用解析 • 構造解析 インフォマティクス手法酵母

酵母TwoTwo--hybrid(Y2H)hybrid(Y2H)法法

遺伝子の近接性保存による方法遺伝子の近接性保存による方法 ゲノム上で近傍に位置する遺伝子から作られるタンパク質は相互作用する可能性が高いという仮定系統プロファイル法系統プロファイル法 進化の過程で、相互作用するタンパク質は、セットで保存保存、或いは消滅消滅するという仮定次のスライドで説明 86

酵母Two-hybrid法

GAL4転写因子 DNA結合ドメイン転写活性ドメイン DNA 基本転写因子レポーター遺伝子タンパク質X タンパク質Y XとYの相互作用有り DNA レポーター遺伝子タンパク質Z XとZの相互作用無しタンパク質X 87

プロテオミクスとは

• 発現解析  タンパク質に関する網羅的な解析・・・多くの遺伝子はタンパク質となり機能を発揮する。生体内でどのタンパク質がどれだけ作られているかどのタンパク質がどれだけ作られているかを調べることは重要。・二次元電気泳動二次元電気泳動(等電点と分子量で分類)によってタンパク質を分離し同定し、サンプル間で比較 実験的手法多重性を考慮した統計的な検定や機械学習網羅的解析における問題点ニューラルネットワーク、サポートベクターマシン、ブースティングインフォマティクス解析次のスライドで説明 88

二次元電気泳動

等電点泳動分子量細胞タンパク質の抽出タンパク質等電点勾配ゲル等電点の違いで泳動 SDS-PAGEにより分子量で泳動 89 サンプルA サンプルB

二次元電気泳動の結果の比較解析

サンプルAとBでこの位置のタンパク質の発現に違い有り統計的・情報学的な方法を使って、サンプル間で発現の違うタンパク質を同定する 90

タンパク質立体構造解析

 なぜ立体構造解析が必要か？タンパク質は複雑で多様な機能を持つ転写因子はどうやってDNAに結合するか？酵素活性に必要な構造と配列はどこか？立体構造情報アミノ酸や原子の空間的な位置関係が分かる生体高分子が担う触媒機能・タンパク質の進化について配列は変化しても、構造は変化しない構造バイオインフォマティクスタンパク質の立体構造解析

(16)

91

タンパク質立体構造解析

 なぜ立体構造解析が必要か？アミノ酸の一次配列同条件(温度・溶媒等) ならいつも同じ構造いつも紐のように、クニャクニャしているわけではない

タンパク質の多様な機能は、

この立体構造を基盤としている

92 視覚化ソフトが必要 RasMolによるタンパク質の3次元構造の視覚化

タンパク質立体構造解析

ノート取らなくて良い 93  タンパク質構造表示方法空間充填モデルバックボーンモデル

タンパク質立体構造解析

ノート取らなくて良い 94 • 構造解析  タンパク質に関する網羅的な解析・・・タンパク質の機能は、構造に依存する。 実験的手法 予測法には、構造バイオインフォマティクス ab initio法 ホモロジーモデリングなど X線結晶構造解析、核磁気共鳴(NMR)法結晶化が必要分子量は関係ない結晶化が不要分子量は小さいものに限定溶媒中での構造をそのまま解析後のスライドで説明

タンパク質立体構造解析

95

タンパク質立体構造解析

 実験的構造決定法 (ww)PDBへの登録数の推移年代分子量ごとの登録数登録件数分子量 NMR X線結晶解析登録件数 NMRは低分子限定 X線解析が主流 96  構造バイオインフォマティクス • 立体の類似度の評価方法(立体構造比較)

RMSD (root mean square deviation, 平均2乗誤差の平方根)

DRMS (distance-based root mean square deviation) 単純に、対応するアミノ酸の距離の平方根を取る並進・回転させて座標のずれを計算する

タンパク質A タンパク質B _{並進・回転して重ねる}タンパク質Bを

タンパク質立体構造解析

(17)

97  構造バイオインフォマティクス

• 立体の類似度の評価方法(立体構造比較)

RMSD (root mean square deviation, 平均2乗誤差の平方根)

DRMS (distance-based root mean square deviation)

タンパク質立体構造解析

次のページで説明回転平行移動単純に、対応するアミノ酸の距離の平方根を取る 98 DRMS (distance-based root mean square deviation)

タンパク質立体構造解析

A B C D ① ②_③ ④ ⑤ ⑥ ４アミノ酸のタンパク質 (実際にはタンパク質とは呼ばない) ① ①d(Ad(A, B, B) ) アミノ酸アミノ酸AAととBBの距離の距離 ② ②d(Ad(A, C, C) ) アミノ酸アミノ酸AAととCCの距離の距離 ③ ③d(Ad(A, D, D) ) アミノ酸アミノ酸AAととDDの距離の距離 ④ ④d(Bd(B, C, C) ) アミノ酸アミノ酸BBととCCの距離の距離 ⑤ ⑤d(Bd(B, D, D) ) アミノ酸アミノ酸BBととDDの距離の距離 ⑥ ⑥d(Cd(C, , DD) ) アミノ酸アミノ酸CCととDDの距離の距離 99 DRMS (distance-based root mean square deviation)

タンパク質立体構造解析

A B C D ① ②_③ ④ ⑤ ⑥ A B C D’ ①’ ②’_③ ’ ④’ ⑤’ ⑥’ [(①-①’)2_{+(②-②’)}2_{+(③-③’)}2_{+(④-④’)}2_{+(⑤-⑤’)}2_{+(⑥-⑥’)}2_] ６ 100  構造バイオインフォマティクス

タンパク質立体構造解析

立体構造の違い RM S D (Å ) アミノ酸配列一致率(%) アミノ酸配列一致率が低くても構造が似ている

立体構造解析

が重

要

タンパク質のペアのアミノ酸一致率と構造の違い似ている当たり前 101 構造バイオインフォマティクスタンパク質の立体構造解析

タンパク質立体構造解析

①物理化学シミュレーション ② データマイニング的アプローチデータベースを利用した方法 • ホモロジーモデリングによる立体構造予測 102  構造バイオインフォマティクス • ホモロジーモデリング法 LNVANGKSVIGPALLEEVWGSRD 立体構造を知りたいアミノ酸配列

タンパク質立体構造解析

タンパク質構造データベース類似アミノ酸配列の構造をサーチ

(18)

103  構造バイオインフォマティクス • ホモロジーモデリング法 LNVANGKSVIGPALLEEVWGSRD LNVANGKSV I GPALLEEVWFS－RD MNIADG－SVVGPTALQEAWFTQRD 立体構造を知りたいアミノ酸配列

アライメント

タンパク質立体構造解析

選択した構造 104  構造バイオインフォマティクス • ホモロジーモデリング法 D D M M N N I I A A G G V V S S G G P P T T V V A A L L Q Q E E A A W W F F T T Q Q R R D D D D L L N N V V A A G G I I S S G G P P T T V V L L L L E E E E V V W W F F T T Q Q R R D D K K タンパク質構造データベースでサーチしたタンパク質 _{をベースにモデリング}既知構造タンパク質

タンパク質立体構造解析

アミノ酸配列と構造が既知立体構造を知りたいアミノ酸配列 105  構造バイオインフォマティクス • ホモロジーモデリング法 LNVANGKSVIGPALLEEVWGSRD 立体構造を知りたいアミノ酸配列タンパク質構造DB からサーチ LNVANGKSV I GPALLEEVWFS－RD MNIADG－SVVGPTALQEAWFTQRD アライメント D D M M N N I I A A G G V V S S G G P P T T V V A A L L Q Q E E A A W W F F T T Q Q R R D D D D M M N N I I A A G G V V S S G G P P T T V V A A L L Q Q E E A A W W F F T T Q Q R R D D D D L L N N V V A A G G I I S S G G P P T T V V L L L L E E E E V V W W F F T T Q Q R R D D K K D D L L N N V V A A G G I I S S G G P P T T V V L L L L E E E E V V W W F F T T Q Q R R D D K K _{類似タンパク} から構造予測

タンパク質立体構造解析

106

プロテオミクスのおさらい

様々な生物についてゲノム情報ゲノム情報だけでなく、トランスクリプトーム、プロテオームの情報が蓄積  ヒトゲノムプロジェクトの完了

相互作用解析

発現解析

構造解析

配列から、構造を決める最終的なゴールは、機能を同定機能を同定し生命現象の解明生命現象の解明と創薬創薬などつくられているタンパク質の量と種類を同定する共同して働くパートナーのタンパク質を探索する 107

インターネット上のプログラムを利用した

バイオインフォマティクス入門編

108

準備として、まずは、メモ帳を起動

①スタートメニューを開く ②すべてのプログラム Notepadと入力しても良い

(19)

109

メモ帳の置換機能を活用

■タブの入力 Tabキーを押すタブ文字が入力された CTRL+Aで全文字選択 CTRL+Cで選択範囲をコピー CTRL+Vでコピーした範囲を貼り付け 110

UniProtを使ったタンパク質の検索

Googleで、uniprot (大文字小文字は区別無し)と入力するクリック 111

UniProtを使ったタンパク質の検索

Query に「p53」を入力して、Searchボタンを押す UniProtから、p53タンパク質を検索 UniProtのBLASTpやClustalΩ(オメガ) DDBJのBLASTとEMBOSSで対応する塩基配列を見つける目的 112

UniProtを使ったタンパク質の検索

タンパク質名遺伝子名属種名アミノ酸長アクセッション番号アクセッション番号P04637 をクリックすると、ヒトのp53タンパク質の詳細情報を閲覧可能 113

UniProtを使ったタンパク質の検索

Protein names >タンパク質名 Gene names (Synonyms) >遺伝子名(別名) Organism > 属種名 Taxonomic identifier > 種名番号 Taxonomic lineage > 系統情報(界門綱目科属種等) Sequence length >アミノ酸長 Sequence status >完全長かなどなどアクセッション番号P04637 (ヒトのp53タンパク質)の詳細情報 BLASTボタンをクリックしてDefault設定でGoで実行 114

UniProtを使ったタンパク質の検索

前のページで見ていたタンパク質のアクセッション番号。アミノ酸データを入力してもok E値の閾値 (大きいほど、緩い) ギャップありアライメント BLASTを押して実行 Advancedで実行した場合

(20)

115

UniProtを使ったタンパク質の検索

チンパンジーは100% ゴリラとは99%一致ゴリラチンパンジー UniProtでのBLASTの実行結果 116

UniProtを使ったタンパク質の検索

p53での検索結果 Alignをクリック (ClustalΩ実行) マルチプルアライメントを実行 2つ以上のエントリを選択４つ前のスライド 117

UniProtを使ったタンパク質の検索

*完全に保存 .部分的に保存 118

UniProtを使ったタンパク質の検索

p53での検索結果を選択して、配列データを抽出 DownloadGoをクリック 2つ以上のエントリを選択 2つ前のスライド FASTA (ファストエー) 標準的な配列データ表記法 119

UniProtを使ったタンパク質の検索(FASTA形式)

> 配列名(任意) アミノ酸配列(改行は、無視される) CTRL+AとCTRL+Cでコピー 120

UniProtを使ったタンパク質の検索

CTRL+Vでメモ帳や秀丸にペースト名前をつけて保存

(21)

121

DDBJでtBLASTnを使った解析

GoogleでDDBJで検索マルチプルアライメント BLAST 目的 p53(Human)のタンパク質から、当該塩基配列を予測する 122

DDBJを使った解析

クリック 123

DDBJを使った解析

②Humanにだけチェックを入れて、その他の項目のチェックを外す ③ここをクリックして実行 ①Humanのp53のアミノ酸配列をペーストする

Primate: 霊長類, Rodent:齧歯類, Mammal: ほ乳類, Vertebrate:脊椎動物

124

DDBJを使った解析

しばらく待ちましょう!!(２～３分) 125

DDBJを使った解析

中略

Best Hitのエントリ(一番上) をクリックして開く E=0なので完全一致とと推測できる 126

DDBJを使った解析

クリックする当該エントリの詳細情報を参照

(22)

127

DDBJを使った解析

塩基配列のフラットデータ塩基配列アミノ酸配列データ (無い場合もある) コピペでメモ帳へ 128

DDBJを使った解析

どこからどこまでが、開始コドン・終止コドンなのかは、これだけでは分からない。 ※左端に何塩基目かの情報があるが、たいてい問題(邪魔)にならない. 気になるようなら、メモ帳で、「1 」(1とスペース) を「」(タブ)で置換し、エクセルに貼り付けて、切り出すことは可能 129

メモ帳とエクセルを使った配列操作

(1)

タブを入力しておいて選択し、CTRL+Xで切り取る 130

メモ帳とエクセルを使った配列操作

(2)

①CTRL+Hで置換のためWindowsを開く検索する文字列は「1 」(数字の1とスペース1つ) 置換後の文字列は「」(タブ文字) (*このWindowでタブ文字の入力は出来ない) すべて置換(A) を押す 131

メモ帳とエクセルを使った配列操作(3)

「1 」(1とスペース)が全て、「」タブ文字に置換された。 CTRL+Aで、全範囲を選択して、CTRL+Xで選択範囲を切り取り、 EXCELの新規シートの適当な位置に、CTRL+Vで貼り付け 132

メモ帳とエクセルを使った配列操作(4)

タブのおかげで、AA列に数字列に数字だけ、BB列に塩基配列列に塩基配列が表示される。 B列(緑の網掛け部分)のみをコピーして、再度メモ帳に貼り付ける。

(23)

133

メモ帳とエクセルを使った配列操作(5)

数字の部分が削除できた!! CTRL+Hで、「」(スペース)を、「」(文字無し)で置換する 134

メモ帳とエクセルを使った配列操作(6)

余分なスペース数字が全て除去できた 135

EMBOSS sixpackを使った解析

EMBOSS Explorer sixpackでgoogleで検索

クリックする 136

EMBOSS sixpackを使った解析

ここに先ほどの塩基配列をペーストする真核生物なので、ここは、Yesにするここをクリックして実行 137

EMBOSS sixpackを使った解析

一つの塩基配列から6パターンのアミノ酸配列が、翻訳できる。このうち、どれが、p53タンパク質をコードしているか? 結果の真ん中のデータ塩基配列相補鎖 1文字目から 2文字目から 3文字目から 138

EMBOSS sixpackを使った解析

翻訳しうるORFをリストアップしたものフレーム3 ORF1が p53タンパク質

(24)

139

EMBOSS sixpackを使った解析

結果の真ん中のデータ中略対応する塩基配列を特定 140 p53遺伝子の開始コドンから終止コドンまでを特定

EMBOSS sixpackを使った解析

141

DDBJでtBLASTnを使った解析

GoogleでDDBJで検索マルチプルアライメント BLAST 目的 p53(Human)のタンパク質から、当該塩基配列を予測する 142

DDBJを使ったClustalW解析

FASTA形式の配列(今回はアミノ酸) 今回は、アミノ酸配列なので、Proteinを選ぶこれをクリックしてアライメント開始 NJ法とUPGMAを選択可能(今回はNJ法) 143

DDBJを使ったClustalW解析

クリック 144

DDBJを使ったClustalW解析

デスクトップや Zドライブへ保存 dndファイルであることを確認

(25)

145 クリック

系統樹(樹形図)表示ソフト「TREE VIEW」を準備

デスクトップか Zドライブに保存して, (左)ダブルクリック 146

系統樹(樹形図)表示ソフト「TREE VIEW」を準備

クリッククリック (左)ダブルクリックでうまく行かない場合は、右クリック 147 dndファイルをドラッグ&ドロップ (※Fileからファイルを指定しない)

系統樹

(樹形図)表示ソフト「TREE VIEW」を準備

WMFで保存 Radial tree (無根系統樹)