• 検索結果がありません。

Microsoft PowerPoint - バイオインフォマティクス2017_01P.ppt

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft PowerPoint - バイオインフォマティクス2017_01P.ppt"

Copied!
25
0
0

読み込み中.... (全文を見る)

全文

(1)

1

バイオインフォマティクスとは

?

1回配付資料

バイオインフォマティクスとは

バイオインフォマティクスとは

?

?

1

1

回配付資料

回配付資料

2018/02/15 金沢大学 金沢大学医薬保健研究域薬学系医薬保健研究域薬学系

髙橋広夫

髙橋広夫

2017年度 バイオインフォマティクス第1回 2

バイオインフォ演習

レポートについて

3

課題

①次世代シーケンサーのデータにバイオインフォマティクスを応用した研究の成功例を、 原著論文(出典)を示しつつ、概説せよ。(A4 約4ページ)(コピペ不可。写真はコピペ可だ が、引用をきちんと示すこと) ②動植物でバイオインフォマティクス成功例について、バイオインフォマティクスの必要 性が分かるような形で、原著論文(出典)を示しつつ、概説せよ。(ただし、動物の研究A4 2ページ+植物の研究A4 2ページ) 半角のアンダーライン 半角の数字 半角のアンダーライン ※課題はメールで高橋<[email protected]>へ送る。 (メール提出の際は、タイトル「バイオインフォマティクス演習1_学籍番号(半角)_名前(全角)」) 「Bioinfo20180228_学籍番号(半角)_名前(全角).doc」という名前で添付) メール本文に ・相手の名前を書きましょう ・自分の名前を名乗りましょう ・要件を書きましょう ・ファイル名は、指定通りに ・タイトルも指定通りに 最終日2/28まで に提出!! 4

講義の前に

5

講義の資料置き場

Internet Explorerを起動しGoogleを使って「高橋広夫」で検索 2ページ目 ぐらいにあるかも Googleか確認 (bingではない) 6 「講義の資料置き場」をクリック

講義の資料置き場

(2)

7

講義の資料置き場

バイオインフォマティクス

をクリック

8

統合メールのマナー

(課題をメールで提出して

もらう場合があるので

)

9

課題をメールでだす場合に

メール本文に

相手の名前

を書きましょう

自分の名前

を名乗りましょう

要件を書きましょう

ファイル名は、指定通り

タイトルも指定通り

他の講義や一般的な共通ルールです

10

千葉大学統合メール

(署名作成)

①ツールを選択 ②署名管理 ③新規作成 11

千葉大学統合メール(署名作成)

①設定名(適当) ・応用生命化学科 ・応用生命化学科 ・学籍番号 ・学籍番号・氏名・氏名 は必須!! 「千葉大学」や「学年」は 書いた方がベター 12

千葉大学統合メール(プロフィール作成)

①ツールを選択 ②プロフィール管理 ③新規作成

(3)

13

千葉大学統合メール(プロフィール作成)

①プロフィール名(適当) ③自分の名前(正確に) ②チェック ④自分の統合メールアドレス ⑤先ほど自分で作った署名を選択 ⑥OK 14

千葉大学統合メール(メール作成)

メール作成 15

千葉大学統合メール

(メール作成)

プロフィール確認 署名確認 16

千葉大学統合メール

(転送)

②転送 ①ツールを選択 ③新規作成 17

千葉大学統合メール(転送)

設定名(任意) 18

バイオインフォマティクスの意義

生物 実験 結果 生物 酵母 ヒト 植物 解析(生物統計 ・生物情報処理) 結論 新事実の発見 発表(報告書・学会発表・論文発表・新聞での発表) ウェブツール・データベース ・統計処理ソフト(R)・Excel 解釈 マウス

(4)

19

生物統計学

生物学

(Biology)

統計学

(Statistics)

生物統計学

(Biostatistics)

20

生物統計学の必要性

×10匹 7匹完治 疾患マウス 薬剤A投与 薬剤Aの有効率は70%と言っていいのか?? 10 10匹の疾患マウス匹の疾患マウス の有効性は70% 疾患マウス全体の有効性 は70%とは言えない 21

生物統計学の必要性

疾患マウス全体(∞匹)

標本

標本

(sample) (sample) 10匹の疾患マウス 統計的推測 母集団 (population) 推定 検定 22

検定の必要性

血圧降下剤A コントロール (処置無し症例) 血圧 血圧降下剤B それぞれの患者 見た目で なんとなく効いてそう 微妙!! 血圧降下剤AとBの効果を統計的に、判定する(客観的に) 生物実験の解釈には、統計は不可欠である!! 23

生物統計学とバイオインフォマティクス

バイオインフォマティクス

(Bioinformatics)

生物統計学

(Biostatistics)

生物統計手法だけで十分か? 生物学を勉強するものにとって、統計手法を使いこなす必要がある (最低限理解できていれば、深いところまで知っている必要はない) 生物実験を解釈するためには、生物統計学だけでなく、 バイオインフォマティクスの手法を使いこなすことが大事 24

バイオインフォマティクス

生物学

(Biology)

情報学

(Informatics)

バイオインフォマティクス

(Bioinformatics)

(5)

25

情報学と統計学

情報学 確率を基礎にして,不確実性を含む データから, 一定の確実さをもった 判断を下す学問 統計学 情報をどのように扱うかについて考え 研究する学問 ニューロンを数学的に模倣 帰無分布 例: 検定・推定 例: ニューラルネットワーク パターン認識、データマイニング 応用生命化学科の皆さんにとって手段の一つ(車の原理を知らなくても運転可) PCRやウエスタンブロットなど生化学的な手段と同じ(目的では無い) x1 x2 x3 xn w2 w1 w3 wn 入力 出力 ニューロンモデル w = 結合係数 f = 出力関数 O f 0.00 0.10 0.20 0.30 0.40 -3 -2 -1 0 1 2 3 f(x) x 26

バイオインフォマティクスが生まれた時期

PubMed

PubMed

米国国立バイオテクノロジー情報センター (National Center for Biotechnology Information: NCBI)

国立衛生研究所(National Institutes of Health: NIH) の下の

国立医学図書館(National Library of Medicine: NLM) の一部門 世界約85ヶ国、約5600誌の文献を 検索することのできる医学・生物文献データベース 27

バイオインフォマティクスが生まれた時期

なぜPubMed!? バイオの最新情報は すべてPubMedに集まる

PubMed

PubMed

本など、情報として古い!! (日本語の本なら尚更) http://www.ncbi.nlm.nih.gov/pubmed/ 医療・生物系の論文検索サイト(英語) Googleで「PubMed」で 検索すれば見つかる PubMedで “Bioinformatics”[Title/Abstract] で検索する 14,361件の論文がヒット 28

バイオインフォマティクスが生まれた時期

PubMed

PubMed

14,361件の論文がヒット もっとも初期の論文

Beltrame F, Tagliasco V. "Confocal microscopy and cellular bioinformatics.", Cytotechnology. 19931993;11 Suppl 1:S72-4. 研究成果として論文になるまで1-5年はかかる 1990年前後にバイオインフォマティクスが生まれた 29

バイオインフォマティクスが生まれた時期

1980年8月 EMBL(欧)データライブラリー設立 1982年9月 GenBank(米) 設立 1983年7月 ウイルスのがん遺伝子とヒト遺伝子との相同性の発見 199?年 bioinformaticsが、生物情報科学と訳される 1981年3月 Smith-Waterman アルゴリズム発表 1984年4月 DDBJ(日) 設立 1985年3月 FASTA アルゴリズム発表 1990年10月 BLAST アルゴリズム発表 1997年9月 BLAST2 アルゴリズム発表 1991年8月 WWW (World Wide Web) 登場

30

補足: PubMedの使い方

• GoogleでPubMedをサーチ

(6)

31

補足: PubMedの使い方

キーワードを入力して 右の「Search」をクリック 使い方は、Googleとほぼ同じ(キーワードを入力して検索) 例: gene bioinformatics • PubMedのトップページ 32

補足: PubMedの使い方1

• geneとbioinformaticsの2つのキーワードの検索結果 Total Total 105071050744 論文 論文 論文 論文11 論文 論文22 論文 論文33 論文のタイトル(ここをクリックすると詳細が表示) 論文の著者 33

1990年前後までの生物学

1970年-1980年 塩基配列ATCGを決定する技術の発達 セントラルドグマ (1958年にクリックが提唱した分子生物学の概念) DNA 複製 RNA タンパク質 転写 翻訳 遺伝情報 遺伝情報 34 バイオインフォマティクスを説明する前に・・・ヒトゲノム計画 アメリカ エネルギー省(DOE) 国立衛生研究所(NIH) 30億ドルの予算 1990年10月 6か国24機関 米国:59% 英国:31% 日本: 6% 貢献度 1991年か ら参加 ドラフト 2000年6月 正式版 2003年4月 ヒトゲノム 28億6千万塩基対 (99%)

塩基が分かっただけ

ヒトゲノム計画

ヒトゲノム計画

創薬・生命現象解明

35

補足: ゲノム上でシーケンス困難な領域

染色体 テロメア(Telomere) セントロメア(Centromere) 独自のリピート配列を持ち 決定困難 36 開始コドン 終止コドン アミノ酸 翻訳 転写 ORF

GAATATGAACAGCATCGC CTAAAATGC CTTATACTTGTCGTAGCGGATTTTACG GAAUAUGAACAGCAUCGCCUAA AAUGC

網羅的な生物情報

約30億塩基対 約3万遺伝子 約10~20万種類 ゲノム(Genome) トランスクリプトーム (Transcriptome) プロテオーム (Proteome) 疾患部位v.s. 正常組織 ヒトv.s. サル 患者v.s. 健常人 DNA DNA mRNA mRNA タンパク質 タンパク質 mRNA mRNAやタンパク質タンパク質の測定技術の進歩測定技術の進歩による膨大なデータ膨大なデータ 違い 違いメカニズムの解明メカニズムの解明

(7)

37

網羅的な生物情報とバイオインフォマティクス

ゲノム 膨大な生物情報  ゲノム情報  遺伝子発現情報  タンパク質発現情報 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 バイオインフォマティクス バイオインフォマティクス 生物 酵母 マウス ヒト 植物 解析 38

バイオインフォマティクスとその拡大

初期の 初期のバイオインフォマティクス ゲノム・配列情報 現在の 現在のバイオインフォマティクス ゲノム・配列情報 だけでなく、生物情報一般 生物物理学 バイオインフォマティクス 物理化学的シミュレーション 立体構造データ解析 以前、バイオインフォマティクスと 呼ばれなかった分野もバイオインフォマティクスに タンパク質の立体構造 一例 一例 39

バイオインフォマティクスとその拡大

生物をモデル化(細かいところは無視) オミックス情報 から生物をシステムとして理解する生物をシステムとして理解する 数理生物学 システムバイオロジー オミックス Omics ジーノム(発音) ゲノム(Genome) トランスクリプトーム(Transcriptome) プロテオーム(Proteome) メタボローム(Metabolome) フェノーム(Phenomeome)

バイオインフォマティクス 40

バイオインフォマティクス概観

 配列解析(塩基配列・アミノ酸配列・アライメント)  タンパク質構造解析  相互作用解析(遺伝子相互作用・タンパク質相互作用)  発現解析(遺伝子発現・タンパク質発現)  医療統計(基礎統計、オッズ、生存解析)  多型解析(SNP、CNV)  パスウェイ解析 41

データベースとは?

 特定のテーマに沿ったデータを集めて管理 生物情報データベース 主に、web上で構築されている。 • ゲノム情報 • 遺伝子発現情報 • タンパク質発現情報 • 代謝ネットワーク • タンパク質構造  容易に検索・抽出などの再利用可能  コンピュータによって実現されたもの(狭義) 各国(各研究機関) がそれぞれ構築 統合した 大規模なデータベース 42  ゲノム情報(塩基配列)データベース

データベースとは?

(DNA Data Bank of Japan: DDBJ)

(DNA Data Bank of Japan: DDBJ)

GenBank

GenBank

国立遺伝学研究所 (National Institute of Genetics: NIG)

欧州バイオインフォマティクス研究所 (European Bioinformatics Institute : EBI)

米国国立バイオテクノロジー情報センター (National Center for Biotechnology Information: NCBI)

INSDC

(International Nucleotide Sequence Database Collaboration)

三大国際 塩基配 列 デ ー タ バ ン ク

(European Molecular Biology Laboratory

(European Molecular Biology Laboratory--Bank : EMBLBank : EMBL--Bank) Bank)

1500億塩基 ヒト:約30億塩基

(8)

43 DDBJの登録総塩基数の推移 199 6 199 8 (bp) 図1 DDBJの 登録総塩基数の推移 指数 関数 的? 44

データベース(DB)とは?

特許・論文

研究

世界で誰もやって ないことを行う

応用・製品化

データベースへの 登録がほぼ義務化 生物情報のデータベースの多くは個々の研究者が登録したデータ 正しさは、誰も保証しない。 ほとんどのDBは無料。 有料のものも存在する。  ゲノム情報(塩基配列)データベース 一般の研究者が登録・・・何故? 45  タンパク質(アミノ酸)配列データベース

データベースとは?

PIR: Protein Information Resource

• タンパク質/アミノ酸配列データベースをもつ重要サイト

PRF: Protein Research Foundation wwPDB : Worldwide Protein Data Bank

• 国際的なタンパク質/アミノ酸配列データベースサイト UniProt (SWISS-PROT と TrEMBL が合併)

• SWISS-PROTは、研究者が人手でハイレベルのアノテーション(付加情報) をつけたタンパク質/アミノ酸配列データベース • TrEMBLは、コンピュータにより自動でアノテーション(付加情報)をつけたタ ンパク質/アミノ酸配列データベース • 蛋白質研究奨励会が提供しているアミノ酸配列データベース • タンパク質と核酸の3次元構造を蓄積している国際的なデータベース UniProt • SWISS-PROTに吸収された • オンライン情報検索等が可能 • PDBに蓄積されている構造データは、実験的に決定されたデータ 46  塩基配列・アミノ酸配列のデータベース検索

データベースとは?

BLAST (Basic Local Alignment Search Tool) バイオインフォマティクス手法の一つ DNAの塩基配列あるいはタンパク質のアミノ酸配列の アライメントを行うためのアルゴリズムもしくはプログラム あとで説明 日本では、国立遺伝学研究所がDDBJ等を検索するツールとして公開 検索できる 事が重要 47

データベースとは?

何が出来るか? • blastn(塩基配列 × 塩基配列データベース)  塩基配列・アミノ酸配列のデータベース検索

BLAST (Basic Local Alignment Search Tool)

• blastx(塩基配列[アミノ酸配列] × アミノ酸配列データベース) • tblastx(塩基配列[アミノ酸配列] × 塩基配列データベース[アミノ酸配列]) • tblastn(アミノ酸配列 × 塩基配列データベース[アミノ酸配列]) • blastp(アミノ酸配列 × アミノ酸配列データベース) クエリ配列 48

データベースとは?

図で表すと 塩基配列塩基配列データベース DDBJ EMBL GenBank  アミノ酸配列データベースアミノ酸配列 UniProt PRF wwPDB アミノ酸配列 アミノ酸配列 塩基配列 塩基配列 検索したい アミノ酸配列 アミノ酸配列(翻訳) アミノ酸配列 アミノ酸配列 翻訳 翻訳  塩基配列・アミノ酸配列のデータベース検索 BLAST (Basic Local Alignment Search Tool)

(9)

49 生物

データベースとは?

何がうれしいの? GAATATGAA RGD 興味ある塩基配列 興味あるアミノ酸配列 BLAST BLAST  既知遺伝子の一部であると判明  塩基配列・アミノ酸配列のデータベース検索

BLAST (Basic Local Alignment Search Tool)

 異種の生物で機能を推測 酵母 マウス ヒト 植物 50  タンパク質構造データベース

データベースとは?

wwPDB : Worldwide Protein Data Bank

• タンパク質と核酸の3次元構造を蓄積している国際的なデータベース 3次元構造データベースなのでそのままでは、数値の羅列 視覚化ソフトが必要 • PDBに蓄積されている構造データは、実験的に決定されたデータ • RCSB PDB(米)、MSD-EBI(欧)、PDBj(日本)の三つの組織で運営 51

データベースとは?

 タンパク質立体構造データ PDB IDコード どの 座 標 に ど の 原 子 が あ る か 分 か る 52  タンパク質構造データベース

データベースとは?

視覚化ソフトが必要 RasMolによるタンパク質の3次元構造の視覚化 53  タンパク質構造データベース

データベースとは?

どんな視覚化ソフトがあるか? RasMol • Rasmolベース • 高速なアルゴリズムを実装(安価なPCでも表示可能) Chime 有り 水分子が 進 入 で き ない 領域 を埋め る PyMOL • 高画質(OpenGLを使用) 分子表面表示 無し • 多機能(コマンド操作で操作は煩雑) • 分子表面の表示は出来ない • ブラウザ(IE等)内で使うプラグイン • 分子表面表示が可能 • 機能拡張可能 原子 原子 54

分子表面表示

有り 水分子が 進 入 で き ない 領域 を埋め る 分子表面表示 無し 原子 原子 他の分子と相互作用する場所の同定に有効

(10)

55

データベースとは?

 代謝ネットワークデータベース

KEGG (Kyoto Encyclopedia of Genes and Genomes) 京都遺伝子ゲノム百科事典 • バイオインフォマティクス研究用のデータベース • 遺伝子、タンパク質、代謝やシグナル伝達などの分子間ネットワー クに関する情報を統合したデータベース • 京都大学化学研究所の金久教授らによるプロジェクト(1996年) • 二項関係に基づいた情報として整理 代謝物 代謝物 56

データベースとは?

代謝物 例: グルタミン酸代謝マップ 酵素 反応  代謝ネットワークデータベース

KEGG (Kyoto Encyclopedia of Genes and Genomes)

詳し く 見 て み る 57

データベースとは?

2-オキソグルタルアマート α-ケトグルタル酸 コハク酸 フマル酸 リンゴ酸 オキサロ酢酸 クエン酸 クエン酸回路 ( TCA回路 ) ( クレブス回路 ) KEGGのこのような反応経路の集合体 58

配列解析

59

配列比較と生物の進化

相同性検索 類似性のある配列を 同種・異種のゲノムからサーチ

 進化

マウス ヒト 共通祖先 突然変異 突然変異 突然変異 似ている配列 似ている配列とその起源その起源は?? ①種分化による相同タンパク生成 オルソログ(ortholog) 60

配列データベースとクエリ配列

 クエリ配列とは?? Query (質問) DB(データベース) ATCGATCGAT こんな配列 があるか? ATCGATCGAT

DBに問い合わせる配列の事

完全一致 配列あり ATCGTATCGAT 類似配列あり クエリ配列

(11)

61

配列データベースとアライメント

 アライメントとは?? Alignment (整列) GCGAATCGATCGATTTCGCAGCAATGCGTTT GGGGGGGGCCCCATCGATCGATGGCGCGGG クエリ配列 DB配列 アライメント前 GCGAATCGATCGATTTCGCAGCAAT GGGGGGGGCCCCATCGATCGATGGCGCGGG クエリ配列 DB配列 アライメント後 似ている配列を隣り合うように整列させること 62

配列比較とアライメント

ATCGATCGAT サーチしたい配列 検索したいデータベース CCCCATCGATCGATGGGG 完全一致 CCCCATCGTATCGATGGGG ATCGATCGAT 部分一致 4の10乗=105万種類 偶然で一致する可能性は高くない (より長い配列なら尚更) 何か意味がある クエリ配列 10塩基 63

ギャ

配列比較とアライメント

ATCGATCGAT

CCCC

ATCG

T

ATCGAT

GGGG

 ギャップとアライメント

ATCG

ヘモグロビンαのアライメントの例

サーチしたい配列 データベース配列 1個余分な塩基がある

ATCGAT

ギャップを入れることで余分な配列 がある場合もアライメントが可能 64

配列比較と生物の進化

 ヘモグロビンαのアライメント ヒトとマウスのアミノ酸比較 アミノ酸レベルでは、ほとんど同じ。 アライメントでそれが判明 65

配列比較と生物の進化

②遺伝子重複による相同タンパク生成 突然 変異 祖先配列 配列1 配列2 遺伝子重複 配列1 配列2’ 同一 アミノ酸変化 機能変化 祖先タンパク質から機能が多様化した複数の相同タンパク質が生成 パラログ(paralog) 66

γ

②遺伝子重複による相同タンパク生成の例

配列比較と生物の進化

 ヘモグロビン(4量体)

γ

α

α

β

β

α

α

胎児の血液中 成人の血液中 ヘモグロビンにはα、β、γサブユニットがあり、相同タンパク質である 酸素運搬能力が高い

(12)

67 補足

配列比較と生物の進化

偽遺伝子(pseudogene: シュードジーン) 進化の過程で機能を失った遺伝子 遺伝子 遺伝子A A ゲノム 遺伝子重複 遺伝子重複 ゲノム 遺伝子 遺伝子A A 遺伝子遺伝子A A ゲノム 遺伝子 遺伝子A A 偽遺伝子偽遺伝子 機能無し 突然変異 68

配列比較と生物の進化

• グローバルアライメント

MI-GMITG

MITGM-TG

 アライメントは、相同タンパクを発見するための手段

MIGMITG---MITGMTG

例: 2つのアミノ酸配列MIGMITGとMITGMTGのアライメント ローカルアライメント グルーバルアライメント • ローカルアライメント 69

アルゴリズム

(言葉の定義)

 アルゴリズムとは??  なんらかの問題を解くための手順手順のことである  対応する日本語は「算法(さんぽう)」 例: 数学的帰納法のアルゴリズム 自然数全体に関する命題P(n) (n∈N) が真であることを証明 ①P(0) は真である。 ②任意の自然数k に対し,P(k) が真であれば,P(k+1) も真である。 よって任意の自然数n について P(n) は真である。 70

配列解析アルゴリズム

 ダイナミックプログラミングによるアライメント最適化とは?

アライメント問題

経路最適化問題

I

A

M -

S

A

M O

S

a b d c e L(b,d) L(b,e) L(c,e) L(a,c) L(a,b) 71

配列解析アルゴリズム

 ダイナミックプログラミングによるアライメント最適化とは?

部分問題に分解

経路最適化問題

ダイナミック・プログラミングの原理

アライメント問題

経路最適化問題

72

ダイナミックプログラミング

 ダイナミックプログラミングとは?? adへの最短ルートを求めたい 候補は 2通りある a b d c e a b d a c e b d b bは絶対に通る 部分問題に分解 abbbbd ① ②

(13)

73  ダイナミックプログラミングとは?? a b b d a c e b b d a b b d a c e b b d b b b b + + ① ② この範囲で最短ルートであれば adへのルートでも最短 ① ② 問題の 分 割 ダイナミックプログラミングの原理 同じ 最短ルート 最短ルート 全体として最短ルート

ダイナミックプログラミング

74 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致

配列解析アルゴリズム

 アライメント問題から経路最適化問題へ A A I I M M S S AIMS

AIMSとAMOSAMOSの配列のアライメント

A A S S O O M M 経路問題 75 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致

配列解析アルゴリズム

 アライメント問題から経路最適化問題へ A A I I M M S S AIMS

AIMSAMOSAMOSの配列のアライメント

A A S S O O M M 76 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致

配列解析アルゴリズム

 アライメント問題から経路最適化問題へ A A I I M M S S AIMS

AIMSAMOSAMOSの配列のアライメント

赤色の部分を通るのが最短 赤色の部分を通るのが最短 A A S S O O M M 77 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致

配列解析アルゴリズム

 アライメント問題から経路最適化問題へ A A I I M M S S AIMS

AIMSとAMOSAMOSの配列のアライメント

ダイナミックプログラミングの原理で ダイナミックプログラミングの原理でAASSを部分問題に分解して解くを部分問題に分解して解く A A S S O O M M 78 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致

配列解析アルゴリズム

 アライメント問題から経路最適化問題へ A A I I M M S S AIMS

AIMSとAMOSAMOSの配列のアライメント

赤丸 赤丸●●を通るように最短経路を探索を通るように最短経路を探索今回は、1通りしかない今回は、1通りしかない A A S S O O M M

(14)

79 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致

配列解析アルゴリズム

 アライメント問題から経路最適化問題へ A A I I M M S S AIMS

AIMSとAMOSAMOSの配列のアライメント

ギャップの計算 ギャップの計算 A A S S O O M M 80

配列解析アルゴリズム

 アライメント問題から経路最適化問題へ A A A A S S I I M M S S AIMS

AIMSとAMOSAMOSの配列のアライメント

O O M M

I

A

A

M -

S

M O

S

アライメント完了

81

配列解析アルゴリズム

 マルチプルアライメント AIMS

AIMSとAMOSAMOSの2配列だけでなくてさらにAMSOOAMSOO

I

A

A

M -

S

M O

S

A

M

S

O O

3 つ 以 上 の 配 列 を ア ラ イ メ ン ト 82

配列解析アルゴリズム

BLAST • Smith-Watermanアルゴリズムの変形版

A G T T A C

A C T T A G

クエリ配列 クエリ配列 データベース配列 データベース配列 W=3 第1ステップ 第2ステップ 第3ステップ Wのサイズの 完全一致 完全一致を探索 ギャップ無し アライメント ギャップあり アライメント

A G T T A C

A C T T A G

クエリ配列 クエリ配列 データベース配列 データベース配列

A G T T A C

A C T T A G C

データベース配列 データベース配列 クエリ配列 クエリ配列 BLASTは、第1・2ステップで、一致度の低いものはステップ3を行わない ここがSmith-Watermanアルゴリズムと異なる 83

プロテオミクスとタンパク質立体構造解析

ここから プロテオミクスと

タンパク質の立体構造解析

84

プロテオミクスの位置付け

プロテオミクスとは?? タンパク質の構造タンパク質 構造と機能機能を 対象とした網羅的な解析 プロテオーム解析 対象 対象 包括的情報包括的情報 学問体系学問体系 遺伝子 (Gene) 転写物 (Transcript) タンパク質 (Protein) ゲノム (Genome) トランスクリプトーム (Transcriptome) プロテオーム (Proteome) ゲノミクス (Genomics) トランスクリプトミクス (Transcriptomics) プロテオミクス (Proteomics) 生物の網羅的・包括的情報と研究 生物の網羅的・包括的情報と研究

(15)

85

プロテオミクスとは

• 相互作用解析  タンパク質に関する網羅的な解析 ・・・多くのタンパク質は他のタンパク質 と相互作用し、機能する 実験的手法 • 発現解析 • 相互作用解析 • 構造解析 インフォマティクス手法 酵母

酵母TwoTwo--hybrid(Y2H)hybrid(Y2H)法

遺伝子の近接性保存による方法 遺伝子の近接性保存による方法 ゲノム上で近傍に位置する遺伝子から作られる タンパク質は相互作用する可能性が高いという仮定 系統プロファイル法 系統プロファイル法 進化の過程で、相互作用するタンパク質は、 セットで保存保存、或いは消滅消滅するという仮定 次のスライドで説明 86

酵母Two-hybrid法

GAL4転写因子 DNA結合 ドメイン 転写活性 ドメイン DNA 基本転写因子 レポーター遺伝子 タンパク質X タンパク質Y XとYの 相互作用 有り DNA レポーター遺伝子 タンパク質Z XとZの 相互作用 無し タンパク質X 87

プロテオミクスとは

• 発現解析  タンパク質に関する網羅的な解析 ・・・多くの遺伝子はタンパク質となり機能を発揮する。 生体内でどのタンパク質がどれだけ作られているかどのタンパク質がどれだけ作られているか を調べることは重要。 ・二次元電気泳動二次元電気泳動(等電点と分子量で分類)によって タンパク質を分離し同定し、サンプル間で比較 実験的手法 多重性を考慮した 統計的な検定や機械学習 網羅的解析に おける問題点 ニューラルネットワーク、サポートベクターマシン、 ブースティング イン フ ォ マ テ ィ ク ス 解析 次のスライドで説明 88

二次元電気泳動

等電点泳動 分子量 細胞 タンパク質の抽出 タンパク質 等電点勾配 ゲル 等電点の 違 い で泳 動 SDS-PAGEにより 分子量で泳動 89 サンプルA サンプルB

二次元電気泳動の結果の比較解析

サンプルAとBでこの位置のタンパク質の発現に違い有り 統計的・情報学的な方法を使って、 サンプル間で発現の違うタンパク質を同定する 90

タンパク質立体構造解析

 なぜ立体構造解析が必要か? タンパク質は 複雑で多様 な機能を持つ 転写因子はどうやってDNAに結合するか? 酵素活性に必要な構造と配列はどこか? 立体構造情報 アミノ酸や原子の空間的な位置関係が分かる 生体高分子が担う触媒機能・タンパク質の進化について 配列は変化しても、構造は変化しない 構造バイオインフォマティクス タンパク質の立体構造解析

(16)

91

タンパク質立体構造解析

 なぜ立体構造解析が必要か? アミノ酸の一次配列 同条件(温度・溶媒等) ならいつも同じ構造 いつも紐のように、クニャクニャ しているわけではない

タンパク質の多様な機能は、

この立体構造を基盤としている

92 視覚化ソフトが必要 RasMolによるタンパク質の3次元構造の視覚化

タンパク質立体構造解析

ノート取らなくて良い 93  タンパク質構造表示方法 空間充填モデル バックボーンモデル

タンパク質立体構造解析

ノート取らなくて良い 94 • 構造解析  タンパク質に関する網羅的な解析 ・・・タンパク質の機能は、構造に依存する。 実験的手法 予測法には、 構造バイオインフォマティクス ab initio法 ホモロジーモデリングなど X線結晶構造解析、核磁気共鳴(NMR)法 結晶化が必要 分子量は関係ない 結晶化が不要 分子量は小さいものに限定 溶媒中での構造をそのまま解析 後のスライドで説明

タンパク質立体構造解析

95

タンパク質立体構造解析

 実験的構造決定法 (ww)PDBへの 登録数の推移 年代 分子量ごとの 登録数 登録 件数 分子量 NMR X線結晶解析 登録 件数 NMRは 低分子限定 X線解析 が主流 96  構造バイオインフォマティクス • 立体の類似度の評価方法(立体構造比較)

RMSD (root mean square deviation, 平均2乗誤差の平方根)

DRMS (distance-based root mean square deviation) 単純に、対応するアミノ酸の距離の平方根を取る 並進・回転させて座標のずれを計算する

タンパク質A タンパク質B 並進・回転して重ねるタンパク質Bを

タンパク質立体構造解析

(17)

97  構造バイオインフォマティクス

• 立体の類似度の評価方法(立体構造比較)

RMSD (root mean square deviation, 平均2乗誤差の平方根)

DRMS (distance-based root mean square deviation)

タンパク質立体構造解析

次のページ で説明 回転 平行移動 単純に、対応するアミノ酸の距離の平方根を取る 98 DRMS (distance-based root mean square deviation)

タンパク質立体構造解析

A B C D ① ② ④ ⑤ ⑥ 4アミノ酸のタンパク質 (実際にはタンパク質とは呼ばない) ① ①d(Ad(A, B, B) ) アミノ酸アミノ酸AAととBBの距離の距離 ② ②d(Ad(A, C, C) ) アミノ酸アミノ酸AAととCCの距離の距離 ③ ③d(Ad(A, D, D) ) アミノ酸アミノ酸AAととDDの距離の距離 ④ ④d(Bd(B, C, C) ) アミノ酸アミノ酸BBとCCの距離の距離 ⑤ ⑤d(Bd(B, D, D) ) アミノ酸アミノ酸BBとDDの距離の距離 ⑥ ⑥d(Cd(C, , DD) ) アミノ酸アミノ酸CCととDDの距離の距離 99 DRMS (distance-based root mean square deviation)

タンパク質立体構造解析

A B C D ① ② ④ ⑤ ⑥ A B C D’ ①’ ②’ ’ ④’ ⑤’ ⑥’ [(①-①’)2+(②-②’)2+(③-③’)2+(④-④’)2+(⑤-⑤’)2+(⑥-⑥’)2] 6 100  構造バイオインフォマティクス

タンパク質立体構造解析

立体構造 の違 い RM S D (Å ) アミノ酸配列一致率(%) アミノ酸配列一致率が 低くても構造が似ている

立体構造解析

が重

タンパク質のペアのアミノ酸一致率と構造の違い 似て い る 当たり前 101 構造バイオインフォマティクス タンパク質の立体構造解析

タンパク質立体構造解析

①物理化学シミュレーション ② データマイニング 的アプローチ データベースを 利用した方法 • ホモロジーモデリングによる立体構造予測 102  構造バイオインフォマティクス • ホモロジーモデリング法 LNVANGKSVIGPALLEEVWGSRD 立体構造を知りたいアミノ酸配列

タンパク質立体構造解析

タン パ ク 質 構 造 デー タ ベ ー ス 類似アミノ酸配列の構造をサーチ

(18)

103  構造バイオインフォマティクス • ホモロジーモデリング法 LNVANGKSVIGPALLEEVWGSRD LNVANGKSV I GPALLEEVWFS-RD MNIADG-SVVGPTALQEAWFTQRD 立体構造を知りたいアミノ酸配列

アライメント

タンパク質立体構造解析

選択し た 構造 104  構造バイオインフォマティクス • ホモロジーモデリング法 D D M M N N I I A A G G V V S S G G P P T T V V A A L L Q Q E E A A W W F F T T Q Q R R D D D D L L N N V V A A G G I I S S G G P P T T V V L L L L E E E E V V W W F F T T Q Q R R D D K K タンパク質構造データベースで サーチしたタンパク質 をベースにモデリング既知構造タンパク質

タンパク質立体構造解析

アミノ酸配列 と構造が既知 立体構造を知りたい アミノ酸配列 105  構造バイオインフォマティクス • ホモロジーモデリング法 LNVANGKSVIGPALLEEVWGSRD 立体構造を知りたいアミノ酸配列 タンパク質構造DB からサーチ LNVANGKSV I GPALLEEVWFS-RD MNIADG-SVVGPTALQEAWFTQRD アライメント D D M M N N I I A A G G V V S S G G P P T T V V A A L L Q Q E E A A W W F F T T Q Q R R D D D D M M N N I I A A G G V V S S G G P P T T V V A A L L Q Q E E A A W W F F T T Q Q R R D D D D L L N N V V A A G G I I S S G G P P T T V V L L L L E E E E V V W W F F T T Q Q R R D D K K D D L L N N V V A A G G I I S S G G P P T T V V L L L L E E E E V V W W F F T T Q Q R R D D K K 類似タンパク から構造予測

タンパク質立体構造解析

106

プロテオミクスのおさらい

様々な生物についてゲノム情報ゲノム情報だけでなく、 トランスクリプトーム、プロテオームの情報が蓄積  ヒトゲノムプロジェクトの完了

相互作用解析

発現解析

構造解析

配列から、構造を決める 最終的なゴールは、機能を同定機能を同定し生命現象の解明生命現象の解明と創薬創薬など つくられているタンパク質 の量と種類を同定する 共同して働くパートナーの タンパク質を探索する 107

インターネット上のプログラムを利用した

バイオインフォマティクス入門編

108

準備として、まずは、メモ帳を起動

①スタートメニューを開く ②すべてのプログラム Notepadと入力 しても良い

(19)

109

メモ帳の置換機能を活用

■タブの入力 Tabキー を押す タブ文字 が入力された CTRL+Aで 全文字選択 CTRL+Cで 選択範囲をコピー CTRL+Vで コピーした範囲を貼り付け 110

UniProtを使ったタンパク質の検索

Googleで、uniprot (大文字小文字は区別無し)と入力する クリ ッ ク 111

UniProtを使ったタンパク質の検索

Query に「p53」を入力して、Searchボタンを押す UniProtから、p53タンパク質を検索 UniProtのBLASTpやClustalΩ(オメガ) DDBJのBLASTとEMBOSSで対応する塩基配列を見つける 目的 112

UniProtを使ったタンパク質の検索

タンパク質名 遺伝子名 属種名 アミノ酸長 アクセッション番号 アクセッション番号P04637 をクリックすると、 ヒトのp53タンパク質の詳細情報を閲覧可能 113

UniProtを使ったタンパク質の検索

Protein names >タンパク質名 Gene names (Synonyms) >遺伝子名(別名) Organism > 属種名 Taxonomic identifier > 種名番号 Taxonomic lineage > 系統情報(界門綱目科属種等) Sequence length >アミノ酸長 Sequence status >完全長か などなど アクセッション番号P04637 (ヒトのp53タンパク質)の詳細情報 BLASTボタンをクリックしてDefault設定でGoで実行 114

UniProtを使ったタンパク質の検索

前のページで見ていたタンパク質の アクセッション番号。アミノ酸データを入力してもok E値の閾値 (大きいほど、緩い) ギャップあり アライメント BLASTを押して実行 Advancedで実行した場合

(20)

115

UniProtを使ったタンパク質の検索

チンパンジーは100% ゴリラとは99%一致 ゴリラ チンパンジー UniProtでのBLASTの実行結果 116

UniProtを使ったタンパク質の検索

p53での検索結果 Alignをクリック (ClustalΩ実行) マルチプルアライメントを実行 2つ以上のエントリを選択 4つ前のスライド 117

UniProtを使ったタンパク質の検索

*完全に保存 .部分的に保存 118

UniProtを使ったタンパク質の検索

p53での検索結果を選択して、配列データを抽出 DownloadGoをクリック 2つ以上のエントリを選択 2つ前のスライド FASTA (ファストエー) 標準的な 配列データ 表記法 119

UniProtを使ったタンパク質の検索(FASTA形式)

> 配列名(任意) アミノ酸配列(改行は、無視される) CTRL+AとCTRL+Cでコピー 120

UniProtを使ったタンパク質の検索

CTRL+Vでメモ帳や秀丸にペースト 名前をつけて保存

(21)

121

DDBJでtBLASTnを使った解析

GoogleでDDBJで検索 マルチプル アライメント BLAST 目的 p53(Human)のタンパク質から、当該塩基配列を予測する 122

DDBJを使った解析

クリック 123

DDBJを使った解析

②Humanにだけチェックを入れて、 その他の項目のチェックを外す ③ここをクリックして実行 ①Humanのp53の アミノ酸配列をペーストする

Primate: 霊長類, Rodent:齧歯類, Mammal: ほ乳類, Vertebrate:脊椎動物

124

DDBJを使った解析

しばらく待ちましょう!!(2~3分) 125

DDBJを使った解析

中略

Best Hitのエントリ(一番上) をクリックして開く E=0なので 完全一致と と推測できる 126

DDBJを使った解析

クリ ッ ク す る 当該エントリの詳細情報を参照

(22)

127

DDBJを使った解析

塩基配列の フラットデータ 塩基配列 アミノ酸配列データ (無い場合もある) コピペでメモ帳へ 128

DDBJを使った解析

どこからどこまでが、開始コドン・終止コドンなのかは、これだけでは分からない。 ※左端に何塩基目かの情報があるが、たいてい問題(邪魔)にならない. 気になるようなら、メモ帳で、 「1 」(1とスペース) を「 」(タブ)で置換し、 エクセルに貼り付けて、 切り出すことは可能 129

メモ帳とエクセルを使った配列操作

(1)

タブを入力しておいて選択し、CTRL+Xで切り取る 130

メモ帳とエクセルを使った配列操作

(2)

①CTRL+Hで 置換のためWindowsを開く 検索する文字列は「1 」(数字の1とスペース1つ) 置換後の文字列は「 」(タブ文字) (*このWindowでタブ文字の入力は出来ない) すべて置換(A) を押す 131

メモ帳とエクセルを使った配列操作(3)

「1 」(1とスペース)が全て、「 」タブ文字に置換された。 CTRL+Aで、全範囲を選択して、CTRL+Xで選択範囲を切り取り、 EXCELの新規シートの適当な位置に、CTRL+Vで貼り付け 132

メモ帳とエクセルを使った配列操作(4)

タブのおかげで、AA列に数字列に数字だけ、BB列に塩基配列列に塩基配列が表示される。 B列(緑の網掛け部分)のみをコピーして、再度メモ帳に貼り付ける。

(23)

133

メモ帳とエクセルを使った配列操作(5)

数字の部分が削除できた!! CTRL+Hで、「 」(スペース)を、「」(文字無し)で置換する 134

メモ帳とエクセルを使った配列操作(6)

余分なスペース数字が全て除去できた 135

EMBOSS sixpackを使った解析

EMBOSS Explorer sixpackでgoogleで検索

クリ ッ ク す る 136

EMBOSS sixpackを使った解析

ここに先ほどの塩基配列 をペーストする 真核生物なので、 ここは、Yesにする ここをクリックして 実行 137

EMBOSS sixpackを使った解析

一つの塩基配列から6パターンのアミノ酸配列が、翻訳できる。 このうち、どれが、p53タンパク質をコードしているか? 結果の真ん中のデータ 塩基配 列 相補 鎖 1文字目から 2文字目から 3文字目から 138

EMBOSS sixpackを使った解析

翻訳しうるORFを リストアップしたもの フレーム3 ORF1が p53タンパク質

(24)

139

EMBOSS sixpackを使った解析

結果の真ん中のデータ 中略 対応する塩基配列を特定 140 p53遺伝子の開始コドンから終止コドンまでを特定

EMBOSS sixpackを使った解析

141

DDBJでtBLASTnを使った解析

GoogleでDDBJで検索 マルチプル アライメント BLAST 目的 p53(Human)のタンパク質から、当該塩基配列を予測する 142

DDBJを使ったClustalW解析

FASTA形式の配列(今回はアミノ酸) 今回は、アミノ酸配列 なので、Proteinを選ぶ これをクリックして アライメント開始 NJ法とUPGMAを 選択可能(今回はNJ法) 143

DDBJを使ったClustalW解析

クリック 144

DDBJを使ったClustalW解析

デスクトップや Zドライブへ保存 dndファイル であることを確認

(25)

145 クリック

系統樹(樹形図)表示ソフト「TREE VIEW」を準備

デスクトップか Zドライブに保存して, (左)ダブルクリック 146

系統樹(樹形図)表示ソフト「TREE VIEW」を準備

クリック クリック (左)ダブルクリックでうまく行かない場合は、右クリック 147 dndファイルをドラッグ&ドロップ (※Fileからファイルを指定しない)

系統樹

(樹形図)表示ソフト「TREE VIEW」を準備

WMFで保存 Radial tree (無根系統樹)

参照

関連したドキュメント

設立当初から NEXTSTAGE を見据えた「個の育成」に力を入れ、県内や県外の高校で活躍する選手達や J

QRコード読込画面 が表示されたら、表 示された画面を選択 してウインドウをアク ティブな状態にした 上で、QRコードリー

パキロビッドパックを処方入力の上、 F8特殊指示 →「(治)」 の列に 「1:する」 を入力して F9更新 を押下してください。.. 備考欄に「治」と登録されます。

ダウンロードした書類は、 「MSP ゴシック、11ポイント」で記入で きるようになっています。字数制限がある書類は枠を広げず入力してく

・電源投入直後の MPIO は出力状態に設定されているため全ての S/PDIF 信号を入力する前に MPSEL レジスタで MPIO を入力状態に設定する必要がある。MPSEL

この届出者欄には、住所及び氏名を記載の上、押印又は署名のいずれかを選択す

Dual I/O リードコマンドは、SI/SIO0、SO/SIO1 のピン機能が入出力に切り替わり、アドレス入力 とデータ出力の両方を x2

1) 特に力を入れている 2) 十分である 3) 課題が残されている. ] 1) 行っている <選択肢> 2) 行っていない