1
バイオインフォマティクスとは
?
第
1回配付資料
バイオインフォマティクスとは
バイオインフォマティクスとは
?
?
第
第
1
1
回配付資料
回配付資料
2018/02/15 金沢大学 金沢大学医薬保健研究域薬学系医薬保健研究域薬学系髙橋広夫
髙橋広夫
2017年度 バイオインフォマティクス第1回 2バイオインフォ演習
レポートについて
3課題
①次世代シーケンサーのデータにバイオインフォマティクスを応用した研究の成功例を、 原著論文(出典)を示しつつ、概説せよ。(A4 約4ページ)(コピペ不可。写真はコピペ可だ が、引用をきちんと示すこと) ②動植物でバイオインフォマティクス成功例について、バイオインフォマティクスの必要 性が分かるような形で、原著論文(出典)を示しつつ、概説せよ。(ただし、動物の研究A4 2ページ+植物の研究A4 2ページ) 半角のアンダーライン 半角の数字 半角のアンダーライン ※課題はメールで高橋<[email protected]>へ送る。 (メール提出の際は、タイトル「バイオインフォマティクス演習1_学籍番号(半角)_名前(全角)」) 「Bioinfo20180228_学籍番号(半角)_名前(全角).doc」という名前で添付) メール本文に ・相手の名前を書きましょう ・自分の名前を名乗りましょう ・要件を書きましょう ・ファイル名は、指定通りに ・タイトルも指定通りに 最終日2/28まで に提出!! 4講義の前に
5講義の資料置き場
Internet Explorerを起動しGoogleを使って「高橋広夫」で検索 2ページ目 ぐらいにあるかも Googleか確認 (bingではない) 6 「講義の資料置き場」をクリック講義の資料置き場
7
講義の資料置き場
バイオインフォマティクス
をクリック
8統合メールのマナー
(課題をメールで提出して
もらう場合があるので
)
9課題をメールでだす場合に
メール本文に
・
相手の名前
を書きましょう
・
自分の名前
を名乗りましょう
・
要件を書きましょう
・
ファイル名は、指定通り
に
・
タイトルも指定通り
に
他の講義や一般的な共通ルールです
10千葉大学統合メール
(署名作成)
①ツールを選択 ②署名管理 ③新規作成 11千葉大学統合メール(署名作成)
①設定名(適当) ・応用生命化学科 ・応用生命化学科 ・学籍番号 ・学籍番号・氏名・氏名 は必須!! 「千葉大学」や「学年」は 書いた方がベター 12千葉大学統合メール(プロフィール作成)
①ツールを選択 ②プロフィール管理 ③新規作成13
千葉大学統合メール(プロフィール作成)
①プロフィール名(適当) ③自分の名前(正確に) ②チェック ④自分の統合メールアドレス ⑤先ほど自分で作った署名を選択 ⑥OK 14千葉大学統合メール(メール作成)
メール作成 15千葉大学統合メール
(メール作成)
プロフィール確認 署名確認 16千葉大学統合メール
(転送)
②転送 ①ツールを選択 ③新規作成 17千葉大学統合メール(転送)
設定名(任意) 18バイオインフォマティクスの意義
生物 実験 結果 生物 酵母 ヒト 植物 解析(生物統計 ・生物情報処理) 結論 新事実の発見 発表(報告書・学会発表・論文発表・新聞での発表) ウェブツール・データベース ・統計処理ソフト(R)・Excel 解釈 マウス19
生物統計学
生物学
(Biology)
統計学
(Statistics)
+
生物統計学
(Biostatistics)
20生物統計学の必要性
×10匹 7匹完治 疾患マウス 薬剤A投与 薬剤Aの有効率は70%と言っていいのか?? 10 10匹の疾患マウス匹の疾患マウス の有効性は70% 疾患マウス全体の有効性 は70%とは言えない 21生物統計学の必要性
疾患マウス全体(∞匹)標本
標本
(sample) (sample) 10匹の疾患マウス 統計的推測 母集団 (population) 推定 検定 22検定の必要性
血圧降下剤A コントロール (処置無し症例) 血圧 血圧降下剤B それぞれの患者 見た目で なんとなく効いてそう 微妙!! 血圧降下剤AとBの効果を統計的に、判定する(客観的に) 生物実験の解釈には、統計は不可欠である!! 23生物統計学とバイオインフォマティクス
バイオインフォマティクス
(Bioinformatics)
生物統計学
(Biostatistics)
生物統計手法だけで十分か? 生物学を勉強するものにとって、統計手法を使いこなす必要がある (最低限理解できていれば、深いところまで知っている必要はない) 生物実験を解釈するためには、生物統計学だけでなく、 バイオインフォマティクスの手法を使いこなすことが大事 24バイオインフォマティクス
生物学
(Biology)
情報学
(Informatics)
+
バイオインフォマティクス
(Bioinformatics)
25
情報学と統計学
情報学 確率を基礎にして,不確実性を含む データから, 一定の確実さをもった 判断を下す学問 統計学 情報をどのように扱うかについて考え 研究する学問 ニューロンを数学的に模倣 帰無分布 例: 検定・推定 例: ニューラルネットワーク パターン認識、データマイニング 応用生命化学科の皆さんにとって手段の一つ(車の原理を知らなくても運転可) PCRやウエスタンブロットなど生化学的な手段と同じ(目的では無い) x1 x2 x3 xn w2 w1 w3 wn 入力 出力 ニューロンモデル w = 結合係数 f = 出力関数 O f 0.00 0.10 0.20 0.30 0.40 -3 -2 -1 0 1 2 3 f(x) x 26バイオインフォマティクスが生まれた時期
PubMed
PubMed
米国国立バイオテクノロジー情報センター (National Center for Biotechnology Information: NCBI)国立衛生研究所(National Institutes of Health: NIH) の下の
国立医学図書館(National Library of Medicine: NLM) の一部門 世界約85ヶ国、約5600誌の文献を 検索することのできる医学・生物文献データベース 27
バイオインフォマティクスが生まれた時期
なぜPubMed!? バイオの最新情報は すべてPubMedに集まるPubMed
PubMed
本など、情報として古い!! (日本語の本なら尚更) http://www.ncbi.nlm.nih.gov/pubmed/ 医療・生物系の論文検索サイト(英語) Googleで「PubMed」で 検索すれば見つかる PubMedで “Bioinformatics”[Title/Abstract] で検索する 14,361件の論文がヒット 28バイオインフォマティクスが生まれた時期
PubMed
PubMed
14,361件の論文がヒット もっとも初期の論文Beltrame F, Tagliasco V. "Confocal microscopy and cellular bioinformatics.", Cytotechnology. 19931993;11 Suppl 1:S72-4. 研究成果として論文になるまで1-5年はかかる 1990年前後にバイオインフォマティクスが生まれた 29
バイオインフォマティクスが生まれた時期
1980年8月 EMBL(欧)データライブラリー設立 1982年9月 GenBank(米) 設立 1983年7月 ウイルスのがん遺伝子とヒト遺伝子との相同性の発見 199?年 bioinformaticsが、生物情報科学と訳される 1981年3月 Smith-Waterman アルゴリズム発表 1984年4月 DDBJ(日) 設立 1985年3月 FASTA アルゴリズム発表 1990年10月 BLAST アルゴリズム発表 1997年9月 BLAST2 アルゴリズム発表 1991年8月 WWW (World Wide Web) 登場30
補足: PubMedの使い方
+
• GoogleでPubMedをサーチ
31
補足: PubMedの使い方
キーワードを入力して 右の「Search」をクリック 使い方は、Googleとほぼ同じ(キーワードを入力して検索) 例: gene bioinformatics • PubMedのトップページ 32補足: PubMedの使い方1
• geneとbioinformaticsの2つのキーワードの検索結果 Total Total 105071050744 論文 論文 論文 論文11 論文 論文22 論文 論文33 論文のタイトル(ここをクリックすると詳細が表示) 論文の著者 331990年前後までの生物学
1970年-1980年 塩基配列ATCGを決定する技術の発達 セントラルドグマ (1958年にクリックが提唱した分子生物学の概念) DNA 複製 RNA タンパク質 転写 翻訳 遺伝情報 遺伝情報 34 バイオインフォマティクスを説明する前に・・・ヒトゲノム計画 アメリカ エネルギー省(DOE) 国立衛生研究所(NIH) 30億ドルの予算 1990年10月 6か国24機関 米国:59% 英国:31% 日本: 6% 貢献度 1991年か ら参加 ドラフト 2000年6月 正式版 2003年4月 ヒトゲノム 28億6千万塩基対 (99%)塩基が分かっただけ
ヒトゲノム計画
ヒトゲノム計画
創薬・生命現象解明
?
?
35補足: ゲノム上でシーケンス困難な領域
染色体 テロメア(Telomere) セントロメア(Centromere) 独自のリピート配列を持ち 決定困難 36 開始コドン 終止コドン アミノ酸 翻訳 転写 ORFGAATATGAACAGCATCGC CTAAAATGC CTTATACTTGTCGTAGCGGATTTTACG GAAUAUGAACAGCAUCGCCUAA AAUGC
網羅的な生物情報
約30億塩基対 約3万遺伝子 約10~20万種類 ゲノム(Genome) トランスクリプトーム (Transcriptome) プロテオーム (Proteome) 疾患部位v.s. 正常組織 ヒトv.s. サル 患者v.s. 健常人 DNA DNA mRNA mRNA タンパク質 タンパク質 mRNA mRNAやタンパク質タンパク質の測定技術の進歩測定技術の進歩による膨大なデータ膨大なデータ 違い 違いメカニズムの解明メカニズムの解明37
網羅的な生物情報とバイオインフォマティクス
ゲノム 膨大な生物情報 ゲノム情報 遺伝子発現情報 タンパク質発現情報 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 0100110101010 1101010100010 0100010110101 0100110101010 1101010100010 0100010110101 0011011000101 1101010100010 バイオインフォマティクス バイオインフォマティクス 生物 酵母 マウス ヒト 植物 解析 38バイオインフォマティクスとその拡大
初期の 初期のバイオインフォマティクス ゲノム・配列情報 現在の 現在のバイオインフォマティクス ゲノム・配列情報 だけでなく、生物情報一般 生物物理学 バイオインフォマティクス 物理化学的シミュレーション 立体構造データ解析 以前、バイオインフォマティクスと 呼ばれなかった分野もバイオインフォマティクスに タンパク質の立体構造 一例 一例 39バイオインフォマティクスとその拡大
生物をモデル化(細かいところは無視) オミックス情報 から生物をシステムとして理解する生物をシステムとして理解する 数理生物学 システムバイオロジー オミックス Omics ジーノム(発音) ゲノム(Genome) トランスクリプトーム(Transcriptome) プロテオーム(Proteome) メタボローム(Metabolome) フェノーム(Phenomeome)バイオインフォマティクス 40
バイオインフォマティクス概観
配列解析(塩基配列・アミノ酸配列・アライメント) タンパク質構造解析 相互作用解析(遺伝子相互作用・タンパク質相互作用) 発現解析(遺伝子発現・タンパク質発現) 医療統計(基礎統計、オッズ、生存解析) 多型解析(SNP、CNV) パスウェイ解析 41データベースとは?
特定のテーマに沿ったデータを集めて管理 生物情報データベース 主に、web上で構築されている。 • ゲノム情報 • 遺伝子発現情報 • タンパク質発現情報 • 代謝ネットワーク • タンパク質構造 容易に検索・抽出などの再利用可能 コンピュータによって実現されたもの(狭義) 各国(各研究機関) がそれぞれ構築 統合した 大規模なデータベース 42 ゲノム情報(塩基配列)データベースデータベースとは?
(DNA Data Bank of Japan: DDBJ)
(DNA Data Bank of Japan: DDBJ)
GenBank
GenBank
国立遺伝学研究所 (National Institute of Genetics: NIG)
欧州バイオインフォマティクス研究所 (European Bioinformatics Institute : EBI)
米国国立バイオテクノロジー情報センター (National Center for Biotechnology Information: NCBI)
INSDC
(International Nucleotide Sequence Database Collaboration)
三大国際 塩基配 列 デ ー タ バ ン ク
(European Molecular Biology Laboratory
(European Molecular Biology Laboratory--Bank : EMBLBank : EMBL--Bank) Bank)
1500億塩基 ヒト:約30億塩基
43 DDBJの登録総塩基数の推移 199 6 199 8 (bp) 図1 DDBJの 登録総塩基数の推移 指数 関数 的? 44
データベース(DB)とは?
特許・論文
研究
世界で誰もやって ないことを行う応用・製品化
データベースへの 登録がほぼ義務化 生物情報のデータベースの多くは個々の研究者が登録したデータ 正しさは、誰も保証しない。 ほとんどのDBは無料。 有料のものも存在する。 ゲノム情報(塩基配列)データベース 一般の研究者が登録・・・何故? 45 タンパク質(アミノ酸)配列データベースデータベースとは?
PIR: Protein Information Resource
• タンパク質/アミノ酸配列データベースをもつ重要サイト
PRF: Protein Research Foundation wwPDB : Worldwide Protein Data Bank
• 国際的なタンパク質/アミノ酸配列データベースサイト UniProt (SWISS-PROT と TrEMBL が合併)
• SWISS-PROTは、研究者が人手でハイレベルのアノテーション(付加情報) をつけたタンパク質/アミノ酸配列データベース • TrEMBLは、コンピュータにより自動でアノテーション(付加情報)をつけたタ ンパク質/アミノ酸配列データベース • 蛋白質研究奨励会が提供しているアミノ酸配列データベース • タンパク質と核酸の3次元構造を蓄積している国際的なデータベース UniProt • SWISS-PROTに吸収された • オンライン情報検索等が可能 • PDBに蓄積されている構造データは、実験的に決定されたデータ 46 塩基配列・アミノ酸配列のデータベース検索
データベースとは?
BLAST (Basic Local Alignment Search Tool) バイオインフォマティクス手法の一つ DNAの塩基配列あるいはタンパク質のアミノ酸配列の アライメントを行うためのアルゴリズムもしくはプログラム あとで説明 日本では、国立遺伝学研究所がDDBJ等を検索するツールとして公開 検索できる 事が重要 47
データベースとは?
何が出来るか? • blastn(塩基配列 × 塩基配列データベース) 塩基配列・アミノ酸配列のデータベース検索BLAST (Basic Local Alignment Search Tool)
• blastx(塩基配列[アミノ酸配列] × アミノ酸配列データベース) • tblastx(塩基配列[アミノ酸配列] × 塩基配列データベース[アミノ酸配列]) • tblastn(アミノ酸配列 × 塩基配列データベース[アミノ酸配列]) • blastp(アミノ酸配列 × アミノ酸配列データベース) クエリ配列 48
データベースとは?
図で表すと 塩基配列塩基配列データベース DDBJ EMBL GenBank アミノ酸配列データベースアミノ酸配列 UniProt PRF wwPDB アミノ酸配列 アミノ酸配列 塩基配列 塩基配列 検索したい アミノ酸配列 アミノ酸配列(翻訳) アミノ酸配列 アミノ酸配列 翻訳 翻訳 塩基配列・アミノ酸配列のデータベース検索 BLAST (Basic Local Alignment Search Tool)49 生物
データベースとは?
何がうれしいの? GAATATGAA RGD 興味ある塩基配列 興味あるアミノ酸配列 BLAST BLAST 既知遺伝子の一部であると判明 塩基配列・アミノ酸配列のデータベース検索BLAST (Basic Local Alignment Search Tool)
異種の生物で機能を推測 酵母 マウス ヒト 植物 50 タンパク質構造データベース
データベースとは?
wwPDB : Worldwide Protein Data Bank
• タンパク質と核酸の3次元構造を蓄積している国際的なデータベース 3次元構造データベースなのでそのままでは、数値の羅列 視覚化ソフトが必要 • PDBに蓄積されている構造データは、実験的に決定されたデータ • RCSB PDB(米)、MSD-EBI(欧)、PDBj(日本)の三つの組織で運営 51
データベースとは?
タンパク質立体構造データ PDB IDコード どの 座 標 に ど の 原 子 が あ る か 分 か る 52 タンパク質構造データベースデータベースとは?
視覚化ソフトが必要 RasMolによるタンパク質の3次元構造の視覚化 53 タンパク質構造データベースデータベースとは?
どんな視覚化ソフトがあるか? RasMol • Rasmolベース • 高速なアルゴリズムを実装(安価なPCでも表示可能) Chime 有り 水分子が 進 入 で き ない 領域 を埋め る PyMOL • 高画質(OpenGLを使用) 分子表面表示 無し • 多機能(コマンド操作で操作は煩雑) • 分子表面の表示は出来ない • ブラウザ(IE等)内で使うプラグイン • 分子表面表示が可能 • 機能拡張可能 原子 原子 54分子表面表示
有り 水分子が 進 入 で き ない 領域 を埋め る 分子表面表示 無し 原子 原子 他の分子と相互作用する場所の同定に有効55
データベースとは?
代謝ネットワークデータベース
KEGG (Kyoto Encyclopedia of Genes and Genomes) 京都遺伝子ゲノム百科事典 • バイオインフォマティクス研究用のデータベース • 遺伝子、タンパク質、代謝やシグナル伝達などの分子間ネットワー クに関する情報を統合したデータベース • 京都大学化学研究所の金久教授らによるプロジェクト(1996年) • 二項関係に基づいた情報として整理 代謝物 代謝物 56
データベースとは?
代謝物 例: グルタミン酸代謝マップ 酵素 反応 代謝ネットワークデータベースKEGG (Kyoto Encyclopedia of Genes and Genomes)
詳し く 見 て み る 57
データベースとは?
2-オキソグルタルアマート α-ケトグルタル酸 コハク酸 フマル酸 リンゴ酸 オキサロ酢酸 クエン酸 クエン酸回路 ( TCA回路 ) ( クレブス回路 ) KEGGのこのような反応経路の集合体 58配列解析
59配列比較と生物の進化
相同性検索 類似性のある配列を 同種・異種のゲノムからサーチ 進化
マウス ヒト 共通祖先 突然変異 突然変異 突然変異 似ている配列 似ている配列とその起源その起源は?? ①種分化による相同タンパク生成 オルソログ(ortholog) 60配列データベースとクエリ配列
クエリ配列とは?? Query (質問) DB(データベース) ATCGATCGAT こんな配列 があるか? ATCGATCGATDBに問い合わせる配列の事
完全一致 配列あり ATCGTATCGAT 類似配列あり クエリ配列61
配列データベースとアライメント
アライメントとは?? Alignment (整列) GCGAATCGATCGATTTCGCAGCAATGCGTTT GGGGGGGGCCCCATCGATCGATGGCGCGGG クエリ配列 DB配列 アライメント前 GCGAATCGATCGATTTCGCAGCAAT GGGGGGGGCCCCATCGATCGATGGCGCGGG クエリ配列 DB配列 アライメント後 似ている配列を隣り合うように整列させること 62配列比較とアライメント
ATCGATCGAT サーチしたい配列 検索したいデータベース CCCCATCGATCGATGGGG 完全一致 CCCCATCGTATCGATGGGG ATCGATCGAT 部分一致 4の10乗=105万種類 偶然で一致する可能性は高くない (より長い配列なら尚更) 何か意味がある クエリ配列 10塩基 63ギャ
ッ
プ
配列比較とアライメント
ATCGATCGAT
CCCC
ATCG
T
ATCGAT
GGGG
ギャップとアライメントATCG
ヘモグロビンαのアライメントの例
サーチしたい配列 データベース配列 1個余分な塩基があるATCGAT
-
-
ギャップを入れることで余分な配列 がある場合もアライメントが可能 64配列比較と生物の進化
ヘモグロビンαのアライメント ヒトとマウスのアミノ酸比較 アミノ酸レベルでは、ほとんど同じ。 アライメントでそれが判明 65配列比較と生物の進化
②遺伝子重複による相同タンパク生成 突然 変異 祖先配列 配列1 配列2 遺伝子重複 配列1 配列2’ 同一 アミノ酸変化 機能変化 祖先タンパク質から機能が多様化した複数の相同タンパク質が生成 パラログ(paralog) 66γ
②遺伝子重複による相同タンパク生成の例配列比較と生物の進化
ヘモグロビン(4量体)γ
α
α
β
β
α
α
胎児の血液中 成人の血液中 ヘモグロビンにはα、β、γサブユニットがあり、相同タンパク質である 酸素運搬能力が高い67 補足
配列比較と生物の進化
偽遺伝子(pseudogene: シュードジーン) 進化の過程で機能を失った遺伝子 遺伝子 遺伝子A A ゲノム 遺伝子重複 遺伝子重複 ゲノム 遺伝子 遺伝子A A 遺伝子遺伝子A A ゲノム 遺伝子 遺伝子A A 偽遺伝子偽遺伝子 機能無し 突然変異 68配列比較と生物の進化
• グローバルアライメントMI-GMITG
MITGM-TG
アライメントは、相同タンパクを発見するための手段MIGMITG---MITGMTG
例: 2つのアミノ酸配列MIGMITGとMITGMTGのアライメント ローカルアライメント グルーバルアライメント • ローカルアライメント 69アルゴリズム
(言葉の定義)
アルゴリズムとは?? なんらかの問題を解くための手順手順のことである 対応する日本語は「算法(さんぽう)」 例: 数学的帰納法のアルゴリズム 自然数全体に関する命題P(n) (n∈N) が真であることを証明 ①P(0) は真である。 ②任意の自然数k に対し,P(k) が真であれば,P(k+1) も真である。 よって任意の自然数n について P(n) は真である。 70配列解析アルゴリズム
ダイナミックプログラミングによるアライメント最適化とは?アライメント問題
経路最適化問題
I
A
M -
S
A
-
M O
S
a b d c e L(b,d) L(b,e) L(c,e) L(a,c) L(a,b) 71配列解析アルゴリズム
ダイナミックプログラミングによるアライメント最適化とは?部分問題に分解
経路最適化問題
ダイナミック・プログラミングの原理アライメント問題
経路最適化問題
72ダイナミックプログラミング
ダイナミックプログラミングとは?? adへの最短ルートを求めたい 候補は 2通りある a b d c e a b d a c e b d b bは絶対に通る 部分問題に分解 abb と bbd ① ②73 ダイナミックプログラミングとは?? a b b d a c e b b d a b b d a c e b b d b b b b + + ① ② この範囲で最短ルートであれば adへのルートでも最短 ① ② 問題の 分 割 ダイナミックプログラミングの原理 同じ 最短ルート 最短ルート 全体として最短ルート
ダイナミックプログラミング
74 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致配列解析アルゴリズム
アライメント問題から経路最適化問題へ A A I I M M S S AIMSAIMSとAMOSAMOSの配列のアライメント
A A S S O O M M 経路問題 75 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致
配列解析アルゴリズム
アライメント問題から経路最適化問題へ A A I I M M S S AIMSAIMSとAMOSAMOSの配列のアライメント
A A S S O O M M 76 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致
配列解析アルゴリズム
アライメント問題から経路最適化問題へ A A I I M M S S AIMSAIMSとAMOSAMOSの配列のアライメント
赤色の部分を通るのが最短 赤色の部分を通るのが最短 A A S S O O M M 77 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致
配列解析アルゴリズム
アライメント問題から経路最適化問題へ A A I I M M S S AIMSAIMSとAMOSAMOSの配列のアライメント
ダイナミックプログラミングの原理で ダイナミックプログラミングの原理でAASSを部分問題に分解して解くを部分問題に分解して解く A A S S O O M M 78 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致
配列解析アルゴリズム
アライメント問題から経路最適化問題へ A A I I M M S S AIMSAIMSとAMOSAMOSの配列のアライメント
赤丸 赤丸●●を通るように最短経路を探索を通るように最短経路を探索今回は、1通りしかない今回は、1通りしかない A A S S O O M M
79 上の文字列 にギャップ 左の文字列 にギャップ 最短。ただし、 上左が要一致
配列解析アルゴリズム
アライメント問題から経路最適化問題へ A A I I M M S S AIMSAIMSとAMOSAMOSの配列のアライメント
ギャップの計算 ギャップの計算 A A S S O O M M 80
配列解析アルゴリズム
アライメント問題から経路最適化問題へ A A A A S S I I M M S S AIMSAIMSとAMOSAMOSの配列のアライメント
O O M M
I
A
A
M -
S
M O
-
S
アライメント完了
81配列解析アルゴリズム
マルチプルアライメント AIMSAIMSとAMOSAMOSの2配列だけでなくてさらにAMSOOAMSOO
I
A
A
M -
S
M O
-
S
A
-
M
-
S
O O
3 つ 以 上 の 配 列 を ア ラ イ メ ン ト 82配列解析アルゴリズム
BLAST • Smith-Watermanアルゴリズムの変形版A G T T A C
A C T T A G
クエリ配列 クエリ配列 データベース配列 データベース配列 W=3 第1ステップ 第2ステップ 第3ステップ Wのサイズの 完全一致 完全一致を探索 ギャップ無し アライメント ギャップあり アライメントA G T T A C
A C T T A G
クエリ配列 クエリ配列 データベース配列 データベース配列A G T T A C
A C T T A G C
データベース配列 データベース配列 クエリ配列 クエリ配列 BLASTは、第1・2ステップで、一致度の低いものはステップ3を行わない ここがSmith-Watermanアルゴリズムと異なる 83プロテオミクスとタンパク質立体構造解析
ここから プロテオミクスと
タンパク質の立体構造解析
84プロテオミクスの位置付け
プロテオミクスとは?? タンパク質の構造タンパク質 構造と機能機能を 対象とした網羅的な解析 プロテオーム解析 対象 対象 包括的情報包括的情報 学問体系学問体系 遺伝子 (Gene) 転写物 (Transcript) タンパク質 (Protein) ゲノム (Genome) トランスクリプトーム (Transcriptome) プロテオーム (Proteome) ゲノミクス (Genomics) トランスクリプトミクス (Transcriptomics) プロテオミクス (Proteomics) 生物の網羅的・包括的情報と研究 生物の網羅的・包括的情報と研究85
プロテオミクスとは
• 相互作用解析 タンパク質に関する網羅的な解析 ・・・多くのタンパク質は他のタンパク質 と相互作用し、機能する 実験的手法 • 発現解析 • 相互作用解析 • 構造解析 インフォマティクス手法 酵母酵母TwoTwo--hybrid(Y2H)hybrid(Y2H)法法
遺伝子の近接性保存による方法 遺伝子の近接性保存による方法 ゲノム上で近傍に位置する遺伝子から作られる タンパク質は相互作用する可能性が高いという仮定 系統プロファイル法 系統プロファイル法 進化の過程で、相互作用するタンパク質は、 セットで保存保存、或いは消滅消滅するという仮定 次のスライドで説明 86
酵母Two-hybrid法
GAL4転写因子 DNA結合 ドメイン 転写活性 ドメイン DNA 基本転写因子 レポーター遺伝子 タンパク質X タンパク質Y XとYの 相互作用 有り DNA レポーター遺伝子 タンパク質Z XとZの 相互作用 無し タンパク質X 87プロテオミクスとは
• 発現解析 タンパク質に関する網羅的な解析 ・・・多くの遺伝子はタンパク質となり機能を発揮する。 生体内でどのタンパク質がどれだけ作られているかどのタンパク質がどれだけ作られているか を調べることは重要。 ・二次元電気泳動二次元電気泳動(等電点と分子量で分類)によって タンパク質を分離し同定し、サンプル間で比較 実験的手法 多重性を考慮した 統計的な検定や機械学習 網羅的解析に おける問題点 ニューラルネットワーク、サポートベクターマシン、 ブースティング イン フ ォ マ テ ィ ク ス 解析 次のスライドで説明 88二次元電気泳動
等電点泳動 分子量 細胞 タンパク質の抽出 タンパク質 等電点勾配 ゲル 等電点の 違 い で泳 動 SDS-PAGEにより 分子量で泳動 89 サンプルA サンプルB二次元電気泳動の結果の比較解析
サンプルAとBでこの位置のタンパク質の発現に違い有り 統計的・情報学的な方法を使って、 サンプル間で発現の違うタンパク質を同定する 90タンパク質立体構造解析
なぜ立体構造解析が必要か? タンパク質は 複雑で多様 な機能を持つ 転写因子はどうやってDNAに結合するか? 酵素活性に必要な構造と配列はどこか? 立体構造情報 アミノ酸や原子の空間的な位置関係が分かる 生体高分子が担う触媒機能・タンパク質の進化について 配列は変化しても、構造は変化しない 構造バイオインフォマティクス タンパク質の立体構造解析91
タンパク質立体構造解析
なぜ立体構造解析が必要か? アミノ酸の一次配列 同条件(温度・溶媒等) ならいつも同じ構造 いつも紐のように、クニャクニャ しているわけではないタンパク質の多様な機能は、
この立体構造を基盤としている
92 視覚化ソフトが必要 RasMolによるタンパク質の3次元構造の視覚化タンパク質立体構造解析
ノート取らなくて良い 93 タンパク質構造表示方法 空間充填モデル バックボーンモデルタンパク質立体構造解析
ノート取らなくて良い 94 • 構造解析 タンパク質に関する網羅的な解析 ・・・タンパク質の機能は、構造に依存する。 実験的手法 予測法には、 構造バイオインフォマティクス ab initio法 ホモロジーモデリングなど X線結晶構造解析、核磁気共鳴(NMR)法 結晶化が必要 分子量は関係ない 結晶化が不要 分子量は小さいものに限定 溶媒中での構造をそのまま解析 後のスライドで説明タンパク質立体構造解析
95タンパク質立体構造解析
実験的構造決定法 (ww)PDBへの 登録数の推移 年代 分子量ごとの 登録数 登録 件数 分子量 NMR X線結晶解析 登録 件数 NMRは 低分子限定 X線解析 が主流 96 構造バイオインフォマティクス • 立体の類似度の評価方法(立体構造比較)RMSD (root mean square deviation, 平均2乗誤差の平方根)
DRMS (distance-based root mean square deviation) 単純に、対応するアミノ酸の距離の平方根を取る 並進・回転させて座標のずれを計算する
タンパク質A タンパク質B 並進・回転して重ねるタンパク質Bを
タンパク質立体構造解析
97 構造バイオインフォマティクス
• 立体の類似度の評価方法(立体構造比較)
RMSD (root mean square deviation, 平均2乗誤差の平方根)
DRMS (distance-based root mean square deviation)
タンパク質立体構造解析
次のページ で説明 回転 平行移動 単純に、対応するアミノ酸の距離の平方根を取る 98 DRMS (distance-based root mean square deviation)タンパク質立体構造解析
A B C D ① ②③ ④ ⑤ ⑥ 4アミノ酸のタンパク質 (実際にはタンパク質とは呼ばない) ① ①d(Ad(A, B, B) ) アミノ酸アミノ酸AAととBBの距離の距離 ② ②d(Ad(A, C, C) ) アミノ酸アミノ酸AAととCCの距離の距離 ③ ③d(Ad(A, D, D) ) アミノ酸アミノ酸AAととDDの距離の距離 ④ ④d(Bd(B, C, C) ) アミノ酸アミノ酸BBととCCの距離の距離 ⑤ ⑤d(Bd(B, D, D) ) アミノ酸アミノ酸BBととDDの距離の距離 ⑥ ⑥d(Cd(C, , DD) ) アミノ酸アミノ酸CCととDDの距離の距離 99 DRMS (distance-based root mean square deviation)タンパク質立体構造解析
A B C D ① ②③ ④ ⑤ ⑥ A B C D’ ①’ ②’③ ’ ④’ ⑤’ ⑥’ [(①-①’)2+(②-②’)2+(③-③’)2+(④-④’)2+(⑤-⑤’)2+(⑥-⑥’)2] 6 100 構造バイオインフォマティクスタンパク質立体構造解析
立体構造 の違 い RM S D (Å ) アミノ酸配列一致率(%) アミノ酸配列一致率が 低くても構造が似ている立体構造解析
が重
要
タンパク質のペアのアミノ酸一致率と構造の違い 似て い る 当たり前 101 構造バイオインフォマティクス タンパク質の立体構造解析タンパク質立体構造解析
①物理化学シミュレーション ② データマイニング 的アプローチ データベースを 利用した方法 • ホモロジーモデリングによる立体構造予測 102 構造バイオインフォマティクス • ホモロジーモデリング法 LNVANGKSVIGPALLEEVWGSRD 立体構造を知りたいアミノ酸配列タンパク質立体構造解析
タン パ ク 質 構 造 デー タ ベ ー ス 類似アミノ酸配列の構造をサーチ103 構造バイオインフォマティクス • ホモロジーモデリング法 LNVANGKSVIGPALLEEVWGSRD LNVANGKSV I GPALLEEVWFS-RD MNIADG-SVVGPTALQEAWFTQRD 立体構造を知りたいアミノ酸配列
アライメント
タンパク質立体構造解析
選択し た 構造 104 構造バイオインフォマティクス • ホモロジーモデリング法 D D M M N N I I A A G G V V S S G G P P T T V V A A L L Q Q E E A A W W F F T T Q Q R R D D D D L L N N V V A A G G I I S S G G P P T T V V L L L L E E E E V V W W F F T T Q Q R R D D K K タンパク質構造データベースで サーチしたタンパク質 をベースにモデリング既知構造タンパク質タンパク質立体構造解析
アミノ酸配列 と構造が既知 立体構造を知りたい アミノ酸配列 105 構造バイオインフォマティクス • ホモロジーモデリング法 LNVANGKSVIGPALLEEVWGSRD 立体構造を知りたいアミノ酸配列 タンパク質構造DB からサーチ LNVANGKSV I GPALLEEVWFS-RD MNIADG-SVVGPTALQEAWFTQRD アライメント D D M M N N I I A A G G V V S S G G P P T T V V A A L L Q Q E E A A W W F F T T Q Q R R D D D D M M N N I I A A G G V V S S G G P P T T V V A A L L Q Q E E A A W W F F T T Q Q R R D D D D L L N N V V A A G G I I S S G G P P T T V V L L L L E E E E V V W W F F T T Q Q R R D D K K D D L L N N V V A A G G I I S S G G P P T T V V L L L L E E E E V V W W F F T T Q Q R R D D K K 類似タンパク から構造予測タンパク質立体構造解析
106プロテオミクスのおさらい
様々な生物についてゲノム情報ゲノム情報だけでなく、 トランスクリプトーム、プロテオームの情報が蓄積 ヒトゲノムプロジェクトの完了相互作用解析
発現解析
構造解析
配列から、構造を決める 最終的なゴールは、機能を同定機能を同定し生命現象の解明生命現象の解明と創薬創薬など つくられているタンパク質 の量と種類を同定する 共同して働くパートナーの タンパク質を探索する 107インターネット上のプログラムを利用した
バイオインフォマティクス入門編
108準備として、まずは、メモ帳を起動
①スタートメニューを開く ②すべてのプログラム Notepadと入力 しても良い109
メモ帳の置換機能を活用
■タブの入力 Tabキー を押す タブ文字 が入力された CTRL+Aで 全文字選択 CTRL+Cで 選択範囲をコピー CTRL+Vで コピーした範囲を貼り付け 110UniProtを使ったタンパク質の検索
Googleで、uniprot (大文字小文字は区別無し)と入力する クリ ッ ク 111UniProtを使ったタンパク質の検索
Query に「p53」を入力して、Searchボタンを押す UniProtから、p53タンパク質を検索 UniProtのBLASTpやClustalΩ(オメガ) DDBJのBLASTとEMBOSSで対応する塩基配列を見つける 目的 112UniProtを使ったタンパク質の検索
タンパク質名 遺伝子名 属種名 アミノ酸長 アクセッション番号 アクセッション番号P04637 をクリックすると、 ヒトのp53タンパク質の詳細情報を閲覧可能 113UniProtを使ったタンパク質の検索
Protein names >タンパク質名 Gene names (Synonyms) >遺伝子名(別名) Organism > 属種名 Taxonomic identifier > 種名番号 Taxonomic lineage > 系統情報(界門綱目科属種等) Sequence length >アミノ酸長 Sequence status >完全長か などなど アクセッション番号P04637 (ヒトのp53タンパク質)の詳細情報 BLASTボタンをクリックしてDefault設定でGoで実行 114UniProtを使ったタンパク質の検索
前のページで見ていたタンパク質の アクセッション番号。アミノ酸データを入力してもok E値の閾値 (大きいほど、緩い) ギャップあり アライメント BLASTを押して実行 Advancedで実行した場合115
UniProtを使ったタンパク質の検索
チンパンジーは100% ゴリラとは99%一致 ゴリラ チンパンジー UniProtでのBLASTの実行結果 116UniProtを使ったタンパク質の検索
p53での検索結果 Alignをクリック (ClustalΩ実行) マルチプルアライメントを実行 2つ以上のエントリを選択 4つ前のスライド 117UniProtを使ったタンパク質の検索
*完全に保存 .部分的に保存 118UniProtを使ったタンパク質の検索
p53での検索結果を選択して、配列データを抽出 DownloadGoをクリック 2つ以上のエントリを選択 2つ前のスライド FASTA (ファストエー) 標準的な 配列データ 表記法 119UniProtを使ったタンパク質の検索(FASTA形式)
> 配列名(任意) アミノ酸配列(改行は、無視される) CTRL+AとCTRL+Cでコピー 120UniProtを使ったタンパク質の検索
CTRL+Vでメモ帳や秀丸にペースト 名前をつけて保存121
DDBJでtBLASTnを使った解析
GoogleでDDBJで検索 マルチプル アライメント BLAST 目的 p53(Human)のタンパク質から、当該塩基配列を予測する 122DDBJを使った解析
クリック 123DDBJを使った解析
②Humanにだけチェックを入れて、 その他の項目のチェックを外す ③ここをクリックして実行 ①Humanのp53の アミノ酸配列をペーストするPrimate: 霊長類, Rodent:齧歯類, Mammal: ほ乳類, Vertebrate:脊椎動物
124
DDBJを使った解析
しばらく待ちましょう!!(2~3分) 125DDBJを使った解析
中略
Best Hitのエントリ(一番上) をクリックして開く E=0なので 完全一致と と推測できる 126DDBJを使った解析
クリ ッ ク す る 当該エントリの詳細情報を参照127
DDBJを使った解析
塩基配列の フラットデータ 塩基配列 アミノ酸配列データ (無い場合もある) コピペでメモ帳へ 128DDBJを使った解析
どこからどこまでが、開始コドン・終止コドンなのかは、これだけでは分からない。 ※左端に何塩基目かの情報があるが、たいてい問題(邪魔)にならない. 気になるようなら、メモ帳で、 「1 」(1とスペース) を「 」(タブ)で置換し、 エクセルに貼り付けて、 切り出すことは可能 129メモ帳とエクセルを使った配列操作
(1)
タブを入力しておいて選択し、CTRL+Xで切り取る 130メモ帳とエクセルを使った配列操作
(2)
①CTRL+Hで 置換のためWindowsを開く 検索する文字列は「1 」(数字の1とスペース1つ) 置換後の文字列は「 」(タブ文字) (*このWindowでタブ文字の入力は出来ない) すべて置換(A) を押す 131メモ帳とエクセルを使った配列操作(3)
「1 」(1とスペース)が全て、「 」タブ文字に置換された。 CTRL+Aで、全範囲を選択して、CTRL+Xで選択範囲を切り取り、 EXCELの新規シートの適当な位置に、CTRL+Vで貼り付け 132メモ帳とエクセルを使った配列操作(4)
タブのおかげで、AA列に数字列に数字だけ、BB列に塩基配列列に塩基配列が表示される。 B列(緑の網掛け部分)のみをコピーして、再度メモ帳に貼り付ける。133
メモ帳とエクセルを使った配列操作(5)
数字の部分が削除できた!! CTRL+Hで、「 」(スペース)を、「」(文字無し)で置換する 134メモ帳とエクセルを使った配列操作(6)
余分なスペース数字が全て除去できた 135EMBOSS sixpackを使った解析
EMBOSS Explorer sixpackでgoogleで検索
クリ ッ ク す る 136
EMBOSS sixpackを使った解析
ここに先ほどの塩基配列 をペーストする 真核生物なので、 ここは、Yesにする ここをクリックして 実行 137EMBOSS sixpackを使った解析
一つの塩基配列から6パターンのアミノ酸配列が、翻訳できる。 このうち、どれが、p53タンパク質をコードしているか? 結果の真ん中のデータ 塩基配 列 相補 鎖 1文字目から 2文字目から 3文字目から 138EMBOSS sixpackを使った解析
翻訳しうるORFを リストアップしたもの フレーム3 ORF1が p53タンパク質139
EMBOSS sixpackを使った解析
結果の真ん中のデータ 中略 対応する塩基配列を特定 140 p53遺伝子の開始コドンから終止コドンまでを特定EMBOSS sixpackを使った解析
141DDBJでtBLASTnを使った解析
GoogleでDDBJで検索 マルチプル アライメント BLAST 目的 p53(Human)のタンパク質から、当該塩基配列を予測する 142DDBJを使ったClustalW解析
FASTA形式の配列(今回はアミノ酸) 今回は、アミノ酸配列 なので、Proteinを選ぶ これをクリックして アライメント開始 NJ法とUPGMAを 選択可能(今回はNJ法) 143DDBJを使ったClustalW解析
クリック 144DDBJを使ったClustalW解析
デスクトップや Zドライブへ保存 dndファイル であることを確認145 クリック