バイオ情報解析演習
2013年10月30日(水)
ウェブツールを活用した生物情報解析
(1) 配列と代謝経路の解析の基礎
有用物質生産菌を合理的に作ろう!
設計
試作
ベンチ
テスト
完成
プラスミド効率的な代謝経路を設計する。
文献調査
代謝パスウェイの探索
代謝
シミュレーション
実際に微生物に組み込む。
データベース
から有用遺伝子を探索する
遺伝子組換え技術
培養をして問題点を突き止める。
培養
代謝物量、フラックスの
データを解析
し、
問題点を突き止める。
「ウェブツールを活用した生物情報解析」の予定
10月28日(水)
1. 配列と代謝経路の解析の基礎
11月6日(水)
2. 塩基配列・アミノ酸配列のマルチアライメントと進化系統樹
11月13日(水)
3. 相同性検索
11月20日(水)
4. 遺伝子のクローニングの設計
参考図書 改訂第2版バイオデータベースとウェブツールの手とり足とり活用法 (羊土社)今日の授業のモチベーション
• 大腸菌でブタノールを生産したい
– ブタノールを生産する他の生物の遺伝子を大腸菌に組
み込む
• そのためには・・・
1. ブタノールを生産する生物種を探す
2. ブタノール合成経路の遺伝子を探す
3. 遺伝子をクローニングするために塩基配列を獲得する
4. 遺伝子およびその酵素の情報を収集する
3ウェブツールを利用する
生物学研究におけるウェブツールの活用
興味のある機能を 持つタンパク質を 抽出 •その機能に関係のあるタンパク 質をコードする遺伝子DNA断片 をクローニング •遺伝子DNAの塩基配列を決定 TACACACGAATAAAAGATAACAAAGATGAGTAAAGGAGA AGAACTTTTCACTGGAGTTGTCCCAATTCTTGTTGAATT AGATGGCGATGTTAATGGGCAAAAATTCTCTGTCAGTGG AGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCT TAAATTTATTTGCACTACTGGGAAGCTACCTGTTCCATG GCCAACACTTGTCACTACTTTCTCTTATGGTGTTCAATG CTTTTCAAGATACCCAGATCATATGAAACAGCATGACTT TTTCAAGAGTGCCATGCCCGAAGGTTATGTACAGGAAAG AACTATATTTTACAAAGATGACGGGAACTACAAGACACG TGCTGAAGTCAAGTTTGAAGGTGATACCCTTGTTAATAG AATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAA CATTCTTGGACACAAAATGGAATACAACTATAACTCACA TAATGTATACATCATGGCAGACAAACCAAAGAATGGAAT CAAAGTTAACTTCAAAATTAGACACAACATTAAAGATGG AAGCGTTCAATTAGCAGACCATTATCAACAAAATACTCC AATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTA CCTGTCCACACAATCTGCCCTTTCCAAAGATCCCAACGA AAAGAGAGATCACATGATCCTTCTTGAGTTTGTAACAGC TGCTGGGATTACACATGGCATGGATGAACTATACAAATA AATGTCCAGACTTCCAATTGACACTAAAGTGTCCGAACA ATTACTAAATTCTCAGGGTTCCTGGTTAAATTCAGGCTG AGACTTTATTTATATATTTATAGATTCATTAAAATTTTA TGAATAATTTATTGATGTTATTAATAGGGGCTATTTTCT TATTAAATAGGCTACTGGAGTGTAT この配列の中で、遺伝子のコード領 域 (CDS・ORF)はどこか? このタンパク質の立体構造はどう なっているのか? コードするタンパク質はどのような機 能を持っていると推測されるか? このタンパク質が持つ活性に関係の ある配列モチーフには、どのようなも のがあるか? この遺伝子の発現制御にかかわる DNA配列には、どのようなものがあ るか? この遺伝子やタンパク質に関する過 去の知見 (文献)にはどのようなもの があるか?これらはウェブブラウザを介して解析できる!
さまざまな生物情報データベース
5○塩基配列データベース: GenBank、EMBL、DDBJ
○アミノ酸配列データベース: SWISS-PLOT、TrEMBL、GenPept
○タンパク質の立体構造データベース: PDBj、SCOP、など
○タンパク質機能データベース: PROSITE、Pfam、InterPro、など
○代謝データベース: KEGG、MetaCyc
○酵素データベース: BREBDA、ENZYME
○各種生物のゲノムデータベース: EcoCyc (大腸菌)、GenoBase (大腸菌)、SGD (酵母)、など
○微生物ゲノムの統合データベース: MBGD
○トランスクリプトームデータのデータベース: GEO、など
○文献データベース: Entrenz PubMed、Google Scholar、など
•これらのデータベースから情報を入手し、さまざまなバイオインフォマティクスの解析を行うことが
できる。
•これらのデータベースの情報を活用した、さまざまなツールがインターネット上に存在する。
これらのデータベース名を Google等で検索し、どうい うデータベースかを調べて みよう。本日の内容
1. 塩基配列・アミノ酸配列の入手
配列の表記は核酸塩基・アミノ酸ともに左から右へ
7DNA・RNAの塩基配列
タンパク質のアミノ酸配列
ATGTGCGGCCTTCTTGGCATATTGACTGCA
5’
3’
左から右へ5’→3’となるように記述する。
MCGLLGILTANGNAEAFVPALERALPCMRH
N末端
C末端
左から右へN末端→C末端となるように記述する。
配列の表記は核酸塩基・アミノ酸ともに1文字表記
Code Description A Adenine C Cytosine G Guanine T Thymine U Uracil R Purine (A or G) Y Pyrimidine (C, T, or U) M C or A K T, U, or G W T, U, or A S C or G B C, T, U, or G (not A) D A, T, U, or G (not C) H A, T, U, or C (not G) V A, C, or G (not T, not U) N Any base (A, C, G, T, or U)1-letter Description A Alanine R Arginine N Asparagine D Aspartic acid C Cysteine Q Glutamine E Glutamic acid G Glycine H Histidine I Isoleucine L Leucine K Lysine M Methionine F Phenylalanine P Proline S Serine T Threonine W Tryptophan Y Tyrosine V Valine
B Aspartic acid or Asparagine Z Glutamine or Glutamic acid
塩基配列データベース
9国際塩基配列データベース
•DDBJ (国立遺伝学研究所DDBJ)
•EMBL (ヨーロッパEBI)
•GenBank (アメリカNCBI)
•全世界の研究者が取得した塩基配列データを、3機関が定めた統一の基準
によって収集、編纂したもの。
•データの登録は、配列データを取得した研究者自身が行う (国際学術論文に
新規取得した配列を掲載する際には、これらのうちいずれかのデータベース
に登録することが義務)。
[問題点]
•統一基準を用いているとはいえ、さまざまな種類のデータが混在している。
•データの由来は異なるが、配列としては同一と見なせるデータが多数混在し
ており、冗長性を招いている。
アミノ酸配列データベース
・SWISS-PROT
研究者が人手でハイレベルのアノテーション (付加情報)をつけたタンパク質/アミノ酸配
列データベース
・TrEMBL
コンピュータにより、ハイレベルのアノテーション (付加情報)をつけたタンパク質/アミノ
酸配列データベース
・GenPept
塩基配列データベースに登録されている配列を、自動的にアミノ酸配列に翻訳したもの
を登録
・PIR
国際的なタンパク質/アミノ酸配列データベース
日本 (JPID)・アメリカ (NBRF)・ヨーロッパ (MIPS)の共同で開発
SWISS-PROT・TrEMBL・GenPeptなどの情報を統合し、重複を除いたPIR-NREFも開発
配列の記述形式
11DNAの塩基配列やタンパク質のアミノ酸配列を用いて解析する際には、
配列を適切な形式で記述する必要がある。
(1) GenBank形式 (アミノ酸配列はGenPept形式)
文献情報、配列の機能情報、mRNAやコード領域の位置、
重要な変異の位置などの情報を配列とともに記述
(2) FASTA形式
配列の名前や由来に関する情報と配列のみを記述
DNAの塩基配列やタンパク質のアミノ酸配列には、それぞれに固有の
Accession numberが付与されている。
配列の記述形式 ① GenBank形式
LOCUS 遺伝子座の名前、配列の長さと種類、生物分類、登録の日付 DEFINITION 配列の名前 ACCESSION アクセッション番号 VERSION 配列のバージョン KEYWORDS この配列を相互参照するためのキーワード SOURCE 由来となる生物 ORGANISM 生物の詳細な記述 REFERENCE 文献情報 AUTHORS 著者名 TITLE タイトル JOURNAL 雑誌名、巻・号、ページ、出版年 PUBMED PubMed ID FEATURES 位置あるいは領域ごとの配列についての情報 source 配列の範囲、由来となる生物 misc_signal 配列の範囲、機能やシグナルの種類 mRNA 配列の範囲、mRNA gene 配列の範囲、遺伝子 CDS 配列の範囲、コード領域 ORIGIN 配列の始まり1 atgtgcggcc ttcttggcat attgactgca aatgggaacg ctgaagcatt cgttcctgca 61 ctcgagcggg ccttgccatg catgcgccac cgtggtcctg acgatgccgg cacttggcat // 配列の終わり FEATURESにはほかに、 intron (イントロンの範囲) promoter (プロモーターの範囲) mutation (変異の位置) 等の情報を入力できる
識別子と呼ばれ、解析プログラム
がこれらを認識して配列を扱う
13
LOCUS AB029550 1923 bp DNA linear BCT 23-MAY-2000 DEFINITION Corynebacterium glutamicum genes for LtsA, ORF1, complete cds.
ACCESSION AB029550 REGION: 815..2737 VERSION AB029550.1 GI:6714539
KEYWORDS ORF1; LtsA.
SOURCE Corynebacterium glutamicum ORGANISM Corynebacterium glutamicum
Bacteria; Actinobacteria; Actinobacteridae; Actinomycetales; Corynebacterineae; Corynebacteriaceae; Corynebacterium.
REFERENCE 1
AUTHORS Hirasawa,T., Wachi,M. and Nagai,K.
TITLE A mutation in the Corynebacterium glutamicum ltsA gene causes susceptibility to lysozyme, temperature-sensitive growth, and L-glutamate production
JOURNAL J. Bacteriol. 182 (10), 2696-2701 (2000) PUBMED 10781535
REFERENCE 2 (bases 1 to 1923)
AUTHORS Wachi,M. and Hirasawa,T. TITLE Direct Submission
JOURNAL Submitted (03-JUL-1999) Masaaki Wachi, Tokyo Institute of
Technology, Department of Bioengineering; 4259 Nagatsuta Midori-ku, Yokohama, Kanagawa 226-8501, Japan (E-mail:[email protected], Tel:81-45-924-5770, Fax:81-45-924-5820)
GenBank形式で記述した配列 (例)
Accession number
配列の由来となる生物種
FEATURES Location/Qualifiers source 1..1923 /organism="Corynebacterium glutamicum" /mol_type="genomic DNA" /strain="KY9611" /db_xref="taxon:1718" gene 1..1923 /gene="ltsA" CDS 1..1923 /gene="ltsA" /codon_start=1 /transl_table=11 /product="LtsA" /protein_id="BAA89484.1" /db_xref="GI:6714540" /translation="MCGLLGILTANGNAEAFVPALERALPCMRHRGPDDAGTWHDADA AFGFNRLSIIDIAHSHQPLRWGPADEPDRYAMTFNGEIYNYVELRKELSDLGYTFNTS DELFGWAQDTIKESGTEDIFNKQAVLDMLNEHRDGVSDHSRRLWTVLSFMVWHGIFVE NRIDPQIEDRSYPVEL” ORIGIN
1 atgtgcggcc ttcttggcat attgactgca aatgggaacg ctgaagcatt cgttcctgca 61 ctcgagcggg ccttgccatg catgcgccac cgtggtcctg acgatgccgg cacttggcat 1861 atttttgtgg aaaaccgcat tgatccacag attgaggacc gctcctaccc ggtcgagctt 1921 taa
<途中省略>
<途中省略>
Coding sequence (ORFに相当)の略
配列
5’末端
CDSに関する情報
LOCUS BAB96652 588 aa linear BCT 20-NOV-2008 DEFINITION transpeptidase involved in septal peptidoglycan synthesis
[Escherichia coli str. K-12 substr. W3110]. ACCESSION BAB96652
VERSION BAB96652.1 GI:21321965 DBSOURCE accession AP009048.1 KEYWORDS .
SOURCE Escherichia coli str. K-12 substr. W3110 ORGANISM Escherichia coli str. K-12 substr. W3110
Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Escherichia.
REFERENCE 1
AUTHORS Musso,R., Di Lauro,R., Rosenberg,M. and de Crombrugghe,B. TITLE Nucleotide sequence of the operator-promoter region of the
galactose operon of Escherichia coli
JOURNAL Proc. Natl. Acad. Sci. U.S.A. 74 (1), 106-110 (1977) PUBMED 319453
一部省略
REFERENCE 142 (residues 1 to 588)
AUTHORS Mori,H., Hirai,A., Morooka,N. and Horiuchi,T. TITLE Direct Submission
JOURNAL Submitted (22-AUG-2005) Contact:Hirotada Mori Graduate School of Biological Sciences, Nara Institute of Science and Technology; 8916-5 Takayama, Ikoma, Nara 630-0101, Japan
FEATURES Location/Qualifiers source 1..588
/organism="Escherichia coli str. K-12 substr. W3110" /strain="K-12"
/sub_strain="W3110" /db_xref="taxon:316407" Protein 1..588
/product="transpeptidase involved in septal peptidoglycan synthesis"
Region 2..579
/region_name="PRK15105"
/note="peptidoglycan synthase FtsI; Provisional" /db_xref="CDD:185060"
Region 71..222
/region_name="PBP_dimer"
/note="Penicillin-binding Protein dimerisation domain; pfam03717"
/db_xref="CDD:190723" Region 260..554
/region_name="Transpeptidase"
/note="Penicillin binding protein transpeptidase domain; cl01039" /db_xref="CDD:154162" CDS 1..588 /gene="ftsI" /coded_by="AP009048.1:91413..93179" /note="ECK0085:JW0082:b0084; penicillin-binding protein 3" /transl_table=11 ORIGIN
1 mkaaaktqkp krqeehanfi swrfallcgc illalafllg rvawlqvisp dmlvkegdmr 61 slrvqqvsts rgmitdrsgr plavsvpvka iwadpkevhd aggisvgdrw kalanalnip
一部省略
481 gvkaaikgyr iaiktgtakk vgpdgryink yiaytagvap asqprfalvv vindpqagky 541 yggavsapvf gaimggvlrt mniepdaltt gdknefvinq gegtggrs
// 71番目から222番目までのアミノ 酸領域が、penicillin-binding proteinの二量体化 (dimerization) に関与する。 261番目から554番目までのアミノ 酸領域が、transpeptidaseドメイン として機能する。 1番目から588番目まで (全長)が coding sequences (CDS)である。 ftsIという遺伝子がコードしている。 タンパク質の名称 Accession number 由来となる生物種 アミノ酸配列 N末端 C末端 この配列に関連する文献の情報 アミノ酸配列 (GenPept形式)
配列の記述形式 ② FASTA形式
>gi|6714539:815-2737 Corynebacterium glutamicum genes for LtsA, ORF1, complete cds ATGTGCGGCCTTCTTGGCATATTGACTGCAAATGGGAACGCTGAAGCATTCGTTCCTGCACTCGAGCGGG CCTTGCCATGCATGCGCCACCGTGGTCCTGACGATGCCGGCACTTGGCATGACGCCGATGCAGCGTTTGG ATTCAACCGCCTCTCCATCATTGATATTGCACACTCCCACCAACCACTGCGTTGGGGACCTGCGGATGAA CCCGACCGCTACGCAATGACTTTCAACGGTGAGATCTACAACTACGTTGAGCTGCGTAAAGAGCTCTCGG ATTTGGGATATACCTTTAATACTTCTGGCGATGGCGAGCCAATTGTTGTCGGTTTCCACCACTGGGGCGA GTCCGTGGTCGAGCATCTCCGCGGAATGTTCGGCATTGCCATTTGGGATACAAAGGAAAAGTCGCTTTTC CTTGCGCGTGATCAGTTCGGCATCAAGCCACTGTTCTACGCAACCACCGAGCATGGCACCGTGTTCTCCT CAGAGAAGAAGACCATCTTGGAGATGGCCGAGGAGATGAATCTAGATCTGGGCCTTGATAAGCGCACCAT TGAGCACTACGTGGACCTGCAGTACGTGCCCGAGCCAGATACCCTTCACGCGCAGATTTCCCGCTTGGAG TCAGGCTGCACCGCAACAGTTCGTCCGGGCGGCAAGCTGGAACAGAAGCGTTACTTCAAGCCTCAGTTCC CAGTACAGAAGGTCGTAAAGGGTAAGGAGCAGGACCTCTTCGATCGCATTGCCCAGGTGTTGGAGGATAG CGTCGAAAAGCATATGCGTGCCGACGTGACCGTAGGCTCGTTCCTTTCCGGCGGCATTGACTCAACCGCA ATTGCGCCGCTTGCAAAGCGCCACAACCCTGACCTGCTCACCTTCACCACCGGTTTCGAGCGTGAAGGCT ACTCGGAGGTCGATGTGGCTGCGGAGTCCGCCGCTGCGATTGGCGCTGAGCACATCGTGAAGATTGTCTC GCCTGAGGAATACGCCAACGCGATTCCTAAGATCATGTGGTACTTGGATGATCCTGTAGCTGACCCATCA TTGGTCCCGCTGTACTTCGTGGCAGCGGAAGCACGTAAGCACGTCAAGGTTGTGCTGTCTGGCGAGGGCG CAGATGAGCTGTTCGGTGGATACACCATTTACAAAGAGCCGCTATCGCTTGCTCCATTTGAGAAGATCCC TTCCCCACTACGTAAAGGCCTGGGAAAGCTCAGCAAGGTTCTGCCAGACGGCATGAAGGGCAAGTCCCTT CTTGAGCGTGGCTCCATGACCATGGAAGAGCGCTACTACGGCAACGCTCGCTCCTTCAATTTCGAGCAGA TGCAACGCGTTATTCCATGGGCAAAGCGCGAATGGGACCACCGCGAAGTCACTGCACCGATCTACGCACA ATCCCGCAACTTTGATCCAGTAGCCCGCATGCAACACCTGGATCTGTTCACCTGGATGCGCGGCGACATC CTGGTCAAGGCTGACAAGATCAACATGGCGAACTCCCTTGAGCTGCGAGTTCCATTCTTGGATAAGGAAG TTTTCAAGGTTGCAGAGACCATTCCTTACGATCTGAAGATTGCCAACGGTACCACCAAGTACGCGCTGCG CAGGGCACTCGAGCAGATTGTTCCGCCTCACGTTTTGCACCGCAAGAAGCTGGGCTTCCCTGTTCCCATG CGCCACTGGCTTGCCGGCGATGAGCTGTTCGGTTGGGCGCAGGACACCATTAAGGAATCCGGTACTGAAG ATATCTTCAACAAGCAGGCTGTGCTGGATATGCTGAACGAGCACCGCGATGGCGTGTCAGATCATTCCCG TCGACTGTGGACTGTTCTGTCATTTATGGTGTGGCACGGCATTTTTGTGGAAAACCGCATTGATCCACAG
(1) 1行目は、”>”という文字とその後に配列の名前が続く注釈行
(“>”と文字の間にスペースを入れてはいけない)
(2) 2行目以降は1文字記号で表される配列
配列名
塩基配列:5’末端 アミノ酸配列:N末端 塩基配列:3’末端配列の入手
17
KEGG (Kyoto Encyclopedia of
Genes and Genomes)
http://www.genome.jp/kegg
/
NCBI
(National Center for Biotechnology Information)
・Gene
http://www.ncbi.nlm.nih.gov/gene/ ・Protein
配列の入手 塩基配列の入手
NCBI Gene
http://www.ncbi.nlm.nih.gov/gene/
生物種名・遺伝子名・Accession number等を入
力してSearchボタンをクリック
例えば・・・
大腸菌Escherichia coli k12株のdnaA遺伝子の配列を入手する
↓
配列の入手 塩基配列の入手
19 [今後の検索のために・・・] 1) 検索の際に複数のワードをANDもしくはORでつなぐことができる ※スペースでワードをつなげると「AND」と同じ結果になる 2) 大文字・小文字の区別はない。Accession number
発見
配列の入手 塩基配列の入手
遺伝子の機能に
基づく名前
遺伝子がコードする
酵素の機能
遺伝子のゲノム上の
位置などに基づく名前
配列の入手 塩基配列の入手
21ゲノム上での
近傍の遺伝子を含む位置情報
GenBank形式の
塩基配列
FASTA形式の
塩基配列
配列の入手 塩基配列の入手
FASTA形式の塩基配列の
獲得に成功
配列の入手 アミノ酸配列の入手
23
同じようにして、タンパク質のアミノ酸配列も入手してみる。
Entrez Protein: http://www.ncbi.nlm.nih.gov/protein
25
ここをクリックすると、FASTA形式に表示が変わる
GenePept形式で表示される
配列の入手
個々の生物のゲノム情報のデータベースも存在する。
生物種
データベース
大腸菌
Encyclopedia of Escherichia coli K-12 Genes and Metabolism
(EcoCyc)
GenoBase 6.0
Profiling of E. coli Chromosome (PEC)
酵母
Saccharomyces genome database (SGD)
シロイヌナズナ
The Arabidopsis Information Resource (TAIR)
ヒト
Human Genome Project Information
Ensembl Human
全般
Kyoto Encyclopedia of Genes and Genomes (KEGG)
Entrez Genome
Entrez Gene
BioCyc
配列の入手
27KEGG: http://www.genome.jp/kegg/
配列、代謝経路、代謝物質、酵素、酵素反応などを統合的・横断的に解析することができるデータベースKEGG Organismsをクリックする。
例) パン酵母 (Saccharomyces cerevisiae)のADH遺伝子の配列を入手する。
KEGGを使ってゲノム配列が決定されている生物種の
配列情報を入手する
この表の中から、
生物種を選ぶ
29
ここをクリック
31 各種データ ベースへの リンク
下へ移動すると・・・
NCBIのADH5遺伝子の情報へ 移動アミノ酸配列
CDS (ORF)の塩基配列
ここをクリックすると、配列がFASTA形式で表示される。 ここに数字を入れてNT seqボタンをクリックすると、CDSの上流(+upstream)・下流配列が現れる
表示されている配列は そのままコピペできる33
ADH5遺伝子が関連する代謝経路の情報
ADH5遺伝子がコードするタン パク質の酵素番号が赤で示さ れる。