1
オミクス・医療情報の
統計・情報学的解析法
オミクス・医療情報の
オミクス・医療情報の
統計・情報学的解析法
統計・情報学的解析法
プレシジョン創薬概論 第4回 2019/05/13 医薬保健研究域薬学系 医薬保健研究域薬学系 活性相関物理化学 活性相関物理化学髙橋
髙橋
広夫
広夫
2授業計画
Ensembl
Ensembl
を使った遺伝情報の取得
を使った遺伝情報の取得
(5/13)
(5/13)
DDBJ
DDBJ
を用いた解析
を用いた解析
(5/13)
(5/13)
velvet
velvet
を用いた
を用いた
de novo assembly (for Windows)
de novo assembly (for Windows)
(5/13)
(5/13)
UniProt
UniProt
を用いた配列情報取得や解析
を用いた配列情報取得や解析
(5/13)
(5/13)
3インターネット上のプログラムを利用した
バイオインフォマティクス入門編
4講義の資料置き場
Internet Explorerを起動しGoogleを使って「高橋広夫」で検索 (Launch Internet Explorer and search “Takahashi Hiro Kanazawa”)1~9つ目に あるはず Google (not bing)
5 「講義の資料置き場」をクリック(Click lecture materials)
講義の資料置き場
6
講義の資料置き場
プレシジョン創薬概論をクリック
7
Ensembl
8
ENSEMBLを使った遺伝子情報の検索
Googleで、ENSEMBL (大・小文字は区別無し)と入力 (enter “ENSEMBL”)(No case-insensitive)
クリック (Click)
9
Ensembl (
https://www.ensembl.org/index.html)
EnsemblはEBI(欧)とサンガーセンターが1999年に立ち上げたDB (Ensembl genome database project is a joint scientific project between the European Bioinformatics Institute and the Wellcome Trust Sanger Institute, which was launched in 1999)
ゲノムが解読された生物に関する包括的自動アノテーション情報 (Comprehensive information of automatic annotation on sequenced genomes)
BLAST BioMart
BioMartは、Ontario Institute for Cancer Research (OiCR) と European Bioinformatics Institute (EBI) が共同で開発しているコミュニティ駆動型プロジェクトで
遺伝情報の一元的なアクセス法を提供している
(BioMart is a community-driven project to provide unified access to distributed research data)
10
Ensembl のサイト-種分類ごとにサイト
ENSEMBL <http://www.ensembl.org/>
150種(150 species for Ensembl Release 96)
Ensembl Metazoa (後生動物) <http://metazoa.ensembl.org/> 酵母やショウジョウバエも含む(Including yeast and fruit fly)
Ensembl Plants (植物) <http://plants.ensembl.org/>
Ensembl Fungi (菌類) <http://fungi.ensembl.org/>
Ensembl Protists (原生生物) <http://protists.ensembl.org/> Ensembl Bacteria (真正細菌) <http://bacteria.ensembl.org/>
61種(61 species for Ensembl plant Release 43)
11
ENSEMBLを使った遺伝子情報取得
ヒトTP53 遺伝子を調べてみよう
(Let’s try to search information of human TP53 in ENSEMBL)
ヒトを選んでTP53を入力してクリック(Choose human and input TP53 and click "GO")
12
13
ENSEMBLを使った遺伝子情報取得
GRCh38.p12は最新のヒトゲノム(Latest human genome) ENSEMBL stable gene ID
遺伝子の説明
染色体番号・座標
遺伝子別名
HUGO Gene Nomenclature Committee(HGNC)の正式名
CCDS (Consensus CDS)番号 転写産物表 下へスクロール (Scroll down) クリック (Click) 14
TP53のスプライスバリアント
Protein codingはコードタンパク質Nonsense mediated decay/Processed transcript /Retained intron 不安定な転写産物(ncRNAがコードされている場合あり)
CCDS UniProt RefSeq
数値が小さいほど、本当に存在 (Transcript Support Level, for transcripts that are not
supported at all by either an mRNA or an EST) ENSEMBL stable transcript ID
15
TP53のページのゲノムブラウザ
TP53の splice variant Genome position Intron Exon(UTR) Exon(CDS) (塗りつぶされたボックス) Promotor クリック (Click) 16TP53のページのゲノムブラウザ
17番染色体(Chr17) TP53Zoom in Zoom out Back 1 window Back 1M Forward 1 window Forward 1M クリック(Click) 17
ENSEMBLを使った遺伝子情報取得
クリック (Click) クリック(Click) 18ENSEMBLを使った遺伝子情報取得
クリック (Click)19
ENSEMBLを使った遺伝子情報取得
クリック (Click) 今回はエキソン単位 下へスクロール (Scroll down) 20ENSEMBLを使った遺伝子情報取得
クリック (Click) 21ENSEMBLを使った遺伝子情報取得
22 >TP53-222 ENSE00003753508 exon:protein_coding GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTT CTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTT GCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGG >TP53-222 ENSE00002667911 exon:protein_coding CAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGA GCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACT >TP53-222 ENSE00002419584 exon:protein_coding ACTTCCTGAAAACAACGTTCTG >TP53-222 ENSE00003625790 exon:protein_coding TCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAA TGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAGAATGCCAGAGGCTGCTCCCCCC GTGGCCCCTGCACCAGCAGCTCCTACACCGGCGGCCCCTGCACCAGCCCCCTCCTGGCCC CTGTCATCTTCTGTCCCTTCCCAGAAAACCTACCAGGGCAGCTACGGTTTCCGTCTGGGC TTCTTGCATTCTGGGACAGCCAAGTCTGTGACTTGCACGENSEMBLを使った遺伝子情報取得
FASTAファイル 配列名(必ず>から始まる)Sequence Name (Each identifier line starts with >)
この配列のどこかにセーブしてください (Save this sequence)
23
ENSEMBLを使った遺伝子情報取得
メモ帳を新規で開く(Open a new instance of Notepad)
p53の塩基配列をペースト(Paste base sequence of p53)
デスクトップへ (To Desktop) p53.exon.fasta.TXT 24
ENSEMBLを使ったBLAST解析
クリック (Click)25
ENSEMBLを使ったBLAST解析
先ほどの配列をペースト (Paste the sequence saved)
今回は、BLASTNを選択 (Choose BLASTN)
ヒトを選択 (Choose Homo sapiens)
クリック (Click) 26
ENSEMBLを使ったBLAST解析
クリック (Click) 27ENSEMBLを使ったBLAST解析
ヒット遺伝子 ゲノムのヒット位置 正鎖か逆鎖か E値 染色体マップ上の位置 28ENSEMBLを使った遺伝子情報取得
クリック(Click) Choose Ensembl Genes Choose Human genes 注: BioMartを使う時は、Internet explorerではうまく動作しない (BioMart does not work properly on Internet Explorer)29
ENSEMBLを使った遺伝子情報取得
遺伝子の属性 ・付加情報 配列を取得したいとき (Retrieve sequences) e.g. Gene stable ID Transcript stable ID Gene description Gene name Strand Gene start (bp) Gene end (bp) e.g. GO term accession GO term name HGNC symbol 必要な属性を選んでResultsをクリック(例: HGNC symbol ) (Choose attributes and click “Results”. )30
ENSEMBLを使った遺伝子情報取得
データの受け取り方法 ファイル形式
この機能はときどき壊れる (This feature sometimes breaks).
31
UniProt
32UniProtを使ったタンパク質の検索
クリック (Click)Googleで、uniprot(大文字小文字は区別無し)と入力 (Enter “UniProt”)(No case-insensitive)
33
UniProtを使ったタンパク質の検索
QueryとしてTP53を入力して、Searchボタンを押す (Enter TP53 and push Search button)
UniProtから、TP53タンパク質を検索 (Retrieve the amino acid sequence of TP53 from UniProt)
UniProtのBLASTpやClustalΩ(オメガ) DDBJのBLASTで対応する塩基配列を見つける (Find the base sequence corresponding to TP53 protein sequence by using DDBJ BLAST) 目的 (Objective) 34
UniProtを使ったタンパク質の検索
タンパク質名 遺伝子名 属種名 アミノ酸長 アクセッション番号 アクセッション番号P04637 をクリックすると、 ヒトのp53タンパク質の詳細情報を閲覧可能 35UniProtを使ったタンパク質の検索
Protein names >タンパク質名 Gene names (Synonyms) >遺伝子名(別名) Organism > 属種名 Taxonomic identifier > 種名番号 Taxonomic lineage > 系統情報(界門綱目科属種等) Sequence status >完全長か などなど アクセッション番号P04637 (ヒトのp53タンパク質)の詳細情報 BLASTボタンをクリックしてデフォルト設定でGoで実行(Click the BLAST button and execute it with default) 36
UniProtを使ったタンパク質の検索
前のページで見ていたタンパク質の アクセッション番号。アミノ酸データを入力してもok
(Accssion no. selected in the previous slide)
E値の閾値 (小さいほど厳しい) (The smaller the stricter)
ギャップありアライメント (Gapped alignment) Click
37
UniProtを使ったタンパク質の検索
チンパンジーは100% ゴリラとは99%一致 ゴリラ(Gorilla) チンパンジー (chimpanzee) UniProtでのBLASTpの実行結果 38UniProtを使ったタンパク質の検索
p53での検索結果Alignをクリック (ClustalΩ実行) (click here) マルチプルアライメントを実行(perform multiple alignment)
2つ以上のエントリを選択 (Choose over 1 entry)
4つ前のスライド 39
UniProtを使ったタンパク質の検索
*完全に保存 .部分的に保存 40UniProtを使ったタンパク質の検索
p53での検索結果を選択して、配列データを抽出 DownloadGoをクリック 2つ以上のエントリを選択 2つ前のスライド FASTA (ファストエー) 標準的な 配列データ 表記法 41UniProtを使ったタンパク質の検索(FASTA形式)
> 配列名(任意) アミノ酸配列(改行は、無視される) CTRL+AとCTRL+Cでコピー 42UniProtを使ったタンパク質の検索
CTRL+Vでメモ帳にペースト (Paste with CTRL+V to Notepad)名前をつけて保存 (Save as)
43
DDBJでtBLASTnを使った解析
GoogleでDDBJで検索 マルチプル アライメント BLAST 目的 p53(Human)のタンパク質から、当該塩基配列を予測する 44DDBJを使った解析
クリック 45DDBJを使った解析
②Humanにだけチェックを入れて、 その他の項目のチェックを外す ③ここをクリックして実行 ①Humanのp53の アミノ酸配列をペーストするPrimate: 霊長類, Rodent:齧歯類, Mammal: ほ乳類, Vertebrate:脊椎動物
46
DDBJを使った解析
しばらく待ちましょう!!(2~3分) Wait 2-3 minutes 47DDBJを使った解析
中略
Best Hitのエントリ(一番上) をクリックして開く E=0なので 完全一致と と推測できる 48DDBJを使った解析
クリ ッ ク す る 当該エントリの詳細情報を参照49