• 検索結果がありません。

トーゴーの日シンポジウム 2016 東大弥生講堂, 5 October 2016 生命科学におけるデータサイエンスの課題と PDB 中村春木 大阪大学蛋白質研究所

N/A
N/A
Protected

Academic year: 2021

シェア "トーゴーの日シンポジウム 2016 東大弥生講堂, 5 October 2016 生命科学におけるデータサイエンスの課題と PDB 中村春木 大阪大学蛋白質研究所"

Copied!
43
0
0

読み込み中.... (全文を見る)

全文

(1)

生命科学における

データサイエンスの課題

PDB

中村 春木

大阪大学蛋白質研究所

harukin@protein.osaka-u.ac.jp

http://pdbj.org/, http://wwpdb.org/

トーゴーの日シンポジウム

2016

東大弥生講堂

, 5 October 2016

Licensed under a Creative Commons表示4.0国際 license (c)2016 中村春木(大阪大学蛋白質研究所)

(2)

)

,*%



3

=LQHEP

#

Sir Isaac Newton

(1642-1727)

</2C3-LQHEP

DIKW

NQOIK

(J. Rowley: The wisdom hierarchy, 2007)

JRG(

Data

)139-C 0B,JRG

$D79&36 S

Information

T:3,

5="<A796;!S

Knowledge

T=

D44@, S

Wisdom

):39'"D.

W

isdom

K

nowledge

I

nformation

D

ata



4

=LQHEP

JRG

(- or –() 

AI

 :>8-6MIFJRG?

11.3 PF

(T

理化学研究所計算科学研

究機構ホームページから

(3)

データが無ければ問題解決はできない

(より正しくは)

正確な

データが無ければ問題解決はできない

・使われるデータは正しいのか?

  

→データの客観的な

validation

の仕組みが必要

・使われるデータは最新か?

  

→データの

versioning

の仕組みが必要

正確な

データが無い場合はどうするか?

  

実験

シミュレーション

により正確なデータを創出する

   (シミュレーション結果もアーカイブする)

データ科学の課題

(4)

!

X-ray Crystallography







!

Nuclear Magnetic Resonance (NMR)







!

Cryo-Electron Microscopy



PDB: Protein Data Bank since 1971

ă`Śăħ

ÌLřťŨ¢Ì

®'Ĩư

NMRƱ

ƁƛŸƌƩðä

(@IPR)

XFEL & Synchrotron

(SACLA & SPring-8)

(SACLA & SPring-8)

ޓĩľľĽĩĩľ

XãD~ĩľĽĩľľľěV^hƝƈƘĩľĽĩľľ4VơƋƩ

1

HN (ppm)

15

N (ppm)

½ħ*V

3ª Ö¦ĉvKŚŭƯŵůƗ

(5)

3.8 Å *øæ

ĩ

PfV (Pf Virus-like particle) *VŚůƠƯƀ

ĖPìÅÊƮ]cÈgĿacy²Ŀdˆ8ŚRwřťŨ

Mw = 7 MDa

&:;<:=!0.>?!(@$A!B1!

(6)

ìÅĂŚlŚƋƯƅƒƬŸƵ

PDB

ĹĸĶŚ¬8

ĮĴıĭf

ƵìÅĂޓXŇSşŨ

ľƞŴŹƫƔƬĿƙơŹƫƔƬĿ

ľƨƄƇƯƟŘŗ





ĮĴIJĭf

ƵĹĸĶĩĒSĩ

IJ

ưĮĴIJĮfĮĭ˜Ʊ

ľÚFƗƩƈŸƙƗƬFÖÊÕz

ľPĖPXìÅĂÊÕzřŅŃŔţ

ľſƌŸƫƟ

Ś¦ĉū°ZĽÄď

ľÌ®ƊƯƘūče

ƝƈŸƁĩƛƩƯƉĩ

H!!

ľľľľľƀƥƬĩźƬƍƨƣƯ

!

ư

2%A0fƐƯƚƩ1XāƱĩ

(7)

蛋白質の形のデータバンク:

PDB

1980年代

:データ登録の急増(国際結晶学会:

     

データ登録が論文投稿の必須条件

1990年代

:RCSB-PDB(米国)が運営を開始

2000年代

wwPDB

が設立(2003年)

     構造ゲノム科学による構造急増

2010年代

:新規の手法が開発

     

123,000件

以上のデータ公開

     ビッグ・データの時代へ

(8)

Protein Data Bank Japan

http://pdbj.org/

  

2000年から、国立研究開発法人 

  科学技術振興機構(現在は

NBDC)

  の支援を受けて活動

PDBj スタッフ

(2016年4月)

PDBj-BMRB スタッフ

PDBj トップページ(日・英・中・台・韓)

(9)

The wwPDB (world-wide PDB)

14

wwpdb.org

12回 wwPDB 国際諮問委員会

大阪大学蛋白質研究所

2015年10月2日

wwPDB since 2003

(10)

wwPDBの各メンバーの活動とサービス

•  “

Data-in

” の活動:wwPDBの一員として

データの高品質を保つ。その目的のため、

データ登録法

検証システム

versioning

システム

新規データフォーマット

を開発

  “Data-out”

の活動:共通データのダウンロー

ドサイト(毎週水曜

9

時にアプデート)の運営

種々のサービスや二次データベースの提供

(11)

PDB OneDep

(Depositions & Annotations)

125K 74K 28K 24K

! 2016f7˜ņŦĿY%ŘHJ+

ŚÄď(¼ŇĒS

! RCSB PDB: 32ŭƠƨŵŅ

ťŝŴƂŭƎŭ

! PDBe: ƦƯƫƈƓŖŭƖƨŵ

! PDBj: ŭƀŭŖŸ

OneDep

(12)

OneDep: Unified Deposition Portal for the wwPDB



(13)

OneDep: Unified Deposition Portal for the wwPDB



(14)

OneDep: Unified Deposition Portal for the wwPDB

Re-directed to PDBj site

(15)

0 20000 40000 60000 80000 100000 120000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

世界中で決定された構造の

約1/4の登録処理

PDBjで実施

PDBjで処理された総件数 (

27,779,

2016年9月27日)

PDBの総データ件数 (

123,021,

2016年9月28日)

PDBj と wwPDBのData-in活動

PDB

登録データ件数

(*2016年9月28日付)

*

2000 2005 2010 2015 2016*

120000

100000

80000

60000

40000

20000

0

22

(16)

wwPDBŞŚ:fh­ŚÄď‰

X-ray



NMR



NMR



EM



,-./

!"#$%&'%()#*"$"#+,-./)#0"#1%2%345%#6789:;#

EM



(17)

研究者番号

ORCID の利用

Open Researcher and Contributor ID

http://orcid.org

•  wwPDB では

2016

4

から利用開始

2018

年には必須項目

とする予定

24

(18)

25

Validation report のweb公開

Validation reportの例

データ検証(

Validation

)レポートの発行と

実験データの公開

登録時に必須とされている実験情報

• X-ray: Structure Factor(構造因子)

• NMR: 化学シフトと距離拘束情報

(19)

PDB エントリーのversion管理

現行の問題点

•  座標更新時には、同一の実験データに由来するものでもPDB IDが変更される

 

 

→ 

論文中で使われる

PDB ID と実際に公開されるPDBIDとが一致しない

新規

PDB ID コードの導入(案)

•  分かり易く透明性のあるversion管理による

更新データファイル名称

•  “PDB”を先頭につけ、4文字コードも拡張

   

(例:現行の

“1ABC

” から “

PDB_00001ABC

”のように変更・拡張)

•  PDB IDコードの例:

PDB_00001ABC_XYZ_V2-2.cif.gz

実装の計画(案)

version管理がなされた新規のPDB IDコードによるftp サイトを公開

  (ツリー構造として構造情報だけでなく関連する実験情報、メタ情報を含む)

現行の

PDBIDを付けた

ftp サイトを継続して公開

  (最新

versionの構造情報のみを公開)

26

(20)

PDBの新規フォーマット:

PDBx/mmCIF

•  PDB フォーマット は

40

年以上前

に作られ、現在の科学

にはうまく合致しない

•  PDB レコードの限界

  最大

62 本の高分子鎖まで

  最大

99,999 ヶの原子まで

–  リガンドの結合次数や光学活性(キラリティー)が記載されない

–  NMR, 電子顕微鏡, ハイブリッド法, etcへの対応が不備

–  メタデータの記載が面倒であり情報を引き出しにくい

  新規フォーマットでもできるだけ互換性を保つ

  新規フォーマットから

PDBフォーマットへの変換サービスを公開

2014年から開始

(21)

Large Structures (434) in PDB

! 2014f12˜ņŦ, ĐĿ4V‰ŇOŃ large structures śPDB ƖųƯƝƈƌŕ

ś«ôřś&ĒŋũŎ

PDBx/mmCIF

Ņťŝ

PDBML

ƖŬůƩ঩&Ē

! A bundle of “best-effort PDB files (PDB bundle)” śĿnžņŦŚƤƯž

ŚŐŢř

wwPDB FTP ŽůƌņŦ&Ē

! :ĩwwPDB ƠƬƒƯś

large structures

ūóŨƉƯƩ

ūƒ

PDBe

RCSB-PDB

PDBj

4v6x: structure of

human 80S ribosome,

89 chains, 4 MDa

(22)

%+#

D**!3-N,+,!O..P,8!N,!Q.C/

C+R.S!KNF.M4F+T!UT+V-*MR!

#

23#)4'#5-678#%$!&#9:7;#%'#.<-3=-->



!

&.9.T!LNR.J!WF.X!LNR.!

####?@A#5.3#B:-CDE#FA5G4HBGI#

3+O..T!Y.F+,E.T!?HBG-I#

ZN,!Q.S.FF!?GJFGI#

[+T4E*!D+E+O4T+J![*TN\4O*!34?4E*J!

U.T9/I+,!;.EE.T!

####?HBGKI

]N,9T*C4PN,R!\TNO!+FF!9-.!55&:;!V+T9,.TR

Web-based Molecular Graphics

MMTF

(Macromolecular

(23)

»íŚ

PDB

řŅŊŨƖųƯƝƈƌ

PDB (ca. 1974)

PDBx/mmCIF (ca. 1997)

PDBML (ca. 2005)

RDF (ca. 2011)

PDB

PDBx/

mmCIF

PDBML

& RDF

PDBx/mmCIF ŕ ŚƋƯƅŇÙ¼ŋũŚƖųƯƝƈƌŞN„

(24)

ATOM 1 N GLN A 39 24.690 -27.754 24.275 1.00 60.76 N ATOM 2 CA GLN A 39 23.581 -26.768 24.416 1.00 60.98 C ATOM 3 C GLN A 39 23.990 -25.379 23.905 1.00 59.98 C ATOM 4 O GLN A 39 25.070 -25.209 23.330 1.00 60.25 O ATOM 5 CB GLN A 39 23.136 -26.685 25.878 1.00 60.69 C ATOM 6 N VAL A 40 23.115 -24.395 24.122 1.00 59.58 N ATOM 7 CA VAL A 40 23.342 -23.010 23.690 1.00 57.26 C ATOM 8 C VAL A 40 24.000 -22.152 24.778 1.00 56.00 C ATOM 9 O VAL A 40 23.992 -20.920 24.692 1.00 55.53 O ATOM 10 CB VAL A 40 22.015 -22.337 23.275 1.00 57.32 C loop_ _atom_site.group_PDB _atom_site.id _atom_site.auth_atom_id _atom_site.type_symbol _atom_site.auth_comp_id _atom_site.auth_asym_id _atom_site.auth_seq_id _atom_site.Cartn_x _atom_site.Cartn_y _atom_site.Cartn_z _atom_site.pdbx_PDB_model_num _atom_site.occupancy _atom_site.pdbx_auth_alt_id _atom_site.B_iso_or_equiv ATOM 1 N N GLN A 39 24.690 -27.754 24.275 1 1.000 . 60.760 ATOM 2 CA C GLN A 39 23.581 -26.768 24.416 1 1.000 . 60.980 ATOM 3 C C GLN A 39 23.990 -25.379 23.905 1 1.000 . 59.980 ATOM 4 O O GLN A 39 25.070 -25.209 23.330 1 1.000 . 60.250 ATOM 5 CB C GLN A 39 23.136 -26.685 25.878 1 1.000 . 60.690 ATOM 6 N N VAL A 40 23.115 -24.395 24.122 1 1.000 . 59.580 ATOM 7 CA C VAL A 40 23.342 -23.010 23.690 1 1.000 . 57.260 ATOM 8 C C VAL A 40 24.000 -22.152 24.778 1 1.000 . 56.000 ATOM 9 O O VAL A 40 23.992 -20.920 24.692 1 1.000 . 55.530 ATOM 10 CB C VAL A 40 22.015 -22.337 23.275 1 1.000 . 57.320 ATOM 11 N N ALA A 41 24.560 -22.804 25.797 1 1.000 . 54.570

PDB

PDBx/mmCIF

(25)

•  Phenix and Refmac – produce native PDBx files for deposition

•  MMDB - macromolecular object library in CCP4

•  iotbx.cif/ucif - CCTBx C++/Python IO library with dictionary validation

•  CCIF – CCP4 C++ library with FORTRAN support and dictionary validation

•  CBFLib - ANSI-C library for CIF & imgCIF files

•  mmLIB - Python toolkit supporting CIF & mmCIF

•  BioPython - Python toolkit for computational biology

•  PyCifRW - Python CIF/mmCIF parsing tools

•  BioJava - Java mmCIF IO package

•  STAR::Parser – Perl mmCIF parser and molecular object library

•  RCSBTools - C++/Python parsing and dictionary validation tools plus many

other supporting format conversion and data management applications

•  Visualization - UCSF Chimera, Jmol, OpenRasMol, Coot, CCP4mg,

jV, Molmil

(26)

新規フォーマットへの

wwPDBのサービスサイト

(27)

新規フォーマットへの変換サービスサイト

(28)

wwPDBの各メンバーの活動とサービス

  “Data-in”

の活動:

wwPDBの一員として

データの高品質を保つ

その目的のため

データ登録法

検証システム

versioning

システム

新規データフォーマットを開発

•  “

Data-out

”の活動:共通データのダウンロー

ドサイト(毎週水曜

9時にアプデート)の運営、

種々のサービスや二次データベースの提供

(29)

http://pdbj.org/

Graphic viewer: jV and

Molmil

http://pdbj.org/jV/

Molecular surface DB: eF-site

http://ef-site.hgc.jp/eF-site/

Amino acid sequence (FASTA)

Data viewer at PDBj

PDBjにおけるData-out活動

Kinjo et al. NAR 40, D453 (2012)

KEGG

,

IDEAL

(IDP/IDR),

(30)

Molmil: PDBjで独自開発した

WebGLによる分子ビューア

•  JavaScript/WebGLテクノロジーを活用

•  PDB, PDBx/mmCIF, PDBML フォーマットが利用可能

•  PDB, chem_comp (Compound), eF-site, ProMode Elastic

が閲覧可能

•  スクリーンショットを出力可能

(31)

Protein Molecular Surface DB

蛋白質分子表面の形状と静電物性の表示

:

eF-site

large structures

にも対応)

(32)

PDBjにおける特徴的な

Data-out

(33)

電顕画像と原子構造とを同時に可視化

EM Navigator

: Viewer of

Images of EM-DB

Yorodumi

: Viewer of both Image and

Atomic Structure

(34)

Omokage search: PDB, EMDB, SASBDBの

データベース横断的に類似形状を探索

(35)

Omokage search: PDB, EMDB, SASBDBの

データベース横断的に類似形状を探索

Query: human RNA polymerase II with RNA (EMDB: 2190)

Similar shapes from 224,894 images/structures

(36)

Kinjo et al. (2012) Nucl. Acids Res. 40, D453-D460.

Kinjo et al. (2012) Nucl. Acids Res. 40, D453-D460.

X-ray Structure

NMR Structure

Exp. Information

(X-ray, NMR, EM, etc)

Cryo-EM

SAXS

Large Complex 

Sequence 

PPI (interaction)

wwPDB/RDF

ư

PDBj ĎIŦƱ

http://rdf.wwpdb.org/

In UniProt RDF:

BMRB/RDF

ưPDBj-BMRB ¨HŦƱ

http://bmrbpub.protein.osaka-u.ac.jp

Semantic WebŚŐŢŚwwPDB/RDF

Service from wwPDB

Kinjo et al. (2012) Nucl. Acids Res. 40, D453-D460.

Yokochi et al. (2016) J. Biomed. Semantics, 7:16.

(37)

wwPDB/RDF

ư

PDBj ĎIŦƱ

http://rdf.wwpdb.org/

In UniProt RDF:

BMRB/RDF

ưPDBj-BMRB ¨HŦƱ

http://bmrbpub.protein.osaka-u.ac.jp

Semantic WebŚŐŢŚwwPDB/RDF

Service from wwPDB

Kinjo et al. (2012) Nucl. Acids Res. 40, D453-D460.

Yokochi et al. (2016) J. Biomed. Semantics, 7:16.

Linked Data:

Connect Distributed Data across the Web

http://linkeddata.or

g

Linking Open Data Cloud Diagram by

Cyganiak & Jentzsch

(38)

NBDC RDF-portalへの統合化

NBDC RDF-Portal

https://integbio.jp/rdf/

wwPDB/RDF

(39)

PDB

ƋƯƅŚŚƋƯƅƚƯƁŞŚß;1Ƶ

SIFTSvKŚ´¾

ĩ

(

Structure integration with function, taxonomy and sequence

)

EBIŹƩƯƘŖPDBjŖŚ'<¥řťŒŔSIFTS/RDFūĒÃ

Ƶ

BioHackathonřťŨ

FALDO

(40)
(41)

SIFTSūĈŌŔPDBƋƯƅŖŚƋƯƅƚƯƁŚ

(42)

PDBjスタッフ

謝辞

Data-in

Data-out

(43)

RDF

開発

川島 秀一

(DBCLS)

大久保 克彦

(JST-NBDC, 日立製作所)

Jerven Bolleman (UniProt, EBI: FALDO)

Sameer Velankar (SIFTS & PDBe, EBI)

謝辞

RESTful web

Graphic viewer: jV and  Molmil

参照

関連したドキュメント

 彼の語る所によると,この商会に入社する時,経歴

チューリング機械の原論文 [14]

が解除されるまで断続的に緊急 事態宣言が発出される感染拡大 基調の中、新規外国籍選手の来

つの表が報告されているが︑その表題を示すと次のとおりである︒ 森秀雄 ︵北海道大学 ・当時︶によって発表されている ︒そこでは ︑五

キャンパスの軸線とな るよう設計した。時計台 は永きにわたり図書館 として使 用され、学 生 の勉学の場となってい たが、9 7 年の新 大

ピアノの学習を取り入れる際に必ず提起される

一貫教育ならではの ビッグブラ ザーシステム 。大学生が学生 コーチとして高等部や中学部の

右の実方説では︑相互拘束と共同認識がカルテルの実態上の問題として区別されているのであるが︑相互拘束によ