生命科学における
データサイエンスの課題
と
PDB
中村 春木
大阪大学蛋白質研究所
harukin@protein.osaka-u.ac.jp
http://pdbj.org/, http://wwpdb.org/
トーゴーの日シンポジウム
2016
東大弥生講堂
, 5 October 2016
Licensed under a Creative Commons表示4.0国際 license (c)2016 中村春木(大阪大学蛋白質研究所)
)
,*%
3
=LQHEP
#
Sir Isaac Newton
(1642-1727)
</2C3-LQHEP
DIKW
NQOIK
(J. Rowley: The wisdom hierarchy, 2007)
JRG(
Data
)139-C 0B,JRG
$D79&36S
Information
T:3,
5="<A796;!S
Knowledge
T=
D44@,S
Wisdom
):39'"D.
W
isdom
K
nowledge
I
nformation
D
ata
4
=LQHEP
JRG
(- or –()
AI
:>8-6MIFJRG?
11.3 PF
(T
理化学研究所計算科学研
究機構ホームページから
データが無ければ問題解決はできない
(より正しくは)
正確な
データが無ければ問題解決はできない
・使われるデータは正しいのか?
→データの客観的な
validation
の仕組みが必要
・使われるデータは最新か?
→データの
versioning
の仕組みが必要
・
正確な
データが無い場合はどうするか?
→
実験
、
シミュレーション
により正確なデータを創出する
(シミュレーション結果もアーカイブする)
データ科学の課題
•
!
X-ray Crystallography
•
!
Nuclear Magnetic Resonance (NMR)
•
!
Cryo-Electron Microscopy
PDB: Protein Data Bank since 1971
ă`Śăħ
ÌLřťŨ¢Ì
®'Ĩư
NMRƱ
ƁƛŸƌƩðä
(@IPR)
XFEL & Synchrotron
(SACLA & SPring-8)
(SACLA & SPring-8)
ÞĩľľĽĩĩľ
XãD~ĩľĽĩľľľěV^hƝƈƘĩľĽĩľľ4VơƋƩ
1
HN (ppm)
15
N (ppm)
½ħ*V
3ª Ö¦ĉvKŚŭƯŵůƗ
3.8 Å *øæ
ĩ
PfV (Pf Virus-like particle) *VŚůƠƯƀ
ĖPìÅÊƮ]cÈgĿacy²Ŀd8ŚRwřťŨ
Mw = 7 MDa
&:;<:=!0.>?!(@$A!B1!
ìÅĂŚlŚƋƯƅƒƬŸƵ
PDB
ĹĸĶŚ¬8
ĮĴıĭf
ƵìÅĂÞXŇSşŨ
ľƞŴŹƫƔƬĿƙơŹƫƔƬĿ
ľƨƄƇƯƟŘŗ
ĮĴIJĭf
ƵĹĸĶĩĒSĩ
IJ
ưĮĴIJĮfĮĭƱ
ľÚFƗƩƈŸƙƗƬFÖÊÕz
ľPĖPXìÅĂÊÕzřŅŃŔţ
ľſƌŸƫƟ
Ś¦ĉū°ZĽÄď
ľÌ®ƊƯƘūče
ƝƈŸƁĩƛƩƯƉĩ
H!!
ľľľľľƀƥƬĩźƬƍƨƣƯ
!
ư
2%A0fƐƯƚƩ1XāƱĩ
蛋白質の形のデータバンク:
PDB
1980年代
:データ登録の急増(国際結晶学会:
データ登録が論文投稿の必須条件
)
1990年代
:RCSB-PDB(米国)が運営を開始
2000年代
:
wwPDB
が設立(2003年)
構造ゲノム科学による構造急増
2010年代
:新規の手法が開発
123,000件
以上のデータ公開
ビッグ・データの時代へ
Protein Data Bank Japan
http://pdbj.org/
2000年から、国立研究開発法人
科学技術振興機構(現在は
NBDC)
の支援を受けて活動
PDBj スタッフ
(2016年4月)
PDBj-BMRB スタッフ
PDBj トップページ(日・英・中・台・韓)
The wwPDB (world-wide PDB)
14
wwpdb.org
第
12回 wwPDB 国際諮問委員会
大阪大学蛋白質研究所
2015年10月2日
wwPDB since 2003
wwPDBの各メンバーの活動とサービス
• “
Data-in
” の活動:wwPDBの一員として
データの高品質を保つ。その目的のため、
データ登録法
、
検証システム
、
versioning
システム
、
新規データフォーマット
を開発
•
“Data-out”
の活動:共通データのダウンロー
ドサイト(毎週水曜
9
時にアプデート)の運営
、
種々のサービスや二次データベースの提供
PDB OneDep
(Depositions & Annotations)
125K 74K 28K 24K
•
! 2016f7ņŦĿY%ŘHJ+
ŚÄď(¼ŇĒS
–
! RCSB PDB: 32ŭƠƨŵŅ
ťŝŴƂŭƎŭ
–
! PDBe: ƦƯƫƈƓŖŭƖƨŵ
–
! PDBj: ŭƀŭŖ
OneDep
OneDep: Unified Deposition Portal for the wwPDB
OneDep: Unified Deposition Portal for the wwPDB
OneDep: Unified Deposition Portal for the wwPDB
Re-directed to PDBj site
0 20000 40000 60000 80000 100000 120000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
世界中で決定された構造の
約1/4の登録処理
を
PDBjで実施
PDBjで処理された総件数 (
27,779,
2016年9月27日)
PDBの総データ件数 (
123,021,
2016年9月28日)
年
PDBj と wwPDBのData-in活動
PDB
登録データ件数
(*2016年9月28日付)
*
2000 2005 2010 2015 2016*
120000
100000
80000
60000
40000
20000
0
22
wwPDBŞŚ:fhŚÄď
X-ray
NMR
NMR
EM
,-./
!"#$%&'%()#*"$"#+,-./)#0"#1%2%345%#6789:;#
EM
研究者番号
ORCID の利用
Open Researcher and Contributor ID
http://orcid.org
• wwPDB では
2016
年
4
月
から利用開始
•
2018
年には必須項目
とする予定
24
25
Validation report のweb公開
Validation reportの例
データ検証(
Validation
)レポートの発行と
実験データの公開
登録時に必須とされている実験情報
• X-ray: Structure Factor(構造因子)
• NMR: 化学シフトと距離拘束情報
PDB エントリーのversion管理
現行の問題点
• 座標更新時には、同一の実験データに由来するものでもPDB IDが変更される
→
論文中で使われる
PDB ID と実際に公開されるPDBIDとが一致しない
新規
PDB ID コードの導入(案)
• 分かり易く透明性のあるversion管理による
更新データファイル名称
• “PDB”を先頭につけ、4文字コードも拡張
(例:現行の
“1ABC
” から “
PDB_00001ABC
”のように変更・拡張)
• PDB IDコードの例:
PDB_00001ABC_XYZ_V2-2.cif.gz
実装の計画(案)
•
version管理がなされた新規のPDB IDコードによるftp サイトを公開
(ツリー構造として構造情報だけでなく関連する実験情報、メタ情報を含む)
•
現行の
PDBIDを付けた
ftp サイトを継続して公開
(最新
versionの構造情報のみを公開)
26
PDBの新規フォーマット:
PDBx/mmCIF
• PDB フォーマット は
40
年以上前
に作られ、現在の科学
にはうまく合致しない
• PDB レコードの限界
–
最大
62 本の高分子鎖まで
–
最大
99,999 ヶの原子まで
– リガンドの結合次数や光学活性(キラリティー)が記載されない
– NMR, 電子顕微鏡, ハイブリッド法, etcへの対応が不備
– メタデータの記載が面倒であり情報を引き出しにくい
•
新規フォーマットでもできるだけ互換性を保つ
•
新規フォーマットから
PDBフォーマットへの変換サービスを公開
•
2014年から開始
Large Structures (434) in PDB
•
! 2014f12ņŦ, ĐĿ4VŇOŃ large structures śPDB ƖųƯƝƈƌŕ
ś«ôřś&ĒŋũŎ
PDBx/mmCIF
Ņťŝ
PDBML
ƖŬůƩ঩&Ē
–
! A bundle of “best-effort PDB files (PDB bundle)” śĿnņŦŚƤƯž
ŚŐŢř
wwPDB FTP ŽůƌņŦ&Ē
•
! :ĩwwPDB ƠƬƒƯś
large structures
ūóŨƉƯƩ
ū
PDBe
RCSB-PDB
PDBj
4v6x: structure of
human 80S ribosome,
89 chains, 4 MDa
%+#
D**!3-N,+,!O..P,8!N,!Q.C/
C+R.S!KNF.M4F+T!UT+V-*MR!
#23#)4'#5-678#%$!	:7;#%'#.<-3=-->
!
&.9.T!LNR.J!WF.X!LNR.!
####?@A#5.3#B:-CDE#FA5G4HBGI#
3+O..T!Y.F+,E.T!?HBG-I#
ZN,!Q.S.FF!?GJFGI#
[+T4E*!D+E+O4T+J![*TN\4O*!34?4E*J!
U.T9/I+,!;.EE.T!
####?HBGKI
]N,9T*C4PN,R!\TNO!+FF!9-.!55&:;!V+T9,.TR
Web-based Molecular Graphics
MMTF
(Macromolecular
»íŚ
PDB
řŅŊŨƖųƯƝƈƌ
PDB (ca. 1974)
PDBx/mmCIF (ca. 1997)
PDBML (ca. 2005)
RDF (ca. 2011)
PDB
PDBx/
mmCIF
PDBML
& RDF
PDBx/mmCIF ŕ ŚƋƯƅŇÙ¼ŋũŚƖųƯƝƈƌŞN
ATOM 1 N GLN A 39 24.690 -27.754 24.275 1.00 60.76 N ATOM 2 CA GLN A 39 23.581 -26.768 24.416 1.00 60.98 C ATOM 3 C GLN A 39 23.990 -25.379 23.905 1.00 59.98 C ATOM 4 O GLN A 39 25.070 -25.209 23.330 1.00 60.25 O ATOM 5 CB GLN A 39 23.136 -26.685 25.878 1.00 60.69 C ATOM 6 N VAL A 40 23.115 -24.395 24.122 1.00 59.58 N ATOM 7 CA VAL A 40 23.342 -23.010 23.690 1.00 57.26 C ATOM 8 C VAL A 40 24.000 -22.152 24.778 1.00 56.00 C ATOM 9 O VAL A 40 23.992 -20.920 24.692 1.00 55.53 O ATOM 10 CB VAL A 40 22.015 -22.337 23.275 1.00 57.32 C loop_ _atom_site.group_PDB _atom_site.id _atom_site.auth_atom_id _atom_site.type_symbol _atom_site.auth_comp_id _atom_site.auth_asym_id _atom_site.auth_seq_id _atom_site.Cartn_x _atom_site.Cartn_y _atom_site.Cartn_z _atom_site.pdbx_PDB_model_num _atom_site.occupancy _atom_site.pdbx_auth_alt_id _atom_site.B_iso_or_equiv ATOM 1 N N GLN A 39 24.690 -27.754 24.275 1 1.000 . 60.760 ATOM 2 CA C GLN A 39 23.581 -26.768 24.416 1 1.000 . 60.980 ATOM 3 C C GLN A 39 23.990 -25.379 23.905 1 1.000 . 59.980 ATOM 4 O O GLN A 39 25.070 -25.209 23.330 1 1.000 . 60.250 ATOM 5 CB C GLN A 39 23.136 -26.685 25.878 1 1.000 . 60.690 ATOM 6 N N VAL A 40 23.115 -24.395 24.122 1 1.000 . 59.580 ATOM 7 CA C VAL A 40 23.342 -23.010 23.690 1 1.000 . 57.260 ATOM 8 C C VAL A 40 24.000 -22.152 24.778 1 1.000 . 56.000 ATOM 9 O O VAL A 40 23.992 -20.920 24.692 1 1.000 . 55.530 ATOM 10 CB C VAL A 40 22.015 -22.337 23.275 1 1.000 . 57.320 ATOM 11 N N ALA A 41 24.560 -22.804 25.797 1 1.000 . 54.570