蛋白質構造データバンク事業と
国際的な展開
中村 春木
大阪大学蛋白質研究所
PDBj 日本蛋白質構造データバンク
文科省統合データベースプロジェクトシンポジウム 東大武田先端知ビル,2009年6月12日PDB (Protein Data Bank) since 1971:
蛋白質の立体(3次元)構造情報
原子種とその座標、アミノ酸残基、実験手法、実験時の情報、実験観測 データ(構造因子)が整理して登録し、Webから無料公開を行う。 X線結晶解析、核磁気共鳴法 (NMR)、電子顕微鏡観測 蛋白質立体構造Agreement signature
wwPDBにおける国際協力
(Berman, Henrick & Nakamura (2003) Nat. Struct. Biol. 10, 980)
1) データ編集・登録作業を、wwPDB
のメンバーで協力しながら実施する。
2) 唯一のデータアーカイブを持ち、
米国のRCSB-PDBがアーカイブ・キーパーとして書き込み
権限をもつ。
3) データ・フォーマットや新たな記述法については、
各メンバー間内の討議により決定する。
(V3.1→V3.2)
4) 各メンバーは、各々独自のデータ・ブラウザ、ビューア、
検索ツール、Web サービスを開発することが期待される。
Rutgers Univ. UCSD NIST PDBj EBI RCSB BMRB日本PDBj, 米国RCSB-PDB, 欧州 PDBe-EBI, BMRB(NMRDB)の四極を結んだwwPDBを運営
(Ref: Nucleic Acids Res. (2007) 35, D301-D303)
・シングル・データ・アーカイブを構築。 (同時公開の開始)
・データ記述法(v3.2)を共同で修正・確立。
・データ内容の修正(remediation)を実施。
Ligand data (RCSB-PDB), Sequence data (PDBe-EBI), Primary citation (PDBj)
・wwPDBAC会議(S. K. Burley議長)を開催。 2004年11月Washington DC, 2005年8月Florence, 2006年10月東京, 2007年9月Princeton, 2008年9月EBI 2006年10月 @東京 2007年9月 @Princeton 2008年9月 @EBI 2008年9月, EBIでのwwPDBAC メンバー
wwPDB FTP Traffic
61,364,573
ファイルが2009年3月の1ヶ月間に世界中
のwwPDBメンバーサイトからダウンロードされている
英語サイト
日本語サイト
英語サイト
日本語サイト
Protein Data Bank
Japan
日本蛋白質構造データバンク
http://www.pdbj.org/
大阪大学蛋白質研究所 にて実施。 (独立行政法人)科学技術振興機構 バイオインフォマティクス推進センタ ー(http://www-bird.jst.go.jp/)が 2001年から支援 原子種とその座標、アミノ酸残基、実験手法、 実験時の情報、実験観測データ(構造因子) を整理して登録。Webから無料公開。日本蛋白質構造データバンク:PDBj
1.国際蛋白質構造データバンク(
wwPDB
)の創設
(2003年)と協力
2.蛋白質立体構造データベース
登録作業(~28%)
3.蛋白質構造情報の
標準XML記述(PDBML)
の
開発とその応用
4.蛋白質構造解析実験および蛋白質機能に関する
文献・データベース情報の付加
5.蛋白質立体構造に関する
新規二次データベース
の構築と
解析ツール
の開発
6.講習会やセミナーの開催
日本蛋白質構造データバンク:PDBj
1.国際蛋白質構造データバンク(wwPDB)の創設
(2003年)と協力
2.蛋白質立体構造データベース
登録作業(~28%)
3.蛋白質構造情報の標準XML記述(PDBML)の
開発とその応用
4.蛋白質構造解析実験および蛋白質機能に関する
文献・データベース情報の付加
5.蛋白質立体構造に関する新規二次データベース
の構築と解析ツールの開発
6.講習会やセミナーの開催
0 2000 4000 6000 8000 1 11 21 31
Yearly registration number
Yearly wwPDBprocessed number
Yearly PDBj processed number
8000 6000 4000 2000 0 1972 75 80 85 90 95 2000 05 2009 year
Total 58,083 data on 10 June, 2009
We process 25-30 % deposited data of the entire world, mainly from Asian and Oceania regions
日本蛋白質構造データバンク:PDBj
1.国際蛋白質構造データバンク(wwPDB)の創設
(2003年)と協力
2.蛋白質立体構造データベース登録作業(~28%)
3.蛋白質構造情報の
標準XML記述(PDBML)
の
開発とその応用
4.蛋白質構造解析実験および蛋白質機能に関する
文献・データベース情報の付加
5.蛋白質立体構造に関する
新規二次データベース
の構築と
解析ツール
の開発
6.講習会やセミナーの開催
Get Entry Data from our XML-based browser
Access to
http://www.pdbj.org/
PDBID (e.g. 12as) should be input in a box and GO
12as
Summary for each PDBID is displayed.
Graphic viewer: jV version 3.6
Access to
http://www.pdbj.org/jV/
Development of other Databases and Services
Encyclopedia of Protein Structures, eProtS
(Kinjyo, Kudo, & Ito)
Molecular of the Month, MoM
(Goodsell & Kudo)
Alignment of Sequence and Structures. MAFFTash
(Kato. Toh & Standley)
Homolog protein search,
Sequence Navigator
(Standley)
Similar fold search,
Structure Navigator
(Standley & Toh) Protein Folds Browser,
Search for Similar Surface,
eF-seek (Kinoshita & Nakamura)
Electron Microscopy Navigator,
EM-Navi (Suzuki)
Function Annotation from Folds and Sequences,
SeSAW (Standley)
Ligand Binding Site Search,
GIRAF (Kinjo)
Development of other Databases and Services
Protein Dynamics Database,
ProMode (Wako & Endo)
Protein Molecular Surface Database, eF-site
What is required for Databank?
・
For authors’ benefit (登録者のために)
・Good portability (登録のしやすさ)
・Rapid deposition (登録が早く便利なこと)
:
・
For both authors and users (global community)
・Good data quality (データの優れた品質の確保)
・Quality of each data can be validated
(個々のデータの品質をユーザが判断できる)
・
For users’ benefit (ユーザのために)
・Good portability (使いやすさ)
・Rapid search (検索が早く便利なこと)
・Can be customized (カスタマイズできること)
:
データの品質管理・保守について
• 登録時に、各立体構造の品質が厳しく検査・
鑑定される。
登録者本人と、wwPDBのアノ
テータが、それぞれ検証する。この検証に合
格しないと、PDBIDが発行されない。
• 実験情報(X線結晶解析の場合には構造因
子、NMRの場合には原子間距離情報) が、
2008年2月1日から、登録時に座標と同時に
必須の項目となった。
• データ記述のスキーマがバージョン(最新版:
v3.2) 毎に正確に定義され、記述についての
validation(検証)が常になされて公開される。
1JSQ, 2Z2R
Incorrect structures and validation
Example: ABC transporter MsbA and
EmrE multidrug transporter
Protein Science
T.A. Jones & G.J. Kleywegt (2007) Experimental Data for Structure Papers Science 317:194-195
R.P. Joosten & G. Vriend (2007) PDB Improvement Starts with Data Deposition. Science 317:195-196
A. Wlodawer (2007) Deposition of Structural Data Redux.
Acta Cryst D63:421-423
B.W. Matthews (2007) Five retracted structure reports: Inverted or incorrect? Protein Science 16:1013-1016 M. Crispin, D.I. Stuart & E. Y. Jones (2007). Building
meaningful models of glycoproteins. Nature Structural &
Molecular Biology 14:354
H.M. Berman, K. Henrick, H. Nakamura & J. Markley (2007). Reply to: Building meaningful models of
glycoproteins. Nature Structural & Molecular Biology 14:354-355
B. Rupp. (2006) Real-space solution to the problem of full disclosure Nature 444:817
Possible reasons
• Rushed as a short communication into the prestigious high
impact journal
• Ignoring all counter theoretical and spectroscopic evidence • Fewer professional crystallographers
• Crystal structures by biologists with limited crystallographic
background
• High throughput methods
• Solved using black box crystallographic firmware/software • Exploding number of structural papers to review and limited
number of willing referees with crystallographic knowledge
• Papers are increasingly refereed by non-crystallographers
who are unaware of many potential pitfalls
データの品質管理・保守について
• 登録時に、各立体構造の品質が厳しく検査・
鑑定される。登録者本人と、wwPDBのアノ
テータが、それぞれ検証する。この検証に合
格しないと、PDBIDが発行されない。
• 実験情報
(X線結晶解析の場合には構造因
子、NMRの場合には原子間距離情報) が、
2008年2月1日から、登録時に座標と同時に
必須の項目となった。
• データ記述のスキーマがバージョン(最新版:
v3.2) 毎に正確に定義され、記述についての
validation(検証)が常になされて公開される。
データの品質管理・保守について
• 登録時に、各立体構造の品質が厳しく検査・
鑑定される。登録者本人と、wwPDBのアノ
テータが、それぞれ検証する。この検証に合
格しないと、PDBIDが発行されない。
• 実験情報(X線結晶解析の場合には構造因
子、NMRの場合には原子間距離情報) が、
2008年2月1日から、登録時に座標と同時に
必須の項目となった。
• データ記述のスキーマ
がバージョン(最新版:
v3.2
) 毎に正確に定義され、記述についての
validation(検証)が常になされて公開される。
データの品質管理・保守について
• 登録時に、各立体構造の品質が厳しく検査・
鑑定される。
←構造生物学の
専門家集団が必要(最新の測
定法に精通している)
• 実験情報が必須の項目。
←膨大な実験結果の情報(手法や測定時のパ
ラメータを含む)をオントロジーで整理しながら
DB化するために
情報科学の専門家が必要
• データ記述のスキーマの定義とデータ検証
←スキーマ記述やvalidationを行う
プログラマ
や情報技術のエンジニアが必要
メンバー
代表: 中村春木 PDBj データベース管理運営グループ: 中川敦史, 松浦孝範,五十嵐令子,見学有美子,松浦かんな, 井上真由美,陳 旻瑜 ツール・サービス開発グループ: 金城 玲, 岩崎憲治,鈴木博文,山下鈴子,工藤高裕, 清水有希子,鎌田知左 NMR データベース (BMRB-PDBj)グループ: 藤原敏道, 阿久津秀雄, 小林直宏、中谷英一, 原野陽子 研究開発協力者: Daron M. Standley(阪大免疫フロンティア),木下賢吾 (東大医科研), 藤博幸(九大生防研),輪湖博(早大),伊藤暢聡(東京医歯大)Report from National Science Board in Sept 2005 from NSF
ELIXIR Mission
To construct and operate a sustainable infrastructure for biological information in Europe, to support life science research and its translation to medicine
and the environment, the bio-industries and society.
• Partners: 32 partners, 13 member states • Funding: 4.5 M€ from EU FP7
• Deliverable: Consortium agreement to define the scope of the infrastructure and how it will be
constructed
Head of Elixir Project: Dr. Janet Thornton
Goals for ELIXIR
• Optimal Data Management
– Coordinated Data Resources with improved access
– Integration and interoperability of diverse heterogeneous data – Good Value for Money
• Forge Links to data in other related domains
• A single European voice in international collaborations to influence global decisions and maintain open access to data
• Enhance European competitiveness in bioscience industries
36
Stakeholders
• Funders of Infrastructure
– National Government Funding Bodies; EMBL; EU
Charities; Industry
• Data Resource Providers
– Core Resources
– Specialist (Many investigators - distributed)
• Data Providers
– Experimentalists
• Tool Providers
– Bioinformatics Groups • Users
Why do we need ELIXIR?
•Data Growth •Global context
•Very large user community:
– 3.3 m web hits/day
– 20,000 unique users per day
•Need to preserve data and make accessible to all •Impact on medicine & agriculture
•Impact on society & bioindustries
•Need for increased funding for biodata resources
Se rv e r Storage 0 200 400 600 800 1000 1200 1400 2006 time no w TB Europe USA Japan
z生命科学系データベース統合化の背景 大久保公策 Vol. 52 No. 9 (2007) 1027-1031 z統合データベースがめざすもの 高木利久 Vol. 52 No. 11 (2007)1388-1389 z医薬品の統合データベース 金久實 Vol. 52 No. 12 (2007)1486-1491 z蛋白質構造情報の高度化と統合データベース 中村春木 Vol. 52 No. 14 (2007)1897-1905 zゲノム情報と統合データベース 五條堀孝 Vol. 52 No. 15 (2007) 2006-2011 zライフサイエンスにおけるデータベース構築のための人材養成 瀬々潤、池村淑道 Vol. 53 No. 1 (2008) 87-93 z海外データベースとの連携 舘野義男 Vol. 53 No. 2 (2008)182-189 z統合データベースプロジェクトのサービスとその利用法 川本祥子、坊農秀雄 Vol. 53 No. 3 (2008)281-287 z利用者の立場からのコメント 中村桂子、佐藤清、堀田凱樹、中井謙太、田畑哲之、津金 昌一郎、松田秀雄、西川建、白井宏樹、深海薫、Vol. 53 No. 5 (2008) 686-691 zわが国における疾患データベースの統合化 田中博 Vol. 53 No. 6 (2008) 774-782 zゲノムワイド関連解析データベースの開発 小池麻子、西田奈央、徳永勝士 Vol. 53 No. 7 (2008) 882-887 z「蛋白質核酸酵素」バックナンバーの全文検索サービス公開にあたって 川本祥子 Vol. 53 No. 9 (2008) 1200-1205 共立出版「蛋白質核酸酵素」誌での連載 ライフサイエンス分野の統合データベース