- 1 -
「アミノ酸変化を伴うDNA多型データベース」事後評価結果
1.課題名
アミノ酸変化を伴うDNA多型データベース
(公開名:蛋白質多型データベース)
(URL http://dbprop.nirs.go.jp/)
2.開発・運用責任者
独立行政法人 放射線医学総合研究所
開発責任者 齋藤 俊行(遺伝子発現ネットワーク研究グループ チームリーダ)
運用責任者 齋藤 俊行(同上)
3.課題概要
蛋白質多型データベース dbProP は、現在も蓄積が続く大量のヒト転写配列(mRNA
およびEST)のクラスタ化とアライメントから、アミノ酸変化SNPと蛋白質コード領域
内に連結変化があるalternative splicing variant(ASV)を独自に推定し、さらに米国
NCBI(National Center for Biotechnology Information)dbSNPデータからアミノ酸変
化SNPを独自抽出し繰り込んでいる。
多型の検索は多様な条件で実行できるので、特定の遺伝子産物・特定の疾病・特定の
ゲノム領域など様々な検索要件をもつユーザに対応するデータベースとなっている。
また、多型推定のユーザ自身による妥当性評価用に、当該配列クラスタのアライメン
ト状態提示が可能である。さらに多型が及ぼす蛋白質機能への影響評価のために、アミ
ノ酸変化部位と蛋白質モチーフとの位置関係を模式的に提示する。
支 援 機 能 と し て ア ミ ノ 酸 変 化 SNP の 検 出 用 PCR プ ラ イ マ ー が 、 ゲ ノ ム 上 お よ び
mRNA上に自動設計されてユーザへ提供され、ASV特異的な検出用プライマーも同様に
自動設計される。ユーザ独自のパラメータを指定してプライマー設計を指示することも
できる。これら webアプリケーションとして提供される研究支援機能は、参照用データ
ベースと同時に研究支援ツールとして使われることを想定した開発コンセプトに基づく
ものである。
<データ項目とデータ量>
①独自推定アミノ酸変化SNP情報:141,439件
②dbSNPから推定したアミノ酸変化SNP情報:46,954件
③合計(独自推定SNPとdbSNP由来SNPとの重複6,193件削除後):182,200件 ④ASV(alternative splicing variant):61,481件(該当遺伝子数13,548)
(データ件数は平成16年4月現在)
<開発期間> 平成12年4月∼平成15年3月
4.アクセス状況
2 -5.外部発表
*開発中
年 度 件 数 備 考
平成14年度 3件 日本生化学会ランチョンセミナー他
*開発終了後
年 度 件 数 備 考
平成15年度 2件 日本法医学会総会他
6.事後評価結果
6−1 当初計画の達成度
アミノ酸変化を伴う多型として SNP と ASV を独自に推定し、さらに米国 NCBI の
dbSNP データからアミノ酸変化 SNP を独自抽出し、それら3種類の多型情報をデータ
ベース化している。なお、ASV および dbSNP データは当初計画では対象ではなかった
が、より網羅度の高い蛋白質多型データベース実現のために追加された。また、多型検
出用プライマーの自動設計機能を備え、参照用データベースと同時に研究支援ツールと
しても使える。当初計画の2倍以上の多型候補を収録し、「蛋白質の構造変化と表現型
(疾病)との関係の調査作業を支援・加速するツールとしてのデータベースの整備」と
いう当初計画は達成された。
6−2 データベースの評価
限られた遺伝子だけに関する格納多型データの単なる提示ではなく、全遺伝子を対象
とする多型データベースであり、推定された多型候補の検出用PCRプライマーの自動設
計機能や蛋白質モチーフとの関連づけ等の研究支援 webツールとしての機能も併せ持ち、
幅広いユーザ層にアピールできる。検索条件入力画面以降の各種情報提示画面において、
より直感的なユーザインタフェースへの改良が望まれる箇所もあるが、多彩な機能を搭
載しユーザの利便性が図られている。
疾患関連蛋白質解析やゲノム関連プロジェクトが多数進められており、それらの研究
の基礎になる重要な情報を提供できるものである。
6−3 データベース化終了後の公開運用体制及び運用状況
公開用サーバは新規に研究所のサーバ室に設置され、平成15年度はデータ更新1回を
含め、格別な支障もなく、運用責任者を中心に公開・運用された。データ更新によって、
公開後1年でアミノ酸変化SNP数は独自推定分では1.4倍、 dbSNPからの推定分では
2.3倍、対象遺伝子を全遺伝子に拡張したASVでは約100倍と収録データは著しく増加
した。データ更新頻度の高い分野であるので、データベースの鮮度を保つためには処理
の自動化を進めるなどして、より更新頻度を上げて運用されることを期待する。
アクセス数が少なめであるが、疾患関連蛋白質解析やゲノム関連プロジェクトが多数
進められており、潜在的利用者は多いと見込まれるので積極的に広報すべきである。
6−4 運用の今後の展開
元データである転写配列情報の増大に伴い、適宜再クラスタリングによるデータ更新
を実施する必要がある。予算的・労力的制約もあろうが、更新頻度を高める運用が望ま
れる。また現在のASV格納データは、SNPが指摘されている遺伝子mRNAについての
3
-公開することが計画されており、この方向での蛋白質多様性データの拡充も期待される。
ヨーロッパ・バイオインフォマティクス研究所(EMBL-EBI)のENSEMBLプロジェ
クトとの協力が検討されており、実現すればこのデータベースの利便性と利用の拡大に
大変有益である。また、ユーザにとってセキュリティ上の心配が少なく、データの二次
加工も容易な「データベースのインハウス使用」も検討課題に上げており、より多くの
ユーザに使ってもらえるよう工夫を進めるべきである。
6−5 その他
開発・運用責任者により、本データベースにおける独自推定SNP候補からランダムに
選び出した52個について日本人集団25名の検出試験を行ったところ、6個のSNPが実
際に検出された。検体が少ない面はあるが、独自推定SNP候補が実際に確認されており、
dbSNP に存在しない大量のアミノ酸変化 SNP がこのデータベースで指摘されているこ
とは大変興味深いし、今後のデータベースの利用者による検出実験も期待される。
7.総合評価
当初の計画を超える数の SNPデータが収載されており、新たにASVデータも追加さ
れるとともに検索ツールや研究支援ツールなども盛り込まれ、全体としては使いやすく
なっている。データ更新頻度の高い分野であるので、データベースの鮮度を保つために
は、予算・人員の制約もあろうが、処理の自動化を進めるなどして、より更新頻度を上
げて運用されることを期待する。「転写配列のクラスタ解析から SNP を推定する」活動
としては、米国の国立癌研究所にもその事例はあるが、本データベースはアミノ酸変化
に特化したことで独自であり、独自のSNPを推定しており、研究者にとっては良い情報
源となり得るデータベースが構築されたと評価できる。
疾患関連蛋白質解析やゲノム関連プロジェクトが多数進められており、潜在的利用者
は多いと見込まれる。所内での遺伝子研究状況を研究所内外にさらにアピールするとと