The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 1 -
セ ン
利用し 遺伝子発現
タ 解析
ホ
Interactive platform for gene expression analysis based on Semantic Web technologies
山
俊明
*1菊池
正隆
*2荻島
創一
*3Toshiaki Katayama Masataka Kikuchi Soichi Ogishima
*1
ン 統合
タベ
センタ
Database Center for Life Science
*2
新潟大学
脳研究所
/NEDO
Brain Research Institute, Niigata University
*1
東
大学
ン 機構
Tohoku Medical Megabank Organization, Tohoku University
We developed an application which integrates various biological datasets and provides a faceted query interface for interactive analysis of gene expression data. In the course of gene expression analysis, it is required to interpret data by referencing knowledge bases of genetics, pathways, diseases and drugs. However, because those external resources are often stored in distributed databases in various formats, it is hard for biomedical scientists to use them in combination. Semantic Web technologies are suitable for integration of those heterogeneous datasets using Resource Description Framework (RDF) and providing a faceted search interface. In this work we applied this platform to the gene expression analysis of Alzheimer’s disease.
1.
じめに
医学生物学研究者 手元 遺伝子発現 タ 解釈 す 様々 タベ 参照し タ ン
仮説 検討す 必要 あ こ ンタ ホ ほ い 本研究 遺伝学 疾患 医薬品 文献 様々 知識 整備 進 い
病 い 遺伝学 疾患 医薬品 文 献 様々 外部知識 参照し 仮説 検討す ンタ ホ し Linked Open Alzheimer's Disease (LOAD) 開発し こ 報告す
2.
タ統合と解析環境
2.1 セマン ック による タ統合
病 遺伝子発現解析 遺伝学 疾患 医 薬品 文献 外部知識 くわえ 遺伝学 け 疾患感
性遺伝子 あ AlzGene1 [Bertram 07] や あ AlzPathway2 [Mizuno 12]
病 特有 ソ 参照し 遺伝子 疾患 発症
(pathogenesis) や進行 (progress) 関係 あ いう仮説 検討す 必要 あ し し 通常こ 外部知識 個々 タベ 格納さ い 組 合わせ 参照す こ 困難 あ 参照し い外部知識 CSV や
必要 DB ン 様々 形式 公開さ こ 統合的 再利用す こ 医学生物学研究者 容易
い 近年 ン 分 い こ う 異種 多様 タ 統合 い セ ン 技術 利用 普及し い [Katayama 14] セ ン 検索 対象 様々 タ RDF 変換す こ 容易 追加
タ間 関連す 情報 URI 用い 結合さ 生命科学 多様 タ 統合 す 有効 あ
2.2 既存 解析 ッ ホ ムと 比較
医学生物学研究者 遺伝子発現 タ 解析す 際
R3 BioConductor4や Spotfire5 ソ 利用さ こ 多い BioConductor 遺伝子 ン 機能 や様々 統計解析 開発さ い こ 組 合わせ 利用す ン 必要 ンタ
試行錯誤 簡単 い Spotfire
ンタ 提供さ 外部 ン タ 込 ンタ 解析 可能 あ 商用 あ 医学生物学研究者 自由 利用 ビ し 提 供す こ 難しい
本研究 開発し LOAD6 ンタ 操作 自由 使え 遺伝子発現 タ 解析 容 易 試行 さ セ ン 遺伝子
上 位置 関連す 医薬品 複数 条件 組 合わせ 関連 タ 絞 込 セ 検索 容易 行うこ 絞 込 遺伝子 関連情報へ ン
辿 点 ン いえ
連絡先: 山俊明,大学共 利用機関法人 情報 研 究機構 ン 統合 タベ センタ ,〒 千葉県柏 若柴 東京大学柏 葉駅前 研究棟 階,電話 ,F ,
@
1G3-4
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 2 -
3.
生物学
タ
RDF
化
構築 あ 遺伝子発現解析 広く使わ い
Affymetrix社 GeneChip ン 情報 UniProt タン 質機能 ン DrugBank 医薬品
タン 質 相互作用 タ OMIM 遺伝子 疾病 関係
タ AlzPathway 分子 タ RDF し
3.1 ロ IDと遺伝子ID
遺伝子発現解析実験 使わ
数十万 短い配列断 載 い 各遺伝子 対し複数 対応す 発現 タ 使わ
ID 遺伝子 ID 対応 必要 あ LOAD
こ RDF ン 情報 し 持 せ 発現 増減分 択し 残 セ 検索 対応す 遺伝子
ID 絞 込 行うこ し
3.2 タンパク質 機能 ノ ション
Swiss Institute of Bioinformatics タン 質 酸配 列 そ 機能 ン タベ UniProt 作成 そ
RDF 以前 進 く 外部 タベ ン 情報 セ 検索 構築 有用 あ く 遺伝 子 ン (GO) 立体構 (PDB) 機能 ン(Pfam) 医 薬品(DrugBank) 希少疾患(Orphanet) 遺伝病(OMIM)等 関係情報 様々 外部 タベ 情報 LOAD 追加 す 際 RDF ン 束 し 機能し い
3.3 医薬品や疾患情報
UniProt ン さ い う 医薬品 薬理 タ タン 質 タベ DrugBank
ン さ ID 対応す 分子 情報 抽出し RDF
し 様 遺伝子疾患 い OMIM タベ 関連情報 RDF し 利用し
4.
ケ
ション
実装
4.1 ス
作成し RDF UniProt RDF 無料 ンソ 利用 こ SPARQL 1.1 し い こ RDF
タ ン 比較的高 あ こ Virtuoso 7
格納し ン ン 構築し
4.2 パス 表示
病 分子 AlzPathway Systems Biology Markup Language (SBML) 準拠し XML形式
タ 利用 ここ 各分子 座標情報 抽出 し 画像 い CellDesigner [Funahashi 08]
利用し 出力し Google Map Image Cutter 処理しGoogle Map API 利用し 表示し
4.3 ケ ション
タセ しく
し 遺伝子発現 タ ンタ 解析 行う 側 ン Node.js 実装し ンタ
け 情報 SPARQL 変換 内部
処理し 上 ン 側 反映し い タ解析 試行 錯誤 容易 う Ajax 利用し 画面 移 い
ン し (図1)
図1: LOAD セ ン ンタ セ 検索 利用し 遺伝子発現解析 ワ
4.4 ォ タセッ
手元 遺伝子発現 タ 持 い 公共 タ 利用し 解析 う NCBI GEO タベ
病 関連す 公開 タセ し
• GSE4757 Neurofibrillary tangles
• GSE16759 Parietal lobe cortex
• GSE18309 Peripheral Blood Mononuclear Cells
• GSE28146 Hippocampus of incipient patients
• GSE29652 Astrocyte (ApoE genotype)
い 択す け 利用 う し
5.
まとめ
セ ン 利用し 遺伝子発現 タ解析 ホ 構築し 多様 タ 統合 RDF 有
効 あ こ セ 検索 SPARQL 親和性 ンタ
ン 実用性 確認し ここ数 年 RDF タ公開 流 性能向
上 生命科学者 利用 ン セ ン 元 構築 う いえ 一方
RDF さ い い タベ 多い
広い分 す ビ 構築 ン 整 備 含 的 基盤整備 必要 あ
参考文献
[Bertram 07] Bertram L, McQueen MB, Mullin K, Blacker D, Tanzi RE: Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database, Nature Genetics, Vol. 39, No. 1, pp. 17-23, 2007.
[Mizuno 12] Mizuno S, Iijima R, Ogishima S, Kikuchi M, Matsuoka Y, Ghosh S, Miyamoto T, Miyashita A, Kuwano R, Tanaka H: AlzPathway: a comprehensive map of signaling pathways of Alzheimer’s disease, BMC System Biology, 6:52, 2012.