2007 年度 修士論文
バイオパスウェイオントロジーの 拡張
提出日: 2007 年 2 月 4 日
指導: 村岡洋一教授
早稲田大学大学院 理工学研究科 情報・ネットワーク専攻 学籍番号: 3606U045-9
菅井 友之
目 次
第1章 序論 1
1.1 研究背景 . . . . 1
1.2 本研究の目的 . . . . 2
1.3 本論文の概要 . . . . 2
1.4 本論文の構成 . . . . 3
第2章 オントロジーとは 4 2.1 バイオインフォマティクスでのオントロジー . . . . 4
第3章 従来研究 6 3.1 関連研究 . . . . 6
3.1.1 GO語の合成構造の解析[1][2] . . . . 6
3.1.2 非語彙的な手法によるGO語の関連性抽出[3] . . . 6
3.1.3 Gene Ontology Next Generation(GONG)[4] . . . . 6
3.1.4 生物学的パスウェイ情報をOWL DLを用いて交換 する試み[5] . . . . 7
3.2 従来研究と本研究の相違点 . . . . 7
3.2.1 参照情報に多様な属性を付加 . . . . 7
3.2.2 BioPAXオントロジーの表現力を拡張 . . . . 7
第4章 INOH 8 4.1 INOH . . . . 8
4.2 INOHのオントロジー . . . . 8
4.3 INOHのオントロジーをより強いオントロジーにするために 9 4.4 EventOntologyの構造 . . . . 9
第5章 INOHアノテーションオントロジーの拡張 12 5.1 INOHオントロジーの拡張について . . . . 12
5.2 付加するクロスリンクの属性 . . . . 12
5.3 実装した運用法 . . . . 15
第6章 INOHアノテーションオントロジーについての実装と評価・ 考察 18 6.1 実験環境 . . . . 18
6.2 結果 . . . . 18
6.3 評価 . . . . 19
6.4 考察 . . . . 19
第7章 BioPAXによるパスウェイオントロジーの拡張 21 7.1 BioPAXオントロジーの拡張 . . . . 21
7.2 拡張の方針 . . . . 22
第8章 BioPAX拡張オントロジーの実装と考察 23 8.1 実装 . . . . 23
8.1.1 準備 . . . . 23
8.1.2 実現方法 . . . . 24
8.2 考察 . . . . 25
第9章 結論 29 9.1 まとめ . . . . 29
図 目 次
4.1 Processの例 . . . . 10
4.2 Locationの例 . . . . 10
4.3 MoleculeRoleOntologyの語の出現の例 . . . . 11
5.1 kind-ofの例 . . . . 13
5.2 located-inの例 . . . . 14
5.3 has-participantとhas-agentの例. . . . 14
5.4 プラグインの外観 . . . . 16
5.5 実行結果の表示例 . . . . 17
7.1 現状のBioPAXでのMolecularVariationの表現. . . . 22
8.1 MolecularVariationとgenericPathwayの追加 . . . . 26
8.2 MolecularVariationプロパティが追加された様子 . . . . 27
8.3 genericPathwayプロパティが追加された様子 . . . . 28
表 目 次
4.1 INOHで利用されるオントロジー . . . . 9
5.1 付加するクロスリンクの属性 . . . . 12
5.2 文字列比較のルール . . . . 15
6.1 実験に用いたオントロジー . . . . 18
6.2 実験で得られたリンクの数 . . . . 19
6.3 実験で得られたリンクの評価(精度) . . . . 19
第 1 章 序論
本論文では,バイオインフォマティクスで用いられるオントロジーの 拡張手法について述べる.
1.1 研究背景
生物学という学問は,既存の知識を元に新たな知識を獲得するという 事例ベースの学問であり,知識というものが非常に重要視されている.さ らに近年,ヒトゲノム計画が完了し,ヒトをはじめとする様々な生物種 の全ゲノムマップが次々に解明されている.一方で,個々のゲノムやタ ンパクの役割を解明するという研究は進んでいるが,生体を大局的に捉 え,タンパクやゲノムの相互作用によるシステムとしての生命現象の解 明へと研究のフォーカスが移ってきている.
これまで1個〜数個のゲノムやタンパクといった範囲で生物学者が研 究をしていたのに対し,ある生物個体を一つの生命現象システムと捉え たときには,考慮すべき情報が膨大である.この膨大な情報を計算機に よって適切に処理できることが,バイオインフォマティクスの分野で期 待されている.
生命現象に関する情報を計算機に格納するに当たって,重要な問題の 一つに語彙の問題がある.
従来の生物学の研究では,モデル生物ごとに研究グループが分かれて いたために,同じ分子やタンパク質に異なった名称を付けるということ が行われていた.また,生物学者たちは論文中でタンパク質等の名称を 記述する際,大文字小文字の書き分けや,名前の一部の省略などに関し てかなり寛容であり,単純に計算機でパターンマッチングをとるには不 適切な慣例がたくさんある.
そこで,現在のバイオインフォマティクスでは生物学・情報科学の両 面から使用する語彙の統一,ひいてはオントロジーの構築・整備という ことが大きな課題として認知されている.
前述のような状況で,生物学・バイオインフォマティクスの分野では きわめて有名なGene Ontology(GO)[6]をはじめとしていくつものオン トロジーがその目的にあわせて構築・利用されている.
しかし,GOに見られるように,生物学の領域でオントロジーと言うと ほとんどの場合それは構造化された統制語彙のことを示している.対し て,知識ベースをはじめとする計算機科学の領域では,ふつうオントロ ジーとは単なる語彙集合ではなく,概念構造を示す.
この間を埋めるために,3.1に述べるような,生物学の分野のオントロ ジーをより厳密な(計算機科学的な)オントロジーへとするような研究 が行われてきている.
その一つとして,オントロジーの語の構造に注目し,他のオントロジー との属性付き相互参照情報を付加する.
また,BioPAXのオントロジーを標準としての利点を殺さずに適切に 拡張する手法について述べる.
1.2 本研究の目的
本研究では,
• INOH[7]のオントロジーの語の構造に注目し,字句解析を用いて相
互参照情報の付加を行い,曖昧なまま用いられている既存の「is-a」
「part-of」関係を分解・再構築し統制語集合をより意味的に豊かな オントロジーへと近づけるための指針を示すこと,
• シグナル伝達パスウェイを表現するのためのオントロジーとして充 分な表現力を、BioPAXのオントロジーに持たせるように,標準性 も出来る限り残したまま拡張を行うこと.
という上記の2点が目的である.
1.3 本論文の概要
本研究では,INOHのオントロジーの語の構造に注目し,字句解析を用 いて相互参照情報付加をオントロジー構築ツールProt´eg´e上で実装する.
この手法により,曖昧なまま用いられている既存の「is-a」「part-of」関 係を分解・再構築し緩いオントロジーをより豊かなオントロジーへと拡
1.4 本論文の構成
第 1 章 序論 本論文の概要,目的,構成について述べる.
第 2 章 オントロジーとは 本論文で対象とするオントロジーについ て述べる.
第 3 章 従来研究 従来の関連研究について紹介し,本研究との相違 点について述べる.
第 4 章 INOH 本研究で対象とするINOHのアノテーションオント ロジーについて述べる.
第 5 章 INOHアノテーションオントロジーの拡張 INOHのアノ テーションオントロジーを拡張する手法について述べる.
第 6 章 INOHアノテーションオントロジーについての実装と評価・
考察 INOHアノテーションオントロジー拡張のの実験結果を示し,
その考察を述べる.
第 7 章 BioPAXによるパスウェイオントロジーの拡張 INOHパス ウェイデータの,BioPAX表現に於いての問題点を述べ,その解消 のための拡張について述べる
第 8 章 BioPAX拡張オントロジーの実装と考察 INOHパスウェイ
のBioPAX表現を実際に拡張し,考察する
第 9 章 結論 本研究のまとめと将来課題について述べる.
第 2 章 オントロジーとは
本章では,バイオインフォマティクスの世界で用いるオントロジーに ついて概観し,本論文で扱うオントロジーについて述べる.
2.1 バイオインフォマティクスでのオントロジー
現状では,オントロジーという語は利用者によって指す意味の内容に 幅がある.この曖昧性をできる限りなくすためにも,本論文で言うオン トロジーとは何かを述べる.
現状で用いられる「オントロジー」という語の利用は,大別すると以下 の2種類であるといえる.
• Light weight ontology
• Heavy weight ontology
このうち,Light weight ontologyはオントロジーと呼ばれるものの中 でも,比較的制約が少なく「緩い」オントロジーである.これは,概念 や語彙の厳格な選択基準はなく,用語論(terminology)との差別化も気に しない,「厳格に定義された用語集合」という位置づけのものである.
一方, Heavy weight ontologyは,「哲学的な考察を重要視し,概念一 つ一つの吟味が深く,概念間の関係のセマンティクスが厳密であること,
そして概念や関係の形式的な定義,あるいは意味制約記述が要求される 知識ベースのためのオントロジー」である.[8]
実際には,この中間的な層が断続的に存在しているため,明確な分類 はまちまちであるが,バイオインフォマティクスの分野で用いるオントロ ジー(以下,バイオオントロジー)は,前者に分類されるもの,特に前者 の指す「用語集合」を構造化したものが殆どである.実際に,現在では遺 伝子の機能アノテーションを行うデファクトスタンダードとして有名な
Gene Ontologyも,「is-a」と「part-of」の関係で構造化した統制語彙1で あるし,今回注目するINOHのオントロジーをはじめ,GOのフォーマッ トに準拠したバイオオントロジーは多い.
本論文の前半部では,より意味的なリンクで語と語が結合されるべき 統制語彙集合として,INOHのオントロジーに注目する.
また,近年では,生物学的な知識をより体系的かつ厳密に記述しよう という試みが始まっており,BioPAX[]などが有名である.
BioPAXは,生命現象の一連の流れ(これをパスウェイ,と呼ぶ)を記
述するための,データ交換フォーマットであり,Webのオントロジー言 語である,OWL DLに基づいてタンパク質間相互作用や代謝のパスウェ イを表現するための体系として用いられている.
本論文の後半部では,シグナル伝達パスウェイをはじめとしたより多 くのパスウェイを表現できるようにBioPAX標準のオントロジーにより 豊かな表現を持たせる拡張手法を提案する.
1情報検索において,索引語として利用する語を限定し,その意味範囲や使用方法を 限定したもの
第 3 章 従来研究
本章では,従来のバイオインフォマティクスに於けるオントロジー研 究をいくつか紹介し,それらと本研究との相違点を述べる.
3.1 関連研究
3.1.1 GO 語の合成構造の解析 [1][2]
あるGOの語(以下,GO語)が,別のGO語を適切な部分文字列とし て持つ,というGO語の構造に着目し,その構造を解析することで,GO をより計算機上に格納しやすい情報へと拡張するための道筋を示すばか りでなく,この手法で新しいGO語になりうる語を発見するなど,本研 究が将来的に目指すオントロジーの自動構築支援システムにつながる研 究である.
3.1.2 非語彙的な手法による GO 語の関連性抽出 [3]
すでに行われている,様々なデータベースでのGOによる遺伝子の機能 アノテーションの情報を用いて,同じ遺伝子にアノテーションされるGO 語には何らかの関連性があるのではないか,という発想でVector Space
Modelや統計検定,ルールマイニングなどを用いてGO語の隠れた関連
性を見つけ出した,という研究である.
3.1.3 Gene Ontology Next Generation(GONG)[4]
Gene Ontology Next Generationプロジェクト(GONGプロジェクト)
として,オントロジーとして緩い(厳密でない)部分も目立つGOをよ り強いオントロジーにしていこうという研究である.
特にGOをOWLの前身であるDAML+OILの表現に拡張することに よって記述論理を適用できるようにする研究[9]などが知られている.
3.1.4 生物学的パスウェイ情報を OWL DL を用いて交換 する試み [5]
生物学的なパスウェイを体系的に記述する基盤として,OWLのオン トロジーを利用しようという研究であり,本研究の後半部で対象とする
BioPAXオントロジー[10] を構築するベースにもなっている.
3.2 従来研究と本研究の相違点
3.2.1 参照情報に多様な属性を付加
もう一つの問題点として,計算機によって自動的にオントロジー間の 語の関係をみつけるような研究の場合,「何らかの関連性がある」という ことは発見するが,それがどのような関係かは殆どの場合言及しない.ま た,言及する場合であっても,多くのバイオオントロジーでは関連性の 種類は「is-a」と「part-of」の2種類ですませることが殆どであり,他の 関連性が使われることは稀である.
しかし,4.3で述べたように,より良いオントロジーを構成するために は,関連性の種類に気を配る必要がある.
本研究では,オントロジーの語の構造に着目し,適切な関連性で参照 情報を付加する.
3.2.2 BioPAX オントロジーの表現力を拡張
BioPAXのオントロジーは,標準としてよく議論されて策定されてき
ているものではあるが,現状では,あるデータベースの情報をきちんと 表現できるかというと,必ずしもそうではない.このため,BioPAXのオ ントロジーとしての標準性を残しつつ,より豊かな表現を行う方法を提 案する.
第 4 章 INOH
本章では,INOHの概要と,本論文でのデータセットとなる,そこで使 われているアノテーションオントロジーについて述べる.
本章に於いて,単に「オントロジー」と言ったときには,INOHのアノ テーションに用いられるオントロジーの事を指している.
4.1 INOH
INOH (Integrating Network Objects with Hierarchies)は,産業技術総 合研究所の生命情報科学研究センターにて開発されている文献からのキュ レーションに基づいたイベント指向型パスウェイデータベースであり,モ デル生物としてヒト,マウス,ラットなどを対象としている.
INOHでは,パスウェイと言う語は,一般的に,シグナル伝達パスウェ イや生物学的な事象(biological event)を構成する複数の生物分子間の関 係など,より高位の機能的な知識を指す[7]
INOHシステムのデータは,複合グラフ[11]によって表されるパスウェ イの図と,そのグラフのノードやエッジをアノテーションするいくつか のオントロジーによって構成されている.
本研究では,このINOHで用いられているオントロジーを用いる.
4.2 INOH のオントロジー
INOHでは表4.1に示す5つのオントロジーが構築・利用されている.
これらのオントロジーのファイル形式,使われる語の階層化に関する 慣例は,GOに準拠している.
MoleculeRoleOntology 分子・タンパク質名のオントロジー.[12]
EventOntology 様々な生命現象を分類するオントロジー.[13]
LocationOntology 細胞内局在のオントロジー.
GenomeSequence 核酸(DNA,RNA)の機能分類のオントロジー.
EventRelation Event間の関係のオントロジー.
ProcessOntology 分子間相互作用のオントロジー.
表 4.1: INOHで利用されるオントロジー
4.3 INOH のオントロジーをより強いオントロ ジーにするために
GOやINOHのアノテーションオントロジーのような,Light weight ontologyを扱っている分野ではあまり考慮されないが,Heavy weight on-
tologyを考えるにあたっては欠かせない考えとして,「クラス」の扱いが
ある.
Heavy weight ontologyでは,概念をクラスとして扱い,ある概念(ク ラス)から「is-a」のリンクで結ばれる概念は,その下位概念(サブクラ ス)であり,上位の概念が持つ属性などを全て継承する.
これに対し,Light weight ontologyではそのようなことはあまり考慮さ れない.まず,今回対象とするGO準拠のオントロジーでは「継承」の概 念がそもそも無い1.そのため,「is-a」の使い方もHeavy weight ontology のそれと比べ,あまり吟味されないで使われてしまい,例えば「instans- of」などと区別されないことがままある.
4.4 EventOntology の構造
上記のINOHのオントロジーの中でも,特にEventOntologyは以下の ような構造的な特徴を持っている.[13]
1オントロジーの語や構造から人間が読み取れる継承関係らしきものはあるが,「is-a」
関係が厳密でないため,継承があると言うことはできない,なによりも継承すべき属性 の情報をGOは保持してない
1. sub-pathwayの種類を表す語は”Binding”,”Phosphorylation”,”Nuclear import”など,ProcessOntologyの語を用いている.
特に,4.1に示すように,これらの語がsub-patywayの種類を表す ために利用される場合,語頭にくる.
図 4.1: Processの例
2. 生命現象が特定の場所で起こる場合,LocationOntologyの語を用い ている.
特に,図4.2に示すように,inのあとのLocationOntologyの語は
図 4.2: Locationの例 生命現象の起こる場所である
3. 現象に関わる分子/タンパク質名はMoleculeRoleOntologyの語を用 いている.
EventOnltology中で図4.3に示すようにMoleculeRoleOntologyの 語がアノテーションされる.特に,byの後に来る分子/タンパク質 名は現象を引き起こす物質である.
図 4.3: MoleculeRoleOntologyの語の出現の例
第 5 章 INOH アノテーションオ ントロジーの拡張
本章では,あまり厳密な意味で使われていないINOHのオントロジーで のリンク属性について,より意味的に正しいリンクを付ける方法を示す.
5.1 INOH オントロジーの拡張について
Prot´eg´eを用いて,複数オントロジーの相互参照を可能にし,各オント
ロジーに参照情報を付記できるようなプラグインを実装する.
特に,後に示す語の構造に注目して,参照情報に属性を付与する.
5.2 付加するクロスリンクの属性
前述のようなEventOntologyの構造をふまえ,以下のような属性をリ ンク情報に付加する.
kind-of sub-pathwayの種類を表す
located-in 生命現象の起こる場所を表す
has-participant 生命現象に関係する分子/タンパク質を表す
has-agent has-participantの中でも,とくに現象を引き起こす物質を表す
これらの関係性を付加することで,語と語の関係がより厳密に定義さ れる.すなわち,オントロジーの語と語がより意味的に繋がることに よって,検索システム等を実装する際にフリーワード検索に頼ることな く,意味ベースの検索が出来るようになる.
表 5.1: 付加するクロスリンクの属性
これらを,オントロジーの語の名前を比較し,以下に示すような文字 列のマッチングをとることで関連性を抽出,参照情報を付加する.
kind-of
kind-ofの関連性は,EventOntologyの語で表される現象がどのような 種類の現象であるかをProcessOntologyの語と関連づけることによって示 すものである.多くの場合図5.1のように,EventOntologyの語(Binding in cytosol)と,その語頭にあるProcessOntologyの語(Binding)はこの 関連性で結びつけるのが適切であると言える.
図 5.1: kind-ofの例
located-in
located-inの関連性は,EventOntologyの語で表される現象が,ある特 定の場所で起こる場合,それをLocationOntology の語と関連づけるこ とによって示すものである.図5.2で示すように,EventOntologyの語
(Phosphorylation in cytosol)中で,単語「in」のあとにLocationOntology の語(cytosol)が来ている場合,この関連性で結びつけるのが適切である.
has-participant
has-participantの関連性は,EventOntologyの語で表される現象に関 連する分子やタンパク質を示す.分子名やタンパク質名はINOHでは
図 5.2: located-inの例
MoleculeRoleOntologyで規定されているので,図5.3に見られるように,
EventOntologyの語(Phosphorylation of IRS by insulin receptor)中に MoleculeRoleOntologyの語(IRS,insulin receptor)が出てくれば,それ は関連する分子・タンパク質名であると言える.
図 5.3: has-participantとhas-agentの例
has-agent
has-agentの関連性は,has-participantの関連性の中でも,特に現象とそ れを引き起こす物質という様な関連性を示す.has-participantに当てはま るEventOntologyとMoleculeRoleOntologyの語のペアの中でも,図5.3の ようにEventOntologyの語(Phosphorylation of IRS by insulin receptor)
で,単語「by」の後にMoleculeRoleOntologyの語(insulin receptor)が 来ているような場合は現象を引き起こす物質を表していると言える.
どのようなパターンをとるか,改めて表5.2にまとめる.
kind-of EventOntologyの語の語頭にあるProcessOntologyの語
located-in EventOntologyの語中で「in」の後にくるLocationOntologyの語 has-participant EventOntologyの語中にあるMoleculeRoleOntologyの語
has-agent EventOntologyの語中で「by」の後にくるMoleculeRoleOntologyの語 表 5.2: 文字列比較のルール
文字列比較の際,INOHのオントロジーはキュレーターによる手作業 での作成が行われているということを考慮し,アルファベットの大文字/
小文字を区別する比較と区別しない比較の両方を行い,差分をとってみ ることにする.これによって,オントロジー間の語の利用の不統一を抽 出することができると考えられる.
5.3 実装した運用法
ここでは,著者の開発したプラグインの外部仕様に関して述べる.
Prot´eg´eからプラグインを呼び出すと図5.4のような画面になる.
画面上部には二カ所のファイル入力部があり,左側に構造を持つオン トロジーのファイルを,右側には左側のオントロジーの語にアノテーショ ンされるような語をもつオントロジーのファイルを入力する.
その下の画面,左側には結果表示用のテーブルがあり,右側にはどの クロスリンクについて調べ・付加するかを決定するボタンがある.
ここで,左側にEventOntology,右側にProcessOntologyを選び,kind- ofボタンを押したときの画面表示を図5.5に示す.
図 5.4: プラグインの外観
図 5.5: 実行結果の表示例
第 6 章 INOH アノテーションオ ントロジーについての実 装と評価・考察
本章では,実装したシステムの実験と評価・考察を行う.
6.1 実験環境
実験に用いたデータセットは,表6.1に示すバージョンのINOHオント ロジーである.
オントロジー Version 更新日時 エントリ数
EventOntology 1.58 2005/Dec/12 2713
MoleculeRoleOntology 2.10 2005/Dec/27 7202 LocationOntology 1.00 2005/Dec/12 49
ProcessOntology 1.40 2005/Oct/17 42
表 6.1: 実験に用いたオントロジー
6.2 結果
本論文で提案したシステムでは,表6.2のように参照情報を付加できた.
リンク属性 得られたリンクの数 大文字小文字を区別しない
kind-of 1292 1298
located-in 66 66
has-participant 1889 2115
has-agent 273 308
表 6.2: 実験で得られたリンクの数
6.3 評価
実験で得られたリンク(大文字小文字を区別しているもの)が適切で あるかを著者が一つ一つチェックしてみると,表6.3のようになった.
リンクの種類 適切なリンクの割合(%)
kind-of 100
located-in 100
has-participant 79.8
has-agent 84.3
表 6.3: 実験で得られたリンクの評価(精度)
6.4 考察
このように,INOHのアノテーションオントロジーに意味的に強い リンクを導入し,構造により強いセマンティクスを持たせることが出来た.
なお,このセマンティクスの妥当性だが,表6.3をみると,kind-ofとlocated- inでは完全に適切なリンクばかりである,という結果になっている.こ れは,もともとProcessOntologyやLocationOntologyの語の数が少ない こと,それらの語が基本的に同一オントロジー中の他の語の部分文字列 になっていないこと,located-inではそもそもヒットした数自体が少ない ことなど多数の要因が重なって出た結果である.なお,語の名前の比較 だけでは発見できないようなkind-of関係,たとえば,Deacetylation(脱 アセチル化) はHydrolysis(加水分解)の一種である,などという関係は
抽出できていない,つまり精度は良いが再現率については改良の余地が 十分にある.
また,has-participantやhas-agentの不適切なリンクで多かったものは,
単純な文字列比較を行ったので,適切な語が他のオントロジー中の語を部 分文字列として持っていた場合に,短い方の語でもヒットしてしまう,と いうものだった.ほかに,has-agentでは複数の分子・タンパク質がagent となるような場合を考慮して居なかったため,例えば,Phosphorylation of LIF receptor by JAK1 and JAK2 (IEV:0002156)という語ではJAK1 とJAK2の両方にリンクされるべきだが,語中で先に出現しているJAK1 にのみリンクされる,という結果になってしまった.
とは言うものの,発見できたリンクは80%程度の割合で適切なリンク が付与されていることからも,現状の曖昧な関連性で語が関連づけられ る構造を,適切な(曖昧さのない)関連性で語を関連づけるようにする ことの良い足がかりになるだろう.
また,これは付加的な価値だが,大文字小文字を区別したときとしな い場合での差分を見ることにより,オントロジー間の一番単純なもので はあるが,語の利用の不統一が発見できた.これは,単純ではあるが計算 機によるオントロジー自動構築のモティベーションの大きな柱の一つ1で あるため,無視できない成果であるといえる.
1INOHのオントロジーやGOをはじめ,現在利用されているオントロジーのほとん どはマニュアルでキュレーションされているため,このような不統一が100%なくなる,
というのは保証されないため,そのような点では非常に厳密な機械である計算機によっ
第 7 章 BioPAX によるパスウェ イオントロジーの拡張
7.1 BioPAX オントロジーの拡張
BioPAXのオントロジーは,現状では,INOHのパスウェイ知識を格納
しようとした場合,適切に表現できないようなプロパティがいくつかあ る.
たとえば,あるパスウェイは,より抽象的なパスウェイに具体的な分子 を当てはめたものである,というMorecularVariationというプロパティ や,あるパスウェイともうひとつのパスウェイについて,生物種が異な るだけで同様の意味合いをもつパスウェイであるというHomologousと いうプロパティなどが例としてあげられる.
これらは,本来プロパティとして表現されるべきパスウェイの特徴で あるが,現状のBioPAXではこのようなプロパティを許しておらず,xref
というUtilityClassのサブクラスのインスタンスとして表現されている.
これは意味的にも少々歪んでしまっているし,パースする際にも余計な 手続きが多く必要である.
このようなプロパティを,プロパティとして許すようなオントロジー
にBioPAXを拡張しようというのが狙いである.
ただし,BioPAXというのは先述したように,パスウェイのデータ交換 フォーマットとして標準とされている形式である.この形式をむやみに 破壊してしまうようでは,拡張のベースとしてBioPAXを用いる理由と いうのが無くなってしまう.自分に都合の良いオントロジーフォーマット を用意するが誰にも使ってもらえない,というのと同じことだからだ.
ここで,BioPAXの標準形式を残しつつ,必要に応じて拡張されたオン トロジーを使えるような拡張を考える.
図 7.1: 現状のBioPAXでのMolecularVariationの表現
7.2 拡張の方針
以下のような方針に基づいてBioPAXのオントロジーを拡張する.
• XMLを用いてBioPAXを解析する人やツールに取っての負担はで
きるだけ小さくする.
• オントロジーの提供者がクラスやプロパティなどの階層化された項 を新たに定義できるようにする.
• BioPAXのオントロジーを用いているという明示的な表示をする.
ここで,OWLのヘッダに記述できる,owl:importに注目し,既存のオ ントロジーに,拡張オントロジーを結合することで,拡張オントロジー を表現する.
第 8 章 BioPAX 拡張オントロ ジーの実装と考察
本章では,BioPAXオントロジーで表現されたINOHの具体的なパス ウェイに対して,前章で述べた方法を適用し,考察する.
8.1 実装
8.1.1 準備
ここでは,対象としてJAK STAT MolecularVariation.owlを用いる.
INOHのBioPAX形式で表現されたパスウェイオントロジーに於いて,
拡張前のMolecularVariationの実装は以下のようになっている.
• bp:controlやbp:conversionのサブクラスのインスタンスの,XREF プロパティの「値」として表現されている.
• XREFプロパティはオブジェクトプロパティであり,値もまたイン スタンスである.
• このXREFプロパティの値としてのインスタンスにbp:commentと して自然言語のコメントを記入できるが,その部分への記述となっ ている.[図 7.1 参照]
このように,自然に考えれば,抽象度の違うパスウェイ同士を結んで いるだけと考えられるMolecularVariationの実装は非常に歪んだものに なっている.
8.1.2 実現方法
前項で見た内容をふまえ,以下の手順でMolecularVariationの実装 を行う.
• オリジナルのオントロジー(オリジナルオントロジー)と,それを インポートしただけのオントロジー(インポートオントロジー)を 用意する.
• インポートオントロジーに,MolecularVariationというプロパティ を追加する.
• インポートオントロジーに於いて,MolecularVariationの逆プロパ ティとして,genericPathwayを定義する.
• オリジナルオントロジーのMolecularVariationのコメント欄に書か れている内容から,MolecularVariationのプロパティをpathwayStep のインスタンスについて定義する.
• 新に空のオントロジーを作成し,それにオリジナルオントロジーと インポートオントロジーの両方をインポートし,これを拡張オント ロジーとする.
MolecularVariationというプロパティを作ってしまうのが一番自然な 表現であるといえる.ここで,プロパティのrangeとdomainはいずれも pathwayStepのインスタンスである.このとき,逆プロパティを定義してお けば,ある一組のインスタンスのペアA,BにたいしてMolecularVariation の追加を行うだけで,B,A間のgenericPathwayがつくことは自明である.
(オントロジーに関して何の操作もしなくても,genericPathwayというプ ロパティが追加される).
MolecularVariationを追加し,その逆プロパティとしてgenericPathway を定義した時の様子を[図:8.1]に示す.
このとき,抽象度の高いパスウェイはより具体的なパスウェイに対し てMolecularVariationプロパティを持っている.[図:8.2]
そして,(或る程度)具体的なパスウェイは,抽象度の高いパスウェイ に対してgenericPatywayプロパティを持っている[図:8.3]
8.2 考察
本章では,INOHのパスウェイデータのひとつ,JAK STAT Molecu- larVariationについてのBioPAX表現ファイルを例に挙げて,Molecular- Variationの実装を行った.
この手法により,現状のBioPAX表現では,歪な表現にならざるを得 なかったMolecularVariationについて,直感的にも分かりやすく,オント ロジーとしても洗練され,検索可能性を高めた形で表現することが出来 た
拡張オントロジー自体は元のファイル情報もそのまま残して持ってい る.このため,拡張前のオリジナルオントロジー情報が必要な際でも,イ ンポートオントロジーの情報を無視することによって,拡張オントロジー からオリジナルオントロジーの情報をそのまま使うことが出来る.
考慮である.
この手法は,勿論,同様の問題を抱えているHomologousEventなど のプロパティにも適用できる.同様に,INOHのオントロジーに限らず,
BioPAX表現で用意されているオントロジーについても同様の手法での
拡張を考えることが出来る.
図 8.1: MolecularVariationとgenericPathwayの追加
図 8.2: MolecularVariationプロパティが追加された様子
図 8.3: genericPathwayプロパティが追加された様子
第 9 章 結論
本章では,本論文のまとめと,今後の課題について述べる.
9.1 まとめ
本論文では,INOHのオントロジーの構造から,オントロジー間を適切 な関連性情報を用いて関連づけるシステムを提案した.MoleculeRoleOn- tologyやLocationOntologyの語は,ある規則に従ってEventOntologyの 語にアノテーションされるということに注目し,字句解析を行うことに よって適切な関係でオントロジー間を関連づけることだけでなく,手入 力の際のミスや思い違い,情報伝達の不足などに起因する語の不統一を 一部発見することができた.また,BioPAXで表現されたパスウェイの知 識を拡張する方法について述べた.この手法により,BioPAXの表現力で は自然に表現できなかった知識について,BioPAXの標準提供ファイルを 直接加工せずに,豊かな表現力で表現できる様になった.
謝辞
本修士論文を作成するにあたってたくさんの方にお世話になりました.
まず、最適な研究環境を御用意し御指導をしてくださった村岡洋一教授 に深く感謝します.本研究の指針を示し,ご指導をしてくださった産業 技術総合研究所の福田賢一郎氏に深く感謝します.福田氏の協力なくし ては,本論文は完成しえなかったと思います.最後になりましたが,貴重 なアドバイスをしてくださった村岡研究室のみなさまに深く感謝します.
関連図書
[1] P.V. Ogren, K.B. Cohen, G.K. Acquaah-Mensah, J. Eberlein, and L. Hunter. The compositional structure of gene ontology terms. Pro- ceedings of the Pacific Symposium on Biocomputing, 2004.
[2] P.V. Ogren, K.B. Cohen, and L. Hunter. Implications of composi- tionality in the geneontology for its curation and usage. Proceedings of the Pacific Symposium on Biocomputing, 2005.
[3] O Bordenreider, Aubry, and A. M.Burgun. Non-lexical approaches to identifying associative relations in the gene ontology. Proceedings of the Pacific Symposium on Biocomputing, 2005.
[4] GONG. http://gong.man.ac.uk/.
[5] Luciano JS. Ruttenberg A, Rees JA. Experience using owl dl for the exchange of biological pathway information. OWL: Experiences and Directions, Galway,Ireland., 2005.
[6] The Gene Ontology Consortium. Gene ontology: Tool for the unifi- cation of biology. Nature Genetics., pp. 25–29, 2000.
[7] INOH. http://www.inoh.org.
[8] 溝口理一郎. オントロジー工学. 知の科学.オーム社, 2005.
[9] Wroe C.J., Stevens R, Goble C.A., and M. Ashburner. A methodol- ogy to migrate the gene ontology to a description logic environment usingdaml+oil. Proceedings of the Pacific Symposium on Biocom- puting, 2003.
[10] BioPAX. http://www.biopax.org/.
[11] Ken ichiro Fukuda and Toshihisa Takagi. Knowledge representation of signal transduction pathways. Bioinformatics, Vol. 17, No. 9, pp.
829–837, 2001.
[12] Satoko Yamamoto, Takao Asanuma, Toshihisa Takagi, and Ken Ichiro Fukuda. An ontology for annotation of signal transduc- tion pathway molecules in the scientific literature: Molecule role ontology. Comparative and Functional Genomics, December 2004.
[13] Tatsuya Kushida, Toshihisa Takagi, and Ken Ichiro Fukuda. Event ontology: A pathway-centric ontology for biological processes. Pro- ceedings of the Pacific Symposium on Biocomputing, 2006.
[14] ARIEL S. SCHWARTZ and MARTI A. HEARST. A simple al- gorithm for identifying abbreviation definitions in biomedical text.
Proceedings of the Pacific Symposium on Biocomputing, 2003.
[15] Asako Koike and Toshihisa Takagi. Gene/protein/family name recognition in biomedical literature. Proceedings of HLT-NAACL BioLINK workshop, 2004.