• 検索結果がありません。

染色体異常に対する混合木モデルの紹介とその改良

N/A
N/A
Protected

Academic year: 2021

シェア "染色体異常に対する混合木モデルの紹介とその改良"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)2006−BIO−6 (4)   2006/9/15. 社団法人 情報処理学会 研究報告 IPSJ SIG Technical Report. 染色体異常に対する 混合木モデルの紹介とその改良 山本 幸生. 大羽 成征. 石井 信. 奈良先端科学技術大学院大学 情報科学研究科 〒. 奈良県生駒市高山町. 概要 近年、がん細胞における染色体異常蓄積のモデルとして混合木モデルが提案されている。このモデルによ れば、各症例で起こっている染色体異常イベントのデータから木構造の因果関係を推定することができる。 しかし従来のモデルには観測ノイズに起因する偽陰性の悪影響を受けやすいという問題があった。そこで 我々はイベント推定における偽陰性の影響に対してロバストな因果関係を推定するべく混合木モデルの改 良を行った。また人工データにもとづいて従来のモデルのノイズの影響を検証し、さらに偽陰性ノイズを考 慮した改良の効果を確認した。. まう。またがん細胞の第二の特徴として、細胞の. 導入. 異常が個体に悪影響を与えないための細胞自死シ 正常な細胞の細胞分裂では、まず遺伝子をコー. ステムの異常が挙げられる。この二つの理由から、. ドしている染色体が複製され、続いて複製された. がん細胞内染色体の異常が蓄積されてゆき、それ. 染色体が均等に. がさらに様々なシステム異常の原因となってゆく. 分された後、最終的に核と細胞. 質が分裂する。この一連の流れを細胞周期と呼ぶ。. のだと考えられている。. がん細胞の第一の特徴はこの細胞周期が乱れてい. 染色体異常の具体例として、細胞に含まれる染. ることであって、そのせいで細胞が過剰な増殖を. 色体の量が一部断片において通常よりも多くなっ. 起こしたり染色体複製が不均一になったりしてし. たり 増幅 、少なくなったり 欠損 といった様子. −25− 㪄㪈㪄.

(2) が観測されている. 。これらの染色体異常は未知. 増減を判断する手法である。アレイ. 手法を. の因果関係の一連の流れに従って起こっていると. 使ったこれまでの研究は、多くの種類のがんでい. 考えられており、これを解明することには、がん. くつかの一致した染色体変化のパターンが存在し. の病理学的解明臨床での治療法選択などにつなが. ていることを示唆している. る大きな意義がある。しかし特に腫瘍として発見. アレイ. 。. 手法にもとづくイベント検出は一. されるがんにおいては、染色体異常を測定する時. 度に染色体の全領域にわたる調査ができる利点が. 点まで異常の蓄積は近づいており、過去に起った. あるが、染色体上イベント検出において偽陽性と. 染色体異常のイベント間の因果関係を知ることは. 偽陰性のノイズを含む事がある。現状の混合木モ. できない。そこで、同種のがんに関する複数の症. デル. 例の染色体異常にもとづく因果関係の推定が試み. らず、わずかな偽陰性ノイズを含む症例であって. られてきた。. も悪影響が大きい。我々は本稿で、データのノイ. 直腸がんにおいて3つの遺伝的イベントが順番 に起こるという経路モデルが提案されている. 。. はイベント単位のノイズを考慮してお. ズの影響を考慮した混合木モデルの改良型を提案 する。この改良の結果、全ての症例の中でノイズ. 経路モデルでは、遺伝的イベントはがんの進行に. と判断されて星状モデルに割り当てられる症例を. 併せて. 番目のイベ. 減らし、主要木構造の推定のためにより多くの症. ントが起こる確率が増加するというような、直線. 例を使うことができるようになった、またこれに. 的な因果関係を仮定している。またこのモデルの. より木モデルの確率推定の精度を高める事ができ. 拡張として、. ることがわかった。. 番目のイベントが起こると. ら. は. つのイベント. つ以上のイベントの原因となる事を許した木. が. 状の因果構造を持つモデルを提案した. 。. 木モデルはその特別な場合として先に述べた経 路モデルを含むなど高い説明力を持っているが、因 果関係上流のイベントが起きているときのみ下流 イベントが起りうるという順序関係を厳密に要求. 染色体異常に対する 混合木モデル 各症例. において観測された遺伝的. するために、必ずしも全症例を説明できない。症. イベントを. 例の中でこのモデルに適合しないものを表現する. で表す。その各要素は. ため、隠れイベントを考慮した デル. モ. 症例 において 番目の. や、複数の木構造を推定する混合木モデル. が提案された. 値ベクトル. イベントが起こっている. 。とくに混合木モデルでは複数の. 起こっていない. 木構造のうちの一つを星状にするアイデアが重要 である。星状の構造は木構造の特別な場合であっ. の 値をとるものとする。ただし、 番目のイベン. て、全ての遺伝的イベントが独立に一定確率で起. トは特別な. こると仮定しており、どのようなイベントパター. り立つこととする。. ンを持つ症例も有限の確率で表現できる。混合木. は、染色体部位の増加や欠失、変位などが想定さ. モデルは、主要な木構造で説明できない症例を星. れている。. イベントとし、常に. が成. でない各イベントとして. 状モデルに担当させることでロバストな推定を実 現した。. 木モデル. 染色体異常イベントの検出方法として、染色さ れた染色体を顕微鏡下でしらべる である. 方法としてアレイ るようになってきた 必ず. 法が有名. 。一方で近年、染色体異常の新しい検出. ここで染色体上イベント間の因果関係が木構造 をなしていると仮定し、これを表す木構造を. と呼ばれる手法が使われ 。この手法は通常の細胞が. コピーの染色体セットを持っているという. で表現する。図 こで、. はその例を示す。こ. は全イベントを表現するノードの集合、. はノード間をつなぐリンクの集合、 は. 事を利用して、多数 数千から数万個 の染色体断. ベント、. 片につけた蛍光色素の蛍光比で染色体の部分的な. 間の条件付き確率を表す。(例えば親イベント. −26− 㪄㪉㪄. イ. は直接の因果関係を持つイベントペア.

(3) と子イベント. をつなぐリンク はイベント. について、. null. が起こった時の. の起こる条件付き確率を表している)。 V : {null, V1 , V2 , V3 , V4 }. 0.3. V1. V3. P(V1 = 1 | null = 1) = 0.5 P(V4 = 1 | V2 = 1) = 0.7. V4. つのノードを持つ木構造の例。矢印はイベント間の因 果関係を表しており、各エッジについている数字は条件付き確 率を表している。. いったん木構造が与えられると、全症例におけ もとづく木構造. に. の尤度. V4. 混合木モデル 混合木モデル. 図. る全イベントの観測データ. V3. つのノードを持つ星状構造の例。 以外のイベン から起こるためイベント間の相関のないノイズを表 トは 現している。. V2 0.7. V2. 0.5. 図. E : {( null, V1 ), (r , V2 ), (V2 , V3 ), (V2 , V4 )}. 1.0. 0.5. 0.5. V1. null 0.5. 0.5. は各パターン. リー. 個のツ. のうちの一つから生成され. たと考えるモデルである 選ばれる確率を混合比 ル. が. 。 番目のツリー. が. とするとき、混合木モデ. の尤度は以下のように定義される。. を計算する事が. できる。 モデルから説明できない症例パターンが無いよう にするために ここで. は各パターンベクトル. ら生成される確率である。サンプル こっているイベントの集合を. か. の中で起. とする。木構. の中で、実際におこった. 造を構成する全エッジ イベント. が. アである。星状構造では、. イベントが他の全. てのイベントの上流になっており、生成不可能な パターンが存在せず. が成り立つ。混. 合木モデルでは主要木モデルでは説明できないノ. とする。さら. イズ的症例を星状構造に集めることで、残りの症. に可能な全てのエッジの中で実際に起こったイベ. 例モデルで安定した主要木構造を推定する。. とをつなぐ. なお主要木構造が複数ある状況を考慮できるこ. で表す。例えば図 の例で. とも混合木モデルの特徴であるが、本稿では主要. と起こらなかったイベント. エッジの集合を. とすると、. 木構造. 、. となる。するとこの木構造. の一つだけ、すなわち. である場. 合について考えることにする。. 、 ル. 固定するのが、混合木モデルで最も重要なアイディ. の要素間をつなぐエッジだけを抜き出. してきたものをエッジ集合 ント. の構造を図 のような星状構造に. からイベントベクト. が生成される確率は以下のように表すことが. 拡張混合木モデル. できる。. ノイズとその影響 真の主要木モデル ところで. から生成不可能なパターン. 得る。例えば図 の例では イベントパターンは、 らず. について. のような. が起っていないにも関わ. が起こっており. のような時. があり. では説明できない。こ とする。この条件の問題. から生成されたパターンで. あっても、少しのノイズ とくに偽陰性 のせいで から生成され得ないパターンが観測されてしまうこ とがある。例えば図. の木構造から. のようなパターンが生成されていたとして、イベン ト. がノイズのために偶然に見落とされた場合. から生成され得ない. 節で解説する。. このとき. に対応する. が観測される。 の尤度は. となるため、前節で説明した混合木モデルでは、そ. −27− 㪄㪊㪄.

(4) のようなパターンは星状モデル まう。しかし. はイベント. の主要木モデル て、これが. に吸収されてし 以外に関しては真. の特徴を保持しているのであっ. 影響はさほど大きくない。そこで以下では偽陽性 、偽陽性率. 数. が. である場合のみ考えるこ. とにする。このとき、. の推定に参加できないのは大きな情. 報のロスである。 となる。. ノイズを考慮したモデル. 混合木モデルの推定. 観測された染色体異常イベントのパターンベク トル. がノイズを含んでいる場合は以下のよう. アルゴリズムの大枠. に定式化できる。 混合木モデルの各ユニットモデル. から確率的. に生成された真のパターンを. 混合木モデルの尤度関数 モデル. とするとき、染色体異常イベント が起こっ. を求めるために. 案されている. を偽陰性. と呼び、染色体異常イベント. はツリー. 起こっていないにもかかわらず、ノイズのために. ある。. それが観測されること. 固定して. 性. を偽陽 と呼ぶことにする。また、. 偽陰性率を. 、偽陽性率を. が各ツリー. のどれに所属するかを示す変 数を責任信号. が. アルゴリズムが提. 。各パターン. ているにもかかわらず、ノイズのためにそれが観 測されないこと. を最大化する. と呼ぶ。. のときパターン. に属する。ここで. で. アルゴリズムでは各ツリーモデル を求める. ステップと. 各ツリーモデルを求める. を. を固定して. ステップを収束するま. で繰り返す。以下で各ステップを詳しく説明する。. と書くことにする。 混合木モデルの各木モデル とき、. が与えられている. から真のイベントパターン. 確率. は. 章の式. で定義されたとおり. である。しかし、観測イベントパターン れる確率. が得ら. は観測ノイズを考慮することに. よって以下のようになる。. ただし和は全ての可能なパターン る。ここで. は真のパターン. ステップ. が得られる. 各ツリー. に対応する症例に関する全てのイベ について共起確. ントペア 率を計算する。. に関してと. ただし. にノイズが. 木構造を推定する方法として一般的なものは. 付与される過程を表し、以下のように計算できる。. とする。これにもとづいて アルゴリズム. であり、ほ. とんどの場合に尤度最大の木構造が得られることが 経験的に分かっている。 アルゴリズムでは、イベント間のエッジの重み を以下のように計算し、 ただし. はそれぞれ. において観測されな. いイベント 観測されたイベントの総数。 はそれぞれ仮に. が真実であるとしたときに. 含まれると考えられる 般に偽陰性ノイズが. に. の総数である。一. 木構造を構成するエッジの重みの合計が最大にな. に近いノードで起こると. るように木構造を構築する。同時に混合比パラメー. 生成され得ないパターンになってしまう可能性が 大きく、悪影響が大きい。一方で偽陽性ノイズの. −28− 㪄㪋㪄. タを. で計算する。.

(5) の星状構造については、特にエッジの重みを 全エッジで共通の値 として以下のように求める。. 各モデルに基いてそれぞれ真のイベントパター ンデータ. 症例ぶんをランダム生成した。さらに、. 生成された人工データの各症例イベントに対して 率. あらかじめ決めておいた ダムに. に従ってラン. の変換を加えることで観測データを. 作った。なお、. の各場. 合を比較した。. ステップ. こうして作った人工データにもとづいて混合数 ステップで更新された木構造 に対応する. ターン. から、各パ. の尤度. を式. に固定し、. のように計算できる。これを用いて以下のように パターン. の混合木モデルを推定した。. の責任信号を更新する。. は星状構造. は主要木モデルを推定した。. 考慮する場合には適当な. 率. を. を与える必要が. あったが、これには. の. 各場合を比較した。. を与えた場合は従来法. と同等である。 データに偽陰性を考慮した場合、木構造の尤度の となるがその他のアルゴリズムは全. 計算式は. く同様である。ここで真の偽陰性率. は不明であ. るので適当に与える。 正確には式. では全ての可能な. について和. をとらねばならないが、計算量の節約のため偽陰 性の個数が. 個もしくは. 個のみである場合につ. いてのみ和をとる近似を用いた。 い値のときには偽陰性の個数が. が十分に小さ 個以上である確. 率は小さいため、近似の精度は十分であると考え られる。. 推定されたモデルの精度は二種類の基準で比較 した。第一は主要木モデル. の混合比. の値で. ある。本来は一つの木構造から得られたデータで あるので、. が に近いほど推定の精度が良かっ. たことになる。第二は各エッジの確率推定のエラー である。図. のとおり、全エッジにおいて真の条. 件付きイベント生起確率は. である。この推定. 値と真値の間の平均二乗誤差も推定精度の基準と した。なお、木構造の構造推定はここでは考慮せ ず、正しい構造が推定できているものとした。そ れぞれの条件のもとで乱数種を変えながら. 回. の実験を行い、得られた結果の平均と標準偏差を 示した。. 数値実験 実験 データに の悪影響. 準備. を加えたとき. アルゴリズムの評価のため人工データを以下の 観測データに含まれる. ように用意する。 まず推定対象となる真のモデルとして を. トからなる木構造. イベン. の割合. の上段にその結果を示す。横軸は. 種類用意した。 図. の曲線はそれぞれ、真の構造

(6) 1.

(7) 2. 1.

(8) 3. 1. 2. 3 4 5. 3. 4. 5. 2. 3. 5. 6. の値。 本. が. であった場合の推定結果に対応する。図. の左側. では主要木モデルの混合比、右側では条件付き確. 1. 2. と従来法の. 混合木モデルに基く推定精度の関係を調べた。図. 率の推定誤差を示している。. 4. データに. を加えた場合には全てのモデルで. 主要木モデルの混合比が減少し、条件付き確率の. 6. 誤差が上昇しており推定精度が悪くなっている事. 6. 図. 人工データの基として用意した 種類の木構造。イベ ント間の条件付き確率は全てのエッジにおいて と した。. −29− 㪄㪌㪄. がわかる。 つのモデル間の違いを混合比でみる と、主要木の構造がノイズを担当する星状構造と 大きく異なる直線状の構造. の場合にノイズの.

(9) Influences of false negatives 1. 0.4. 0.9. Error of estimation. α.

(10) 1. 0.8. 2 0.7.

(11) 3. 0.6 0.5.

(12) 2. 0. 0.05. 0.1. 0.15. 0.3. 0.2. 0.1. 0. 0.2. 0. *. Actual false negative rate, β. 0.05. 0.1. 0.15. Actual false negative rate,. 0.2 *. β. Estimation power of the improved model 0.16. 0.95. 0.14. Error of estimation. 1. 0.9. α20.85 0.8 0.75 0.7. 0. 0.05. 0.1. 0.15. False negative rate, β. 0.2. 0.12 0.1 0.08 0.06 0.04. 0. 0.05. 0.1. 0.15. False negative rate, β. 0.2. 図 上段は実験 下段は実験 の結果を示す。各左段は混合木構造の推定結果として得られた混合比 、右の図は推定された条 件付き確率と真の値との誤差を示している。実線はモデルとして を与えた場合、点線と波線はそれぞれ と を与えた場 試行中の標準偏差を示している。 合。エラーバーは 影響が小さく、星状構造に近い. 、. ほど影. 改良手法では偽陰性率. を適当に決める必要があ. 響が大きくなっていることがわかる。対照的に条. るので、それを様々に変えながら結果を比較した。. 件付き確率の推定誤差は、推定するモデルの構造. なお、. が直線に近いほど. 図. の影響を受けやすく、星状. の場合が従来法に対応する。 の下段にその結果を示す。横軸は. の値で. 構造に近いほど影響が小さくなっている。また両. ある。主要木モデルの混合比の値は従来法よりも. 者ともに. 改善が見られたが、性能がピークを示す. を大きくするに従って標準偏差の値. が大きくなっており、ノイズとしての. が推定. モデルの構造によって異なった。. の値は. では. の安定性に大きな悪影響をもたらしていることが. 付近で混合比が最大になっており、改良手法によ. わかる。. り. ノイズの影響を減少できたと考えられる。最. も星状構造に近い. 実験. を大き. くすればするほど混合比が大きくなっており、推. 改良手法の性能. 観測データに含まれ偽陰性ノイズを. では、仮定する. 定する対象の構造が星状構造に似ている場合には で. 固定した場合について、改良手法の性能を調べた。. の適切な選択が困難であると考えられる。条件 付き確率の推定については、全てのモデルで誤差 と標準偏差が減少しており改良手法の有効性が確. −30− 㪄㪍㪄.

(13) 認できた。特に. では. から. まで. 誤差が減少しその後上昇している事から、真の木 構造が直線上に近く. から見て深い枝を含む場. 合に改良型手法が最も有効である事がわかる。. まとめ 本研究では偽陰性の悪影響を避けるために、デー タ中に偽陰性を考慮する事で混合木構造を改良し た。人工データにもとづく数値実験の結果、従来 の混合木モデルではデータの中に. が含まれる. 場合に因果関係推定に使われる症例の割合が小さ くなり、推定結果も悪くなる事を確かめ、さらに 混合木アルゴリズムに. の影響を考慮した改良. 手法を導入すると、データ損失が少なくなりさら に木構造の条件付き確率推定の精度が上昇する事 を示した。 本稿では偽陽性を含めた場合や、遺伝的イベン トの数や症例の個数が大きくなった時にその影響 が混合木構造の推定にどう関わるかは考慮してい ない。また混合木アルゴリズムの中で、. ら. によって推定された木構造の尤度推定に 対してのみノイズの影響を考慮したが、主要木構 造の構築に対するノイズの影響の調査も今後の課 題である。. 謝辞 本研究の一部は、文部科学省特定領域科学研究 費 応用ゲノム の支援を受けて実施されました。. 参考文献. −31− 㪄㪎㪄㪜.

(14)

参照

関連したドキュメント

以上の結果について、キーワード全体の関連 を図に示したのが図8および図9である。図8

で得られたものである。第5章の結果は E £vÞG+ÞH 、 第6章の結果は E £ÉH による。また、 ,7°²­›Ç›¦ には熱核の

テストが成功しなかった場合、ダイアログボックスが表示され、 Alienware Command Center の推奨設定を確認するように求め

(b) 肯定的な製品試験結果で認証が見込まれる場合、TRNA は試験試 料を標準試料として顧客のために TRNA

本アルゴリズムを、図 5.2.1 に示すメカニカルシールの各種故障モードを再現するために設 定した異常状態模擬試験に対して適用した結果、本書

これらの実証試験等の結果を踏まえて改良を重ね、安全性評価の結果も考慮し、図 4.13 に示すプロ トタイプ タイプ B

都調査において、稲わら等のバイオ燃焼については、検出された元素数が少なか

基準の電力は,原則として次のいずれかを基準として各時間帯別