• 検索結果がありません。

非計量多次元尺度構成法によるゲノムコピー数解析

N/A
N/A
Protected

Academic year: 2021

シェア "非計量多次元尺度構成法によるゲノムコピー数解析"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

非計量多次元尺度構成法によるゲノムコピー数解析

Analysis of DNA copy number alterations with non-metric multidimensional scaling method

    物理学専攻 片岡史彬

1. はじめに

 ゲノムコピー数多型(CNV)は、多くの遺伝性疾患の一因である。しかしながら、コピー数変化の観測デー タには、多くの生物学的ノイズが載っている。それゆえ、どのゲノムの、どの領域に、どのように異常が出てい るかを評価するのは容易ではない。この論文では、アレイ化された比較ゲノムハイブリダイゼーション法(aC GH)によって観測されたDNAコピー数の変化を評価するために、非計量多次元尺度構成法(nMDS)を適 用させてみる。

2. 方法と結果

 DNAコピー数変化の評価におけるnMDSの性能を試験するために、nMDSを大腸癌での観測結果に適 用させてみた[1]。もとのデータはACTuDBにある[2]。分析に使うnMDSの詳細は[3]にある。

 125人の患者ごとに、底2の対数で変換された2074個のBACアレイの遺伝子発現データがあり、その データ間でのユークリッド距離を計算する。するとデータはnMDSによって二次元に埋め込まれる(図 1)。

データ中の欠損値はコピー数の正常値である0で補うことにする。 図1では、中央に正常値のクラスタがあ り、周囲に異常値が散らばっていると考えられる。

図1:遺伝子2074個×患者125人のデータを nMDS で二次元に埋め込む

 図1から異常なものだけを取り出して調べるために、図1上に、原点を中心とした半径Rの円を考え、その 領域の内側にあるものをデータから取り除く。 半径Rを決めるために、nMDS によって計算された距離の分 布を対数で描く(図 2)と、指数分布とガウス分布の和のようになる。

図2:再現距離の分布(対数)

(2)

 そこで、次のような関数 P0(r)を、パラメータ a、p、m、s について最尤推定し、図2の分布をフィッティング する(図 3)。p は各分布の重み、a は(対数をとった場合の)指数分布の傾き、m はガウス分布の平均値、s はガウス分布の分散である。ガウス分布部分に異常なものがあると考え、この部分をすべて取り出せるよう に半径Rを 0.035 に決める。指数分布、ガウス分布それぞれのようすは図4のようになる。

        図3:図2のフィッティング       図4:指数分布とガウス分布(対数)

 こうして取り出された異常な遺伝子は 225 個ある。これら 225 個の遺伝子を再びnMDSで二次元に埋 め込む(図5)。 図5上で、染色体が番号ごとに、どのあたりに分布しているかを調べると、図6のような三 つの楕円領域の中にクラスタを形成している。クラスタ1には8番染色体が、クラスタ2には20番染色体が、

クラスタ3には18番染色体がそれぞれ多く含まれている(表1)。

 さらに増幅と欠失の比率が表2のようになる。また、各クラスタについて、コピー数の遺伝子ごとの平均値 の分布は図7のようになる。

   図5:遺伝子225個×患者125人のデータを      図6:3つのクラスタに分ける       nMDS で二次元に埋め込む

(3)

  表1:各クラスタに含まれる染色体の個数

   表2:各クラスタの増幅、欠失の比率

図7:各クラスタの遺伝子ごとの平均値の分布

 クラスタ2がダブルピークになるのは、20 番染色体の BAC ごとの平均値が染色体上の前後の領域で 差がでるからである(図8)。図8の横軸には、染色体の先端から後端へ順に並べている。これは図6上でも わかれている(図9)。

   図8:20番染色体の遺伝子ごとの平均値.  図9:図6での20番染色体の平均値の差

(4)

 さらに、225個の遺伝子が、染色体上のどの領域にあるかを調べると図10のようになる。横軸は、ある遺 伝子の位置(前端から何 bp の領域にあるか)を、その染色体全体の割合(%)で表したものである。端の方に 異常が多いことがわかる。

図10:遺伝子が染色体のどの領域にあるか

3.結論

 以上において、nMDSによって正常と異常な遺伝子が分けられ、さらに異常なものの中でも特徴付けが できた。コピー数解析において、nMDSは有効な手法になりえそうである。

参考

[1] Nakao, K, Mehta, K. R., Fridlyand, J., Moore, D. H., Jain., A. N., Lafuente, A., Wiencke, J. W., Terdiman, J. P., and Waldman, F. M., High-resolution analysis of DNA copy number alterations in colorectal cancer by array-based comparative genomic hybridization,

Carcinogenesis, 25:1345-1357, 2004.

[2] http://bioinfo-out.curie.fr/actudb/

[3] Taguchi, Y-h., and Oono, Y., Relational patterns of gene expression via non-metric

multidimensional scaling analysis, Bioinformatics, 21:730-740, 2005.

参照

関連したドキュメント

25 法)によって行わ れる.すなわち,プロスキー変法では,試料を耐熱性 α -アミラーゼ,プロテ

 この論文の構成は次のようになっている。第2章では銅酸化物超伝導体に対する今までの研

振動流中および一様 流中に没水 した小口径の直立 円柱周辺の3次 元流体場 に関する数値解析 を行った.円 柱高 さの違いに よる流況および底面せん断力

前章 / 節からの流れで、計算可能な関数のもつ性質を抽象的に捉えることから始めよう。話を 単純にするために、以下では次のような型のプログラム を考える。 は部分関数 (

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

、肩 かた 深 ふかさ を掛け合わせて、ある定数で 割り、積石数を算出する近似計算法が 使われるようになりました。この定数は船

分配関数に関する古典統計力学の近似 注: ややまどろっこしいが、基本的な考え方は、q-p 空間において、 ①エネルギー En を取る量子状態

つまり、p 型の語が p 型の語を修飾するという関係になっている。しかし、p 型の語同士の Merge