非計量多次元尺度構成法によるゲノムコピー数解析

(1)

非計量多次元尺度構成法によるゲノムコピー数解析

Analysis of DNA copy number alterations with non-metric multidimensional scaling method

　　　物理学専攻　片岡史彬

1. はじめに

　ゲノムコピー数多型(CNV)は、多くの遺伝性疾患の一因である。しかしながら、コピー数変化の観測データには、多くの生物学的ノイズが載っている。それゆえ、どのゲノムの、どの領域に、どのように異常が出ているかを評価するのは容易ではない。この論文では、アレイ化された比較ゲノムハイブリダイゼーション法（ａＣＧＨ）によって観測されたＤＮＡコピー数の変化を評価するために、非計量多次元尺度構成法（ｎＭＤＳ）を適用させてみる。

2. 方法と結果

　ＤＮＡコピー数変化の評価におけるｎＭＤＳの性能を試験するために、ｎＭＤＳを大腸癌での観測結果に適用させてみた[1]。もとのデータはＡＣＴｕＤＢにある［２］。分析に使うｎＭＤＳの詳細は[３]にある。

　１２５人の患者ごとに、底２の対数で変換された２０７４個のＢＡＣアレイの遺伝子発現データがあり、そのデータ間でのユークリッド距離を計算する。するとデータはｎＭＤＳによって二次元に埋め込まれる（図 1）。

データ中の欠損値はコピー数の正常値である０で補うことにする。図１では、中央に正常値のクラスタがあり、周囲に異常値が散らばっていると考えられる。

図１：遺伝子２０７４個×患者１２５人のデータを nMDS で二次元に埋め込む

　図１から異常なものだけを取り出して調べるために、図１上に、原点を中心とした半径Ｒの円を考え、その領域の内側にあるものをデータから取り除く。半径Ｒを決めるために、nMDS によって計算された距離の分布を対数で描く（図 2）と、指数分布とガウス分布の和のようになる。

図２：再現距離の分布(対数)

(2)

　そこで、次のような関数 P0（r）を、パラメータ a、p、m、s について最尤推定し、図２の分布をフィッティングする（図 3）。p は各分布の重み、a は(対数をとった場合の)指数分布の傾き、m はガウス分布の平均値、s はガウス分布の分散である。ガウス分布部分に異常なものがあると考え、この部分をすべて取り出せるように半径Ｒを 0．035 に決める。指数分布、ガウス分布それぞれのようすは図４のようになる。

　　　　　　　　図３：図２のフィッティング　　　　　　　図４：指数分布とガウス分布(対数)

　こうして取り出された異常な遺伝子は 225 個ある。これら 225 個の遺伝子を再びｎＭＤＳで二次元に埋め込む（図５）。　図５上で、染色体が番号ごとに、どのあたりに分布しているかを調べると、図６のような三つの楕円領域の中にクラスタを形成している。クラスタ１には８番染色体が、クラスタ２には２０番染色体が、

クラスタ３には１８番染色体がそれぞれ多く含まれている（表１）。

　さらに増幅と欠失の比率が表２のようになる。また、各クラスタについて、コピー数の遺伝子ごとの平均値の分布は図７のようになる。

　　　図５：遺伝子２２５個×患者１２５人のデータを　　　　　　図６：３つのクラスタに分ける　　　　　 nMDS で二次元に埋め込む

(3)

　　表１：各クラスタに含まれる染色体の個数

　　　表２：各クラスタの増幅、欠失の比率

図７：各クラスタの遺伝子ごとの平均値の分布

　クラスタ２がダブルピークになるのは、20 番染色体の BAC ごとの平均値が染色体上の前後の領域で差がでるからである（図８）。図８の横軸には、染色体の先端から後端へ順に並べている。これは図６上でもわかれている（図９）。

　　　図８：２０番染色体の遺伝子ごとの平均値.　　図９：図６での２０番染色体の平均値の差

(4)

　さらに、２２５個の遺伝子が、染色体上のどの領域にあるかを調べると図１０のようになる。横軸は、ある遺伝子の位置(前端から何 bp の領域にあるか)を、その染色体全体の割合(%)で表したものである。端の方に異常が多いことがわかる。

図１０：遺伝子が染色体のどの領域にあるか

3.結論

　以上において、ｎＭＤＳによって正常と異常な遺伝子が分けられ、さらに異常なものの中でも特徴付けができた。コピー数解析において、ｎＭＤＳは有効な手法になりえそうである。

参考

[1] Nakao, K, Mehta, K. R., Fridlyand, J., Moore, D. H., Jain., A. N., Lafuente, A., Wiencke, J. W., Terdiman, J. P., and Waldman, F. M., High-resolution analysis of DNA copy number alterations in colorectal cancer by array-based comparative genomic hybridization,

非計量多次元尺度構成法によるゲノムコピー数解析