非計量多次元尺度構成法によるゲノムコピー数解析
Analysis of DNA copy number alterations with non-metric multidimensional scaling method
物理学専攻 片岡史彬
1. はじめに
ゲノムコピー数多型(CNV)は、多くの遺伝性疾患の一因である。しかしながら、コピー数変化の観測デー タには、多くの生物学的ノイズが載っている。それゆえ、どのゲノムの、どの領域に、どのように異常が出てい るかを評価するのは容易ではない。この論文では、アレイ化された比較ゲノムハイブリダイゼーション法(aC GH)によって観測されたDNAコピー数の変化を評価するために、非計量多次元尺度構成法(nMDS)を適 用させてみる。
2. 方法と結果
DNAコピー数変化の評価におけるnMDSの性能を試験するために、nMDSを大腸癌での観測結果に適 用させてみた[1]。もとのデータはACTuDBにある[2]。分析に使うnMDSの詳細は[3]にある。
125人の患者ごとに、底2の対数で変換された2074個のBACアレイの遺伝子発現データがあり、その データ間でのユークリッド距離を計算する。するとデータはnMDSによって二次元に埋め込まれる(図 1)。
データ中の欠損値はコピー数の正常値である0で補うことにする。 図1では、中央に正常値のクラスタがあ り、周囲に異常値が散らばっていると考えられる。
図1:遺伝子2074個×患者125人のデータを nMDS で二次元に埋め込む
図1から異常なものだけを取り出して調べるために、図1上に、原点を中心とした半径Rの円を考え、その 領域の内側にあるものをデータから取り除く。 半径Rを決めるために、nMDS によって計算された距離の分 布を対数で描く(図 2)と、指数分布とガウス分布の和のようになる。
図2:再現距離の分布(対数)
そこで、次のような関数 P0(r)を、パラメータ a、p、m、s について最尤推定し、図2の分布をフィッティング する(図 3)。p は各分布の重み、a は(対数をとった場合の)指数分布の傾き、m はガウス分布の平均値、s はガウス分布の分散である。ガウス分布部分に異常なものがあると考え、この部分をすべて取り出せるよう に半径Rを 0.035 に決める。指数分布、ガウス分布それぞれのようすは図4のようになる。
図3:図2のフィッティング 図4:指数分布とガウス分布(対数)
こうして取り出された異常な遺伝子は 225 個ある。これら 225 個の遺伝子を再びnMDSで二次元に埋 め込む(図5)。 図5上で、染色体が番号ごとに、どのあたりに分布しているかを調べると、図6のような三 つの楕円領域の中にクラスタを形成している。クラスタ1には8番染色体が、クラスタ2には20番染色体が、
クラスタ3には18番染色体がそれぞれ多く含まれている(表1)。
さらに増幅と欠失の比率が表2のようになる。また、各クラスタについて、コピー数の遺伝子ごとの平均値 の分布は図7のようになる。
図5:遺伝子225個×患者125人のデータを 図6:3つのクラスタに分ける nMDS で二次元に埋め込む
表1:各クラスタに含まれる染色体の個数
表2:各クラスタの増幅、欠失の比率
図7:各クラスタの遺伝子ごとの平均値の分布
クラスタ2がダブルピークになるのは、20 番染色体の BAC ごとの平均値が染色体上の前後の領域で 差がでるからである(図8)。図8の横軸には、染色体の先端から後端へ順に並べている。これは図6上でも わかれている(図9)。
図8:20番染色体の遺伝子ごとの平均値. 図9:図6での20番染色体の平均値の差
さらに、225個の遺伝子が、染色体上のどの領域にあるかを調べると図10のようになる。横軸は、ある遺 伝子の位置(前端から何 bp の領域にあるか)を、その染色体全体の割合(%)で表したものである。端の方に 異常が多いことがわかる。
図10:遺伝子が染色体のどの領域にあるか
3.結論
以上において、nMDSによって正常と異常な遺伝子が分けられ、さらに異常なものの中でも特徴付けが できた。コピー数解析において、nMDSは有効な手法になりえそうである。
参考