• 検索結果がありません。

MSCC を用いた場合の期待値

10.2 モデルに基づく cross-correlation の期待値の算出

10.2.6 MSCC を用いた場合の期待値

ここまでNCCの場合について最小値・最大値の理論値の導出について述べたが、MSCCを用 いた場合はどのようになるだろうか。ここではNCCにおける導出手順に沿ってMSCCの場合に ついて導出を行う。MSCCは次のように定義される35

MSCC(f, g)(x) =

|U1x|

( ∑

iUxf(i)g(i+x))

−µxfµxg

σfxσgx (26) ここでUx はシフト長xでのDoubly mappable positionを表す集合である。µxf, µxg,σxf, σgx Uxに対応する平均および分散である。すなわち、µxf =∑

iUxf(i)/|Ux|,µxg =∑

iUxg(i)/|Ux|, σxf =µxf(1−µxf),σgx =µxg(1−µxg)である。

MSCCにおける状況を定式化するため、“Doubly mappable ratio”としてβ を導入する。こ れはゲノム長GのうちDoubly mappable positionの割合を示すものである。

β:= |Ux|

G (27)

またDNA断片はMappabilityに依らずゲノム中から等確率に得られると仮定する。すなわち Doubly mappable positionの内に存在するリードは次のように書ける。

iUx

f(i) =

iUx

g(i) = M

2 β (28)

同様に、結合部位もDoubly mappable positionとは独立に分布していると仮定する。すなわち n箇所ある結合部位のうち箇所がDoubly mappable positionに含まれるとする。

nx := (29)

iExff(i)

iEff(i) =

iEgxg(i)

iEgg(i) =β (30)

ここでEfx :=Ef ∩UxEgx := Eg∩Uxである。したがって、Ux中に入るリード数は次のよう に書き表せる。

iEfx

f(i) =

iExg

g(i) = M

2 αβ (31)

iBfx

f(i) =

iBxg

g(i) = M

2 (1−α)β (32)

ここでBfx ={i|(i /∈Efx)(i∈Ux)}でありBxg ={i|(i /∈Egx)(i∈Ux)}である。よって

MSCCの平均は

µxf =

iUxf(i)

|Ux| = M β/2 = M

2G =µ (33)

µxg =

iUxg(i)

|Ux| = M β/2 = M

2G =µ (34)

となるから、µxf =µxg =µでありσfx =σgx =σとなる。ここまでの結果を用いると式(26)は次 のように書き直される。

MSCC(f, g)(x) = 1 σ

(∑

iUxf(i)g(i+x) Gβ−x −µ2

)

(35) したがって、MSCCの期待値は次のように書くことができる。

MSCC(f, g)(x)= 1 σ

(⟨|DUx|⟩

Gβ−x −µ2 )

(36) ここでDUx ={i|(i∈Ux)(f(i)g(i+x) = 1)}である。|DUx|を推定するため、Ux 内でfお よびg1になる確率Pf=1x (i)Pg=1x (i)を求める。

⟨|DUx|⟩= ∑

iUx

Pfx=1(i)Pg=1x (i+x) (37) NCC の場合と同様にまず順鎖に着目する。Ux 内で順鎖のシグナルリードが観測される確率 PS,fx =1(i)とノイズリードが観測される確率PN,f=1x (i)を用いると、Pfx=1(i)は次のように展開さ れる。

Pf=1x (i) = 1(

1−PS,fx =1(i)) (

1−PN,f=1x (i)) :=

{

pxS ifi∈Efx

pxN ifi̸∈Efx (38)

同様に、逆鎖についても同じ結果を得る。

Pg=1x (i) = {

pxS ifi∈Egx

pxN ifi̸∈Egx (39) したがって、Pf=1x (i)Pg=1x (i+x)を展開すると、

Pfx=1(i)Pg=1x (i+x) =









(pxS)2 ifi∈XSSx pxSpxN ifi∈XSNx pxNpxS ifi∈XNSx (pxN)2 ifi∈XNNx

(40)

ここで

XSSx :={i|(i∈Efx)(i+x∈Egx)}

XSNx :={i|(i∈Efx)(i+x /∈Egx)} XNSx :={i|(i /∈Efx)(i+x∈Egx)}

XNNx :={i|(i /∈Efx)(i+x /∈Egx)}

(41)

である。ここで、結合部位とDoubly mappable positionは独立に分布していると仮定したこと から、これらの集合の大きさは式(14)で定義した集合の大きさのβ 倍で近似できると仮定する。

|XSSx | ≈β|XSS|

|XSNx | ≈β|XSN|

|XNSx | ≈β|XNS|

|XNNx | ≈β|XNN|

(42)

最終的に⟨|DUx|⟩は次のような形で得られる。

⟨|DUx|⟩=|XSSx |(pxS)2+ (|XSNx |+|XNSx |)pxSpxN+|XNNx |(pxN)2

≈β(

|XSS|(pxS)2+ (|XSN|+|XNS|)pxSpxN+|XNN|(pxN)2) (43) 不飽和条件下ではPS,fx =1(i)およびPN,fx =1(i)は次のように展開できる。

PS,f=1x (i) =





iEfxf(i) nxw =

M αβ 2

nβw = M

2nwα ifi∈Egx

0 ifi̸∈Egx

(44)

PN,f=1x (i) =

iEfxf(i)

|Ux| = M(1−α)β2 = M

2G(1−α) (45)

すなわち式(910)と同じ結果である。また逆鎖の場合も同様であるから、結果としてpxS =pS

およびpxN=pNを得る。飽和条件下でもNCCの場合と同じ仮定を用いる。すなわち、pxs = 1 µ= M2Gu である。こちらの場合も結果としてpxS =pSおよびpxN =pNを得る。よって式(43)は 次のように書き換えられる。

⟨|DUx|⟩ ≈β(

|XSS|p2S+ (|XSN|+|XNS|)pSpN+|XNN|p2N)

=β⟨|Dx|⟩ (46) すなわち式(36)は以下のように書き直される。

MSCC(f, g)(x)⟩ ≈ 1 σ

(β⟨|Dx|⟩

Gβ−x −µ2 )

(47)

ここで、Gβ≫xであることを利用して式(7)と比較すると、

MSCC(f, g)(x)⟩ ≈ 1 σ

(⟨|Dx|⟩

G −µ2 )

1 σ

(⟨|Dx|⟩

G−x −µ2 )

=NCC(f, g)(x)

(48)

であるから、NCCMSCCからはほとんど同じ値を得られることが期待される。

11 予測結果の実証

ここではシミュレーションデータと実データを用いた検証に先立ち、必要となるデータの準備 や処理およびツールについて述べる。作成したデータの一部とツールはhttps://pymasc.sb.

ecei.tohoku.ac.jpで公開している。

11.1 Mappability の計算

MSCCを計算するにあたり、ゲノムに対するMappabilityの情報、すなわちユニークにマッ プ可能な領域のリストが事前情報として必要になる。本研究では、UCSC Genome Browser70 公開されているENCODEMappabilityトラックと同じ手法でヒトリファレンスゲノムに対し てMappabilityの計算を行った。計算にはGEM mappability program71 (GEM-indexer build 1.423, GEM-mappability build 1.315, GEM-2-wig build 1.423) を用いて必要となったリード長

ごとにMappabilityのデータを作成した。また2塩基のミスマッチまで許容した。作成されたプ

ロファイルは、ユニークマップ可能な領域(Mappability1)の情報のみを取り出してBigWig 形式に変換した。