10.2 モデルに基づく cross-correlation の期待値の算出
10.2.6 MSCC を用いた場合の期待値
ここまでNCCの場合について最小値・最大値の理論値の導出について述べたが、MSCCを用 いた場合はどのようになるだろうか。ここではNCCにおける導出手順に沿ってMSCCの場合に ついて導出を行う。MSCCは次のように定義される35。
MSCC(f, g)(x) =
|U1x|
( ∑
i∈Uxf(i)g(i+x))
−µxfµxg
√σfxσgx (26) ここでUx はシフト長xでのDoubly mappable positionを表す集合である。µxf, µxg,σxf, σgxは Uxに対応する平均および分散である。すなわち、µxf =∑
i∈Uxf(i)/|Ux|,µxg =∑
i∈Uxg(i)/|Ux|, σxf =µxf(1−µxf),σgx =µxg(1−µxg)である。
MSCCにおける状況を定式化するため、“Doubly mappable ratio”としてβ を導入する。こ れはゲノム長GのうちDoubly mappable positionの割合を示すものである。
β:= |Ux|
G (27)
またDNA断片はMappabilityに依らずゲノム中から等確率に得られると仮定する。すなわち Doubly mappable positionの内に存在するリードは次のように書ける。
∑
i∈Ux
f(i) = ∑
i∈Ux
g(i) = M
2 β (28)
同様に、結合部位もDoubly mappable positionとは独立に分布していると仮定する。すなわち n箇所ある結合部位のうちnβ箇所がDoubly mappable positionに含まれるとする。
nx :=nβ (29)
∑
i∈Exff(i)
∑
i∈Eff(i) =
∑
i∈Egxg(i)
∑
i∈Egg(i) =β (30)
ここでEfx :=Ef ∩Ux、Egx := Eg∩Uxである。したがって、Ux中に入るリード数は次のよう に書き表せる。
∑
i∈Efx
f(i) = ∑
i∈Exg
g(i) = M
2 αβ (31)
∑
i∈Bfx
f(i) = ∑
i∈Bxg
g(i) = M
2 (1−α)β (32)
ここでBfx ={i|(i /∈Efx)∧(i∈Ux)}でありBxg ={i|(i /∈Egx)∧(i∈Ux)}である。よって
MSCCの平均は
µxf =
∑
i∈Uxf(i)
|Ux| = M β/2 Gβ = M
2G =µ (33)
µxg =
∑
i∈Uxg(i)
|Ux| = M β/2 Gβ = M
2G =µ (34)
となるから、µxf =µxg =µでありσfx =σgx =σとなる。ここまでの結果を用いると式(26)は次 のように書き直される。
MSCC(f, g)(x) = 1 σ
(∑
i∈Uxf(i)g(i+x) Gβ−x −µ2
)
(35) したがって、MSCCの期待値は次のように書くことができる。
⟨MSCC(f, g)(x)⟩= 1 σ
(⟨|DUx|⟩
Gβ−x −µ2 )
(36) ここでDUx ={i|(i∈Ux)∧(f(i)g(i+x) = 1)}である。|DUx|を推定するため、Ux 内でfお よびgが1になる確率Pf=1x (i)とPg=1x (i)を求める。
⟨|DUx|⟩= ∑
i∈Ux
Pfx=1(i)Pg=1x (i+x) (37) NCC の場合と同様にまず順鎖に着目する。Ux 内で順鎖のシグナルリードが観測される確率 PS,fx =1(i)とノイズリードが観測される確率PN,f=1x (i)を用いると、Pfx=1(i)は次のように展開さ れる。
Pf=1x (i) = 1−(
1−PS,fx =1(i)) (
1−PN,f=1x (i)) :=
{
pxS ifi∈Efx
pxN ifi̸∈Efx (38)
同様に、逆鎖についても同じ結果を得る。
Pg=1x (i) = {
pxS ifi∈Egx
pxN ifi̸∈Egx (39) したがって、Pf=1x (i)Pg=1x (i+x)を展開すると、
Pfx=1(i)Pg=1x (i+x) =
(pxS)2 ifi∈XSSx pxSpxN ifi∈XSNx pxNpxS ifi∈XNSx (pxN)2 ifi∈XNNx
(40)
ここで
XSSx :={i|(i∈Efx)∧(i+x∈Egx)}
XSNx :={i|(i∈Efx)∧(i+x /∈Egx)} XNSx :={i|(i /∈Efx)∧(i+x∈Egx)}
XNNx :={i|(i /∈Efx)∧(i+x /∈Egx)}
(41)
である。ここで、結合部位とDoubly mappable positionは独立に分布していると仮定したこと から、これらの集合の大きさは式(14)で定義した集合の大きさのβ 倍で近似できると仮定する。
|XSSx | ≈β|XSS|
|XSNx | ≈β|XSN|
|XNSx | ≈β|XNS|
|XNNx | ≈β|XNN|
(42)
最終的に⟨|DUx|⟩は次のような形で得られる。
⟨|DUx|⟩=|XSSx |(pxS)2+ (|XSNx |+|XNSx |)pxSpxN+|XNNx |(pxN)2
≈β(
|XSS|(pxS)2+ (|XSN|+|XNS|)pxSpxN+|XNN|(pxN)2) (43) 不飽和条件下ではPS,fx =1(i)およびPN,fx =1(i)は次のように展開できる。
PS,f=1x (i) =
∑
i∈Efxf(i) nxw =
M αβ 2
nβw = M
2nwα ifi∈Egx
0 ifi̸∈Egx
(44)
PN,f=1x (i) =
∑
i∈Efxf(i)
|Ux| = M(1−α)β2 Gβ = M
2G(1−α) (45)
すなわち式(9)(10)と同じ結果である。また逆鎖の場合も同様であるから、結果としてpxS =pS
およびpxN=pNを得る。飽和条件下でもNCCの場合と同じ仮定を用いる。すなわち、pxs = 1と µ= M2Gu である。こちらの場合も結果としてpxS =pSおよびpxN =pNを得る。よって式(43)は 次のように書き換えられる。
⟨|DUx|⟩ ≈β(
|XSS|p2S+ (|XSN|+|XNS|)pSpN+|XNN|p2N)
=β⟨|Dx|⟩ (46) すなわち式(36)は以下のように書き直される。
⟨MSCC(f, g)(x)⟩ ≈ 1 σ
(β⟨|Dx|⟩
Gβ−x −µ2 )
(47)
ここで、Gβ≫xであることを利用して式(7)と比較すると、
⟨MSCC(f, g)(x)⟩ ≈ 1 σ
(⟨|Dx|⟩
G −µ2 )
≈ 1 σ
(⟨|Dx|⟩
G−x −µ2 )
=⟨NCC(f, g)(x)⟩
(48)
であるから、NCCとMSCCからはほとんど同じ値を得られることが期待される。
11 予測結果の実証
ここではシミュレーションデータと実データを用いた検証に先立ち、必要となるデータの準備 や処理およびツールについて述べる。作成したデータの一部とツールはhttps://pymasc.sb.
ecei.tohoku.ac.jpで公開している。
11.1 Mappability の計算
MSCCを計算するにあたり、ゲノムに対するMappabilityの情報、すなわちユニークにマッ プ可能な領域のリストが事前情報として必要になる。本研究では、UCSC Genome Browser70で 公開されているENCODEのMappabilityトラックと同じ手法でヒトリファレンスゲノムに対し てMappabilityの計算を行った。計算にはGEM mappability program71 (GEM-indexer build 1.423, GEM-mappability build 1.315, GEM-2-wig build 1.423) を用いて必要となったリード長
ごとにMappabilityのデータを作成した。また2塩基のミスマッチまで許容した。作成されたプ
ロファイルは、ユニークマップ可能な領域(Mappabilityが1)の情報のみを取り出してBigWig 形式に変換した。