MSCC を用いた場合の期待値

10.2 モデルに基づく cross-correlation の期待値の算出

10.2.6 MSCC を用いた場合の期待値

ここまでNCCの場合について最小値・最大値の理論値の導出について述べたが、MSCC^を用いた場合はどのようになるだろうか。ここではNCCにおける導出手順に沿ってMSCC^の場合について導出を行う。MSCCは次のように定義される³⁵。

MSCC(f, g)(x) =

|U1^x|

( ∑

i∈U^xf(i)g(i+x))

−µ^x_fµ^x_g

√σ_f^xσ_g^x (26) ここでU^x ^{はシフト長}x^でのDoubly mappable position^{を表す集合である。}µ^x_f, µ^x_g,σ^x_f, σ_g^x^は U^xに対応する平均および分散である。すなわち、µ^x_f =∑

i∈U^xf(i)/|U^x|,µ^x_g =∑

i∈U^xg(i)/|U^x|, σ^x_f =µ^x_f(1−µ^x_f),σ_g^x =µ^x_g(1−µ^x_g)^である。

MSCCにおける状況を定式化するため、“Doubly mappable ratio”^としてβ ^{を導入する。こ} れはゲノム長G^のうちDoubly mappable positionの割合を示すものである。

β:= |U^x|

G (27)

またDNA^断片はMappabilityに依らずゲノム中から等確率に得られると仮定する。すなわち Doubly mappable positionの内に存在するリードは次のように書ける。

∑

i∈U^x

f(i) = ∑

i∈U^x

g(i) = M

2 β (28)

同様に、結合部位もDoubly mappable positionとは独立に分布していると仮定する。すなわち n箇所ある結合部位のうちnβ^箇所がDoubly mappable position^{に含まれるとする。}

n^x :=nβ (29)

∑

i∈E^x_ff(i)

∑

i∈Eff(i) =

∑

i∈E_g^xg(i)

∑

i∈Egg(i) =β (30)

ここでE_f^x :=Ef ∩U^x^、E_g^x := Eg∩U^x^{である。したがって、}U^x中に入るリード数は次のように書き表せる。

∑

i∈E_f^x

f(i) = ∑

i∈E^x_g

g(i) = M

2 αβ (31)

∑

i∈B_f^x

f(i) = ∑

i∈B^x_g

g(i) = M

2 (1−α)β (32)

ここでB_f^x ={i|(i /∈E_f^x)∧(i∈U^x)}^でありB^x_g ={i|(i /∈E_g^x)∧(i∈U^x)}^{である。よって}

MSCC^の平均は

µ^x_f =

∑

i∈U^xf(i)

|U^x| = M β/2 Gβ = M

2G =µ (33)

µ^x_g =

∑

i∈U^xg(i)

|U^x| = M β/2 Gβ = M

2G =µ (34)

となるから、µ^x_f =µ^x_g =µ^でありσ_f^x =σ_g^x =σとなる。ここまでの結果を用いると式（26^）は次のように書き直される。

MSCC(f, g)(x) = 1 σ

(∑

i∈U^xf(i)g(i+x) Gβ−x −µ²

)

(35) したがって、MSCCの期待値は次のように書くことができる。

⟨MSCC(f, g)(x)⟩= 1 σ

(⟨|DU^x|⟩

Gβ−x −µ² )

(36) ここでDU^x ={i|(i∈Ux)∧(f(i)g(i+x) = 1)}^である。|DU^x|^{を推定するため、}U^x 内でfおよびg^が1^{になる確率}P_f=1^x (i)^とP_g=1^x (i)^{を求める。}

⟨|DU^x|⟩= ∑

i∈U^x

P_f^x₌₁(i)P_g=1^x (i+x) (37) NCC の場合と同様にまず順鎖に着目する。U^x 内で順鎖のシグナルリードが観測される確率 P_S,f^x ₌₁(i)とノイズリードが観測される確率P_N,f=1^x (i)^{を用いると、}P_f^x₌₁(i)^{は次のように展開さ} れる。

P_f=1^x (i) = 1−(

1−P_S,f^x ₌₁(i)) (

1−P_N,f=1^x (i)) :=

{

p^x_S ifi∈E_f^x

p^x_N ifi̸∈E_f^x (38)

同様に、逆鎖についても同じ結果を得る。

P_g=1^x (i) = {

p^x_S ifi∈E_g^x

p^x_N ifi̸∈E_g^x (39) したがって、P_f=1^x (i)P_g=1^x (i+x)^{を展開すると、}

P_f^x₌₁(i)P_g=1^x (i+x) =











(p^x_S)² ifi∈X_SS^x p^x_Sp^x_N ifi∈X_SN^x p^x_Np^x_S ifi∈X_NS^x (p^x_N)² ifi∈X_NN^x

(40)

ここで

X_SS^x :={i|(i∈E_f^x)∧(i+x∈E_g^x)}

X_SN^x :={i|(i∈E_f^x)∧(i+x /∈E_g^x)} X_NS^x :={i|(i /∈E_f^x)∧(i+x∈E_g^x)}

X_NN^x :={i|(i /∈E_f^x)∧(i+x /∈E_g^x)}

(41)

である。ここで、結合部位とDoubly mappable positionは独立に分布していると仮定したことから、これらの集合の大きさは式（14）で定義した集合の大きさのβ 倍で近似できると仮定する。

|X_SS^x | ≈β|XSS|

|X_SN^x | ≈β|XSN|

|XNS^x | ≈β|XNS|

|X_NN^x | ≈β|XNN|

(42)

最終的に⟨|DU^x|⟩は次のような形で得られる。

⟨|DU^x|⟩=|X_SS^x |(p^x_S)²+ (|X_SN^x |+|X_NS^x |)p^x_Sp^x_N+|X_NN^x |(p^x_N)²

≈β(

|XSS|(p^x_S)²+ (|XSN|+|XNS|)p^x_Sp^x_N+|XNN|(p^x_N)²) (43) 不飽和条件下ではP_S,f^x ₌₁(i)^およびP_N,f^x ₌₁(i)は次のように展開できる。

P_S,f=1^x (i) =







∑

i∈E_f^xf(i) n^xw =

M αβ 2

nβw = M

2nwα ifi∈E_g^x

0 ifi̸∈E_g^x

(44)

P_N,f=1^x (i) =

∑

i∈E_f^xf(i)

|U^x| = M(1−α)^β₂ Gβ = M

2G(1−α) (45)

すなわち式（9^）^（10）と同じ結果である。また逆鎖の場合も同様であるから、結果としてp^x_S =pS

およびp^x_N=pNを得る。飽和条件下でもNCCの場合と同じ仮定を用いる。すなわち、p^x_s = 1^と µ= ^M_2G^u である。こちらの場合も結果としてp^x_S =pSおよびp^x_N =pNを得る。よって式（43^）は次のように書き換えられる。

⟨|DU^x|⟩ ≈β(

|XSS|p²_S+ (|XSN|+|XNS|)pSpN+|XNN|p²_N)

=β⟨|Dx|⟩ (46) すなわち式（36）は以下のように書き直される。

⟨MSCC(f, g)(x)⟩ ≈ 1 σ

(β⟨|Dx|⟩

Gβ−x −µ² )

(47)

ここで、Gβ≫xであることを利用して式（7^{）と比較すると、}

⟨MSCC(f, g)(x)⟩ ≈ 1 σ

(⟨|Dx|⟩

G −µ² )

≈ 1 σ

(⟨|Dx|⟩

G−x −µ² )

=⟨NCC(f, g)(x)⟩

(48)

であるから、NCC^とMSCCからはほとんど同じ値を得られることが期待される。

11 ^{予測結果の実証}

ここではシミュレーションデータと実データを用いた検証に先立ち、必要となるデータの準備や処理およびツールについて述べる。作成したデータの一部とツールはhttps://pymasc.sb.

ecei.tohoku.ac.jp^{で公開している。}

11.1 Mappability の計算

MSCCを計算するにあたり、ゲノムに対するMappabilityの情報、すなわちユニークにマップ可能な領域のリストが事前情報として必要になる。本研究では、UCSC Genome Browser⁷⁰^で公開されているENCODE^のMappabilityトラックと同じ手法でヒトリファレンスゲノムに対してMappabilityの計算を行った。計算にはGEM mappability program⁷¹ (GEM-indexer build 1.423, GEM-mappability build 1.315, GEM-2-wig build 1.423) を用いて必要となったリード長

ごとにMappabilityのデータを作成した。また2塩基のミスマッチまで許容した。作成されたプ

ロファイルは、ユニークマップ可能な領域（Mappability^が1）の情報のみを取り出してBigWig 形式に変換した。

ドキュメント内 ChIP-seqデータベースの構築による遺伝子転写制御機構の解明 (ページ 46-49)

10.2 モデルに基づく cross-correlation の期待値の算出

10.2.6 MSCC を用いた場合の期待値

11 予測結果の実証

11.1 Mappability の計算

11 ^{予測結果の実証}