CCPD によって求めた周辺事後確率の偏りの指標

第 3 章シミュレーション 62

3.7 CCPD によって求めた周辺事後確率の偏りの指標

り返し数は4であるが，各プール内のクローンの数は一定ではなく，

プール内のクローン数の平均値は 36 である．

Design III 繰り返し数もクローンが入っているプールの数も一定ではないランダムなデザインである．ただし，繰り返し数の平均は4，プール内のクローンの数の平均は36 である．

図3.7，図3.8および図3.9，図3.10からBIB design (Design I)，Design

II，Design III の順で高いスクリーニング能力が得られることがわかる．

これは BIB design や packing design のような計画的なプーリングデザインのほうがランダムなデザインよりスクリーニング能力が高いことを意味している．Designs IIとIIIの比較からもランダムな繰り返し数を持つデザインより「繰り返し数一定」のデザインが望ましいことがわかる．

注意: LDPC 符号の場合には各クローンの繰り返し数が一定ではないある種のパリティ検査行列の中に誤り訂正能力が高い符号が存在することが知られているがグループテストの場合にも同様のことが言えるか否かはわかっていない．

0 50 100 150 200 250 300

0 2 4 6 8 10

R1(κ,A)

order (κ) Design I Design II Design III

(1)ポジティブクローンの数: d= 1 の場合

0 50 100 150 200 250 300

0 5 10 15 20

R2(κ,A)

order (κ) Design I Design II Design III

(2)ポジティブクローンの数: d= 2 の場合

図 3.7: ポジティブクローンのスクリーニング能力 (n= 981, m = 109，誤り確率 (P1))

表3.16: KL情報量の差(n= 1552,m= 97, λ= 2) ポジティブクローンの数 CCPD CCPD + 偏り補正

d= 1 0.000003 0.000003

d= 2 0.000007 0.000007

d= 3 0.000021 0.000007

d= 4 0.000013 0.000011

0 50 100 150 200 250 300

0 5 10 15 20 25 30

R3(κ,A)

order (κ) Design I Design II Design III

(3)ポジティブクローンの数: d= 3 の場合

0 50 100 150 200 250 300

0 5 10 15 20 25 30 35 40 R4(κ,A)

order (κ) Design I Design II Design III

(4)ポジティブクローンの数: d= 4 の場合

図 3.8: ポジティブクローンのスクリーニング能力 (n= 981, m = 109，誤り確率 (P1))

表3.17: KL情報量の差(n= 1314,m= 73, λ= 3) ポジティブクローンの数 CCPD CCPD + 偏り補正

d= 1 0.000026 0.000011

d= 2 0.000005 0.000006

d= 3 0.000084 0.000117

d= 4 0.000023 0.000028

0 50 100 150 200 250 300

0 2 4 6 8 10

R1(κ,A)

order (κ) Design I Design II Design III

(1)ポジティブクローンの数: d= 1 の場合

0 50 100 150 200 250 300

0 5 10 15 20

R2(κ,A)

order (κ) Design I Design II Design III

(2)ポジティブクローンの数: d= 2 の場合

図 3.9: ポジティブクローンのスクリーニング能力 (n= 981, m = 109，誤り確率 (P2))

0 50 100 150 200 250 300

0 5 10 15 20 25 30

R3(κ,A)

order (κ) Design I Design II Design III

(3)ポジティブクローンの数: d= 3 の場合

0 50 100 150 200 250 300

0 5 10 15 20 25 30 35 40 R4(κ,A)

order (κ) Design I Design II Design III

(4)ポジティブクローンの数: d= 4 の場合

図 3.10: ポジティブクローンのスクリーニング能力 (n= 981, m= 109，誤り確率 (P2))

表3.16ではλ= 2 であり，ポジティブクローンの数が3 個以上のとき偏り補正によって精度が上がっている．一方，λ= 3 の場合，表3.17 ではポジティブクローンの数が 2 個以上のとき偏り補正の効果が見られない．これは，会合数 λの値が大きくなるとタナーグラフに長さ4 の閉路が増加し，同時に長さ 6 以上の閉路もそれに伴って増加するために，より高次の偏り項が影響しているからではないかと思われる．λが大きいと

きには，2.5.2節の 2次の補正項だけでなくより高次の項も考慮して偏り

補正を行う必要があると思われる．

第 4 _章結論

本論文では，第2章でグループテストにもとづく2つの事後確率の近似計算アルゴリズムBNPD，CCPDを提案した．本論文で提案したBNPD は確率伝播法にもとづいて周辺事後確率を計算するアルゴリズムであるが，通常の確率伝搬法に現れる2^r 個(r はプールの大きさ)の和の計算を

余事象の belief に置き換えることにより簡略化し，計算量を少なくして

いるため，実行速度が速い．CCPD アルゴリズムにも同様の高速化がなされている．また，BNPDおよびCCPDにより求めた周辺事後確率の推定値の偏りの解析を通して，unique collineality conditionを満たすプーリングデザインを用いてグループテストを行った際のBNPDにより求めた周辺事後確率の推定値の近似の良さを理論的に示した．

第 3 章では，BNPD，CCPD，MCPD の 3 つのアルゴリズムのスクリーニング効率，実行速度などをシミュレーションにより比較した．まず，

MCPDはシミュレーションにより周辺事後確率を計算するアルゴリズムのため，反復回数を増やすと近似精度が高くなるが，反復回数に比例して実行時間が長くなる．特に高い確率でポジティブクローンをスクリーニングするためには，MCPDではアルゴリズムの反復数をより多くとる必要があり，要求される確率が高くなるに従い，反復数も多くしなければならない．また，MCPDの収束に必要な反復数は偽ポジティブ・偽ネガティブの確率分布に大きく左右され，偽ポジティブ・偽ネガティブの確率が指数的に減少する(P2)の場合には，少ない反復回数で十分なスクリーニング能力が得られるが，偽ポジティブ・偽ネガティブの確率が (P1)および

(P3)の場合には，近似精度を BNPDやCCPD と同じ程度にするためには，非常に大きな反復回数が必要となる．また，MCPDはポジティブクローンの数dが多くなるに従い反復回数を大きくしなければならない．

一方，BNPD, CCPDはクローン数やポジティブクローンの数には大き

く左右されず，数回，数十回程度で収束する．その近似精度はプーリングデザインに大きく依存して決まり，プーリングデザインがunique collinearity condition を満たす，すなわち，packing designであるときには，周辺事後確率の推定値の近似精度が高い．しかし，プールの数が少なく packing

designを用いることができない場合には，タナーグラフに長さが 4 の閉

路が存在し，このような閉路が多く存在するとBNPDは収束しなくなる．

また，ポジティブクローンの数が増加するに従い，BNPD が収束する比率は小さくなる傾向がある．CCPD は長さ4 の閉路が多く存在しても収束するが，周辺事後確率の推定値の偏りは長さ 4 の閉路がないときに比べて大きく十分な反復の後ではMCPD の近似精度を下回る．しかし，実行速度は BNPD, CCPD, MCPDの順に速い．

したがって，プーリングデザインにpacking design を用いることができる場合には長さ4の閉路が存在しないためBNPDのスクリーニング能力は十分高く，実行速度も速い．一方，packing design を用いることができない場合は，CCPD を用いれば短い計算時間で一定のスクリーニング能力が得られる．さらに高いスクリーニング能力を得るには，CCPD により求めた周辺事後確率の推定値を初期値として，MCPD を十分な回数実行するハイブリッドアルゴリズムを用いることができれば，MCPDを単独で実行するより速く，しかも十分なスクリーニング能力が得られる (図4.1)．

3.6.1節のシミュレーションの結果より，packing design を用いた場合，

各クローンの繰り返し数 k が 3 と 4 の間に大きなスクリーニング能力の差があるので，k は少なくとも 4 以上であることが望ましい．また，

3.6.2節のシミュレーションの結果より，BIB design (packing design)を用いるとランダムにデザインを作るよりスクリーニング能力が高くなる．

さらに，3.7節のシミュレーションの結果より，BIB designを用いた場合，2 つのプール Gと H の会合数 |G∩H| ^{が小さければ}2.5 節の偏り

開始

プーリングデザインに packing designを用いることができるか?

packing designを用いてプーリング実験を行い，BNPDを事後確率計算アルゴリズムに用いる．

Yes

終了

CCPDを用いる．

より高いスクリーニング能力が必要か?

CCPDの出力をMCPDの初期値として十分な反復回数で事後確率を計算する．

Yes No

図4.1: プーリングデザインと事後確率計算アルゴリズム

補正が有効であるが，会合数が大きくなると偏り補正の効果が見られなくなることがある．これは，会合数 λの値が大きいためタナーグラフに長さ4 の閉路が増加し，それに伴って長さ6 以上の閉路も増加するために，より高次の偏り補正項が影響しているからではないかと思われる．したがって，packing design を用いることができない場合に 2 つのプールの会合数λが大きくなると，BNPD，CCPDの偏り補正には 3次以上の補正項の影響も考えなければならず，高次の補正項の導出が必要であると思われる．

本論文では，各クローンの繰り返し数 k が一定の場合のみ扱ったが，

LDPC符号の分野では kが一定でないある種の符号の中に誤り訂正能力が高い符号が存在することが知られており，グループテストについても繰り返し数が一定でないプーリングデザインのスクリーニング能力の研究が必要である．

最後に本論文を通して，偽ポジティブ・偽ネガティブの誤りに対して頑健なBNPD，CCPD，MCPDなどの確率的な事後確率計算アルゴリズムと高い識別能力を有する組合せ論的なプーリングデザインを併用してグループテストのアルゴリズムを構築することが重要であることが言えるであろう．

付録 A

定理 1 _の証明

C_cG^(ℓ) = ∪

G^′∈G^(ℓ)cG

G^′，C_Gc^(ℓ) = ∪

G^′∈GGc^(ℓ)

G^′ とし，帰納法で証明する．まず，t= 0 のとき

Q¯⁽⁰⁾_cG(x) =P(X_c =x)

が成り立つ．次に t≥1 のとき，式(2.2)のR¯^(t)_Gc(x)はQ¯^(t−1)_cG (x)を用いて次のように得られる．

KR¯^(t)_Gc(xc)

=K ∑

xc′∈{0,1} forc^′∈G\{c}

P (

S_G=s_GZ_G= ∨

c^′∈G

x_c′) ∏

c^′∈G\{c}

Q¯^(t_c_′⁻_G¹⁾(x_c′)

= ∑

xc′∈{0,1} forc^′∈G\{c}

P (

SG=sGZG= ∨

c^′∈G

x_c′

)

× ∏

c^′∈G\{c}

P (

Xc^′ =xc^′, ∩

G^′∈G_c′G^(2t⁻²⁾

{SG^′ =sG^′})

= ∑

xc′∈{0,1} forc^′∈C_cG^(2t⁻²⁾\{c}

P (

SG=sGZG= ∨

c^′∈G

x_c′

) P

( ∩

c^′′∈C_c′^(2t_G⁻²⁾\{c}

{X_c′′ =x_c′′})

× ∏

c^′∈G\{c}

( ∩

G^′∈G_c′G^(2t−2)

{S_G′ =s_G′} ∩

c^′′∈C_c′G^(2t−2)

{X_c′′ =x_c′′})

= ∑

x_c′∈{0,1} forc^′∈C_cG^(2t−2)\{c}

P (

S_G=s_GZ_G= ∨

c^′∈G

x_c′

) P

( ∩

c^′′∈C_c′^(2t−2)

G \{c}

{X_c′′ =x_c′′})

× ∏

c^′∈G\{c}

( ∩

G^′∈G_c′G^(2t⁻²⁾

{S_G′ =s_G′} ∩

G^′∈Gc′G^(2t⁻²⁾

{Z_G′ = ∨

c^′′∈G^′

x_c′′})

= ∑

x_c′∈{0,1} forc^′∈C_cG^(2t−2)\{c}

( ∩

c^′′∈C_c′G^(2t−2)\{c}

{X_c′′ =x_c′′})

×P

( ∩

G^′∈G_Gc′^(2t⁻¹⁾

{S_G′ =s_G′} ∩

G^′∈G^(2t_Gc′⁻¹⁾

{Z_G′ = ∨

c^′′∈G^′

x_c′′})

= ∑

x_c′∈{0,1} forc^′∈C_cG^(2t⁻²⁾\{c}

( ∩

c^′′∈C_c′G^(2t⁻²⁾\{c}

{Xc^′′ =xc^′′})

×P

( ∩

G^′∈G_Gc′^(2t−1)

{S_G′ =s_G′} ∩

c^′′∈C_Gc′^(2t−1)

{X_c′′=x_c′′})

= ∑

x_c′∈{0,1} forc^′∈C_cG^(2t⁻²⁾\{c}

( ∩

G^′∈G^(2t_Gc′⁻¹⁾

{S_G′ =s_G′}, ∩

c^′′∈C_c′G^(2t⁻²⁾\{c}

{X_c′′ =x_c′′} Xc =xc

)

( ∩

G^′∈G^(2t_Gc′⁻¹⁾

{SG^′ =sG^′}Xc =xc

) .

また，式 (2.3)は上記の結果を用いて次のように得られる．

Q^(t)_cG(xc)

=P(X_c=x_c) ∏

G^′∈(c)\{G}

R^(t)_G_′_c(X_c)

=P(Xc=x) ∏

G^′∈(c)\{G}

( ∩

G^′′∈G_G′c^(2t⁻¹⁾

{S_G′′ =s_G′′}Xc =xc

)

=P(X_c=x_c) ∏

G^′∈(c)\{G}

∑

x_c′∈{0,1} forc^′∈C_G′c^(2t−1)\{c}

( ∩

c^′′∈C^(2t−1)_G′c′ \{c}

{X_c′′ =x_c′′})

×P

( ∩

G^′′∈G^(2t_G′c⁻¹⁾

{S_G′′=s_G′′} ∩

c^′′∈C_G′c′^(2t⁻¹⁾

{X_c′′=x_c′′})

=P(X_c=x_c) ∏

G^′∈(c)\{G}

∑

x_c′∈{0,1} forc^′∈C_G′c^(2t−1)\{c}

( ∩

c^′′∈C^(2t−1)_G′c′ \{c}

{X_c′′ =x_c′′})

×P

( ∩

G^′′∈G^(2t_G′c⁻¹⁾

{S_G′′=s_G′′} ∩

G^′′∈G_G′c^(2t⁻¹⁾

{Z_G′′= ∨

c^′′∈G^′′

x_c′′})

=P(Xc=xc) ∑

x_c′∈{0,1} forc^′∈GcG^(2t)\{c}

( ∩

c^′∈G_cG^(2t)\{c}

{Xc^′ =xc^′})

×P( ∩

G^′∈G_cG^(2t)

{SG^′ =sG^′} ∩

G^′∈G_cG^(2t)

{ZG^′ = ∨

c^′∈G^′

xc^′

})

=P(X_c=x_c) ∑

x_c′∈{0,1} forc^′∈G_cG^(2t)\{c}

( ∩

c^′∈G_cG^(2t)\{c}

{X_c′ =x_c′})

×P( ∩

G^′∈GcG^(2t)

{S_G′ =s_G′} ∩

c^′∈C_cG^(2t)

{X_c′ =x_c′})

=P(X_c=x_c) ∑

x_c′∈{0,1} forc^′∈G^(2t)cG\{c}

P( ∩

G^′∈GcG^(2t)

{S_G′ =s_G′}, ∩

c^′∈C^(2t)_cG

{X_c′ =x_c′} Xc=xc

)

=P(X_c=x_c)P( ∩

G^′∈G_cG^(2t)

{S_G′ =s_G′}X_c =x_c )

=P( ∩

G^′∈GcG^(2t)

{S_G′ =s_G′}, X_c =x_c )

参考文献

[1] C.I. Amos, M.L. Frazier, and W. Wang, “DNA pooling in mutation detection with reference to sequence analysis,”Am. J. Hum. Genet.

vol. 66, pp. 1689-1692, 2000.

[2] N. Arnheim, C. Strange, and H. Erlich, “Use of pooled DNA sam-ples to detect linkage disequilibrium of polymorphic restriction frag-ments and human disease: studies of HLA class II loci,”Proc. Natl Acad. Sci. USA, vol.82, pp. 6970-6974, 1985.

[3] L. Bahl, J. Cocke, F. Jelinek, and J. Raviv, “Optimal decoding of linear codes for minimizing symbol error rate,”IRE Trans. Inform.

Theory, vol. IT-20(2), pp. 284-287, 1974.

[4] D.J. Balding, and D.C. Torney, “Optimal pooling designs with error detection,”J. Combin. Theory A, vol. 74, no. 1, pp. 131-140, 1996.

[5] E. Barillot, B. Lacroix, and D. Cohen, “Theoretical analysis of li-brary screening using anN-dimensional pooling strategy,” Nucleic Acids Res., vol. 19, no. 22, pp. 6241-6247, 1991.

[6] T. Berger, J.W. Mandell, and P. Subrahmanya, “Maximally eﬃcient two-stage screening,”Biometrics, vol. 56, no. 3, pp. 833-840, 2000.

[7] A. De Bonis, L. Gasieniec, and U. Vaccaro, “Optimal two-stage algorithms for group testing problems,”SIAM J. Comput., vol. 34, pp. 1253-1270, 2005.

[8] A. De Bonis, and U. Vaccaro, “Improved algorithms for group test-ing with inhibitors,”Inform. Proc. Lett., vol. 67, pp. 57-64, 1998.

[9] R. Brookmeyer, “Analysis of multistage pooling studies of biological specimens for estimating disease incidence and prevalence,” Biomet-rics, vol. 55, pp. 608-612, 1999.

[10] W.J. Bruno, E. Knill, D.J. Balding, D.C. Bruce, N.A. Doggett, W.W. Sawhill, R.L. Stallings, C.C. Whittaker, and D.C. Torney,

“Eﬃcient pooling designs for library screening,”Genomics, vol. 26, no. 1, pp. 21-30, 1995.

[11] K.A. Bush, W.T. Federer, H. Pesotan, and D. Raghavarao, “New combinatorial designs and their applications to group testing,” J.

Stat. Plann. Infer., vol. 10, pp. 335-343, 1984.

[12] R. Carmi, T. Rokhlina, A.E. Kwitek-Black, K. Elbedour, D. Nishimura, E.M. Stone, and V.C. Sheﬃeld, “Use of a DNA pooling strategy to identify a human obesity syndrome locus on chromosome 15,” Hum. Mol. Genet., vol. 4, pp. 9-13 (1995).

[13] X.M. Chang, F.K. Hwang, and J.F. Weng, “Group testing with two and three defectives,” Ann. N. Y. Acad. Sci., vol. 576, pp. 86-96, 1989.

[14] C.J. Colbourn, and J.H. Dinitz, Handbook of Combinatorial De-signs, Second Edition, Chapman & Hall / CRC, 2006.

[15] R. Dorfman, “The detection of defective members of large popula-tions,” Ann. Math. Statist., vol. 14, pp. 436-440, 1943.

[16] D.Z. Du, and F.K. Hwang, Combinatorial Group Testing and Its Applications, World Scientific Pub. Co, 2000.

[17] D.Z. Du, and F.K. Hwang, “Competitive group testing,”Disc. Appl.

Math., vol. 45, pp. 221-232, 1993.

[18] D.Z. Du, and F.K. Hwang,Pooling Design and Nonadaptive Group Testing: Important Tools for DNA Sequencing, World Scientific Pub. Co, 2006.

ドキュメント内グループテストにもとづく事後確率の近似計算アルゴリズム (ページ 98-119)

第 3 章 シミュレーション 62

3.7 CCPD によって求めた周辺事後確率の偏りの指標

第 4 章 結論

付録 A

定理 1 の証明

参考文献

第 3 章シミュレーション 62

第 4 _章結論

定理 1 _の証明