第 3 章 シミュレーション 62
3.2 収束性の比較
初めに,クローンの数がn= 1298に対してクローンがポジティブである 事後確率を計算するアルゴリズムの収束性を比較する.n= 1298はKnill ら[35]による実験のシミュレーションと比較できるように選んだが,Knill ら[35]のプーリングデザインはunique collinearity conditionを満たして いない.ここで,任意の2つのプールG, H ∈ G に対して|G∩H| ≤1 が 成り立つときプーリングデザイン(C,G)はunique collinearity condition を満たすという.まず,本節のシミュレーションではBNPDアルゴリズム が収束することを期待して,unique collinearity conditionを満たすプー リングデザインを用いる.
(v, k)-packing は定義より unique collinearity condition を満たしてい る.すなわち,どの2 つのクローンも高々1 つのプールにしか含まれて いなく,このデザインのタナーグラフは長さ 4 の閉路を持たない.した がって,どのブロック (クローン) もk−1 個以下のブロックの和集合の 部分集合になっていない.つまり,(v, k)-packing から得られるプーリン グデザインの結合行列は (k−1)-disjunct である.
n = b = 1298 で k = 4 の packing design を用いると,式 (2.26) よ り m = v ≥ 125 でなければならない.(m, k)-packing にはさまざまな 構成法があるが,m が素数なら,有限体GF(m) から packing design を 生成する簡単な方法を用いることができる (Colbourn [14] などを参照). m= 131とすると,m は素数である.(131,4)-packingは,下記の10 個 の各ブロックに 1を加えながら 131で割った余りを計算することにより 生成することができる.
{0,1,3,7},{0,70,79,97},{0,28,53,109},{0,32,42,126}, {0,13,43,58},{0,8,19,48},{0,20,36,85},{0,31,55,90},
{0,12,51,74},{0,33,54,71}.
この packing designは1310個のブロックを持つので,12 個のブロック を取り除いて1298個のブロックを用いる.したがって,このプーリング デザインは n = 1298 個のクローンとm(= v) = 131 個のプールを持つ
(v,4)-packing であり,3-disjunctである.つまり,プールに対する観測 値が 2 値で誤りがないなら,組合せ論的なグループテストアルゴリズム を用いると,3個のポジティブクローンまで識別できるプーリングデザイ ンである.
Knillら[35]はPCR (polymerase chain reaction)法を用いたDNAラ イブラリスクリーニングにおける偽ポジティブ・偽ネガティブの確率を実 際の観測値から次のように設定している.
p(0|0) = 0.871, p(0|1) = 0.05, p(1|0) = 0.016, p(1|1) = 0.11, p(2|0) = 0.035, p(2|1) = 0.27, p(3|0) = 0.078, p(3|1) = 0.57.
(P1)
ただし,P(s|z) =P(SG=s|ZG=z) である.観測値 SG は測定され た蛍光の強さをネガティブ(0),弱ポジティブ(1),中ポジティブ(2),強 ポジティブ (3)に分類して得られており,分類の際のしきい値の設定によ りp(s|z)の値は異なる.
まず,ポジティブクローンの数をd= 1とし,誤り確率(P1)を用いて,
単独のシミュレーションを行った.BNPD,CCPD,およびMCPD の収 束性を図 3.1 に示す.各図は 2 個のクローンに対する事後確率の推定値 の収束性を示している.No. 336のクローンは事後確率の推定値が最大の クローンで,もう1 個は無作為に選んだクローンである.図3.1(1)より BNPDは数回の反復で収束していることがわかる.これは,周辺事後確 率 P(Xc = 1|S =s) の推定値がタナーグラフでクローン cからの距離 が近いプールとクローンのみに依存して主に決まることを意味している.
図 3.1(2) よりCCPD は約 30 回の反復で収束している.図 3.1(3) より MCPD は 2000 回前後の反復で安定してきているが,10000回の反復後 でも完全には収束していない.Knill ら[35] によるMCPD のプログラム の既定の反復数は 10000に設定されている.
次に,クローンの数が約 10000の場合を考え,プーリングデザインに
BIB design を用いてシミュレーションを行った.ここでは,クローンの
0 0.2 0.4 0.6 0.8 1
1 2 3 4 5 6 7 8 9 10
事後確率
アルゴリズムの繰り返し数 (t) Clone No. 336 Clone No. 768
(1) BNPDの場合
0 0.2 0.4 0.6 0.8 1
5 10 15 20 25 30 35 40 45 50
事後確率
アルゴリズムの繰り返し数 (t) Clone No. 336 Clone No. 768
(2) CCPDの場合
0 0.2 0.4 0.6 0.8 1
0 2000 4000 6000 8000 10000
事後確率
アルゴリズムの繰り返し数 (t) Clone No. 336 Clone No. 768
(3) MCPDの場合
図 3.1: n= 1298 (d= 1)のときの収束性
数が n = 10121 であるような (349,4)-design を用いる.したがって,
(n, m) = (10121,349)の場合を考える.
n= 10121の場合の BNPD,CCPD,およびMCPDの収束性は図3.2 のようになる.n= 1298の場合と同様にBNPDは数回,CCPD は約40 回,およびMCPD は3000から 10000回の反復で収束している.この値
はn= 1298の場合と大きな差はなく,したがって,どのアルゴリズムの
反復数もクローンの数には依存しないことがわかる.
次節では,packing design およびBIB design を用いたシミュレーショ ンにより,BNPDとMCPD のスクリーニング能力を比較する.