第 3 章 放射線治療におけるシンボリックデータ解析の適用 17
4.2 シンボリッククラスター分析による解析法
メタアナリシスにおける各研究結果をコンセプトと考え,類似したグループとし て集めた上でそれらの特徴を探索するために,階層的シンボリッククラスター分析 による解析手法を提案する.
4.2.1 コンセプトの定義
本論文では,メタアナリシスの解析対象となる研究結果のうち,介入研究や観察 研究において得られることの多い2元分割表を扱う.2元分割表は治療群と結果変 数それぞれがバイナリとして与えられている.このとき,コンセプトである2元分 割表の記述を
C ={cij;i, j = 1,2} (4.1)
とおく.ここでcijは2元分割表における(i, j)セルの値とする.
c
11c
12c
21c
22C
u
11u
12u
21u
22U
CI1×J1 I1×J2
I2×J1 I2×J2
(0,0) (0,1)
(1,0) (1,1)
I
1I
2J
1J
2図 4.2: 2元分割表をstep-function contingonに変換する方法.ここで,cijを2元分 割表の(i, j)セルの値,uij =cij/c··と定義する
4.2.2 コンセプト間の非類似度の定義
本論文では,2元分割表をstep-function contingonに変換して定義できるカット距 離を,2元分割表間の非類似度として定義する(Bolla, 2010).ここで,step-function contingonとは[0,1]2から[0,1]への可測関数である.
まず2元分割表Cに対して,step-function contingon UC : [0,1]2→[0,1]を変換す る.なお,本論文では2元分割表を対象とした定義を行っているが,これは,r×c 分割表への拡張も可能である.
x軸 に対応する区間 [0,1]をJ1 = [0, c·1/c··], J2 = (c·1/c··,1]に分割する.同様 にy軸 に対応する区間 [0,1]をI1 = (c2·/c··,1], I2 = [0, c2·/c··]に分割する.矩形 Ii×JjにおけるUCの値をそれぞれuij =cij/c··と定義する.ただし,c·1 =∑2
i=1ci1, c1· =∑2
j=1c1j,c·· =∑2
i=1
∑2
j=1cijとする(図4.2).
Concept #2 Concept #3
Concept #2 - Concept #3
I J I J
I J
図 4.3: コンセプト#2と#3のstep-function contingonとその差分の例
step-function contingon同士の非類似度を,
δ(UC, UC′) = sup
S,T⊂[0,1]
∫∫
S×T
|UC(x, y)−UC′(x, y)|dxdy (4.2)
によって定義する.この非類似度はstep-function contingon同士の差分をとるため,
その関数は図4.3の例のように,複数の矩形からなる(Bolla, 2010).
4.2.3 コンセプトにおける非類似度の定義とクラスター併合手順
シンボリッククラスター分析の適用に際して,本論文ではウォード法を用いた手 法を提案する.ウォード法は,Error sum of squares (ESS) の増分で定義される情 報量喪失が最小となるようなクラスター同士の併合を通じて非類似度の更新を行
う結合基準を設けている.本論文では,ウォード法におけるコンセプトの併合を,
Lance-Williamsの更新式を用いて行う.
δ(1∪2)3= n1+n3
n1+n2+n3δ213+ n2+n3 n1+n2+n3δ232
− n3
n1+n2+n3δ212
(4.3)
ただし,δ(1∪2)3はクラスターq1∪q2とq3の非類似度,δ132 , δ232 , δ122 はそれぞれ,クラスタ ーq1とq3,q2とq3,q1とq2の非類似度の2乗を示す.
4.2.4 シンボリッククラスタリング分析の手順
研究結果をコンセプトとしたシンボリッククラスター分析の実行手順を以下に示 す.
<ステップ1> 2元分割表として記述されている研究結果をコンセプトとする.
<ステップ2> 初期状態として,N個のコンセプトそれぞれを個別のクラスター Kとする(K =N).
<ステップ3> 全クラスター間の非類似度δをLance-Williamsの更新式を用いて 計算する.
<ステップ4> すべてのクラスターの組み合わせのうち,非類似度が最小となる
クラスター同士を併合する.
<ステップ5> K :=K−1
<ステップ6> K = 1となるまでステップ3からステップ5までを繰り返す.
<ステップ7> 終了