• 検索結果がありません。

根付きラベル付き木の地均し距離について

N/A
N/A
Protected

Academic year: 2021

シェア "根付きラベル付き木の地均し距離について"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)人工知能学会研究会資料 SIG-FPAI-B506-16. 根付きラベル付き木の地均し距離について.    

(2)            . 川口 泰雅.   . 平田耕一 .    

(3)  . 九州工業大学大学院情報工学府. 

(4)   .     

(5)     

(6)             . 九州工業大学大学院情報工学研究院. 

(7)   

(8)                  

(9)         .          .                    

(10)   

(11)                         . . はじめに. 木構造データのデータマイニングや機械学習では  つの木構造データの非類似度を計算する必要がある 木 の非類似度として有名なものに木編集距離  がある 木編集距離は一方の木から他方の木への変換に要する 編集操作の最小回数で定義される 木編集距離には さまざまな変種が提案されている  ! が アライメント距離 " を除きその多くがメト リックとなる   一方で 無順序木の編集距離やアラ イメント距離の計算は #$% &'( 困難となる " )) 木編集距離以外の木の非類似度としては 木編集距離 の定数下限を与えるラベルや次数などの局所情報のヒ ストグラムに基づく距離が知られている  * これら は 木編集距離と比較して高速に計算することができる が メトリックとなるものは存在しない 一方 地均し距離 +      ,- とは 主に類似画像検索の分野で用いられる  つの画像を比 較する距離であり  つの画像における素性の分布 +シ グネチャ, 間の輸送問題の解として定式化される この 地均し距離は 素性間の距離 +基盤距離, がメトリック であればメトリックとなることが保証できる - この地均し距離を木構造に拡張した研究として 等高 葉ラベル無順序木間の地均し距離 ) が挙げられる た だ この地均し距離の計算方法を一般の根付き葉ラベル 付き木にまで拡張することは容易ではない そこで本論文では 根付きラベル付き無順序木に対  連絡先:九州工業大学大学院情報工学府 〒  福岡県飯塚市川津 . 

(12)    

(13)  

(14)  . して 完全部分木 および 完全部分木とその補完全部 分木のヒストグラムに基づいた地均し距離を定式化し それを計算するアルゴリズムを実装する また この距 離はメトリックとなるため 無順序木でも多項式時間で 計算可能となる木編集距離の変種のうち最も一般的な 制限距離 . )/ と比較し その特徴について解析する. . 準備. 本章では 木の地均し距離の定式化のための諸定義を 導入する. ¾º½. 木. 閉路を持たない連結無向グラフを木という ノード の集合 辺集合  からなる木  0 +   , に対して  を単に   と表す 木  に含まれるノードの 数   を  のサイズといい   で表す ) つのノードを根として選んだ木を根付き木という また 根付き木  の根ノードを + , と表す   から根までの経路上にあるノードのうち  で ないものを  の先祖という  の先祖がノード  である ことを    と表し  0  または    であるとき    と表す また  を先祖に持つノードを  の子孫 という 特に    かつ  と  が隣接しているとき  を  の親といい  を  の子という また 子を持た ないノードを葉という ノードの子の数を次数という 木  に対して が  の部分グラフであるとき を  の部分木であるという また   に対して. - 84 -.

(15)  と  に含まれる  のすべての子孫からなる部分木を    と表し  の  を根とする完全部分木という  から完全部分木    を取り除いてできる木を    と 表し 補完全部分木という  のすべての完全部分木 の重集合とすべての補完全部分木の重集合を それぞ れ + , 0        + , 0           0 + , と表す ここで 補完全部分木の重集合 に根ノードの補完全部分木を含めないのは 根ノード の補完全部分木は必ず空の木になるためである その 代わりに元の木そのものをヒストグラムに持つことで 後述する木の距離がメトリックになることを保証する また 木  のすべての完全部分木と補完全部分木の重 集合を  + , 0 + ,  + , と表す 木に関する基本的な操作は 木の各ノードを一つず つ調べることである これを木の走査という 走査の 手順として 親を走査してから 子を走査する先行順走 査と子をすべて走査してから 親を走査する後行順走 査を考える ノード   に対して  の先行順走査に おける順番を

(16)  + , 後行順における順番を

(17)  + , と 表す このとき   に対して

(18)  + , 

(19)  +, かつ

(20)  + , 

(21)  +, のとき  は  の左にあるといい  は  の右にあるという 各頂点の子に左右の順序を指定している根付き木を 根付き順序木といい 指定していない根付き木を根付 き無順序木という また 各ノードがアルファベット 1 によってラベル付けされている木をラベル付き木とい う 本論文では 根付きラベル付き無順序木を単に木と いう. ¾º¾. ヒストグラムに基づく距離. 木  に対して が完全部分木として  に出現 する頻度を  +   , とし が補完全部分木として  に出現する頻度を  +   , とする このとき   + ,   + , をそれぞれ  の完全部分木ヒストグラム 補完 全部分木ヒストグラムといい 次のように定義する.  .  , 0 +   +   ,,   + , 0 +   +   ,,  +. + , . + , .   + , と   + , の  距離を完全部分木距離といい   +   , と表す また   + , と   + , の  距離 を補完全部分木距離といい   +   , と表す 具体的.  +   ,.  +   , 2  +   , とする 完全部分木. 0. と補完全部分木からなるヒストグラムとそれに基づく 距離をそれぞれ相補完全部分木ヒストグラム  + , 相補完全部分木距離  +   , といい 次のように定 義する.  + , 0 +   +   ,,   +   , 0 . ヒストグラム  + , の要素数は   ) である これ は + , と + , がともに元の木を含むためである また これらヒストグラムに基づく距離を それぞれ のヒストグラムに含まれる要素数の和で割ることで 任 意の木間の距離を / から ) の範囲に正規化することが できる この正規化した距離を正規完全部分木距離 正 規補完全部分木距離 正規相補完全部分木距離といい 次のように定義する. 3  +   , 0 3  +   , 0 3 +   , 0. .    , 0. +. . ½  ¾ . . ½  ¾ .    , 0. +.  +   ,  +   ,  +   ,  +   ,.   +   ,    2     +   ,    2    +   ,    2   . ¾º¿ 地均し距離 特徴量

(22)  と重み  のペアの集合をシグネチャとい い  0 +

(23)    , と表す  の要素 +

(24)    , の特徴量を

(25)   で表す 地均し距離(4  #  5  以降単に という)とは  つのシグネチャ間に 定義される距離である  つのシグネチャが与えられた とき 一方から他方への輸送問題を考え その最小コス トが距離となる  0 +

(26)    ,  0 +   , をシグネチャとする

(27)    間の距離を基盤距離(   )といい +

(28)    , と表す また

(29)  から  への輸送量を  で 表し

(30)  から  への輸送コストを +

(31)    , とする と  つのシグネチャ間の総コストは次のように表さ れる. +

(32)    , . なは 次のような式で定義される. .  ½  ¾ .  + ,   +   ,  +   ,. .  . このとき 以下の制約を満たし 総コストが最小となる  を求める フロー  ) . - 85 -. .  / . .    .

(33) " .     .   . .  .   0 . . . .  . . . . . . 制約 ) は 輸送元である  から輸送先である  に輸送 することを表している(逆はない) 制約  と " は 輸 送量が各要素の重みを超えることはないことを表して いる 制約 は 輸送できる限界まで輸送することを表 している  であるとき  つの この輸送問題の最適フローが  シグネチャ間の 4#5 を次のように定義する.  + , 0 0.         . . . . +

(34)    ,       +

(35)    ,       , . .  +. . 完全部分木である 重みは  が木  におけるその完 全部分木または補完全部分木の出現回数であり 3 が木  におけるその完全部分木または補完全部分木の出現 率である これにより 重みの総和はそれぞれ    が木  のノード数   であり  が   ) であり 3 が ) である 次に 基盤距離を考える 基盤距離はシグネチャの要 素の特徴量間に定義される距離である ここでは特徴 量が完全部分木もしくは補完全部分木 つまり木である ため 基盤距離には木間の距離を用いる 本研究では 基盤距離として 完全部分木距離   正規完全部分木 距離 3  補完全部分木距離   正規補完全部分木距離 3  相補完全部分木距離  正規相補完全部分木距離 3 を用いる これら木のシグネチャと基盤距離を組み合わせるこ とにより木の 4#5 を表 ) のように定義する. つのシグネチャの重みの総和が異なるとき 4#5 によって  つのシグネチャ間の部分一致が可能である これは重みの総和の小さいシグネチャが重みの総和の 大きいシグネチャの一部のみと輸送を行うことにより 実現することができる 4#5 について以下の定理が成り立つ . 表 4#5.    +  ,    +  ,    +  ,    +  ,    +  ,    +  ,.

(36) . 定理  つのシグネチャの重みの総和が等しく 基盤距離がメトリックである場合 その 4#5 もメト リックである また 4#5 は +  , 時間で計算 可能である ここで  0 6   である. . 木の地均し距離. 本節では 木の新しい距離として 4#5 を用いた距離 を定式化する 4#5 の計算には シグネチャとシグネチャの特徴量 間の距離である基盤距離が必要となる そこで 木の 4#5 を定式化するために まず 木からシグネチャへ の変換を考える 本研究では 木  のシグネチャとし て以下の - つを考える.  0. 3  0.  0. 3  0 . 0. 3. 0.           . . +  ,  + ,  0  +   ,. )7. 木の 4#5 シグネチャ. 基盤距離.  + , 3  + ,  + , 3  + ,  + , 3 + ,.   +   , 3  +   ,   +   , 3  +   ,  +   , 3 +   ,. 表 ) の各 4#5 のシグネチャには必ず元の木が含まれ るため 変換が位置である また 基盤距離がメトリッ クであるため 定理 ) の系として以下が成り立つ.

(37). 系 表 ) の木の 4#5 はすべてメトリックである ま た これらの 4#5 は +  , 時間で計算可能であ る ここで  0 6    である. . 正規制限距離との比較. 本章では 木の地均し距離を計算するアルゴリズム を実装し ' 型糖鎖データに適用した結果を正規制限 距離と比較する ここで正規制限距離は 編集距離の 変種である制限距離 . )/ を正規化したものであり  つの木    間の制限距離を  +   , としたとき.  +   ,  +   , . + ,  0   +   , . + ,  0  +   ,  +   , +   , . + ,  0     +   ,  + ,  0  +   ,  +   , +   ,  + ,  0     ). . . . 特徴量は   3  が木  の完全部分木であり   3  が木  の補完全部分木であり   3 が木  の相補.

(38)  ½ ¾  ½ ¾ . で求められる距離である. 実験に使用する ' 型糖鎖データは全部で  /) 個で 最大ノード数は "! 最小ノード数は ) ノード数の平均は ))/-.- 高さの平均は -/"/! 次数の平均は /"である 図 ) は 小数点第  位で四捨五入した各距離に対し その値をとる木の組合わせの割合を表している 図中. - 86 -.

(39) は正規制限距離 4#5) は    4#5 は      を示す また 図  に 縦軸を    横軸を正規制限距離としたときの分布を 図 " に 縦軸を      横軸を正規制限距離としたと きの分布を示す プロットの直径と色は その点におけ る木の組数を表しており 同じ点に多くの組が存在する ほど 直径は大きくなり 色は濃くなる 図 ) より    は正規制限距離に比べ大きい   値を取る傾向にあり    はほとんどの木の組が 距離 ) をとることがわかる これは    は距離 の計算に完全部分木しか用いていないため木の構造情 報を詳細に反映できていないからだと考えられる 図  図 " より どちらの 4#5 も正規制限距離とは 異なる値を取り 極端に値の異なる木の組合せがあるこ とがわかる これは 4#5 が編集操作に基づく距離と は異なる基準で木の距離を計算しているといえる 具体 的に 正規制限距離に対して    +   , が大き くなっている木の組合せには以下のようなものがある   .

(40). 100 constrained EMD1 EMD2 80. 60 percent. の. 40. 20. 0 0. 図. 次数の低い木同士で葉のみが異なる木の組合せ. 1. 各距離の分布. 0.8 0.7 0.6 0.5. 正規制限距離に対して    が大きくなっている   木の組合せには以下のようなものがある. 0.3.

(41). 0.8. 1. 同じ部分木を多数持つ木とその部分木と正規完全 部分木距離が小さい木の組合せ.

(42). )7. 0.4 0.6 distance. 0.9. 逆に 正規制限距離に対して    +   , が小さ くなっている木の組合せには以下のようなものがある.

(43). 0.2. 0.4. 0.2 0.1. ノード数の大きい木同士で一部のノードだけが異 なる木の組合せ ほとんどのノードの次数が  の木同士で葉と根が すべて異なる木の組合せ 図 に例を示す. 0 0. 図 7. 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9. 1.   (縦軸)と正規制限距離(横軸)の分布 1. 逆に 正規制限距離に対して      が小さくなっ ている木の組合せには以下のようなものがある.

(44). 0.9 0.8 0.7. 同じ部分木を多数持つ木とその部分木と正規相補 完全部分木距離が小さい木の組合せ. 0.6 0.5 0.4. . 0.3. まとめ. 0.2. 本研究では 完全部分木 および その補完全部分木 のヒストグラムに基づいた根付きラベル付き木の地均 し距離を定式化した この木の地均し距離には 編集操 作に基づく距離とは異なる性質を持ち メトリックとな り多項式時間で計算できる距離である 距離を求める ことが可能になった この木の地均し距離は 木からシグネチャへの変換方 法と基盤距離の  つの組合せにより実現されているた. 0.1 0 0. 図 "7 分布. - 87 -. 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9. 1.    (縦軸)と正規制限距離(横軸)の.

(45) A B I. B. C. C. D D. 図. . D. D D. D. B. D. 木の組合せの例. 7. B. B. B. このとき正規制限距離.    0 ). / -!! . D. 0. め その両方について新しい手法を適用する または組 合せを変えることにより また違った性質を持つ距離を 作り出すことが可能である そのため 今後の課題とし ては 異なる木の地均し距離の定式化と その特徴につ いて精査することが挙げられる. 参考文献    

(46)        

(47)           

(48)          

(49)     

(50) 

(51)    

(52)  

(53)      .   

(54)      .    . !.  " "   #$ " %%  &   ' %

(55) .   ()'*.  +,++-. *!. - ' .  / 0  " 1  .  -,*. '%%2 34 2  . . 5!. * ' " 6 4 .  

(56)  

(57)  

(58)

(59) 

(60) . 2%7 7 8 9%7 2 : ';.  . ,!.   

(61)     

(62)   

(63)    

(64) 

(65)      

(66) 

(67)    . 5 < /  # 0  . /  #  . .  -. => %

(68). . -!.   . !   

(69)           . + ?  6%. 3 '4 7 . . 34 2 @ 7  ,. "$3. ' . . A3> . . / .  6 7.  =2. .  . ,!.      

(70) . **--.  

(71)          . 

(72)  ' ?7  " #  2 . .  : 34 2 7 . '%$. 2 . % !.      

(73)  

(74)  

(75)    

(76)   

(77)    

(78)         

(79)  

(80)     

(81)   

(82) 

(83)     " 1 .   22% %. . . ,!. ".  *+-*,*. 5!. 1 . . A 24 . . 5$. +! . "   "#$    

(84) 

(85)

(86)  

(87)    " 1  ' . . /%22.   *5*. . =:4 %77. *!. - 88 -.

(88)

参照

関連したドキュメント

 Schwann氏細胞は軸索を囲む長管状を呈し,内部 に管状の髄鞘を含み,Ranvier氏絞輪部では多数の指

(6)

ポンプの回転方向が逆である 回転部分が片当たりしている 回転部分に異物がかみ込んでいる

光を完全に吸収する理論上の黒が 明度0,光を完全に反射する理論上の 白を 10

優越的地位の濫用は︑契約の不完備性に関する問題であり︑契約の不完備性が情報の不完全性によると考えれば︑

他方、額縁その他これに類する物品で、木製又は金属製の枠に取り付けたものは、44.14 項又 は

・ ○○ エリアの高木は、チョウ類の食餌木である ○○ などの低木の成長を促すた

1  第 52.11 項(綿織物(綿の重量が全重量の 85%未満のもので、混用繊維の全部又は大部分 が人造繊維のもののうち、重量が 1 平方メートルにつき