• 検索結果がありません。

情報利得値の上界を枝刈り基準とした特徴的部分グラフの探索

N/A
N/A
Protected

Academic year: 2021

シェア "情報利得値の上界を枝刈り基準とした特徴的部分グラフの探索"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)人工知能学会研究会資料 SIG-DMSM-A603-13 (2/28). 情報利得値の上界を枝刈り基準とした特徴的部分グラフの探索.    

(2)                 原 昌弘. . 高林 健登. 大原 剛三. 元田 浩. 鷲尾 隆.    

(3)       

(4)     大阪大学産業科学研究所.  

(5) 

(6) 

(7)   

(8)   

(9)    

(10) . .    

(11)   

(12)          

(13)  

(14)   

(15) 

(16)        

(17)         

(18)  

(19)         

(20) 

(21)   

(22)        

(23)         ! 

(24)  .     

(25)

(26)    "     

(27)    

(28)     

(29) 

(30) 

(31)  

(32)    ! #"     Æ

(33) 

(34) "          .          !         

(35)    

(36)                              

(37)  

(38)   ! #         

(39)      

(40)  

(41)     

(42)       

(43)     " 

(44)              

(45)               .   ! $   "    "                         .              %

(46)    ! はじめに. 近年,大量に蓄積された電子化データから有用な知 識を発掘するデータマイニングにおいて,複雑なデー タをより柔軟に表現できるグラフ構造データを対象と したグラフマイニングが注目され,多くの手法が提案 されている &'" (" )" *" +" ," -(" -./.グラフ構造とは いくつかの頂点とそれらを結ぶ辺で構成されるデータ 表現形式であり,グラフ構造データの代表例としては 000 などのネットワーク構造,化学構造式,回路図 等が挙げられる. そのようなグラフマイニングの一手法である         

(47)  ()法 &,/ は,従 来手法である    

(48)  ()法 &-./ と 同様に,隣接する頂点対を逐次拡張(チャンク)する ことにより,グラフ中に頻繁に現れる典型的な部分グ ラフを発見することができる.ただし,チャンキング の際に頂点対を新たな - つの頂点に置き換えグラフ全 体を書き換える  法とは異なり, 法は頂点  連絡先:大阪大学産業科学研究所 鷲尾研究室       〒  大阪府茨木市美穂ヶ丘         

(49)         . 対に新たなラベルを割り当てて新たな頂点として扱い つつもグラフ自体は書き換えない擬似チャンキングと いう方法を採用している.これにより, 法は  法やその拡張である    ()法 &+/ では同時に抽出することが困難であった部分的に重 複する部分グラフを抽出することが可能である.その 一方で,擬似ノードの導入により, 法の時間計 算量,空間計算量は急激に増加する傾向にあり,対象 データによっては限られた計算時間,及び計算資源の 下では,対象データの特徴を十分に表す部分グラフを 抽出できない場合があった. そこで本稿では,クラスが割り当てられた複数のグ ラフからクラス分類性能の高い部分グラフを抽出する 問題に  法を適用する場合を考え,その場合にお ける  法の探索を効率化するために情報利得値 (    )の上界を用いた枝刈り手法を提案 する.情報利得値は, 法において部分グラフの クラス分類性能の評価指標として用いられており,そ の上界を求めることが可能である &1/.提案手法では, 探索過程において生成する部分グラフ について,そ の部分グラフを含むグラフ ( の拡大グラフ)が取 り得る情報利得値の上界を求めることで, を擬似チャ. - 97 -.

(50) 1 3 2. 3 2. 7. 5. 擬 似 ノー ド. 8 5. 3 2 6. 11. 9. 入力グラフ. チャンキング過程 擬似ノード 10. 1. 1 3. 2. 図. 2. 10.  グラフのデータベース. 10. 1. 7. 1. 4. 擬似ノード. 4. 1. 11 10 3. 11 10. 2. 3. 2 7. 5. 1 11. 4.  . 4. 1.  特徴的な部分グラフの集合. 8. 7 10. 3. 11 10. (最初は空集合) . 9. 出力グラフ 擬似ノード 10.  個の頻度の高いペアを    で抽出されたペアの中から選ぶ.  個の選ばれたペアをそれぞれ抽出部分グラフとして  に加える.こ の時,ペアを構成するノードが擬似ノードであれば元の部分グラフに 復元してから  に加える.この際,擬似チャンクすべきペアがなけ れば終了する.また,レベルが  の場合もここで終了する.. 1. 3.  ,頻度の閾値.    のグラフ中の隣接する  つのノードから成る全てのペアを抽出 し,それらの頻度を数える.レベル  以降については, つのノー ドのうち少なくとも片方は新しく登録された擬似ノードからなる全て のペアを抽出し,頻度を数える.ここで, よりも低い頻度のペアは 擬似チャンクすべきペアとして数えることに意味を持たないので削除 する.. 5. 2 6. . ,ビーム幅 ,最大レベル.   . 3. 2. 擬似ノード11. -2  法における擬似チャンキングの例.  

(51)     で選ばれたペアにそれぞれ新しいラベルを割り当てるが, グラフは書き換えない.そして,   に戻る.. ンキングにより拡張する価値があるかどうかを判定す る.さらに本稿では,情報利得値の上界による枝刈り を導入した  法を人工データセット,および実 データセットに適用し,その実行時間,得られた部分 グラフのクラス分類性能などを従来の  法と比 較することで,提案手法の有効性を実験的に示す. なお,本稿では,擬似チャンキングの対象をノード, ノードの対をノードペア,もしくは単にペアと呼ぶ.つ まり,ノードはグラフ本来の頂点,もしくは擬似チャン キングにより生成された部分グラフを表す擬似ノード のいずれかを意味し,擬似チャンキングは,ノードペ アから新たな - つの擬似ノードを生成することになる.. 図. '2  法のアルゴリズム E. B. E. A. B. A. B. D. C. D. C. (a). 図. (b). (2 重複する部分グラフの問題.  . に出力される &,/.なお, におけるペアの評価 指標としては, 法と同様に単純なペアの出現頻度 の他に対象ドメインに応じて情報利得値    法   &--/,情報利得値の上界, 4  &-3/,     &-/ など頻度に基づいた様々な評価関数を用いる   法の概要 ことができる.  法の動作を図 - を用いて説明する.図 - は,  法は, 法では抽出が困難であった部分的 入力グラフ中のノード -,',及び ( からなる典型的な に重複する複数の部分グラフも同時に抽出できる.た 部分グラフが擬似チャンキングにより抽出される過程 とえば,図 ( において円で囲まれたノードペア  が を示している.まず,入力グラフ中のノード - と ( か 最初のチャンキング対象となった場合を考える.この らなるペアが擬似チャンクされ,擬似ノード -3 として 場合,チャンキングするごとにグラフを書き換えてし 登録される.その後,擬似ノード -3 とノード ' からな まう  法では,両方のグラフ中に 5  という るペアが擬似チャンクされることで,擬似ノード -- が 共通する部分グラフが存在するにもかかわらず,図 ( 生成される.この擬似ノード -- が,前述の典型的な部 ()のグラフでは左上のノードペア  が先にチャン 分グラフに相当する. キングされ異なるノードに置き換えられてしまうため,  法の擬似チャンキングアルゴリズムを図 ' に 当該部分グラフを発見することができない.これに対 示す. 法では,ビーム幅  の他に,繰り返し して  法では,ノードペア  は擬似ノードと の最大数  ,およびペアが満たす最小支持度  をパラ して扱われるが,頂点 は他の擬似チャンキングでも メータとして与え,これらにより探索空間が制御され 利用可能であるため,5  という部分グラフを抽 る.また,アルゴリズムの ∼ までの一 出することが可能である. 連の流れを一つの段階と考え,これをレベルと呼び,レ ベルは擬似チャンクすべきペアがある限り,3∼ まで繰り返される.理論的には,最低支持度を 3 にし,   法の問題点  と  を十分に大きく設定することで, 法は可  法は擬似チャンキングを導入することによっ 能な全ての部分グラフを抽出できる.また,特徴的な部 て,部分的に重複する部分グラフも抽出可能になった 分グラフは各グラフ中における存在位置の情報ととも.   . 

(52)  . - 98 -.

(53) -2 レベルごとのノードペア数の違い. 表 レベル. チャンキング. 3 '. 5 4 5. 6. 擬似チャンキング. -'" -(" -." -)" .) -'" -(" -." -)" .) '*" (*" )*" (+" .)" .+" )+ -'" -(" -." -)" .)" '-6." (-6." )-6." (-6'" )-6' '1" )1" (+" +, -'" -(" -." -)" .)" '-6." (-6." )-6." (-6'" )-6'" '-6(6." )-6(6." '6-.6) 2 3. 5. 8. 6 4. 2. 5. 2. 1. 4. 3. 5. 1. 1. 2. 8 4. 3. 5. 5. 7. 9 3. 7. (a). 図. 3. 3 4. 3. される.直感的には,グラフ集合内のクラスのあいま いさが分割によりどれだけ減少したかを数値化したも のであり,あるクラスに特徴的な部分グラフを用いる ほど,その数値は高くなる.' つのクラス , のい ずれかに属するグラフの集合  を部分グラフ を含む か否かで分割した場合の情報利得値    は以下 の式で定義される.なお, と  はそれぞれ,部分 グラフ を含む,または含まないグラフの集合を表す.. 2. 2 7. 4. 1. 5. 1. 2 3. 9 5. 7 4. 1. 2 3. (b). .2 擬似チャンキングによる計算量の増加.  

(54)   -     ここで,

(55) ,

(56)  (   9)はそれぞれグ    7

(57) . . が,その反面,考慮すべきノード数が増加することに ともなって, 法や  法にビーム探索を導入した  法ではチャンクする度に減少していたペアが指 数的に増加し,その結果,空間計算量と時間計算量が 増加している.例として図 . を考える. 図 .()は  法の  7 ', 7 ( のチャンキン グ過程 を,図 .()は  法の  7 ', 7 ( の 擬似チャンキング過程を示している.両者を比較する と, 法ではノード数が減少しているのに対して  法ではノード数が擬似ノードの分だけ増加して いることがわかる.また,この場合の  法におけ るチャンキング候補と  法における擬似チャン キング候補は表 - に示すとおりであり, 法では 状態を増やした直後に一旦増加したチャンキング候補 のペアが次の時点では減少しているのに対し, 法ではレベルが進むにつれて擬似チャンキングの候補 ペアが単調に,かつ大幅に増加していることがわかる. このように, 法のほうが  法よりも探索 空間は広いが,計算量がはるかに多くなる.. !. . 情報利得値の上界に基づく枝刈り 情報利得値. 情報利得値は,グラフ集合をある部分グラフを含む ものと含まないものに分割した際に,その分割前後の グラフ集合の情報量,つまり 8  の差として計算 ½  法では, 個のペアを選択するとともに状態を 個に分 割し,各状態で各ペアをチャンキングすることを  回繰り返す.た だし,各状態で 個のペアを選択するのではなく,全体で 個のペ アを選択する.. . ラフ集合 , のエントロピーであり,次式により求 められる..        

(58)   7   

(59)  7. . . . . . .       . ' (. ここで, , はそれぞれ  中のグラフのうち クラス  に属するグラフの集合と  中のグラフのう ちクラス  に属するグラフの集合であり, , はそれぞれ  中のグラフのうちクラス  に属するグ ラフの集合と  中のグラフのうちクラス  に属する グラフの集合である. 上記のように定義される情報利得は凸関数であり, の任意の拡大グラフ に関して,その上界を計算できる ことが知られている &1/.具体的には, を含むクラス  ¼ , に属するグラフの集合を  を含むクラス  に属 ¼ ¼ するグラフの集合を  としたとき,  7  か ¼ 7 3,もしくは ¼ 7 3 かつ ¼ 7  つ  のいずれかのときに,   は最大値を取る.す なわち,この最大値が部分グラフ を拡張した際の情 報利得値の上界となる.なお, は の拡大グラフで ¼ ¼ あるので,  であり,同様に   で ある. 図 ) に情報利得値の上界の計算の例を示す.部分グ ラフ を含むグラフ数が  7 (, 7 ' であると ¼ き, 7 3,¼ 7 ',もしくは ¼ 7 (,¼ 7 3 のときのいずれかで の拡大グラフ の情報利得は最 大となり,実際には前者の場合に    7 3-31. - 99 -. . . . . . . .       .

(60) クラス Gのグラフ数. A. B. 15. 15. Ggのグラフ数. 3. 2. Gg’ のグラフ数. 0. 2. Gg’ のグラフ数. 3. 0. 図. クラス A どちらかで情報利得値が最大. クラス Gのグラフ数. Gain( g ' , G ) = 0.070 Gain( g ' , G ) = 0.108 → u ( g ). クラス A. クラス Gのグラフ数. A. u(g) = 0.108. 図. クラス B. 4. 図. g を含むグラフ. +2 事後枝刈りの例. . 3.  特徴的な部分グラフの集合. 情報利得値の上界を計算 u'(g) = 0.148. 1. .  グラフ構造のデータベース ,ビーム幅 ,最大レベル 閾値 ,情報利得値の上界の閾値. B. 15 15. GGのグラフ数の最大値. 3. 情報利得値の上界を計算. )2 情報利得値の上界の計算の例 P2. B. 15 15. 実際のGGのグラフ数. P1を含むグラフ. g P1. A. クラス B.

(61).  ,頻度の. (最初は空集合).    のグラフ中の隣接する二つのノードから成る全てのペアを抽出 し,レベル  以降については,二つのノードのうち少なくとも片方は 新しく登録された擬似ノードからなるペアの全てを抽出する.. g を含む可能性 P2を含むグラフ のあるグラフ.    (事前枝刈り)ノードペアの頻度計算前にペアを構成する各ノード を共に含むグラフ数からノードペアの可能な最大の頻度を計算し,そ れに基づき情報利得値の上界を計算する.その値が より小さいペ アは削除する.. *2 事前枝刈りの例.

(62). . という最大値を取る.以下では,部分グラフ の拡大 グラフが取り得る情報利得値の上界を   とする..  

(63)  抽出されたペアの頻度を数え, よりも低い頻度のペアは擬似チャ ンクすべきペアとして数えることに意味を持たないので削除する.ま た,抽出されたペアの情報利得値を計算し,これまでに抽出した情報 利得値の中で最大なものがあれば を更新する.. .    (事後枝刈り)実際に計算されたノードペアの頻度を用いて情報利 得値の上界を計算し,その値が より小さいペアは削除する..  法への枝刈りの導入.

(64).

(65).     個の頻度の高いペアを    で抽出されたペアの中から選ぶ. 本節では,本稿で提案する  法における情報  個の選ばれたペアをそれぞれ抽出部分グラフとして  に加える.こ 利得値の上界を用いた枝刈りについて述べる. の時,ペアを構成するノードが擬似ノードであれば元の部分グラフに 復元してから  に加える.この際,擬似チャンクすべきペアがなけ 法のアルゴリズムの において,頻度を数える れば終了する.また,レベルが  の場合もここで終了する. という過程が特に計算量がかかる.そこで,その前後       で選ばれたペアをそれぞれ新しいラベルを割り当てるが, で情報利得値の上界を用いた枝刈りを行い,それぞれ グラフは書き換えない.そして,   に戻る. 「事前枝刈り」「事後枝刈り」と呼ぶ. 「事前枝刈り」に より頻度計算の負荷が軽減され, 「事後枝刈り」により 図 12 情報利得値の上界を用いた枝刈りを取り入れた 次の擬似チャンキングステップにおける頻度計算の負  法のアルゴリズム 荷とメモリ使用量が軽減されることが期待できる. 事前枝刈りは,ノードペアの頻度計算前にペアを構 いては - であり,それから得られる情報利得値の上界 成する各ノードを共に含むグラフ数からノードペアの  は 3!-31 となる.したがって,3-31   であれ 可能な最大の頻度を計算し,それに基づき情報利得値 ば部分グラフ は破棄される.これら ' つの枝刈りを の上界を計算する.図 * に事前枝刈りの例を示す.ペ 取り入れた  法のアルゴリズムを図 1 に示す. ア の ' つの親ノード  -  ' を共に含むグラフの数 は,図中に示されるようにクラス  については . 個, クラス  について ( 個である.そしてその値から計算 した情報利得値の上界    は 3!-.1 となる.したがっ 評価実験 て,それまでに抽出した部分グラフの情報利得の最大 本実験では,擬似チャンクするペアの選定基準に,グ 値を  としたとき,3-.1   であれば部分グラフ を ラフ中の部分グラフの出現頻度,または情報利得値を 拡張しても情報利得値が  を超えることがないので部 用い,それぞれを用いた情報利得値の上界を用いた枝 分グラフ は破棄することができる.このように,事 刈りを行わないもの,事前枝刈りのみ行うもの,事後 前枝刈りは,対象となるペアの頻度計算をする必要が 枝刈りのみ行うもの,両方の枝刈りを行うものの合計 ない. 1 種類のアルゴリズムが利用可能な  法を計算機 これに対して事後枝刈りは,実際に計算されたノー (:;2  <: '-33=,> 2 ( " ?@2 4  ドペア の頻度を用いて情報利得値の上界   を計算 A B  1!3)上に ==を用いて実装し,慢性肝炎 し,    であれば部分グラフ を破棄する.図 + データセットおよび人工データセットに適用した.具 に事後枝刈りの例を示す.実際に計算されたノードペ 体的には, 法のパラメータのうち,ビーム幅  ア の頻度は,クラス  については (,クラス  につ. 

(66) . ". - 100 -.

(67) 表. '2 慢性肝炎データセットのグラフのサイズ. 表. (2 人工データセットのグラフのサイズ.  .  . .

(68). グラフ数. . . . 平均頂点数. . . . 平均頂点数. 最多頂点数. . . . 頂点数の合計 頂点ラベル数. 最少頂点数. . . . 頂点数の合計. . . . グラフ数. 平均辺数. . 頂点ラベル数.  .  . 辺数の合計.  . . . .  .  .  .  . . . . . . . . . 辺ラベル数. 最多辺数.  .  . . 基本部分グラフの種類. .  . . 最少辺数. . . . 基本部分グラフの平均頂点数. . . . 辺数の合計.  . . . 基本部分グラフの頂点ラベル数. . 基本部分グラフの平均辺数. . を ) に,頻度の閾値  を 3 に固定し,繰り返し回数  を ),-3,-) に変化させ,各アルゴリズムに関して,計 算時間,抽出された部分グラフの種類,抽出された部 分グラフの情報利得の最大値を観測した.. データの仕様. 本実験では,千葉大学医学部付属病院からご提供頂 いた慢性肝炎データ &-'/,および特定の条件を満たす ように作成した人工データを用いて実験を行った.以 下に各データセットの仕様をまとめる.. 慢性肝炎データセットの仕様. 本実験ではインターフェロン(肝炎ウィルスを駆除 する薬品)投与の効果の有無をデータセット中の患者 を分類するクラスラベルとして用いた.その場合,イン ターフェロン投与の効果のあった患者のクラス (4    )と,効果のなかった患者のクラス  (C     )のデータ数はそれぞれ,(1 個と )* 個であ り,これらのデータを,属性選択,検査値の揺らぎを 表現する属性の追加(本実験では揺らぎに対する期間 は ,3 日間とした),データ値の平均化・離散化を通し て各患者ごとの表形式データに変換した後,さらに各 表形式データをグラフ構造データに変換して用いた. グラフの変換においては,各検査項目(属性)をグ ラフの辺ラベル,その検査値(属性値)を対応する辺 に接続される頂点のラベルとした.グラフ変換後のグ ラフサイズを表 ' にまとめる.なお,グラフ構造デー タへの変換の詳細は,&./ を参照されたい.. 

(69) . 人工データセットの仕様. 本実験で用いた人工データセットは,ある一方のク ラス   にのみ情報利得値が最大となるような特. . . 基本部分グラフの辺ラベル数. 

(70)

(71). . 平均辺数. 辺ラベル数. .

(72).  . ノイズの種類. . . . ノイズの平均頂点数. . . . ノイズ頂点ラベル数 ノイズの平均辺数 ノイズの辺ラベル数. . 徴的な部分グラフ(以下,基本部分グラフと呼ぶ)を いくつか埋め込んだものである.さらに,ノイズとし て両クラスに頻出な部分グラフを埋め込み,基本部分 グラフの情報利得値が最大になるようにもう一方のク ラス    に基本部分グラフの頂点数を一つ減らし た部分グラフを埋め込んでいる.作成した人工データ セットのグラフサイズを表 ( にまとめる.. . 実験結果と考察. 慢性肝炎データセットに対する結果を図 ,,-3 に示 す.図 , は,チャンキング指標を頻度にした場合の計算 時間と抽出した部分グラフ中の情報利得の最大値の関 係を,図 -3 は,チャンキング指標を情報利得値にした 場合の計算時間と抽出した部分グラフ中の情報利得の 最大値の関係を示している.両方の枝刈りを行うもの は枝刈りを行わないものに比べて,同じ情報利得値を 得るまでの計算時間が,チャンキング指標に頻度を用い た場合にはいずれの  においても約 '3D減少し,チャ ンキング指標に情報利得値を用いた場合には  7 ) の ときに約 )3D, 7 -3 のときに約 +)D, 7 -) の ときに約 13D減少しており,大幅な時間計算量の削減 が見られた. 次に,人工データセットの結果を図 --,-' に示す. 図 -- は,チャンキング指標を頻度にした場合の計算時 間と抽出した部分グラフ中の情報利得の最大値の関係 を,図 -' は,チャンキング指標を情報利得値にした場 合の計算時間と抽出した部分グラフ中の情報利得の最 大値の関係を示している.両方の枝刈りを行うものは 枝刈りを行わないものに比べて,同じ情報利得値を得. - 101 -.

(73) 慢性肝炎データ(頻度) 枝刈りなし. 事前枝刈り. 人工データ(頻度). 事後枝刈り. 両方の枝刈り. 枝刈りなし. 0.116. 両方の枝刈り. 0.2. 0.112 N10. 情報利得の最大値. 情報利得の最大値. 事後枝刈り. 0.25. 0.114. N15. 0.11 0.108 N5. 0.106. N10. 0.15 N15. 0.1 0.05. 0.104 0.102. 事前枝刈り. 100. 1000. 10000. 0 1000. 100000. N5. 10000 計算時間(秒). 計算時間(秒). 図 ,2 肝炎データにおける計算時間と情報利得の最大 値の関係(擬似チャンキング指標:頻度). 図 --2 人工データにおける計算時間と情報利得の最大 値の関係(擬似チャンキング指標:頻度) 人工データ(情報利得値). 慢性肝炎データ(情報利得値) 枝刈りなし. 事前枝刈り. 100000. 事後枝刈り. 枝刈りなし. 両方の枝刈り. 事前枝刈り. 事後枝刈り. 両方の枝刈り. 0.25. 0.2 0.18. 0.2 情報利得の最大値. 情報利得の最大値. 0.16 0.14 N10. N5. 0.12 0.1. N15. 0.08 0.06. N5. 0.15. N10 N15. 0.1 0.05. 0.04 0.02. 0. 0 10. 100. 1000. 10000. 計算時間(秒). 図 -32 肝炎データにおける計算時間と情報利得の最大 値の関係(擬似チャンキング指標:情報利得値) るまでの計算時間が,チャンキング指標に頻度を用い た場合には  7 ) のときに約 +3D, 7 -3 のときに 約 1)D, 7 -) のときに約 ,3D減少し,チャンキン グ指標に情報利得値を用いた場合には  7 ) のときに 約 ))D, 7 -3 と  7 -) のときに約 +)D減少して おり,同様に大幅な時間計算量の削減が見られた.特 に,チャンキング指標に頻度を用いた場合には,慢性 肝炎データセットよりも大幅に計算時間が短縮される 結果となった. チャンキング指標に頻度を用いた場合,事前枝刈り の効果は薄く,慢性肝炎データセットに対しては事前 枝刈りの効果がまったくなく,逆に条件判定のコスト のために計算時間が長くなってしまっている.この原 因として,事前枝刈りは(擬似ノードを含む)ノード の頻度が低くなければ効果が出にくい点が上げられる. 単一ノードは元々頻度が高い上に,頻度の高い順に擬 似チャンキングされるため擬似ノードの頻度も高くな り,このような結果となったと考えられる.事前枝刈 りの効果が,慢性肝炎データセットよりも人工データ セットの方が高かったのは,人工データセットの頂点. 100. 1000 計算時間(秒). 10000. 図 -'2 人工データにおける計算時間と情報利得の最大 値の関係(擬似チャンキング指標:情報利得値) ラベル数と辺ラベル数がグラフ - 枚あたりの平均頂点 数と平均辺数に比べて大きいため,単一ノード,およ び擬似ノードの頻度が低くなったためと考えられる. 事後枝刈りの効果の差に関しても同様の原因が考え られる.しかし,事前枝刈りが頂点ラベル数のグラフ - 枚あたりの平均頂点数に対する比率が重要だったの に対し,ノードペアを構成する各ノードに比べてノー ドペアの頻度が低くなると事後枝刈りされやすいとい う観点から,辺ラベル数のグラフ - 枚あたりの平均辺 数に対する比率が重要であると思われる. これらの考察をまとめると,チャンキング指標に関 しては頻度より情報利得値の方が安定して枝刈りの効 果を得ることができ,グラフの構造に関しては頂点ラ ベル数と辺ラベル数がグラフ - 枚あたりの平均頂点数 と平均辺数に比べて大きい方が枝刈りの効果が大きく なるといえる.. - 102 -.

(74) #. まとめ. 5. . 

(75) . . 

(76) . .  

(77) . . . 

(78) . 1. C :

(79)

(80)   

(81) . (.

(82) .  ,"  -

(83)  .

(84) "  " /.    ! .  4$-

(85) " 

(86) " %*556) (  7  8 9 :  ;    < .     .  "  !#    $  :

(87)  ; 9  = 4  . 8

(88)  

(89)  -

(90) #  "  - > /66 ?$* 001265%*553).      " % &  '   "  !(    ! . 3  -

(91) 8" 9   

(92)   < . < "

(93)   

(94)

(95) . / 35 ? 1 00. 1*$13( %*551). $ )Æ  $#   "      % &  * +)))   < ;8 "

(96)  7 ; 40 . ;

(97) .

(98)  +  @

(99) .

(100) 

(101) . / 6. ? & 00 51'$53 %*55() 9 < 8  < 9 : 

(102)  9   .    '   "      #  !# + . >" + *55* 00 (**$(*&. %*55*) '.    +         '  .  <  

(103)   . <. -

(104) >" #  &. -79$-7<+$-79. 4 0 8. 

(105). >

(106) " 0 # +  =  4  00**62*16 %*555) &. >. . ,;. ?.84

(107).  . ,. ,

(108) . <.  (!#  >". #.  *

(109)  -@@@. -

(110) $. 00'(52'(A %*55*). 00*12*33 %&&(). A. -

(111) D. 

(112)  

(113)  

(114) #

(115) " 

(116) +  <

(117)

(118) .%-+<*55*).               .   . '    . * +  

(119)    . 6. < "

(120) . 山口高平 慢性肝炎データセットのクレンジングとマイ ニングの試み 平成 1 年度科学研究費補助金 特定領域 %) 研究成果報告書, 情報洪水時代におけるアクティ ブマイニングの実現,00 *532** %*55*).   %&'(). '256 %&'6). *.  

(121)    . 1 +  

(122)    . +  "   . ,/ ,00.      !

(123) "   #$.   B8

(124) 

(125)  

(126)

(127) .. 参考文献  . <.

(128) ; 8#

(129)

(130) >8=  %&&1). 本稿では,ある部分グラフの拡大グラフが取る情報 利得値の上界が計算可能な点に着目し, 法の探 索を効率化するためにその上界を利用した枝刈り手法 を提案した.提案手法は, 法の部分グラフ抽出 過程における頻度計算の負荷を軽減するとともに,不 要な部分グラフを探索過程で破棄することでメモリ消 費量も大幅に軽減できる. 今後の課題としては,枝刈りの効果がデータに依存 するため,多様な人工データを用いたより詳細な特性 解析が必要である.また,実データにおいてより高い 情報利得値をもつ部分グラフを効率的に探索するため には,今後,擬似チャンキングするペアの選定基準に 関しても検討を重ねる必要がある..  . ./0('  %      .   B8

(131) 

(132) . 9. #!+( $ ,   $  "  )-   '   "  !#    . >". # >;++ *553 0061&26(& %*553). - 103 -. ; : 

(133)   < .   "  + "   '  . +'(     #  ,"  -

(134)  .

(135) ". / A3 ?  00 612&* %&&3).

(136)

表 -2 レベルごとのノードペア数の違い レベル チャンキング 擬似チャンキング 3 -'&#34; -(&#34; -.&#34; -)&#34; .) -'&#34; -(&#34; -.&#34; -)&#34; .) - '*&#34; (*&#34; )*&#34; (+&#34; .)&#34; .+&#34; )+ -'&#34; -(&#34; -.&#34; -)&#34; .)&#34; '-6.&#34; (-6.&#34; )-6.&#34; (-6'&#34; )-6' ' '1&

参照

関連したドキュメント

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

絡み目を平面に射影し,線が交差しているところに上下 の情報をつけたものを絡み目の 図式 という..

当社は、お客様が本サイトを通じて取得された個人情報(個人情報とは、個人に関する情報

必要な情報をすぐ探せない ▶ 部品単位でのリンク参照が冊子横断で可能 二次利用、活用に制約がある ▶

データベースには,1900 年以降に発生した 2 万 2 千件以上の世界中の大規模災 害の情報がある

本文書の目的は、 Allbirds の製品におけるカーボンフットプリントの計算方法、前提条件、デー タソース、および今後の改善点の概要を提供し、より詳細な情報を共有することです。

Google マップ上で誰もがその情報を閲覧することが可能となる。Google マイマップは、Google マップの情報を基に作成されるため、Google

また、 NO 2 の環境基準は、 「1時間値の1 日平均値が 0.04ppm から 0.06ppm までの ゾーン内又はそれ以下であること。」です