• 検索結果がありません。

グラフ系列からの頻出変化パターンの高速列挙法

N/A
N/A
Protected

Academic year: 2021

シェア "グラフ系列からの頻出変化パターンの高速列挙法"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)人工知能学会研究会資料 SIG-DMSM-A703-05 (2/28). グラフ系列からの頻出変化パターンの高速列挙法.   

(2)   

(3)  

(4) 

(5)  

(6)      

(7)  猪口 明博. 鷲尾 隆.    

(8)     大阪大学 産業科学研究所.       

(9) 

(10)              

(11)                         

(12) 

(13)   

(14)    

(15)          

(16)  

(17)   

(18)             

(19)               

(20)           .        Æ 

(21)   . 

(22)                      

(23)  .  

(24)               . Æ        

(25)         

(26)   

(27) . . はじめに. やハイパーリンクの増減によって,その構造を変化さ せる.また遺伝子ネットワークにおいても,遺伝子の 新規獲得,欠落,突然変異を含む進化の過程において ネットワークを表すグラフ構造が変化する.ディスカッ ションスレッドに於いては,新たな発言が新たな頂点 の発生であり,以前のコメントに対する参照が辺の発 生となる木あるいは有向非巡回グラフの成長だとみな せる.このようなネットワーク構造の変化は,今後重 要な研究テーマになると考えられる.ただし,グラフ のトポロジーと共に,その上を流れる情報や頂点間距 離など,いわゆるグラフ属性も,グラフ構造変化の原 因となりうる重要な要素ではある.しかし,グラフ属 性付与の前提であるグラフ構造がその変化のより根本 的な原因あることが多いと考えられることから,本稿 ではグラフの構造のみに着目して議論する. 本稿では,グラフマイニング手法を基にして,時間 とともに構造変化するグラフ系列からなるデータに埋 もれた頻出構造変化パターンを効率良く列挙する手法 を提案する.. 膨大なデータから有用な,あるいは興味のあるパター ンを知識として発掘しようとするデータマイニングの 研究が盛んに行われている.有用性は人それぞれ異な るので定義するのは難しいが,一般に多くの事例を説 明できる知識は有用と考えられる  !."##$ 年に複数の アイテム集合のデータから頻出アイテム集合を列挙す る %  アルゴリズム "! が提案されて以来,様々な データ構造に対して頻出パターン列挙アルゴリズムが 提案されている.近年では,頂点間連結関係と頂点や 辺ラベルの情報からなるグラフ構造に頻出する部分構 造パターンを高速列挙する手法が提案されている &!. これまでグラフマイニングが対象としてきたグラフ は,主に時間とともに変化しないグラフを対象として きた.しかし,例えば,グラフで表すことが可能な人間 関係ネットワークに於いて,将来ハブとなる人は,ネッ トワーク参加時からハブの役割を果たしているわけで なく,時間とともにネットワーク構造を変化させなが らハブとなりうる位置に変化していく.本稿が対象と するグラフ変化は,頂点や辺が増減することで起こる 構造変化である.人間関係ネットワークにおいては," つのコミュニティをグラフと考えると,人の参加,脱退 が頂点の増減であり,それらの関係の変化が辺の増減 である.ホームページによって構成されるネットワー ク構造も同様に,発展の過程において,ホームページ. . 問題定義. ¾º½ 課題 図 " にグラフ変化系列の例を示す.  は系列の中で  番目のグラフであり,各  は頂点と辺がラベルをも つラベル付きグラフである.本稿では,このようなグ ラフ変化系列から,頻出変化パターンを列挙するアル ゴリズムを提案することを目的とする." 節で述べた. £ 連絡先:大阪大学 産業科学研究所 大阪府茨木市美穂ヶ丘          

(28)  

(29)  . 27.

(30) C A. g (1). g ( 2). g ( 3). 図. "'. g ( 4). g (5). g (6). B. A. g s(1). 図. 28. A. g s( 2 ). グラフ変化系列の例. 人間関係ネットワーク,ホームページのネットワーク, 遺伝子ネットワークなどの対象では,我々がそれらの 時間変化を観測する時間分解能が高い.従って,隣接 するグラフ  と  でその構造が大きく変化する ことはなく,ごく一部の構造が変化すると考える.ま た,データから人にとって有用な知識を発見するデー タマイニングの立場からは,計算機の出力が人にとっ て理解可能であることが重要である.理解可能な出力 として何を重視するかは適用問題にも依存するが,一 般に頂点間の関連性を見出せるグラフは人にとって理 解し易いと考える. 本稿が対象とする問題を解決するための " 点目の課 題は,グラフ変化系列を如何に簡潔に表現し,同時に 可能な表現の多様性を小さくすることで探索すべき空 間を小さくするかである.図 " の  と  は,( 頂 点からなる部分構造が共通であるので,各  において 全ての頂点,辺の情報の保持は簡潔な表現であるとは いえない.そこで本稿では,  と  の差分に注目 した記述によってグラフ変化系列を表すことを考える. ) 点目の課題は,どのような特徴をもつパターンを探    索するかである.ここでパターン  は        からなるグラフの系列であり,各  は入力グラフ系  列を構成する の部分グラフとする.例えば,探索  するグラフ系列の各グラフ  を制約のないグラフと した場合,探索すべきパターン数が膨大になり,さら に出力されたパターンを理解可能であるとは限らない.  例えば,  に非連結グラフを認めると図 ) のようなパ ターンが出力される可能性がある.図 ) をホームペー ジのネットワーク構造だとした場合,頂点の  と  は 鷲尾研究室のページ, はブラジルのある組織のホー ムページなど,至る所に存在しうる部分系列であるの で,頻出パターンとして取り出される可能性が大きい が, と  には何の関連もないために,このようなパ ターンの意味を理解することは一般には困難であり,人 間の興味から外れる場合が多い.一方,各  に於ける グラフが連結であると制約を課すと,図 ( のような系 列はパターンをして探索の対象とならない.水色の頂 点と黄色の頂点は各  に於けるグラフ内で繋がってい ないが,それらは緑色の頂点を介して何らかの関係が あると理解でき,このようなパターンは探索の対象と したい.汎用性の観点からは,探索対象とするパター ンはより制約が少ないパターンであるほうがよいと考 えられる.このように,本稿が対象とする問題で探索 すべきパターンも自明ではないために,パターンの定 義についても議論を行う. ラベル付きグラフ は * +   , で定義され. C B. )'. 1. A. A. g s(1). ('. g s( 4 ). 理解困難なパターン 2. 2. B 1. A. g s(3). 2. 図. C B. B. B 3. 3. C. C. g s( 2 ). g. ( 3) s. グラフ系列パターン. る.ここで  * 

(31)  

(32)   

(33)   は頂点集合, * +

(34)  

(35)  ,+

(36)  

(37)  ,      は辺集合, はラベル集 合であり, ' +   , である.本稿では無向グ ラフについて議論するが,提案手法は有向グラフにも 適用可能である.グラフ と  * +      , が                                           を満たすような関数 が存在するとき,  を の部分 グラフと呼び,  と表す.頂点

(38)  から

(39)  に至る辺 の集合をパスという.グラフの任意の ) 頂点間にパスが あるとき,そのグラフを連結グラフという.グラフ系列     を  *  と表す.グラフの各頂点

(40)    はユニーク - +

(41)  , を持ち,ユニーク - は時間が経 過しても変わらないものとする.本稿の目的は入力とし てグラフの系列  の集合が与えられたときに,頻出系    列 *  を探索・発見する手法を提案   することである.ここで,"

(42)     

(43)  に          対して,   ½    ¾      であり,この時,  と書く.. ホームページのネットワークは,各ページが頂点, 例 ハイパーリンクを辺とするグラフ構造である.グラフ の構造は,編集されるたびに構造が変化する.例えば,  はあるサイトにおける第  期目のグラフ構造であ り,  がユニーク  に相当する.また,各ページは ラベルを持たない頂点として扱ってもよいが, 『大学の ページ』, 『金融系企業ページ』, 『製造業企業ページ』な どのようなラベルをもつ頂点として扱ってもよい.ラ ベルは分析の意図に応じて設定されるものであり,本 稿では具体的に特定はしない.. ¾º¾ 和グラフ どのようなパターンを探索するかについて議論する ために和グラフ(.  / )を定義する.グラフ 集合       に対し  * ¡¡¡   を. Ë. Ë.     ¡¡¡         Ë     ¡¡¡                 . Ë. と定義する.ここで  +  ,, +  , はそれぞれ,グラフ  の頂点集合,辺集合である. ¡¡¡   の頂点数は      の頂点のユニーク - の異なり数になる. 以上より本稿が対象とするパターンを以下のように定    義する.パターンを  *  とすると  .

(44) Ë. . ス中のグラフに誘導部分グラフとして含まれるという 制約を課すと %/3)! が対象とした問題と同一である.. き, ¡¡¡   が連結であるグラフ系列  を探索す る.また,この条件を満たすグラフ系列  に含まれる 頂点は,0互いに関連している1 という.パターンに現  れる各グラフ  は非連結かもしれないが,パターン に現れる任意の ) 頂点は,対象とする期間で互いに関 連しているので,出力されるパターン全てが可読(理 解可能)であり,先に述べた目的に反しない. 本稿ではパターン列挙法に主眼をおき,その効率の良 い列挙法について提案する.入力データベース  はグ ラフ系列  とデータ識別子  の集合として, *      とする.このよう +   , *    なデータベースに対し,支持度を  +, *  +   , ¼       と定義する.指定された閾値  以上の支持度をもつパターンを頻出パターンと呼ぶ.. ¾º¿ グラフ変更操作オペレータ.

(45)   . パターン列挙問題 グラフ系列    ¼ 集合  * +   , *   と  が入   力として与えられた時,¡¡¡   が連結な頻出パ   ターン  *  を全て列挙することである. . グラフの変化を表現するために,グラフの編集距離 を決める手法の " つを用いて  と  の差分のみ を保持する.具体的には,) グラフの類似度は頂点,辺 の追加,削除,ラベルの変更を ) グラフが同一なるま で繰り返し適用した最短数により決められる.表 " の 5 種の操作を変更操作オペレータと呼ぶ.  とその後の差分を保持するのも1つの手ではあ るが,  を頂点数がゼロのグラフだと考え,  と  の差分を含め,データを保持することで,データ を統一的にあつかう.以後,  を と表す.各グラ フが比較的大きな場合でも,その変更箇所が少なけれ ば,簡潔にデータを保持できる 2. 2. B A (0) [ vi ,1, A ]. OP. 2. B A. g. (1) [ vi , 3,C ]. (1) s. OP. g. A. B. 3. 1. C ( 2) s. 2. B. 3. 1. 1. C. ( 2) [ ed ,(1, 2 ), − ]. 2. B. 3. C. OP. 3. C. ( 2) [ vd ,1, A ]. ( 2) [ ei , ( 2 , 3), − ]. OP. OP. g. ( 3) s. OP[ vi( 0,)2, B ]. . パターンであるグラフの系列を構成する各グラフ  は必ずしも連結であるとは限らない.パターン列挙ア ルゴリズムとして最も単純な方法は,非連結グラフも 出力する頻出部分グラフ列挙アルゴリズムを動かし,各 頻出部分グラフをアイテムとして既存の系列パターン マイニングを動作させ,和グラフが連結でないパター ンを後処理で除く手法である.しかし,この方法では 後処理の直前の段階で,和グラフが連結でないパター ンが大量に得られるので非効率である. また,従来の系列パターンマイニング 2! のように時 間順にアイテム  を " つずつ追加して拡張する方法を 考える.取り出したいパターンが   +  , だとする と, ,  ,  + ,,  +  ,,  +  , と順に パターンを拡張していく.新たに追加されるアイテム は時間順にみて,最後に発生したアイテムが追加され る.しかし,分析の対象がグラフの場合,頻出パター ンの " つが図 ( であると事前に分かっていれば,図の   に黄色の頂点を追加して  を生成できる.一方,     *   が頻出で, を部分系列として含むパ ターンが全て非頻出の場合,黄色の頂点を加えたこと で生成される  は和グラフが非連結でないので,この 頂点を付け加えたことが無駄な処理となる.事前にど のようなパターンが頻出であるか分からない状態で探 索するので,上記の目的を達成するには効率の良い探 索手法が必要となる. 既存の頻出部分グラフマイニング問題との関連を述 べると,パターン列挙問題 " における系列長が全て " であれば,%/3(!,4#! などが対象とした問題 と同一となる.また,系列長が " でかつ,和グラフが 連結であるという制約を除き,パターンがデータベー. 29. OP[ ei( 0,)(1, 2), − ]. 図. . $'. グラフ変更操作オペレータによる系列表現. 例 図  のような系列を考える.図  は図  のよう に,頂点,辺の追加,削除の系列によって表すことが できる.各頂点の右肩の数字は頂点のユニーク  を 表している.このとき,グラフの変化を以下のように 表すことができる.. . . . . . .

(46)   

(47)  

(48)  

(49) .      

(50)   

(51)   

(52)     . データベース中のデータ  を  *. で表すことをグラフ系列表記と呼び,. .  .  * .  .  .  .   . £    . .   £ ½  ½ . . £ ¼  ¼ .   £ ¼  ¼ で表すことを変更操作表記,    £    を変更操作系列表記と呼ぶ.  変更操作系列表記  に,ある操作オペレータ  £  が  含まれるとき, £    と書き,グラフ系列表記 . に対する変更操作系列表記を  +, と書く.変更操作    系列表記  £ ¼  ¼  £  ½   ½ から幾つかのオ ペレータを除いて生成される系列 ¼ を  の部分系列であ ると呼び,¼  で表す.¼ が  の部分系列であり,そ ¼  の対応関係を で表す. £    と  £ ¼  ¼  ¼ . が対応するとき, £ . *. ¼. + £ ¼  ¼ , である.. 変更操作オペレータは 仮定 編集距離から生成される.. . と . . の最短の . ½ ¾ と 

(53)  従って," つの変更操作表記中の   ½ . ¾ . に対して,頂点を追加し,即座に削除というような  *  かつ  *  という値の組み合わせはないものとする.     £    が 変更操作系列表記  *  £ ½  ½ 与えられたとき, に対する和グラフ  * + , を.

(54) 

(55) . 

(56) . 頂点の追加.

(57) . 頂点の削除.

(58)    

(59) . 頂点ラベルの変更 辺の追加 辺の削除 辺ラベルの変更. .  . 

(60) . 

(61) 

(62)    

(63)  

(64) 

(65)      

(66)  

(67) 

(68)     

(69)  

(70) 

(71)     

(72) . 表. "'. グラフ変更操作オペレータ. 頂点ラベル をもつ頂点を 

(73)  に追加.追加された頂点のユニーク  は  とする. 追加された頂点は辺を持たない頂点となる. ユニーク  が  である頂点を 

(74)  から削除.孤立した頂点のみを対象とする.. 

(75) . 孤立していない頂点を削除する場合は,

(76) .   を事前に数回適用する..  . ユニーク  が  である頂点のラベルを に変更する.. ユニーク  が  と  である頂点間にラベル を持つ辺を 

(77)  に追加する.. ユニーク  が  と  である頂点間の辺を 

(78)  から削除. は削除される辺のラベル. ユニーク  が  と  である頂点間の辺のラベルを に変更する.. ¼¼.

(79)      

(80)          .   の頂点を追加してグラフ が生成されるとき,そ の追加の順序を以下のように入れ替えても同型のグラ ¼¼  フ が生成される..

(81)      

(82)          . . . と定義する.また, * +   , *    に対し,変更操作系列表記のパターン  の支持度を  +, *  +   ,     + ,  と する.. 

(83) ¼ . ¼¼ . 

(84)  

(85)  

(86)    ½   ¼¼ 

(87)  

(88) ¼ . 

(89)  

(90)    ½ 

(91)   ¾  

(92) . 

(93). 

(94) .  ¾. 頂点の追加  頂点の削除 ユニーク - が  である頂点を追加し,続いて  である 頂点を削除する場合を考える. *  の場合,この操作 ¼¼  が生成されるとき,その追加の順序を以下のよ で ¼¼  うに入れ替えても同型のグラフ が生成される.一 方, *  の場合は,追加した頂点を削除する操作であ るので,順序を入れ替えることはできない.   *  +すなわち,追加した頂点を削除しない場合,.    . パターン列挙問題 グラフ    系列の集合  * +   , *   と   ¼ が入力として与えられた時,和グラフが連結であるグ  ラフ変更操作系列表記の頻出パターン  £ ½  ½  .  £    を全て列挙することである.. . 定理 グラフデータの系列の集合  * +   ,      ¼  *   と  が与えられた時,パ   ターン列挙問題 ,および で出力される全パターン の集合をそれぞれ  , とすると,   である.. 

(95) ¼ . ¼¼ . 

(96). 定理 支持度はパターンの系列長に対し,逆単調性の 性質を持つ.. 

(97) . 

(98)   ¼ 

(99)  

(100)  

(101)    ½ 

(102)  ¾  

(103) . 

(104)  ¾ 

(105) . 

(106) ¼¼ .   ½. 不可   頂点の削除  頂点の追加 ユニーク - が  である頂点を削除し,次に  である頂 点を追加する.削除される頂点はユニーク - が  でな い頂点から選ばれるので,順序を入れ替え可能である.. 前述のように,本稿では可読なパターンでかつ,制 約が少ない +汎用的な, パターンをマイニングすること を目的としている.変更操作系列表記の和グラフの定 義より,変更操作系列表記の和グラフが連結であれば, 変更操作系列表記中の ) 頂点

(107)  と

(108)  は関連している といえる.従って,パターン列挙問題 ) で出力される パターンは可読性がある.紙面の都合上証明は省略す るが,定理 ) より,パターン列挙問題 " で出力される パターンは,パターン列挙問題 ) で出力されるパター ンに制約を課す(増やす)ことで出力可能である.よっ て,以降ではパターン列挙問題 ) について議論する. 操作オペレータを定義した際,その適用順序の詳細 までは議論しなかった.以下では,操作オペレータの 可換性について述べる.ラベルの変更を含む性質は紙 面の都合上省略するが同様に定義可能である.以下の 説明で,

(109)

(110) ¼¼ を前提とする. 頂点の追加  頂点の追加 ユニーク - が  と  の頂点を追加する場合を考える. グラフ  にユニーク - が  の頂点を追加し,続いて. 30. ¼. ¼¼ . 

(111) 

(112)  

(113)  

(114) 

(115)    ½  ¾. 

(116). ¼¼ . 

(117). ¼.

(118)  

(119)  

(120) 

(121)   ¾  

(122)   ½ . 頂点の追加  辺の追加・削除   辺の追加は     ,辺の削除は 

(123) . で表.  . .   . されるが,ここでは辺の追加,及び削除を  と表す.   *  かつ, *  +すなわち,追加した頂点の辺を 追加または削除しない場合,. 

(124). ¼¼ . ¼. 

(125) 

(126)  ¾ 

(127) 

(128)   ½  

(129)  . ¼¼ . 

(130). ¼. 

(131) 

(132)   ½ 

(133) 

(134)  ¾  

(135) .   不可 辺の追加・削除  頂点の追加. ¼¼ . 

(136). 

(137) ¼ . 

(138)  

(139)  

(140)    ½  ¼ ¼¼ 

(141)  

(142) . 

(143)  

(144)    ½ 

(145)   ¾  

(146)  

(147) .  ¾.

(148) 1. 3. 1. 3. 2. 2. 4. g s(1). g s( 2 ). 図. '. 3. 2. 表. 3. 2. 4. g s(3). )'. 4. g s( 4 ). 出力パターンの一例. 頂点の削除  頂点の削除. ¼¼ . 

(149). ¼. 

(150) 

(151) 

(152)   ½  

(153)   

(154)  ¾. 

(155). ¼¼ . 

(156) . . 

(157) ¼ . 

(158)   ½ 

(159)  ¾  

(160) . 頂点の削除  辺の追加・削除. ¼¼ 

(161) ¼  

(162) . 

(163)  

(164)  ¾ 

(165)   ½  

(166)  ¼¼ 

(167)  

(168) ¼ . 

(169)  

(170)   ½ 

(171)  ¾  

(172) . 辺の追加,削除  頂点の削除   *  かつ  *  +追加した頂点の辺を追加,及び削 除しない場合,. 表. ('. ¼¼ 

(173) ¼  

(174) . 

(175)  

(176)  ¾ 

(177)    ½  

(178) . ¼¼ 

(179)  

(180) ¼ . 

(181)  

(182)    ½ 

(183)  ¾  

(184)   . 辺の追加・削除 .      .  

(185)     .  

(186)       . 

(187)     . 

(188)   .  .

(189) 

(190)   .  . 

(191)   

(192) .  

(193)    . .  

(194)    .  

(195)    .  

(196)     .    

(197)    .  

(198) . ¼¼ 

(199) ¼  

(200) . 

(201)  

(202)  ¾ 

(203)    ½  

(204)   ¼¼ 

(205)  

(206) ¼ . 

(207)  

(208)    ½ 

(209)  ¾  

(210) .

(211). . . パターン列挙アルゴリズム. 前節で示したようにグラフの変化は操作オペレータ によって表すことができる.またそれら操作の可換性 について示した.パターン列挙アルゴリズムに関して, その詳細を示す前に具体例でイメージを示す.図 を 出力されるパターンの " つとすると,.  . s . . . . . . . .

(212)   

(213)    

(214) 

(215)  .   

(216)           

(217)   

(218)   

(219)   

(220)    .

(221)  

(222)    

(223) .  .  , は  

(224)  法ではなく,. #. . である.また異なるオペレータ順序によって / 5! のように,パス,根無し木,グラフの順にパターンを成 長させることも可能である.以上のように提案手法は オペレータの入れ替えにより様々な既存の頻出グラフ マイニング法を統合可能な非常に汎用的な手法である. 変更操作系列表記  の骨格 + 6, 系列 ¼ を . で表される.各オペレータの適用毎に分けて表したの が表 ) である.可換な範囲でこれらのオペレータの順 序を入れ替えることを考える.入れ替えの " 例が表 ( であり,それを図示したのが図 5 である.これは " つの 頂点の追加とそれに付随する幾つかの辺を " つのまと まりとしてグラフを徐々に拡張させる方法である.各 オペレータの適用順に再度並び替えることで,元のグ ラフ変化系列パターン +", が得られる. 一方,表 $,及び図 2 は " つの辺の追加,あるいは " つ の辺の追加と頂点の追加を " つのまとまりとしてグラフ を拡張させる方法である.適用順序  などを無視した構 造のみの成長のみに着目すると,前者は %/3(! のパ ターン成長 であり,後者は 4#! のパターン成長法. の変更操作表記. 表 ) の変更操作オペレータの入れ替え +", . 不可 辺の追加・削除. 図.    .  

(225)         .  

(226)          .  

(227)          . 

(228)         . s 

(229)   .  .  

(230)       .  

(231)        .  

(232)     .  

(233)      .  

(234)     .  

(235)        .  

(236)    . . . ½ ¾  £   £ ½  ½ ¾  ¾ . .  に対し,   かつ . ½  *  であるとき, は  £ によって構 ½  ½ 成される ¼.  の部分系列であると定義する.表 ( の  から

(237) ま でで形成される操作オペレータ,及び表 $ の  から

(238) までで形成される操作オペレータが,それぞれの系列 の骨格である. 1. 4. g1 = OP[ vi(1,)4,red ] ⊥. 2. 4. g 2 = OP[ vi( 0,)2,blue ] g1 g 3 = OP[ ei( 2,)( 2, 4), − ] g 2.  !! ". 図. 法であるが,ここではどちらもパターン成長という言葉を使う.. 31. 5'. 2. 1 4. 2. g 4 = OP[ vi( 0,)1,red ] g 3 g 6 = OP[ vi( 0,)3,blue ] g 5 ( 0) g 5 = OP[ ei( 0,)(1, 2 ), − ] g 4 g 7 = OP[ ei ,( 2,3), − ] g 6 g 8 = OP[ ei(1,)( 3, 4 ), − ] g 7. 表 ( のグラフ表記. 3. 4 (1) g 9 = OP[ ed ,( 2 , 3), − ] g 8 ( 2) g10 = OP[ ed ,(1, 2 ), − ] g 9 ( 2) g11 = OP[ vd ,1, red ] g10 g s( 4 ) = OP[ ei(3,)( 2,3), − ] g11.

(239) 3. 3. 3. 1. g1 = OP[ vi( 0,)3,blue ] ⊥. g 6 = OP[ vi(1,)4,red ] g 5. g 3 = OP[ ei( 0,)( 2,3), − ] g 2. g 5 = OP[ ei( 0,)(1, 2 ), − ] g 4. g 7 = OP[ ei( 2,)( 2, 4 ), − ] g 6. 2'. 4. 4. 1. 1. g 4 = OP[ vi( 0,)1,red ] g 3. ⊥. 2. 2. g 2 = OP[ vi( 0,)2,blue ] g1. 図. 3. 3. 2. 2. 表 $ のグラフ表記. ( 2) g11 = OP[ vd ,1, red ] g10. g1 = OP[ vi( 0,)1, A] ⊥ g1 = OP[ vi( 0,)1, A] ⊥ g1 = OP[ vi( 0,)1, A] ⊥. g s( 4 ) = OP[ ei( 3,)( 2,3), − ] g11 g = OP ( 0) g g = OP ( 0 ) g g = OP (1) g 2 [ vi , 2 , A ] 1 2 [ vi , 2 , A ] 1 2 [ vi , 2 , A ] 1 OP[ ei( 0,)(1, 2 ), − ] g 2. OP[ ei(1,)(1, 2 ), − ] g 2. . 定理 変更操作系列表記であるパターン  の和グラフ と  の骨格系列から得られる和グラフは同型である. 以上より,変更操作系列表記で表される頻出パター ン  を得るための " つの手段として, の骨格系列 ¼ を生成し,¼ の和グラフを変えない範囲で ¼ に変更操 作オペレータを加えて拡張していく方法が考えられる. 実際,表 ( の 以降,及び表 $ の 以降の操作オペ レータは,骨格の和グラフを変えない範囲でパターン を拡張していることが分かる.従って, はじめに取り出すべき全パターンの骨格系列を全 列挙すること,. (0) OP[ ed ,1, B ] ⊥. g1 = OP[ vi(1,)1, A] ⊥. ... g. 2. = OP[ vi( 0,)2 , A] g1. OP[ ei( 2,)(1, 2 ), − ] g 2. 探索木の例. 間を示しているが,紙面の都合上省略する.頂点ラベ ルの種類は  と  の ) 種,辺ラベルの種類は  の " 種とし,ラベル変更はないものとする.はじめに " 頂 点のパターンから探索する.このとき,探索木のルー トノードの子ノードとして," 頂点で存在可能な全骨格     パターン   ,

(240)  ,  ,

(241)  に相当するノードが生成される.パターン内の頂点の ユニーク - は " からはじまる整数値とする.続いて,    を拡張して,その子ノードを生成する.パ ターン拡張は,変更操作オペレータの適用順序  が増 えるように拡張するのではなく,骨格パターンの和グ ラフが連結であるように拡張する.拡張法が %/3 で あれば," つの頂点とそれに付随する辺を追加する.拡 張法が,74/,4,/  のいずれかであれば," つの辺とそれに付随する頂点で拡張する.骨格に既に 含まれる  をもつ変更操作オペレータでは拡張しない. 注意すべきパターンとしては,.    

(242)        

(243)   

(244)   

(245)    . 表 ) の変更操作オペレータの入れ替え +),. .  .   . である.パターン +), は, * 8 でラベルが ,ユニー ク - が " である頂点を追加し,同時に頂点対 +" ), に 辺を追加する.続いて, * " でラベルが ,ユニーク - が ) である頂点を追加するというパターンである. この情報だけをみると,ユニーク - が ) である頂点を 追加する前に,辺 +" ), を追加しているため,辺の追 加が不可能のように思える.しかし. .          

(246)      .  

(247)      . 

(248)     . 

(249)   . 

(250) 

(251)   . . 

(252)    

(253) 

(254)  

(255)    .  

(256) .       

(257)      

(258) .        

(259) .     骨格系列の拡張.

(260) .  

(261) . ¿º½. &'.  . 骨格系列の和グラフを変えない範囲で,骨格系列 に含まれない操作オペレータを付け加えてパター ンを順次拡張していくこと. $'. = OP[ vi( 0,)2 , A] g1.

(262)   

(263) . の ) 点からなるアルゴリズムが考えられる.上記のス テップ " で骨格系列  の拡張操作を +, と書く. 表. 2. OP[ ei(1,)(1, 2 ), − ] g 2. 図.   

(264) 

(265) ¼   ¼ 

(266) £

(267)   £¼  ¼  

(268)  

(269) ¼  

(270) £   

(271) £¼  ¼   ¼ ¼ 

(272) £

(273) ¼  ¼   ¼ . g1 = OP[ vi( 0,)1, A] ⊥. ... g. OP[ ei( 0,)(1, 2 ), − ] g 2. . ). OP[ ei( 0,)1, B ] ⊥. ( 2) g10 = OP[ ed ,(1, 2 ), − ] g 9. 変更操作系列表記パターン  とその骨格系列を 定理 ¼ とし,その対応関係を とする.以下が満たされる.. ". (0) OP[ vd ,1, A ] ⊥. OP[ vi( 0,)1, A] ⊥. (1) g 8 = OP[ ei(1,)( 3, 4 ), − ] g 7 g 9 = OP[ ed ,( 2 , 3 ), − ] g 8.          

(274)   

(275)  

(276)   

(277)   

(278)    .  . という部分系列が頻出であれば,支持度の逆単調性よ り,その部分系列であるパターン +), も頻出であるの で,パターン +), も列挙する必要がある.  また,パターン +(, は   を拡張することで生 成されたパターンであるが,ユニーク - が " である頂 点の追加順序が変更されている.パターンの操作オペ  レータ  £  の  は,) つの操作オペレターの適用 順序の情報を示すものであるので,このようにパター ン中の操作オペレータの適用順序はパターンを拡張す るに従って変更されうることに注意されたい. 探索木の中で,同型のパターンが唯一現れるとは限 らない.例えば,) つの系列.  .  .    

(279)          

(280)   

(281)   

(282)    

(283)   

(284) . 図 & は和グラフの頂点数が ) までの骨格系列を探索 した探索木の一部を表している.図の三角形も探索空. 32.  .

(285) は同型である.同型のパターンであるが表記が異なる パターンが何度も生成されると効率が悪くなる.この 場合は,骨格パターンの和グラフとその頂点のユニー ク - から生成されるグラフコードが正準形 +  , であるときに,そのパターンを探索空間に残す. グラフコードは,骨格パターン拡張に %/3,4, 74/,/  などいずれの手法を使うかに依存する.. ¿º¾. となり,オペレータをアイテムとする系列パターンマイ ニングの系列表記と見なすことができる.入力データ集 合と骨格パターン  より  ¼+, * +  ¼ ,+   ,   +  ¼ ,   !++   , , を生成し,系列 パターンマイニングの入力とすることで,骨格系列  の和グラフを変えない範囲で,パターンを順次拡張す ることができる.. ¿º¿ 擬似コード. 射影データからのパターン拡張. 前節で述べた手法を用いて骨格系列  を生成し,続 いて本節で述べるように  の和グラフを変えない範囲 で,骨格系列に含まれない操作オペレータを加えて拡 張していく.図 ( の

(286) まで,及び図 $ の

(287) までがパ ターンの骨格であり,本節では, 以降の手続きにつ いて説明する. ある骨格系列  とそれを含むデータ +   ,,その 対応関係を とする.このとき,射影関数  ! を ¼ +   , *  !++   , , と定義する.ここで, ¼  は以下を満たす.  ¼ は    の部分系列である.. ¼   

(288) 

(289)   

(290) £

(291) ¼  ¼   ¼ である ¼ は, 

(292) £

(293)   £      

(294) 

(295)    に含まれる.   

(296) £

(297)   £   . 図 # に提案手法の擬似コードを示す.入力として,系 列データの集合  と支持度の閾値  ¼ を与える.2 行 目で骨格系列を拡張する.# 行目で,骨格系列  が正準 形であるかをチェックする.これは 4 の擬似コー ドの「   * "+,」に相当する手続きである #!.列 挙された骨格系列を用いて," 行目で射影データを生 成し,系列パターンマイニング手法を用いて,骨格系 列の和グラフと同型な和グラフをもつ全パターンを列 挙する.図 # は,幅優先探索でパターンを列挙する手 法であるが,同様に深さ優先探索で列挙する手法も設 計可能である..   

(298) 

(299)    である

(300) 

(301)   , 

(302) £

(303)   £    £  

(304)     に対し,  ¼ であるような

(305) 

(306) ¼  

(307) £ £¼ ¼      ¼ が存在するとき,

(308) ¼ である..  ¼ は上記を満たす上で,その系列長が極大である.. . 例 ある骨格系列  と系列データ  の変更操作系列 表記が,それぞれ以下の式であるとする.. .  

(309) . .

(310) .  .  .  .  . .

(311) . .  .  . .

(312)   .

(313)    .        

(314)  

(315)   

(316)   

(317)      

(318)   

(319)  

(320)           

(321)  

(322)  

(323)    

(324)          

(325)   

(326)   

(327)     .  . 

(328)        ¼  ¼ ¼. . .   

(329)         

(330)   

(331)  

(332)  

(333)         

(334)   

(335)   

(336)     .       

(337) .                              ¼            ¼        . . このとき  !++   , , は,以下で表される..  

(338)      ¼.  .  

(339)        .  

(340)    . 

(341) .             ¼        F  ¼   ¼  .  

(342)  . 図.  . . #'. 幅優先探索による手法の擬似コード. 評価実験,考察 前節までに述べた手法を. 9::で実装し,9;.. が. 9 - "55 /<,メモリが " /= の ;9 を用いて評. 操作オペレータの適用順序  が同じ操作オペレータ を括弧で括り, を除いて系列 +$, を記すと. 価実験を行った.系列パターンマイニングには ;42! を用いた.表 は本実験で用いた人工データのパラメー タの意味とその基本設定値を要約したものである.は じめに平均    個の頂点をもつラベル付きグラフを.

(343)    

(344)   

(345)    

(346)   

(347)  

(348)   

(349)    

(350)   

(351)   . 33.

(352) 90. '. 80. 実験データ作成用の基本設定値. パラメータ 基本パターン  選択確率 データ  選択確率 基本パターンの平均ユニーク  数 データの平均ユニーク  数 頂点ラベル数 辺ラベル数 基本パターン数  のデータ数 辺の存在確率 支持度の閾値. 70. デフォルト値  

(353) ! ¼  !   

(354) ¼   !  

(355) !   "         !  ¼  !. 計算時間[秒]. 表. 60 50 40 30 20 10 0. 10. 図. 15. ""'. 20 25 データの平均オペレータ数. 30. 35. ¼ の変化に対する計算時間の変化. 45 40. # 個生成する.頂点ラベルは 個のラベルから等確率 で,) 頂点間の辺存在確率は  で決められる.これが 基本パターンの和グラフとなる.各基本パターンにつ いて, からはじめて,操作系列の和グラフが先に生 成した和グラフと同型になるまで,変更操作オペレー タを " つずつ加えていき,基本パターンの操作系列を 生成する.オペレータは,頂点,辺の追加,削除のみ とし,操作する頂点,辺をランダムに選択し,確率  ¼ で追加か,削除を決定する. の代わりに ¼ ,  の ¼ 代わりに   を用い,同様にして,  個のグラフ 系列を生成し,各 +   ,   に対して基本パター ンの " つを上書きする. 結果の一部を図 "8,"",") に示す.図 "8 は,  の変化に対する計算時間の変化である.データ数が増加 すると計算時間はそれに比例することが分かる.図 "" は,¼ を変化させたときの計算時間の変化である.た だし,横軸は,系列中の平均オペレータ数を表してい る.¼ を減少させると,平均オペレータ数は増加し,計 算時間は指数関数的に増加する.図 ") は, ¼ の変化に 対する計算時間の変化である. ¼ を減少させると,計 算時間は増加する.. . 計算時間[秒]. 35. 15. 0. 図. 0. ")'. 2. 4. 6. 8 10 支持度の閾値[%]. 12. 14. 16.  ¼ の変化に対する計算時間の変化. タ特性の違いによる計算時間の変化を示した.. 参考文献 " # $ %&' $ () * %&+,  -& % $  .& /   . 

(356)      0    "# % )+   % %1/ %&+,  -& *2 (/ , 3+ .           

(357)  

(358)     0  . " # % )+ 4 5+ 6 7+, 8 9 -1   % * %&+,  -& *2 :1  (/&+     $4  */ . 80 70. " # - ;,+ 8 3 ;< *2 (/&+ =<   !    

(359)  . 0    "

(360) # 元田浩.明示的理解に魅せられて人工知能学会学会誌 

(361) 0 

(362)   " # ( 7> 8 ? ;) % )  *2 (1  -&  -)  @   !   

(363)     

(364)   1

(365)    "# ? A   ABC(D -& (2 A /< ABC1A> 3'+   !    

(366) 

(367)   

(368) 1   . 60 計算時間[秒]. 20. 5. 本稿は,ラベル付きグラフ系列に含まれる,可読な 頻出変化グラフ系列パターン列挙法を提案した.グラ フ変更操作オペレーションを定義し,その適用順序を入 れ替えることで,効率良く列挙することを可能にした. 人工データを用いて提案方法の評価実験を行い,デー. 50 40. "# 4 5+ 8 9 -  (  + %  3+1 /  -& "# $  E

(369)  7  

(370) 0   . 30 20 10. 図. 25. 10. まとめ. 0. 30. 0. "8'. 10000. 20000 30000 データベース中のデータ数. 40000. "# F 6 8 ? 9 &(D 3+1G (/ A -&   !    

(371)    0  . 50000.   の変化に対する計算時間の変化. . 34.

(372)

表  ' 実験データ作成用の基本設定値 パラメータ デフォルト値 基本パターン  選択確率   ! データ  選択確率  ¼  ! 基本パターンの平均ユニーク 数      データの平均ユニーク 数  ¼    頂点ラベル数 !     辺ラベル数 !  基本パターン数 &#34;    のデータ数    辺の存在確率   ! 支持度の閾値  ¼  ! # 個生成する.頂点ラベルは   個のラベルから等確率 で, ) 頂点間の辺存在確率は   で決められる.これが 基本パターンの和グラフとなる.各基本パター

参照

関連したドキュメント

の変化は空間的に滑らかである」という仮定に基づいて おり,任意の画素と隣接する画素のフローの差分が小さ くなるまで推定を何回も繰り返す必要がある

はある程度個人差はあっても、その対象l笑いの発生源にはそれ

大気に関わるものでは樹木や雪氷・氷床堆積物 の代替記録からそれなりに分解能の高い資料

問についてだが︑この間いに直接に答える前に確認しなけれ

今日のお話の本題, 「マウスの遺伝子を操作する」です。まず,外から遺伝子を入れると

さらに、NSCs に対して ERGO を短時間曝露すると、12 時間で NT5 mRNA の発現が有意に 増加し、 24 時間で Math1 の発現が増加した。曝露後 24

子どもの学習従事時間を Fig.1 に示した。BL 期には学習への注意喚起が 2 回あり,強 化子があっても学習従事時間が 30

はありますが、これまでの 40 人から 35