グラフ系列からの頻出変化パターンの高速列挙法
8
0
0
全文
(2)
(3)
(4)
(5)
(6)
(7) 猪口 明博. 鷲尾 隆.
(8) 大阪大学 産業科学研究所.
(9)
(10)
(11)
(12)
(13)
(14)
(15)
(16)
(17)
(18)
(19)
(20) . Æ
(21) .
(22)
(23) .
(24) . Æ
(25)
(26)
(27) . . はじめに. やハイパーリンクの増減によって,その構造を変化さ せる.また遺伝子ネットワークにおいても,遺伝子の 新規獲得,欠落,突然変異を含む進化の過程において ネットワークを表すグラフ構造が変化する.ディスカッ ションスレッドに於いては,新たな発言が新たな頂点 の発生であり,以前のコメントに対する参照が辺の発 生となる木あるいは有向非巡回グラフの成長だとみな せる.このようなネットワーク構造の変化は,今後重 要な研究テーマになると考えられる.ただし,グラフ のトポロジーと共に,その上を流れる情報や頂点間距 離など,いわゆるグラフ属性も,グラフ構造変化の原 因となりうる重要な要素ではある.しかし,グラフ属 性付与の前提であるグラフ構造がその変化のより根本 的な原因あることが多いと考えられることから,本稿 ではグラフの構造のみに着目して議論する. 本稿では,グラフマイニング手法を基にして,時間 とともに構造変化するグラフ系列からなるデータに埋 もれた頻出構造変化パターンを効率良く列挙する手法 を提案する.. 膨大なデータから有用な,あるいは興味のあるパター ンを知識として発掘しようとするデータマイニングの 研究が盛んに行われている.有用性は人それぞれ異な るので定義するのは難しいが,一般に多くの事例を説 明できる知識は有用と考えられる !."##$ 年に複数の アイテム集合のデータから頻出アイテム集合を列挙す る % アルゴリズム "! が提案されて以来,様々な データ構造に対して頻出パターン列挙アルゴリズムが 提案されている.近年では,頂点間連結関係と頂点や 辺ラベルの情報からなるグラフ構造に頻出する部分構 造パターンを高速列挙する手法が提案されている &!. これまでグラフマイニングが対象としてきたグラフ は,主に時間とともに変化しないグラフを対象として きた.しかし,例えば,グラフで表すことが可能な人間 関係ネットワークに於いて,将来ハブとなる人は,ネッ トワーク参加時からハブの役割を果たしているわけで なく,時間とともにネットワーク構造を変化させなが らハブとなりうる位置に変化していく.本稿が対象と するグラフ変化は,頂点や辺が増減することで起こる 構造変化である.人間関係ネットワークにおいては," つのコミュニティをグラフと考えると,人の参加,脱退 が頂点の増減であり,それらの関係の変化が辺の増減 である.ホームページによって構成されるネットワー ク構造も同様に,発展の過程において,ホームページ. . 問題定義. ¾º½ 課題 図 " にグラフ変化系列の例を示す. は系列の中で 番目のグラフであり,各 は頂点と辺がラベルをも つラベル付きグラフである.本稿では,このようなグ ラフ変化系列から,頻出変化パターンを列挙するアル ゴリズムを提案することを目的とする." 節で述べた. £ 連絡先:大阪大学 産業科学研究所 大阪府茨木市美穂ヶ丘
(28)
(29) . 27.
(30) C A. g (1). g ( 2). g ( 3). 図. "'. g ( 4). g (5). g (6). B. A. g s(1). 図. 28. A. g s( 2 ). グラフ変化系列の例. 人間関係ネットワーク,ホームページのネットワーク, 遺伝子ネットワークなどの対象では,我々がそれらの 時間変化を観測する時間分解能が高い.従って,隣接 するグラフ と でその構造が大きく変化する ことはなく,ごく一部の構造が変化すると考える.ま た,データから人にとって有用な知識を発見するデー タマイニングの立場からは,計算機の出力が人にとっ て理解可能であることが重要である.理解可能な出力 として何を重視するかは適用問題にも依存するが,一 般に頂点間の関連性を見出せるグラフは人にとって理 解し易いと考える. 本稿が対象とする問題を解決するための " 点目の課 題は,グラフ変化系列を如何に簡潔に表現し,同時に 可能な表現の多様性を小さくすることで探索すべき空 間を小さくするかである.図 " の と は,( 頂 点からなる部分構造が共通であるので,各 において 全ての頂点,辺の情報の保持は簡潔な表現であるとは いえない.そこで本稿では, と の差分に注目 した記述によってグラフ変化系列を表すことを考える. ) 点目の課題は,どのような特徴をもつパターンを探 索するかである.ここでパターン は からなるグラフの系列であり,各 は入力グラフ系 列を構成する の部分グラフとする.例えば,探索 するグラフ系列の各グラフ を制約のないグラフと した場合,探索すべきパターン数が膨大になり,さら に出力されたパターンを理解可能であるとは限らない. 例えば, に非連結グラフを認めると図 ) のようなパ ターンが出力される可能性がある.図 ) をホームペー ジのネットワーク構造だとした場合,頂点の と は 鷲尾研究室のページ, はブラジルのある組織のホー ムページなど,至る所に存在しうる部分系列であるの で,頻出パターンとして取り出される可能性が大きい が, と には何の関連もないために,このようなパ ターンの意味を理解することは一般には困難であり,人 間の興味から外れる場合が多い.一方,各 に於ける グラフが連結であると制約を課すと,図 ( のような系 列はパターンをして探索の対象とならない.水色の頂 点と黄色の頂点は各 に於けるグラフ内で繋がってい ないが,それらは緑色の頂点を介して何らかの関係が あると理解でき,このようなパターンは探索の対象と したい.汎用性の観点からは,探索対象とするパター ンはより制約が少ないパターンであるほうがよいと考 えられる.このように,本稿が対象とする問題で探索 すべきパターンも自明ではないために,パターンの定 義についても議論を行う. ラベル付きグラフ は * + , で定義され. C B. )'. 1. A. A. g s(1). ('. g s( 4 ). 理解困難なパターン 2. 2. B 1. A. g s(3). 2. 図. C B. B. B 3. 3. C. C. g s( 2 ). g. ( 3) s. グラフ系列パターン. る.ここで *
(31)
(32)
(33) は頂点集合, * +
(34)
(35) ,+
(36)
(37) , は辺集合, はラベル集 合であり, ' + , である.本稿では無向グ ラフについて議論するが,提案手法は有向グラフにも 適用可能である.グラフ と * + , が を満たすような関数 が存在するとき, を の部分 グラフと呼び, と表す.頂点
(38) から
(39) に至る辺 の集合をパスという.グラフの任意の ) 頂点間にパスが あるとき,そのグラフを連結グラフという.グラフ系列 を * と表す.グラフの各頂点
(40) はユニーク - +
(41) , を持ち,ユニーク - は時間が経 過しても変わらないものとする.本稿の目的は入力とし てグラフの系列 の集合が与えられたときに,頻出系 列 * を探索・発見する手法を提案 することである.ここで,"
(42)
(43) に 対して, ½ ¾ であり,この時, と書く.. ホームページのネットワークは,各ページが頂点, 例 ハイパーリンクを辺とするグラフ構造である.グラフ の構造は,編集されるたびに構造が変化する.例えば, はあるサイトにおける第 期目のグラフ構造であ り, がユニーク に相当する.また,各ページは ラベルを持たない頂点として扱ってもよいが, 『大学の ページ』, 『金融系企業ページ』, 『製造業企業ページ』な どのようなラベルをもつ頂点として扱ってもよい.ラ ベルは分析の意図に応じて設定されるものであり,本 稿では具体的に特定はしない.. ¾º¾ 和グラフ どのようなパターンを探索するかについて議論する ために和グラフ(. / )を定義する.グラフ 集合 に対し * ¡¡¡ を. Ë. Ë. ¡¡¡ Ë ¡¡¡ . Ë. と定義する.ここで + ,, + , はそれぞれ,グラフ の頂点集合,辺集合である. ¡¡¡ の頂点数は の頂点のユニーク - の異なり数になる. 以上より本稿が対象とするパターンを以下のように定 義する.パターンを * とすると .
(44) Ë. . ス中のグラフに誘導部分グラフとして含まれるという 制約を課すと %/3)! が対象とした問題と同一である.. き, ¡¡¡ が連結であるグラフ系列 を探索す る.また,この条件を満たすグラフ系列 に含まれる 頂点は,0互いに関連している1 という.パターンに現 れる各グラフ は非連結かもしれないが,パターン に現れる任意の ) 頂点は,対象とする期間で互いに関 連しているので,出力されるパターン全てが可読(理 解可能)であり,先に述べた目的に反しない. 本稿ではパターン列挙法に主眼をおき,その効率の良 い列挙法について提案する.入力データベース はグ ラフ系列 とデータ識別子 の集合として, * とする.このよう + , * なデータベースに対し,支持度を +, * + , ¼ と定義する.指定された閾値 以上の支持度をもつパターンを頻出パターンと呼ぶ.. ¾º¿ グラフ変更操作オペレータ.
(45) . パターン列挙問題 グラフ系列 ¼ 集合 * + , * と が入 力として与えられた時,¡¡¡ が連結な頻出パ ターン * を全て列挙することである. . グラフの変化を表現するために,グラフの編集距離 を決める手法の " つを用いて と の差分のみ を保持する.具体的には,) グラフの類似度は頂点,辺 の追加,削除,ラベルの変更を ) グラフが同一なるま で繰り返し適用した最短数により決められる.表 " の 5 種の操作を変更操作オペレータと呼ぶ. とその後の差分を保持するのも1つの手ではあ るが, を頂点数がゼロのグラフだと考え, と の差分を含め,データを保持することで,データ を統一的にあつかう.以後, を と表す.各グラ フが比較的大きな場合でも,その変更箇所が少なけれ ば,簡潔にデータを保持できる 2. 2. B A (0) [ vi ,1, A ]. OP. 2. B A. g. (1) [ vi , 3,C ]. (1) s. OP. g. A. B. 3. 1. C ( 2) s. 2. B. 3. 1. 1. C. ( 2) [ ed ,(1, 2 ), − ]. 2. B. 3. C. OP. 3. C. ( 2) [ vd ,1, A ]. ( 2) [ ei , ( 2 , 3), − ]. OP. OP. g. ( 3) s. OP[ vi( 0,)2, B ]. . パターンであるグラフの系列を構成する各グラフ は必ずしも連結であるとは限らない.パターン列挙ア ルゴリズムとして最も単純な方法は,非連結グラフも 出力する頻出部分グラフ列挙アルゴリズムを動かし,各 頻出部分グラフをアイテムとして既存の系列パターン マイニングを動作させ,和グラフが連結でないパター ンを後処理で除く手法である.しかし,この方法では 後処理の直前の段階で,和グラフが連結でないパター ンが大量に得られるので非効率である. また,従来の系列パターンマイニング 2! のように時 間順にアイテム を " つずつ追加して拡張する方法を 考える.取り出したいパターンが + , だとする と, , , + ,, + ,, + , と順に パターンを拡張していく.新たに追加されるアイテム は時間順にみて,最後に発生したアイテムが追加され る.しかし,分析の対象がグラフの場合,頻出パター ンの " つが図 ( であると事前に分かっていれば,図の に黄色の頂点を追加して を生成できる.一方, * が頻出で, を部分系列として含むパ ターンが全て非頻出の場合,黄色の頂点を加えたこと で生成される は和グラフが非連結でないので,この 頂点を付け加えたことが無駄な処理となる.事前にど のようなパターンが頻出であるか分からない状態で探 索するので,上記の目的を達成するには効率の良い探 索手法が必要となる. 既存の頻出部分グラフマイニング問題との関連を述 べると,パターン列挙問題 " における系列長が全て " であれば,%/3(!,4#! などが対象とした問題 と同一となる.また,系列長が " でかつ,和グラフが 連結であるという制約を除き,パターンがデータベー. 29. OP[ ei( 0,)(1, 2), − ]. 図. . $'. グラフ変更操作オペレータによる系列表現. 例 図 のような系列を考える.図 は図 のよう に,頂点,辺の追加,削除の系列によって表すことが できる.各頂点の右肩の数字は頂点のユニーク を 表している.このとき,グラフの変化を以下のように 表すことができる.. . . . . . .
(46)
(47)
(48)
(49) .
(50)
(51)
(52) . データベース中のデータ を *. で表すことをグラフ系列表記と呼び,. . . * . . . . . £ . . £ ½ ½ . . £ ¼ ¼ . £ ¼ ¼ で表すことを変更操作表記, £ を変更操作系列表記と呼ぶ. 変更操作系列表記 に,ある操作オペレータ £ が 含まれるとき, £ と書き,グラフ系列表記 . に対する変更操作系列表記を +, と書く.変更操作 系列表記 £ ¼ ¼ £ ½ ½ から幾つかのオ ペレータを除いて生成される系列 ¼ を の部分系列であ ると呼び,¼ で表す.¼ が の部分系列であり,そ ¼ の対応関係を で表す. £ と £ ¼ ¼ ¼ . が対応するとき, £ . *. ¼. + £ ¼ ¼ , である.. 変更操作オペレータは 仮定 編集距離から生成される.. . と . . の最短の . ½ ¾ と
(53) 従って," つの変更操作表記中の ½ . ¾ . に対して,頂点を追加し,即座に削除というような * かつ * という値の組み合わせはないものとする. £ が 変更操作系列表記 * £ ½ ½ 与えられたとき, に対する和グラフ * + , を.
(54)
(55) .
(56) . 頂点の追加.
(57) . 頂点の削除.
(58)
(59) . 頂点ラベルの変更 辺の追加 辺の削除 辺ラベルの変更. . .
(60) .
(61)
(62)
(63)
(64)
(65)
(66)
(67)
(68)
(69)
(70)
(71)
(72) . 表. "'. グラフ変更操作オペレータ. 頂点ラベル をもつ頂点を
(73) に追加.追加された頂点のユニーク は とする. 追加された頂点は辺を持たない頂点となる. ユニーク が である頂点を
(74) から削除.孤立した頂点のみを対象とする..
(75) . 孤立していない頂点を削除する場合は,
(76) . を事前に数回適用する.. . ユニーク が である頂点のラベルを に変更する.. ユニーク が と である頂点間にラベル を持つ辺を
(77) に追加する.. ユニーク が と である頂点間の辺を
(78) から削除. は削除される辺のラベル. ユニーク が と である頂点間の辺のラベルを に変更する.. ¼¼.
(79)
(80) . の頂点を追加してグラフ が生成されるとき,そ の追加の順序を以下のように入れ替えても同型のグラ ¼¼ フ が生成される..
(81)
(82) . . . と定義する.また, * + , * に対し,変更操作系列表記のパターン の支持度を +, * + , + , と する..
(83) ¼ . ¼¼ .
(84)
(85)
(86) ½ ¼¼
(87)
(88) ¼ .
(89)
(90) ½
(91) ¾
(92) .
(93).
(94) . ¾. 頂点の追加 頂点の削除 ユニーク - が である頂点を追加し,続いて である 頂点を削除する場合を考える. * の場合,この操作 ¼¼ が生成されるとき,その追加の順序を以下のよ で ¼¼ うに入れ替えても同型のグラフ が生成される.一 方, * の場合は,追加した頂点を削除する操作であ るので,順序を入れ替えることはできない. * +すなわち,追加した頂点を削除しない場合,. . パターン列挙問題 グラフ 系列の集合 * + , * と ¼ が入力として与えられた時,和グラフが連結であるグ ラフ変更操作系列表記の頻出パターン £ ½ ½ . £ を全て列挙することである.. . 定理 グラフデータの系列の集合 * + , ¼ * と が与えられた時,パ ターン列挙問題 ,および で出力される全パターン の集合をそれぞれ , とすると, である..
(95) ¼ . ¼¼ .
(96). 定理 支持度はパターンの系列長に対し,逆単調性の 性質を持つ..
(97) .
(98) ¼
(99)
(100)
(101) ½
(102) ¾
(103) .
(104) ¾
(105) .
(106) ¼¼ . ½. 不可 頂点の削除 頂点の追加 ユニーク - が である頂点を削除し,次に である頂 点を追加する.削除される頂点はユニーク - が でな い頂点から選ばれるので,順序を入れ替え可能である.. 前述のように,本稿では可読なパターンでかつ,制 約が少ない +汎用的な, パターンをマイニングすること を目的としている.変更操作系列表記の和グラフの定 義より,変更操作系列表記の和グラフが連結であれば, 変更操作系列表記中の ) 頂点
(107) と
(108) は関連している といえる.従って,パターン列挙問題 ) で出力される パターンは可読性がある.紙面の都合上証明は省略す るが,定理 ) より,パターン列挙問題 " で出力される パターンは,パターン列挙問題 ) で出力されるパター ンに制約を課す(増やす)ことで出力可能である.よっ て,以降ではパターン列挙問題 ) について議論する. 操作オペレータを定義した際,その適用順序の詳細 までは議論しなかった.以下では,操作オペレータの 可換性について述べる.ラベルの変更を含む性質は紙 面の都合上省略するが同様に定義可能である.以下の 説明で,
(109) ¼
(110) ¼¼ を前提とする. 頂点の追加 頂点の追加 ユニーク - が と の頂点を追加する場合を考える. グラフ にユニーク - が の頂点を追加し,続いて. 30. ¼. ¼¼ .
(111)
(112)
(113)
(114)
(115) ½ ¾.
(116). ¼¼ .
(117). ¼.
(118)
(119)
(120)
(121) ¾
(122) ½ . 頂点の追加 辺の追加・削除 辺の追加は ,辺の削除は
(123) . で表. . . . されるが,ここでは辺の追加,及び削除を と表す. * かつ, * +すなわち,追加した頂点の辺を 追加または削除しない場合,.
(124). ¼¼ . ¼.
(125)
(126) ¾
(127)
(128) ½
(129) . ¼¼ .
(130). ¼.
(131)
(132) ½
(133)
(134) ¾
(135) . 不可 辺の追加・削除 頂点の追加. ¼¼ .
(136).
(137) ¼ .
(138)
(139)
(140) ½ ¼ ¼¼
(141)
(142) .
(143)
(144) ½
(145) ¾
(146)
(147) . ¾.
(148) 1. 3. 1. 3. 2. 2. 4. g s(1). g s( 2 ). 図. '. 3. 2. 表. 3. 2. 4. g s(3). )'. 4. g s( 4 ). 出力パターンの一例. 頂点の削除 頂点の削除. ¼¼ .
(149). ¼.
(150)
(151)
(152) ½
(153)
(154) ¾.
(155). ¼¼ .
(156) . .
(157) ¼ .
(158) ½
(159) ¾
(160) . 頂点の削除 辺の追加・削除. ¼¼
(161) ¼
(162) .
(163)
(164) ¾
(165) ½
(166) ¼¼
(167)
(168) ¼ .
(169)
(170) ½
(171) ¾
(172) . 辺の追加,削除 頂点の削除 * かつ * +追加した頂点の辺を追加,及び削 除しない場合,. 表. ('. ¼¼
(173) ¼
(174) .
(175)
(176) ¾
(177) ½
(178) . ¼¼
(179)
(180) ¼ .
(181)
(182) ½
(183) ¾
(184) . 辺の追加・削除 . .
(185) .
(186) .
(187) .
(188) . .
(189)
(190) . .
(191)
(192) .
(193) . .
(194) .
(195) .
(196) .
(197) .
(198) . ¼¼
(199) ¼
(200) .
(201)
(202) ¾
(203) ½
(204) ¼¼
(205)
(206) ¼ .
(207)
(208) ½
(209) ¾
(210) .
(211). . . パターン列挙アルゴリズム. 前節で示したようにグラフの変化は操作オペレータ によって表すことができる.またそれら操作の可換性 について示した.パターン列挙アルゴリズムに関して, その詳細を示す前に具体例でイメージを示す.図 を 出力されるパターンの " つとすると,. . s . . . . . . . .
(212)
(213)
(214)
(215) .
(216)
(217)
(218)
(219)
(220) .
(221)
(222)
(223) . . , は
(224) 法ではなく,. #. . である.また異なるオペレータ順序によって / 5! のように,パス,根無し木,グラフの順にパターンを成 長させることも可能である.以上のように提案手法は オペレータの入れ替えにより様々な既存の頻出グラフ マイニング法を統合可能な非常に汎用的な手法である. 変更操作系列表記 の骨格 + 6, 系列 ¼ を . で表される.各オペレータの適用毎に分けて表したの が表 ) である.可換な範囲でこれらのオペレータの順 序を入れ替えることを考える.入れ替えの " 例が表 ( であり,それを図示したのが図 5 である.これは " つの 頂点の追加とそれに付随する幾つかの辺を " つのまと まりとしてグラフを徐々に拡張させる方法である.各 オペレータの適用順に再度並び替えることで,元のグ ラフ変化系列パターン +", が得られる. 一方,表 $,及び図 2 は " つの辺の追加,あるいは " つ の辺の追加と頂点の追加を " つのまとまりとしてグラフ を拡張させる方法である.適用順序 などを無視した構 造のみの成長のみに着目すると,前者は %/3(! のパ ターン成長 であり,後者は 4#! のパターン成長法. の変更操作表記. 表 ) の変更操作オペレータの入れ替え +", . 不可 辺の追加・削除. 図. .
(225) .
(226) .
(227) .
(228) . s
(229) . .
(230) .
(231) .
(232) .
(233) .
(234) .
(235) .
(236) . . . ½ ¾ £ £ ½ ½ ¾ ¾ . . に対し, かつ . ½ * であるとき, は £ によって構 ½ ½ 成される ¼. の部分系列であると定義する.表 ( の から
(237) ま でで形成される操作オペレータ,及び表 $ の から
(238) までで形成される操作オペレータが,それぞれの系列 の骨格である. 1. 4. g1 = OP[ vi(1,)4,red ] ⊥. 2. 4. g 2 = OP[ vi( 0,)2,blue ] g1 g 3 = OP[ ei( 2,)( 2, 4), − ] g 2. !! ". 図. 法であるが,ここではどちらもパターン成長という言葉を使う.. 31. 5'. 2. 1 4. 2. g 4 = OP[ vi( 0,)1,red ] g 3 g 6 = OP[ vi( 0,)3,blue ] g 5 ( 0) g 5 = OP[ ei( 0,)(1, 2 ), − ] g 4 g 7 = OP[ ei ,( 2,3), − ] g 6 g 8 = OP[ ei(1,)( 3, 4 ), − ] g 7. 表 ( のグラフ表記. 3. 4 (1) g 9 = OP[ ed ,( 2 , 3), − ] g 8 ( 2) g10 = OP[ ed ,(1, 2 ), − ] g 9 ( 2) g11 = OP[ vd ,1, red ] g10 g s( 4 ) = OP[ ei(3,)( 2,3), − ] g11.
(239) 3. 3. 3. 1. g1 = OP[ vi( 0,)3,blue ] ⊥. g 6 = OP[ vi(1,)4,red ] g 5. g 3 = OP[ ei( 0,)( 2,3), − ] g 2. g 5 = OP[ ei( 0,)(1, 2 ), − ] g 4. g 7 = OP[ ei( 2,)( 2, 4 ), − ] g 6. 2'. 4. 4. 1. 1. g 4 = OP[ vi( 0,)1,red ] g 3. ⊥. 2. 2. g 2 = OP[ vi( 0,)2,blue ] g1. 図. 3. 3. 2. 2. 表 $ のグラフ表記. ( 2) g11 = OP[ vd ,1, red ] g10. g1 = OP[ vi( 0,)1, A] ⊥ g1 = OP[ vi( 0,)1, A] ⊥ g1 = OP[ vi( 0,)1, A] ⊥. g s( 4 ) = OP[ ei( 3,)( 2,3), − ] g11 g = OP ( 0) g g = OP ( 0 ) g g = OP (1) g 2 [ vi , 2 , A ] 1 2 [ vi , 2 , A ] 1 2 [ vi , 2 , A ] 1 OP[ ei( 0,)(1, 2 ), − ] g 2. OP[ ei(1,)(1, 2 ), − ] g 2. . 定理 変更操作系列表記であるパターン の和グラフ と の骨格系列から得られる和グラフは同型である. 以上より,変更操作系列表記で表される頻出パター ン を得るための " つの手段として, の骨格系列 ¼ を生成し,¼ の和グラフを変えない範囲で ¼ に変更操 作オペレータを加えて拡張していく方法が考えられる. 実際,表 ( の 以降,及び表 $ の 以降の操作オペ レータは,骨格の和グラフを変えない範囲でパターン を拡張していることが分かる.従って, はじめに取り出すべき全パターンの骨格系列を全 列挙すること,. (0) OP[ ed ,1, B ] ⊥. g1 = OP[ vi(1,)1, A] ⊥. ... g. 2. = OP[ vi( 0,)2 , A] g1. OP[ ei( 2,)(1, 2 ), − ] g 2. 探索木の例. 間を示しているが,紙面の都合上省略する.頂点ラベ ルの種類は と の ) 種,辺ラベルの種類は の " 種とし,ラベル変更はないものとする.はじめに " 頂 点のパターンから探索する.このとき,探索木のルー トノードの子ノードとして," 頂点で存在可能な全骨格 パターン ,
(240) , ,
(241) に相当するノードが生成される.パターン内の頂点の ユニーク - は " からはじまる整数値とする.続いて, を拡張して,その子ノードを生成する.パ ターン拡張は,変更操作オペレータの適用順序 が増 えるように拡張するのではなく,骨格パターンの和グ ラフが連結であるように拡張する.拡張法が %/3 で あれば," つの頂点とそれに付随する辺を追加する.拡 張法が,74/,4,/ のいずれかであれば," つの辺とそれに付随する頂点で拡張する.骨格に既に 含まれる をもつ変更操作オペレータでは拡張しない. 注意すべきパターンとしては,.
(242)
(243)
(244)
(245) . 表 ) の変更操作オペレータの入れ替え +),. . . . である.パターン +), は, * 8 でラベルが ,ユニー ク - が " である頂点を追加し,同時に頂点対 +" ), に 辺を追加する.続いて, * " でラベルが ,ユニーク - が ) である頂点を追加するというパターンである. この情報だけをみると,ユニーク - が ) である頂点を 追加する前に,辺 +" ), を追加しているため,辺の追 加が不可能のように思える.しかし. .
(246) .
(247) .
(248) .
(249) .
(250)
(251) . .
(252)
(253)
(254)
(255) .
(256) .
(257)
(258) .
(259) . 骨格系列の拡張.
(260) .
(261) . ¿º½. &'. . 骨格系列の和グラフを変えない範囲で,骨格系列 に含まれない操作オペレータを付け加えてパター ンを順次拡張していくこと. $'. = OP[ vi( 0,)2 , A] g1.
(262)
(263) . の ) 点からなるアルゴリズムが考えられる.上記のス テップ " で骨格系列 の拡張操作を +, と書く. 表. 2. OP[ ei(1,)(1, 2 ), − ] g 2. 図.
(264)
(265) ¼ ¼
(266) £
(267) £¼ ¼
(268)
(269) ¼
(270) £
(271) £¼ ¼ ¼ ¼
(272) £
(273) ¼ ¼ ¼ . g1 = OP[ vi( 0,)1, A] ⊥. ... g. OP[ ei( 0,)(1, 2 ), − ] g 2. . ). OP[ ei( 0,)1, B ] ⊥. ( 2) g10 = OP[ ed ,(1, 2 ), − ] g 9. 変更操作系列表記パターン とその骨格系列を 定理 ¼ とし,その対応関係を とする.以下が満たされる.. ". (0) OP[ vd ,1, A ] ⊥. OP[ vi( 0,)1, A] ⊥. (1) g 8 = OP[ ei(1,)( 3, 4 ), − ] g 7 g 9 = OP[ ed ,( 2 , 3 ), − ] g 8.
(274)
(275)
(276)
(277)
(278) . . という部分系列が頻出であれば,支持度の逆単調性よ り,その部分系列であるパターン +), も頻出であるの で,パターン +), も列挙する必要がある. また,パターン +(, は を拡張することで生 成されたパターンであるが,ユニーク - が " である頂 点の追加順序が変更されている.パターンの操作オペ レータ £ の は,) つの操作オペレターの適用 順序の情報を示すものであるので,このようにパター ン中の操作オペレータの適用順序はパターンを拡張す るに従って変更されうることに注意されたい. 探索木の中で,同型のパターンが唯一現れるとは限 らない.例えば,) つの系列. . .
(279)
(280)
(281)
(282)
(283)
(284) . 図 & は和グラフの頂点数が ) までの骨格系列を探索 した探索木の一部を表している.図の三角形も探索空. 32. .
(285) は同型である.同型のパターンであるが表記が異なる パターンが何度も生成されると効率が悪くなる.この 場合は,骨格パターンの和グラフとその頂点のユニー ク - から生成されるグラフコードが正準形 + , であるときに,そのパターンを探索空間に残す. グラフコードは,骨格パターン拡張に %/3,4, 74/,/ などいずれの手法を使うかに依存する.. ¿º¾. となり,オペレータをアイテムとする系列パターンマイ ニングの系列表記と見なすことができる.入力データ集 合と骨格パターン より ¼+, * + ¼ ,+ , + ¼ , !++ , , を生成し,系列 パターンマイニングの入力とすることで,骨格系列 の和グラフを変えない範囲で,パターンを順次拡張す ることができる.. ¿º¿ 擬似コード. 射影データからのパターン拡張. 前節で述べた手法を用いて骨格系列 を生成し,続 いて本節で述べるように の和グラフを変えない範囲 で,骨格系列に含まれない操作オペレータを加えて拡 張していく.図 ( の
(286) まで,及び図 $ の
(287) までがパ ターンの骨格であり,本節では, 以降の手続きにつ いて説明する. ある骨格系列 とそれを含むデータ + ,,その 対応関係を とする.このとき,射影関数 ! を ¼ + , * !++ , , と定義する.ここで, ¼ は以下を満たす. ¼ は の部分系列である.. ¼
(288)
(289)
(290) £
(291) ¼ ¼ ¼ である ¼ は,
(292) £
(293) £
(294)
(295) に含まれる.
(296) £
(297) £ . 図 # に提案手法の擬似コードを示す.入力として,系 列データの集合 と支持度の閾値 ¼ を与える.2 行 目で骨格系列を拡張する.# 行目で,骨格系列 が正準 形であるかをチェックする.これは 4 の擬似コー ドの「 * "+,」に相当する手続きである #!.列 挙された骨格系列を用いて," 行目で射影データを生 成し,系列パターンマイニング手法を用いて,骨格系 列の和グラフと同型な和グラフをもつ全パターンを列 挙する.図 # は,幅優先探索でパターンを列挙する手 法であるが,同様に深さ優先探索で列挙する手法も設 計可能である..
(298)
(299) である
(300)
(301) ,
(302) £
(303) £ £
(304) に対し, ¼ であるような
(305)
(306) ¼
(307) £ £¼ ¼ ¼ が存在するとき,
(308) ¼ である.. ¼ は上記を満たす上で,その系列長が極大である.. . 例 ある骨格系列 と系列データ の変更操作系列 表記が,それぞれ以下の式であるとする.. .
(309) . .
(310) . . . . . .
(311) . . . . .
(312) .
(313) .
(314)
(315)
(316)
(317)
(318)
(319)
(320)
(321)
(322)
(323)
(324)
(325)
(326)
(327) . .
(328) ¼ ¼ ¼. . .
(329)
(330)
(331)
(332)
(333)
(334)
(335)
(336) .
(337) . ¼ ¼ . . このとき !++ , , は,以下で表される..
(338) ¼. .
(339) .
(340) .
(341) . ¼ F ¼ ¼ .
(342) . 図. . . #'. 幅優先探索による手法の擬似コード. 評価実験,考察 前節までに述べた手法を. 9::で実装し,9;.. が. 9 - "55 /<,メモリが " /= の ;9 を用いて評. 操作オペレータの適用順序 が同じ操作オペレータ を括弧で括り, を除いて系列 +$, を記すと. 価実験を行った.系列パターンマイニングには ;42! を用いた.表 は本実験で用いた人工データのパラメー タの意味とその基本設定値を要約したものである.は じめに平均 個の頂点をもつラベル付きグラフを.
(343)
(344)
(345)
(346)
(347)
(348)
(349)
(350)
(351) . 33.
(352) 90. '. 80. 実験データ作成用の基本設定値. パラメータ 基本パターン 選択確率 データ 選択確率 基本パターンの平均ユニーク 数 データの平均ユニーク 数 頂点ラベル数 辺ラベル数 基本パターン数 のデータ数 辺の存在確率 支持度の閾値. 70. デフォルト値
(353) ! ¼ !
(354) ¼ !
(355) ! " ! ¼ !. 計算時間[秒]. 表. 60 50 40 30 20 10 0. 10. 図. 15. ""'. 20 25 データの平均オペレータ数. 30. 35. ¼ の変化に対する計算時間の変化. 45 40. # 個生成する.頂点ラベルは 個のラベルから等確率 で,) 頂点間の辺存在確率は で決められる.これが 基本パターンの和グラフとなる.各基本パターンにつ いて, からはじめて,操作系列の和グラフが先に生 成した和グラフと同型になるまで,変更操作オペレー タを " つずつ加えていき,基本パターンの操作系列を 生成する.オペレータは,頂点,辺の追加,削除のみ とし,操作する頂点,辺をランダムに選択し,確率 ¼ で追加か,削除を決定する. の代わりに ¼ , の ¼ 代わりに を用い,同様にして, 個のグラフ 系列を生成し,各 + , に対して基本パター ンの " つを上書きする. 結果の一部を図 "8,"",") に示す.図 "8 は, の変化に対する計算時間の変化である.データ数が増加 すると計算時間はそれに比例することが分かる.図 "" は,¼ を変化させたときの計算時間の変化である.た だし,横軸は,系列中の平均オペレータ数を表してい る.¼ を減少させると,平均オペレータ数は増加し,計 算時間は指数関数的に増加する.図 ") は, ¼ の変化に 対する計算時間の変化である. ¼ を減少させると,計 算時間は増加する.. . 計算時間[秒]. 35. 15. 0. 図. 0. ")'. 2. 4. 6. 8 10 支持度の閾値[%]. 12. 14. 16. ¼ の変化に対する計算時間の変化. タ特性の違いによる計算時間の変化を示した.. 参考文献 " # $ %&' $ () * %&+, -& % $ .& / .
(356) 0 "# % )+ % %1/ %&+, -& *2 (/ , 3+ .
(357)
(358) 0 . " # % )+ 4 5+ 6 7+, 8 9 -1 % * %&+, -& *2 :1 (/&+ $4 */ . 80 70. " # - ;,+ 8 3 ;< *2 (/&+ =< !
(359) . 0 "
(360) # 元田浩.明示的理解に魅せられて人工知能学会学会誌
(361) 0
(362) " # ( 7> 8 ? ;) % ) *2 (1 -& -) @ !
(363)
(364) 1
(365) "# ? A ABC(D -& (2 A /< ABC1A> 3'+ !
(366)
(367)
(368) 1 . 60 計算時間[秒]. 20. 5. 本稿は,ラベル付きグラフ系列に含まれる,可読な 頻出変化グラフ系列パターン列挙法を提案した.グラ フ変更操作オペレーションを定義し,その適用順序を入 れ替えることで,効率良く列挙することを可能にした. 人工データを用いて提案方法の評価実験を行い,デー. 50 40. "# 4 5+ 8 9 - ( + % 3+1 / -& "# $ E
(369) 7
(370) 0 . 30 20 10. 図. 25. 10. まとめ. 0. 30. 0. "8'. 10000. 20000 30000 データベース中のデータ数. 40000. "# F 6 8 ? 9 &(D 3+1G (/ A -& !
(371) 0 . 50000. の変化に対する計算時間の変化. . 34.
(372)
図
関連したドキュメント
の変化は空間的に滑らかである」という仮定に基づいて おり,任意の画素と隣接する画素のフローの差分が小さ くなるまで推定を何回も繰り返す必要がある
はある程度個人差はあっても、その対象l笑いの発生源にはそれ
大気に関わるものでは樹木や雪氷・氷床堆積物 の代替記録からそれなりに分解能の高い資料
問についてだが︑この間いに直接に答える前に確認しなけれ
今日のお話の本題, 「マウスの遺伝子を操作する」です。まず,外から遺伝子を入れると
さらに、NSCs に対して ERGO を短時間曝露すると、12 時間で NT5 mRNA の発現が有意に 増加し、 24 時間で Math1 の発現が増加した。曝露後 24
子どもの学習従事時間を Fig.1 に示した。BL 期には学習への注意喚起が 2 回あり,強 化子があっても学習従事時間が 30
はありますが、これまでの 40 人から 35