• 検索結果がありません。

Microsoft PowerPoint - LDW.ppt [互換モード]

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft PowerPoint - LDW.ppt [互換モード]"

Copied!
20
0
0

読み込み中.... (全文を見る)

全文

(1)

グラフ系列マイニング

猪口 明博

大阪大学 産業科学研究所

科学技術振興機構 さきがけ

(2)

研究の背景

 データマイニング  インフラ技術の高度化  多様で大規模な情報やデータへの アクセス,蓄積が容易.  多様で大規模なデータから有用な知識を発掘することは重要な課題.  頻出アイテム集合マイニング [Agrawal 94]  頻出アイテム集合列挙問題  一般に多くの事例を説明する知識は有用である.  バスケット分析  例) スーパーマーケットのデータベースからよく売れる商品の組み合わせを高速に抽出する.  データベースはアイテム(商品)の集合からなる. 顧客1={食料品a,食料品b,日用品b,...} 顧客n={食料品a,飲料水a,日用品b,...} {食料品a,飲料水a}, {食料品a,飲料水a,日用品b}, σ人以上の人が購入した 商品の組み合わせを全て列挙 Selection Preprocessing Transformation Interpretation Evaluation Raw Data Target Data Preprocessed Data Transformed Data Rules & Patterns Knowledge Mining

(3)

頻出部分グラフマイニング

 応用例  抗ヒスタミン薬の共通パターン発見 問題: σ個以上のグラフに含まれる 全ての部分グラフを全て列挙 抗ヒスタミン薬の一般的な構造(母核) O O CH2N CH3 3HC OCH2CH2NEt2 CH3 NCH2CH2NEt2 Et2 CHOCH2CH2N CH3 CH3 Ar2 Ar1 R1 R2 X C C N 共通パターン

(4)

グラフ系列の例

 ホームページのリンク構造の変化  HTML文章:頂点,ハイパーリンク:辺  人間関係ネットワークの変化  人:頂点,人間関係:辺  遺伝子ネットワークの変化(進化)  遺伝子:頂点,相互作用:辺  機械の組み立て  部品:頂点,隣接する部品間:辺  その他... 1 2 6 5 1 2 2 3 3 3 4 4 4 5 5 7 8 9 7 7 8

参加

脱退

(5)

グラフ系列のマイニング

 グラフ系列  頂点数,辺数が増減する.  頂点ラベル,辺ラベルが変化する.  仮定  各頂点は,頂点IDをもつ.  グラフ系列中の連続する2つのグラフの間では,構造が大きく変化することは なく,ごく一部の構造のみが変化する.  系列中のグラフは,疎グラフである. 頻出する 部分系列を マイニング 1 2 3 4 5 6 1 2 5 6 1 2 3 4 5 6 1 3 4 5 1 3 4 5 1 3 4 5 1 4 3 2 1 4 2 5 1 5 2 1 頻出変換部分系列

(6)

関連研究

Dynamic Graph [Borgwardt 2006]

Evolving Graph [Berlingerio 2009]

1110 1001 0111 1100 頂点数が増減するグラフやラベルが変化するグラフを扱う ことができない. 3 2 1 2 ) 1 (

g

g

(2)

g

(3) ) 1 (

g

g

(2)

g

(3)

g

(4)

(7)

GTRACEの基本アイデア [Inokuchi 2008]

(

vi

,

vi

,

vi

,

e

i

),(

vi

,

e

i

),(

vi

,

e

i

,

e

i

,

e

d

,

vd

),(

e

i

,

e

d

,

vd

)〉

(

vi

),(

vi

,

vi

,

e

i

,

e

i

,

e

i

),(

vi

,

e

d

,

e

d

,

vd

),(

e

i

,

e

d

,

vd

),(

e

d

,

vd

)〉

コンパイル

1 1 2 3 2 3 4 3 4 3 2 1 2 1 3 5 1 3 5 4 1 5 4 3

(

vi

,

vi

,

e

i

),

vi

,(

e

i

,

e

d

,

vd

)〉

系列パターンマイニング

頻出部分系列

(FTS)

3 1 2 3 2 1 2

頻出パターン

系列1 系列2

(8)

グラフの変換

頂点や辺の追加,削除,ラベル変更をグラフの変化.

赤い頂点 の追加 青い頂点と 緑の頂点の 間の辺の削除

,

g

( j)

,

g

( j1)

,

g

( j2)

,

…,

vi

,

e

d

,…

) ( j

g

g

(j1)

g

(j2)

1

2

3

4

5

1

2

3

4

5

1

2

3

4

vi

e

d

グラフの変化をアイテム集合(変換規則の集合)の系列

に変換後,系列パターンマイニングアルゴリズムを適用

し,

FTSを列挙する.

(9)

6種の変換規則

頂点の追加

(vi)

辺の追加

(ei)

頂点の削除

(vd)

辺の削除

(ed)

(10)

グラフ系列の補間

観測されたグラフ系列

1 2 3 5 1 2 3 4 5 1 2 5 1 2 3 4 4

…,(

vi

,

vi

,

e

d

,

e

i

),…〉

4 3 4 4 5 3 1 2 5 1 2 5 1 2 3

補間されたグラフ系列

1 2 5 4 1 2 5

(11)

Ar2 Ar1 R1 R2 X C C N C C-C N H C-H H H 頻出部分グラフが連結 頻出部分グラフが非連結 理解が容易 理解が困難 抗ヒスタミン薬の一般的な構造(母核) O O CH2N CH3 3HC OCH2CH2NEt2 CH3 NCH2CH2NEt2 Et2 CHOCH2CH2N CH3 CH3 Ar2 Ar1 R1 R2 X C C N 共通パターン  応用例  抗ヒスタミン薬の共通パターン発見

(12)

男性1は他の人と関連がない.

関連のある

FTSのマイニング

女性2と女性3は関連がある. 女性3と男性4は関連がある. 女性2と男性4は女性2を介して関連があると考える.

和グラフ

A C 1 2 3 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 2 3 1 2 4 3 1 2 4 3 1 2 4 3 1 FTSの和グラフが連結であるならば,「関連がある」と定義する. 他の頂点と関連のない頂点を除くことで,互いに関連のある頂点 と辺からなるFTSのみをマイニングする.

(13)

グラフ系列マイニング問題

変換部分系列の支持度

頻出変換部分系列

(FTS:Frequent Transformation

Subsequence)

 最小支持度以上の支持度を有する変換部分系列 

支持度の逆単調性

 

グラフ系列マイニング問題

 グラフ系列の集合が入力として与えられたとき,全ての FTSを列挙すること )) ' ( sup( )) ' ( sup( ) ' ( ) '

(d 1 seq d 2 seq d 1 seq d 2

seq    | } ... | { | | : ) ' ( ), ( ) ' ( }, ... | { | )) ' ( sup( ) ( ) 2 ( ) 1 ( ) ( ) 1 ( n i i i i i i n i i i i g g g d d relevant d seq d seq d seq g g d d d seq     : ) (d seq

変換規則の系列

(14)

GTRACEのマイニング手順

グラフ系列の集合

A C 1 2 3 1 2 3 4 1 2 3 4 1 2 3 4

和グラフ

1 2 3 4 C 2 3 2 3 4 2 3 4 2 3 4 グラフマイニング アルゴリズム 系列パターン マイニング アルゴリズム

頻出連結部分グラフ

2 3 4

射影

Relevant FTSs

(

vi

,

vi

,

e

i

),

vi

,

e

d

,

i

e

(15)

GTRACEの課題

 GTRACEは観測されたグラフ系列中の連続する2つのグラ フで,その大部分は変化せず,ごく一部の構造が変化するこ とを仮定  観測されたグラフ系列中の連続する2つのグラフが大きく変 化する場合には,変換規則の系列が長くなり,膨大な計算時 間を要する. 1 2 3 4 5 6 1 2 5 6 1 2 3 4 5 6 1 3 4 5 1 3 4 5 1 3 4 5 1 4

(16)

グラフ系列

 頂点数,辺数が増減する.  頂点ラベル,辺ラベルが変化する.  各頂点は,IDをもつ.  グラフ系列中の連続する2つのグラフの間では,構造が大 きく変化することはなく,ごく一部の構造のみが変化する. A C 1 2 3 1 2 3 4 1 2 3 4 1 2 3 4 2 3 4 2 3 2 1

G

P

P

2

G

4 1

G

G

2

G

3

G

4 1

P

P

2 頻出する 部分系列を マイニング

FRISSMiner [Inokuchi 2010]

(17)

1 1 2 4 3 2 3 4 2 2 2 3 2 3 1 4 3 1 4 5 3 4 5 1 3(2) 2(2) 3(1) 4(3) 2(1) 4(3)

グラフ系列の集合

2 1 3

頻出連結部分グラフ

グラフマイニング アルゴリズム

射影

FRISSMinerのマイニング手順

3 2 1 3 4 2 1 4 5

和グラフ

2 4 3 2 3 4 2 2 2 3 2 3 4 3 4 3 4

(18)

射影

3(2) 2(2) 3(1) 4(3) 2(1) 4(3) 頂点IDのReassignment 2 3 1 2 1 3 2 2 1 2 1 2 3 2 3 2 3 2 4 3 2 3 4 2 2 2 3 2 3 4 3 4 3 4 <ABCD> <ABDD> 2 1 3 系列パターン マイニング アルゴリズム

FRISSs

各グラフの同型性を O(1)で計算可能 <ABD>をマイニング する探索の深さは3

(19)

GTRACEとFRISSMinerの比較

GTRACE FRISSMiner 前提 連続する2グラフ間で構 造が大きく変化しない なし グラフ系列の表 現形式 変換規則の系列 グラフの系列 取り出されるパ ターン 共通する変化 共通する構造

(20)

まとめ

グラフ系列マイニング

 GTRACE [Inokuchi 2008]  変換規則の系列でグラフ系列を表現  グラフ系列の集合から共通する変化を列挙  FRISSMiner [Inokuchi 2010]  グラフ系列の集合から共通する構造を列挙 

課題

 グラフ構造の変化の予測  データの背後に隠された変動やそのパターンを検知

参照

関連したドキュメント

Maurer )は,ゴルダンと私が以前 に証明した不変式論の有限性定理を,普通の不変式論

LLVM から Haskell への変換は、各 LLVM 命令をそれと 同等な処理を行う Haskell のプログラムに変換することに より、実現される。

地域の名称 文章形式の表現 卓越もしくは変化前 断続現象 変化後 地域 風向 風向(数値) 風速 風力 起時

業況 DI(△9.9)は前期比 5.9 ポイント増と なり、かなり持ち直した。全都(△1.9)との比 較では 19

ERROR  -00002 認証失敗または 圏外   クラウドへの接続設定及びア ンテ ナ 接続を確認して ください。. ERROR  -00044 回線未登録または

なお、保育所についてはもう一つの視点として、横軸を「園児一人あたりの芝生

各テーマ領域ではすべての変数につきできるだけ連続変量に表現してある。そのため

上位系の対策が必要となる 場合は早期連系は困難 上位系及び配電用変電所の 逆潮流対策等が必要となる