シーケンスを節点とする木構造データマイニングのための半構造マイニング手法の改良
10
0
0
全文
(2)
(3)
(4) 佐藤 一誠 . . 中川 裕志 .
(5) . 東京大学大学院 情報理工学系研究科.
(6)
(7)
(8) . 東京大学 情報基盤センター. . .
(9)
(10) .
(11)
(12)
(13)
(14) .
(15)
(16)
(17)
(18)
(19)
(20)
(21)
(22)
(23) .
(24) .
(25)
(26)
(27)
(28)
(29)
(30)
(31)
(32)
(33)
(34) . . はじめに. 近年,大規模なテキストデータが, !" や企業に蓄 積されている.今後ますます増え続けるテキストデー タに対し,有用なパターンを抽出するテキストマイニ ングという分野が注目を集めている. テキストマイニングの研究において、単語の出現頻 度は重要な要素を占めている。また、単なる共起関係 だけではなく、係り受け関係のような単語間の関係性 を考慮することで,文が持つ意味構造を含めたマイニ ングの重要性が高まっている.これまで,係り受け関 係は木構造で表現されてきた.しかし,係り受け関係 を木構造で表す場合,以下のような問題が生じる.例 えば, 「ルーブル美術館に小泉首相が訪れた」という文 を係り受け解析したとする.図 #$ % は,文節を # つの 節点として木構造で表した場合である.図 #$% は,単 語を # つの節点とした木構造で表した場合である.こ のように木構造で係り受け関係を表現し,図 & 図 ' に ある $ %$%& つの木構造に共通する部分木を抽出する 場合,$% のような部分木が抽出される.係り受け関係 を単に木構造として表現したのでは,助詞や表記上の ぶれなどによって,抽出できない単語間の関係が存在 する. 本研究では、係り受け関係をシーケンスを節点とす 連絡先:〒 東京都文京区本郷 東京大学 総合図書館内 情報基盤センター 図書館電子化研究部門.
(35) . 文節中の単語を直後の単語に係けることで作成することができ. る. る木構造として表現し、そのマイニング手法を提案す ることで,上記の問題を解決する。図 ( に具体例を示 す.木の各節点はシーケンスとして扱われ,シーケン ス内での共通部分が抽出される. 本研究では,ラベル付き順序木マイニングアルゴリズ ム )*!+ を改良し,シーケンスを節点とする木構造の マイニングを行えるようにした.具体的には,)*!+ のアルゴリズムをシーケンシャルパターンマイニング アルゴリズム , - の視点で解釈することで改良 した. 以下,第 & 節で,シーケンシャルパターンマイニン グ,第 ' 節で,ラベル付き順序木マイニング $)*!+% について説明する.第 ( 節で,提案手法について説明 し,第 . 節で,抽出例を紹介し,第 / 節で,提案手法の 評価を行う.第 0 節で,関連研究について述べる.第 1 節で,まとめと今後の課題を述べる. ߚ ⸰ࠇ ⸰ࠇߚ ࡞ࡉ࡞⟤ⴚ㙚ߦ. ߦ. ߇. ዊᴰ㚂⋧߇. 㚂⋧. ࡞ࡉ࡞⟤ⴚ㙚. ዊᴰ. C. 図. #2. D. 係り受け関係の木構造表現例.
(36) ⸰ࠇߚ. ⸰ࠇߚ ࡞ࡉ࡞⟤ⴚ㙚ߦ. ࡞ࡉ࡞⟤ⴚ㙚ࠍ. ዊᴰ㚂⋧߇. ዊᴰ✚ℂ߇. ⸰ࠇ ߚ. ⸰ࠇ ߚ. ࡞ࡉ࡞⟤ⴚ㙚 ߦ ዊᴰ 㚂⋧ ߇. ࡞ࡉ࡞⟤ⴚ㙚 ࠍ ዊᴰ ✚ℂ ߇. D. C. D. C. ㅢㇱಽࠍ. ㅢㇱಽࠍ ⸰ࠇ ߚ. ⸰ࠇߚ. ࡞ࡉ࡞⟤ⴚ㙚. E. ዊᴰ ߇. E. 図. &2. 共通部分木の抽出例 #. ߚ. 図 (2 シーケンスを節点とする木構造による共通部分 木の抽出例. ߚ. ⸰ࠇ. ⸰ࠇ. ߦ. ߇. ࠍ 㚂⋧. ࡞ࡉ࡞⟤ⴚ㙚. ߇ 㚂⋧. ࡞ࡉ࡞⟤ⴚ㙚. ዊᴰ. D. C. シーケンスデータベース. ዊᴰ. ㅢㇱಽࠍ. シーケンスデータベース - とは,シーケンス 4$% とシーケンス のタプル $ % の集合である.. ߚ.
(37) 3 $ % $ % $ %. ⸰ࠇ ߇. E. 図. . '2. 共通部分木の抽出例 &. シーケンシャルパターンマイニン グ . 提案手法の説明の準備として,シーケンシャルパター ンマイニングについて説明する.. . 用語定義 シーケンス. 3 をアイテム集合とする.シーケン. スとは,順序を持つアイテムの列である.シーケンス を 3 と表記する. $ 3 # & % は 任意のアイテムである. シーケンス中のアイテムの個数をシーケンスの長さ とする.シーケンス 3 の長さは で あり,長さ のシーケンスを シーケンスとする. あるシーケンス 中のすべてのアイテムが,別のシ ーケンス 中に存在し,その順序も保持している場合, を のサブシーケンスと呼び, を のスーパーシー ケンスと呼ぶ. と の関係を と表記する..
(38). サポート値. シーケンス のシーケンスデータベース
(39) における サポート値とは,
(40) 中のすべてのシーケンスのうち,シ ーケンス を含むタプルの数である. $ % 3 $ % $ %
(41) . シーケンシャルパターンマイニングの問題定義. シーケンシャルパターンマイニングとは,シーケンス データベース - から,最小サポート値と呼ばれる任意の 正の整数 に対し, $ % となるような シ ーケンス を全て抽出する問題である. $ % を満たすシーケンス を頻出シーケンシャルパターン と呼び,長さ の頻出シーケンシャルパターンを 頻 出シーケンシャルパターンと呼ぶ. .
(42) , - は,&55# 年に , らによって提案された シーケンシャルパターンマイニングのアルゴリズムで ある 6&7., - は,,
(43) 8
(44) という射影 方法とその射影によって生成される射影データベース を用いて深さ優先的にマイニングを行うアルゴリズム である..
(45) . と . &. あるシーケンス 3 アイテム に 対し, 3 3 3 3 となる ような正の整数 $
(46) % が存在すると仮定する.この とき,シーケンス を の に対する , とする.また,シーケンス を の に対する ,
(47) とする.もし, が存在しな いときは,, ,
(48) は未定義とする.. 射影. . あるシーケンスデータベース - に対し,アイテム. によって射影するとは,シーケンスデータベース - 中 の各 毎に,シーケンス に対する の ,
(49) を作 成し,その ,
(50) を改めてシーケンスデータベースと する操作である.また,このようにして作成されたシー ケンスデータベースを射影データベースと呼ぶ.アイ テム でシーケンスデータベース - を射影して作成さ れた射影データベースを 射影データベースと呼 び,
(51) と表記する. 射影と射影データベースの例を 図 . に示す.図 . 中のシーケンスデータベース - を で射影すると,各 の ,
(52) は, 3 #5 では , 3 &5 で は , 3 '5 では無し, 3 (5 では と なる.よって,これらが 射影データベース
(53) となる. C ᓇ࠺࠲ࡌࠬ 5C. ࠪࠤࡦࠬ࠺࠲ࡌࠬ 5 5+&. 5GSWGPEG. . C FE EC D. . C ED. 2TGHKZ2TQLGEVKQP. C D E. C. 5+& 5GSWGPEG. . FE. . D ED. D /KPAUWR. 図. CD CE . E. .2 , - . D E. の動作例.
(54) のアルゴリズム , - はシーケンスデータベースに対し,深さ 優先探索で射影を繰り返し,頻出シーケンシャルパター ンを抽出する手法である.基本的な流れを以下示す. #. 長さ # の頻出シーケンシャルパターンをシーケン スデータベースから抽出する.すべての頻出シー ケンシャルパターンは,この長さ # の頻出シーケ ンシャルパターンを , とするシーケンシャ ルパターン $部分シーケンシャルパターン% から 成る.. 各々の部分シーケンシャルパターンを深さ優先で 再帰的に抽出する.$#% で抽出した長さ # の頻出 シーケンシャルパターンで射影した射影データ ベースを改めてシーケンスデータベースとみな す.このシーケンスデータベースから $#% と同様 に部分シーケンシャルパターンを抽出する.抽出 される部分シーケンシャルパターンが無い場合, 射影は終了する.. 動作例を図 . に示す.最小サポート値 3& と すると,シーケンスデータベース - から抽出された長 さ # の頻出シーケンシャルパターンは, ,, となる. すべての頻出シーケンシャルパターンは, ,, を , とする部分シーケンシャルパターンから成る.. を , とする部分シーケンシャルパターンは,シー ケンスデータベース - を で射影した 射影デー タベース
(55) から抽出される.この場合, 射 影データベース
(56) から,最小サポート以上のアイ テムとして,, が抽出されるので, を , とす る部分シーケンシャルパターンは, , , , となる. , を , とする部分シーケンシャル パターンは, 射影データベース
(57) を で射 影した 射影データベース
(58) から同様 にして抽出される.以下このように深さ優先で再帰的 に繰り返される.. エレメントを単位とする. . エレメントとは,アイテムの集合である.エレメン トは,アイテムを9$%9 で囲むことで表現する.図 / 中 の $ % などがエレメントである.エレメントは集合で あるので,エレメント中のアイテムの順番は考慮しな い.このため,エレメント中では,アイテムを辞書順 にソートしておく必要がある.逆に言えば,エレメン ト中のアイテムを辞書順にソートしなければ,エレメ ント中のアイテムの順番を考慮することができる. エレメントを単位とする , - は,射影するア イテムと同じエレメント中にあるアイテムに対して, 9 _9 という , を付ける.この , により,エレ メントの外にあるアイテムと中にあるアイテムを区別 をする.図 / を用いて動作例を示す.. で射影した場合を示す. で射影した射影データ ベースから,最小サポート以上のアイテムとして,_ ,, が抽出される._ は同一のエレメント内に あることを示すので,抽出される部分シーケンシャル パターンは, $,% , $%,$% , $%,$% となる.以下前節の , - と同様に深さ優先で再 帰的に抽出される..
(59) ࠪࠤࡦࠬ࠺࠲ࡌࠬ 5 5+&. 5GSWGPEG. C ᓇ࠺࠲ࡌࠬ 5 C. 2TGHKZ2TQLGEVKQP. CD DE C EC D E D CD DE E. C. 5+&. 5GSWGPEG. . AD DE. . D E. AD DE. /KPAUWR. CD C D C E . AD D E. &. ! は親子関係,兄弟関係を保持する.ただし,. 中で隣接する兄弟は, 中で隣接する必要はない ..
(60). 順序木データベース. 順序木データベース とは,順序木 4$% と順序 木 のタプル $ % の集合である. 3 $ % $ % $ %. 図. /2. . エレメントを単位とする , - の動作例. 制約ベースのシーケンシャルパターンマ イニング. , らは,シーケンシャルパターンマイニングにおい て,最小サポート値以外の制約を付加する必要性を提 案している 6'7.例えば,平手らは,それぞれのアイテ ムがタイムスタンプを持つような時系列データに対し て,時間制約を導入して,特定の時間間隔をもつアイ テムのみ射影し,アイテム間の時間間隔を含めた形で パターンを抽出する手法を提案している 6(7.本提案手 法も,この制約ベースのシーケンシャルパターンマイ ニングとして位置づけられる.. . ラベル付き順序木のマイニング. .
(61). 用語定義 ラベル付き順序木. 3 をラベルの有限集合とする.ラ. ベル付き順序木とは,ラベルを節点とし,兄弟間には 全順序が定義される木構造のことを言う. 上のラベル 付き順序木を, 3 として表現す る. は節点の集合である. は親節点と子節点 の接続を表す二項関係であり枝と呼ぶ. は,隣接兄 弟節点間の順序を保持している.: は,節 点 に対応するラベル を求める射影である. は,親を持たない根節点である.子を持たない節点 は葉節点と呼ぶ.節点列 3 に おいて,任意の 5
(62) に対して が 成立する場合, を から への経路 $ % という. 節点 の深さ $ % を から までの経路の節点 数とする.以下ラベル付き順序木を単に順序木と呼ぶ. ある順序木 が,別の順序木 の部分木である時, は を「含む」と定義し, と表記する.具体的には ,以下の条件を満たすような射影! 2 → が存在する 必要がある. #. ! は単射である..
(63).
(64). サポート値. 順序木 の順序木データベース におけるサポート 値とは, 中のすべての順序木のうち,順序木 を含む タプルの数とする.
(65) $ % 3 $ % $ % .
(66). 順序木マイニングの問題定義. 順序木マイニングとは,順序木データベース か ら,最小サポート値と呼ばれる任意の正の整数 に対 し,
(67) $ % となるような 順序木 を全て抽出 する問題である.
(68) $ % を満たす順序木 を 頻出順序木と呼ぶ. を順序木 の節点数とし,順 序木 のサイズと呼ぶ.サイズ の頻出順序木を 頻 出順序木と呼ぶ. . )*!+ は,&55& 年に : : : らによっ て提案された順序木マイニングのアルゴリズムである 6.76/7607.)*!+ は,順序木からその部分順序木を重 複無く列挙するアルゴリズム $最右拡張% によって,頻 出順序木を抽出するマイニング手法である.最右拡張 は,同時期に ; < らによっても提案されており,部分 集合を列挙するアルゴリズム - !
(69) 617 の部分木への自然な拡張となっている..
(70). のアルゴリズム 基本的なアルゴリズムは,以下の通りである. #. サイズ # の頻出順序木を抽出する.<3& とする.. &. サイズ <# の頻出順序木に,# つのノードを追加 することで,サイズ < の候補順序木を構築する..
(71) サイズ < の候補順序木が,最小サポート値以上の 頻出順序木であるかを検査し,サイズ < の頻出順 序木を抽出する.. '. の手続きを再帰的に適用することで全ての部分 順序木を抽出する.$&% において,任意の位置にノード を追加すると重複する木を生成してしまうため,ノー ドの追加に制約を設ける.この制約を最右拡張と呼ぶ. $&%$'%.
(72). 提案手法の概要. 最右拡張. 順序木 において,根節点から深さ優先で木を左回 りに走査したときに最後に到達する葉節点を,最右葉と 呼ぶ.根節点から,最右葉に至る経路を最右枝とする. 最右拡張とは,任意の順序木 において,最右枝上 の節点に対し,新たな節点を最右葉となるように追加 する手続きである.図 0 に,新たに節点 を追加する 場合の具体例を示す.. C ᦨฝᒛ. D. E. C. F. G. ᦨฝ⪲. G. ᦨฝ⪲. G. ᦨฝ⪲. C. C. まず,順序木マイニングに対し,アイテムを単位とす る , - を適用させる手法を提案する.これによ り,シーケンスを節点とする順序木のマイニングは,エ レメントを単位とする , - を適用させることで 解決できる.本提案手法は,射影ベースの深さ優先探索 版 )*!+ と解釈できるので,以下,)*!+$
(73) 8
(74) )*!+% と呼ぶことにする.. ᦨฝᨑ. D. E. D. E. C. F. C. F C. ᦨฝ⪲. D. E. C. F. )*!+ は,ラベルを節点とする順序木には,アイ テムを単位とする , - として動作する.これが, )*!+ を , - の視点で捉えることに相当する. そして,シーケンスを節点とする順序木には,エレ メントを単位とする , - として動作する.これ が,)*!+ の改良に相当する. 具体的には,ラベルを節点とする順序木に対しては, ラベルを節点とする順序木を,アイテムを単位とする シーケンスとみなして , - を適用させる.シー ケンスを節点とする順序木に対しては,シーケンスを 節点とする順序木を,エレメントを単位とするシーケ ンスとみなして , - を適用させる. ここで,単に,, - を適用させたのでは,抽 出されるパターンは,木構造以外に,非連結なパター ンも抽出されてしまうため,厳密な意味での部分木は 抽出できない. )*!+ では,連結した部分木のみ抽出するために, , - で行う射影は, ,
(75) 8
(76) と呼ぶ射影 を行う. ,
(77) 8
(78) は,抽出されるパターンが木 となるような制約を射影対象に付加した射影である.. ラベルを節点とする順序木のシーケン 図. . 02. 最右拡張の例. 提案手法. 係り受け関係をラベルを節点とする順序木として表 したのでは,図 & 図 ' のように,節点数が少ない部分 木が抽出されてしまう.本研究では,係り受け関係を, シーケンスを節点とする順序木として表現し,そのマイ ニング手法を提案することで,上記の問題を解決する. 本節では,シーケンスを節点とする順序木のマイニ ング手法を説明する.本提案手法は,)*!+ のアル ゴリズムをシーケンシャルパターンマイニングアルゴ リズム , - の視点で捉え,改良することで実現 できる.. スへの変換 順序木マイニングにシーケンシャルパターンマイニ ング手法を適用させるために,ラベルを節点とする順 序木を,アイテムを単位とするシーケンスへ変換する 方法について説明する.ラベルを節点とする順序木を, 根節点から深さ優先で順序木を左回りに前順走査 $
(79) % で節点のラベルを列挙する.列挙され た順に 5 から を割り当て,これらをアイテムと する.列挙されたアイテム列をシーケンスとする.列 挙しただけでは,順序木の情報が失われてしまうので, 各アイテムは,次の情報を保持する.$ ,, % は,節点の親を指す である. は, 節点の最左の子を指す である.この最左の子を長 兄と呼ぶ. は,節点のすぐ右に位置する次弟を 指す である.何れも存在しない場合は 3#.
(80) とする.このような情報を保持するアイテムの列を,順 序木シーケンスと呼ぶ.図 1 に変換例を示す. . E . . C. C. . E. E. . . D. . . . . . . E. C. E. C. E. D. ⷫ. 㐳ఱ. ᰴᒉ. 図 12 ラベルを節点とする順序木のアイテムを単位と するシーケンスへの変換例. .
(81). 用語定義 射影スタック. 射影スタックとは,射影したアイテムを積んでいく スタックである.あるアイテム で射影したとすると, アイテム は射影スタックに積まれる.アイテム での 射影が終了すると射影スタックから削除される.射影 スタック中のアイテム集合を ,
(82) 8 と表現する. この ,
(83) 8 が抽出される頻出順序木パターンとな る. ,
(84) 8
(85) は,,
(86) 8 に連結するアイテ ムでのみ射影するように制約されている..
(87) 代前の祖先 アイテム の < 代前の祖先 とは,アイテム と. の間に経路が存在し,その間のアイテム数 $節点数% が <# のアイテムである.アイテム の親は,# 代前の祖 先となる.アイテム の 5 代前の祖先をアイテム その ものとする..
(88)
(89). 弟. アイテム の を,$% と表現する.アイテ ム 8 がアイテム の弟であるとは,アイテム と 8 が共 通の親を持ち,$8%$% を満たすことである. アイテム の直接に隣接する弟を次弟と呼ぶ..
(90) 順序木シーケンス - のアイテム による ,
(91) 8
(92) とは,以下の制約を満たす射影である. 制約:射影データベース
(93) となるアイテムは,ア イテム の ,
(94) の中で, ,
(95) 8 と の間に枝を持つアイテムのみである.これは,アイテ ム ,または ,
(96) 8 中のアイテムとの間に枝を持 つ,つまり,連結するアイテムのみ射影データベース とすることを意味する. ,
(97) 8
(98) は,以下の & つの射影からなる.. .
(99) 8
(100) . . = <
(101) 8
(102) . 順序木シーケンス - のアイテム による
(103) 8
(104) とは,アイテム の子となるアイテムのみ射影データ ベースとなる射影である.具体的には,まず,アイテム の長兄である子の を取得する.次に,長兄の次 弟の を取得する.順次,次弟の を取得し ていけば,アイテム の子となるアイテムの を得 ることができる.これらの のみ射影データベー スとなる.動作例を,図 > に示す.35 の で射 影することを考える.,
(105) は,3# 以上のアイ テムであるので,, ,
(106) 8
(107) では,3# 以 上のアイテムはすべて射影データベースとなる.しか し,
(108) 8
(109) では,射影するアイテムの子とな るアイテムのみ射影データベースとなるような制約を 持つ射影であるので,この場合,3#,3( の アイテムのみ射影データベースとなる.これらの は以下のようにして求まる. 35 の で
(110) 8
(111) する場合を考える. まず,35 の の長兄である子の $3#% は 35 の 自体が保持しているのですぐに取得できる. 次に,3# のアイテムの次弟の $3(% は, 3# の 自体が保持しているので取得できる. 3( のアイテムの次弟の $3#% は,3( の 自体が保持しているので取得できる. 3( のアイテムの次弟の は# なので,これ 以上は探索しない. これで,35 の の子の は,# ( と取得でき る. 順序木シーケンス - のアイテム による = < とは,アイテム の < 代前の祖先の弟とな るアイテムのみ射影データベースにとなる射影である. 具体的には,まず,< 代前の祖先 の を取得す る.次に,< 代前の祖先 の次弟の を取得する. 順次,次弟の を取得していけば,アイテム の < 代前の祖先の弟となるアイテムの を得ることが できる.これらの のみ射影データベースとなる.
(112) 8
(113) .
(114) . C. いないので探索をやめる.. E . . C. . . E. D. E. Eߩ2QUVHKZ ,
(115) 8. . . D. ある. 以上により, は,# ( と取得できる.. EJKNF RTQLGEVKQP . . . . . . . E. C. E. D. C. E. D. ᓇ࠺࠲ࡌࠬ . C. . 図. >2 35. 中のアイテムの中で深さが最小のものは の の深さが & なので,< は,& までで. 5 で,3&. . C. . の での
(116) 8
(117) の例. 動作例を,図 #5 に示す.3& の で射影する ことを考える.,
(118) 8335 の ,3# の とする.つまり,35 の ,3# の と 射影されてきて,次に,3& の で射影すること を考える.,
(119) は,3' 以上のアイテムである ので,, ,
(120) 8
(121) では,3' 以上のアイテ ムはすべて射影データベースとなる.しかし,= <
(122) 8
(123) は,射影するアイテムの < 代前の祖 先の弟となるアイテムのみ射影データベースとなるよう な制約を持つ射影である.よって,この場合,3', 3( のアイテムのみ射影データベースとなる.こ れらの は以下のようにして求まる. 3& の で
(124) 8
(125) する場合を考える. <35 の場合を考える.これは 3& の 自身の弟 となるような を取得すればよい. 3& の の次弟の $3'% は 3& の 自体 が保持しているのですぐに取得できる. 次に,3' のアイテムの次弟の を取得する. 3' のアイテムの次弟の $3#% は 3' の アイテム自体が保持しているので取得できる. 3' のアイテムの次弟の は,# なので,こ れ以上次弟はいないので探索をやめる. <3# の場合を考える.これは 3& の の親の弟 となるような を取得すればよい. 3& の の親の $3#% は 3& の 自体が 保持しているのですぐに取得できる. 次に,3# のアイテムの次弟の を取得する. 3# の の次弟の $3(% は 3# のアイテ ム自体が保持しているので取得できる. 3( のアイテムの次弟の を取得する. 3( の次弟の $3#% は 3( のアイテム 自体が保持しているので取得できる. 3( の次弟の は# なので,これ以上次弟は. 以下, ,
(126) 8
(127) の擬似コードを示す..
(128)
(129)
(130)
(131) 8
(132) ,= <
(133) 8
(134) . 各々関数 内部で ,
(135) 8
(136) を呼び出す.よって,上記の順 で射影が行われる. ,
(137) 8
(138) は,)*!+ における最右拡張に相 当する. . C. E . . . C . E. D. E. . Eߩ2QUVHKZ. . D. .GXGNUKDNKPI RTQLGEVKQP .GXGNUKDNKPI RTQLGEVKQP . . . . . . . E. C. E. D. C. E. D. ᓇ࠺࠲ࡌࠬ . . D. C. . 図. #52 3&. の での
(139) 8
(140) の例. シーケンスを節点とする ラベルを節点とする順序木は,アイテムを単位とする シーケンスに対応している.そこで,シーケンスを節点 とする順序木は,エレメントを単位とするシーケンスに 対応させる.具体例を図 ## に示す.射影時に,同一エレ メント中にあるアイテムに対して, 9 _9 を , とし てつけることで,シーケンスを節点とする )*!+ は 実現できる.ただし,今回は,エレメント中にあるアイ テムのみを射影データベースに残す
(141) 8
(142) を
(143) 8
(144) より先に行うことで実現した..
(145) . . FC. C. . ED. . . EH. . . . DF. . . . CDE FE ED C EH DF. . 図 ##2 シーケンスを節点とする順序木のシーケンスへ の変換例 以下,シーケンスを接点とする順序木に対する の擬似コードを示す.. ,
(146) 8
(147) .
(148)
(149)
(150)
(151)
(152)
(153) 8
(154) ,
(155) 8
(156) ,= <
(157) 8
(158) 各々関数内部で ,
(159) 8
(160) を呼び出す.. よって,上記の順で射影が行われる.. . 抽出例. データセットは,$株% 日本航空インターナショナル で収集されている航空安全レポート を用いた.# 文 を 単位として ?
(161) ? を用いて係り受け解析を行った. ラベルを節点とする順序木は,文節を節点とした係り 受け木 とし,シーケンスを節点とする順序木は,文節 をシーケンスとし,単語 $形態素% をアイテムとした. 紙面の都合上すべての抽出例を紹介することができ ないが,ランダムに取り出した # 555 センテンスから の抽出例を以下いくつか示す。最小サポート値は & と した。抽出例は - 式 で表現している. 従来手法では、 「再出発」と「GTB」を含むパター ンは以下のものしか抽出されなかった。 事前に名前等の個人情報は削除して、個人が特定できないよう にしてある 「。 」で区切られた文を 文とする.
(162) ! " 図 # $ 参照 図 % 参照 節点がシーケンスの場合は, 「, 」で区切られた単語列となってい. る. 再出発した $GTBし %$10分遅れで % % 本提案手法では,$再 出発 し た $GTB し $た め%%$10分 遅れ で%% の他に $再 出発 た $GTB し $ため $た $が%%%%$遅れ $1時 間%%% と従来手法では抽出されなかったパターンを抽出す ることができた。 GTBを含む他のパターンとしては,以下のような 従来手法では抽出されなかったパターンを抽出するこ とができた. $GTB し た $ため $た $FLT_CONTROL_ C ’K 中 $PUSH_BACK%%$が%%%% $GTB $ため $APPEAR し $START%$が%%%% 「FLT_CONTROL_C ’K」, 「PUSH_ BACK」, 「APPEAR」, 「START」などの単 語がGTBと共に現れるパターンは,従来手法では抽 出されなかった.このように本提案手法では,従来手 法では抽出できないパターンの抽出が可能である. $. CDE. . 評価. 本提案手法の評価として,抽出時間,節点数の統計 量の評価結果を示す.特に,本提案手法は,シーケンス を節点とする順序木として係り受け構造を表現するこ とで,ラベルを節点とする場合よりも大きいサイズ の 順序木パターンを抽出できることを示す.データセッ トは,前節と同様に,航空安全レポートを用いて作成 した. 実験環境は,以下の通りである. ?,@: , ##55AB,=& キャッシュ:#5&( C",物理メモリ:0./",プログラム言語:?DD,コ ンパイラ:E?? ''' 図 #& は,ラベルを節点とする順序木に対し,)*!+ , )*!+ を適用させた場合の速度の比較を示したグラ フである .)*!+ では,ラベルを節点とする順序 木は,シーケンス中のアイテムが # つの順序木として 扱われる.つまり,抽出されるパターン数は同じであ る.最小サポート値を & とした. 図 #& からもわかるように, )*!+ は,)*!+ よりも抽出時間が早い.これは,射影を節点間の関係 によって分けているためメモリ使用量が )*!+ は )*!+ よりも少なくて済むからであると考えられる. 図 #' に,)*!+ と )*!+ の最大メモリ使用量の 差を示す. 図 #( は,抽出されたパターンの節点数の統計量であ る.最小サポート値を ' とし,節点が & 以上のパター 節点数が大きい
(163) ! &のものを評価に使用. した 横軸は,データセットの順序木の数.
(164) (4'36. . ᐔဋ୯ (4'36. . ᐔဋ୯ R(4'36. . ▵ὐᢙ. ▵ὐᢙ. . R(4'36. . . . . . ਛᄩ୯ (4'36 ਛᄩ୯ R(4'36. . . . . . 㗅ᐨᧁߩᢙ. . ᦨᄢ୯ R(4'36. . . . ᦨᄢ୯ (4'36. . . . ࠺࠲࠶࠻. ࠺࠲࠶࠻. ▵ὐᢙ. ᤨ㑆=OU?. . . . . . . ࠺࠲࠶࠻. 図. #&2. 抽出時間の比較. ᦨᄢࡔࡕ↪㊂ߩᏅ=-$?. ンを抽出した.データセット を . つ作成して評価を 行った. ラベルを節点として )*!+ を適用させた場合とシー ケンスを節点として )*!+ を適用させた場合に抽 出されたパターンの節点数の平均値,中央値,最大値 の比較を行った.横軸は,各データセットであり,縦 軸は,各々の節点数の統計量である. 図 #( により,本提案手法は,従来手法に比べて,抽 出される部分木は,平均値,中央値,最大値すべてに おいて大きいサイズの木である.これは,図 & と図 ( の違いを見ればわかる.図 & の抽出された部分木の節 点数が # なのに対し,図 ( の抽出された部分木の節点 数は ' である.より節点数の大きい部分木が抽出でき れば,それだけ係り受け関係を持つ単語の関係を多く 抽出できる. このように本提案手法は,従来手法よりも多くの節 点数をもつパターンを抽出できる.よって,本提案手 法は,従来手法では抽出できないパターンを抽出でき ると言える.. 図. . ᦨᄢࡔࡕ↪㊂ߩᏅ (4'36㧙R(4'36. . . . 㗅ᐨᧁߩᢙ. . 工藤らによって,, - を,順序木のマイニン グへ拡張する研究が行われている 6>76#57.工藤らの手 法は,関係関数を導入して,, - を順序木のマ イニングに拡張している.しかし,抽出されるパター ンに,連結された部分木以外に,非連結の部分木が抽 出されてしまう.よって,順序木のマイニングとは言 い切れない.また,射影時に,各アイテム毎に関係値 という値を算出し付加するため,節点数の & 乗に比例 したメモリ容量を必要とする.本提案手法は,節点同 士の関係に応じて分けて射影をしているため,このよ うな関係値の付加は必要ない.また,本提案手法の最 大のポイントは,シーケンスを節点とする順序木を定 義し,そのマイニング手法を提案したことであるため, 工藤らの研究とは大きく異なる.. おわりに. 係り受け関係をシーケンスを節点とする順序木で表 現し,そのマイニング手法を提案した.これにより,従 来手法では抽出できなかったパターンの抽出が可能で あることを示した. 今後の課題を以下示す.. パッケージのの公開 . 図. #'2. 最大メモリ使用量の差. 抽出した節点の統計量. 関連研究. . . #(2. )*!+. の速度向上. シーケンスを節点とする順序木の他分野への適用 名詞のサポート値は & 倍にするといったような, 単語の品詞などの情報の使用 特に,シーケンスを節点とする順序木の他分野への適 用としては,F= や A= のマイニングへの応用が. つのデータセットは 個の順序木を持つ.
(165) !!! で公開予定.
(166) 考えられる.F= や A= は,タグの名前のほかに, 属性を持つ.例えば,以下のようなXMLは, 「 #. #3G G &3GG」などをラベルとする木構造とし て表すことができる..
(167)
(168)
(169)
(170)
(171) !
(172)
(173)
(174)
(175) "! !
(176) しかし,$ # #3G G &3GG% のようにそれぞ れの要素をアイテムとしたシーケンスを節点にもつ木構 造として表すこともできる.これにより,XMLデータ からより柔軟なパターンの抽出ができると考えられる.. 謝辞 本研究を進めるにあたり, $株% 日本航空インターナ ショナル 運行本部から提供していただいたデータを利 用しました.同社の齋藤隆氏,寺田昭氏に深く感謝い たします.. 参考文献
(177)
(178)
(179) .
(180) . .
(181)
(182)
(183) . !""#. !!! . . $$%. &'""#( ) * 1. *+
(184) . , - . . 2
(185) + . +
(186) /0
(187) . 34$
(188)
(189)
(190)
(191) .
(192) !Æ
(193) 2 52 346
(194) 7 0
(195) . !)88 !!! $$)#. ))&')88( % *$ *+
(196)
(197) 99
(198)
(199)
(200)
(201) $
(202) 0
(203)
(204)
(205) 5
(206) :)88) $$;)# ')88)( & < +
(207) + 2 < =
(208)
(209)
(210)
(211)
(212) 0 >=
(213) . : # :
(214) 6. 5. 0
(215) 6 : . > 2. . )88? +. = @$=- 5 .2 =. :. )88) ? > 2 . :
(216) 6 5. 0
(217) 6 : . +. = +0 = !Æ
(218) 5. .2 = A =. B. )88). 浅井達哉 有村博紀 半構造データマイニングにおけるパ ターン発見技法 電子情報通信学会論文誌 . *;
(219) ) $$B""? ')88&(. ;. 5 * , 2 * !Æ
(220) 2 =
(221)
(222)
(223) $
(224) = 5 7@. ". "";. 工藤拓 山本薫 坪井祐太 松本裕治 言語情報を利 用したテキストマイニング 情報研報 'CA( D )88) C8)8 $$?#B) ')88)(. 8. 工藤 拓 山本 薫 坪井 祐太 松本 裕治 テキストデー タベースからの構文構造のマイニング 情報研報 '( D )88)C8&# $$%"&')88)(.
(225)
関連したドキュメント
2Tは、、王人公のイメージをより鮮明にするため、視点をそこ C木の棒を杖にして、とぼと
テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から
議論を深めるための参 考値を踏まえて、参考 値を実現するための各 電源の課題が克服さ れた場合のシナリオ
ペトロブラスは将来同造船所を FPSO の改造施設として利用し、工事契約落札事業 者に提供することを計画している。2010 年 12 月半ばに、ペトロブラスは 2011
・また、熱波や干ばつ、降雨量の増加といった地球規模の気候変動の影響が極めて深刻なものであること を明確にし、今後 20 年から
新設される危険物の規制に関する規則第 39 条の 3 の 2 には「ガソリンを販売するために容器に詰め 替えること」が規定されています。しかし、令和元年
・カメラには、日付 / 時刻などの設定を保持するためのリチ ウム充電池が内蔵されています。カメラにバッテリーを入
これら諸々の構造的制約というフィルターを通して析出された行為を分析対象とする点で︑構