• 検索結果がありません。

正決定木によるデータ解析

N/A
N/A
Protected

Academic year: 2021

シェア "正決定木によるデータ解析"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

1997年度日本オペレーションズ・リサーチ学会 春季研究発表会 2 − E − 3 正決定木によるデータ解析 02601514 京都大学 02202454 京都大学 (株)日立製作所 01001374 京都大学

牧野和久 MAKINO Kazuhisa

須田高史 SUDATakashi

矢野浩仁 YANOKojin

茨木俊秀IBARAKITbshihide

1 序論 近年のコンピュータ技術進歩によって,大量の データが簡坪にしかも安く蓄えられるようになり, ともすれぼl、嗣掟の海に飲み込まれてしまうという 状況が生じている.そのため,その大量のデータか ら意味のある知識を抽出するための科学的手法に ついての研究が,知識椎得(knowledgeacqusition) あるいはデータ発堀(datamining)という名称の 卜で盛んに成りつつある. 本研究では,正例の集合Pと,負例の集合Ⅳの 対で表されるデー一夕集合の糾が与えられたとき(た だしP,Ⅳ⊆R−一と仮定する),PとⅣとを識別す る判別関数J‥R′けい(0,1)を求める問題を考え る.より正確に言うと,判別関数Jとは,任意の γ∈Pに対しJ(γ)=1となり,任意のひ∈Ⅳに 対し/(ぴ)=0をみたす全域関数のことである. 例えば,データのベクトル諾=(諾1,諾2,…,諾↑,′) はある病気を診断するための症状を表している. 具体的には,諾1は体温を意味し,諾2は血圧を意味 するなどである.判別関数Jを構成するというこ とは,!ラ・えられたデータ集合の槻(P,Ⅳ)(病気の 例とそうでない例を1メェ別している)に対する診断 上の説明を比つけることになる.新しい患者を診 断するためにJを利用したいので,Jの性能は次 の2つの観点から評価される: (i)表現の簡潔さ, (ii)新しいデータ集合の組(P′,Ⅳ′)に対する分 類の正確さ. 一一般に,判別関数Jを構成する過程において, Jについて何らかの知識あるいは仮定があらかじ め手にはいることがよくある.そのような知識は 通常これまでの経験,あるいは考慮する現象を引 き起こす(あるいは引き起こさない)仕組みを分析 することによって得られ.上述の例においては,痛 気を発現させる傾向にある方向性を,各属性ごと に何らかの方法で知っていると考えるのが自然で あろう.したがって,必要ならば属性の極性を変え ることによって,判別関数Jはすべての属性につ いて正(あるいは単調)であると考えて−一般性を失 わない.同様に,生命保険会社は,高齢で不健康な 申込者には,若くて健康な申込者よりも高い保険 料を見積もるような判別関数を望むだろう.これ らの他にも消費者の選択,学校と輸送機関の選択 そして従業員の選択など,正判別関数によって表 現されるべきデータが現実には多数存在する. γ≦Ⅷ(すなわち,すべての壱について巧≦び壱) となるようなデータの対γ∈Pとび∈Ⅳが存 在しないとき,与えられたデータ集合(P,Ⅳ)は正 (positive,OrmOnOtOne)であるという.w≦vな らばJ(ぴ)≦/(γ)であるとき,関数Jは正である という.このとき,与えられた正データ集合(ア,Ⅳ) に対する正判別関数Jを構成することが我々の目 的である. 本研究では,判別関数の表現として決定木を用 いる.決定木は有向根付き木であり,根から有向路 をたどることによってベクトルが分類される.こ れまでID3[2]など決定木を構成するさまざまな方 法が提案されているが,これら既存の方法は,デー タ集合が正であっても,得られる判別関数の正性 を保証しない【3]・従って,本研究では正データ集 合(P,Ⅳ)が与えられたとき,それを正しく分類す る正決定木の構成法を提案する. 2 正決定木

ベクトル集合g⊆R−−∫に対し,5+=(Ⅷlぴ≧γ

fbrsomev∈S)とS ̄=(wIw≦vfbrsome

〃∈g)を定義する.データ集合(P,Ⅳ)が正であ ることはP+∩Ⅳ−=¢であることと同値である. 正データ集合(P,Ⅳ)に対して,すべてのγ∈P+ についてJ(γ)=1であり,すべてのぴ∈Ⅳ ̄に ついてJ(w)=0であるとき,判別関数Jは準正 −222− © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

(2)

村し,β五=(明lγ∈アリⅣ),五=1,2,…,mとし,

P,Ⅳ⊆DT∼■(=β1×β2×…×かⅥ.)が成立する・

rの葉まに対して,tによって分類されるベクトル γ∈の‘‖・の集合はC(t)=Clり×げ)×…×C£f)と

表される.ただし,すべての壱についてdf)⊆D壱

(quasi−POSitive)であると言う. ここでは決定木を2分有向根付き木とし,葉は 0あるいは1のラベルを持ち,その他の中間の節点 は,ある壱∈(1,2,…,れ)と定数c∈Rによって定 まる条件A(宣、。)(つまり条件の対勘≧cとご五<c) のラベルを持つ.決定木rが表現する判別関数が

である.α(t)

小ベクトル) (り)をC(f)の中の最大ベクトル(最 する. ピ

、γ木バ

でるる

る夕 あー でデ 計算手順P−DT 人力:正データ集合(P,Ⅳ). 出力:(P,Ⅳ)を正しく分類する(P,Ⅳ)に対する正 決定木. ステップ1.(ア,Ⅳ)に対してQP−DTを呼び,準正 決定木rを得る(ラベル0(1)を持つ各葉fは例 の集合Ⅳt(ろ)を分類するとする).初期状態とし て,rの菓はどれもマークされていない. ステップ2.rのすべての柔毛がマークされている ならば,rを出力し停止する.その他の場合,rの マークされていない葉豪を無作為に選び、マーク する.亡がラベル0を持つならばステップ3へ;そ の他の場合ステップ5へ. ステップ3.rの各葉f′に対し.Q=(−′∈のγl卜り≦

α(t))nC(りとする.Q≠¢ならば,qの中の最

大ベクトル1∫*を見つける;亡′がラベル0を持つな らば,Ⅳt′:=凡′∪(て′*)とする;その他の場合, (昂′,i−}*))に対してアルゴリズムQP−DTを呼ん で決定木れ′を得.現在の決定木の葉f′を右′で置 き換えて変形する. ステップ4.ステップ2へ戻る. ステップ5.rの各葉f′に対し,Q=(γ∈Dmll′≧

β(t))nC(りとする.Q≠¢ならば,Qの中の最

小ベクトルγ*を見つける;f′がラベル1を持つ ならば,ろ・:=巧′∪小′りとする;その他の場合, ((γり,Ⅳt′)に対してアルゴリズムQP−DTを呼ん で決定木㌫′を徴現在の決定木の葉f′を右′で置 き換えて変形する. 集 を構成する我々の方法に に対して, トートノ∈ いい︹≠ ∵︹ ∴∵ ∴∴ ∵∵ 為旦巧哨 ∈ ∈ ∪ アP〃い′・1 ト﹁ト Ⅵん γU .′ l ・l ・t . <>一︰ ハし ハし ︸︸ 爪凡 ニニ ii ∫ ∫ ∈ ∈ ⅣⅣ C C 諾.匝 ・∴■

∈ 和典 、ヱト1,Cil,£l+1,・ ,∬元一1,CiO,∬l+1‥ ∪ とする.ただし,C壱1=min(明巨∈且∪Ⅳ1)そし てc川=maX(机lγ∈昂∪Ⅳb)である.ここで,

lハ.l+ト\’J

β+(A(壱、(二))=

J(悔l,lⅣ占‥ lPl+l叫 巧l+lⅣ1 J(l巧卜世11) lPl+l叫

卵血+(4症))=J(l拙l叫卜且+(A(壱,。))

とする.提案するアルゴリズムの各再帰的ステップ では,卵血+が最大になるような条件A(叫を選び, (P,Ⅳ)は(凡,Ⅳ占)と(巧,Ⅳ1)に分割される.この 変更によって,得られる決定木の準正性が保証さ れる. アルゴリズムQP−DT 人力:正データ集合(P,Ⅳ). 出力:(P,Ⅳ)に対する準正決定木. ステップ1.QP−DT−AUX(P,Ⅳ)を呼び,得られた 結果を出力する.停止. □ 計算手順QP−DT−AUX(P,N) 返値:(f∴Ⅳ)に対する準正決定木. ステップ1.P(Ⅳ)が空ならば,根がラベル0(1) を持つ決定木を返し,終了. ステップ2・決定木の根として,タ化哀れ+(A(五,。))を最 大とする条件A(i,。)を無作為に選ぶ・(昂,Ⅳ占)と (P;,Nl)に対してQP−DT−AUXを呼び,それぞ れ決定木孔とれを得る.部分木孔とnを,この ステップで選ばれた根A(五,。)の2つの子としてつ なぎ,決定木rを構成する.rを返し,終了. 口 上述のアルゴリズムは必ず準正決定木を構成す るが,その正惟は保証していない.従って,以下で は上述のアルゴリズムで得られた準正決定木を変 形し,正決定木にする方法を述べる.rを,与えら ステップ6.ステップ2へ戻る. Theoreml正データ集合(P,Ⅳ)が与えられる と,アルゴリズムクーβrは常に,(P,Ⅳ)を正しく 分類する正決定木を構成する. 口 なお発表当日,実験結果を報告する.

Refbrences

【1】K・MakillO,T・Sllda,K・Yano,T・Ibaraki,Daモa analysisbypositivedecisiontrees,tOappearln (CO上)A∫’96)・ 【2】J・R・Quinlan,IllductiollOfdecisioIltreeS,Ma− Cん哀れe上eαγm哀几タ1(1986)81−106・ 【3】矢野浩仁,牧野和久,茨木俊秀,正論理関数の部 分デー タに基づく正決定木の構成法について,秋 季OR学会研究発表会アブストラクト集,2−B−9, 1994,pp122−123・ P,Ⅳ)を正しく分類する決定木で あるベクトルむ∈の7−′を分類する 与えられたデータ集合(P,Ⅳ)に れたデータ集 −223− © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

参照

関連したドキュメント

2011年 9月 Cornell Univ., 4th Cornell Conference on Analysis, Probability, and Mathematical Physics on Fractals : 熊谷 隆. 2011年 9月 Beijing, The Fifth Sino-Japanese

[r]

Supersingular abelian varieties and curves, and their moduli spaces 11:10 – 12:10 Tomoyoshi Ibukiyama (Osaka University).. Supersingular loci of low dimensions and parahoric subgroups

3 Numerical simulation for the mteraction analysis between fluid and

大谷 和子 株式会社日本総合研究所 執行役員 垣内 秀介 東京大学大学院法学政治学研究科 教授 北澤 一樹 英知法律事務所

Mochizuki, Topics Surrounding the Combinatorial Anabelian Geometry of Hyperbolic Curves III: Tripods and Tempered Fundamental Groups, RIMS Preprint 1763 (November 2012).

Kambe, Acoustic signals associated with vor- page texline reconnection in oblique collision of two vortex rings.. Matsuno, Interaction of an algebraic soliton with uneven bottom

Pacific Institute for the Mathematical Sciences(PIMS) カナダ 平成21年3月30日 National Institute for Mathematical Sciences(NIMS) 大韓民国 平成22年6月24日