鐸 周 大 字 望 一 日
132
0
0
全文
(2) 論文概要. 近年,データマイニングや知識発見の研究が大きな広がりをみせつつあるが, これは,単一の要素技術の進展というよりは,複数の要素技術が有機的に関連 して進展してきた側面が大きい.すなわち,帰納学習,統計学,データベース 技術などが相互に関連して進展してきている.結果として,多様な問題領域に 対応することができる利点を持つが,その反面,ある特定の問題領域に最適な 技術を構成・選択する問題が深刻になってきている.伝統的に,エンドユーザ がこの間題を解決するために,試行錯誤的手法を利用するか,コンサルタント への依頼という手段を利用する.しかしながら,前者の方法は,多くのコスト がかかり,かつ信頼性がなく,後者の方法は,専門家のもつノウハウ(マイニ ングアルゴリズム選択表など)に依存しすぎることが課題であり,どちらの方 法もデータマイニングを含めた帰納アプリケーションの構築支援環境が必要に なってきている. 以上の背景から,近年,機械学習のコミュニティでは,機械学習アプリケー ションを開発するための方法論の整備や,その開発プロセスを自動化するメタ 学習プロセスに関心が寄せられている・本論文では,知識発見システムの性能 に影響を与える要因(バイアス)である「学習アルゴリズム」と「概念記述言 語(属性集合)」に着目し,データや問題領域の特性を考慮して,有用な知識 発見につながる,帰納アプリケーションをデータセット毎に探索(自動合成) する枠組みについて検討することを目的とする. 具体的には,スターアルゴリズム,バージョン空間法,決定木学習,遺伝的 アルゴリズムに基づく分類器学習,ブーステイング,バッギングなどの帰納学 習アルゴリズムを分析し,帰納メソッド群を「データセット生成法」「分類器 集合生成法」「データセットと分類器集合の評価法」「データセット更新法」 1.
(3) 11. 「分類器集合更新法」の5つのグループに分けた後に,帰納学習メソッドの仕 様を決定して,帰納学習メソッドの体系(プロセスオントロジー)を構築する. 同様にしてメソッドの操作対象物(情報)に対しても,操作対象物の体系(オ ブジェクトオントロジー)を構築する・2つのオントロジーを構築した後,帰 納アプリケーションの初期仕様を構築するフェーズ(コンストラクション), 所与のデータセットを使って初期仕様を具象化するフェーズ(インスタンシエー ション),具象化された仕様をプログラムライブラリーを使用して実行可能コー ドに変換するフェーズ(コンパイレーション),実行コードがユーザが与えた 精度を満足するかどうかを判定するフェーズ(テスト),精度を満足しない時, 初期仕様を変更(その後,再度インスタンシエーションから処理を繰り返す) するフェーズ(リファインメント)という5つのフェーズにより,帰納アプ リケーションを自動合成する枠組CAMLETの基本設計を行う.さらに,・リ ファインメントフェーズを帰納学習メソッドの組み合わせ探索問題として定式 化し,計算コストの観点から,超並列計算機を利用して適切な帰納アプリケー ションを効率的に探索する枠組についての考察も行う. 上記で述べたCAMLETをC言語を用いて実装し,機械学習の研究評価の ためによく利用されているデータであるUCIデータリポジトリの内,14種類 の異なるデータを対象にして,分析で用いた代表的な帰納学習システムとの比 較実験を行った結果・帰納学習メソッドの組合せレベルで,従来とは異なった 新しい帰納アプリケーションを自動生成するとともに,過去の代表的な帰納学 習システムと比較して高い性能を示すことが証明できた. また,島根医科大学の津本助教授より提供して頂いた髄膜脳炎データベース を対象にして,知識発見(埋もれたルールの発見)に対する有用性について考 察を行った結果,専門家により妥当と判断された知識を供給するものの,埋も れた知識の発見に関しては・予測精度のみによる帰納アプリケーションの探索 では限界があり,ユーザを満足させる知識を供給できない可能性があることが 判明した・以上の結果から,CAMLETを進展させる方向として,予測精度に よる単眼的な評価基準から帰納アプリケーションを構築するのではなく,ルー ルの理解容易性や学習モードなど複眼的な評価基準から帰納アプリケーション を構築する環境に関して考察する..
(4) 目次. 1序論 2 関連研究. 5. 2.1緒言. 5. 2・2 帰納学習/データマイニング. 5. 2.2.1 決定木学習..... 7. 2.2.2 仮説空間を利用した学習 2.2.3. ニューラルネットワーク. 2.2.4. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. 強化学習.‥.‥.‥.. ●. ●. ●. ●. ●. .‥‥‥‥‥. 2.2.5 コミッティ学習. 19. 27. 2.3.1 タスク指向ユーザガイダンス. 2・3・3. 15. 24. 2.3 データマイニング構築支援. 2・3・2. 11. 27. 知識レベルモデリング…………. MLC++…………………….. 29 31. 2.4 結言. 3 オントロジーに基づく帰納アプリケーション構築支援環境. 33. 3.1緒言. 33. 3.2 帰納学習におけるオントロジーの構築. 34. 3.2.1 概念の切り出し. 35. 3.2.2 概念定義と概念の階層化. 36. 3・3 3・4. 帰納アプリケーションの合成手順………… 帰納アプリケーション構築支援実験と評価…….. 3・4・1機械学習共通データへの適用 111. ………. 39 46 46.
(5) 目次. lV. 3.4.2. 髄膜脳炎データベースへの適用. …………‥. 50. 3.5 結言. 4 帰納アプリケーション仕様探索の効率化. 4.1緒言 4.2. 並列処理による仕様探索の効率化…‥ 4.2.1. 基本設計…. 4.2.2. …. …. …. …. 超並列計算機上での実現法. 4.2.3 実験. ●. ●. 4.2.4 評価. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. 58. ●. ●. ●. ●. ●. …. …. …‥. 58. …… ●. ●. ●. ●. ●. ●. ●. 60 ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. 4.3 3次元遷移行列探索による仕様探索の効率化. 4.3.1. CAMLETにおける仕様探索の問題点.. 4.3.2 4.3.3 4.4. 63 ..….63. 新しい探索法の検討………………‥. 3次元遷移行列探索による仕様探索実験と評価……. 結言. …………………‥. 64 67 70. 5 タスク知識に基づく帰納アプリケーション自動構築環境. 5.1緒言 5.2. 帰納アプリケーション評価の多様化………. 5.2.1 5.2.2. 予測精度… 学習モード…. 5.2.3. 5.2.4. 5.3. 5.4. …. …. 74. …. 74. 知識表現……………. コンパクト性. 5.2.6. 理解容易性…. 5.2.8. …. ……….. 計算コスト…………………….75. 5.2.5. 5.2.7. ……. 74. 意外性. …. …. コミッアイ. … …. … …. … …. 75 …. …. …. …. ‥. …. 76. ‥ …. 76. 77 …. オントロジーの再設計……. …. …. …. 5.3.1. オブジェクトオントロジー. 5.3.2. プロセスオントロジー…. 帰納アプリケーション合成法. …. … …. ……. …. …. …. …. ….77. …. …. ‥. 77. …. …. …. ….77. …. …. …. ….78. …. …. …. ….82.
(6) 目次. Ⅴ. 5.5 結言. 85. 6 結論. 87. 謝辞. 91. 参考文献. 93. 論文目録. 97. A CAMLETオントロジー概念定義. 101. B 髄膜脳炎データベース. 107. C CAMLET Ver.2の定義. 111. C.1プロセスオントロジーの概念定義… C.2. タスク定義知識. C.3. タスク分解知識. …. …. …. …. … …. … …. …. …. ‥111. ……. ‥116. ………. …120.
(7) 第1章 序論. 近年,多量のデータ処理を必要とするデータベース応用分野が拡大しており, 無作為に蓄えられた過去のデータを効率良く活用するためのシステム構築を進 める技術の必要性が非常に高まってきている.そこで,データベースに蓄積さ れたノイズを含む生データから,高いレベルで記述された価値ある情報を発掘 することを目的とした,データベースからの知識発見(KDD:KnowledgeDis− COVeryinDatabases)に関する研究が盛んになっている. KDDは,新しい技術というよりは,機械学習,統計学,データベース,デー タ可視化などの技術が融合した分野とみなすことができる.KDDのプロセス は,大きくデータ前処理とデータマイニング(DM:DataMining)に二分され る・一般的に,ノイズが多く含まれる生データをどんなに優れたDM技術に 適用したとしても,期待通りの結果は得られない.そこでデータ前処理では, DMによる規則発見をより効率的に行わせるために,目的に従ってデータベー ス中の生データを整理する.一方,データマイニングは,データ中に埋もれた 規則性を発見するプロセスであり,目的に適した機械学習,統計学などの技術 が利用される.データマイニングは,KDDプロセスの中でも非常に興味深い プロセスであるため,それぞれの分野で多くの技術が開発されている. 機械学習(ML:MachineLearning)は,データマイニングに最も貢献する 技術の一つであり,帰納学習のアルゴリズムを提供する.帰納学習とは,入力 した事例集合を一般化することにより規則性を見つける学習アルゴリズムであ り,決定木学習,バージョン空間による学習,ニューラルネットワークによる 学習など多くの研究がなされている.一般的に,あらゆる問題に対してユニバー.
(8) 2. 第1章序論. サルに優位を示すML技術が存在しないため・データマイニングの構築時には, ML技術の選択という問題が生じる・伝統的に,専門知識をもたない利用者は, 試行錯誤的に最適なML技術を見つけるか・マイニングに関して専門知識をも つコンサルタントへ依頼という手段をとる・このとき,前者はMいこ関する知 識をほとんど持っていない場合が多く・すべてのML技術が探索対象になるで あろう・一方,後者でも,ある程度ML技術の探索対象を絞り込むことができ るものの最終的には試行錯誤的な選択が必要である・このように,MLアプリ ケーションは仕様を修正されながら何度も構築されるのが普通であるため,ML 技術がさらに多様化しつつある現在,データマイニング構築支援環境が必要に なってきている・近年,以上のことから,MLのコミュニティにおいてもML アプリケーションを開発するための方法論の整備やその開発プロセスを自動化 するメタ学習プロセスに関心が寄せられるようになり,1998年の機械学習国 際会議(ICML98)では,DevelopingMLApplications:ProgramDefimition 恥skDecompositionandTechniqueSelectionというワークショップが開催さ. 本論文では,以上の背景のもと・与えられたデータ集合対して適切な帰納ア プリケーションを自動的に構築できる,帰納アプリケーション構築支援環掛こ 関する研究について述べる・本研究は,帰納学習の諸概念(帰納メソッド群) に対して体系化を行うオントロジー工学と,帰納メソッドを組み合わせて適切 な帰納アプリケーションの自動合成を行うソフトウェア工学を結びつけたメタ 学習機構に独自性があり・上述のML技術選択問題に応える研究として意義付 けられる・また,帰納学習システムを帰納メソッドに分解し,メソッドを再合 成する本研究の枠組は,その組み合わせレベルで新規的な帰納アプリケーショ ンを合成する能力がある点からも興味深いといえる. 具体的には,スターアルゴリズム,バージョン空間法,決定木学習,遺伝的 アルゴリズムに基づく分類器学習,ブーステイング,バッギングなどの代表的 な帰納学習アルゴリズムを分析して・組み合わせレベルで新規的な帰納アプリ ケーションを合成する能力を持ち・かつ・帰納アプリケーションを円滑に自動 構築できるようなオントロジー(帰納メソッドの抽出と階層および定義を与え る)の構築と,仕様とコードを切り離してソフトウェアを段階的に開発するソ フトウェア工学の技術を応用し,オントロジーに定義されている仕様レベルの.
(9) 3. 帰納メソッドを組み合わせることで,利用者の要求を満たす帰納アプリケーショ ン(コード)を自動合成する枠組の構築を目的とする.データマイニング構築 支援の研究では,帰納アプリケーションを自動合成する研究が行われていない ことから,本研究は今後の研究を進めるうえでの第一段階として有用であると 考えられる.また,本帰納アプリケーション構築支援環境によって構築される 可能性がある帰納メソッドの組み合わせレベルでの新しい帰納アプリケーショ ンは,将来的に有用なパターンを提供すると考えられ,その点からも十分に意 義があると考えられる. 以下,本論文において,第2章では,本研究で分析を行った8つの帰納学 習/データマイニイングに関する説明とデータマイニング構築支援環境に関す る研究動向を述べる.第3章では,帰納学習における概念を体系化したオント ロジーの構築と所与のデータセットから有用な知識を学習する帰納アプリケー ション合成問題をオントロジーとして整備された帰納学習概念の組み合わせ探 索問題として定式化し,適切な帰納アプリケーションを効率的に探索する枠組 みについて考察する.第4章では,第3章で考察した枠組の中核をなす仕様探 索の効率化について検討する.第5章は,利用者の多様な要求を満たすことが できるように,第3章で考察した枠組を拡張した枠組の基本設計について述べ る・第6章は結論であり,本研究を総括する..
(10) 第2章 関連研究. 2.1 緒言 データマイニング(DM)に貢献する技術の中で,非常に多様な技術を提供 する機械学習(特に帰納学習)は重要な技術であるといえる.一般的に,どの ような問題に対しても最適となるような帰納学習システムが存在しないため, DMにはアルゴリズム選択問題が必ず生ずる.また,所与のデータの部分集合 に対して的確に振舞う学習アルゴリズムが,他の部分集合では,適切に振舞わ ない場合もあり,いくつかの異なるアルゴリズムを混成することも必要である. データベースにおける知識発見(KDD)では,実際にテストを行うまで結果 が分からないという場合が多いため,データベース中のデータを目的に沿って 整理するデータ前処理と知識発見を行うDMが通常何度も繰り返し行われる. したがって,DMアルゴリズムの構築問題は,KDDプロセスのボトルネック の一つと考えられ,データマイニング構築支援の研究が進められている. 本章では,2・2節で,本研究で分析を行っている帰納学習/データマイニン グアルゴリズムについて紹介し,2.3節で,データマイニング構築支援の現状 について述べる.. 2・2 帰納学習/データマイニング 人間は,同じような出来事を二度三度経験したり,同じような事実を何度も 観測したりすると,また似たようなことが起こる(観察される)のではないか 5.
(11) 6. 第2章関連研究. 表2.1:レストラン問題 例(データ). 手芸三云木石竺㍗ご完. A九. 月dr nJ.. 仇乱. Y. N. N. Y. Y. N. N. Y. タαL Phce. 月din.. Some H‡. N. F山1. N. ‡. Rej・. 円伊e. 励. Y Frencム. N. .. 0_10. Thd. 30_60. Y N. N. Y. N. N. Some. ‡. N. Y. N. Y. Y. mll. ‡. N. Y. N. Y. N. mll H‡. N. Y French. >60. N. N. Y. N. Y. Some. Y. Y Italiam. 0−10. Y. N. Y. N. N. None. N Burger. 0−10. Y. Y Th扇. 0_10. Y. >60. N. N. N. N N. Y. ‡. Some. H. Y. Y. Y. Y. Y. Y. N. N. N. N. None. ‡. N. Y. Y. Y. Y. Fbll. ‡. N. Ftlll. ‡. Y. N. Y. F山l. H. H‡. Y N. N BurgeI N. Thd. 0−10 10_30. N Bmge− Y. Itdian. N Th扇 N Burger. lO_30. Y Y. N. 0_10. N. 30−60. Y. と推測する・このような・与えられた個々の事例からそれを説明する一般的な 規則を導き出す推論および過程を帰納推論と呼び,この推論を用いた学習法を 帰納学習と呼ぶ・帰納学習の最も重要な特徴は,有限個の事例から一般的な規 則を導き出すことによって・まだ与えられていない,今後観測されるかも知れ ない事例,しかも無限個の事例を説明できる能力にある. 一方,データマイニングとは,データ中に非明示的に埋め込まれている有益 なパターンを発見することである・学習は非常に広い概念であるが,データマ イニングの観点からはデータ中のパターンの発見のための主要技術として位置 付けられる. 本節では,レストランの席を待っか否かを決める問題(表2.1)を例として, 帰納学習/データマイニングで利用される用語について説明し,決定木による 学習,仮説空間を利用した学習,ニューラルネットワークによる学習,強化学 習,コミッティ学習に関する基礎的な技術を述べる. 例(データ)は,属性に対する値の並びと目標述語の値によって記述される. 目標述語はその例の分類(クラス)と呼ばれる・ある例に対して目標述語が真 であるとき・その例は正例と呼ばれる・そうでなければ,負例と呼ばれる.レ ストラン問題に対する例の集合ズ1,…ズ12を表2・1に示す・例耳は,ある人が.
(12) 2.2.帰納学習/データマイニング. 7. レストラン盲に行ったときの状況を表している.例の集合全体を訓練集合(訓 練データ集合)と呼ぶ・ここでの目的は,目標述語柿旬甘仲厄記の定義を学習す ることである・ここに,属性のリストに関する補足説明を以下に述べておく. 1.A娠r−1αfe:近くに他のレストランが存在するか否か. 2.月α〔待っている間,快適に過ごすことができるバーがあるか否か. 3.舟吏〝df:金曜日,土曜日であったか否か. 4.仇明叩:空腹か否か. 5・Patrons:客がどの程度いるか(None,Some,Fbn). 6・P膏ce‥価格帯($,$$,$$$). 7.凡止血叩:雨が降っていたか否か. 8.月egerVQ扇on:予約をしたか否か. 9・Tbpe:レストランの種類(French,Italian,Thai,Burger).. 10・押流紹加加M加:ホストによる待ち時間の予測値(0−10分,10−30,30−60,>60). 2.2.1 決定木学習 決定木の帰納学習は,学習アルゴリズムの中で最も単純であるが,それにも 関わらず最もうまくいっている学習法の一つである.決定木学習は,帰納学習 の分野に対する格好の導入の役割を果たすばかりでなく,その実装も容易であ る・決定木による学習システムの代表的なものとして,QuinlanのID3,その 発展型であるC4.5というシステムがある.本節では,決定木構築の基本動作 となるTDIDT法とID3,C4.5の動作について説明する. ID3,C4・5で利用されている決定木構築方法は,TDIDT(TbpDownIn− ductionofDecisionTree)法とよばれ,決定木の構築を根から始めてトップダ ウンに行なう.また決定木のトップダウンの構築中に,バックトラックなどの 後戻りをしないため,非常に効率がよい.属性が二値の場合におけるTDIDT 法による学習アルゴリズム(CLS)を図2.1,レストラン問題(表2.1)に対す る決定木の構築例を図2.2に示す.TDIDT法では,決定木の構築中における.
(13) 第2章関連研究. 8. 凡乃Cfj0m:CLS. 九野山:事例集合か,属性集合ダ 仇郎融:決定木me ifDが全て同じクラスに分類されたthen return根ノードだけの決定木升ee; else. hr(五=吊<=γ再++)タα叫朗を計算; 卵血を最大にする属性んl弧を選択; ダ′←属性集合ダから属性ん旧を削除; hr(J=1万<=γ豆++)(. 巧←β中の事例で属性ん弧の値がJである集合; 升e勺=CLS(巧,ダ);//mejはmeの部分木 ). return. 升ee. 図2.1:決定木を学習する再帰的アルゴリズム 内部ノードに対する属性の選択が,最終的に得られる分類木の精度に大きく影 響する・CLSにおける属性選択は,情報利得(informationgain)を最大にす る属性を選択する.情報利得は,テスト前の必要情報量(ェントロピー)とテ スト後の必要情報量の差として,以下のように求められる. ここでは簡単のために,クラスは2倍(正例P,負例N)とし,その個数を それぞれp,犯とする.このとき,クラスを同定するのに必要なェントロピー. 軸可=一志〜092妄莞一議隼㌫ また,データかを属性力の値(ん,ん,…,ん)で分類してできるテスト後の エントロピーは,. β(封. ㌔鋸j+几ん p+几. 柏ん,几ん)・. したがって,情報利得は, 卵血(封=J(p,几)一月(邦. と定義することができ,TDIDT法では,分割することによる情報利得関数(gain) が最大になる属性九を順次選択する..
(14) 2.2.帰納学習/データマイニング. 9. Patrons. 図2.2:CLSアルゴリズムによって得られた決定木の例. CLSアルゴリズムでは,事例集合が所与であることを前提としているが, 事例集合が大規模である場合,事例集合より訓練集合を選択,更新していく方 法を必要とする.ID3は訓練集合を更新する方法を与えるものである・ ID3学習アルゴリズム CLSアルゴリズムでは,全ての事例集合をアクセスして,取り出す必要が ある.これは解決できる問題の大きさに実用上の制限を与える.ID3アルゴ リズムは非常に大きな事例集合の問題を扱えるようCLSを拡張したアルゴリ ズムである.ID3アルゴリズムでは,能動的な実験計画のアプローチにより, 事例集合のよい部分集合が選び出され,事例の全集合は順アクセスできるだけ でよい.ID3アルゴリズムの概要は次の通りである. 訓練集合Tの更新方法にはいくつかの代替案が存在する.例えば,(1)Tの 事例はそのまま残し,且より一定数の事例を加え,新しいTとする・(2)T の事例は決定木の各末端に1つずつ残し,他は捨て去り,これを且より補充 する.(3)決定木の各末端に対し反例となっている事例を且より1つずつ選.
(15) 10. 第2章関連研究. 凡乃Cfわれ:ID3. 座視f:事例集合か,属性集合ダ 仇埠血:決定木乃℃e r←事例集合かからサンプリング;8−Tはテスト事例集合;. While(1)(. 升ee=CLS(r,巧; 8−rを用いて升eeをテスト; if反例がないthenreturn升ee; else†. 反例集合且を登録; r←Tと且より吏新;. 図2.3:ID3学習アルゴリズム. び・これをrに加え,新しいTとする.などがある.. C4.5. C4・5は,学習アルゴリズム的にはID3と同じである・その違いは評価関数 にある・すなわち,ID3は情報利得を評価関数として,これが最大となる属 性を順次選択しているが・この基準では値の種類が多い属性が選ばれやすいと いう欠点があるため,C4・5は情報量DIで規格化した情報利得比(informa_ tiongainratio)を用いている.. 叫封=−宣 J. 裾j+花山 p+乃. J ̄. p+乃. 決定木の学習は,実用的に最も成功している機械学習の方法の一つであり, 実際に・診断型エキスパートシステムの開発や大規模データベースからの知識 獲得などに用いられている・前者の例としては・医療診断システムや保険商品 選択システムなどがあり・後者の例としては,遺伝子データベースからの知識 発見などがある..
(16) ・2.2.帰納学習/データマイニング. 11. C. ▲. G G e n e r. T − 1 C. f. C. e. P S. S. 図2.4:バージョン空間表現. 2.2.2 仮説空間を利用した学習 仮説空間を利用した学習は,最も古くから研究された学習法であり,帰納学 習を「選ばれた表現言語によって定義される仮説空間と呼ばれる膨大な空間の 中から良い仮説を見つける過程である」と解釈する考えに基づいている.本節 では・代表的なアプローチであるバージョン空間法,AQ15について述べる.. バージョン空間法 バージョン空間法【Mitche1182】は,Mitchellにより提案されたデータ駆動 型と単一表現のアプローチをとる概念獲得方法である.バージョン空間法とは, 1)概念と例を表現するための言語,2)訓練のための正と負の例,が与えら れたとき,全ての正の例をカバーし,負の例を一つもカバーしないような唯一 の概念(記述)を発見するものである・言語としては,特徴ベクトル(属性/ 属性値のリスト)の連言記述や論理記述がよく使われる. バージョン空間の表現は,例を最も特殊な仮説とし,空の記述(全ての条件 が落された記述)を最も一般的な仮説とし,全ての仮説を一般化の半順序関係 を用いて表現する.「今までのデータにより除外されていない仮説」の集合H は,Hの中でも一般的な要素(G集合)と,最も特殊な要素の集合(S集合) とによってはさまれた領域として表現される(図2.4参照). 正と負の事例を訓練例として与えた時,可能な仮説の候補を絞る方法を候補.
(17) 12. 第2章関連研究. hLnCtion:EliminateCandidate. 九甲山:事例集合か 0現車祝亡:仮説H. 仮説集合Hの初期化; //G集合は空の記述とし,S集合を最初の一つの正の例に設定 for each事例dinDdo elseifG=SかつHが単一要素thenreturnH elSe(. ifdが正例then( その例をカバーしない仮説をGから全て取り除く; Update−Sルーチンを呼び出す; )elSei//dが負例 この例をカバーする仮説をSや、ら全て取り除く; Update−Gルーチンを呼び出す;. return H. 図2.5:候補削除アルゴリズム. 削除学習アルゴリズムという.このアルゴリズムの最終結果として,仮説H (GまたはS)を出力する. このアルゴリズムで使われる一般化/特殊化の手続きとしては,表現言語の 具体的な形式にも依存するが,条件削除/付加,変数化/定数化,言語の上位 概念/下位概念,区間連続化規則などがある.具体的には,一般化手続きであ るUpdate−Sは,その例と今までのSとの間で一般化を施し,その中で最も特 殊な仮説を全て含むようにSを更新する・逆に,特殊化であるUpdate−Gは, 負の例を含まないようにGを特殊化し,その中で最も一般的な仮説を全て含 むようにGを更新する・この一般化/特殊化手続きが,記述の半順序関係, 即ち,全ての可能な仮説空間を作りだし,候補消去アルゴリズムはこの可能な 仮説空間の一点を選択する.従って,選択的帰納推論と呼ばれる. バージョン空間法のUpdate−Sは,他の方法に比べて強力で,訓練例の与え 方によって学習の結果が変わらない斬新的学習を実現している.また一般的な 方法論であるため,表現言語,一般化法にさまざまな変更が可能で,いろいろ な応用ができる・しかしながら,誤った訓練例(ノイズ)に弱く,選言(論理.
(18) 13. 2.2.帰納学習/データマイニング 凡mCわれ:Star 劇町扉. ‥事例集合か,正例ID. O坤uf:仮説H repeat. d←クの正例からランダムに選ぶ; star←dをカバーし負例を含まない,最も一般的なルール; starから最適なルールを選ぶ; このルールによってカバーされる例をpから削除する; unti17)が空. 図2.6:スターアルゴリズム. 和)を含む概念を扱えないなどの短所もある.また多くの特徴記述を扱う大規 模な概念の学習は,その仮説空間が巨大なため計算が困難になる.. AQ15 Michalskiのグループは,分類規則の集合(分類器)を学習するためのいく つかの技法を開発している・AQ15tMichalski861は,クラスciの訓練例を 他のすべてのクラスり(壱≠J)から識別するようなルールの中で最も一般的な ルールを学習する. AQ15は,ルールの総合的な明快さ,評価/記憶コストのようなユーザ定義 された(あるいはデフォルトの)パフォーマンス基準を満たすルールを最適化 することができる.AQ15のメイン関数は,正例/負例事例の集合から概念記 述を構築するAqアルゴリズムが基になっている. Aqアルゴリズムは,候補削除アルゴリズムを繰り返し適用するのとほぼ等 しい.AQ15はルールを学習する問題を一連の単一概念学習の問題に変換する・ クラスC. のルールを見つけるためには,クラスC. に属するすべての事例を. 正例と考え,他のすべてのクラスに属する事例を負例として考える.そして, Aqを適用することにより,すべての正の概念(正例)をカバーし,負の概念 (負例)を一つもカバーしないルールを見つける.AQ15は,そのようなルー ルの中で最も一般的なものを求めるスターアルゴリズム(図2.6)を利用する. これは,クラスに属するための必要粂件を求めることになる.図2.7は,それ.
(19) 14. 第2章関連研究. 図2.7:スターアルゴリズムによるルールの獲得. ぞれのクラスciについてスターアルゴリズムを実行した結果を図式的に示し たものであり,●,▲,■は各クラスの事例を表し,楕円はクラスqをカバー する最も一般的なルールを表すものとする. しかし,単純にそれぞれのクラスC に対してスターアルゴリズムを適用し ただけでは,未知の事例の領域で識別のためのルールは互いに重複する.AQ15 では重複しないルールを発見するために,次のような工夫がなされている・C拍≠ J)中のすべての与えられた事例に加え,既に学習したすべてのクラスC轟く 可のルールを満たす概念を負例として与える.結果として図2.8のような重複 のないルールが生成される(cl,C2,C3の順で学習).このとき,未知の領域で は,まずclを識別するルールが一番大きな領域を占め,残りの部分からC2, さらにその残りからC3を識別するルールの領域が割り当てられる. AQ15のスターアルゴリズムは,候補削除アルゴリズム以上の計算量を必要 するため,大規模な学習データ集合に関するルールの発見に適していない.ま た,候補削除アルゴリズム同様ノイズに弱く,線形分離不可能なデータ集合に 関しては,訓練事例に対する過度の学習(オーバーフィッティング)を引き起 こす問題が残っている..
(20) 2.2.帰納学習/データマイニング. 15. 図2.8:重複のないルールの獲得. 2.2.3 ニューラルネットワーク. ニューラルネットワークは,互いに結合し合らた複数のユニットで構成され る・どの結合も関係を数量で表した重みを持つ.重みはニューラルネットワー クの中で長期の記憶装置のための基本となる要素である.学習は一般的に,重 みを更新することによって位置づけられる.ユニットのいくつかは外的環境に 接続しており,入出力ユニットとして設計されている.重みは,ネットワーク の入出力の振舞いが入力を支える環境が示すそれとできるだけ合致するように 修正される. ニューラルネットワークには,非常に多くの種類のネットワーク構造が存在 するが,その中で最もポピュラーなのは多階層フィードフォワードネットワー ク【Hinton86]である.多階層フィードフォワードネットワークは,明確に区 別された入力層,出力層そして1層以上の隠れ層からなる階層構造を持つ.各 ユニットは次の層へだけ結合されており,同じ層の中のユニット間や,飛び越 えた層には結合されていない.どのユニットも他のユニットからの入力の結合 集合と,他のユニットへの出力の結合集合,現在の活性化レベル(内部情報) を持っている.また,次のステップでの入力と重みが,与えられた活性化レベ ルの計算につながる.すなわち,互いのユニットが入力を基本にして局所的に.
(21) 第2章関連研究. 16. 出力層. 隠れ層. 入力膚. 図2.9:レストラン問題におけるニューラルネットワーク. 計算する. 図2.9は,レストラン問題(表2.1)における多階層フィードフォワードネッ トワークを表している.このようなニューラルネットワークを構築するには最 初に,いくつのユニットが使われるかを決定しなければならない.それから, そのネットワークの重みを初期化し,訓練する例の集合が与えられ,学習アル ゴリズムを使って重みを訓練する.本節では,代表的な学習アルゴリズムであ る誤差逆伝搬学習について説明する. 誤差逆伝搬学習 多階層フィードフォワードネットワークは,入力層に与えた信号が結合の重 みによって変換されながら出力層のユニットの値として出力される前向きの信 号伝搬を行なう(フォワードプロパゲーション).しかしこれだけでは,ただ 入力パターンからある決まった出力パターンが出るだけである.問題は入力パ ターンに対して望ましい出力が出るようにネットワークの学習を行なうことで ある・この学習の代表的なものが誤差逆伝搬学習(バックプロパグーション) である・判断が入力層から出力層へのフォワードプロパゲーションだとしたら, バックプロパゲーションによる学習は,出力層での誤差を入力層へ向かって伝 搬させることで達成される. フォワードプロパグーションは,生体のニューロンを近似したものである.各 ユニットの多数の入力に結合の重みをかけ総和し,活性化関数Jと呼ばれる非 線形関数を通して単一の出力を出力層の方向へ伝搬していくことにより実現し.
(22) 2.2.帰納学習/データマイニング. 17. 第n層におけるユニット. 内 h︑■Lr∴・已・−卜∴■I.I. 入力層. 隠れ層. 出力層. 図2.10:フォワードプロパグーション. 第n層におけるユニット. 図2.11:バックプロパグーション. ている(図2・10参照)・活性化関数はシグモイド関数(sigmoid)が利用され ることが一般的である・ここで,第m層のi番目のユニットの内部情報を彿 出力値を考,第m−1層のj番目のユニットから第m層のi番目のユニットへの 重みを昭誉れとすると,第m層のi番目のユニットの出力値考は次の式で 求められる.. 埠=∑呵㌃1,れ・ギ ̄l J. Xr=Sigmoid(uT)=. 1+e−牢. バックプロパゲーションは,実現すべき入出力関係の訓練例が与えられた時, それを実現するようにネットワーク中の各結合の重みを調整していく手法であ る・その指針は,ネットワークが計算した出力と目標出力との二乗誤差を小さ くすることであり,勾配法を用いて修正量が求められる(図2.11参照)..
(23) 第2章関連研究. 18. 凡mCわ0m:BackProp J如祝f:〃eねノ0γた,事例集合か 仇郎融:(重みが変更された)〃eh〃0γた for eachdin7)do O←FowardProp(D);. if(出力層の出力と目標出力の二乗誤差>閲値)thenbreak; E〃=t−0. for each階層inNetworkdo. 町=埠(1−埠)∑メⅥ莞叫軍+1 △昭予れ(t)=賭場 ̄1+α△明予れ(ト1) 明予れ(け1)=W肯1,れ(t)+△明予れ(t). end end return Network. 図2.12:誤差逆伝搬学習アルゴリズム バックプロパグーションの特色は,フォワードプロパグーションに用いるネッ トワークの結合構造をそのまま利用して,出力側から入力側に向けて教師情報 (誤差情報)を伝搬している点で,伝搬後,結合の両側に存在する情報だけを使っ て,その結合の重みの修正量を決定できる.したがって,教師情報伝達用の特 殊な通信を必要としない学習法となっている. ここに,目標出力をt,出力層から出力への結合の重みを1,第n層のi番 目のユニットが伝搬する誤差情報を町,とすると,誤差逆伝搬学習のアルゴ リズムは図2.12で表される.この時,. ギ=項1−埠)∑Ⅵ莞叫ぢ+1 は,誤差情報且を現在のユニットの内部情報(可と結合の重みを利用し,出 力層から入力層へ逆伝搬するものである.以上のようにして誤差情報が伝搬さ れると, △明予れ(t)=賭場 ̄1+α△明㌻,れ(七一1) を利用して次に結合の重みの修正量を決定する・△明予れ(f)はれ−1層の ユニットたとれ層のユニット盲との間の結合の重みに対する修正量を示し,.
(24) 2.2.帰納学習/データマイニング. 19. △昭予れ(ト1)は前回の修正量を示す・恒は学習定数で収束の速さに関係す る1.0以下の正の実数・αは安定化定数で,前回の重みの修正量を使い,収束 時の振動を抑える効果がある1.0以下の正の実数である.修正量が求まると, 明言,れ(Hl)=明予れ(t)+△明言,れ(f) により,結合の重みを修正する. ニューラルネットワークは,分類クラスではなく実際の値を予測するために 使うことができる・しかし,分類問題では,予測されたクラスを何らかの方法 で必要である・例えば,クラスの数が2ト1と2もの間にある場合を考える.こ のとき,クラスを識別するためにも個の出力ユニットを与え,それぞれの出力 を0,1として表す方法がある. ニューラルネットワークによる学習は,非常に大きな訓練事例が必要である という問題点を抱えている.また,ニューラルネットワークによる学習は確か に与えた事例から予測や分類を行うことができるが,ニューラルネットワーク 自体は単純なブラックボックスに等しく,予測や分類をどのようにしたかとい う明確なルールを提供しない.. 2.2.4 強化学習 前節までに,例題から学習する帰納学習法について説明した.その主旨は, 環境から入力(属性値の並び)と出力(クラス)の組を与えられたとき,学習 タスクは,入力から対応する出力を生成することが可能な概念(ルール)を学 ぶことであった.このような教師つきの学習法は,教師が正しい値を与える場 合に適切である.また,その関数の出力が未来に関する予測を表現している場 合にも,次の時間ステップにおいて成否が判断しうるゆえに,適切である. しかし,実際問題として入力に対する出力が与えられていない教師なしの場 合も多く存在している.このような環境の下では,学習タスクは試行錯誤的に ルールを生成し,結果的にそのルールが良かったか悪かったかという情報のみ から学習しなければならない.そのような情報を総称して報酬と呼ぶ.強化学 習とは,報酬という特別な入力を手がかりに環境に適応したルールを学習する 教師なし機械学習である..
(25) 20. 第2章関連研究. 図2.13:分類システム. 強化学習として良く知られたアルゴリズムには,Q学習,バケツリレーな どがある・また,一般的に強化学習では,非常に膨大な探索空間を必要とする ため,効率的な探索空間の局所化を行うために遺伝的アルゴリズム(Gen。ti。 Algorithm)を用いるケースが多い・本節では,バケツリレーによる強化学習 と遺伝的アルゴリズムによる探索空間の遷移を統合した枠組であるClassifier System(分類システム)【Booker89】を紹介する. 分類システム. Hollandが示した分類システムではメッセージリストを使用し,内部思考的 ルールの連鎖においては,原理的に並列発火を提唱している点が特徴的である (図2・13)・この仕組みには大きな可能性があるが,実際問題に適用すること を考えると,直感的にみても,ルール間の情報交換の場であるメッセージやルー ル自身の空間の設計,並列発火やルール連鎖による複雑な処理に対する制御な ど難しい点が多い・それゆえ,一般的には,分類システムをルールの連鎖によ る内部思考を持たない単純なシステムとしてとらえて利用する. 本節では単純な分類システムの詳細について説明する.ルールのシンタック スには広いバリエーションがあるが,一般的に次のように表すことが出来る..
(26) 2.2.帰納学習/データマイニング. 21. 凡nction:Classifier−System 血町扉:事例集合か,分類器の要素数几 仇ゆ融:分類器C. 航:圭禁誓葦{ if(i=1)thenCt←ランダム生成(n); elseif(i>1)thenCt=GeneticAlgorithm(Ct−1,Ft);. for eachdinDdo end. ifCtが目標を満たすthenbreak; ). Ci←BucketBrigade(Ct,d,Ri−1);. returnCf. 図2.14:分類システムのアルゴリズム. if<condition>then<action>.. このルールの意味は,COnditionが満たされたときにactionを行うことができ る(発火する)ということである. 分類システムでは,学習されるルールセットを母集団と呼び,学習の第一段 階では母集団のirtbenルールをランダムに発生させる.初期生成された母集 団は,各ルールの良し悪しを測る尺度が存在しないため,強化プロセスBu。k● etBrigade(バケツリレー)アルゴリズムを実行し,どのルールが環境に適し ているか学習する.しかしながら,現実的な母集団サイズでは,環境に対する すべての空間を表現することは不可能であるため,遺伝的アルゴリズム(GA) により効率的な空間探索を行うことを試みる(図2.14参照). ルールの連鎖による内部思考を持たない単純なモデルのバケツリレーアルゴ リズムでは,まず,入力された事例dに照合する複数のルールから,発火する 唯一のルールを選択する(競合解消).競合解消では,特殊性が高いルールほ ど選択されるようにするため,競合解消の指標となる提示(bid)は,強度だ けではなく特殊性を取り入れた計算によって決定される(式2.1).一般的に は・事例にマッチしたルールは式2.2によって。最dを計算し,最高値を出した.
(27) 22. 第2章関連研究. ルールを発火させるものとする. 最d= e玩d. =. qdX(古記1×sp+最d2)×且 最d+noise桓). ここでq闇はビッド係数であり1・0以下の正の実数,最1,最d2は 最dlx条件部長の最大値+鮎d2=1. を満たす正の実数・射ま分類器の現在の強度,nOis中日ま確率分布. P(車完expト(;)2) にしたがう乱数とする. 1つの事例が入り,競合解消を行なった後,発火して正しい答を出したルー ル(成功したルール)は,鮎dを支払って報酬を受けとり,量を増加させる. 発火したが間違った答を出したルール(失敗したルール)は,最dを支払うだけ である・そのため,このルールは晶が減少する.また,事例に照合したルー ルはすべて税金を支払う・これは,照合するだけで競合解消に生き残れないよ うな粗悪なルールを,早く淘汰するためである・また,すべてのルールから, 別の種類の税金をとる・これは・有効なルールならば問題にならないほど小さ いものだが,事例に全く照合しないような役に立たないルールが,自然に淘汰 されていくようにするためである・上記のモデルを評価式として表現したもの を式2.3−2.6に与える. 成功の場合 St+1=(1・0−Thd−nife)×St−bid+PAYOFF. (2.3). 失敗の場合 ∫叶1=(1・0一花d一端Je)×筑−ゐ五d. (2・4). マッチのみの場合 晶+1=(1・0−孔d一端Je)×島. (2・5). 量+1=(1・0一端Je)×gf. (2.6). マッチしない場合.
(28) 2.2.帰納学習/データマイニング. 23. 凡nction:GeneticAlgorithm htput:分類器C,FitnessFunctionFi 仇ゆ雨:分類器C repeat ︐︶ ● l. だ嵩認霊漂霊. until. return C. 図2.15:遺伝的アルゴリズム. ここで島,烏+1は現在の強度と評価後の強度を表し,孔d,孔Jeはそれぞれビッ ド税と存在税,PAYOFFは成功報酬を表す. 強化学習は,与えられた探索空間の中で環境に適応する関数(ルール)を強 化する学習法であるため,通常,非常に膨大な探索空間を必要とする.しかし, 膨大な探索空間は計算コストを非常に大きくする要因となるため,効率的な探 索空間の局所化を行うために遺伝的アルゴリズム(GA)を利用するのが一般 的である. GAには,大別するとミシガンアプローチとビッツアプローチの2つがある. ミシガンアプローチは各ルールを一つの個体とし,その集合を母集団と呼んで いる・そして遺伝的アルゴリズムのオペレータはルールに対して行われる.具 体的には,ルールの条件部に対して交叉を行ったり,突然変異を行ったりする. つまり一つのルールを一つの染色体(遺伝子の配列)と見なすものである.一 方,ビッツアプローチは,母集団を一つの個体として扱い複数の母集団で遺伝 子操作を行う.このとき評価は各ルールではなく各母集団に対して行う.一般 に分類システムで利用されるのがミシガンアプローチである. 分類システムの遺伝的アルゴリズムを図2.15に示す.適合関数(Fitness_ Function)は分類器の強度の関数として表現され,線形スケーリング,シグマ 切断,べき乗スケーリングなどがある.Selection(選択交配)は,どの個体 同士を交配させるか決定するプロセスである・Reproduction(再生)では, 交叉,突然変異とよばれる生物の進化をモデル化した操作が行われる.交叉は, 2つの親の染色体を組み替えて子の染色体を作る操作である.突然変異は,遺.
(29) 24. 第2章関連研究. 伝子を一定の確率で変化させる操作である.突然変異は,あまり大きな変異確 率に設定するとランダムサーチ化する危険性を含んでいるが,ある程度の変異 は必要である・突然変異がない場合には,初期の遺伝子の組み合わせ以外の空 間を探索することができなくなるため,求められる解の質に限界がでてくる. 2.2.5 コミツティ学習 着実な技術進展はあるものの,決定木を代表とする個別の分類器の精度向上 はほぼ限界に達している.さらに精度をあげるため,データの分布を変え,同 じ種類の分類器を何度も生成してコミッティを形成し,メンバの総意(投票) で結論を出す手法が広く受け入れられつつある. 本節では,訓練データの重複サンプルから分類器(ルール集合,決定木など) のコミッティを形成するbagging(バッギング),誤分類されたデータの重み を増加して次のデータを作成し分類器コミッティを形成するboosting(ブー ステイング)について説明する.. バッギング バッギング(bootstrapandaggregating)は,ある集合をブートストラッ プ集合に分解し,その各々に対して分析を行い統計をとるという統計技術の一 手法を指す・ただし,一般的にデータマイニングでは,帰納学習システムと融 合したコミッティ学習を意味する場合が多いため,本論文において単にバッギ ングと記述してある場合,コミッティ学習を意味するバッギングを指す. バッギングの特色としては,わずかな差異をもつ,いくつかの学習集合を連 続して学習システムに与え,それぞれの結果(分類器)を統合することにより, 一つのより良い分類器を得るところにある(図2.16). 具体的には,図2.17に与えるように,入力された事例集合かからブートス トラップ集合を生成する.ブートストラップ集合の要素となる各事例集合月か (各々の事例集合はそれぞれ差異を持つ)に対して,任意の学習アルゴリズム を実行し,分類器コミッティの七番目の分類器Ctを得る. 図2.17により得られた分類器のコミッティは,環境から事例が与えられる と,各分類器に入力事例に対する解(クラス)を投票させ,最も多いクラスを.
(30) 2.2.帰納学習/データマイニング. 25. Classifier &action. Boobtraped dab8et8. 図2.16:バッギング 凡nction:Bagglng. 座視f:事例集合か,属性集合ダ 0祝砂山:分類器のコミッティComm招ee ブートストラップされたp集合←boostrap(p); foreachBDinブートストラップされたD集合do Ct=学習アルゴリズム(月か,ダ); end. return Comm招ee;. 図2.17:バッギングアルゴリズム. 最終的なクラスとして出力する. ブーステイング ブーステイングとは,数多くの精度の低いルールを組み合わせて非常に精度 の高いルールを得るための,汎用的かつ理論的な性能保証のある統計技術であ る.現在,様々なブーステイング法が提案されているが,本節では最も一般的 に利用されるAdaboostlFreund95】について説明する. Adaboostは,与えられた学習アルゴリズムを,各々一回実行するラウンド をr回繰り返す(f=1,‥,r).ここで,鍵になるアイデアは,事例集合(訓 練集合)上に定義された確率分布(あるいは重み)のリサンプリングを行うこ とである.ここで,t回目の試行における事例几(れ=1,..,Ⅳ)の重みを戒 とする.これらの重みは初期値として全て等しく設定されるが,各ラウンドに.
(31) 第2章関連研究. 26. D:data(withweight) Set. Class捕er &action. 図2.18:ブーステイング. おいて誤って分類された事例の重みが増やされることにより,学習アルゴリズ ムがより難しい事例に集中して学習することができる(図2.18). 具体的には,図2.19に示すアルゴリズムに従い動作を行う.まず,入力と して事例集合かおよび,属性集合ダを受け取る.事例の重みの初期値として 全て等しい値を設定する.次に,以下の動作をr回繰り返す.学習アルゴリ ズムを実行し,tラウンドの分類器Ctを学習する.ここで,efをCtが誤っ て分類した事例の重みの総和とする.このとき,t+1ラウンドの各事例の重 みは,. W㌃1−. 戒e ̄dtd(正). により算出される・αt=主軸(宇)・中日ま,分類器が事例を正しく分類し た場合は1,誤った場合は0の値をとる関数であり,易は,七十1回目の事例 の重みの総和を1にするための正規化係数である. 最後に投票では,各分類器の一票の価値を吋字,(t=1,‥,r)として考 え,投票結果が最も高い分類クラスを出力する.. コミッティ学習は,学習精度の向上が期待できる代わりに,学習にかかる時 間的コストが非常に大きくなる欠点を持っている.基本的に学習精度を高める ことと学習時間を短くすることはトレードオフの関係があるため,学習システ ムを利用する利用者の目的により決定されるべきである..
(32) 27. 2.3.データマイニング構築支援. 凡nction:Boosting 劇『扉:事例集合か,属性集合ダ. hr(t=1;t<=. Ct=学習アルゴリ for eachdin Ddo. 告知. 0JL. p. for eachdin. dT. 0坤uf:分類器のコミッティComm招ee l. /Nend. t. (か,ダ). 祀1−廿とe可(王) Zt end ). return Committee. 図2.19:ブーステイングアルゴリズム. 2.3 データマイニング構築支援 データマイニング構築支援は,適当な粒度(ビルディングブロック)に分解 されたデータマイニングに関する概念部品を知識として持ち,利用者の要求や 入力されたデータの特徴に合わせ,部品を合成することでデータマイニングシ ステムを再構築するメタ学習システムである. 本節では,このようなデータマイニング構築支援の研究の具体例として,Robert Engelsのタスク指向ユーザガイダンス(TaskOrientedUser−Guidance)【Engels96], CilineRouveirolらの知識レベルモデリング(KnowledgeLevelModeling) lRouveiro194],RonnyKohaviらのMLC++を示す・. 2.3.1 タスク指向ユーザガイダンス 目標が何であれ,複雑なタスクを実行する際に,人はタスクの構造を分類で きなければならない.これは,機械学習,統計学および知識獲得の分野の技術 が統合された分野であるKDDでも同様のことがいえる.現在,莫大なデータ を扱うことが出来るより効率的なアルゴリズムの必要性が高まっている一方で, 専門家ではない利用者を支援するために,タスクに応じて適切な技術を選択で きる方法を提供する必要がある.タスク指向ユーザガイダンス【Engels96】は, 典型的なKDDタスクの構造を分類する際に利用者をガイドし,ML技術を選.
(33) 第2章関連研究. ぎ⁝ud−dP3u¢TOJ明d↑ Solution. 図2.20:タスク指向プランニング. 択/使用する場合に利用者を支援する戦略コンポーネントのためのフレームワー クを提供する・戦略コンポーネントの目的は,開発時間を短縮するためのタス クコンポーネントの再利用と・KDDプロセスを定義する過程の単純化,典型 的なKDDタスク構造を分類するためのタスク指向プランニング,評価を支援 することである. 図2・20は,タスク指向ユーザガイダンスのメインフレームであるタスク指 向プランニングを示している・ここに,T誠k(タスク)とは,ある状態を別 の状態に変化させる一連の推論機構であり,PSM(問題解決手法:Problem SoIvingMethod)とは・あるタスクを分解したときに生成されるサブタスク 列を制御フローを使って定義したものである・また,Tbchnique(技術)はコー ドレベルのアルゴリズムに相当する. タスク指向プランニングの概要は・トップレベルのタスク(【Engels96】では, KDD)をPSM/タスクと技術との間に1対1の写像ができるまで段階的に分 解し・写像された技術のシーケンスを解(KDDプロセスのコードレベルのア ルゴリズム)するものである・タスク指向プランニングにおける利用者への支 援は次の通りである・まず,事前知識として,KDDに関するあらゆる分解段 階のPSM/タスクの定義を行う・このとき,PSM/タスクの分解パターンは 複数定義されている・利用者は,この知識に基づいた分解パターンの中から,.
(34) 2.3.データマイニング構築支援. 29. 目標を達成できるタスクの選択を行う.この選択は,ただ1つに決定する必要 はなく,妥当であると思われるタスクを複数選択できる.その結果,解となる コードレベルのアルゴリズムは複数生成される.タスク指向プランニングでは, 複数生成されたKDDプロセスは,すべて利用者に提示される.最適なKDD プロセスを選択する作業は,評価の支援を行うフレームワークに委託される. このように,タスク指向ユーザガイダンスは,目的のタスクを分解して実行 レベルのKDDプロセスに変換する過程で,分解における選択パターンを限定 することで利用者をガイドするという支援方法をとっている.しかし,示され た選択パターンの中で,妥当と思われるPSM/サブタスクを選択は利用者が 行うのでKDDや機械学習の分野を専門としない利用者を対象とした場合,こ の方法による支援はあまり有益でないと思われる. 2.3.2 知識レベルモデリング 知識レベルモデリングは,生成とテスト戦略に従って構成できる学習システ ムの知識レベルモデルを利用することで,利用者の要求に適した学習ツールの 構成を支援する環境である【Rouveiro194ト知識レベルモデルは,学習ツール の明示的な基本相関関係(学習操作)と,学習プリミティブの制御(バイアス) と,学習プリミティブの異なるいくつかの実装法を生成することができる.提 案されたモデルはKADSlShreiber92]の推論構造形式に基づいており,利用 者とのインタラクションの時にインタフェースとして利用される.この学習操 作の明示的な表現と関連するバイアスは,知識ベースアプリケーションを開発 する知識エンジニアが最適な学習ツールを見つけるために様々な学習ツールを 構成する作業を容易にすることが可能である. この環境の目的は,利用者の要求にあった機械学習アルゴリズムをサポート できる機械学習ツールを提供し,利用者がそのツールをグラフィカルに構成す ることができることである.その利点は以下の通りである.. 適応性目的,環境や事例の複雑さ,利用できるドメインセオリーのタイプに 依存して,利用者が問題の適性にあった学習関数の集合を集めることが でき,制御パラメータの定義を具象化することができる.これにより, 様々な学習アルゴリズムの構築を容易にする..
(35) 30. 第2章関連研究. 単一性・同一性与えられた学習システムの構成は,あらかじめ定義された学 習集合を集め,選ばれた要素に関連するバイアスをインスタンシエーショ ン(具象化)することによって生成される・学習アルゴリズムを構成す るまでの各々のステップにおける表現はCommonKADSにより統一さ れているため,直観的な方法で与えられた構成をグラフィカルに仕様化 することを可能にする.. 知識レベルモデリングの支援の手順は次に示す通りである.まず,利用者が 目的,事例集合,利用可能なドメインセオリーなどを支援環境に入力する.支 援環境は,あらかじめ定義された学習関数の適性に関する知識を利用して,問 題の適性にあった学習関数を選択し利用者に提示する(ただし,【Rouveiro194】 では・ここまでのプロセスは具体的に述べられていない)・学習関数は,以下 に示す5つのエンティティから構成される. 学習操作学習アルゴリズムによって具現化された換作・これらの操作は,コー ドの一部に対応するプリミティブかも知れないし,あるいは抽象操作に 分解されるかもしれない抽象換作に対応するかもしれない. 学習操作の可能な分解ある抽象操作を実装するための異なる方法. 学習操作間のデータフローある分解の中での換作間の連結を表現. 制御パラメータ(バイアス)これらのパラメータは学習操作の振舞いを制御す る.. 分解を制御している制約これらのエンティティは与えられた分解に付与され た条件を表現する. 利用者は・選択された学習関数の制御パラメータ(バイアス)を具象化する. このプロセスは・グラフィカルインタフェースを通して行われる.バイアスに 関しては,バイアスオントロジーが提供されている(図2.21).利用者は,問 題に適するように,オントロジー中の概念の選択を行う・最後に,支援環境は 上記のエンティティの制約に基づき,選択された学習関数からいくつかの異な る学習アルゴリズムを構成し,適切な学習アルゴリズムを利用者に提示する..
(36) 2.3.データマイニング構築支援. 31. Pahialder orTC Vocabularyor. hnguage. hy匹theSi8. bias. SynbはOr hypothesiS/ COnCept. 霊慧∠二二::ニご Exhau5tive G一&.T. barmng bi88eS. Searc bias. くBeamさearCh Dichotomy. Hillclimbing. ci血tion∠慧:ニ芸慧. く:. neralization. Yalidity CdtedombrTC. Ab80rption Literal dropplng. Yaliditycritehon hrhypothesi80r HS. 慧datioく慧≡f te5tingexampleS. 図2.21:バイアスオントロジー. このように,知識レベルモデリングでは,妥当と思われるバイアスオントロ ジーの概念を利用者が選択することで,目標を達成する学習アルゴリズムを半 自動的に構築することができる.しかしながら,タスク指向ユーザガイダンス 同様,機械学習の専門知識をもたない利用者の場合,バイアスの選択は困難な タスクとなるので,大きな効果が期待できないと思われる.. 2.3.3. MIC++. RonnyKohaviにより提案されたMLC++は,プログラム言語C++で構 築された機械学習ライブラリであり,グラフィカルインタフェースを利用した 次の2つの機能が備わっている.(1)数十種類の既存の学習システムを選択 するだけにより実行することができる.(2)新たな学習システムをMLC++ ライブラリに追加できる.MLC++を利用することで,利用者は学習システ ムをインプリメントするという煩わしさから解放され,与えられた問題に対し て適切と思われる既存の学習システムを選択するだけで,目的の学習システム を獲得することが可能となる. このように,MLC+十は前節までに述べた2つの支援環境とは異なり,学 習アルゴリズム選択問題に関する支援は全く行っていない.専門知識をもたな.
(37) 32. 第2章関連研究. い利用者を支援対象とした場合,そのような利用者はガイドもなく妥当な学習 システムの選択や学習パラメータの決定をすることは非常に困難であることか ら,大きな効果は期待できないと思われる.. 2.4 結言 本章では,2・2節で,代表的な帰納学習/データマイニングシステムについ て述べた・ここで述べた以外にも非常に多くの帰納学習/データマイニングシ ステムが存在し,現在も増加の傾向にある・ところが,所与のデータに対して, 常に最良のパフォーマンスを提供する学習アルゴリズムが存在しないことから, 利用者が所与のデータに適する学習アルゴリズムを選択するという問題が生じ る・このような問題を解決するために,学習アルゴリズム構築支援環境が必要 になってきおり,2・3節で述べた学習システムの専門家をターゲットとした学 習アルゴリズム構築支援環境が研究されている・しかし,データから知識を発 見することを望んでいる利用者は,その多くが専門知識を持たない利用者であ る・したがって,そのような利用者を想定した場合,現状における支援環境で は不十分であると考えられる・したがって,専門知識を持たないユーザを対象 とした帰納アプリケーション構築支援環境の構築が必要であると思われる..
(38) 第3章 オントロジーに基づく帰納アプリケーション 構築支援環境. 3.1 緒言 機械学習(ML)と知識発見(DM)技術が,急速に成長しつつあり,既に 多くの知識発見ツールを利用することができる.しかし,機械学習の専門知識 をもたない利用者(ノービスユーザ)がそのようなツールを利用するには,ま だまだ負担が大きい・これは,MUDMシステムの数の急激な増加に伴い, ML/DM技術を必要とする利用者(ユーザ)が「ML/DMアルゴリズムの選 択」と「データ前処理」という2つの問題に直面しているからである.すなわ ち,(a)与えられたアプリケーションで利用する最も適切なアルゴリズムを 選択し,(b)このアルゴリズムに対してどのように効果的なデータの前処理 を実施するかという2つの問題である. 伝統的に,ノービスユーザがこの間題を解決するために,試行錯誤的手法を 利用するか,コンサルタントへの依頼という手段を利用する.しかしながら, 前者の方法は,多くのコストがかかり,かつ信頼性がなく,後者の方法は,専 門家のもつノウハウ(マイニングアルゴリズム選択表など)に依存しすぎるこ とが課題であり,どちらの方法もMUDM技術の適用支援環境が必要になっ てきている. 以上の背景から,近年,MLのコミュニティではMLアプリケーションを開 発するための方法論の整備やその開発プロセスを自動化するメタ学習プロセス 33.
(39) 34. 第3章オントロジーに基づく帰納アプリケーション構築支援環境. に関心が寄せられている(ECML98,AAAI98&ICML98).本来,(a)(b) のどちらの問題に対しても支援できることが望ましいが,まず(a)のアルゴ リズムの選択問題だけを支援する環境についてアプローチすることにする. 本章では,データマイニングに貢献する技術の中で最も大きな割合を占める 帰納学習システムを分析して,帰納学習システムを構成する帰納学習法を抽出・ 体系化することにより,帰納学習アプリケーションを自動合成するメタ学習シ ステムについて検討する・本章で述べる帰納学習法を合成する方法論は,単に 与えられた問題に対して有効な帰納アプリケーション選択するだけではなく, その組み合わせによっては新たな帰納アプリケーションを構築する可能性もあ り,その点からも興味深いと思われる. 以下,3・2節で,帰納学習アルゴリズムを構成する部品(帰納メソッド,あ るいは学習プロセスと呼ぶ)体系「プロセスオントロジー」と帰納メソッドで 扱われる様々な情報体系「オブジェクトオントロジー」の構築法について述べ た後,3・3節で,2つのオントロジーを利用した帰納アプリケーション構築支 援環境CAMLETの基本設計について述べる.最後に,3.4節では,CAMLET の構築支援結果および評価・考察を述べる.. 3・2 帰納学習におけるオントロジーの構築 近年,知識システムは知識モデリング技術に基づき,部品合成により開発さ れることが多くなってきている【vHeかt95】.特に,再利用可能な知識要素を 活用するために,多くの研究では高い抽象度で問題解決法(PSM)を活用す る立場をとっている(GenericTaskslBylander87],PROTEGE−IIlMusen92】,. Common−KADSlBreuker94】).PSMは実装の詳細とは独立した問題解決プ ロセスの仕様である・現在,その研究はPSMとともにオントロジー工学に移 行しつつある・オントロジーとは概念化の明示的な仕様【Gruber921であり, [vHeOst95】にしたがえば,多数のドメインにおいて利用できる一般的な概念 に関する汎用オントロジー,ドメイン知識の構造と内容の制約を与えるドメイ ンオントロジーなどに分類される. オントロジーの構築に重要なことは,タスクを円滑に行うための概念の切り 出しと階層化である.本節では,本研究におけるタスクである「帰納アプリケー.
関連したドキュメント
共助の理念の下、平常時より災害に対する備えを心がけるとともに、災害時には自らの安全を守るよう
よれば一般以上であり、概ね良好な結果が得られた(図
地蔵の名字、という名称は、明治以前の文献に存在する'が、学術用語と
うのも、それは現物を直接に示すことによってしか説明できないタイプの概念である上に、その現物というのが、
既存の尺度の構成概念をほぼ網羅する多面的な評価が可能と考えられた。SFS‑Yと既存の
先に述べたように、このような実体の概念の 捉え方、および物体の持つ第一次性質、第二次
市民的その他のあらゆる分野において、他の 者との平等を基礎として全ての人権及び基本
[r]