本システムはWeb上で動作するシステムであり,ブラウザがあれば実行できる.ユー ザからのデータ入力及び結果出力は全てWeb経由によって行われる.システムの実行は ユーザが必要なパラメータを入力することにより行われる.入力されたパラメータはWeb サーバ経由でCGIに受け渡される.CGIは,受け渡されたユーザのパラメータの指示に 従って,データの加工,及びマイニングアルゴリズムの実行などを行い,その結果をWeb サーバ経由でユーザ側のブラウザに表示する.また図4.2で示したようにデータマイニン グの流れは,試行錯誤の繰り返しである.そのため,本システムでは必要な個所でプロセ スの段階を戻ることが出来るシステム構成になっている.
本システムは大きく分けて相関ルール発見のデータを準備するデータ準備部分,相関 ルール発見アルゴリズムのパラメータを設定し相関ルールを実際に実行する相関ルール発 見部分,得られたルールを表示するルール表示部分,ルールの条件を満たす遺伝子を検索 し表示する遺伝子検索部分および,得られたルールから決定木を作成する決定木部分の5 つの部分から構成されている(図5.1).
本システムでは,出芽酵母細胞のマイクロアレイデータからマイニングを行うために,
出芽酵母がもつ各遺伝子の特徴情報をYPD1 データベースとENZYMEデータベースか ら抽出し,マイニング用のデータに加え,データ補強をしている.YPDは出芽酵母の全
1
Copyright(c)2000Proteome,Inc. AllRightsReserved. Notfordistribution.
YPD microarrayのデータ
ENZYME
データマイニング用のデータ 発現状態の設定
アプリオリの実行
生成されたルールの表示
ルールを満たす遺伝子の検索
C4.5の実行 ルールを満たす遺伝子の表示
作成された決定木の表示 遺伝子の詳細表示
決定木作成用のデータの作成
maxサポートの処理 データ準備部分
データマイニング部分
決定木部分 遺伝子表示部分
ルール表示部分
図 5.1: 本システムの概容
遺伝子の情報を網羅的に集めたデータベースであり,マイクロアレイデータと合わせるの に都合が良いからである.ENZYMEはEC番号による分類情報が使え,蛋白質の機能情 報に関するデータソースとして有用なものであるからである.
相関ルール発見には,Magdeburg大学のChristianBorgeltがフリーウェアとして公開し ているプログラムapriori(Ver2.5)を使用している[30].決定木作成にはNewSouthWales
大学のRoss Quinlanがフリーウェアで公開しているプログラムC4.5を使用している[31].
本システムは,Perl,awk,Cシェル,CGIプログラミングを用いて開発をおこなった.本 システムのWebサーバはSUN Microsystems社Enterprise3000で,OSはSunOS5.6,メ モリーは1024Mbyte,CPUはUltraSPARC-I I248MHzの4CPU構成である.
本システムは次のような手順で解析を行う.
1. ユーザが所定のパラメータをブラウザに入力すると,Webサーバ経由でCGIにパ ラメータが受け渡される.
2. CGIは,(1.)のパラメータに従ってマイクロアレイのデータを加工し,YPDと
EN-ZYMEデータベースの情報を付加することで,マイニング用のデータを作成する.
3. CGIは,マイニング用データのトランザクション数をマイニングのパラメータとし て提示する.
4. (3.)のマイニング用に準備されたデータのトランザクション数が不適切である,と ユーザが考えれば,(1.)に戻りデータを作り直す.
5. ユーザは(4.)のトランザクション数を参考にマイニングを行うための適切なパラメー タをブラウザに入力する.
6. CGIは,(5.)のパラメータに従ってマイニングを実行する.
7. CGIは,抽出したルールをユーザに示す.
8. ユーザは,抽出されたルールが不適切であると考えれば(6.)にもどり,マイニング のパラメータを設定し直す.
9. ユーザはさらにこのルールを次の2つの手法で分析することが出来る.
ルールの条件を満たす遺伝子集合を表示させる.
さらにDBGETによって遺伝子の詳細情報を表示させる.
ルールに基づいて決定木作成用のデータを作成し,C4.5で決定木を作成し,デー タの特徴付けを行う.