第 4 章 担当機能の開発
4.3 ある場所に関する物質ごとの相関ルールマイニング機能の開発
4.3.1 概要
本プロジェクトでは、三つの分析を行う。筆者が開発したのは、「ある場所に関する物質ご との相関ルール」を抽出する機能である。例えば、『ラスベガスにおいては「二酸化窒素」と
「PM10」が相関関係にある』というルールを抽出できる可能性がある。
4.3.2 処理手順
処理手順を図 4-4に示す。まず、データ加工システムの出力である中間データから、物質 名を抽出し、場所ごとに物質名をまとめる。次に相関ルールを抽出する。そして、抽出した 相関ルールをKMLファイル形式で出力する。
物質名を抽出時には、Hadoopを用いて処理の高速化を行っている。また、相関ルール抽出 時には、統計処理ソフトRのライブラリを使用し、処理記述の簡潔化を行っている。
図4-4 処理手順
4.3.3 抽出結果
図 4-5に「ある場所に関する物質ごとの相関ルール」を抽出した結果を示す。図中の記号 は以下の通りである。
表4-6 相関ルールのパラメータ
パラメータ 意味
lhs 条件部
rhs 結論部
support 支持度であり、条件と結論を同時に満たすトランザクションが 全トランザクショ
ンに占める割合
confidence 信頼度であり、ルールの条件が発生したときに、結論が起こる割合
lift リフト値であり、1より大きい場合は、有効なルールといえる
図 4-5 の 1~3 行目は、頻出アイテム集合を表している。また、4 行目の結果は、
carbon_monoxideとSulfur_Dioxideに相関関係があることを表している。
図4-5 相関ルールの抽出結果
4.3.4 KMLファイルの作成
抽出した相関ルールをGoogle Earth上に表示するために、図4-6のフォーマットのKMLフ ァイルを作成する。
<xml 宣言>
<KML 開始>
<Placemark の開始>
<description>
相関ルールをHTML で記述する
<description>
<point の指定>
測定地の緯度と経度の指定
<point の終了>
<Placemark の終了>
<KML 終了>
図4-6 KMLファイルのフォーマット
第 5 章 データマイニングシステムの評価
5.1 実験環境
システムの評価は6台のコンピュータで行い、1台を管理コンピュータ、残りの5台を計 算コンピュータとした。表 5-1に、ハードウェアの性能を示す。また、コンピュータ構成を 図5-1に示す。
表5-1 ハードウェア性能
パソコン CPU Memory 台数 デスクトップ
パソコン
Core(TM)2 Duo [email protected] 2GB 3
ノート パソコン
Core(TM)2 Duo [email protected] 2GB 2
Core(TM)2 Duo [email protected] 2GB 1
図5-1 コンピュータ構成
次に、ソフトウェア構成を表5-2に示す。
表5-2 ソフトウェア構成
名称 バージョン
OS CentOS 5.6
Ubuntu 10.0.4 Javaの開発環境 1.6.0_29
Javaの実行環境 build 1.6.0_19-b11 大規模分散処理フレームワーク Hadoop-20.0.203 統計処理ソフトウェア 2.10.0
3D地図ソフトウェア 6.2