• 検索結果がありません。

ある場所に関する物質ごとの相関ルールマイニング機能の開発

ドキュメント内 開発構想書 (ページ 33-36)

第 4 章 担当機能の開発

4.3 ある場所に関する物質ごとの相関ルールマイニング機能の開発

4.3.1 概要

本プロジェクトでは、三つの分析を行う。筆者が開発したのは、「ある場所に関する物質ご との相関ルール」を抽出する機能である。例えば、『ラスベガスにおいては「二酸化窒素」と

「PM10」が相関関係にある』というルールを抽出できる可能性がある。

4.3.2 処理手順

処理手順を図 4-4に示す。まず、データ加工システムの出力である中間データから、物質 名を抽出し、場所ごとに物質名をまとめる。次に相関ルールを抽出する。そして、抽出した 相関ルールをKMLファイル形式で出力する。

物質名を抽出時には、Hadoopを用いて処理の高速化を行っている。また、相関ルール抽出 時には、統計処理ソフトRのライブラリを使用し、処理記述の簡潔化を行っている。

4-4 処理手順

4.3.3 抽出結果

4-5に「ある場所に関する物質ごとの相関ルール」を抽出した結果を示す。図中の記号 は以下の通りである。

4-6 相関ルールのパラメータ

パラメータ 意味

lhs 条件部

rhs 結論部

support 支持度であり、条件と結論を同時に満たすトランザクションが 全トランザクショ

ンに占める割合

confidence 信頼度であり、ルールの条件が発生したときに、結論が起こる割合

lift リフト値であり、1より大きい場合は、有効なルールといえる

4-51~3 行目は、頻出アイテム集合を表している。また、4 行目の結果は、

carbon_monoxideSulfur_Dioxideに相関関係があることを表している。

4-5 相関ルールの抽出結果

4.3.4 KMLファイルの作成

抽出した相関ルールをGoogle Earth上に表示するために、図4-6のフォーマットのKMLフ ァイルを作成する。

<xml 宣言>

<KML 開始>

<Placemark の開始>

<description>

相関ルールをHTML で記述する

<description>

<point の指定>

測定地の緯度と経度の指定

<point の終了>

<Placemark の終了>

<KML 終了>

4-6 KMLファイルのフォーマット

第 5 章 データマイニングシステムの評価

5.1 実験環境

システムの評価は6台のコンピュータで行い、1台を管理コンピュータ、残りの5台を計 算コンピュータとした。表 5-1に、ハードウェアの性能を示す。また、コンピュータ構成を 図5-1に示す。

5-1 ハードウェア性能

パソコン CPU Memory 台数 デスクトップ

パソコン

Core(TM)2 Duo [email protected] 2GB 3

ノート パソコン

Core(TM)2 Duo [email protected] 2GB 2

Core(TM)2 Duo [email protected] 2GB 1

5-1 コンピュータ構成

次に、ソフトウェア構成を表5-2に示す。

5-2 ソフトウェア構成

名称 バージョン

OS CentOS 5.6

Ubuntu 10.0.4 Javaの開発環境 1.6.0_29

Javaの実行環境 build 1.6.0_19-b11 大規模分散処理フレームワーク Hadoop-20.0.203 統計処理ソフトウェア 2.10.0

3D地図ソフトウェア 6.2

ドキュメント内 開発構想書 (ページ 33-36)

関連したドキュメント