• 検索結果がありません。

評価方法

ドキュメント内 i iv vi (ページ 44-53)

第 4 章 実験

4.1 ゴルフ場を対象とした地物認識実験

4.1.3 評価方法

4.1.2項のデータセットは正例が少なく負例が多い,不均衡データになっている.評価の

指標としては,分類結果のconfusion matrixを計算した上でprecisonやrecall,intersection over union (以下,IOU), F-value[5] を用いることで,認識結果をより正確に評価する.評 価指標の詳細については以下で述べる.

Confusion matrix

分類問題を解いたとき,confusion matrix は表4.5のように定義される.ここで,TP, FP, FN, TN はそれぞれTrue Positive, False Positive, False Negative, True Negative の ことである.

表 4.5: Confusion matrix.TP, FP, FN, TN はそれぞれ True Positive, False Positive, False Negative, True Negative である.

正解ラベル 正例 負例 推定 正例 TP FP ラベル 負例 FN TN

Confusion matrix から計算される評価指標

表4.5の confusion matrix より,accuracy, precision, recall, IOU は以下のように定義 される.

accuracy = TP + TN

TP + FP + FN + TN, (4.1)

precision = TP

TP + FP, (4.2)

recall = TP

TP + FN, (4.3)

IOU = TP

TP + FP + FN. (4.4)

また,上記のpresicion とrecallより,F-valueは以下のように定義される.本研究では,

特に記載がない限りβ = 1として計算する.

F-value = (1 +β2)·recall·precision

β2·recall + precision . (4.5)

4.1.4 負例のランダムアンダーサンプリングによる認識結果の比較

実験目的

Landsat 8 衛星画像で地物認識を行う際,そのデータは対象地物の数がそれ以外の地物

の数より少ない不均衡データとなる.そのまま学習すると,学習に悪影響があると考え られるため,学習データの負例の数をランダムアンダーサンプリングすることで,認識 性能の向上を図る.

実験方法

データセットとしては,4.1.2項のGCD-16を用いる.DtrainおよびDvalとして,4.1.2 項のGCD-16のKTALL,KT80k,KT40k,KT20k,KT10kを用いる.Dtestとしては,GCD-16 のKGを用いる.

CNNのモデルとしては,3.3.1項のcifar10-11pctを用いる.CNNモデルの実装では cuda-convet(付録のA.1.1項)を,実験環境はA.2.1項のPCを用いる.

各データセットによる実験を10回ずつ行い,評価指標について平均と標準偏差を観察 する.

表 4.6: アンダーサンプリングを行った際の実験結果.

データラベル precision recall F-value 平均 標準偏差 平均 標準偏差 平均 標準偏差 KTALL 0.788 0.0185 0.629 0.0196 0.699 0.0122

KT80k 0.692 0.0290 0.687 0.0165 0.689 0.0184 KT40k 0.620 0.0158 0.731 0.0175 0.671 0.0133 KT20k 0.460 0.0181 0.782 0.0198 0.579 0.0145 KT10k 0.306 0.0200 0.820 0.0176 0.446 0.0227 実験結果と考察

実験を precision, recall, F-value で評価した結果を表4.6と図4.2に示す.アンダーサ ンプリングを行った結果を比較すると,アンダーサンプリングするほどprecision は下降

し,recallは上昇していることが分かる.これより,アンダーサンプリングによって誤っ

て正例と識別される負例が多くなると同時に,正しく正例と識別される正例も多くなる ことが分かる.ここで,アンダーサンプリングを行うとき,どこまで負例の誤検知を許 容するかという問題が発生する.少なくともF-valueを見ると,KT80K の時が最も良い 結果である.この理由としては,負例に含まれているゴルフ場の境界にあたるセルが除 かれたということが可能性として考えられる.

4.1.5 入力するバンドの違いによる認識結果の比較

実験目的

Landsat 8 衛星画像にはRGBに相当する可視光の波長域以外のバンドも存在する.そ

れらのバンドを用いてCNNによる地物認識を行い,その性能を比較する.

実験方法

データセットとしては,4.1.2項のGCD-16を用いる.DtrainおよびDvalとして,4.1.2 項のGCD-16のKTALL,KT80k,KT40k,KT20k,KT10kを用いる.Dtestとしては,GCD-16 のKGを用いる.

CNNのモデルとしては,3.3.1項のcifar10-11pctを用いる.CNNモデルの実装とし てはcuda-convet (A.1.1項) を,実験環境はA.2.1項のPCを用いる.

また,本実験では入力画像のバンド数や組み合わせを変更する.cifar10-11pctは入力

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

KT_10k KT_20k KT_40k KT_80k KT_ALL

Precision

データセット

平均

KT10K KT20K KT40K KT80K KTALL (a) Precisionの結果

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

KT_10k KT_20k KT_40k KT_80k KT_ALL

Recall

データセット

平均

KT10K KT20K KT40K KT80K KTALL (b) Recallの結果

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

KT_10k KT_20k KT_40k KT_80k KT_ALL

F-value

データセット

平均

KT10K KT20K KT40K KT80K KTALL

(c) F-valueの結果

図 4.2: アンダーサンプリングを行った際の実験結果.図中のエラーバーは標準偏差を表 している.結果を比較すると,アンダーサンプリングするほどprecision は下降し,recall は上昇していることが分かる.

表 4.7: 実験に使用するバンドの組み合わせ.

ラベル 使用するバンド

3B 2, 3, 4

4B 2, 3, 4, 5 6B+22 2, 3, 4, 5, 6, 7, 2, 2 6B+77 2, 3, 4, 5, 6, 7, 7, 7 8B 1, 2, 3, 4, 5, 6, 7, 9

力のバンド数を適宜変更して実験する.実験で使用するバンドは,バンド1から8の単バ ンドと,表4.7に示すバンドの組み合わせである.バンド8は解像度が2倍であるため,

CNNのモデルの入力画像サイズも2倍の32×32とする.

各データセットによる実験を10回ずつ行い,評価指標について平均と標準偏差を観察 する.

実験結果と考察

実験を precision, recall, F-value で評価した結果を表4.8と図4.3に示す.単バンドを 用いた場合の precision を見ると,バンド6が最も良い結果であったのに対して,バンド 1, 2は極端に低い値となった.recall はバンド6, 8が比較的高い結果となり,バンド5は 他と比べて低い値となった.F-value はバンド3, 6, 8が比較的良い結果となり,バンド 1, 2はprecisionと同じく低い値となった.

複数バンドを用いた場合のrecallの結果を見ると3Bの場合が最も良い結果であった.

また,6B+77の方が6B+22よりも総じて性能が良い結果となった.ただし、この性能の 違いは誤差の範囲とも考えられる.複数バンドを用いた場合のF-valueを見ると、6B+77, 6B+22や8Bの方が3Bよりも良い結果となった.

4.1.6 入力するセルサイズの違いによる認識結果の比較

実験目的

バンド8についてセルサイズを変更して地物認識を行い,セルサイズごとの性能を比 較する.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

1 2 3 4 5 6 7 8 3B 4B 6B+22 6B+77 8B

Precision

バンド

平均

1 2 3 4 5 6 7 8 3B 4B 6B+22 6B+77 8B (a) Precisionの結果

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

1 2 3 4 5 6 7 8 3B 4B 6B+22 6B+77 8B

Recall

バンド

平均

1 2 3 4 5 6 7 8 3B 4B 6B+22 6B+77 8B

(b) Recallの結果

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

1 2 3 4 5 6 7 8 3B 4B 6B+22 6B+77 8B

F-value

バンド

平均

1 2 3 4 5 6 7 8 3B 4B 6B+22 6B+77 8B

(c) F-valueの結果

図 4.3: バンドの組み合わせを変えた際の実験結果.図中のエラーバーは標準偏差を表し

ている.Precisionと F-value は基本的に使用するバンドを多くするほど良くなっている

が,単バンドでも同程度の性能を示すバンドもあることが分かる.

表 4.8: バンドの組み合わせを変えた際の実験結果.

バンド precision recall F-value

平均 標準偏差 平均 標準偏差 平均 標準偏差 1 0.011 0.0010 0.435 0.0259 0.022 0.0019 2 0.024 0.0015 0.506 0.0136 0.046 0.0028 3 0.566 0.0163 0.497 0.0153 0.529 0.0129 4 0.226 0.0221 0.504 0.0099 0.312 0.0192 5 0.301 0.0212 0.326 0.0124 0.312 0.0132 6 0.638 0.0360 0.612 0.0379 0.623 0.0123 7 0.337 0.0539 0.422 0.0113 0.372 0.0287 8 0.515 0.0105 0.627 0.0193 0.565 0.0084 3B 0.692 0.0290 0.687 0.0165 0.689 0.0184 4B 0.783 0.0269 0.561 0.0268 0.653 0.0192 6B+22 0.906 0.0157 0.586 0.0357 0.711 0.0253 6B+77 0.918 0.0133 0.616 0.0386 0.737 0.0307 8B 0.929 0.0110 0.569 0.0445 0.705 0.0334 実験方法

データセットとしては,4.1.2項のGCD-16,4.1.2項のGCD-24,4.1.2項のGCD-32を 用いる.DtrainおよびDvalとしては,それぞれのデータセットのKTALLを用いる.Dtest としては,それぞれのデータセットのKGを用いる.本実験では負例のアンダーサンプ リングは行っていない.

CNNのモデルとしては,3.3.1項のcifar10-11pctを用いる.CNNモデルの実装とし てはcuda-convnet (A.1.1項)を,実験環境はA.2.1項のPCを用いる.

なお,本実験では解像度が2倍のバンド8を用いて実験を行うため,GCD-16,GCD-24,

GCD-32のラベル付けはそのままにセルのサイズは2倍となり,それぞれ32, 48, 64 であ る.また,前処理におけるランダムな切り出しサイズも変更する.それに合わせて,CNN のモデルの入力サイズも変更する.ここで,切り出しサイズとしては元の画像から切り出 す際に削れられる幅のことを指定するものとし,48+C8と表記した場合は,元々48×48 ピクセルであるセルから,セルの上下左右を8ピクセルずつ削ったサイズを切り出すこ とで,最終的に切り出されるサイズは32×32ピクセルとなるものとする.各データセッ トによる実験を10回ずつ行い,評価指標について平均と標準偏差を観察する.

表 4.9: 入力サイズと切り出しサイズを変えた際の実験結果.

入力と切り出しのサイズ precision recall F-value

32+C2 0.695 0.529 0.601

32+C4 0.773 0.525 0.625

32+C6 0.882 0.375 0.526

48+C4 0.669 0.728 0.697

48+C8 0.809 0.654 0.724

48+C12 0.912 0.382 0.539

64+C4 0.762 0.485 0.593

64+C8 0.789 0.455 0.577

64+C12 0.925 0.374 0.532

64+C16 0.958 0.232 0.374

実験結果と考察

実験を precision, recall, F-value で評価した結果を表4.9と図4.4に示す.実験結果よ り,recallとF-valueは48×48ピクセルの時が比較的よく,precisionは切り出しサイズ を大きくするほど良くなっていることが分かる.また,セルサイズが48×48ピクセルの 時の実験の可視化結果を図4.5に示す.これより,切り出しサイズを大きくすると,負例 を誤って正例と認識することはなくなるが,正例も認識されなくなっていることが分か る.切り出しサイズを大きくすると,セル内部にゴルフ場があまり含まれていない場合,

切り出し箇所にゴルフ場が含まれず,負と判定されやすくなってしまっていると考えら れる.これは,正解データと判定方法が合っていないとも言える.また,今回は行わな かったが,切り出しサイズを0とした場合の性能も比較することで切り出しの影響がよ りはっきりすると考えられる.セルサイズが48×48ピクセル以外の時も結果の可視化を することで精度変化の要因を調べられると考えられる.

4.1.7 入力画像の切り出しの有無による認識結果の比較

実験目的

地物認識の画像は一般物体認識よりも画像サイズが小さいため,CNNの前処理で行っ ている画像の切り出しが有効であるとは限らない.そのため,画像を入力する際の前処 理である画像の切り出しの有無による影響を調べる.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

32+C2 32+C4 32+C6 48+C4 48+C8 48+C12 64+C4 64+C8 64+C12 64+C16

評価指標

セルサイズ+切り出しサイズ

Precision Recall F-value

図 4.4: 入力サイズと切り出しサイズを変えた際の実験結果.RecallとF-valueは48×48 ピクセルの時が比較的良くなり,precisionは切り出しサイズを大きくするほど良くなっ ていることが分かる.

実験方法

データセットとしては,4.1.2項のGCD-16を用いる.DtrainおよびDvalとして,4.1.2 項のGCD-16のKTALL,KT80k,KT40k,KT20k,KT10kを用いる.Dtestとしては,GCD-16 のKGを用いる.

CNNのモデルとしては,3.3.1項のcifar10-11pctを用いる.また,比較として,ラン ダムに画素数14×14のパッチを切り出す前処理を行わず,cifar10-11pctの入力サイズ を 16×16に変更したCNNモデルを用いる.CNNモデルの実装としてはcuda-convnet (A.1.1項) を,実験環境はA.2.1項のPCを用いる.

実験結果と考察

前処理における切り出しの有無を変更し,認識実験を行った際のF-valueによる比較結 果を図4.6に示す.

比較結果を見ると,切り出しの有無による大きな差異は見られなかったため,切り出 しの効果はほとんどないと考えられる.今回の実験は1回ずつしか行っておらず,CNN の学習ではネットワークの初期化にランダム性があるため,より正確に比較するには複

ドキュメント内 i iv vi (ページ 44-53)