評価方法

第 4 章実験

4.1 ゴルフ場を対象とした地物認識実験

4.1.3 評価方法

4.1.2項のデータセットは正例が少なく負例が多い，不均衡データになっている．評価の

指標としては，分類結果のconfusion matrixを計算した上でprecisonやrecall，intersection over union (以下，IOU), F-value[5] を用いることで，認識結果をより正確に評価する．評価指標の詳細については以下で述べる．

Confusion matrix

分類問題を解いたとき，confusion matrix は表4.5のように定義される．ここで，TP, FP, FN, TN はそれぞれTrue Positive, False Positive, False Negative, True Negative のことである．

表 4.5: Confusion matrix．TP, FP, FN, TN はそれぞれ True Positive, False Positive, False Negative, True Negative である．

正解ラベル正例負例推定正例 TP FP ラベル負例 FN TN

Confusion matrix から計算される評価指標

表4.5の confusion matrix より，accuracy, precision, recall, IOU は以下のように定義される．

accuracy = TP + TN

TP + FP + FN + TN, (4.1)

precision = TP

TP + FP, (4.2)

recall = TP

TP + FN, (4.3)

IOU = TP

TP + FP + FN. (4.4)

また，上記のpresicion とrecallより，F-valueは以下のように定義される．本研究では，

特に記載がない限りβ = 1として計算する．

F-value = (1 +β²)·recall·precision

β²·recall + precision . (4.5)

4.1.4 負例のランダムアンダーサンプリングによる認識結果の比較

実験目的

Landsat 8 衛星画像で地物認識を行う際，そのデータは対象地物の数がそれ以外の地物

の数より少ない不均衡データとなる．そのまま学習すると，学習に悪影響があると考えられるため，学習データの負例の数をランダムアンダーサンプリングすることで，認識性能の向上を図る．

実験方法

データセットとしては，4.1.2項のGCD-16を用いる．D_trainおよびD_valとして，4.1.2 項のGCD-16のKT_ALL,KT_80k,KT_40k,KT_20k,KT_10kを用いる．D_testとしては，GCD-16 のKGを用いる．

CNNのモデルとしては，3.3.1項のcifar10-11pctを用いる．CNNモデルの実装では cuda-convet（付録のA.1.1項）を，実験環境はA.2.1項のPCを用いる．

各データセットによる実験を10回ずつ行い，評価指標について平均と標準偏差を観察する．

表 4.6: アンダーサンプリングを行った際の実験結果．

データラベル precision recall F-value 平均標準偏差平均標準偏差平均標準偏差 KT_ALL 0.788 0.0185 0.629 0.0196 0.699 0.0122

KT80k 0.692 0.0290 0.687 0.0165 0.689 0.0184 KT_40k 0.620 0.0158 0.731 0.0175 0.671 0.0133 KT_20k 0.460 0.0181 0.782 0.0198 0.579 0.0145 KT10k 0.306 0.0200 0.820 0.0176 0.446 0.0227 実験結果と考察

実験を precision, recall, F-value で評価した結果を表4.6と図4.2に示す．アンダーサンプリングを行った結果を比較すると，アンダーサンプリングするほどprecision は下降

し，recallは上昇していることが分かる．これより，アンダーサンプリングによって誤っ

て正例と識別される負例が多くなると同時に，正しく正例と識別される正例も多くなることが分かる．ここで，アンダーサンプリングを行うとき，どこまで負例の誤検知を許容するかという問題が発生する．少なくともF-valueを見ると，KT_80K の時が最も良い結果である．この理由としては，負例に含まれているゴルフ場の境界にあたるセルが除かれたということが可能性として考えられる．

4.1.5 入力するバンドの違いによる認識結果の比較

実験目的

Landsat 8 衛星画像にはRGBに相当する可視光の波長域以外のバンドも存在する．そ

れらのバンドを用いてCNNによる地物認識を行い，その性能を比較する．

実験方法

データセットとしては，4.1.2項のGCD-16を用いる．D_trainおよびD_valとして，4.1.2 項のGCD-16のKTALL,KT80k,KT40k,KT20k,KT10kを用いる．Dtestとしては，GCD-16 のKGを用いる．

CNNのモデルとしては，3.3.1項のcifar10-11pctを用いる．CNNモデルの実装としてはcuda-convet (A.1.1項) を，実験環境はA.2.1項のPCを用いる．

また，本実験では入力画像のバンド数や組み合わせを変更する．cifar10-11pctは入力

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

KT_10k KT_20k KT_40k KT_80k KT_ALL

Precision

データセット

平均

KT_10K KT_20K KT_40K KT_80K KT_ALL (a) Precisionの結果

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

KT_10k KT_20k KT_40k KT_80k KT_ALL

Recall

データセット

平均

KT_10K KT_20K KT_40K KT_80K KT_ALL (b) Recallの結果

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

KT_10k KT_20k KT_40k KT_80k KT_ALL

F-value

データセット

平均

KT_10K KT_20K KT_40K KT_80K KT_ALL

図 4.2: アンダーサンプリングを行った際の実験結果．図中のエラーバーは標準偏差を表している．結果を比較すると，アンダーサンプリングするほどprecision は下降し，recall は上昇していることが分かる．

表 4.7: 実験に使用するバンドの組み合わせ．

ラベル使用するバンド

3B 2, 3, 4

4B 2, 3, 4, 5 6B+22 2, 3, 4, 5, 6, 7, 2, 2 6B+77 2, 3, 4, 5, 6, 7, 7, 7 8B 1, 2, 3, 4, 5, 6, 7, 9

力のバンド数を適宜変更して実験する．実験で使用するバンドは，バンド1から8の単バンドと，表4.7に示すバンドの組み合わせである．バンド8は解像度が2倍であるため，

CNNのモデルの入力画像サイズも2倍の32×32とする．

各データセットによる実験を10回ずつ行い，評価指標について平均と標準偏差を観察する．

実験結果と考察

実験を precision, recall, F-value で評価した結果を表4.8と図4.3に示す．単バンドを用いた場合の precision を見ると，バンド6が最も良い結果であったのに対して，バンド 1, 2は極端に低い値となった．recall はバンド6, 8が比較的高い結果となり，バンド5は他と比べて低い値となった．F-value はバンド3, 6, 8が比較的良い結果となり，バンド 1, 2はprecisionと同じく低い値となった．

複数バンドを用いた場合のrecallの結果を見ると3Bの場合が最も良い結果であった．

また，6B+77の方が6B+22よりも総じて性能が良い結果となった．ただし、この性能の違いは誤差の範囲とも考えられる．複数バンドを用いた場合のF-valueを見ると、6B+77, 6B+22や8Bの方が3Bよりも良い結果となった．