博士論文審査結果報告書

(1)

早稲田大学大学院情報生産システム研究科

博士論文審査結果報告書

論文題目

Parameter Estimation for Binary Classification by Particle Swarm Optimizations and Its Applications

申請者

Zhenyuan XU

情報生産システム工学専攻経営工学研究

２０１5 年 9 月

(2)

2

問題のデータを分類することは意思決定の中心的な機能である。データセットを 2 群に分類する場合、分類は二項分類と呼ばれ、分類ルールを用いることにより、新たに得たインスタンスが２群のうちのどちらに分類されるかを予測することができる。

二項分類においては、その分類ルールを学習することが主な課題の一つである。この時、

分類ルールを学習するためのモデルのパラメータ選択や対象の学習空間選択が分類ルールの学習効率や分類精度に影響を及ぼす。特に、2 群に分類されるべきデータ数が極端に不均等なインバランス・データセットである場合、分類対象のデータセットが線形分離不可能な大規模なデータセットである場合、および、データ項目が多次元でノイズを含むデータセットである場合には、従来の二項分類ルール学習方法で得られる分類ルールでは、十分な分類精度を実現するのが困難であり、高い分類精度を実現することができていない。

本学位論文は、上述した特徴を有するデータセットに対して、より高精度な二項分類ルールを学習する新しい方法を提案している。すなわち、本学位論文では、従来提案されている機械学習法による二項分類方法であるサポートベクターマシン（ Support Vector Machine：SVM）、およびニューラルネットワーク（ Neural Network：NN）における学習パラメータの値を、メタヒューリステック手法である粒子群最適化手法（ Particle Swarm Optimization：PSO）を用いて最適化する手法を用いた新しい二項分類ルール学習方法を提案している。提案手法のメリットは、従来提案されている機械学習法による二項分類ルール学習におけるオーバフィッテングを軽減したことである。これにより、上述した３つの特徴を有するデータセットに対する２項分類において、従来提案されている機械学習法による二項分類ルール学習に対して、提案手法の方が分離精度で約 10%から 20%程度優れていることを、３つの実問題への応用実験によって示している。

本学位論文の構成は次の通りである。

第 1 章 [はじめに：Introduction] では、本学位論文の背景、扱っている問題、技術的な課題と目的、および学位論文の全体構成を説明している。

第 2 章 [基本的な概念：Preliminary concepts] では、従来の機械学習手法（SVM、および NN）の原理と方法、および、本論文で用いているメタヒューリスティック最適化方法 (PSO)について、それらの機械学習手法における学習パラメータの値を最適化する原理と方法を説明している。

第 3 章 [本学位論文の方法：Approach of the thesis] では、上述した３つの特徴を有するデータセットに対して、従来の機械学習手法（SVM、および NN）を適用する場合の２項分類精度が低下する問題点とそれを解決する方法を明らかにするとともに、上述の特徴を有する 3 種類のデータについて方法をそれぞれ新たに提案し、それらを数学的に定式化して説明している。すなわち

（提案方法１）従来の機械学習方法である SVM における二項分類ルール学習モデルに最適係数選択と学習空間選択を行う機能を加えた二重 PSO-SVM を提案し、2 群に分類されるべきデータ数が極端に不均等なインバランス・データセットに対する二項分類精度を向上させる方法を提案している。ほぼ均等なデータサイズからなる 2 群の二項分類問題の解法として従来の SVM が高い精度を実現してきたことに留意し、最適係数値選択を行う PSO-1 と、学習空間最適分割により学習空間選択を処理する PSO-2 からなる２つの PSO 機能を従来の SVM と組合せ、SVM カーネル関数のパラメータを最適化する二重 PSO-SVM を提案して

(3)

3

いる。実際の LSI のインバランス・データセットを用いた数値実験により、従来の SVM に比べ提案手法の分類精度が約 20%向上したことを示した。

（提案方法２）従来の機械学習方法である SVM と NN をともに用いて異なる解像度の２項分類機能を組み合せ、かつ、それを（提案方法１）で述べたアイデアと融合させた PSO-NN-SVM を提案し、対象データセットが線形分離不可能な大規模なデータセットに対する二項分類精度を向上させる方法を提案している。SVM は多くの線形および非線形の小規模データセットの分類問題に用いられているが、学習速度が遅いために大規模時系列データベースを分類することは困難であった。一方で、NN は、単純な学習規則に基づいて、大局的な年傾向値や月傾向値を効率的に学習することができる。（提案方法１）で述べた二重 PSO-SVM に放射基底関数ニューラルネットワーク（ RBFNN）を組み込むことで、RBFNN で大きな変動をまた二重 PSO-SVM で日変動や時変動の微細な変動を予測して、大規模時系列データセットの２項分類問題を解く二項分類ルール学習を効率化するとともに予測精度を向上させている。

（提案方法３）（提案方法１）をベースにして PSO の探索精度の改善を行った PSO-粒子フィルタを用いることにより、データ項目が多次元でノイズを含む画像データセットに対する二項分類精度を向上する方法を提案している。

第 4 章 [粒子群最適化に基づくサポートベクトルマシーンを用いたインバランスデータ分類問題の解法： Solving the imbalanced data classification problem with the particle swarm optimization based support vector machine]では、上述した（提案方法１）を、高い精度のインバランスデータセット分類が要求される実際の LSI 評価データ２項分類問題に適用し有効性を評価している。全 169,913 件の LSI 製品の品質検査のデータを用いた実験によって（提案方法１）の二重 PSO-SVM モデルが高い精度でインバランスデータセット分類問題を処理できることを示した。真陽性率（True Positive Rate,TPR）と真陰性率（True Negative Rate、TNR）が常に 0.8 以上であり、従来手法である ANN，SVM-RBF

（Radial Basis Function）および LSSVM（Least Square SVM）による分類精度がそれぞれ 63.4%、79.0%および 82.4%であるのに対し、提案方法の分類精度が 88.4%であった。

第 5 章 [粒子群最適化に基づく混合ニューラルネットワークとサポートベクトルマシーンによる短期負荷予測問題の解法： Solving short term load forecasting problem by using particle swarm optimization based hybrid neural network and support vector machine] では、上述した（提案方法２）を、安全性と経済的運用を要する電力システムにとって重要な研究課題のひとつである短期負荷変動予測問題（ short term load forecasting problem、STLF）に適用しその有効性を評価している。STLF は大規模・時間変動・非線形性を持つ時系列データセットの２項分類問題であり、高い予測精度が要求される。短期負荷変動予測問題を解決するために、提案手法 PSO-NN-SVM を適用した結果として、日負荷変動および時刻負荷変動の消費電力予測で提案手法は従来用いられている手法に比べ高い精度を実現した。1996 年から 2009 年間の 30 分間隔の 227,904 件のデータを用いた実験で、提案手法は平均絶対誤差率（ MAPE）値で 3.20%、二乗平均平方根誤差（RMSE）

値で 3.65%を実現しており、従来手法である RBFNN（MAPE6.39%、RMSE7.82%）、カルマンフィルタ（MAPE6.63%、RMSE7.20%）、PSO-SVM（MAP14.26%、RMSE17.27%）と比較して最も優れていることを示した。

(4)

4

第 6 章 [ヒューマントラッキングのための PSO―粒子フィルタによる対象物計測：PSO- particle filter-based dimension measurement of object for human tracking] では、

画像データによる対象物の検出とトラッキング問題に（提案方法３）を適用した。対象物の検出とトラッキングにおいて高い精度要求を満たすためには、膨大な数のピクセルの値を用いて探索を行う必要があり計算機時間の負荷が大きすぎるため、限られた時間で十分な検出精度が得られないことが問題となっている。複数の人物が歩行で移動する様子を録画した 50sec のビデオ画像データを用いた実験結果では、PSO-粒子フィルタを用いた提案手法はトラッキング精度が 95.4%であったのに対し、従来の粒子フィルタやカルマンフィルタを用いた場合は、トラッキング精度がそれぞれ 91.7%と 87.3%であった。一方で、それらのトラッキング精度を出すために必要な計算時間は PSO-粒子フィルタが 1 フレームを 15.6msec の処理時間で最小であり、従来方法による最大 CPU 時間の 36.5%で処理できており高い効率性を示した。1 秒 25 フレームの映像ではフレーム間隔が 40msec で十分実用に耐える計算速度である。また歩行における複数人物の重なり(occlusions)が有る場合にも十分良好なトラッキング精度 82.1%が得られることを示した。

第 7 章 [むすびと残された問題：Conclusion and future works]では、最後の章として、

本論文の結果をまとめ、残された問題を整理している。

以上を評価するに、本論文は意思決定に広く利用される二項分類問題における高精度な分類ルールを効率的に学習する法として、メタヒューリステック（PSO）と機械学習（SVM,NN）

を組合せたオリジナルな３つの方法を提案し、これらの方法を実問題に適用して、それらの提案手法が従来手法よりも高い分類精度を実現でき、十分実用的であることを示した。

特に、これまで十分な分類精度を得ることが難しかった、分類されるべきデータ数が極端に不均等なインバランス・データセットの分類問題、分類対象のデータセットが線形分離不可能な大規模なデータセットの分類問題、および、データ項目が多次元でノイズを含むデータセットである場合の分類問題において、メタヒューリステックと機械学習を組み合せた新しい分類ルール学習方法を提案し、従来方法に勝る高精度な分類ルール学習方法とその実用性を示した点で評価できる。これらは今後の経営工学の分野の発展に、またオペレーションズリサーチの発展に寄与するところが大である。よって、本論文は博士（工学）

の学位論文として価値あるものと認める。

２０１５年９月７日

主査早稲田大学教授工学博士（大阪府立大学）和多田淳三早稲田大学教授工学博士（東京工業大学）村田智洋早稲田大学教授工学博士（早稲田大学）李羲頡

九州工業大学教授理学博士（九州大学）酒井浩

博士論文審査結果報告書

早稲田大学大学院情報生産システム研究科