第 9 章 . 寺社仏閣における不審者検知のための行動分類
9.3. 実験と考察
9.3.1. KTH データセットを用いた行動分類
提案する特徴量はガウシアンフィルタに代えて簡易的な Box filter を導入することで従 来法である Dollar らの Cuboid と比較し,特徴量自体の性能の低下が考えられる.そこで 本項では既存の映像データセットを使い,提案特徴量の性能を検証する.
既存の映像データセットとしては KTH データセットを用いる.図 9.9 に示すように walking,running,jogging,boxing,hand clapping,hand wavingの6つの行動で構成され,
それぞれの行動は 4つの異なる背景にて25の人物により実演されている.また映像の長さ は平均4秒であり,画像サイズは160×120 pix.である.実験ではCPU:2.67GHz,実効メモ リ:3GBytesのスペックを搭載したプロセッサを使用する.
3 3
5
2 2
a c
b
b
c
♯ ♯ ♯
♯ ♯
図9.9:KTHデータセットのサンプル画像
評価項目として従来手法と提案手法の性能比較実験を行う.比較対象はDollarらの特徴 点検出法[6]とする.ただし記述子としては 3次元勾配特徴を採用する.また従来手法・提 案手法互いに Bag-of-Featureを特徴量とし,Codebookの作成が必要であるので Visual Word
数は 1,000 に設定する.また KTH データセットは 5 人単位に区切ることで 5 fold cross
validationより学習・テストを行う.識別器としては SVM(付録A参照)を採用し,カー
ネルとしては RBFを用いる.本実験における特徴点検出での各パラメータは空間軸のスケ ール数𝑂𝑐𝑡𝑎𝑣𝑒𝜎=3,時間軸のスケール数𝑂𝑐𝑡𝑎𝑣𝑒𝜏=3とする.また空間軸のスケールパラメー タの初期値𝜎0=1.4,時間軸の初期値𝜏0=1.8 と設定する.各パラメータは実験的に決定し ている.
ここで図9.10において従来手法との分類率の比較実験の結果を示す.また表9.1は提案 手法の各行動の分類率を示した Confusion Matrixである.Confusion Matrixは左端の列が対 象行動を示しており,表の対角成分は各対象行動が正解する確率(%)である.また対角成 分以外は誤分類する確率であり,対象行動を他の行動に分類する確率は同行へと記される.
図9.10に示すようにKTHデータセットを使う実験での提案手法の分類率は80.1%であり 従来手法の 77.1%より 3%程の性能向上を確認できる.これより提案手法の特徴量はガウ シアンフィルタに代えて簡易的な Box filterを導入しているが,性能は低下しないことを実 証でき,時空間のスケール変動に対しての頑強性を高めたことで若干の性能の向上が見ら れる.そしてフル HD の映像内から切り出した56×100pix.のサイズに提案手法を適用する 場合,一人物における処理速度は検出された特徴点数に依存するが,60—100fps程であり,
従来手法と比較して処理速度は殆ど同じであることを確認できる.表 9.1 からはboxing,
waving,clappingといった手の動きから構成される行動は提案手法の分類率が 80%以上で
あり,その有効性を示せている.しかし問題として joggingとrunningは他と比較しても分 類率が低く,人物の動きの速さの違いを上手く捉えられていない.これはCuboidを時間軸 についてスケールの正規化を行ったことが影響していると考えられる.
hand waving boxing
walking jogging running hand
clapping
図9.10:KTHデータセットでの従来手法との分類率の比較結果
表9.1:KTHデータセットを用いた実験における提案手法の各行動の分類率(%)
Walking Jogging Running Boxing Waving Clapping
(%)
Walking 87 10 1 1 0 1
Jogging 27 55 18 0 0 0
Running 9 22 69 0 0 0
Boxing 2 0 0 95.1 2 1
Waving 2 1 1 8 81 7
Clapping 0 0 0 5.1 3 91.9