KTH データセットを用いた行動分類 - 実験と考察 - . 寺社仏閣における不審者検知のための行動分類

第 9 章 . 寺社仏閣における不審者検知のための行動分類

9.3. 実験と考察

9.3.1. KTH データセットを用いた行動分類

提案する特徴量はガウシアンフィルタに代えて簡易的な Box filter を導入することで従来法である Dollar らの Cuboid と比較し，特徴量自体の性能の低下が考えられる．そこで本項では既存の映像データセットを使い，提案特徴量の性能を検証する．

既存の映像データセットとしては KTH データセットを用いる．図 9.9 に示すように walking，running，jogging，boxing，hand clapping，hand wavingの6つの行動で構成され，

それぞれの行動は 4つの異なる背景にて25の人物により実演されている．また映像の長さは平均4秒であり，画像サイズは160×120 pix.である．実験ではCPU：2.67GHz，実効メモリ：3GBytesのスペックを搭載したプロセッサを使用する．

3 3

5 2 2

a c

♯ ♯ ♯

♯ ♯

図9.9：KTHデータセットのサンプル画像

評価項目として従来手法と提案手法の性能比較実験を行う．比較対象はDollarらの特徴点検出法[6]とする．ただし記述子としては 3次元勾配特徴を採用する．また従来手法・提案手法互いに Bag-of-Featureを特徴量とし，Codebookの作成が必要であるので Visual Word

数は 1,000 に設定する．また KTH データセットは 5 人単位に区切ることで 5 fold cross

validationより学習・テストを行う．識別器としては SVM（付録A参照）を採用し，カー

ネルとしては RBFを用いる．本実験における特徴点検出での各パラメータは空間軸のスケール数𝑂𝑐𝑡𝑎𝑣𝑒_𝜎=3，時間軸のスケール数𝑂𝑐𝑡𝑎𝑣𝑒_𝜏=3とする．また空間軸のスケールパラメータの初期値𝜎₀＝1.4，時間軸の初期値𝜏₀＝1.8 と設定する．各パラメータは実験的に決定している．

ここで図9.10において従来手法との分類率の比較実験の結果を示す．また表9.1は提案手法の各行動の分類率を示した Confusion Matrixである．Confusion Matrixは左端の列が対象行動を示しており，表の対角成分は各対象行動が正解する確率(％)である．また対角成分以外は誤分類する確率であり，対象行動を他の行動に分類する確率は同行へと記される．

図9.10に示すようにKTHデータセットを使う実験での提案手法の分類率は80.1％であり従来手法の 77.1％より 3％程の性能向上を確認できる．これより提案手法の特徴量はガウシアンフィルタに代えて簡易的な Box filterを導入しているが，性能は低下しないことを実証でき，時空間のスケール変動に対しての頑強性を高めたことで若干の性能の向上が見られる．そしてフル HD の映像内から切り出した56×100pix.のサイズに提案手法を適用する場合，一人物における処理速度は検出された特徴点数に依存するが，60—100fps程であり，

従来手法と比較して処理速度は殆ど同じであることを確認できる．表 9.1 からはboxing，

waving，clappingといった手の動きから構成される行動は提案手法の分類率が 80％以上で

あり，その有効性を示せている．しかし問題として joggingとrunningは他と比較しても分類率が低く，人物の動きの速さの違いを上手く捉えられていない．これはCuboidを時間軸についてスケールの正規化を行ったことが影響していると考えられる．

hand waving boxing

walking jogging running hand

clapping

図9.10：KTHデータセットでの従来手法との分類率の比較結果

表9.1：KTHデータセットを用いた実験における提案手法の各行動の分類率（％）

Walking Jogging Running Boxing Waving Clapping

(%)

Walking 87 10 1 1 0 1

Jogging 27 55 18 0 0 0

Running 9 22 69 0 0 0

Boxing 2 0 0 95.1 2 1

Waving 2 1 1 8 81 7

Clapping 0 0 0 5.1 3 91.9

ドキュメント内生体的特徴を用いた人物の属性・行動の分類 (ページ 96-99)