論 文
高性能かつ低コストな背景モデル構築のための 事例ベース背景モデリング *
野中 陽介
†a)島田 敬士
††長原 一
††谷口倫一郎
††Case-Based Background Modeling for High Accuracy and Low Cost Background Subtraction
∗Yosuke NONAKA
†a), Atsushi SHIMADA
††, Hajime NAGAHARA
††, and Rin-ichiro TANIGUCHI
††あらまし 物体検出の基盤技術として利用される背景モデルは,高性能化,低コスト化を目標とした様々な構 築手法が提案されてきた.一般に,高性能化と低コスト化はトレードオフの関係にあるためその両立は困難であ る.この問題に対するブレークスルーとして,我々は事例ベース背景モデルを提案する.各画素でモデルを保持 していた従来の統計的背景モデルに対し,本手法は必要数だけのモデルを保持する.また,モデル選択に利用す る特徴量に時空間情報を含めることで,検出性能の向上を図る.本論文では提案手法のフレームワークを述べ,
更にその性能を緻密に評価した結果を報告する.様々な環境変動が起こるシーンを利用して背景差分性能,メモ リコスト,計算コストの関係を分析した結果,多くのシーンに対して,従来法よりも高い検出精度をより低いコ ストで実現できることが確認された.
キーワード 背景モデル,事例ベース,物体検出,性能評価
1.
ま え が き背景モデリングは,シーンの背景変動をモデル化す る手法であり,物体検出の基礎技術として幅広く研究 されている.従来,背景モデリングは背景変動に柔軟 に対応するための高性能化と,省メモリかつ高速な処 理を実現する低コスト化の点で議論がなされてきた.
高性能化を図る手法として,空間情報や時間情報をモ デル化する手法
[1], [2]
が考案されているが,いずれ も実装に必要なメモリと計算にかかるコストが増加し てしまうという問題がある.低コスト化を図る手法と しては,クラスタリング処理により背景モデルを共有 化することでモデル数の圧縮を図る手法[3]
が提案さ†九州大学大学院システム情報科学府,福岡市
Graduate School of Information Science and Electrical Engineering, Kyushu University, 744 Motooka, Nishi-ku, Fukuoka-shi, 819–0395 Japan
††九州大学大学院システム情報科学研究院,福岡市
Graduate School of Information Science and Electrical Engineering, Kyushu University, 744 Motooka, Nishi-ku, Fukuoka-shi, 819–0395 Japan
a) E-mail: [email protected]
*本論文は学生論文特集秀逸論文である.
れているが,モデル数の減少に伴い,当然性能が低下 してしまう.このように,高性能化と低コスト化はト レードオフの関係にあるため,一般的にその両立は困 難である.
このトレードオフ問題に対するブレークスルーとし て,我々は事例ベース背景モデルを提案する.この手 法では,画素特徴が類似した画素同士で背景モデルを 共有し,それらを事例として管理する.各画素は特徴 量に基づきハッシュ関数により高速に事例を参照する.
また,事例参照に用いる画素特徴として,画素値に加 えて時間特徴と空間特徴を利用することで,背景変動 に対する頑健性を向上させる.本論文では,まず従来 の統計的背景モデルへ事例化の枠組みを適用する手法 を述べる.その後,様々なデータセットを用いて事例 ベース背景モデルの詳細な性能評価を行った結果を報 告する.評価基準としては従来よく用いられる適合率 と再現率に加え,メモリコストや計算コストとの関係 も分析し,性能・コスト両面における提案手法の有効 性を示す.
2.
関 連 研 究2. 1
背景モデルの高性能化背景をモデル化する代表的な手法として,画素値の 出現頻度を混合ガウス分布を用いて近似する統計的背 景モデル
[4]
がある.この手法の高性能化を図る場合,過去に起こった様々な背景変動に対応するために各画 素がもつ混合ガウス分布の分布数を増やすという措置 がとられるが,実装メモリやモデルの更新にかかる計 算コストが増加してしまう.また,背景の変化が頻繁 に起こる画素のモデルには多くの分布を割り当て,逆 に変化があまり見られない画素のモデルには少ない分 布で対応することが望ましいが,各混合ガウス分布が もつ分布数はあらかじめ決めておく必要があるため,
分布の不足や,無駄な分布が存在するという問題が起 こってしまう.背景変動に応じて混合ガウス分布の分 布数を増減させる手法
[5]
も提案されているが,複雑 な背景変動に対応するためにはやはり混合分布の分布 数を増やす他なく,実装メモリが増大する問題は避け られない.画素値の統計情報のみを用いた背景モデルでは,天 候の変化により画素値が徐々に変化する場合や,屋内 照明の変化により画素値が急激に変化する場合へ対応 することが難しいため,画素値に加えて周辺画素との 関係性をモデル化する手法
[1]
や,画素値の時間変化 をモデル化する手法[2]
が考案されている.いずれの 手法も画素値の統計情報のみを用いたモデルより高い 検出性能を示すが,時空間特徴を保持するモデルを別 途用意する必要があるため,多くの実装メモリが要求 される.複数のモデルを利用する手法としては,画素ごとに 統計的背景モデル,局所性を考慮した背景モデル,画 素値の時間変化を考慮した背景モデルを組み合わせて 用いる手法
[6], [7]
も提案されている.各手法の利点を 生かしてモデルを統合することで検出精度の向上が望 めるが,その分メモリ消費量や計算コストは増大する ため,実装できる環境が限定的になってしまう.2. 2
背景モデルの低コスト化実装メモリを抑えることを目的とした背景モデルと して,類似した画素値が観測される画素をクラスタリ ングし,各クラスタ内の画素で共通のモデルを利用す る手法
[3]
が提案されている.複数の画素でモデルを 共有するため,各画素でモデルを保持する場合と比較 してモデル構築に必要なメモリを節約することができる.また,モデル数が減少するため,モデルの更新に かかる時間も削減できるという利点もある.しかし,
クラスタ内での背景変動は同一であると仮定している ため,クラスタ内の一部の画素のみに背景変動が起こ るような場合は検出精度が低下してしまう.そのよう な場合は画素を再クラスタリングすることで対応で きるが,頻繁に再クラスタリングが必要となるような シーンでは,計算コストが大幅に増加し,実時間での 動作は難しい.計算コストを抑えることを目的とした 背景モデルとしては,
4
分木を利用して階層的に背景 モデルを構築する手法[8]
が提案されている.画像を 粗い粒度の方形で区切り,各領域内でランダムに選択 された画素で背景モデルを構築する.画素が前景と判 断された場合は,対称の領域を更に細かく分割して(4
分木の深度を上げて)背景モデルを構築する.この方 法により画素ごとに背景モデルを構築する必要がなく なり,画像全体で保持するモデル数を削減することが 可能になるが,領域をどの程度細かく分割するかは事 前に設定しておく必要があり,モデルの性能に大きく 影響を及ぼす.3.
事例ベース背景モデル3. 1
概 要事例ベース背景モデルは,従来の背景モデルに事例 化の枠組みを適用することで実現される.本節ではこ の事例化の枠組みの概要を紹介する.事例ベース背景 モデルでは,各画素で背景モデルを保持する代わり に,画素値を元に構成した背景モデルに画素から得ら れる特徴量(代表特徴)をひも付けしたものを一つの 事例として保持する.この特徴量については,
4. 2
で 詳しく述べる.各画素は,現在のフレーム時刻までに 作成された事例集合の中から,自身の特徴量と類似し た代表特徴をもつ事例を探索し,類似した代表特徴が 発見された場合,それにひも付けされている背景モデ ルを利用して背景差分を行う.これにより,類似した 特徴量をもつ画素同士は同じ事例を共有することに なり,各画素で背景モデルを構築していた従来手法よ りも実装コストを抑えることができる.図1
は,特 徴量が類似した画素同士で過去に登録された事例を 共有している様子を表している.また各画素で自身 の特徴量と類似した代表特徴を毎フレーム探索する ことで,2. 2
で紹介したような,クラスタ内では同一 の背景変動が起こると仮定していた従来研究の問題 に対応する.ここで,事例の再選択処理により計算コ図1 事例ベース背景モデルの事例共有の様子 Fig. 1 Summary of sharing background model.
ストが増加するという問題が生じるが,本手法では ハッシュに基づく近似最近傍探索手法
[9]
であるLSH
(
Locality-Sensitive Hashing
)を用いることで高速な 探索を実現する.LSH
の詳細は3. 2
で述べる.また,事例集合を探索する際に類似した代表特徴が発見され なかった場合は,その特徴量を代表特徴として,それ に対応する背景モデルをひも付けし新たな事例として 追加する.このように,観測される背景変動に応じて 事例を逐次的に追加登録することで,新たな特徴量が 得られた場合に対応する.一方で,不要になった事例 を削除する仕組みも提供する.この削除方法は
3. 4
で 述べる.また,前述のように各画素が利用する事例は 自身の特徴量に応じて選択されるため,特徴量の選択 手法は検出性能に大きな影響を及ぼす.特徴量の詳細 については4. 2
で改めて述べる.3. 2
ハッシュを用いた事例探索過去に登録された事例集合の中から高速に代表特徴 を探索するために,ハッシュに基づく探索手法を導入 する.
LSH
は,ハッシュに基づく近似最近傍探索手 法[9]
の一つである.この手法では,距離の近い特徴 量同士が同じハッシュ値をとる確率が高くなり,距離 の遠い特徴量同士が同じハッシュ値をとる確率が小さ くなるような,局所鋭敏(Locality-Sensitive
)なハッ シュ関数を利用する.このようなハッシュ関数をk
個 作成し,それらを一組のハッシュ関数群として最近傍 候補を抽出する.更にこのような処理をL
個のハッ シュ関数群について行い,各関数群から得られる候補 の和集合を最終的な最近傍候補とする.本手法では,局所鋭敏なハッシュ関数として次式
(1)
で表されるも のを用いる.この関数は文献[9]
のLSH
で利用されて おり,ベクトル空間で利用が可能である.h (p) = a · p + b w
(1)
p
は入力ベクトル,a
は各次元の要素の値をガウス分 布から独立に取得したベクトル,b
は区間[0, w]
から ランダムに選ばれた実数,w
はハッシュ幅である.本 研究におけるp
は探索したい特徴量にあたる.本研究ではクエリとなる特徴量に対して上記のハッ シュ関数群を適用し,最近傍候補となる代表特徴が見 つかった場合は,その候補に割り当てられているモデ ルを利用する.一方で,最近傍候補が見つからなかっ た場合は,そのクエリを新たな代表特徴として事例を 登録する.
3. 3
背景モデルの更新画素から参照され,差分処理に利用された背景モデ ルはフレームごとに更新処理を行う.背景モデルは複 数の画素から参照されることがあるが,その場合のモ デルの更新は事例を参照した画素の中からランダムに 選択した一つの画素の画素値を用いて行う.同一事例 を参照した画素の平均を利用する方法なども考えられ るが,平均の計算などにかかるコストを削減するため に,ランダムに選択する手法を採用している.一方で,
どの画素からも参照されなかった事例は,背景モデル の更新を行わない.
3. 4
背景モデルの削除本手法では新しい背景変動が観測された際にその変 動に対応した事例を登録するため,一度しか観測され ない背景変動に対応するモデルも存在する.このよう なモデルを永続的に保持しておくことは,実装コスト の面で好ましくない.そこで,事例を適宜削除する仕 組みを導入する.具体的には,各事例に生存時間を保 持させ,最後に事例が参照されたフレーム時刻から生 存時間後まで参照されない場合は,該当するモデルを 削除する.
4.
統計的背景モデルへの事例化の枠組み の適用本章では,
3.
で紹介した事例化の枠組みを,混合ガ ウス分布を用いた統計的背景モデルへ適用する方法を 述べる.4. 1
処 理 手 順図
2
に処理手順のフローチャートを示す.以降では,フレーム時刻
t
における入力画像の注目画素i
での処 理に着目して説明する.また,画素i
から得られる特 徴量をq
iとする.Step.1
事例の探索過去に登録された事例集合の中から,
q
iと類似した図2 事例ベース背景モデルの処理手順 Fig. 2 Flowchart of case-based background model.
代表特徴をもつ事例を,
LSH
を用いて探索する.Step.2-1
背景差分事例が発見された場合は,その事例に割り当てられ ている背景モデルを利用して背景差分を実行する.こ の結果,画素には前景か背景のラベルが付与される.
Step.2-2
事例の新規登録事例が発見されなかった場合は,画素
i
の特徴量q
i を新たな代表特徴とし,現フレームの画素i
の画素値 を用いて構築した背景モデルを対応させて新規事例と して登録する.Step.3
背景モデルの更新全ての画素で
Step.1
〜Step.2
の処理を終えた後,背 景モデルの更新を行う.Step.2
において1
度でも参照 された事例は背景モデルの更新を行う.一方,1
度も 参照されることのなかった背景モデルは更新処理を行 わない.Step.4
事例の削除最後に参照されたフレーム時刻から
TTL
以上参照 されない事例が存在する場合,その事例を削除する.4. 2
事例ベース背景モデルの特徴量事例ベース背景モデルの性能を決定づける要因は,
特徴量の選択手法にある.画素値のみを特徴量として 用いていた従来手法に対し,事例ベース背景モデルで は特徴ベクトル
q
を用いる.式(2)
にその一例を示す.この特徴ベクトルは,現フレームの画素値
X
tのみで はなく,前のフレームの画素値X
t−1,注目画素の画 素座標( u, v )
を要素としてもつ.q = ( X
t, X
t−1, u, v )
T(2)
事例ベース背景モデルでは,式
(2)
で表されるような 特徴ベクトルに基づいて事例の登録を行い,背景差分 を行う際は,注目画素の特徴ベクトルと類似した代表 ベクトルをもつ事例を利用する.そのため,特徴量と して前のフレームの画素値X
t−1を用いることで画素 値の時間変化を,注目画素の画素座標( u, v )
を用いる ことで空間情報を考慮したモデル選択が可能となり,背景変動に対してより頑健なモデルを構築することが できる.
上記の例以外にも,事例ベース背景モデルでは特徴 ベクトルに様々な特徴量を含めることができるため,
利用者は目的に合った特徴量を事前に設定することで,
実装環境に合ったモデル設計を行うことができる.し かし,この設計法を実現するためには多様なシーンに 対して各特徴量が結果に及ぼす影響を事前に調べてお く必要がある.そこで本研究では,複数の特徴ベクト ルを用いることで各特徴量がモデルの性能に及ぼす影 響を検証した.実験に用いた特徴ベクトルについては,
5. 3
で詳しく述べる.5.
評価実験の設定本章では評価に利用したデータセットとその評価 方法を紹介する.各データセットには正解値となる
Ground Truth
画像が用意されている.5. 1
データセット5. 1. 1
シミュレーションデータセット今回の実験では,まず
1
種類の背景変動が単独で 含まれるようなシミュレーションデータセットを用い て評価実験を行い,個々の背景変動に対するモデルの 性能評価を行った.背景変動別に性能とコストの関係 を分析することで,変動に応じた適切な背景モデル を選択することが可能になる.本研究では,文献[10]
で利用されている
CG
で作ったシミュレーションデー タセット(SABS
:Stuttgart Artificial Background Subtraction
)を用いて実験を行った.背景差分の性 能評価用のデータセットで,各シーンは背景変動を単 独で含んでいる.シーンの詳細を以下に示す.SABS
(図3 (a)
)画像サイズは全シーンとも
800 × 600
である.-Basic
:背景変動として街路樹の揺らぎのみが観測される.
-Camouflage
:背景変動はBasic
と同様で,移動物体 の画素値が背景と類似しているシーン.-NoCamouflage
:前述のCamouflage
とは逆に,移動(a) SABS (b) PETS (c) LightSwitch
(d) CD Dataset 図3 評価に利用したデータセット Fig. 3 Images used for evaluation.
物体の画素値が背景と明確に異なるシーン.
-Darkening
:照明条件が次第に暗くなっていくシーン.-LightSwitch
:ショーウィンドウの電灯がオン/
オフを 繰り返し,急激な照明変動が観測されるシーン.-NoisyNight
:カメラのセンサノイズの影響で,画面 全体にノイズがかかっているシーン.-MPEG4
:圧縮処理により品質が低下したシーン.-Bootstrap
:学習用データを用いた学習を行わないシーン.
-DynamicBacground
:木の揺らぎが観測される領域 のみを用いて評価を行う.5. 1. 2
実世界を撮影したデータセット物体検出などの利用目的で実際に背景差分を用いる 場合,様々な背景変動が同時に観測される環境下での 利用が想定される.そのため,単独の背景変動に対す る性能評価のみではなく,様々な変動が複合的に観測 されるシーンに対する性能評価が必要である.そこで 今回は,
8
種類の実シーンを用いて複数の背景変動に 対するモデルの評価を行った.これらのシーンには,5. 1. 1
で紹介したシミュレーションデータでは個別に 扱われていた背景変動が同時に含まれている.データ セットの詳細を以下に示す.PETS
(図3 (b)
) 天候の変化による照明変動が観測 されるシーン(画像サイズ320 × 240
)LightSwitch
(図3 (c)
) 屋内照明による急激な照 明変動が起こるシーン(画像サイズ320 × 240
).Change Detection
(CD
)Dataset
(図3 (d)
) 背 景変動ごとに六つにカテゴリーに分けされたデータ セット.各カテゴリーは4
〜6
個の映像を含んでいる.画像サイズは映像ごとに異なるため,各カテゴリーの 代表シーンの画像サイズを示すこととする.各カテゴ
(a) Precision-Recall (b)of Dist-fps (c) Memory- F-measure 図4 評 価 曲 線
Fig. 4 Evaluation curves.
リーの詳細を以下に示す.
-Baseline
:基本となるシーン(画像サイズ320 × 240
).-CameraJitter
:カメラが振動し,映像が大きく揺ら ぐシーン(画像サイズ720 × 480
).-DynamicBackground
:木々や水面の揺らぎにより背 景が動的に変動するシーン(画像サイズ720 × 480
).-IntermittentObjectMotion
:移動物体が映像内でい った ん 静 止 し ,再 び 動 き 出 す シ ー ン( 画 像 サ イ ズ320 × 240
).-Shadow
:陰の領域が多いシーン(画像サイズ320 × 240
).-Thermal
:赤外線センサを用いて撮影したシーン(画像サイズ
352 × 288
).5. 2
評 価 方 法本研究では,事例選択に用いる特徴選択法,背景差 分性能,メモリコスト,計算コストの関係を詳しく分 析するため,各々を構成要素とする評価曲線を作成し た.特徴量の異なる複数の特徴ベクトルを用いてそれ ぞれの曲線を描画し,特徴量の選択法によるモデルの 性能への影響を検証した.具体的には,前景
/
背景の ラベル付けに関係する内部パラメータを変動させる実 験を行い,図4
に示すような3
種類の曲線を描画し た(注1).Precision-Recall
(図4 (a)
)は適合率と再現 率を軸にとった曲線であり,分布数-fps
(図4 (b)
)は 分布数によるfps
の変化を表す曲線,消費メモリ-F
値(図
4 (c)
)は消費メモリとモデルの性能を表すF
値の 関係を表す曲線である.Precision-Recall
は右上に位 置するほど性能が良く,分布数-fps
と消費メモリ-F
値 は左上に位置するほど性能が良いことに注意されたい.モデルの性能を示す各評価基準は,以下の数式で表さ れる.
Precision = TP
TP + FP (3)
(注1):今回利用した混合ガウス分布を用いる背景モデルでは,各分布 の平均値から±m·(標準偏差)以内にマッチする画素値を背景,それ 以外を前景とラベル付けする.詳細については文献[5]を参照されたい.
今回はmの値を変動させる実験を行った.
Recall = TP
TP + FN (4)
F − measure = 2/ 1
Precision + 1 Recall
(5)
ここで,TP
(True-Positive
)は正しく前景として検 出した画素数,FP
(False-Positive
)は誤って前景と して検出した画素数,FN
(False-Negative
)は誤って 検出できずに背景としてしまった画素数である.5. 3
事例化に用いる特徴ベクトル事例ベース背景モデルの特徴量は,以下に示す
3
種 類の特徴ベクトルを採用し,それぞれの結果を比較す ることで各要素がモデルの性能・コストに及ぼす影響 を検証した.(a)
時間情報X
t−1のみq
t= ( X
t, X
t−1)
T(6) (b)
空間情報u
,v
のみq
s= ( X
t, u, v )
T(7)
(c)
時間情報X
t−1+
空間情報u
,v
q
st= ( X
t, X
t−1, u, v )
T(8)
また比較手法として,背景変動に応じて適応的に分布 数を増減させる混合ガウス分布を用いた動的背景モデ ル構築手法[5]
(以下,AdaptiveGMM
と呼ぶ)を用 いて同様の実験を行った.6.
実 験 結 果本章では,実験結果を手法別,シーン別に考察した 結果を報告する.以降では説明を簡易化するため,特 徴ベクトルとして時間情報のみを用いた手法を
C
t,空 間情報のみを用いた手法をC
s,時間情報と空間情報 の両方を用いた手法をC
stと表すこととする.6. 1
実 験 環 境今回の実験では
Intel Core i7 3.20 GHz
のCPU
を 利用した.LSH
のパラメータは事前実験により検証を 行い,ハッシュ関数数k = 3
,ハッシュ関数群数L = 1
, ハッシュ幅ω = 1000
として全ての実験で共通して利 用した.生存時間(TTL
)は6. 6
での実験を除いて10000
とした.これは実験に用いたデータセットのフレーム数を超える値であり,事例は削除されない.こ れは事例の削除を含めた実験結果を示すと,背景モデ ルを事例化することの有効性の検証が難しくなるため
である.
6. 2
手法別の考察全シーンに対する性能(
F
値)とコスト(消費メモ リ,fps
)の実験結果を表1
に示す.各値は実験にお いてF
値が最良値を示すパラメータ(注2)を用いたとき の結果を表し,各シーンで最も結果が良かった数値を 太字で示している.消費メモリとfps
の評価値は,従 来法であるAdaptiveGMM
を1
としたときの割合を 示している(注3)(例:Case-Based C
tのSABS-Basic
において,Memory
とfps
は0.04
,3.07
となってい る.これは従来法に比べて消費メモリを4%
まで削減 し,処理速度は3
倍まで向上する事を示している).C
tの結果を見ると,全シーンに対してコスト面で 最も良い結果を示していることが分かる.従来法に比 べるとほぼ全てのシーンに対して消費メモリを10
分 の1
以下に抑えることができ,fps
も平均して2.5
倍 まで向上させることができている.他の事例化手法で あるC
s,C
stも従来法よりコストを抑えることがで きているため,事例化を用いる手法が低コスト化にお いて有効な手段であるといえるが,C
tはその性質が 顕著に現れている.これは各事例化に用いる特徴ベク トルの次元数が他の事例化手法に比べて少ないからで ある.また,性能を示すF
値もある程度の値を保持し ている点も注目すべき結果である.コストが圧倒的に 少ない分,性能の低下が懸念されるが,大幅な低下が 見られるシーンは少なく,いくつかのシーンでは従来 法よりも高いF
値を示している.以上のことから,画 素値の時間変化を特徴量とするC
tを用いると若干の 性能の低下が見られるものの,消費メモリ・処理速度 の両面で大幅な低コスト化が望め,更にシーンによっ ては性能が向上するということがいえる.C
sの結果を見ると,ほぼ全てのシーンに対し全手 法の中で最も低いF
値を示している.実シーンにおい て,いくつかC
tを上回るF
値を示しているものがあ るが,それでも0.2
程度であるため実用的な数字とは いえない.空間情報として画素座標( u, v )
を含めると,(注2):最良値となるパラメータはシーンによって異なるが,今回利用 した混合ガウス分布を用いた背景モデルでは,その性能を左右するパラ メータは(注1)で述べた前景/背景のラベル付に関係する値mと,背 景モデルの更新に用いる学習率の二つのみであり,さほど複雑な調整は 必要ない.またどのシーンでも最良の結果を得るためのパラメータの区 間は小さいことが判明した.そのため,実利用を考えた場合でも提案手 法のパラメータ設定は特に問題にならないといえる.
(注3):全ての実値を記載すると見づらくなるためこのような記述方法 をとった.参考までに,代表的なシーンであるBasicの消費メモリと fpsはそれぞれ48633 KB,2.5 fpsであった.
表1 実 験 結 果 Table 1 Experimental result.
Case-BasedCt
(Temporal)
Case-BasedCs
(Spacial)
Case-BasedCst
(Spatio-temporal)
Adaptive GMM
F Mem. fps F Mem. fps F Mem. fps F Mem. fps
SABS Basic 0.45 0.04 3.07 0.05 0.11 1.95 0.65 0.24 1.52 0.52 1.00 1.00
Camouflage 0.41 0.06 2.19 0.05 0.14 1.57 0.54 0.27 1.30 0.51 1.00 1.00 NoCamouflage 0.44 0.06 2.93 0.05 0.10 2.35 0.58 0.30 1.56 0.50 1.00 1.00 Darkening 0.41 0.09 2.76 0.05 0.22 2.18 0.46 0.55 1.52 0.30 1.00 1.00 LightSwitch 0.17 0.09 2.27 0.07 0.14 1.56 0.28 0.29 1.31 0.30 1.00 1.00 NoisyNight 0.22 0.04 2.68 0.05 0.08 2.07 0.31 0.17 1.81 0.45 1.00 1.00 MPEG4 0.45 0.08 3.61 0.07 0.15 2.57 0.63 0.48 1.76 0.57 1.00 1.00 Bootstrap 0.42 0.05 2.28 0.06 0.13 1.67 0.53 0.33 1.00 0.52 1.00 1.00 DynamicBackground 0.36 0.04 2.01 0.08 0.08 1.45 0.59 0.23 1.11 0.53 1.00 1.00 CD Baseline 0.76 0.06 2.68 0.22 0.10 1.40 0.79 0.33 1.01 0.90 1.00 1.00 Camerajitter 0.16 0.09 4.36 0.20 0.17 2.61 0.40 0.43 1.49 0.38 1.00 1.00 DynamicBackground 0.20 0.02 1.60 0.02 0.09 1.46 0.25 0.31 1.32 0.18 1.00 1.00 IntermittentObjectMotion 0.33 0.08 2.67 0.13 0.12 2.33 0.38 0.32 1.50 0.52 1.00 1.00 Shadow 0.51 0.08 2.84 0.08 0.16 2.18 0.68 0.52 1.62 0.74 1.00 1.00 Thermal 0.32 0.07 2.64 0.07 0.12 1.83 0.52 0.26 1.37 0.73 1.00 1.00 PETS 0.56 0.40 1.97 0.02 0.77 1.53 0.63 0.96 1.11 0.32 1.00 1.00 LightSwitch 0.32 0.33 2.35 0.03 0.39 1.82 0.34 0.90 1.33 0.25 1.00 1.00
次元数が多い分輝度値
X
tよりも画素座標が近い物同 士で事例を共有してしまい,性能が低下してしまった と考えられる.以上より,性能に着目するとC
sはあ まり有効な手法ではないといえる.消費メモリ・fps
においては従来法よりも良い結果を示しており,今回 実験で用いた三つの事例化手法の中では2
番目に良い 結果となった.前述のように,事例化を用いた手法を 利用する場合,特徴量の次元数がその消費メモリと処 理速度に大きな影響を及ぼす.各手法の次元数はC
t,C
s,C
stの順に2
,3
,4
であるため,その順序に従 いこのような結果となったと考えられる.以上のこと から,画素値に加えて画素座標を特徴量とするC
sは,コスト面では従来手法に勝るものの,性能面で大きく 劣ってしまうため,実用的な手法ではないといえる.
今後はより効果的な空間特徴を考察していく必要が ある.
C
stの結果を見ると,多くのシーンに対して最も高 いF
値を示していることが分かる.事例化を用いた 手法の中では,全シーンに対して最も良い性能を示し ている.これは特徴量として画素値の時間変化と画素 座標の両方を採用しているため,適切な事例選択が可 能となりモデルの表現能力が向上しているためである と考えられる.コスト面においても,従来手法よりも 少ない消費メモリでかつ高速な処理を実現している.全シーンを平均すると,メモリコストは従来手法の
40%
まで削減でき,計算コストは1.4
倍に向上させる ことができている.他の事例化を用いた手法と比較す ると,コストの削減量という観点からは最も悪い結果 となっているが,安定した高性能化と低コスト化の両 立ができている手法はC
stのみである.以上のことか ら,特徴量に時空間情報を利用するC
stは,性能を向 上させかつコストも削減できる有効な手法であるとい える.6. 3
シーン別の考察本節では評価曲線を用いて,実験結果をシーン別に 検証する.各データセットの中から,典型的な結果が 得られたシーンの評価曲線を図
5 (a)
〜(d)
に示す.各 図のグラフは上から順にPrecision-Recall
曲線,分布 数-fps
曲線,消費メモリ-F
値曲線を表している.ス ケールの関係上,曲線が潰れて評価できない箇所が存 在したため,中間線を用いて適宜調整を行っている.また,シーンごとの
fps
,分布数,消費メモリに大き な差が見られるが,これはシーンの画像サイズが各々 違うことによるものである.まずはじめにシミュレーションデータに対する結果 を考察する.
SABS-Darkening
(図5 (a)
) 人工のシミュレー ションデータセットであり,緩やかに映像全体が暗く なるシーンである.Precision-Recall
曲線を見ると,C
stが他の手法よりも高い性能を示している.また,(a) SABS-Darkening (b) PETS
(c) LightSwitch (d) CD-CameraJitter
図5 評 価 曲 線 Fig. 5 Evaluation curves.
図6 特徴ベクトル別の検出結果の比較 Fig. 6 Detection results according to features.
C
tも従来手法と同等の性能を示していることが確認 できる.これより,事例化手法がこのシーンに対して 有効であり,特に時間特徴X
t−1がその性能向上に大 きく寄与していることが分かる.消費メモリ-F
値の曲 線を見ると,従来手法よりもC
st,C
tの方が高い性 能を少ないメモリで実現できていることが分かる.計 算コストの面でも,事例ベース背景モデルの各手法の 方が,従来手法よりも優れていることが分布数-fps
曲 線から確認できる.以上から,緩やかな照明変動が観 測されるシーンでは,性能・コスト両面において,事 例化の枠組みが非常に効果的に働くことが分かる.特 に省メモリ化を重視する場合は,C
tを用いることで,従来手法の約
10%
のメモリ量で同等の性能を出すこと が可能である.次に実世界を撮影したデータセットを用いて評価実 験を行った結果を考察する.前述のシミュレーション データ
SABS
に含まれている背景変動及び環境条件が 複数同時に起こる実シーンを用いることで,背景モデ ルとしての総合的な性能を評価する.CD
データセッ トについては,典型的な結果が得られたシーンを検証 する.PETS
(図5 (b)
) このシーンでは,背景変動とし て木々の揺らぎ,天候の変化による照明変動が起こ り,前景として沢山の人の往来が観測される(シミュ レーションデータのBasic
,Darkening
,Camouflage
,NoCamouflage
が対応している).Precision-Recall
曲 線,消費メモリ-F
値曲線を見ると,C
stが最も高い性 能を示していることが分かる.これは,従来手法に比 べて事例ベース背景モデルの方が,天候の変化による 緩やかな背景変動に,頑健に対応できるからであると 考えられる(SABS-Darkening
の評価結果より).ま た,C
stとC
t を比較すると,C
tの方が圧倒的に少 ない分布数で同等の性能を示している.実際に検出結 果の画像を比較してみても,C
stとC
tの間にほとん図7 急激な照明変動直後の検出結果の比較 Fig. 7 Comparative detection results for sudden illu-
mination change.
ど差は見られない(図
6
).以上より,複数の背景変動(木々の揺らぎなどのテクスチャ変動,天候の変化に よる緩やかな照明変動)が観測される場合でも,事例 化の枠組みは有効に働くことが確認できる.性能を優 先する場合は
C
stを用い,コスト削減を優先する場合 はC
tを用いることで,それぞれ用途に合った検出結 果を,従来手法より低コストかつ高速に得ることがで きる.LightSwitch
(図5 (c)
) このシーンでは急激な照 明変動が何度も観測される.また,照明変動が起こっ た直後に,カメラセンサのしぼり調整により映像全 体の明るさが自動的に調節される(シミュレーション データのLightSwitch
,Darkening
が対応している).Precision-Recall
曲線,消費メモリ-F
値曲線を見ると,C
st及びC
tが,従来手法より高い性能を示している.これは事例ベースの手法が,急激な照明変動の直後の 緩やかな明るさ調整に対して,適切に対応できるから である.図
7
に照明変化(ライトON
→OFF
)が起 こった直後の検出結果を示す.図7
から,事例ベース 背景モデルの方が変動に対する誤検出が少ないことが 分かる.また,誤検出しているピクセルに対し,より 少ないフレームで対応している様子も確認できる.こ れは,過去に同様の変動が観測された際に登録した事 例を,適切に参照することができているためである.以上より,実シーンにおける急激な背景変動に対して も,事例化のフレームワークは有効に働いていること が分かる.
CD-CameraJitter
(図5 (d)
) 撮影カメラが振動 し,映像全体が頻繁に揺らぐシーンである.多くの背 景モデルは固定されたカメラで撮影したシーンを入 力とすることを前提として設計されているため,この シーンのようにカメラが動くような映像に対する精度 はあまり期待できない.実際に,消費メモリ-F
値曲線 を見ると全ての手法でF
値が低い値をとっていること が分かる.しかし,C
stは従来手法と同等の性能をよ り少ない消費メモリで達成している.これは画素座標 を特徴量として利用していることに起因する.カメラ が振動した場合,現フレームで観測される画素値は,前フレームで近傍画素で観測されたものである可能性 が高い.つまり,現フレームでは近傍画素で利用され たモデルを参照することが必要である.特徴量に画素 座標を用いる
C
stは,座標が近い者同士でモデルを共 有することができるため,カメラの振動による映像の 揺らぎに対して頑健であるといえる.特徴量として画 素座標を利用しないC
tがC
stと比べて低い性能を示 していることからも,空間情報が有効に働いているこ とが確認できる.6. 4
空間情報の考察6. 2
,6. 3
では,背景モデルの頑健性を高めるため に空間情報(画素座標( u, v )
)を導入した特徴ベクト ルを用いて実験を行ったが,空間情報単体では良い結 果が得られなかった.これは輝度値と画素座標という 異なる意味の特徴量を特徴ベクトル内で同等に扱って いるため,輝度値自体が軽視され,画素の位置が近い 画素間でしか背景モデルを共有できないからであると 考えられる.そこで本節では同じ意味の特徴を用いて 空間情報を表現し実験を行った結果を示す.具体的に は,式(9)
に示すような特徴ベクトルを用いて実験を 行った.q
s= ( X
t(u,v), X
t(u−1,v), X
t(u,v−1),
X
t(u+1,v), X
t(u,v+1))
T(9)
ここで
X
t(u,v) はフレーム時刻t
における画素座標( u, v )
に位置する画素の輝度値を表す.つまり式(9)
の特徴ベクトルは注目画素の輝度値に加え,上下左右 の近傍画素の輝度値を特徴量として導入したものであ る.この特徴ベクトルには輝度値のみしか含まれてい ないため,事例探索の際に全ての要素が平等に扱われ表2 輝度値ベースの空間情報を用いた実験結果 Table 2 Experimental result with pixel-base spatial
feature.
Precision Recall F-measure qs 0.02 0.88 0.03
表3 次元数が性能に与える影響 Table 3 Effect of dimension of feature vector.
qt2(二次元) qt3(三次元) qt4(四次元)
Precision 0.62 0.52 0.41
Recall 0.64 0.28 0.19
F-measure 0.63 0.36 0.26
図8 TTLに対する検出性能 Fig. 8 Performance according to TTL.
る.表
2
にPETS
データセットを用いて行った評価 結果を示す.画素座標( u, v )
を用いた場合と同様に,Recall
は高い値を示しているもののPrecision
が低く,それらの調和平均である
F-measure
もかなり低い値 をとっていることが分かる.このことから,単なる周 辺画素との関係を事例化するだけでは,高性能化は難 しいといえる.より高精度な空間情報を特徴ベクトル に導入し事例化する手法も考えられるが,その分コス トの増加は避けられない.改善策としては6. 2
の結果 から,時間情報を導入することで大幅な高性能化が望 めることが分かるので,単なる周辺画素の輝度値では なく,その時間変化を特徴量に含めることで,時空間 情報を同時に利用することなどが考えられる.6. 5
特徴ベクトルの次元数の検証表
1
より,特徴ベクトルの次元数が二次元(C
t)
,三 次元(C
s)
,四次元(C
st)
と増加するにつれて,消費メ モリと計算時間が増加することが見て取れる.しかし,これら特徴ベクトルには性質が大きく異なる特徴量
(輝度値と画素座標)が混在しているため,これらの 比較のみでは次元数の増加による性能への影響を評価 することはできない.そこで本節では以下の式
(10)
〜(12)
に示すような特徴ベクトルを用いて比較実験を 行った.これらの特徴ベクトルは輝度値のみを特徴量 として含んでおり,それぞれの次元数を2
〜4
まで変化 させている.評価にはPETS
データセットを用いた.q
t2= ( X
t, X
t−1)
T(10) q
t3= ( X
t, X
t−1, X
t−2)
T(11) q
t4= ( X
t, X
t−1, X
t−2, X
t−3)
T(12)
各特徴ベクトルを用いた実験結果を表3
に示す.各 数値は5. 2
で述べた方法と同様のパラメータ変動実 験を行い,最もF
値が高かった場合の結果を示してい る.また,それぞれの評価基準で最も結果が良かった 数値を太字で示している.表3
を見ると,次元数の増 加に伴い性能が低下しており,特にRecall
の低下が 著しいことが分かる.これは次元数が増えるに従って,細かな画素値の変動でも事例が登録されてしまうから である.これによりたとえ移動物体などの一時的な画 素値の変化が見られた場合でも,それを背景の事例と して即座に登録してしまうため,物体を前景として検 出できずに
Recall
が低下してしまったと考えられる.以上より,単純に特徴ベクトルの次元数を増加させた だけでは性能の向上は望めないことが確認された.
6. 6
事例削除の影響の検証本節では事例削除の性能への影響を検証する.各事 例は生存時間
TTL
をもち,最後に参照されたフレー ム時刻からTTL
後まで参照されない場合,その事例 は削除される.適切なTTL
を設定することで,シー ンを通して一度しか観測されない偶発的な特徴ベクト ルをもつ事例を削除することができ,消費メモリを抑 えることができる.しかしあまりに小さい値を設定し てしまうと事例がすぐに削除されてしまい,性能が低 下してしまう.そこで,TTL
を徐々に短くしていく実 験を行い,事例削除が性能に与える影響を調査した.実験には
PETS
データセットを用いた.結果を図8
に 示す.図8
より,TTL
を170
より小さくすると,性 能が急激に低下することが分かった.そのときの事例数は約
11000
であった.事例削除を行わない場合の事例数は約
31000
であったため,およそ65%
の事例を 削除しても性能を維持することができることが分かっ た.以上より,適切に事例を削除することで性能を維 持しつつ実装コストを削減できることが分かった.7.
む す び本論文では,事例ベース背景モデルの提案とその評
価を行った.事例化の枠組みを従来の統計的背景モデ ルに適用することで,高性能化と低コスト化を両立さ せることが可能となる.多様なデータセットを用いた 実験により,様々な背景変動に対して性能を維持しつ つコストを削減できることが確認され,本手法の有効 性が示された.今後の課題としては,現状の事例化手 法では対処できないシーンの性能を向上させることが 挙げられる.
Bootstrap
のように学習段階で前景が含 まれるシーンでは前景の情報を含む事例を作成してし まい,検出精度が低下してしまう.このような条件下 において適切な検出を行う事例化手法を考案する必要 がある.また,今回結果が良くなかった空間情報を改 善することも解決すべき課題の一つである.文 献
[1] 佐藤雄隆,金子俊一,丹羽義典,山本和彦,“Radial Reach Filter(RRF)によるロバストな物体検出,”信学論(D- II),vol.J86-D-II, no.5, pp.19–24, May 2003.
[2] T. Tanaka, S. Yoshinaga, A. Shimada, R. Taniguchi, T. Yamashita, and D. Arita, “Object detection based on combining multiple background modelings,” IPSJ Trans. Computer Vision and Applications, 2010.
[3] A. Shimada, T. Tanaka, D. Arita, and R. Taniguchi,
“Spatial-temporal integration of adaptive Gaussian mixture background models,” CD-ROM Proc. 14th Korea-Japan Joint Workshop on Frontiers of Com- puter Vision, 2008.
[4] C. Stauffer and W.E.L. Grimson, “Adaptive back- ground mixture models for real-time tracking,” Com- put. Vis. and Pattern Recognit. (CVPR), IEEE Com- puter Society Conference, vol.2, pp.246–252, 1999.
[5] A. Shimada, D. Arita, and R. Taniguchi, “Dynamic control of adaptive mixture-of-Gaussians background model,” CD-ROM Proc. IEEE International Confer- ence on Advanced Video and Signal Based Surveil- lance, 2006.
[6] K. Toyama, J. Krumm, B. Brumitt, and B. Meyers,
“Wallflower: Principle and practice of background maintenance,” International Conference on Com- puter Vision, pp.255–261, 1999.
[7] T. Tanaka, A. Shimada, R. Taniguchi, T. Yamashita, and D. Arita, “Towards robust object detection:
integrated background modeling based on spatio- temporal features,” Asian Conference on Computer Vision, vol.5994, pp.201–212, 2010.
[8] J. Park, A. Tabb, and A.C. Kak, “Hierarchical data structure for real-time background subtraction,”
ICIP, pp.1849–1852, 2006.
[9] M. Datar, N. Immorlica, P. Indyk, and V.S. Mirrokni,
“Locality-sensitive hashing scheme based on p-stable distributions,” SCG ’04: Proc. twentieth annual sym- posium on Computational Geometry, pp.253–262,
2004.
[10] S. Brutzer, B. Hoferlin, and G. Heidemann, “Evalu- ation of background subtraction techniques for video surveillance,” Comput. Vis. and Pattern Recognit.
(CVPR), IEEE Conference, pp.1937–1944, 2011.
(平成24年6月3日受付,10月3日再受付)
野中 陽介 (学生員)
2012九大・工・電気情報卒.同年,同大 大学院システム情報科学府情報知能工学専 攻進学.物体検出に関する研究に従事.
島田 敬士 (正員)
2002九大・工・電気情報,飛び級のため 退学.2007同大大学院システム情報科学 府知能システム学専攻博士後期課程了.同 年,九州大学大学院システム情報科学研究 院助教.博士(工学).パターン認識,画像 処理,人工神経回路網に関する研究に従事.
2010年IEEE Region 10 WIE Best Paper Award,2011年
MIRU2011インタラクティブセッション賞受賞.日本神経回
路学会,IEEE各会員.
長原 一 (正員)
1996山口大・工・電気電子卒.1998同大 大学院理工学研究科博士前期課程了.2001 大阪大学大学院基礎工学研究科博士後期課 程了.同年日本学術振興会研究員として同 研究科に所属.2003より大阪大学大学院 基礎工学研究科助手.2007同研究科助教.
2005フランスピカルディ大学客員助教授.2007〜2008アメリ カコロンビア大学客員研究員.2010九州大学大学院システム 情報科学研究院准教授.コンピュテーショナルフォトグラフィ,
コンピュータビジョン,仮想現実感の研究に従事.2003 ACM VRST2003 Honorable Mention Award.IEEE,情報処理学 会,日本ロボット学会各会員.博士(工学).
谷口倫一郎 (正員:フェロー)
1980九州大学大学院工学研究科修士課 程了.同年,九州大学助手.1989同助教 授.1996九州大学大学院システム情報科 学研究科(現研究院)教授.工学博士.画 像処理,コンピュータビジョン,並列処理 等の研究に従事.本会篠原記念学術奨励賞 受賞.