論文

(1)

論文

高性能かつ低コストな背景モデル構築のための事例ベース背景モデリング _*

野中陽介

^†^a)

島田敬士

^††

長原一

^††

谷口倫一郎

^††

Case-Based Background Modeling for High Accuracy and Low Cost Background Subtraction

^∗

Yosuke NONAKA

^†a)

, Atsushi SHIMADA

^††

, Hajime NAGAHARA

^††

, and Rin-ichiro TANIGUCHI

^††

あらまし物体検出の基盤技術として利用される背景モデルは，高性能化，低コスト化を目標とした様々な構築手法が提案されてきた．一般に，高性能化と低コスト化はトレードオフの関係にあるためその両立は困難である．この問題に対するブレークスルーとして，我々は事例ベース背景モデルを提案する．各画素でモデルを保持していた従来の統計的背景モデルに対し，本手法は必要数だけのモデルを保持する．また，モデル選択に利用する特徴量に時空間情報を含めることで，検出性能の向上を図る．本論文では提案手法のフレームワークを述べ，

更にその性能を緻密に評価した結果を報告する．様々な環境変動が起こるシーンを利用して背景差分性能，メモリコスト，計算コストの関係を分析した結果，多くのシーンに対して，従来法よりも高い検出精度をより低いコストで実現できることが確認された．

キーワード背景モデル，事例ベース，物体検出，性能評価

1.

^{まえがき}

背景モデリングは，シーンの背景変動をモデル化する手法であり，物体検出の基礎技術として幅広く研究されている．従来，背景モデリングは背景変動に柔軟に対応するための高性能化と，省メモリかつ高速な処理を実現する低コスト化の点で議論がなされてきた．

高性能化を図る手法として，空間情報や時間情報をモデル化する手法

[1], [2]

が考案されているが，いずれも実装に必要なメモリと計算にかかるコストが増加してしまうという問題がある．低コスト化を図る手法としては，クラスタリング処理により背景モデルを共有化することでモデル数の圧縮を図る手法

[3]

が提案さ

†九州大学大学院システム情報科学府，福岡市

Graduate School of Information Science and Electrical Engineering, Kyushu University, 744 Motooka, Nishi-ku, Fukuoka-shi, 819–0395 Japan

††九州大学大学院システム情報科学研究院，福岡市

Graduate School of Information Science and Electrical Engineering, Kyushu University, 744 Motooka, Nishi-ku, Fukuoka-shi, 819–0395 Japan

a) E-mail: [email protected]

*本論文は学生論文特集秀逸論文である．

れているが，モデル数の減少に伴い，当然性能が低下してしまう．このように，高性能化と低コスト化はトレードオフの関係にあるため，一般的にその両立は困難である．

このトレードオフ問題に対するブレークスルーとして，我々は事例ベース背景モデルを提案する．この手法では，画素特徴が類似した画素同士で背景モデルを共有し，それらを事例として管理する．各画素は特徴量に基づきハッシュ関数により高速に事例を参照する．

また，事例参照に用いる画素特徴として，画素値に加えて時間特徴と空間特徴を利用することで，背景変動に対する頑健性を向上させる．本論文では，まず従来の統計的背景モデルへ事例化の枠組みを適用する手法を述べる．その後，様々なデータセットを用いて事例ベース背景モデルの詳細な性能評価を行った結果を報告する．評価基準としては従来よく用いられる適合率と再現率に加え，メモリコストや計算コストとの関係も分析し，性能・コスト両面における提案手法の有効性を示す．

(2)

2.

2. 1

背景モデルの高性能化

背景をモデル化する代表的な手法として，画素値の出現頻度を混合ガウス分布を用いて近似する統計的背景モデル

[4]

がある．この手法の高性能化を図る場合，

過去に起こった様々な背景変動に対応するために各画素がもつ混合ガウス分布の分布数を増やすという措置がとられるが，実装メモリやモデルの更新にかかる計算コストが増加してしまう．また，背景の変化が頻繁に起こる画素のモデルには多くの分布を割り当て，逆に変化があまり見られない画素のモデルには少ない分布で対応することが望ましいが，各混合ガウス分布がもつ分布数はあらかじめ決めておく必要があるため，

分布の不足や，無駄な分布が存在するという問題が起こってしまう．背景変動に応じて混合ガウス分布の分布数を増減させる手法

[5]

も提案されているが，複雑な背景変動に対応するためにはやはり混合分布の分布数を増やす他なく，実装メモリが増大する問題は避けられない．

画素値の統計情報のみを用いた背景モデルでは，天候の変化により画素値が徐々に変化する場合や，屋内照明の変化により画素値が急激に変化する場合へ対応することが難しいため，画素値に加えて周辺画素との関係性をモデル化する手法

[1]

や，画素値の時間変化をモデル化する手法

[2]

が考案されている．いずれの手法も画素値の統計情報のみを用いたモデルより高い検出性能を示すが，時空間特徴を保持するモデルを別途用意する必要があるため，多くの実装メモリが要求される．

複数のモデルを利用する手法としては，画素ごとに統計的背景モデル，局所性を考慮した背景モデル，画素値の時間変化を考慮した背景モデルを組み合わせて用いる手法

[6], [7]

も提案されている．各手法の利点を生かしてモデルを統合することで検出精度の向上が望めるが，その分メモリ消費量や計算コストは増大するため，実装できる環境が限定的になってしまう．

2. 2

背景モデルの低コスト化

実装メモリを抑えることを目的とした背景モデルとして，類似した画素値が観測される画素をクラスタリングし，各クラスタ内の画素で共通のモデルを利用する手法

[3]

が提案されている．複数の画素でモデルを共有するため，各画素でモデルを保持する場合と比較してモデル構築に必要なメモリを節約することができ

る．また，モデル数が減少するため，モデルの更新にかかる時間も削減できるという利点もある．しかし，

クラスタ内での背景変動は同一であると仮定しているため，クラスタ内の一部の画素のみに背景変動が起こるような場合は検出精度が低下してしまう．そのような場合は画素を再クラスタリングすることで対応できるが，頻繁に再クラスタリングが必要となるようなシーンでは，計算コストが大幅に増加し，実時間での動作は難しい．計算コストを抑えることを目的とした背景モデルとしては，

4

分木を利用して階層的に背景モデルを構築する手法

[8]

が提案されている．画像を粗い粒度の方形で区切り，各領域内でランダムに選択された画素で背景モデルを構築する．画素が前景と判断された場合は，対称の領域を更に細かく分割して（

4

分木の深度を上げて）背景モデルを構築する．この方法により画素ごとに背景モデルを構築する必要がなくなり，画像全体で保持するモデル数を削減することが可能になるが，領域をどの程度細かく分割するかは事前に設定しておく必要があり，モデルの性能に大きく影響を及ぼす．

3.

事例ベース背景モデル

3. 1

概要

事例ベース背景モデルは，従来の背景モデルに事例化の枠組みを適用することで実現される．本節ではこの事例化の枠組みの概要を紹介する．事例ベース背景モデルでは，各画素で背景モデルを保持する代わりに，画素値を元に構成した背景モデルに画素から得られる特徴量（代表特徴）をひも付けしたものを一つの事例として保持する．この特徴量については，

4. 2

で詳しく述べる．各画素は，現在のフレーム時刻までに作成された事例集合の中から，自身の特徴量と類似した代表特徴をもつ事例を探索し，類似した代表特徴が発見された場合，それにひも付けされている背景モデルを利用して背景差分を行う．これにより，類似した特徴量をもつ画素同士は同じ事例を共有することになり，各画素で背景モデルを構築していた従来手法よりも実装コストを抑えることができる．図

1

は，特徴量が類似した画素同士で過去に登録された事例を共有している様子を表している．また各画素で自身の特徴量と類似した代表特徴を毎フレーム探索することで，

2. 2

で紹介したような，クラスタ内では同一の背景変動が起こると仮定していた従来研究の問題に対応する．ここで，事例の再選択処理により計算コ

(3)

図1 事例ベース背景モデルの事例共有の様子 Fig. 1 Summary of sharing background model.

ストが増加するという問題が生じるが，本手法ではハッシュに基づく近似最近傍探索手法

[9]

である

LSH

（

Locality-Sensitive Hashing

）を用いることで高速な探索を実現する．

LSH

の詳細は

3. 2

で述べる．また，

事例集合を探索する際に類似した代表特徴が発見されなかった場合は，その特徴量を代表特徴として，それに対応する背景モデルをひも付けし新たな事例として追加する．このように，観測される背景変動に応じて事例を逐次的に追加登録することで，新たな特徴量が得られた場合に対応する．一方で，不要になった事例を削除する仕組みも提供する．この削除方法は

3. 4

で述べる．また，前述のように各画素が利用する事例は自身の特徴量に応じて選択されるため，特徴量の選択手法は検出性能に大きな影響を及ぼす．特徴量の詳細については

4. 2

で改めて述べる．

3. 2

ハッシュを用いた事例探索

過去に登録された事例集合の中から高速に代表特徴を探索するために，ハッシュに基づく探索手法を導入する．

LSH

は，ハッシュに基づく近似最近傍探索手法

[9]

の一つである．この手法では，距離の近い特徴量同士が同じハッシュ値をとる確率が高くなり，距離の遠い特徴量同士が同じハッシュ値をとる確率が小さくなるような，局所鋭敏（

Locality-Sensitive

）なハッシュ関数を利用する．このようなハッシュ関数を

k

^個作成し，それらを一組のハッシュ関数群として最近傍候補を抽出する．更にこのような処理を

L

個のハッシュ関数群について行い，各関数群から得られる候補の和集合を最終的な最近傍候補とする．本手法では，

局所鋭敏なハッシュ関数として次式

(1)

で表されるものを用いる．この関数は文献

[9]

の

LSH

で利用されており，ベクトル空間で利用が可能である．

h (p) = _a _· _p ₊ _b w

(1)

p

は入力ベクトル，

a

は各次元の要素の値をガウス分布から独立に取得したベクトル，

b

は区間

[0, w]

からランダムに選ばれた実数，

w

はハッシュ幅である．本研究における

p

は探索したい特徴量にあたる．

本研究ではクエリとなる特徴量に対して上記のハッシュ関数群を適用し，最近傍候補となる代表特徴が見つかった場合は，その候補に割り当てられているモデルを利用する．一方で，最近傍候補が見つからなかった場合は，そのクエリを新たな代表特徴として事例を登録する．

3. 3

背景モデルの更新

画素から参照され，差分処理に利用された背景モデルはフレームごとに更新処理を行う．背景モデルは複数の画素から参照されることがあるが，その場合のモデルの更新は事例を参照した画素の中からランダムに選択した一つの画素の画素値を用いて行う．同一事例を参照した画素の平均を利用する方法なども考えられるが，平均の計算などにかかるコストを削減するために，ランダムに選択する手法を採用している．一方で，

どの画素からも参照されなかった事例は，背景モデルの更新を行わない．

3. 4

背景モデルの削除

本手法では新しい背景変動が観測された際にその変動に対応した事例を登録するため，一度しか観測されない背景変動に対応するモデルも存在する．このようなモデルを永続的に保持しておくことは，実装コストの面で好ましくない．そこで，事例を適宜削除する仕組みを導入する．具体的には，各事例に生存時間を保持させ，最後に事例が参照されたフレーム時刻から生存時間後まで参照されない場合は，該当するモデルを削除する．

4.

統計的背景モデルへの事例化の枠組みの適用

本章では，

3.

で紹介した事例化の枠組みを，混合ガウス分布を用いた統計的背景モデルへ適用する方法を述べる．

4. 1

処理手順

図

2

に処理手順のフローチャートを示す．以降では，

フレーム時刻

t

における入力画像の注目画素

i

^での処理に着目して説明する．また，画素

i

から得られる特徴量を

q

_iとする．

Step.1

事例の探索

過去に登録された事例集合の中から，

q

_iと類似した

(4)

図2 事例ベース背景モデルの処理手順 Fig. 2 Flowchart of case-based background model.

代表特徴をもつ事例を，

LSH

を用いて探索する．

Step.2-1

背景差分

事例が発見された場合は，その事例に割り当てられている背景モデルを利用して背景差分を実行する．この結果，画素には前景か背景のラベルが付与される．

Step.2-2

事例の新規登録

事例が発見されなかった場合は，画素

i

^の特徴量

q

_i を新たな代表特徴とし，現フレームの画素

i

^の画素値を用いて構築した背景モデルを対応させて新規事例として登録する．

Step.3

背景モデルの更新

全ての画素で

Step.1

〜

Step.2

の処理を終えた後，背景モデルの更新を行う．

Step.2

において

1

度でも参照された事例は背景モデルの更新を行う．一方，

1

度も参照されることのなかった背景モデルは更新処理を行わない．

Step.4

事例の削除

最後に参照されたフレーム時刻から

TTL

以上参照されない事例が存在する場合，その事例を削除する．

4. 2

事例ベース背景モデルの特徴量

事例ベース背景モデルの性能を決定づける要因は，

特徴量の選択手法にある．画素値のみを特徴量として用いていた従来手法に対し，事例ベース背景モデルでは特徴ベクトル

q

を用いる．式

(2)

にその一例を示す．

この特徴ベクトルは，現フレームの画素値

X

tのみではなく，前のフレームの画素値

X

t−1，注目画素の画素座標

( u, v )

を要素としてもつ．

q = ( X

t

, X

t−1

, u, v )

^T

(2)

事例ベース背景モデルでは，式

(2)

で表されるような特徴ベクトルに基づいて事例の登録を行い，背景差分を行う際は，注目画素の特徴ベクトルと類似した代表ベクトルをもつ事例を利用する．そのため，特徴量として前のフレームの画素値

X

t−1を用いることで画素値の時間変化を，注目画素の画素座標

( u, v )

を用いることで空間情報を考慮したモデル選択が可能となり，

背景変動に対してより頑健なモデルを構築することができる．

上記の例以外にも，事例ベース背景モデルでは特徴ベクトルに様々な特徴量を含めることができるため，

利用者は目的に合った特徴量を事前に設定することで，

実装環境に合ったモデル設計を行うことができる．しかし，この設計法を実現するためには多様なシーンに対して各特徴量が結果に及ぼす影響を事前に調べておく必要がある．そこで本研究では，複数の特徴ベクトルを用いることで各特徴量がモデルの性能に及ぼす影響を検証した．実験に用いた特徴ベクトルについては，

5. 3

で詳しく述べる．

5.

評価実験の設定

本章では評価に利用したデータセットとその評価方法を紹介する．各データセットには正解値となる

Ground Truth

画像が用意されている．

5. 1

データセット

5. 1. 1

シミュレーションデータセット

今回の実験では，まず

1

種類の背景変動が単独で含まれるようなシミュレーションデータセットを用いて評価実験を行い，個々の背景変動に対するモデルの性能評価を行った．背景変動別に性能とコストの関係を分析することで，変動に応じた適切な背景モデルを選択することが可能になる．本研究では，文献

[10]

で利用されている

CG

で作ったシミュレーションデータセット（

SABS

：

Stuttgart Artificial Background Subtraction

）を用いて実験を行った．背景差分の性能評価用のデータセットで，各シーンは背景変動を単独で含んでいる．シーンの詳細を以下に示す．

SABS

（図

3 (a)

）

画像サイズは全シーンとも

800 × 600

である．

-Basic

：背景変動として街路樹の揺らぎのみが観測さ

れる．

-Camouflage

：背景変動は

Basic

と同様で，移動物体の画素値が背景と類似しているシーン．

-NoCamouflage

：前述の

Camouflage

とは逆に，移動

(5)

(a) SABS (b) PETS (c) LightSwitch

(d) CD Dataset 図3 評価に利用したデータセット Fig. 3 Images used for evaluation.

物体の画素値が背景と明確に異なるシーン．

-Darkening

：照明条件が次第に暗くなっていくシーン．

-LightSwitch

：ショーウィンドウの電灯がオン

/

オフを繰り返し，急激な照明変動が観測されるシーン．

-NoisyNight

：カメラのセンサノイズの影響で，画面全体にノイズがかかっているシーン．

-MPEG4

：圧縮処理により品質が低下したシーン．

-Bootstrap

：学習用データを用いた学習を行わない

シーン．

-DynamicBacground

：木の揺らぎが観測される領域のみを用いて評価を行う．

5. 1. 2

実世界を撮影したデータセット

物体検出などの利用目的で実際に背景差分を用いる場合，様々な背景変動が同時に観測される環境下での利用が想定される．そのため，単独の背景変動に対する性能評価のみではなく，様々な変動が複合的に観測されるシーンに対する性能評価が必要である．そこで今回は，

8

種類の実シーンを用いて複数の背景変動に対するモデルの評価を行った．これらのシーンには，

5. 1. 1

で紹介したシミュレーションデータでは個別に扱われていた背景変動が同時に含まれている．データセットの詳細を以下に示す．

PETS

（図

3 (b)

）天候の変化による照明変動が観測されるシーン（画像サイズ

320 × 240

）

LightSwitch

（図

3 (c)

）屋内照明による急激な照明変動が起こるシーン（画像サイズ

320 × 240

）．

Change Detection

（

CD

）

Dataset

（図

3 (d)

）背景変動ごとに六つにカテゴリーに分けされたデータセット．各カテゴリーは

4

〜

6

個の映像を含んでいる．

画像サイズは映像ごとに異なるため，各カテゴリーの代表シーンの画像サイズを示すこととする．各カテゴ

(a) Precision-Recall (b)of Dist-fps (c) Memory- F-measure 図4 評価曲線

Fig. 4 Evaluation curves.

リーの詳細を以下に示す．

-Baseline

：基本となるシーン（画像サイズ

320 × 240

）．

-CameraJitter

：カメラが振動し，映像が大きく揺らぐシーン（画像サイズ

720 × 480

）．

-DynamicBackground

：木々や水面の揺らぎにより背景が動的に変動するシーン（画像サイズ

720 × 480

）．

-IntermittentObjectMotion

：移動物体が映像内でいったん静止し，再び動き出すシーン（画像サイズ

320 × 240

）．

-Shadow

：陰の領域が多いシーン（画像サイズ

320 × 240

）．

-Thermal

：赤外線センサを用いて撮影したシーン（画

像サイズ

352 × 288

）．

5. 2

評価方法

本研究では，事例選択に用いる特徴選択法，背景差分性能，メモリコスト，計算コストの関係を詳しく分析するため，各々を構成要素とする評価曲線を作成した．特徴量の異なる複数の特徴ベクトルを用いてそれぞれの曲線を描画し，特徴量の選択法によるモデルの性能への影響を検証した．具体的には，前景

/

背景のラベル付けに関係する内部パラメータを変動させる実験を行い，図

4

に示すような

3

種類の曲線を描画した^（注1）．

Precision-Recall

（図

4 (a)

）は適合率と再現率を軸にとった曲線であり，分布数

-fps

（図

4 (b)

）は分布数による

fps

の変化を表す曲線，消費メモリ

-F

値

（図

4 (c)

）は消費メモリとモデルの性能を表す

F

値の関係を表す曲線である．

Precision-Recall

は右上に位置するほど性能が良く，分布数

-fps

と消費メモリ

-F

値は左上に位置するほど性能が良いことに注意されたい．

モデルの性能を示す各評価基準は，以下の数式で表される．

Precision = TP

TP + FP (3)

（注1）：今回利用した混合ガウス分布を用いる背景モデルでは，各分布の平均値から_±m_·(標準偏差)以内にマッチする画素値を背景，それ以外を前景とラベル付けする．詳細については文献[5]を参照されたい．

今回はmの値を変動させる実験を行った．

(6)

Recall = TP

TP + FN (4)

F − measure = 2/ ₁

Precision + 1 Recall

(5)

ここで，

TP

（

True-Positive

）は正しく前景として検出した画素数，

FP

（

False-Positive

）は誤って前景として検出した画素数，

FN

（

False-Negative

）は誤って検出できずに背景としてしまった画素数である．

5. 3

事例化に用いる特徴ベクトル

事例ベース背景モデルの特徴量は，以下に示す

3

種類の特徴ベクトルを採用し，それぞれの結果を比較することで各要素がモデルの性能・コストに及ぼす影響を検証した．

(a)

時間情報

X

t−1のみ

q

_t

= ( X

t

, X

t−1

)

^T

(6) (b)

空間情報

u

^，

v

^のみ

q

s

= ( X

t

, u, v )

^T

(7)

(c)

時間情報

X

t−1

+

空間情報

u

，

v

q

_st

= ( X

t

, X

t−1

, u, v )

^T

(8)

また比較手法として，背景変動に応じて適応的に分布数を増減させる混合ガウス分布を用いた動的背景モデル構築手法

[5]

（以下，

AdaptiveGMM

と呼ぶ）を用いて同様の実験を行った．

6.

^{実験結果}

本章では，実験結果を手法別，シーン別に考察した結果を報告する．以降では説明を簡易化するため，特徴ベクトルとして時間情報のみを用いた手法を

C

t，空間情報のみを用いた手法を

C

_s，時間情報と空間情報の両方を用いた手法を

C

_stと表すこととする．

6. 1

実験環境

今回の実験では

Intel Core i7 3.20 GHz

の

CPU

を利用した．

LSH

のパラメータは事前実験により検証を行い，ハッシュ関数数

k = 3

，ハッシュ関数群数

L = 1

，ハッシュ幅

ω = 1000

として全ての実験で共通して利用した．生存時間（

TTL

）は

6. 6

での実験を除いて

10000

とした．これは実験に用いたデータセットのフ

レーム数を超える値であり，事例は削除されない．これは事例の削除を含めた実験結果を示すと，背景モデルを事例化することの有効性の検証が難しくなるため

である．

6. 2

手法別の考察

全シーンに対する性能（

F

値）とコスト（消費メモリ，

fps

）の実験結果を表

1

に示す．各値は実験において

F

値が最良値を示すパラメータ^（注2）を用いたときの結果を表し，各シーンで最も結果が良かった数値を太字で示している．消費メモリと

fps

の評価値は，従来法である

AdaptiveGMM

を

1

としたときの割合を示している^（注³^）（例：

Case-Based C

tの

SABS-Basic

において，

Memory

と

fps

は

0.04

，

3.07

となっている．これは従来法に比べて消費メモリを

4%

まで削減し，処理速度は

3

倍まで向上する事を示している）．

C

tの結果を見ると，全シーンに対してコスト面で最も良い結果を示していることが分かる．従来法に比べるとほぼ全てのシーンに対して消費メモリを

10

分の

1

以下に抑えることができ，

fps

も平均して

2.5

倍まで向上させることができている．他の事例化手法である

C

s，

C

stも従来法よりコストを抑えることができているため，事例化を用いる手法が低コスト化において有効な手段であるといえるが，

C

_tはその性質が顕著に現れている．これは各事例化に用いる特徴ベクトルの次元数が他の事例化手法に比べて少ないからである．また，性能を示す

F

値もある程度の値を保持している点も注目すべき結果である．コストが圧倒的に少ない分，性能の低下が懸念されるが，大幅な低下が見られるシーンは少なく，いくつかのシーンでは従来法よりも高い

F

値を示している．以上のことから，画素値の時間変化を特徴量とする

C

tを用いると若干の性能の低下が見られるものの，消費メモリ・処理速度の両面で大幅な低コスト化が望め，更にシーンによっては性能が向上するということがいえる．

C

_sの結果を見ると，ほぼ全てのシーンに対し全手法の中で最も低い

F

値を示している．実シーンにおいて，いくつか

C

tを上回る

F

値を示しているものがあるが，それでも

0.2

程度であるため実用的な数字とはいえない．空間情報として画素座標

( u, v )

を含めると，

（注2）：最良値となるパラメータはシーンによって異なるが，今回利用した混合ガウス分布を用いた背景モデルでは，その性能を左右するパラメータは（注1）で述べた前景/背景のラベル付に関係する値_mと，背景モデルの更新に用いる学習率の二つのみであり，さほど複雑な調整は必要ない．またどのシーンでも最良の結果を得るためのパラメータの区間は小さいことが判明した．そのため，実利用を考えた場合でも提案手法のパラメータ設定は特に問題にならないといえる．

（注3）：全ての実値を記載すると見づらくなるためこのような記述方法をとった．参考までに，代表的なシーンであるBasicの消費メモリと fpsはそれぞれ48633 KB，2.5 fpsであった．

(7)

表1 実験結果 Table 1 Experimental result.

Case-BasedCt

(Temporal)

Case-BasedCs

(Spacial)

Case-BasedCst

(Spatio-temporal)

Adaptive GMM

F Mem. fps F Mem. fps F Mem. fps F Mem. fps

SABS Basic 0.45 0.04 3.07 0.05 0.11 1.95 0.65 0.24 1.52 0.52 1.00 1.00

Camouﬂage 0.41 0.06 2.19 0.05 0.14 1.57 0.54 0.27 1.30 0.51 1.00 1.00 NoCamouﬂage 0.44 0.06 2.93 0.05 0.10 2.35 0.58 0.30 1.56 0.50 1.00 1.00 Darkening 0.41 0.09 2.76 0.05 0.22 2.18 0.46 0.55 1.52 0.30 1.00 1.00 LightSwitch 0.17 0.09 2.27 0.07 0.14 1.56 0.28 0.29 1.31 0.30 1.00 1.00 NoisyNight 0.22 0.04 2.68 0.05 0.08 2.07 0.31 0.17 1.81 0.45 1.00 1.00 MPEG4 0.45 0.08 3.61 0.07 0.15 2.57 0.63 0.48 1.76 0.57 1.00 1.00 Bootstrap 0.42 0.05 2.28 0.06 0.13 1.67 0.53 0.33 1.00 0.52 1.00 1.00 DynamicBackground 0.36 0.04 2.01 0.08 0.08 1.45 0.59 0.23 1.11 0.53 1.00 1.00 CD Baseline 0.76 0.06 2.68 0.22 0.10 1.40 0.79 0.33 1.01 0.90 1.00 1.00 Camerajitter 0.16 0.09 4.36 0.20 0.17 2.61 0.40 0.43 1.49 0.38 1.00 1.00 DynamicBackground 0.20 0.02 1.60 0.02 0.09 1.46 0.25 0.31 1.32 0.18 1.00 1.00 IntermittentObjectMotion 0.33 0.08 2.67 0.13 0.12 2.33 0.38 0.32 1.50 0.52 1.00 1.00 Shadow 0.51 0.08 2.84 0.08 0.16 2.18 0.68 0.52 1.62 0.74 1.00 1.00 Thermal 0.32 0.07 2.64 0.07 0.12 1.83 0.52 0.26 1.37 0.73 1.00 1.00 PETS 0.56 0.40 1.97 0.02 0.77 1.53 0.63 0.96 1.11 0.32 1.00 1.00 LightSwitch 0.32 0.33 2.35 0.03 0.39 1.82 0.34 0.90 1.33 0.25 1.00 1.00

次元数が多い分輝度値

X

tよりも画素座標が近い物同士で事例を共有してしまい，性能が低下してしまったと考えられる．以上より，性能に着目すると

C

_sはあまり有効な手法ではないといえる．消費メモリ・

fps

においては従来法よりも良い結果を示しており，今回実験で用いた三つの事例化手法の中では

2

番目に良い結果となった．前述のように，事例化を用いた手法を利用する場合，特徴量の次元数がその消費メモリと処理速度に大きな影響を及ぼす．各手法の次元数は

C

_t，

C

_s，

C

_stの順に

2

，

3

，

4

であるため，その順序に従いこのような結果となったと考えられる．以上のことから，画素値に加えて画素座標を特徴量とする

C

_sは，

コスト面では従来手法に勝るものの，性能面で大きく劣ってしまうため，実用的な手法ではないといえる．

今後はより効果的な空間特徴を考察していく必要がある．

C

stの結果を見ると，多くのシーンに対して最も高い

F

値を示していることが分かる．事例化を用いた手法の中では，全シーンに対して最も良い性能を示している．これは特徴量として画素値の時間変化と画素座標の両方を採用しているため，適切な事例選択が可能となりモデルの表現能力が向上しているためであると考えられる．コスト面においても，従来手法よりも少ない消費メモリでかつ高速な処理を実現している．

全シーンを平均すると，メモリコストは従来手法の

40%

まで削減でき，計算コストは

1.4

倍に向上させることができている．他の事例化を用いた手法と比較すると，コストの削減量という観点からは最も悪い結果となっているが，安定した高性能化と低コスト化の両立ができている手法は

C

_stのみである．以上のことから，特徴量に時空間情報を利用する

C

stは，性能を向上させかつコストも削減できる有効な手法であるといえる．

6. 3

シーン別の考察

本節では評価曲線を用いて，実験結果をシーン別に検証する．各データセットの中から，典型的な結果が得られたシーンの評価曲線を図

5 (a)

〜

(d)

に示す．各図のグラフは上から順に

Precision-Recall

曲線，分布数

-fps

曲線，消費メモリ

-F

値曲線を表している．スケールの関係上，曲線が潰れて評価できない箇所が存在したため，中間線を用いて適宜調整を行っている．

また，シーンごとの

fps

，分布数，消費メモリに大きな差が見られるが，これはシーンの画像サイズが各々違うことによるものである．

まずはじめにシミュレーションデータに対する結果を考察する．

SABS-Darkening

（図

5 (a)

）人工のシミュレーションデータセットであり，緩やかに映像全体が暗くなるシーンである．

Precision-Recall

曲線を見ると，

C

_stが他の手法よりも高い性能を示している．また，

(8)

(a) SABS-Darkening (b) PETS

(c) LightSwitch (d) CD-CameraJitter

図5 評価曲線 Fig. 5 Evaluation curves.

(9)

図6 特徴ベクトル別の検出結果の比較 Fig. 6 Detection results according to features.

C

_tも従来手法と同等の性能を示していることが確認できる．これより，事例化手法がこのシーンに対して有効であり，特に時間特徴

X

t−1がその性能向上に大きく寄与していることが分かる．消費メモリ

-F

値の曲線を見ると，従来手法よりも

C

_st，

C

_tの方が高い性能を少ないメモリで実現できていることが分かる．計算コストの面でも，事例ベース背景モデルの各手法の方が，従来手法よりも優れていることが分布数

-fps

曲線から確認できる．以上から，緩やかな照明変動が観測されるシーンでは，性能・コスト両面において，事例化の枠組みが非常に効果的に働くことが分かる．特に省メモリ化を重視する場合は，

C

tを用いることで，

従来手法の約

10%

のメモリ量で同等の性能を出すことが可能である．

次に実世界を撮影したデータセットを用いて評価実験を行った結果を考察する．前述のシミュレーションデータ

SABS

に含まれている背景変動及び環境条件が複数同時に起こる実シーンを用いることで，背景モデルとしての総合的な性能を評価する．

CD

データセットについては，典型的な結果が得られたシーンを検証する．

PETS

（図

5 (b)

）このシーンでは，背景変動として木々の揺らぎ，天候の変化による照明変動が起こり，前景として沢山の人の往来が観測される（シミュレーションデータの

Basic

，

Darkening

，

Camouflage

，

NoCamouflage

が対応している）．

Precision-Recall

-F

値曲線を見ると，

C

stが最も高い性能を示していることが分かる．これは，従来手法に比べて事例ベース背景モデルの方が，天候の変化による緩やかな背景変動に，頑健に対応できるからであると考えられる（

SABS-Darkening

の評価結果より）．また，

C

stと

C

t を比較すると，

C

tの方が圧倒的に少ない分布数で同等の性能を示している．実際に検出結果の画像を比較してみても，

C

_stと

C

_tの間にほとん

図7 急激な照明変動直後の検出結果の比較 Fig. 7 Comparative detection results for sudden illu-

mination change.

ど差は見られない（図

6

）．以上より，複数の背景変動

（木々の揺らぎなどのテクスチャ変動，天候の変化による緩やかな照明変動）が観測される場合でも，事例化の枠組みは有効に働くことが確認できる．性能を優先する場合は

C

_stを用い，コスト削減を優先する場合は

C

_tを用いることで，それぞれ用途に合った検出結果を，従来手法より低コストかつ高速に得ることができる．

LightSwitch

（図

5 (c)

）このシーンでは急激な照明変動が何度も観測される．また，照明変動が起こった直後に，カメラセンサのしぼり調整により映像全体の明るさが自動的に調節される（シミュレーションデータの

LightSwitch

，

Darkening

が対応している）．

Precision-Recall

-F

値曲線を見ると，

C

_st及び

C

_tが，従来手法より高い性能を示している．

これは事例ベースの手法が，急激な照明変動の直後の緩やかな明るさ調整に対して，適切に対応できるからである．図

7

に照明変化（ライト

ON

→

OFF

）が起こった直後の検出結果を示す．図

7

から，事例ベース背景モデルの方が変動に対する誤検出が少ないことが分かる．また，誤検出しているピクセルに対し，より少ないフレームで対応している様子も確認できる．これは，過去に同様の変動が観測された際に登録した事例を，適切に参照することができているためである．

(10)

以上より，実シーンにおける急激な背景変動に対しても，事例化のフレームワークは有効に働いていることが分かる．

CD-CameraJitter

（図

5 (d)

）撮影カメラが振動し，映像全体が頻繁に揺らぐシーンである．多くの背景モデルは固定されたカメラで撮影したシーンを入力とすることを前提として設計されているため，このシーンのようにカメラが動くような映像に対する精度はあまり期待できない．実際に，消費メモリ

-F

値曲線を見ると全ての手法で

F

値が低い値をとっていることが分かる．しかし，

C

_stは従来手法と同等の性能をより少ない消費メモリで達成している．これは画素座標を特徴量として利用していることに起因する．カメラが振動した場合，現フレームで観測される画素値は，

前フレームで近傍画素で観測されたものである可能性が高い．つまり，現フレームでは近傍画素で利用されたモデルを参照することが必要である．特徴量に画素座標を用いる

C

stは，座標が近い者同士でモデルを共有することができるため，カメラの振動による映像の揺らぎに対して頑健であるといえる．特徴量として画素座標を利用しない

C

_tが

C

_stと比べて低い性能を示していることからも，空間情報が有効に働いていることが確認できる．

6. 4

空間情報の考察

6. 2

，

6. 3

では，背景モデルの頑健性を高めるために空間情報（画素座標

( u, v )

）を導入した特徴ベクトルを用いて実験を行ったが，空間情報単体では良い結果が得られなかった．これは輝度値と画素座標という異なる意味の特徴量を特徴ベクトル内で同等に扱っているため，輝度値自体が軽視され，画素の位置が近い画素間でしか背景モデルを共有できないからであると考えられる．そこで本節では同じ意味の特徴を用いて空間情報を表現し実験を行った結果を示す．具体的には，式

(9)

に示すような特徴ベクトルを用いて実験を行った．

q

_s

= ( X

_t⁽^u,v⁾

, X

_t⁽^u−¹^,v⁾

, X

_t⁽^u,v−¹⁾

,

X

_t⁽^u⁺¹^,v⁾

, X

_t⁽^u,v⁺¹⁾

)

^T

(9)

ここで

X

_t^(u,v) はフレーム時刻

t

における画素座標

( u, v )

に位置する画素の輝度値を表す．つまり式

(9)

の特徴ベクトルは注目画素の輝度値に加え，上下左右の近傍画素の輝度値を特徴量として導入したものである．この特徴ベクトルには輝度値のみしか含まれていないため，事例探索の際に全ての要素が平等に扱われ

表2 輝度値ベースの空間情報を用いた実験結果 Table 2 Experimental result with pixel-base spatial

feature.

Precision Recall F-measure qs 0.02 0.88 0.03

表3 次元数が性能に与える影響 Table 3 Eﬀect of dimension of feature vector.

qt2（二次元） qt3（三次元） qt4（四次元）

Precision 0.62 0.52 0.41

Recall 0.64 0.28 0.19

F-measure 0.63 0.36 0.26

図8 TTLに対する検出性能 Fig. 8 Performance according to TTL.

る．表

2

に

PETS

データセットを用いて行った評価結果を示す．画素座標

( u, v )

を用いた場合と同様に，

Recall

は高い値を示しているものの

Precision

が低く，

それらの調和平均である

F-measure

もかなり低い値をとっていることが分かる．このことから，単なる周辺画素との関係を事例化するだけでは，高性能化は難しいといえる．より高精度な空間情報を特徴ベクトルに導入し事例化する手法も考えられるが，その分コストの増加は避けられない．改善策としては

6. 2

の結果から，時間情報を導入することで大幅な高性能化が望めることが分かるので，単なる周辺画素の輝度値ではなく，その時間変化を特徴量に含めることで，時空間情報を同時に利用することなどが考えられる．

6. 5

特徴ベクトルの次元数の検証

表

1

より，特徴ベクトルの次元数が二次元

(C

_t

)

，三次元

(C

_s

)

，四次元

(C

_st

)

と増加するにつれて，消費メモリと計算時間が増加することが見て取れる．しかし，

これら特徴ベクトルには性質が大きく異なる特徴量

（輝度値と画素座標）が混在しているため，これらの比較のみでは次元数の増加による性能への影響を評価することはできない．そこで本節では以下の式

(10)

〜

(11)

(12)

に示すような特徴ベクトルを用いて比較実験を行った．これらの特徴ベクトルは輝度値のみを特徴量として含んでおり，それぞれの次元数を

2

〜

4

まで変化させている．評価には

PETS

データセットを用いた．

q

_t2

= ( X

t

, X

t−1

)

^T

(10) q

_t3

= ( X

t

, X

t−1

, X

t−2

)

^T

(11) q

t4

= ( X

t

, X

t−1

, X

t−2

, X

t−3

)

^T

(12)

各特徴ベクトルを用いた実験結果を表

3

に示す．各数値は

5. 2

で述べた方法と同様のパラメータ変動実験を行い，最も

F

値が高かった場合の結果を示している．また，それぞれの評価基準で最も結果が良かった数値を太字で示している．表

3

を見ると，次元数の増加に伴い性能が低下しており，特に

Recall

の低下が著しいことが分かる．これは次元数が増えるに従って，

細かな画素値の変動でも事例が登録されてしまうからである．これによりたとえ移動物体などの一時的な画素値の変化が見られた場合でも，それを背景の事例として即座に登録してしまうため，物体を前景として検出できずに

Recall

が低下してしまったと考えられる．

以上より，単純に特徴ベクトルの次元数を増加させただけでは性能の向上は望めないことが確認された．

6. 6

事例削除の影響の検証

本節では事例削除の性能への影響を検証する．各事例は生存時間

TTL

をもち，最後に参照されたフレーム時刻から

TTL

後まで参照されない場合，その事例は削除される．適切な

TTL

を設定することで，シーンを通して一度しか観測されない偶発的な特徴ベクトルをもつ事例を削除することができ，消費メモリを抑えることができる．しかしあまりに小さい値を設定してしまうと事例がすぐに削除されてしまい，性能が低下してしまう．そこで，

TTL

を徐々に短くしていく実験を行い，事例削除が性能に与える影響を調査した．

実験には

PETS

データセットを用いた．結果を図

8

に示す．図

8

より，

TTL

を

170

より小さくすると，性能が急激に低下することが分かった．そのときの事例

数は約

11000

であった．事例削除を行わない場合の事

例数は約

31000

であったため，およそ

65%

の事例を削除しても性能を維持することができることが分かった．以上より，適切に事例を削除することで性能を維持しつつ実装コストを削減できることが分かった．

7.

^{むすび}

本論文では，事例ベース背景モデルの提案とその評

価を行った．事例化の枠組みを従来の統計的背景モデルに適用することで，高性能化と低コスト化を両立させることが可能となる．多様なデータセットを用いた実験により，様々な背景変動に対して性能を維持しつつコストを削減できることが確認され，本手法の有効性が示された．今後の課題としては，現状の事例化手法では対処できないシーンの性能を向上させることが挙げられる．

Bootstrap

のように学習段階で前景が含まれるシーンでは前景の情報を含む事例を作成してしまい，検出精度が低下してしまう．このような条件下において適切な検出を行う事例化手法を考案する必要がある．また，今回結果が良くなかった空間情報を改善することも解決すべき課題の一つである．

文献

[1] 佐藤雄隆，金子俊一，丹羽義典，山本和彦，“Radial Reach Filter（RRF）によるロバストな物体検出，”信学論（D- II），vol.J86-D-II, no.5, pp.19–24, May 2003.

[2] T. Tanaka, S. Yoshinaga, A. Shimada, R. Taniguchi, T. Yamashita, and D. Arita, “Object detection based on combining multiple background modelings,” IPSJ Trans. Computer Vision and Applications, 2010.

[3] A. Shimada, T. Tanaka, D. Arita, and R. Taniguchi,

“Spatial-temporal integration of adaptive Gaussian mixture background models,” CD-ROM Proc. 14th Korea-Japan Joint Workshop on Frontiers of Com- puter Vision, 2008.

[4] C. Stauﬀer and W.E.L. Grimson, “Adaptive background mixture models for real-time tracking,” Com- put. Vis. and Pattern Recognit. (CVPR), IEEE Com- puter Society Conference, vol.2, pp.246–252, 1999.

[5] A. Shimada, D. Arita, and R. Taniguchi, “Dynamic control of adaptive mixture-of-Gaussians background model,” CD-ROM Proc. IEEE International Confer- ence on Advanced Video and Signal Based Surveil- lance, 2006.

[6] K. Toyama, J. Krumm, B. Brumitt, and B. Meyers,

“Wallﬂower: Principle and practice of background maintenance,” International Conference on Com- puter Vision, pp.255–261, 1999.

[7] T. Tanaka, A. Shimada, R. Taniguchi, T. Yamashita, and D. Arita, “Towards robust object detection:

integrated background modeling based on spatio- temporal features,” Asian Conference on Computer Vision, vol.5994, pp.201–212, 2010.

[8] J. Park, A. Tabb, and A.C. Kak, “Hierarchical data structure for real-time background subtraction,”

ICIP, pp.1849–1852, 2006.

[9] M. Datar, N. Immorlica, P. Indyk, and V.S. Mirrokni,

“Locality-sensitive hashing scheme based on p-stable distributions,” SCG ’04: Proc. twentieth annual sym- posium on Computational Geometry, pp.253–262,

(12)

2004.

[10] S. Brutzer, B. Hoferlin, and G. Heidemann, “Evalu- ation of background subtraction techniques for video surveillance,” Comput. Vis. and Pattern Recognit.

(CVPR), IEEE Conference, pp.1937–1944, 2011.

（平成24年6月3日受付，10月3日再受付）

野中陽介（学生員）

2012九大・工・電気情報卒．同年，同大大学院システム情報科学府情報知能工学専攻進学．物体検出に関する研究に従事．

島田敬士（正員）

2002九大・工・電気情報，飛び級のため退学．2007同大大学院システム情報科学府知能システム学専攻博士後期課程了．同年，九州大学大学院システム情報科学研究院助教．博士（工学）．パターン認識，画像処理，人工神経回路網に関する研究に従事．

2010年IEEE Region 10 WIE Best Paper Award，2011年

MIRU2011インタラクティブセッション賞受賞．日本神経回

路学会，IEEE各会員．

長原一（正員）

1996山口大・工・電気電子卒．1998同大大学院理工学研究科博士前期課程了．2001 大阪大学大学院基礎工学研究科博士後期課程了．同年日本学術振興会研究員として同研究科に所属．2003より大阪大学大学院基礎工学研究科助手．2007同研究科助教．

2005フランスピカルディ大学客員助教授．2007〜2008アメリカコロンビア大学客員研究員．2010九州大学大学院システム情報科学研究院准教授．コンピュテーショナルフォトグラフィ，

コンピュータビジョン，仮想現実感の研究に従事．2003 ACM VRST2003 Honorable Mention Award．IEEE，情報処理学会，日本ロボット学会各会員．博士（工学）．

谷口倫一郎（正員：フェロー）

1980九州大学大学院工学研究科修士課程了．同年，九州大学助手．1989同助教授．1996九州大学大学院システム情報科学研究科（現研究院）教授．工学博士．画像処理，コンピュータビジョン，並列処理等の研究に従事．本会篠原記念学術奨励賞受賞．

論 文

論 文

高性能かつ低コストな背景モデル構築のための 事例ベース背景モデリング *

野中 陽介

島田 敬士

長原 一

谷口倫一郎

Case-Based Background Modeling for High Accuracy and Low Cost Background Subtraction

Yosuke NONAKA

, Atsushi SHIMADA

, Hajime NAGAHARA

, and Rin-ichiro TANIGUCHI

1.

[1], [2]

[3]

2.

2. 1

[4]

[5]

[1]

[2]

[6], [7]

2. 2

[3]

4

[8]

4

3.

3. 1

4. 2

1

2. 2

[9]

LSH

Locality-Sensitive Hashing

LSH

3. 2

3. 4

4. 2

3. 2

LSH

[9]

Locality-Sensitive

k

L

(1)

[9]

LSH

h (p) = a · p + b w

(1)

p

a

b

[0, w]

w

p

3. 3

3. 4

4.

3.

4. 1

2

t

i

i

q

Step.1

q

LSH

Step.2-1

Step.2-2

i

q

i

Step.3

Step.1

Step.2

Step.2

1

1

論文

論文

高性能かつ低コストな背景モデル構築のための事例ベース背景モデリング _*

野中陽介

島田敬士

長原一

h (p) = _a _· _p ₊ _b w