距離画像セグメンテーションに基づくリアルタイム人物検出
Real-Time Human Detection Based on Range Image Segmentation
精密工学専攻
10
号 生形 徹Toru Ubukata
1.
序論近年,監視カメラの映像から不審者の検出や人の行動解析な どを行う技術が期待されており,その基盤技術として画像中か ら人物を自動的に検出する技術が求められている.近年の人物 検出では,
HOG
特徴(1)
のような輝度勾配に基づいた局所特 徴量をBoosting (2)
やSVM (3)
などの統計的学習法を用いて学 習・識別する手法が盛んに研究されている.しかし,このよう な局所特徴量に基づく人物検出は画像全体を走査して特徴量を 抽出する必要があるため,多くの処理時間を必要とすると共に,複雑な背景や遮蔽(オクルージョン)によって検出精度が落ち る場合がある.また,画像中の人物の大きさが未知なため,検 出ウィンドウのスケールを変化させながら画像全体を複数回ス キャンする必要があり,リアルタイムで人物を検出することが 困難である.
そこで,本稿ではステレオカメラから取得した距離画像を領 域分割(セグメンテーション)
(4)
した情報と,特徴量ベースの 人物検出器を組み合わせることで,高精度な人物検出とリアル タイム処理を実現する手法を提案する.提案手法では,あらか じめMean Shift Clustering (5)
により距離画像をセグメンテー ションし,人物の探索範囲を限定して処理時間の削減と誤検出 の低減を実現する.また,分割された領域間の距離を比較する ことで人物間で発生するオクルージョンを検出し,オクルージョ ンが発生している割合に応じて遮蔽部における識別器の寄与を 抑制して検出精度を向上している.人物検出には複数のHOG
特徴を組み合わせたJoint HOG
特徴(6)
を用いており,遮蔽を 考慮した検出ウィンドウの統合により未検出を低減する.提案 手法を単純な背景と複雑な背景の2
シーンで評価し,従来の画 像全体を走査するJoint HOG
特徴を用いた人物検出手法と検 出精度を比較する.2.
距離画像セグメンテーション2.1
前景検出画像中で人物が存在する領域を限定するため,背景差分によ り前景を抽出する.検出された前景領域はオブジェクトの影を 含むため,影検出により前景から除去する.
画像座標
(x, y)
における輝度値をI
(x,y),背景画像における 同位置の輝度値をI
(x,y)0 とし,次式に示す評価関数で影を判定 する.θ
(t+1,x,y)= 8 >
<
> :
αΨ
(x,y)+ βΛ
(x,y)+ (1 − α − β)θ
(t,x,y), if
I(x,y)η< I
(x,y)0∞, otherwise.
(1)
ここで,
θ
は影と判断するためのスコアを表し,θ
が閾値以下 となる画素を影と判定して前景領域から除去する.Ψ
は前景の 近傍画値と背景の近傍画素値の相違度を表し,Λ
は前景の色相 と背景の色相の相違度を表す.また,α, β, η
はそれぞれの項に 対して重みを与える定数である.今回用いた影検出手法の詳細 は文献(7)
にて述べられている.前景検出結果の例を
Fig.1
に示す.図中において,青は背景 差分により抽出された領域,緑は影と判定された領域を表わす.(a) Background subtraction (b) Shadow detection
Fig.1 Foreground detection
2.2
前景領域のセグメンテーション前景検出で抽出された領域からオクルージョンを検出し,重 なりが生じたオブジェクトを個々に検出するため,前景領域の 距離画像をセグメンテーションする.
人物を俯瞰した面(投影平面)にセルを構成し,
Fig.2(a)
に示 す前景領域の距離情報(Fig.2(c))
を,
投影平面に対してFig.2(d)
のように投影する.ただし,Fig.2(d)
は見やすい様に1m × 1m
のセルを描画しているが,実際の処理では5cm × 5cm
のセルを 投影平面に構成している.各セルで投影された距離情報のヒスト グラムを構成し,前景領域におけるn
個の連結成分F
i(i = 1,
…, n)
ごとにヒストグラムを構築する.人物が直立していると仮定すると,ヒストグラムのピーク周 辺に人物が存在する可能性が高い.そこで,ヒストグラムの頻度 に対して
Mean Shift Clustering (5)
を行い,ピーク位置とピー ク数を自動推定する.投影平面上の任意のセルc
の位置ベクト ルをP
cとすると,重心位置v
におけるMean Shift
ベクトルm(v)
は次式で表わされる.m(v) = X
c
P
cH
cg “ ‚ ‚ v − P
cσ
‚ ‚
2”
X
c
H
cg “ ‚ ‚ v − P
cσ
‚ ‚
2” − v (2)
ここで,
H
cはセルc
におけるヒストグラムの頻度,g
はガウシ アンカーネル,σ
はガウシアンカーネルで用いる標準偏差を表 す.このMean Shift
ベクトルm(v)
を用い,次のステップで 距離画像をクラスタリングする.1.
投影面の大きさに応じてカーネルの初期位置,配置数を 推定2.
各カーネルを式(2)
の反復計算により移動させ,ヒスト グラムのピーク位置を推定3.
近傍のカーネルを統合し,重心位置より一定範囲内のセ ルを同じクラスタとする分類されたクラスタごとに,セルに含まれる投影点を画像上に逆 投影することで,前景領域をセグメンテーションする.例として,
Fig.2(a)
に示す前景領域のセグメンテーション結果をFig.2(b)
に示す.(a) Foreground F
i(b) Segmented region SF
i,j(c) 3-D Points (d) Overhead view
Fig.2 Range image segmentation
3.
オクルージョンを考慮した人物検出距離画像セグメンテーションの結果を利用し,特徴量の算出 時間を削減してリアルタイムでの人物検出手法を構築する.ま た,セグメンテーション結果からオクルージョンを検出し,遮蔽 部における識別器の寄与を抑制することで検出率の向上を図る.
3.1 Joint HOG
特徴を用いた人物検出HOG
特徴(1)
は画像中の検出ウィンドウ内をセルに分割し,各セルにおける輝度勾配を勾配方向ごとにヒストグラム化する ことで特徴量を得る.単一の
HOG
特徴では人の対称的な形状 や連続的な形状を表現することが困難なため,本研究では複数 のHOG
特徴の共起(8)
を表現して組み合わせたJoint HOG
特 徴(6)
を用いる.共起を表現した特徴量
(8)
を全セルの組み合わせに対し求め,1
段階目のReal AdaBoost (9)
により識別に有効な特徴の組み 合わせを選択し,Joint HOG
特徴を生成する.その後,生成さ れたJoint HOG
特徴から2
段階目のReal AdaBoost
により識 別に有効な特徴量のみを選択し,強識別器H(X )
を構築する.H (X ) = X
T t=1h
t(X ) (3)
ここで,
X
は選択されたJoint HOG
特徴,T
は2
段階目の学 習回数,h
t(X)
は1
段階目の学習から得られる強識別器を表す.3.2
検出ウィンドウの走査・統合本 研 究 で は ,検 出 ウィン ド ウ の 走 査 を 分 割 さ れ た 領 域
SF
i,j(j = 1,
…, m
i)
ごとに行う.ここで,m
iは前景領域F
iが分割された数である.また,領域ごとの距離情報をもとに,
ウィンドウサイズを動的に変化させることで走査回数を削減する.
検出ウィンドウのサイズは,画像中の人物の大きさがカメラ からの距離と反比例の関係にあることを利用して推定する.ま た,カメラの仰角による人物の見えの変化が擬似透視投影に従 うと仮定し,下記の式でウィンドウサイズ
R
h(高さ),R
w(幅)を算出する.
R
h= k
hW
Y(i, j) (cos θ − y sin θ) (4) R
w= k
wC
Z(i, j) (5)
(a) Scaning region (b) Integration of windows
Fig.3 Detecting window
(a) Detecting window (b) Occlusion ratio
Fig.4 Occlusion detection
ここで,
k
h,k
wは比例定数,W
Y(i, j)
は世界座標系でのカメ ラから領域SF
i,jまでの代表距離,C
Z(i, j)
はカメラ座標系で のカメラから領域SF
i,jまでの代表距離,θ
はカメラの仰角,y
は画像の縦幅を正規化した時の画像座標を表す.Fig.2(b)
での領域SF
i,jごとに提案手法を用いて走査した結果を
Fig.3(a)
に示す.特徴量算出の時間を削減すると共に,背景からの誤検出を低減している.
特徴量算出後,人物と識別された検出ウィンドウは,近傍の ウィンドウと統合されて検出結果となる.
Fig.3(a)
での検出ウィ ンドウの統合結果を3(b)
に示す.ウィンドウの統合を分割され た領域SF
i,jごとに行うことで,3
次元空間で離れたウィンド ウは統合されない.すなわち,3(a)
で異なる色の検出ウィンド ウ間では統合が行われない.これにより,オクルージョンによ る未検出を減らしている.3.3
オクルージョン検出画像中で人物同士が重なる場合,遮蔽により後方の人物が隠 れてしまう.そこで,検出ウィンドウ内に複数の領域
SF
i,jが含 まれるとき,各領域の距離W
Y(i, j)
を比較してオクルージョン を検出する.Fig.4(b)
に示すように,走査対象となる領域(灰 色)より手前にある領域(白色)をオクルージョンが発生する 領域として検出する.Joint HOG
特徴は組み合わせた2
つのセル内の特徴量から弱識別器
h
t(X )
の出力をもとめる.そこで,各セルでオクルー ジョンを含む割合(Fig.4(b)
で白い領域を含む割合)
を算出す る.各セルで算出されたオクルージョンの割合を用い,下記の 式で最終識別器H
0(X)
を定義する.H
0(X) = X
T t=1{h
t(X ) · (1 − O
1(t)) · (1 − O
2(t))} (6)
ここで,
O
1(t)
,O
2(t)
は弱識別器h
t(X )
で使用される2
つのセ ルにおけるオクルージョンの割合を表す.オクルージョン割合 が大きい程,弱識別器の出力が小さくなることから,遮蔽部の 識別器の出力を抑制することができる.この最終識別器H
0(X )
に対し閾値を設け,人物か否かを識別する.(a) Positive (b) Negative
Fig.5 Samples used for training
(a) Experimental scene (b) Output of classifier
Fig.6 Human detection with occlusion handling
Table 1 Comparison with and without occlusion handling Classifier T. Pos. [%] F. Neg. [%] F. Pos. [%]
Eq.3 : H(x) 71.3 28.7 0.0
Eq.6 : H’(x) 89.1 10.9 0.0
4.
評価実験4.1
実験条件学習には
NICTA Pedestrian Dataset (10)
を使用し,ポジティ ブサンプル7,892
枚,ネガティブサンプル30,000
枚を用いた.使用したサンプル例を
Fig.5
に示す.学習は1
段階目で10
回,2
段階目で300
回行い,識別器を構築した.実験時のステレオ カメラはBumblebee2(Point Grey Research)
を使用し,処理 にはIntel Core 2 Duo CPU(3.06GHz)
を搭載したPC
を用い た.また,評価結果のT. Pos.(True Positive Rate)
は正しい 検出,F. Neg.(False Negative Rate)
は未検出,F. Pos.(False Positive Rate)
は誤検出を表す.4.2
オクルージョンを考慮した検出精度の評価3.3
節で述べたオクルージョン検出を用いた人物検出手法の 有用性を検証するため,式(3)
と式(6)
の識別器を用いて検出精 度を比較する.識別に用いる閾値は誤検出がでない限界の値を 設定した.Fig.6(a)
に示すような実験環境において,オクルー ジョンが発生するシーン400
フレームで評価を行った.Table 1
に評価結果を示す.Table 1
より,オクルージョンを考慮することで検出精度が向上できていることが見てとれる.これは,
Fig.6(b)
に示す様 に,遮蔽部の識別器出力を抑制し,最終識別器の出力が大きく なったことが要因として考えられる.4.3
提案手法の評価提案手法の有用性を検証するために,画像全体で検出ウィンド ウをスキャンする手法(従来手法)との精度を比較する.閾値は 手法ごとに適当な値を実験的に求めた.評価には学習データセッ トと異なる単純な背景と複雑な背景の動画をそれぞれ
2,000
フ レーム用いた.単純な背景での検出結果の例と評価結果をFig.7
,Table 2 Evaluation result in simple background Method T. Pos. [%] F. Neg. [%] F. Pos. [%]
Proposed 80.0 20.0 1.3
Conventional 73.0 27.0 9.8
Table 3 Evaluation result in complicated background Method T. Pos. [%] F. Neg. [%] F. Pos. [%]
Proposed 83.1 16.9 3.1
Conventional 63.5 36.5 65.9
Table 4 Computation time
Process Proposed Conventional
method [ms] method [ms]
Capture 16.3 16.3
Background subtraction 0.4 -
Stereo matching 18.8 -
Shadow detection 6.7 -
Segmentation 11.5 -
Joint HOG 30.4 502.2
Others 4.0 -
Total 88.1 518.5
Table 2
に示す.また,複雑な背景での検出結果の例と評価結果を
Fig.8
,Table 3
に示す.Table 2
,Table 3
の結果より従来手法では背景の複雑化によ り検出精度が低下しているのがわかる.これはFig.8(b)
に示す ように,背景に人物の形状に似た形状(図の中心にある十字模 様など)が映ると誤検出を誘発してしまうことが原因である.そ れに対し,提案手法では処理領域を限定することで誤検出を低 減している.また,オクルージョンを考慮するため,Fig.7(b)
,Fig.8(b)
においてオクルージョンにより未検出になっている人物も,
Fig.7(a)
,Fig.8(a)
では正しく検出していることが見て とれる.4.4
処理速度Table 4
に各処理プロセスにおける計算時間を示す.画面全体をスキャンする従来手法と比較し,処理領域を限定すること で処理速度が大幅に向上していることがわかる.また,提案手
法では約
11[fps]
で動作することから,リアルタイムでの人物検出が可能である.
5.
結論と今後の展望本稿では,距離画像セグメンテーションにより特徴量の算出 時間を削減し,リアルタイムでの人物検出を実現した.また,
オクルージョンを考慮した検出ウィンドウの統合により未検出 を減らし,オクルージョン割合に応じた識別器出力の抑制によ り検出精度を向上させた.
今後は,人物のパーツごとの検出と体全体の検出結果を組み 合わせ,人物の見えの変化により対応できる識別器を構築して いく予定である.
参考文献
(1) N. Dalal and B. Triggs: “Histograms of oriented gradi-
ents for human detection,” In Proc. IEEE Conference
on Computer Vision and Pattern Recognition (CVPR),
CA, USA, pp. 886-893, 2005.
(a) Proposed method
(b) Conventional method
Fig.7 Example of detection result in simple background
(a) Proposed method
(b) Conventional method
Fig.8 Example of detection result in complicated background
(2) Y. Feund and M. Jones: “A Decision-Theoretic Gen- eralization of On-Line Learning and an Application to Boosting,” Computational Learning Theory, Eurocolt, pp. 11-20, 1995.
(3) Boser, B. E., Guyon, I. M. and Vapnik, V. N.: “A Train- ing Algorithm for Optimal Margin Classifiers,” In Proc.
5th Annual Workshop on Computational Learning The- ory (COLT), pp. 144-152, ACM, 1992.
(4) T. Ubukata, et al.: “Multi-Object Segmentation in a Projection Plane Using Subtraction Stereo,” In Proc. In- ternational Conference on Pattern Recognition (ICPR), pp. 3296-3299, 2010.
(5) Y. Cheng: “Mean Shift, Mode Seeking, and Clustering,”
IEEE Trans. Pattern Anal. and Machine Intell., Vol. 17, No. 8, pp. 790-799, 1995.
(6)
尾崎貴洋,
山内悠嗣,
藤吉弘亘: Joint HOG
特徴を用いた2
段階AdaBoost
による車両検出,
動的画像処理実利用化ワークショップ