100326_セミナー資料_物体認識.pptx

(1)

物体検出・物体追跡技術の基礎と今後の動向

_!

∼顔と人を中心に∼

オムロン株式会社

!

山下隆義

本日の内容

"#物体検出技術 !

"#" 特徴量について !

"#$ 識別器について !

"#% 検出対象に適した特徴量に関する実験!

$#物体追跡技術!

$#"物体追跡の流れ !

$#$勾配法に基づく追跡方法 !

$#%検出法に基づく追跡方法 !

$#&オンライン学習による追跡方法 !

%．まとめ

(2)

物体認識とは？

制約のない実世界シーンの画像に対して，計算機が

その中に含まれる物体を一般的な名称で認識すること

human computer book desk chair

問題点

‒ 多くのカテゴリが存在

‒ 物体の位置が不明，見え方の違い，照明変動，オクルージョン，

スケール変化，変形

物体認識の細分化

human computer book desk chair 何の画像ですか？人はどこですか？ Object categorization Detection 一般物体認識カテゴリ分類特定物体認識物体検出

(3)

一般物体認識とは？

What is this? =カテゴリ分類

Bag-of-Keypoints

入力画像入力画像特徴抽出特徴抽出ベクトル量子化ヒストグラムベクトル量子化ヒストグラム

G. Csuka et al., Visual Categorization with Bags of Keypoints , ECCV2004 顔

バイク

特定物体認識とは？

Find all the

X

s =物体検出

特定の単一クラスの物体（顔、人、車など）を検出

(4)

物体認識（検出）について

'()*++,-./#,0121#3)+,04.50+6789+":; '()*++)010;216,#3)+9,+<7==+240>0;.?>65.6#'@4A

物体検出は簡単か？

多様な変動要素が存在して難しい

カメラの角度

姿勢・向き・形状が多様

照明変動

オクルージョン

変動要素に対応する特徴量・学習手法がキー

(5)

物体検出実現するために

どんな情報を捉えれば

_!

よい？

対象物体・以外をどのように

区別する？

特徴量

学習手法

色・エッジ! ピクセル・領域_! ヒストグラム! １つ・複数２クラス! 多クラス

物体検出実現するために

どんな情報を捉えれば

_!

よい？

対象物体・以外をどのように

区別する？

どうやって高速化する？

!

どうやってメモリ使用量を削減する？

実装上必要なこと

(6)

特定物体認識の処理の流れ

画像中の部分領域が検出対象かどうかを比較

物体情報

特徴量

学習手法

認識処理

画像サイズを変えながら比較部分領域比較

特定物体認識を実現する要素

特徴量

学習手法

学習手法の発展とともに特徴量も発展

認識する物体の情報を抽出

特徴量を汎化性のあるモデルへ

多様な変化が生じても

共通な情報に変換

多様な変化が生じても

共通な情報を選択

Edge, Color, haar-like, HOG

Neural Network

Support Vector Machine AdaBoost

(7)

学習手法の進化からみた特徴量の発展

第一世代(1970年∼）

第二世代（2000年∼）

第三世代（2005年∼）

対象物体全体輝度分布 wavelet Globalな特徴量 Global 対象物体の局所情報 Haar-like ピクセル差分 HOG EOH Low levelな特徴量 Local independent 局所領域の関連性 Joint Haar-like Joint HOG スパース特徴 Shapelet 共起確率特徴 dependent Middle levelな特徴量ブースティング AdaBoost、Real AdaBoost ニューラルネットワーク線形判別分析（LDA) サポートベクタマシン（SVM) テンプレート PCA

人間の視覚

(8)

人の視覚 ‒物体を認識する流れ-

網膜

外側膝状体（LGN）

大脳皮質

網膜→外側膝状体→視覚野

視覚野

人の視覚 ‒物体を認識する流れ-

網膜

_{腹側皮質視覚路（What経路）}

背側皮質視覚路

対象物を認識

位置や動きを認識

黒い車

(9)

人の視覚 ‒物体を認識する流れ-

網膜

_{腹側皮質視覚路}

背側皮質視覚路（How/Where経路）

対象物を認識

位置・スケールや動きを認識

左へ走ってる

人の視覚 ‒視覚野の構成-

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

視覚野

腹側皮質視覚路

対象物を認識

低次視覚野

受容野：狭

高次視覚野

受容野：広

(10)

人の視覚 ‒視覚野の構成-

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

視覚野

腹側皮質視覚路

線分やコントラスト・色をとらえる

単純な局所特徴受容範囲が狭い

人の視覚 ‒視覚野の構成-

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

複雑な形状をとらえる

視覚野

腹側皮質視覚路

複合的な局所特徴受容範囲が少し広い

(11)

人の視覚 ‒視覚野の構成-

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

視覚野

腹側皮質視覚路

物体を認識する

サル

ヒト

受容範囲が広い

人の視覚 ‒視覚野の構成-

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

単純な局所特徴

複合的な局所特徴

物体を認識

(12)

視覚野から見た特徴量

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

第一世代の特徴量

視覚野全体をもとに

した特徴量

第二世代の特徴量

局所領域をもとに

した特徴量

第三世代の特徴量

局所領域を複合的に

した特徴量

領域全体に着目した特徴量

学習サンプルヒストグラム

検出対象全体＝特徴量（ベクトル）

輝度情報 $: ""B ・・・ $:C BC (0,0) (0,1) (n,m) "": &% ・・・ =: DB 0 1 n-1 n

(14)

領域全体に着目した特徴量

ヒストグラム

異なる場合でも類似するケースあり領域全体の輝度の分布! 異なる顔でも類似_!

領域全体に着目した特徴量

ヒストグラム

物体の形状変化に対してロバスト

大きく形状が異なる場合でも類似するケースあり

ヒストグラムを作成するためのベースとなる特徴量が重要

実装が容易

(15)

局所領域に着目した特徴量

Haar-like特徴量

輝度に着目

EOH特徴量

エッジに着目

ピクセル差分特徴量

HOG特徴量

Edgelet特徴量

(16)

Haar-like 特徴量

局所的なエッジ成分・線成分を捉える

２つの領域の輝度差に着目

P.Viola and M.Jones:Rapid Object Detection using a Boosted Cascade of Simple(CVPR2001) A B 特徴量＝AとBの平均輝度の差領域Aの平均輝度領域Bの平均輝度

積分画像（

[email protected]!E40F.）

Haar-like特徴量を高速に演算することができる

輝度の合計値＝領域内の全画素の輝度を累積領域が大きいと演算回数が多い原画像のまま積分画像を利用 A 輝度の合計値＝領域の4点の輝度を加減算領域の大きさに関わらず演算回数一定 B C D E F ■＝A-B-C+D □＝C-D-E+F

(17)

積分画像のつくり方

１０１３１８２０２１４１５３０２８４０３０４４３２３８２０３７６０８０８８９０８０１３０１１０１５５２２０００００００００１０２３４１６１８２０１４４２９０１３８１９９０４４１１６１９６２８２３６３０８１２１３３６３５４７７１８０１６１４２３６８３１０２２１４１３０

原画像

積分画像

左上から右下へ画素値を累積

□

＝A-B-C+D

EOH(Edge of Orientation Histograms)特徴量

局所的な勾配のエッジ強度を捉える

領域内の勾配関係に着目

K.Levi and Y.Weiss:Learning Object Detection from a Small Number of Examples: the Importance of Good Features(CVPR2004)

V.S. k₁ k₂ V.S. k₁ k₂ V.S. k₁ k₂ ほほの輪郭目領域口と鼻領域

(18)

EOH特徴量の算出（１）

エッジ画像の作成

エッジ方向の算出

;2/.A! [email protected]

勾配画像の作成

勾配ごとの画像を作成（k=4∼8）入力画像エッジ画像エッジ勾配画像

EOH特徴量の算出（２）

特徴量＝ 2方向のエッジ強度の比

局所領域Rの方向kに対する累積エッジ強度

V.S.

k₁ k₂ エッジ勾配画像着目領域

(19)

HOG(Histograms of Oriented Gradients)特徴量

局所的な勾配別のエッジ強度を捉える

領域内の勾配と強度の

関係に着目

N.Dalal and B.Triggs:Histograms of Oriented Gradients for Human Detection(CVPR2005) 局所領域の勾配ヒストグラムを特徴ベクトル化 ‐局所的な幾何学変化に頑健 ‐局所的な照明変化に頑健勾配ヒストグラム

HOG特徴量算出の手順

ブロック化

勾配画像

セル化

勾配算出

勾配ヒストグラムの作成局所領域ごとに正規化 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I 4 0F 16 @H 9. :I "B:I

(20)

HOG特徴量の算出（１）

勾配強度

mと勾配方向!を算出

原画像勾配画像

HOG特徴量の算出（２）

勾配方向ヒストグラムを生成

方向： 0°䇲 180° 分割数：9

１つのセルに対して、

!次元の特徴量ベクトル

セル

"#$#画素%ごとに算出

セル

(21)

HOG特徴量の算出（３）

勾配ヒストグラムの正規化

_&

"セルずつブロックを移動ブロックセル

**'ブロックから得られる特徴量：(セル$(セル$!方向)*'個**

ブロック

"3!3セル%毎に正規化

ブロック内に含まれる特徴量_{!の大きさにより正規化}

入力画像：

(+,-+画素&

ブロック数

_{.&/$'+&)&/+ブロック&}

EHOG特徴量

HOG特徴量

多次元ベクトルの特徴量

複数のセルを結合

計算コスト大

EHOG特徴量（Extend HOG)

１次元の特徴量

１つのセルのみに着目

計算コスト小

'ブロック＝0ｘ0セル 'ブロック＝１セル

"#$%&

多次元ベクトル１次元

(22)

エッジ勾配ごとの積分画像（

[email protected]!J6;@2F504）

エッジに着目した特徴量を高速に演算することができる

積分画像 A 輝度の合計値＝領域の4点の輝度を加減算輝度値を累積領域の大きさに関わらず演算回数一定 B C D E F ■＝A-B-C+D □＝C-D-E+F エッジ勾配ごとの積分画像エッジ強度の合計値＝特定のエッジ勾配に対する領域の4点の輝度を加減算特定の勾配方向のエッジ強度を累積領域の大きさに関わらず演算回数一定 □＝A-B-C+D A B C D

Edgelet特徴量

部分的な勾配とエッジ強度を捉える

エッジのつながりに着目

基本形状：直線、円弧、対称性連結数と連結方向から特徴量候補を作成

B.Wu and R.Nevatia:Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors( ICCV'05)

入力画像エッジ画像

(23)

Edgelet特徴量算出の手順

勾配画像

学習テンプレート比較

前処理

テンプレート強度画像現サブウィンドウ入力画像

Edgelet特徴量の算出（１）

エッジ画像の作成

勾配方向の算出

;2/.A! [email protected] 入力画像エッジ画像エッジ勾配画像エッジ強度画像 k方向に量子化

EOH,HOG特徴量と同じ処理

(24)

Edgelet特徴量の算出（２）

学習で選択された特徴

入力画像

要素ui

入力画像のエッジ強度入力画像の勾配方向選択された特徴の勾配方向

特徴量の選択方法

•  局所領域の特徴量＝＞大量の候補が存在

!

– 

J005!KA6>.!特徴量の場合!

画像サイズ：２４

_{7２４ピクセル!}

大きさ：２

7２ピクセル２４7２４ピクセル!

合計：

数万通り以上

_!

どうやって選択するか？

学習手法により最適な特徴量を選択

(25)

L90M22;@

•  統計的学習手法

!M22;N1Fの１つ!

– 

"CCO年にP#Q5.H19等が提案

RQ5.H19!SCOT!

!

•  学習サンプルの重みを適応的

U090)NV.Wに更新!

–  計算量の爆発と汎化性能の低下を抑制!

–  誤識別したサンプルに対し重みXを増加!

•  最終識別器は弱識別器の重み付き多数決

!

L90M22;@の特徴

•  識別精度が高い!

– 汎化性能に対する理論的な裏付け

!

– 学習後期では識別の困難なデータに特化

!

•  解析が容易!

– 特徴選択の傾向などを後から調査

!

(26)

学習アルゴリズム

"Y$!前処理

"!前処理!

– N個の学習サンプル

! ! ! !!

• !!!!*!画像!

• !!!!*!クラスラベル!

–  人にはZ"Y!非人にはK"!

$!学習サンプルの重みの初期化!

– 各サンプルの重みを均等にする

!

(27)

学習アルゴリズム

%#"!弱識別器候補

•  基本的に設計は自由!

– 

"かK"を出力する関数!

–  エラー率が:#D以下!

• [62A0\]21.;の顔検出では閾値関数を使用!

–  ある"つの特徴量に対する分布を観測

θ

v

p

h

t：tラウンド目の弱識別器：特徴量：閾値：不等号の向きを決定する変数（1or-1）

h

t

(x) =

�

1 p · v(x) > p · θ

−1 otherwise

(28)

学習アルゴリズム

%#$!エラー率の算出

•  弱識別器に対するエラー率を算出!

–  弱識別器hの応答値とクラスラベルが異なった場合サンプルの重みを足し合 わせる! –  エラー率が:#Dを超えたら、弱識別器のパリティpを反転!

e

t,m

=

N

�

i:ht(xi)�=yi

D

t

(i)

^.F_!!!`a2; 出現確率

θ

p = -1 a2;_!!!`^.F 出現確率

θ

e

_t,m

a2;!!!!!!!!!!!!!!!!^.F!! a2;!!!!!!!!!!!!!!!!^.F!! et,m= 0.65 et,m = 1 − (0.65) = 0.35

(29)

学習アルゴリズム

&YD!弱識別器の選択と重みの算出

&!エラー率が最小となるhを現在のラウンド

の弱識別器として採用

!

D!採用した弱識別器に対する重みを算出!

– 重み

!b!信頼度!

h

t

= arg min e

t,m

α

t

=

1

2 ln

� 1 − e

t

e

t

�

α

_t

(ln = loge) ※ et = 0.067 α = 1 2ln( 0.933 0.067) = 1 2ln 13.925 = 1.316 ・優秀な弱識別器 et = 0.241 α = 1 2ln( 0.759 0.241) = 1 2ln 3.149 = 0.574 ・標準的な弱識別器 et = 0.5 α = 1 2ln( 0.5 0.5) = 1₂ln 1 = 0 ・半分しか正解できない弱識別器

e

_t

(30)

学習アルゴリズム

=!学習サンプルの重みの更新!

O!学習サンプルの重みの更新!

=YO!サンプルの重みの更新と正規化

D

t+1

(i) = D

t(i) exp(−αt

y

t

h

t

(x

i

))

D

t+1

(i) =

Dt+1

(i)

N

�

i=1

Dt

(i) exp(−α

tytht

(x

i

))

h =1(人) h =-1(非人) y = 1 ラベル y = 1 ラベル ytht(xi) = 1 ytht(xi) = −1 となり、重みは低くくなる

Dt+1(i) = Dt(i) exp(−αt) となり、

重みは高くなる

(31)

学習アルゴリズム

B!最終識別器の構築

•  すべての弱識別器に信頼度で重みをつけて!

多数決をとる形になる

!

– Hが閾値より高ければ人、低ければ非人と判定

H(x) = sign

�

_T

�

t=1

α

t

h

t

(x) − λ

�

λ

(32)

実装時のポイント

•  学習回数UラウンドW!

– 任意

U":: $:::回W!

•  学習サンプル!

– 多ければ多い方がよい

!

•  統計的信頼性の確保!

•  多様なパターンに対応!

– 人検出では

$Y::: DY:::枚、顔検出では約":Y:::

枚

!

L90M22;@について

•  多数の弱識別器を学習するアンサンブル学習

(33)

その他のブースティング手法

• c.0A!L90M22;@!

• d.1@A.!M22;N1F!

•  ・・・・

L90M22;@とc.0A!L90M22;@

• L90M22;@Ue6;,5.@.!L90M22;@W!

–  弱識別器の出力U"YK"WにXで重み付けて結合することで!

最終識別器を構築

_!

• c.0A!L90M22;@

Rf,'0)65.!SCCT

!

– 

L90M22;@からの派生!

–  弱識別器の出力が特徴量の分布に応じて実数値化U5.0AW!

–  サンプルに対しどの程度の識別が可能であるかが分かる

!

–  少ない弱識別器で高精度な検出!

•  学習の収束が早い!

効果的な重みの更新が可能

(34)

学習アルゴリズム

"Y$!前処理

"!前処理!

– N個の学習サンプル

!

• !!!!*!画像!

• !!!!*!クラスラベル!

–  人にはZ"Y!非人にはK"!

$!学習サンプルの重みの初期化!

– 各サンプルの重みを均等にする

!

(35)

学習アルゴリズム

ネガティブサンプル（）

%#"!確率密度関数!

•  特徴量をME^に変換しサンプルの重みを!

!足し合わせ、分布UヒストグラムWを作成

:!!"!!$!!!!!!!!!!g!!!!!!!!!=$!=% 出現確率特徴量 !"（ME^） :!!"!!$!!!!!!!!!!g!!!!!!!!!=$!=% 出現確率特徴量 !"（ME^） ポジティブサンプル（）

(36)

学習アルゴリズム

%#$!弱識別器の評価値算出

• $つの分布のM'0(0,'05880距離で類似度を算

出

!

•  類似度が低い→分離し易い!

出現確率特徴量 !"（ME^） 小 = 分布が分離しずらい →識別に有効ではない大 = 分布が分離しやすい →識別に有効評価値 *! 出現確率特徴量 !"（ME^）

識別に有効な特徴量

z = 1

₋

�

j

�

W

₊j

W

₋j

(37)

学習アルゴリズム

= 0.15, = 0.15 = 0.0

&!最も#"が高い弱識別器を選択

• #"が高い!b!識別に有効な弱識別器!

– 弱識別器の出力

: 学習ラウンド : 弱識別器の番号 U !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!W = 0.1, = 0.2 = -1.39 = 0.26, = 0.12 = 1.54 出現確率特徴量 !"（ME^） 出現確率特徴量 !"（ME^） 出現確率特徴量 !"（ME^）

(38)

学習アルゴリズム

D

•  学習サンプルの重みの更新!

•  学習サンプルの重みの正規化

学習アルゴリズム

D

= 0.15, = 0.15 = 0.0 = 0.1, = 0.2 = -1.39 = 0.26, = 0.12 = 1.54 出現確率特徴量 !"（ME^） 出現確率特徴量 !"（ME^） 出現確率特徴量 !"（ME^） ポジティブサンプルネガティブサンプル重みを高く重みを低くポジティブサンプルネガティブサンプル重みを低く重みを高くポジティブサンプルネガティブサンプル重みはそのまま

(39)

学習アルゴリズム

=

学習アルゴリズム

=

•  強識別器の生成!

– 弱識別器の線形和

!

• L90M22;@のように重みXは必要ない!

– Hが閾値より高ければ人、低ければ非人と判定

H(x) = sign

�

_T

�

t=1

h

t

(x) − λ

�

λ

(40)

M22;N1Fを用いた物体検出

第二世代特徴量候補の準備（１）

学習サンプル

サンプルセットの用意

原画像正解データ非正解データ

数千枚のサンプルを用意

一定サイズで正規化一定サイズで正規化

(41)

第二世代特徴量候補の準備（２）

特徴量候補

学習サンプル

特徴量候補の用意

特徴量候補! 位置・サイズ・形状を変えて、候補として用意

特徴量候補数

Haar-like 特徴量：１８万個

EOH特徴量：６０万個

HOG特徴量：９００個

第二世代特徴量＋ブースティング

評価値

特徴量候補

評価

学習サンプル

評価

hb:#%

hb:#B

hb:#D

hb:#=

123

J

_"

U!!!!!!!!!!!!WY!!X

_"

M22;N1F

弱識別器

' 重みX

○ ○ ○ サンプルの重み更新

(42)

第二世代特徴量＋ブースティング

評価値

特徴量候補

評価

学習サンプル

評価

hb:#O

hb:#D

hb:#%

hb:#$

123

J

"

U!!!!!!!!!!!!WY!!X

"

M22;N1F

弱識別器

' 重みX

○ ○ ○ サンプルの重み更新

J

_$

U!!!!!!!!!!!!WY!!X

_$

第二世代特徴量＋ブースティング

評価値

特徴量候補

評価

学習サンプル

評価

hb:#%

hb:#&

hb:#O

hb:#C

123

J

_"

U!!!!!!!!!!!!WY!!X

_"

M22;N1F

弱識別器

' 重みX

○ ○ サンプルの重み更新

J

_$

U!!!!!!!!!!!!WY!!X

_$

J

_i

U!!!!!!!!!!!!WY!!X

_i

(43)

第二世代特徴量の比較実験１

検出対象ごとに特徴量の性能を比較

検出対象：顔，車，人

比較対象：Haar-like，EOH，Edgelet，HOG

データセット：

顔データ

学習：Webから収集した約5000枚

評価：MIT+CMU Frontal Face Image

車データ

学習：UIUC Cars

評価：UIUC Cars

人データ

学習：INRIA Person Dataset

評価：USC Pedestrian Detection Test Set

学習・評価データ（顔）

•  学習用!

(44)

学習・評価データ（車）

•  学習用!

•  評価用

学習・評価データ（人）

•  学習用!

•  評価用

(45)

顔データの性能比較

J005KA6>.特徴量が最も性能が良い

(46)

車両データの性能比較

特徴量による性能差は少ない

(47)

人データの性能比較

Jjd特徴量が最も性能が良い

(48)

顔データに選択された特徴量

選択されたHaar-like特徴量

平均輝度画像

目や口などの顔の特長的な領域を選択

選択された特徴量

車データに選択された特徴量

選択されたEdgelet特徴量

平均勾配画像

選択された特徴量

対称性を捉える

_{k9F.A.@特徴量を多く選択}

(49)

人データに選択された特徴量

選択されたHOG特徴量

平均勾配画像

選択された

Jjd特徴量

学習の初期では上半身が捉えられる

Jjd特徴量を多く選択

特徴量比較のまとめ

特徴量

検出対象

顔車人

Haar-like

目や口などの顔の特長的_{な領域を選択} 輪郭を捉える特徴を多く選_択人の縦エッジ、縦ラインを捉_{える特徴を多く選択}

HOG

輪郭を捉える特徴を多く選_択輪郭、タイヤを捉える特徴_{を多く選択} 上半身を捉える特徴を多く_選択

EOH

輪郭を捉える特徴を多く選_択対称性やタイヤを捉える特_{徴を多く選択} 上半身、肩のラインの対称_{性を捉える特徴を多く選択}

Edgelet

輪郭を捉える特徴を多く選_択対称性を捉える特徴を多く_選択肩のラインの対称性を捉え_{る特徴を多く選択}

検出対象毎の選択された特徴量の傾向

&

顔：輝度に着目した特徴量が有効

_!

車：輝度、エッジに着目した特徴量が共に有効

!

人：エッジに着目した特徴量が有効

_!

(50)

局所領域の関連性に着目した特徴量

Joint Haar-like特徴量

輝度に着目

Shapelet特徴量

エッジに着目

スパース特徴量

Joint HOG特徴量

共起確率特徴量

(51)

Joint Haar-like特徴量

T.Mita, T.Kaneko, B. Stenger and O.Hori: Discriminative Feature Co-occurrence Selection for Object Detection（PAMI2008)

複数の領域の明暗パターンに着目

顔の構造に基づいた特徴量の

関係性を捉える

j =(011)₂ = 3 顔非顔

単一の特徴では捉えることができない関係性を捉えられる

Joint Haar like の処理フロー

特徴量の結合

特徴量候補

検出器

L9

0M

22 ;@

顔非顔顔非顔顔非顔

(52)

Joint Haar-like特徴量の算出（１）

特徴量の結合（１）

_!

各

4556789:;特徴量の出力関数を決定

J005KA6>.特徴に対する識別器検出対象非検出対象明暗差Z(x) しきい値!

対象

+!非対象の$値に符号化

明暗差Z(x) しきい値! ０１出力関数 J005KA6>.特徴量確率関数しきい値：! 定義した検出率（誤検出率）を満たす値学習サンプル

Joint Haar-like特徴量の算出（２）

特徴量の結合（２）

_!

結合した

_{4556789:;特徴量を算出}

明暗差Z(x) しきい値! ０１出力関数 J005KA6>.特徴量明暗差Z(x) しきい値! ０１出力関数 J005KA6>.特徴量明暗差Z(x) しきい値! ０１出力関数 J005KA6>.特徴量 ]261@!J005KA6>.特徴量

(1 1 0)

₂ 顔 +!非顔顔 _+!非顔顔 +!非顔学習サンプル J005KA6>.特徴量１ J005KA6>.特徴量２ J005KA6>.特徴量３

$進数値として

結合

(53)

Joint Haar-like特徴量の算出（３）

特徴量の結合（３）

_!

結合した値をもとに同時確率関数を決定

同時確率の作成

(1 1 0)

₂

(0 1 0)

₂ 学習サンプル結合した値顔非顔

同時確率

!

サンプルの重み_{eｔU6W!を加算}

同時に複数の

4556789:;特徴量を観測することで、共起性を表現

Joint Haar-like特徴量の算出（４）

特徴量の結合（４）

_!

同時確率関数もとに出力関数を決定

]261@!J005KA6>.特徴量を用いた弱識別器顔非顔同時確率_! 結合した値検出対象らしさが高ければ、_"を出力

2<5=>>?@により、最も識別能力の高い組合せを選択

]261@!J005KA6>.特徴量

(54)

Joint Haar-like特徴量の算出（５）

Haar-like特徴量をどのように組み合わせるのか？

膨大な学習時間が必要

"#!最も識別に適した特徴量を"個選択!

$#!選択した特徴に別の特徴を"個加え識別性能が向上する組み合わせを選択!

%#!$回$#!を繰り返す!

fQfによる組み合わせ!

SFS(Sequential Forward Selection)による組合わせ探索

効率的に組み合わせ探索を行う方法

大幅に探索回数を小さくすることが可能

全組合わせ

Haar-like特徴量数、組み合わせ個数が多い

Shapelet特徴量

P.Sabzmeydani and G.Mori : Detecting Pedestrians by Learning Shapelet Features (CVPR2007)

局所領域内での共起するエッジ勾配を捉える

複数の特徴量の関連性に着目

人体に共起するエッジ人体に共起しないエッジ

(55)

Shapelet特徴量の処理フロー

画素単位で有効なLow level特徴量を選択共起するMiddle level特徴量を選択 AdaBoost 各画素を特徴量として入力 AdaBoost 領域を特徴量として入力

2段階のブースティングにより、Low level→Middle Level特徴量へ

Shapelet特徴量の算出方法（１）

局所領域ごとに

_{l2-!A.V.A特徴量（bエッジ）を選択!}

L90M22;@! L90M22;@! 学習サンプル_{&方向エッジ} 局所領域に分割 l2-!A.V.A特徴を選択! L90M22;@! f'0).A.@特徴量候補の合成 f'0).A.@特徴量候補! 画素ｔに対する弱識別器_& 局所領域_{'に対する強識別器&}

(56)

Shapelet特徴量の算出方法（２）

L90M22;@!

最終識別器

検出に有効な局所領域を選択

!

f'0).A.@特徴量候補! 最終識別器& f'0).A.@特徴量候補の合成 f'0).A.@特徴量の合成

Joint HOG特徴量

尾崎，山内，藤吉，:Joint HOG特徴量を用いた2段階AdaBoostによる車両検出（DIA2008) 局所領域間での共起する勾配方向を捉える

２つの領域とその勾配方向の共起性に着目

車両の対称性や連続性・関連性を捉えることができる

勾配の関連性を捉える勾配の対称性を捉える着目領域着目勾配方向着目領域着目勾配方向

(57)

Joint HOGの処理フロー

Aつの局所領域の共起

! ! & ! & ! & ! & ! & ! & ! ! & ! & ! ! &

識別に有効な

B>90@&4CDの選択

]261@!J005KA6>.の特長 f'0).A.@の特長

]261@!J005KA6>.とf'0).A.@の特長を組み合わせた特徴量

Joint HOGの算出方法（１）

2つの局所領域の共起を表現

$つの局所領域の共起 $つの局所領域の共起 $つの局所領域の共起入力画像 _Jjd特徴量 _{M22;N1Fによる共起} ]261@!Jjd特徴! ajjl

７２個の局所領域の全組み合わせ

特徴量候補：２

Y５５６個

]261@!Jjd特徴量%を生成!

(58)

Joint HOGの算出方法（２）

検出に有効な

_{]261@!Jjdを選択!}

最終識別器

L90M22;@!

]261@!Jjd特徴量候補の合成特徴量候補：２Y５５６個

最終識別器

]261@!Jjd特徴量の合成! $::個選択!

選択されたJoint HOG特徴量（１）

全学習サンプルの平均勾配画像 "段目のL90M22;@により選択されたJjd特徴量 $段目のL90M22;@により選択されたJjd特徴量

人の輪郭に沿った勾配方向の特徴量が自動的に選択

識別に有効な

_{m699A.!A.V.Aな特徴量}

(59)

選択されたJoint HOG特徴量（２）

"回目のL90M22;@により! 選択された特徴量 $回目のL90M22;@により! 選択された特徴量 $回目のL90M22;@により選択されたセルと]261@!Jjd特徴量

検出対象らしさの共起表現を確率により表現

_&

共起確率特徴量

確率により共起性を捉える

検出対象らしさの共起性に着目

人である確率大小入力画像確率を演算子で結合山内_{E&藤吉E&山下.&=>>?F0G&に基づく共起表現による人検出E&"1HIJA++*%} Joint Haar-like特徴量: 2値のため誤った組合わせが生じる共起確率特徴量: 実数により誤りを吸収可能

(60)

c.0A!L90M22;@を用いて共起確率特徴量を学習!

共起確率特徴量の処理フロー

検出に有効なLow level特徴量を選択共起するMiddle level特徴量を選択 Real AdaBoost Real AdaBoost

学習サンプル

検出対象らしさを表す確率を演算子により結合した特徴量

実数の確率を得るために

c.0A!L90M22;@を利用

特徴量候補重みの更新

強識別器

l2-KA.V.A特徴の選択共起確率特徴量の選択! 強識別器の学習

Real AdaBoost

L90M22;@!→ :または"を出力!

c.0A!L90M22;@!→ 確からしさを実数で出力

弱識別器の出力 h ( x) 確率密度分布出現確率 nZ! nK! KL&M6;N0<&50<&IL&OL&PQR5S96;&.&2&<;Q9?9>0@R;>6;FQ&G;0;6589T5F>0&>U&>07890;&8;56090G&& 50<&50&5SS89Q5F>0&@>&V>>?F0G&WE&BXPPE&'!!YL

強識別器

%!U%W!

弱識別器&!U%Wの線形和

弱識別器

&"U%W !

ポジティブクラスとネガティブクラスの_! 確率密度分布'(!，')!に応じて出力

(61)

Low level特徴量の選択

学習サンプル確率密度分布出現確率 A2-KA.V.A特徴量特徴量候補! l2-!A.V.A特徴量! Real AdaBoost

評価値

α

が大きな特徴量候補をLow level特徴量として選択

nZ! nK! 出現確率特徴量 nZ! nK! 出現確率特徴量識別エラー少"：大 識別エラー多"：小 上位^個を選択!

m699A.!l.V.A特徴量の生成!*

弱識別器

h(x)の出力を演算子により結合

0 ＋ ‐ 0 ＋ ‐ j C(x) h1(x) h2(x)

$つの重み付き出力が大きい

$つの重み付き出力が小さい

$つの重み付き出力を総合的に捉える

l2-!A.V.A!特徴量 m699A.!A.V.A!特徴量 h2(x)，!2 h1(x)，!1

(62)

m699A.!l.V.A特徴量の選択ごとにl2-!A.V.A特徴量候補を更新!

m699A.!l.V.A!特徴量の選択

Real AdaBoost Real AdaBoost 学習サンプル特徴量候補重みの更新

強識別器

l2-KA.V.A特徴の選択共起確率特徴量の選択! 強識別器の学習

第三世代特徴量の比較実験（１）

顔データセットにおける特徴量の性能を比較

検出対象：顔

比較対象：Haar-like特徴量、Joint Haar-like特徴量

データセット：

学習用データセット：Yale Database, XM2VTS等

人： 13,000枚

背景: 10,000枚

評価用データセット： MIT+CMU Frontal Face Image

人： 5,676枚

(63)

顔データの性能比較

Haar-like

Joint Haar-like

T.Mita, T.Kaneko, B. Stenger and O.Hori: Discriminative Feature Co-occurrence Selection for Object Detection（PAMI2008)

第三世代特徴量の比較実験（２）

人データセットにおける特徴量の性能を比較

検出対象：人

比較対象：HOG, Shapelet, Joint HOG，共起確率

データセット：CUデータセット

学習用

人：2,053枚

背景:6,253枚

評価用

人：1,023枚

背景：1,233枚

(64)

人データの性能比較

(65)

第三世代特徴量の比較

特徴量

長所

短所

検出可能な対象

Joint

Haar-like

・特徴量数が少なくてすむ（離れた領域の関連性を学習）・大量の学習サンプルが必要(共起確率の精度) 顔など・形状変化がないもの・服装などの多様性がないもの

Shaplet

・特徴量数が少なくてすむ（対象に適した形状を学習、勾配方向の関連性）・大量の学習サンプルが必要(Shaplet特徴量を算出するために）顔・人体・車など・形状変化が若干ある・服などの多様性があるもの

Joint

HOG

・特徴量数が少なくてすむ（離れた領域と勾配方向の関連性を学習、対称性・連続性) ・大量の学習サンプルが必要(共起確率の精度、勾配方向の選択) 顔・人体・車など・形状変化が若干ある・服などの多様性があるもの

第三世代の長所

事前知識なくZ>[78;\;8→19<<8;&Z;\;8へ 少ない弱識別器数で高い検出率

事前知識なしに、より効果的な特徴量（組合わせ）を学習可能

物体の検出器構造

o0;,09.!型検出器

検出器

_!

大量の弱識別器から構成

!

すべての探索に同一の処理

!

計算コスト大

!

物体物体物体非物体非物体非物体

弱識別器数少

`多階層的な構造!

物体以外を早く棄却

!

計算コスト少

!

(66)

•  スライディングウィンドウ

物体の探索方法

•  スライディングウィンドウ

検出ウィンドウをずらしながら、

位置、大きさを変えて探索

すべての位置、大きさを探索

するのは計算コスト大

(67)

物体の探索方法

• o205;.K@2KQ61.法

一定間隔ごとに荒く探索

!

物体らしい領域のみ詳細に探索

計算コストを削減することができる

o205;.K@2KQ61.!とo0;,09.

•  浅い階層はo205;.探索、深い階層はQ61.探索

さらに計算コストを削減することができる

物体物体物体非物体非物体非物体

(68)

物体の探索方法

•  色情報を利用!

– 顔の色から探索する範囲を限定!

– 明らかに顔でない色は対象外（青、緑）

探索の対象外

探索時間の削減

_!

誤検出の削減

複数の回転への対応

物体物体物体非物体非物体非物体物体物体物体非物体非物体非物体

向きと同様に複数の検出器を用意する

正面０度用正面１５度用

(69)

複数の回転への対応

•  顔（人体）の対称性を利用して学習コスト削減

左右反転させることで、検出器を生成可能

回転への対応

左右反転９０度回転 p９０度回転上下反転

•  ２つの検出器を回転／反転することで３６０度対応可能

(70)

複数の向きへの対応

•  顔：正面、斜め、横!

•  人体：正面（背面）、横

物体物体物体非物体非物体非物体物体物体物体非物体非物体非物体

複数の検出器を用意する

正面顔用横顔用

複数の向きへの対応

•  顔（人体）の対称性を利用して学習コスト削減

左右反転させることで、検出器を

生成可能

(71)

複数の向きへの対応

•  ３つの検出器から２４個の検出器を生成可能

左右反転９０度回転 p９０度回転上下反転

[.,@25!M22;N1F!

顔向き・回転を１つの検出器として学習

(72)

[.,@25!M22;N1F!

複数の顔向き・回転に

!

共通する特徴を選択

１つの顔向き・回転に特化した特徴を選択

[.,@25!M22;N1F!

特徴の形状は共通! 識別関数は向きごとに持っている１つの特徴と識別関数