• 検索結果がありません。

100326_セミナー資料_物体認識.pptx

N/A
N/A
Protected

Academic year: 2021

シェア "100326_セミナー資料_物体認識.pptx"

Copied!
74
0
0

読み込み中.... (全文を見る)

全文

(1)

物体検出・物体追跡技術の基礎と今後の動向

!

∼顔と人を中心に∼

オムロン株式会社

!

山下隆義

本日の内容

"#物体検出技術   !

"#" 特徴量について    !

"#$ 識別器について    !

"#% 検出対象に適した特徴量に関する実験!

$#物体追跡技術!

  

$#"物体追跡の流れ   !

  

$#$勾配法に基づく追跡方法   !

  

$#%検出法に基づく追跡方法   !

  

$#&オンライン学習による追跡方法  !

%.まとめ

(2)

物体認識とは?

制約のない実世界シーンの画像に対して,計算機が

その中に含まれる物体を一般的な名称で認識すること

human computer book desk chair

問題点

‒ 多くのカテゴリが存在

‒ 物体の位置が不明,見え方の違い,照明変動,オクルージョン,

スケール変化,変形

物体認識の細分化

human computer book desk chair 何の画像ですか? 人はどこですか? Object categorization Detection 一般物体認識 カテゴリ分類 特定物体認識 物体検出

(3)

一般物体認識とは?

What is this?  =カテゴリ分類

Bag-of-Keypoints 

入力画像 入力画像 特徴抽出 特徴抽出 ベクトル量子化ヒストグラム ベクトル量子化ヒストグラム

G. Csuka et al., Visual Categorization with Bags of Keypoints , ECCV2004 顔

バイク

特定物体認識とは?

Find all the

X

s  =物体検出

特定の単一クラスの物体(顔、人、車など)を検出

(4)

物体認識(検出)について

'()*++,-./#,0121#3)+,04.50+6789+":; '()*++)010;216,#3)+9,+<7==+240>0;.?>65.6#'@4A

物体検出は簡単か?

多様な変動要素が存在して難しい

カメラの角度

姿勢・向き・形状が多様

照明変動

オクルージョン

変動要素に対応する特徴量・学習手法がキー

(5)

物体検出実現するために

どんな情報を捉えれば

!

よい?

対象物体・以外をどのように

区別する?

特徴量

学習手法

色・エッジ! ピクセル・領域! ヒストグラム! 1つ・複数 2クラス! 多クラス

物体検出実現するために

どんな情報を捉えれば

!

よい?

対象物体・以外をどのように

区別する?

どうやって高速化する?

!

どうやってメモリ使用量を削減する?

実装上必要なこと

(6)

特定物体認識の処理の流れ

画像中の部分領域が検出対象かどうかを比較

物体情報

特徴量

学習手法

認識処理

画像サイズを 変えながら比 較 部分領域 比較

特定物体認識を実現する要素

特徴量

学習手法

学習手法の発展とともに特徴量も発展

認識する物体の情報を抽出

特徴量を汎化性のあるモデルへ

多様な変化が生じても

共通な情報に変換

多様な変化が生じても

共通な情報を選択

Edge, Color, haar-like, HOG

Neural Network

Support Vector Machine AdaBoost

(7)

学習手法の進化からみた特徴量の発展

第一世代(1970年∼)

第二世代(2000年∼)

第三世代(2005年∼)

対象物体全体 輝度分布 wavelet Globalな特徴量 Global 対象物体の局所情報 Haar-like  ピクセル差分 HOG EOH Low levelな特徴量 Local independent 局所領域の関連性 Joint Haar-like Joint HOG スパース特徴 Shapelet 共起確率特徴 dependent Middle levelな特徴量 ブースティング AdaBoost、Real AdaBoost     ニューラルネットワーク   線形判別分析(LDA) サポートベクタマシン(SVM) テンプレート PCA

人間の視覚

(8)

人の視覚 ‒物体を認識する流れ-

網膜

外側膝状体(LGN)

大脳皮質

網膜→外側膝状体→視覚野

視覚野

人の視覚 ‒物体を認識する流れ-

網膜

腹側皮質視覚路(What経路)

背側皮質視覚路

対象物を認識

位置や動きを認識

黒い車

(9)

人の視覚 ‒物体を認識する流れ-

網膜

腹側皮質視覚路

背側皮質視覚路(How/Where経路)

対象物を認識

位置・スケールや動きを認識

左へ走ってる

人の視覚 ‒視覚野の構成-

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

視覚野

腹側皮質視覚路

対象物を認識

低次視覚野

受容野:狭

高次視覚野

受容野:広

(10)

人の視覚 ‒視覚野の構成-

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

視覚野

腹側皮質視覚路

線分やコントラスト・色をとらえる

単純な局所特徴 受容範囲が狭い

人の視覚 ‒視覚野の構成-

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

複雑な形状をとらえる

視覚野

腹側皮質視覚路

複合的な局所特徴 受容範囲が少し広い

(11)

人の視覚 ‒視覚野の構成-

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

視覚野

腹側皮質視覚路

物体を認識する

サル

ヒト

受容範囲が広い

人の視覚 ‒視覚野の構成-

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

単純な局所特徴

複合的な局所特徴

物体を認識

(12)

視覚野から見た特徴量

V1

V2

V4

PIT

CIT

AIT

TE野

TEO野

第一世代の特徴量

視覚野全体をもとに

した特徴量

第二世代の特徴量

局所領域をもとに

した特徴量

第三世代の特徴量

局所領域を複合的に

した特徴量

最新の脳科学

•  提示した画像を可視化

(13)

領域全体に着目した特徴量

領域全体に着目した特徴量

学習サンプル ヒストグラム

検出対象全体 =特徴量(ベクトル)

輝度情報 $: ""B ・・・ $:C BC (0,0) (0,1) (n,m) "": &% ・・・ =: DB 0 1 n-1 n

(14)

領域全体に着目した特徴量

ヒストグラム

異なる場合でも類似するケースあり 領域全体の輝度の分布! 異なる顔でも類似!

領域全体に着目した特徴量

ヒストグラム

物体の形状変化に対してロバスト

大きく形状が異なる場合でも類似するケースあり

ヒストグラムを作成するためのベースとなる特徴量が重要

実装が容易

(15)

局所領域に着目した特徴量

局所領域に着目した特徴量

Haar-like特徴量

輝度に着目

EOH特徴量

エッジに着目 

ピクセル差分特徴量

HOG特徴量

Edgelet特徴量

(16)

Haar-like 特徴量

局所的なエッジ成分・線成分を捉える

2つの領域の輝度差に着目

P.Viola and M.Jones:Rapid Object Detection using a Boosted Cascade of Simple(CVPR2001) A B 特徴量=AとBの平均輝度の差 領域Aの平均輝度 領域Bの平均輝度

積分画像(

[email protected]!E40F.)

Haar-like特徴量を高速に演算することができる

輝度の合計値  =領域内の全画素の輝度を累積 領域が大きいと演算回数が多い 原画像のまま 積分画像を利用 A 輝度の合計値  =領域の4点の輝度を加減算 領域の大きさに関わらず演算回数一定 B C D E F ■=A-B-C+D □=C-D-E+F

(17)

積分画像のつくり方

10 13 18 20 21 4 15 30 28 40 30 44 32 38 20 37 60 80 88 90 80 130 110 155 220 0 0 0 0 0 0 0 0 10 23 41 61 82 0 14 42 90 138 199 0 44 116 196 282 363 0 81 213 363 547 718 0 161 423 683 1022 1413 0

原画像

積分画像

左上から右下へ画素値を累積

=A-B-C+D

EOH(Edge of Orientation Histograms)特徴量

局所的な勾配のエッジ強度を捉える

領域内の勾配関係に着目

K.Levi and Y.Weiss:Learning Object Detection from a Small Number of Examples: the Importance of Good Features(CVPR2004)

V.S. k1 k2 V.S. k1 k2 V.S. k1 k2 ほほの輪郭 目領域 口と鼻領域

(18)

EOH特徴量の算出(1)

K.Levi and Y.Weiss:Learning Object Detection from a Small Number of Examples: the Importance of Good Features(CVPR2004)

エッジ画像の作成

エッジ方向の算出

;2/.A! [email protected]

勾配画像の作成

 勾配ごとの画像を作成(k=4∼8) 入力画像 エッジ画像 エッジ勾配画像

EOH特徴量の算出(2)

K.Levi and Y.Weiss:Learning Object Detection from a Small Number of Examples: the Importance of Good Features(CVPR2004)

特徴量 = 2方向のエッジ強度の比

局所領域Rの方向kに対する累積エッジ強度

V.S.

k1 k2 エッジ勾配画像 着目領域

(19)

HOG(Histograms of Oriented Gradients)特徴量

局所的な勾配別のエッジ強度を捉える

領域内の勾配と強度の

関係に着目

N.Dalal and B.Triggs:Histograms of Oriented Gradients for Human Detection(CVPR2005) 局所領域の勾配ヒストグラムを特徴ベクトル化  ‐局所的な幾何学変化に頑健  ‐局所的な照明変化に頑健 勾配ヒストグラム

HOG特徴量算出の手順

ブロック化

勾配画 像

セル化

勾配算出

勾配ヒストグラムの作成 局所領域ごとに正規化 4 0F 16 @H 9.  :I "B:I 4 0F 16 @H 9.  :I "B:I 4 0F 16 @H 9.  :I "B:I 4 0F 16 @H 9.  :I "B:I 4 0F 16 @H 9.  :I "B:I 4 0F 16 @H 9.  :I "B:I 4 0F 16 @H 9.  :I "B:I 4 0F 16 @H 9.  :I "B:I

(20)

HOG特徴量の算出(1)

勾配強度

mと勾配方向!を算出

原画像 勾配画像

HOG特徴量の算出(2)

勾配方向ヒストグラムを生成

方向   : 0°䇲 180° 分割数 :9

1つのセルに対して、

!次元の特徴量ベクトル

セル

"#$#画素%ごとに算出

セル

(21)

HOG特徴量の算出(3)

勾配ヒストグラムの正規化

&

"セルずつブロックを移動 ブロック セル

'ブロックから得られる特徴量:(セル$(セル$!方向)*'個 

ブロック

"3!3セル%毎に正規化

ブロック内に含まれる特徴量!の大きさにより正規化

入力画像 :

(+,-+画素&

ブロック数

.&/$'+&)&/+ブロック&

EHOG特徴量

HOG特徴量

  多次元ベクトルの特徴量

  複数のセルを結合

計算コスト大

EHOG特徴量(Extend HOG)

  1次元の特徴量

  1つのセルのみに着目

  計算コスト小

'ブロック=0x0セル 'ブロック=1セル

"#$%&



多次元ベクトル 1次元

(22)

エッジ勾配ごとの積分画像(

[email protected]!J6;@2F504)

エッジに着目した特徴量を高速に演算することができる

積分画像 A 輝度の合計値  =領域の4点の輝度を加減算 輝度値を累積 領域の大きさに関わらず演算回数一定 B C D E F ■=A-B-C+D □=C-D-E+F エッジ勾配ごとの積分画像 エッジ強度の合計値  =特定のエッジ勾配に対する    領域の4点の輝度を加減算 特定の勾配方向のエッジ強度を累積 領域の大きさに関わらず演算回数一定 □=A-B-C+D A B C D

Edgelet特徴量

部分的な勾配とエッジ強度を捉える

  エッジのつながりに着目

基本形状:直線、円弧、対称性 連結数と連結方向から特徴量候補を作成

B.Wu and R.Nevatia:Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors( ICCV'05)

入力画像 エッジ画像

(23)

Edgelet特徴量算出の手順

勾配画 像

学習テンプレート比較

前処理

テンプレー ト 強度画 像 現サブウィンドウ 入力画 像

Edgelet特徴量の算出(1)

エッジ画像の作成

勾配方向の算出

;2/.A! [email protected] 入力画像 エッジ画像 エッジ勾配画像 エッジ強度画像 k方向に量子化

EOH,HOG特徴量と同じ処理

(24)

Edgelet特徴量の算出(2)

学習で選択された特徴

入力画像

要素ui

入力画像のエッジ強 度 入力画像の勾配方向 選択された特徴の勾配方 向

特徴量の選択方法

•  局所領域の特徴量=>大量の候補が存在

!

– 

J005!KA6>.!特徴量の場合!

   画像サイズ:24

724ピクセル!

   大きさ:2

72ピクセル 24724ピクセル!

   合計:

数万通り以上

      

!

どうやって選択するか?

学習手法により最適な特徴量を選択

(25)

L90M22;@

•  統計的学習手法

!M22;N1Fの1つ!

– 

"CCO年にP#Q5.H19等が提案

RQ5.H19!SCOT!

!

•  学習サンプルの重みを適応的

U090)NV.Wに更新!

–  計算量の爆発と汎化性能の低下を抑制!

–  誤識別したサンプルに対し重みXを増加!

•  最終識別器は弱識別器の重み付き多数決

!

L90M22;@の特徴

•  識別精度が高い!

– 汎化性能に対する理論的な裏付け

!

– 学習後期では識別の困難なデータに特化

!

•  解析が容易!

– 特徴選択の傾向などを後から調査

!

(26)

学習アルゴリズム

"Y$!前処理

"!前処理!

– N個の学習サンプル        

! ! ! !!

• 

!!!!*!画像!

• 

!!!!*!クラスラベル!

–  人にはZ"Y!非人にはK"!

$!学習サンプルの重みの初期化!

– 各サンプルの重み    を均等にする

!

(27)

学習アルゴリズム

%#"!弱識別器候補

•  基本的に設計は自由!

– 

"かK"を出力する関数!

–  エラー率が:#D以下!

• 

[62A0\]21.;の顔検出では閾値関数を使用!

–  ある"つの特徴量に対する分布を観測

θ

v

p

h

t:tラウンド目の弱識別器 :特徴量 :閾値 :不等号の向きを決定する  変数(1or-1)

h

t

(x) =

1 p · v(x) > p · θ

−1 otherwise

(28)

学習アルゴリズム

%#$!エラー率の算出

•  弱識別器に対するエラー率   を算出!

–  弱識別器hの応答値とクラスラベルが異なった場合サンプルの重みを足し合 わせる! –  エラー率が:#Dを超えたら、弱識別器のパリティpを反転!

e

t,m

=

N

i:ht(xi)�=yi

D

t

(i)

^.F_!!!`a2; 出現確率

θ

p = -1 a2;_!!!`^.F 出現確率

θ

e

t,m

a2;!!!!!!!!!!!!!!!!^.F!! a2;!!!!!!!!!!!!!!!!^.F!! et,m= 0.65 et,m = 1 − (0.65) = 0.35

(29)

学習アルゴリズム

&YD!弱識別器の選択と重みの算出

&!エラー率 が最小となるhを現在のラウンド

の弱識別器として採用

!

D!採用した弱識別器に対する重み を算出!

– 重み

!b!信頼度!

h

t

= arg min e

t,m

α

t

=

1

2

ln

� 1 − e

t

e

t

α

t

(ln = loge) ※ et = 0.067 α = 1 2ln( 0.933 0.067) = 1 2ln 13.925 = 1.316 ・優秀な弱識別器 et = 0.241 α = 1 2ln( 0.759 0.241) = 1 2ln 3.149 = 0.574 ・標準的な弱識別器 et = 0.5 α = 1 2ln( 0.5 0.5) = 12ln 1 = 0 ・半分しか正解できない弱識別器

e

t

(30)

学習アルゴリズム

=!学習サンプルの重みの更新!

O!学習サンプルの重みの更新!

=YO!サンプルの重みの更新と正規化

D

t+1

(i) = D

t(i) exp(−αt

y

t

h

t

(x

i

))

D

t+1

(i) =

Dt+1

(i)

N

i=1

Dt

(i) exp(−α

tytht

(x

i

))

h =1(人) h =-1(非人) y = 1 ラベル y = 1 ラベル ytht(xi) = 1 ytht(xi) = −1 となり、 重みは低くくなる

Dt+1(i) = Dt(i) exp(−αt) となり、

重みは高くなる

(31)

学習アルゴリズム

B!最終識別器の構築

•  すべての弱識別器に信頼度で重みをつけて!

 多数決をとる形になる

!

– Hが閾値 より高ければ人、低ければ非人と判定



H(x) = sign

T

t=1

α

t

h

t

(x) − λ

λ

(32)

実装時のポイント

•  学習回数UラウンドW!

– 任意

U":: $:::回W!

•  学習サンプル!

– 多ければ多い方がよい

!

•  統計的信頼性の確保!

•  多様なパターンに対応!

– 人検出では

$Y::: DY:::枚、顔検出では約":Y:::

!

L90M22;@について

•  多数の弱識別器を学習するアンサンブル学習

(33)

その他のブースティング手法

• 

c.0A!L90M22;@!

• 

d.1@A.!M22;N1F!

•  ・・・・

L90M22;@とc.0A!L90M22;@

• 

L90M22;@Ue6;,5.@.!L90M22;@W!

–  弱識別器の出力U"YK"WにXで重み付けて結合することで!

 最終識別器を構築

!

• 

c.0A!L90M22;@

Rf,'0)65.!SCCT

!

– 

L90M22;@からの派生!

–  弱識別器の出力が特徴量の分布に応じて実数値化U5.0AW!

–  サンプルに対しどの程度の識別が可能であるかが分かる

!

–  少ない弱識別器で高精度な検出!

•  学習の収束が早い!

効果的な重みの更新が可能

(34)

学習アルゴリズム

"Y$!前処理

"!前処理!

– N個の学習サンプル

!

• 

!!!!*!画像!

• 

!!!!*!クラスラベル!

–  人にはZ"Y!非人にはK"!

$!学習サンプルの重みの初期化!

– 各サンプルの重み  を均等にする

!

(35)

学習アルゴリズム

ネガティブサンプル( )

%#"!確率密度関数!

•  特徴量をME^に変換しサンプルの重みを!

!足し合わせ、分布UヒストグラムWを作成

:!!"!!$!!!!!!!!!!g!!!!!!!!!=$!=% 出現確率  特徴量 !"(ME^) :!!"!!$!!!!!!!!!!g!!!!!!!!!=$!=% 出現確率  特徴量 !"(ME^) ポジティブサンプル( )

(36)

学習アルゴリズム

%#$!弱識別器の評価値算出

• 

$つの分布のM'0(0,'05880距離で類似度を算

!

•  類似度が低い→分離し易い!

出現確率  特徴量 !"(ME^) 小 = 分布が分離しずらい →識別に有効ではない 大 = 分布が分離しやすい →識別に有効 評価値 *! 出現確率  特徴量 !"(ME^)

識別に有効な特徴量

z = 1

j

W

+j

W

j

(37)

学習アルゴリズム

= 0.15, = 0.15 = 0.0

&!最も#"が高い弱識別器を選択



• 

#"が高い!b!識別に有効な弱識別器!

– 弱識別器の出力

: 学習ラウンド : 弱識別器の番号 U !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!W = 0.1, = 0.2 = -1.39 = 0.26, = 0.12 = 1.54 出現確率  特徴量 !"(ME^) 出現確率  特徴量 !"(ME^) 出現確率  特徴量 !"(ME^)

(38)

学習アルゴリズム

D

•  学習サンプルの重みの更新!

•  学習サンプルの重みの正規化

学習アルゴリズム

D

= 0.15, = 0.15 = 0.0 = 0.1, = 0.2 = -1.39 = 0.26, = 0.12 = 1.54 出現確率  特徴量 !"(ME^) 出現確率  特徴量 !"(ME^) 出現確率  特徴量 !"(ME^) ポジティブ サンプル ネガティブ サンプル 重みを高く 重みを低く ポジティブ サンプル ネガティブ サンプル 重みを低く 重みを高く ポジティブ サンプル ネガティブ サンプル 重みはそのまま

(39)

学習アルゴリズム

=

学習アルゴリズム

=

•  強識別器の生成!

– 弱識別器の線形和

!

• 

L90M22;@のように重みXは必要ない!

– Hが閾値 より高ければ人、低ければ非人と判定



H(x) = sign

T

t=1

h

t

(x) − λ

λ

(40)

M22;N1Fを用いた物体検出

第二世代特徴量候補の準備(1)

学習サンプル

サンプルセットの用意

原画像 正解データ 非正解データ

数千枚のサンプルを用意

一定サイズで正規化 一定サイズで正規化

(41)

第二世代特徴量候補の準備(2)

特徴量候補

学習サンプル

特徴量候補の用意

特徴量候補! 位置・サイズ・形状を変えて、 候補として用意

特徴量候補数

  Haar-like 特徴量:18万個

  EOH特徴量:60万個

  HOG特徴量:900個

第二世代特徴量+ブースティング

評価値

特徴量候補

評価

学習サンプル

評価

評価

評価

hb:#%

hb:#B

hb:#D

hb:#=

123

J

"

U!!!!!!!!!!!!WY!!X

"

M22;N1F

弱識別器

' 重みX

○  ○ ○ サンプルの重み更新

(42)

第二世代特徴量+ブースティング

評価値

特徴量候補

評価

学習サンプル

評価

評価

評価

hb:#O

hb:#D

hb:#%

hb:#$

123

J

"

U!!!!!!!!!!!!WY!!X

"

M22;N1F

弱識別器

' 重みX

○ ○ ○  サンプルの重み更新

J

$

U!!!!!!!!!!!!WY!!X

$

第二世代特徴量+ブースティング

評価値

特徴量候補

評価

学習サンプル

評価

評価

評価

hb:#%

hb:#&

hb:#O

hb:#C

123

J

"

U!!!!!!!!!!!!WY!!X

"

M22;N1F

弱識別器

' 重みX

○   ○ サンプルの重み更新

J

$

U!!!!!!!!!!!!WY!!X

$

J

i

U!!!!!!!!!!!!WY!!X

i

(43)

第二世代特徴量の比較実験1

検出対象ごとに特徴量の性能を比較

検出対象:顔,車,人

比較対象:Haar-like,EOH,Edgelet,HOG

データセット:

  顔データ

    学習:Webから収集した約5000枚

    評価:MIT+CMU Frontal Face Image

  車データ

    学習:UIUC Cars

    評価:UIUC Cars

  人データ

    学習:INRIA Person Dataset

    評価:USC Pedestrian Detection Test Set

学習・評価データ(顔)

•  学習用!

(44)

学習・評価データ(車)

•  学習用!

•  評価用

学習・評価データ(人)

•  学習用!

•  評価用

(45)

顔データの性能比較

J005KA6>.特徴量が最も性能が良い

(46)

車両データの性能比較

特徴量による性能差は少ない

(47)

人データの性能比較

Jjd特徴量が最も性能が良い

(48)

顔データに選択された特徴量

選択されたHaar-like特徴量

平均輝度画像

目や口などの顔の特長的な領域を選択

選択された特徴量

車データに選択された特徴量

選択されたEdgelet特徴量

平均勾配画像

選択された特徴量

対称性を捉える

k9F.A.@特徴量を多く選択

(49)

人データに選択された特徴量

選択されたHOG特徴量

平均勾配画像

選択された

Jjd特徴量

学習の初期では上半身が捉えられる

Jjd特徴量を多く選択

特徴量比較のまとめ

特徴量

検出対象

顔 車 人

Haar-like

目や口などの顔の特長的な領域を選択 輪郭を捉える特徴を多く選択 人の縦エッジ、縦ラインを捉える特徴を多く選択

HOG

輪郭を捉える特徴を多く選択 輪郭、タイヤを捉える特徴を多く選択 上半身を捉える特徴を多く選択

EOH

輪郭を捉える特徴を多く選択 対称性やタイヤを捉える特徴を多く選択 上半身、肩のラインの対称性を捉える特徴を多く選択

Edgelet

輪郭を捉える特徴を多く選択 対称性を捉える特徴を多く選択 肩のラインの対称性を捉える特徴を多く選択

検出対象毎の選択された特徴量の傾向

&

顔:輝度に着目した特徴量が有効

!

車:輝度、エッジに着目した特徴量が共に有効

!

人:エッジに着目した特徴量が有効

!

(50)

局所領域の関連性に着目した特徴量

局所領域の関連性に着目した特徴量

Joint Haar-like特徴量

輝度に着目

Shapelet特徴量

エッジに着目 

スパース特徴量

Joint HOG特徴量

共起確率特徴量

(51)

Joint Haar-like特徴量

T.Mita, T.Kaneko, B. Stenger and O.Hori: Discriminative Feature Co-occurrence Selection for Object Detection(PAMI2008)

複数の領域の明暗パターンに着目

顔の構造に基づいた特徴量の

関係性を捉える

j =(011)2 = 3 顔 非顔

単一の特徴では捉えることができない関係性を捉えられる

Joint Haar like の処理フロー

特徴量の結合

特徴量候補

検出器

L9

0M

22

;@



顔 非顔 顔 非顔 顔 非顔

(52)

Joint Haar-like特徴量の算出(1)

特徴量の結合(1)

!

4556789:;特徴量の出力関数を決定

J005KA6>.特徴に対する識別器 検出対象 非検出対象 明暗差Z(x) しきい値!

対象

+!非対象の$値に符号化

明暗差Z(x) しきい値! 0 1 出力関数 J005KA6>.特徴 量 確率関数 しきい値:!  定義した検出率(誤検出率)を満たす値 学習サンプル

Joint Haar-like特徴量の算出(2)

特徴量の結合(2)

!

結合した

4556789:;特徴量を算出

明暗差Z(x) しきい値! 0 1 出力関数 J005KA6>.特徴量 明暗差Z(x) しきい値! 0 1 出力関数 J005KA6>.特徴量 明暗差Z(x) しきい値! 0 1 出力関数 J005KA6>.特徴量 ]261@!J005KA6>.特徴量

(1 1 0)

2 顔 +!非顔 顔 +!非顔 顔 +!非顔 学習サンプル J005KA6>.特徴量1 J005KA6>.特徴量2 J005KA6>.特徴量3

$進数値として

結合

(53)

Joint Haar-like特徴量の算出(3)

特徴量の結合(3)

!

結合した値をもとに同時確率関数を決定

同時確率の作成

(1 1 0)

2

(0 1 0)

2 学習サンプル結合した値 顔 非顔

同時確率

!

サンプルの重みetU6W!を加算

同時に複数の

4556789:;特徴量を観測することで、共起性を表現

Joint Haar-like特徴量の算出(4)

特徴量の結合(4)

!

同時確率関数もとに出力関数を決定

]261@!J005KA6>.特徴量を用いた弱識別器 顔 非顔 同時確率! 結合した値 検出対象らしさが高ければ、"を出力

2<5=>>?@により、最も識別能力の高い組合せを選択

]261@!J005KA6>.特徴量

(54)

Joint Haar-like特徴量の算出(5)

Haar-like特徴量をどのように組み合わせるのか?

膨大な学習時間が必要

"#!最も識別に適した特徴量を"個選択!

$#!選択した特徴に別の特徴を"個加え識別性能が向上する組み合わせを選択!

%#!$回$#!を繰り返す!

fQfによる組み合わせ!

SFS(Sequential Forward Selection)による組合わせ探索

 効率的に組み合わせ探索を行う方法

大幅に探索回数を小さくすることが可能

全組合わせ

   Haar-like特徴量数、組み合わせ個数が多い 

Shapelet特徴量

P.Sabzmeydani and G.Mori : Detecting Pedestrians by Learning Shapelet Features (CVPR2007)

局所領域内での共起するエッジ勾配を捉える

複数の特徴量の関連性に着目

人体に共起するエッジ 人体に共起しないエッジ

(55)

Shapelet特徴量の処理フロー

画素単位で有効なLow level特徴量を選択 共起するMiddle level特徴量を選択 AdaBoost 各画素を特徴量 として入力 AdaBoost 領域を特徴量と して入力

2段階のブースティングにより、Low level→Middle Level特徴量へ

Shapelet特徴量の算出方法(1)

局所領域ごとに

l2-!A.V.A特徴量(bエッジ)を選択!

L90M22;@! L90M22;@! 学習サンプル&方向エッジ 局所領域に分割 l2-!A.V.A特徴を選択! L90M22;@! f'0).A.@特徴量候補の合成 f'0).A.@特徴量候補! 画素tに対する弱識別器& 局所領域'に対する強識別器&

(56)

Shapelet特徴量の算出方法(2)

L90M22;@!

最終識別器

検出に有効な局所領域を選択

!

f'0).A.@特徴量候補! 最終識別器& f'0).A.@特徴量候補の合成 f'0).A.@特徴量の合成

Joint HOG特徴量

尾崎,山内,藤吉,:Joint HOG特徴量を用いた2段階AdaBoostによる車両検出(DIA2008) 局所領域間での共起する勾配方向を捉える

2つの領域とその勾配方向の共起性に着目

車両の対称性や連続性・関連性を捉えることができる

勾配の関連性を捉える 勾配の対称性を捉える 着目領域 着目勾配方向 着目領域 着目勾配方向

(57)

Joint HOGの処理フロー

Aつの局所領域の共起

! ! & ! & ! & ! & ! & ! & ! ! & ! & ! ! &

識別に有効な

B>90@&4CDの選択

]261@!J005KA6>.の特長 f'0).A.@の特長

]261@!J005KA6>.とf'0).A.@の特長を組み合わせた特徴量

Joint HOGの算出方法(1)

 2つの局所領域の共起を表現

$つの局所領域の共起 $つの局所領域の共起 $つの局所領域の共起 入力画像 Jjd特徴量 M22;N1Fによる共起 ]261@!Jjd特徴! ajjl

72個の局所領域の全組み合わせ

特徴量候補:2

Y556個

]261@!Jjd特徴量%を生成!

(58)

Joint HOGの算出方法(2)

検出に有効な

]261@!Jjdを選択!

最終識別器

L90M22;@!

]261@!Jjd特徴量候補の合成 特徴量候補:2Y556個

最終識別器

]261@!Jjd特徴量の合成! $::個選択!

選択されたJoint HOG特徴量(1)

全学習サンプ ルの平均勾配 画像 "段目のL90M22;@により 選択されたJjd特徴量 $段目のL90M22;@により選択されたJjd特徴量

人の輪郭に沿った勾配方向の特徴量が自動的に選択

識別に有効な

m699A.!A.V.Aな特徴量

(59)

選択されたJoint HOG特徴量(2)

"回目のL90M22;@により! 選択された特徴量 $回目のL90M22;@により! 選択された特徴量 $回目のL90M22;@により選択されたセルと]261@!Jjd特徴量

検出対象らしさの共起表現を確率により表現

&

共起確率特徴量

確率により共起性を捉える

検出対象らしさの共起性に着目

人で あ る 確率  大 小 入力画像 確率を演算子で結合 山内E&藤吉E&山下.&=>>?F0G&に基づく共起表現による人検出E&"1HIJA++*% Joint Haar-like特徴量:  2値のため誤った組合わせが生じる 共起確率特徴量:  実数により誤りを吸収可能

(60)

c.0A!L90M22;@を用いて共起確率特徴量を学習!

共起確率特徴量の処理フロー

検出に有効なLow level特徴量を選択 共起するMiddle level特徴量を選択 Real AdaBoost Real AdaBoost

学習サンプル

検出対象らしさを表す確率を演算子により結合した特徴量

実数の確率を得るために

c.0A!L90M22;@を利用

特徴量候補 重みの更新

強識別器

l2-KA.V.A特徴の選択 共起確率特徴量の選択! 強識別器の学習

Real AdaBoost

L90M22;@!→ :または"を出力!

c.0A!L90M22;@!→ 確からしさを実数で出力

弱識別器の出力 h ( x) 確率密度分布 出現確率  nZ! nK! KL&M6;N0<&50<&IL&OL&PQR5S96;&.&2&<;Q9?9>0@R;>6;FQ&G;0;6589T5F>0&>U&>07890;&8;56090G&& 50<&50&5SS89Q5F>0&@>&V>>?F0G&WE&BXPPE&'!!YL

強識別器

%!U%W!

弱識別器&!U%Wの線形和

弱識別器

&"U%W !

   

ポジティブクラスとネガティブクラスの!    確率密度分布'(!,')!に応じて出力

(61)

Low level特徴量の選択

学習サンプル 確率密度分布 出現確率  A2-KA.V.A特徴量 特徴量候補! l2-!A.V.A特徴量! Real AdaBoost

評価値

α

が大きな特徴量候補をLow level特徴量として選択

nZ! nK! 出現確率  特徴量 nZ! nK! 出現確率  特徴量 識別エラー少":大 識別エラー多":小 上位^個を選択!

m699A.!l.V.A特徴量*の生成!

弱識別器

h(x)の出力を演算子により結合

0 + ‐ 0 + ‐ j C(x) h1(x) h2(x)

$つの重み付き出力が大きい

$つの重み付き出力が小さい

$つの重み付き出力を総合的に捉える

l2-!A.V.A!特徴量 m699A.!A.V.A!特徴量 h2(x),!2 h1(x),!1

(62)

m699A.!l.V.A特徴量の選択ごとにl2-!A.V.A特徴量候補を更新!

m699A.!l.V.A!特徴量の選択

Real AdaBoost Real AdaBoost 学習サンプル 特徴量候補 重みの更新

強識別器

l2-KA.V.A特徴の選択 共起確率特徴量の選択! 強識別器の学習

第三世代特徴量の比較実験(1)

顔データセットにおける特徴量の性能を比較

検出対象:顔

比較対象:Haar-like特徴量、Joint Haar-like特徴量

データセット:



学習用データセット:Yale Database, XM2VTS等

人:  13,000枚

背景: 10,000枚

評価用データセット: MIT+CMU Frontal Face Image

人:  5,676枚

(63)

顔データの性能比較

Haar-like

Joint Haar-like

T.Mita, T.Kaneko, B. Stenger and O.Hori: Discriminative Feature Co-occurrence Selection for Object Detection(PAMI2008)

第三世代特徴量の比較実験(2)

人データセットにおける特徴量の性能を比較

検出対象:人

比較対象:HOG, Shapelet, Joint HOG,共起確率

データセット:CUデータセット



学習用

人:2,053枚

背景:6,253枚

評価用

人:1,023枚

背景:1,233枚

(64)

人データの性能比較

(65)

第三世代特徴量の比較

特徴量

長所

短所

検出可能な対象

Joint 

Haar-like

・特徴量数が少なくてすむ (離れた領域の関連性を 学習) ・大量の学習サンプル が必要(共起確率の精 度) 顔など  ・形状変化がないもの  ・服装などの多様性がないもの

Shaplet

・特徴量数が少なくてすむ(対象に適した形状を学習、 勾配方向の関連性) ・大量の学習サンプル が必要(Shaplet特徴量 を算出するために) 顔・人体・車など  ・形状変化が若干ある  ・服などの多様性があるもの

Joint

HOG

・特徴量数が少なくてすむ (離れた領域と勾配方向 の関連性を学習、対称性・ 連続性) ・大量の学習サンプル が必要(共起確率の精 度、勾配方向の選択) 顔・人体・車など  ・形状変化が若干ある  ・服などの多様性があるもの

第三世代の長所

事前知識なくZ>[78;\;8→19<<8;&Z;\;8へ 少ない弱識別器数で高い検出率

事前知識なしに、より効果的な特徴量(組合わせ)を学習可能

物体の検出器構造

o0;,09.!型検出器

検出器

!

大量の弱識別器から構成

!

すべての探索に同一の処理

!

計算コスト大

!

物体 物体 物体 非物体 非物体 非物体

弱識別器数少

`多 階層的な構造!

物体以外を早く棄却

!

計算コスト少

!

(66)

•  スライディングウィンドウ

物体の探索方法

物体の探索方法

•  スライディングウィンドウ

検出ウィンドウをずらしながら、

位置、大きさを変えて探索

すべての位置、大きさを探索

するのは計算コスト大

(67)

物体の探索方法

• 

o205;.K@2KQ61.法

一定間隔ごとに荒く探索

!

物体らしい領域のみ詳細に探索

計算コストを削減することができる

o205;.K@2KQ61.!とo0;,09.

•  浅い階層はo205;.探索、深い階層はQ61.探索

さらに計算コストを削減することができる

物体 物体 物体 非物体 非物体 非物体

(68)

物体の探索方法

•  色情報を利用!

– 顔の色から探索する範囲を限定!

– 明らかに顔でない色は対象外(青、緑)

探索の対象外

探索時間の削減

!

誤検出の削減

複数の回転への対応

物体 物体 物体 非物体 非物体 非物体 物体 物体 物体 非物体 非物体 非物体

向きと同様に複数の検出器を用意する

正面0度用 正面15度用

(69)

複数の回転への対応

•  顔(人体)の対称性を利用して学習コスト削減

左右反転させることで、検出器を生成可能

回転への対応

左右反転 90度回転 p90度回転 上下反転

•  2つの検出器を回転/反転することで360度対応可能

(70)

複数の向きへの対応

•  顔:正面、斜め、横!

•  人体:正面(背面)、横

物体 物体 物体 非物体 非物体 非物体 物体 物体 物体 非物体 非物体 非物体

複数の検出器を用意する

正面顔用 横顔用

複数の向きへの対応

•  顔(人体)の対称性を利用して学習コスト削減

左右反転させることで、検出器を

生成可能

(71)

複数の向きへの対応

•  3つの検出器から24個の検出器を生成可能

左右反転 90度回転 p90度回転 上下反転

[.,@25!M22;N1F!

顔向き・回転を1つの検出器として学習

(72)

[.,@25!M22;N1F!

複数の顔向き・回転に

!

共通する特徴を選択

1つの顔向き・回転に特化した特徴を選択

[.,@25!M22;N1F!

特徴の形状は共通! 識別関数は向きごとに持っている 1つの特徴と識別関数

(73)

顔データベース

!  MIT+CMU Frontal Face Image

!  http://vasc.ri.cmu.edu/idb/html/face/frontal_images/index.html

!  CMU Profile Face Image

!  http://vasc.ri.cmu.edu/idb/html/face/profile_images/index.html

!  MIT CBCL Face Data

!  http://cbcl.mit.edu/cbcl/software-datasets/FaceData.html

!  Yale Face Database B

!  http://cvc.yale.edu/

!  PIE

!  http://www.ri.cmu.edu/projects/project_418.html

車データベース

!  UIUC Image Database for Car Detection

!  http://l2r.cs.uiuc.edu/~cogcomp/Data/Car/

!  MIT CBCL Car Data

!  http://cbcl.mit.edu/cbcl/software-datasets/CarData.html

!  Testing Images for Car Detection

(74)

人データベース

!  INRIA Person Dataset

!  http://pascal.inrialpes.fr/data/human/

!  USC Pedestrian Detection Test Set

!  http://iris.usc.edu/~bowu/DatasetWebpage/dataset.html

!  MIT CBCL Pedestrian Data

!  http://cbcl.mit.edu/cbcl/software-datasets/PedestrianData.html

!  Gavrila’s Benchmark Dataset

!  http://www.gavrila.net/index.html

!  NICTA

!  http://nicta.com.au/research/project_list/completed_projects/smart_cars/

computer_vision_datasets/

!  OTCBVS

!  http://www.cse.ohio-state.edu/otcbvs-bench/

公開ライブラリ&ソースコード

!  Open CV

!  http://sourceforge.net/projects/opencvlibrary/

!  INRIA Object Detection Toolkit

(HOG特徴量による物体検出のコード)

参照

関連したドキュメント

70年代の初頭,日系三世を中心にリドレス運動が始まる。リドレス運動とは,第二次世界大戦

19 世紀前半に進んだウクライナの民族アイデン ティティの形成過程を、 1830 年代から 1840

A 31 抗アレルギー薬 H1受容体拮抗薬(第二世代) オロパタジン塩酸塩 アレロックOD5 A 32 抗アレルギー薬 H1受容体拮抗薬(第一世代)(フェノチアジン系)

生物多様性の損失も著しい。世界の脊椎動物の個体数は、 1970 年から 2014 年まで の間に 60% 減少した。世界の天然林は、 2010 年から 2015 年までに年平均

2017年度 2018年度 2019年度 2020年度 第一庁舎、第二庁舎、議会棟の合計 188,600 156,040 160,850

世界レベルでプラスチック廃棄物が問題となっている。世界におけるプラスチック生 産量の増加に従い、一次プラスチック廃棄物の発生量も 1950 年から

・生物多様性の損失も著しい。世界の脊椎動物の個体数は 1970 年から 2014 年ま での間に 60% 減少した。また、世界の天然林は 2010 年から 2015 年までに年平 均 650

* 一般社団法人新エネルギー導入促進協議会が公募した平成 26