THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE

(1)

社団法人電子情報通信学会

THE INSTITUTE OF ELECTRONICS,

INFORMATION AND COMMUNICATION ENGINEERS

信学技報

TECHNICAL REPORT OF IEICE.

サーベイランスカメラ映像を対象とした

人物照合の高精度化への取り組み

川西

康友

†

伍

洋

†

椋木

雅之

†

美濃

導彦

†

勞

世竑

††

†

京都大学学術情報メディアセンター

〒 606–8501 京都市左京区吉田本町

††

オムロンソーシアルソリューションズ株式会社

〒 525-0035 滋賀県草津市西草津 2-2-1

E-mail:

†{

kawanishi,yangwu

}

@mm.media.kyoto-u.ac.jp,

††{

mukunoki,minoh

}

@media.kyoto-u.ac.jp,

†††

あらまし我々は，社会システム改革と研究開発の一体的推進「安全・安心な社会のための犯罪・テロ対策技術等を

実用化するプログラム『環境適応型で実用的な人物照合システム』

」の一環として，防犯カメラネットワーク上での人

物検出，カメラ間人物照合，人物画像検索の高精度化に取り組んでいる．本稿では，これらの取組の概要を紹介する．

また我々が独自に収集した防犯カメラ映像を元にした，カメラ間人物照合の評価用公開データセットについても紹介

する．

キーワード人物検出，カメラ間人物照合，人物画像検索，人物画像データセット

Approaches to Accurate Person Re-identification

across Multiple Surveillance Cameras

Yasutomo KAWANISHI

†

, Yang WU

†

, Masayuki MUKUNOKI

†

, Michihiko MINOH

†

, and Shihong

LAO

††

†

Academic Center for Computing and Media Studies, Kyoto University

Yoshidahonmachi, Sakyo–ku,

Kyoto, 606–8501 Japan

††

OMRON Social Solutions Co., LTD

Nishi-kusatsu, Kusatsu-shi, Shiga, 525–0035 Japan

E-mail:

†{

kawanishi,yangwu

}

@mm.media.kyoto-u.ac.jp,

††{

mukunoki,minoh

}

@media.kyoto-u.ac.jp,

†††

Abstract

We introduce our approaches to person detection, re-identification and person image retrieval

devel-opped in our research project “R&D Program for Implementation of Anti-Crime and Anti-Terrorism Technologies

for a Safe and Secure Society“. We also introduce a novel public dataset for multiple people tracking across multiple

cameras.

Key words

Person Detection, Re-identification, Person Retrieval, Pedestrian Dataset

1. はじめに

安全・安心な社会の実現に向けた防犯意識の高まりから，街頭や駅などに設置されている防犯カメラの台数が増加している．防犯カメラの映像は，犯罪やテロが起きた時に警備会社や警察が捜査に利用する．先日のボストンでの爆破テロ事件においても，防犯カメラに写った犯人の映像が犯人捜査に利用された．事件が起こった際には，多数設置された防犯カメラ映像を警察などが目視によりチェックしているが，カメラ台数が多い場合時間的，人的コストが非常に大きい困難な作業となる．そこで，防犯カメラ映像に対し，人物検索や照合を自動的に行う画像処理の研究が活発に行われている．人物照合を含め，画像処理・認識の研究において，共通の公開データセットを用いて各種手法を評価することが一般的であるが，我々の研究も，いくつかの公開データセット[1]∼[5]を使ったベンチマークにおいて，高いスコアを出している．本稿では，それらの取り組みについて紹介する．また，人物照合の研究をするにあたって我々が独自に作成した新たなデータセットであるShinpuhkan2014についても紹介する．

(2)

なお，本研究は，文科省によるプロジェクト，社会システム改革と研究開発の一体的推進「安全・安心な社会のための犯罪・テロ対策技術等を実用化するプログラム『環境適応型で実用的な人物照合システム』」の一環として行っている．このプロジェクトは，オムロンソーシアルソリューションズ（株）のもと，京都大学，東京大学，名古屋大学が共同で研究を行っている．その中で，東京大学は人物照合における照明へのロバスト性への対処，名古屋大学は人物の向き，解像度へのロバスト性への対処について研究をしている．我々京都大学は，人物照合方法自体の精度を上げることを目標に研究を進めている．

2.

3. 人物照合高精度化のアプローチ

この節では，人物照合の精度向上のために我々が提案している最新の取り組みについて簡単に紹介する． 3. 1 人物照合手法 3. 1. 1 Multiple shotsベースの照合集合同士の比較方法として，ごく最近提案された手法に Reg-ularized Nearest Points(RNP) [10]がある．これは各集合に対し各特徴量の正則化付きの線形和によって構成される

Regular-ized Aﬃne Hull(式(1))同士の最近傍点間の距離をその集合間

の距離とする手法である． RAH ={x = Xα|∑ k αk= 1,||α||2<_{= σ}} (1) ただしXは集合内の特徴量を並べた行列である．これにより，ある2つの集合に対して最適化を行った距離比較ができる．

我々が提案する Collaboratively Regulaized Nearest

Points(CRNP) [8] は，クエリ内の特徴量集合を，ギャラリ内のあるトラックレット内の特徴量集合とではなく，ギャラリ内の全トラックレットに含まれる特徴量の集合との距離をRNP によって評価する（図1）．ギャラリ内の線形和の重みを各トラックレットごとに足しあわせ，それを貢献度としてRNPの値をスケーリングし，トラックレット間の距離とする．RNP では個々のトラックレット同士の比較に対して個別に最適化を行っていたのに対し，本手法ではギャラリ内の全てのトラックレットに対して統一的な最適化を行った上で個々の距離が計算できる． 3. 1. 2 Single shotベースの照合 1枚の画像同士の照合手法として，我々はCoupled Metric Learning (CML)を提案している[9]．この手法は，人物照合の分野で有効とされるランキング学習をするMetric Learning

(3)

Q i X Q 1 X Q n X Q 1 X i X n X

(a) Set-to-set distances (b) Set-to-sets distance 図 1 集合と集合の比較と，提案手法である集合と全体との比較．クエリ画像人物画像データベース・・・防犯カメラ映像作成フィードバック反映検索結果クエリ特徴量集合撮影条件ごとに分類抽出検索

横

後

前

・・・図 2 条件分割型適合性フィードバック

to Rank (MLR) [11]を適用する前にMaximally Collapsing Metric Learning (MCML) [12]を適用する． MCMLは同一クラス内の特徴量の相対的な順序関係を無視し，クラス間の距離を最大化する距離指標学習法である．これにより，MCMLによってクラス識別に適した距離尺度が定義された空間においてMLRによるランキング学習ができるようになり，人物照合精度を向上させることができる． 3. 2 人とのインタラクションによる精度向上 3. 1節の手法により，ギャラリ中からクエリの人物と同一人物のトラックレットを少なくとも1つ見つけることは比較的高い精度でできる．しかし，クエリの人物のすべてのトラックレットを探すには，クエリに対し，類似度順にギャラリを並べ，類似度の上位から順に検索していくしかないため，クエリの人物の全てのトラックレットを速く見つけることは難しい．こうした検索には，適合性フィードバックが用いられる[13]．適合性フィードバックとは，人が既に確認したデータに対して適不適をフィードバックしてもらい，以降の検索順位を最適化することで検索精度を向上させる手法である．我々は，人物の様々な撮影条件下での特徴量を別々にフィードバックし，同一撮影条件下の画像同士を比較することで撮影条件の違いによる人物の特徴量変化とそれによる別人との混同を回避して精度よく検索ができる条件分割型適合性フィードバックを提案している (図2) [14]．図 3 人物検出と領域抽出の統合 3. 3 人物検出と人物領域抽出精度の向上観測シーンによって背景は変化する．人物照合において人物検出によって切り出した矩形の人物画像全体から特徴抽出をする場合，背景の影響を受ける．背景の影響を出来るだけなくすためには人物領域のみを抜き出せればよい．人物検出，人物領域抽出に関する研究は多数行われているが，我々は人物検出と人物領域抽出を同時に行なうことで双方の精度を高める手法を提案している[15]．学習段階では人物画像の局所パッチ，そのパッチにおける人物領域マスクとその人物の中心までの相対位置の関係を学習しておく．検出段階では，画像から得られた多数の局所パッチから人物中心位置を投票によって決定する．同時に，投票で有効と判断されたパッチに対応する人物領域マスクを画像へ逆投影することにより，人物領域を得る．得られた人物領域に対し人間らしさのスコアを求め，人間らしさが高ければ検出の成功とする（図3）．これにより，人物検出によって人物領域抽出が同時にでき，かつ，人物領域抽出の結果によって人物検出結果の検証が行える．

4. データセット

人物照合手法の評価はしばしば公開データセットを用いて行われる．人物検索や複数カメラ間の人物追跡，大規模な人物照合を行う場合，複数のカメラで撮影された多数のトラックレットから構成されるデータセットがあると良い．そこで我々は新たに公開データセットを作成した．この公開データセットの特色は，半屋外の様々な照明環境下に設置された16台の各カメラについて，24人の人物がそれぞれ様々な方向に歩いているトラックレットを収録している点である．以下では，その公開データセットについて紹介する． 4. 1 カメラの設定データセット内の映像の収録は京都市内の商業施設「新風館」で行った．この施設は吹き抜けの中庭があり，中庭に面した通路は半屋外となっている．そのため場所によっては太陽光が差し込んでいる．撮影には一般的に使われているAXIS Communications社製の防犯カメラを用いた．これまで34台のカメラを設置し，毎日10時間のデータ収集を行っているが，公開データセット向けに16台のカメラを用いた．各カメラの位置と向きは図4内の赤い扇型で示した．朝から夜まで撮影をするため，カメラのオートゲイン，オートホワイトバランスは有効にしてある．また，フレームレートはおよそ10fpsであり，解像度は640× 480ピクセルのカメラと1280× 768ピクセルのカメラがある．照明環境はカメラによって様々であり，そのため画質もカメラによって異なっている．全てのカメラ映像の

(4)

1F

2F

3F

図 4 施設内でのカメラ位置．緑色の矢印は階段の上り方向を指している．図 5 全カメラ映像の例．番号はカメラ ID である．図 6 データセット中の人物．あるフレームの例を図5に示す． 4. 2 被験者とシナリオデータセット中の人物のほとんどは学内で募集した人物であり，20歳前後の男女24人である．全人物の画像を図6に示す．表 1 カメラ毎の 1 人あたりのトラックレット数． cameraID Cam01 Cam02 Cam03 Cam04 #Tracklets/person 4 8 4 6 cameraID Cam05 Cam06 Cam07 Cam08 #Tracklets/person 4 4 6 4 cameraID Cam09 Cam10 Cam11 Cam12 #Tracklets/person 8 8 8 4 cameraID Cam13 Cam14 Cam15 Cam16 #Tracklets/person 4 6 4 4 ショッピングモールがオープンする直前の，一般客がいない状況で収録を行った．収録は，予め決めたルート(図7)に従って歩く，というシナリオで2回行った．ある人物がこのルートを1周すると，16台のカメラの視野を43回横切ることになる．そのため，データセット内には各人物に対し86個のトラックレットが入っている．各カメラでの1人あたりのトラックレット数は表1の通りである. 4. 3 画像とアノテーションデータ人物がカメラ視野内に現れてからカメラ視野外へ消えるまでの数枚の画像列を1つのトラックレットとした．トラックレット内の各画像は人物を正しく囲うようにバウンディングボックスを設定し，すべて手動で切り出した．他者や，壁や柵などによるオクルージョンを含む画像，暗すぎる画像は除去した．1 トラックレットにつき，基本的には8枚以上の画像を含むようにした．しかし，一部のトラックレットは人物が短期間しか写っていなかったり長期間のオクルージョンがあり，十分な画像枚数が得られなかったため，その場合は3枚程度とした．画像のサイズは22× 64ピクセルから210× 471ピクセルであったが，画像を切り出した後，全て48× 128ピクセルに正規化した．アスペクト比が違う画像に対しては，不足部分は画像周辺部のピクセルを反転させて外挿した．画像フォーマットはJPEGであり，ファイル名は3桁の人物 ID，2桁のカメラID，2桁のトラックレットID，3桁のトラックレット内の画像IDからなる(例えば，001 02 03 004.jpgは人物ID 003，カメラID 02，トラックレットID 03，画像ID 04の画像である)．データセットにはさらに，観測時刻及び画像中での検出座標位置を含むメタデータを添付した．

(5)

start/goal

1

2

3

4

5

6 ₇

8

9

10

11

12

13

1F

2F

3F

図 7 データセットの歩行シナリオ．全人物は start から出発し，矢印の番号順に施設内を goal まで移動した． 4. 4 規約と制限事項データセットに含まれる全ての人物は我々のプライバシーポリシーに同意している．このデータは研究用途（実験評価，プレゼンテーション）での利用のみに制限し，他者への二次配布は禁止する．データセット利用者は，著者らに連絡することにより，規約に同意したうえでダウンロードできる． 4. 5 データセットの評価このデータセットでの人物照合の難しさを評価するため，いくつかの人物照合手法で評価を行った． 4. 5. 1 実験の設定実験にはすべてのカメラ，全てのトラックレットに対し，あるトラックレットをクエリとして，そのトラックレットが得られたカメラ以外のカメラから得られたトラックレットをギャラリとして用いた．実験はMultiple shotsに基づく次の2手法を比較した．

Minimum Point Distance (MPD) [7] トラックレット内の画像の特徴量間の最短距離をトラックレット間の距離とする手法．

Collaboratively Regularized Nearest Points (CRNP) [8] トラックレット内の画像集合を用いて比較を行なう3. 1. 1節で紹介した我々の手法．

全ての手法において，特徴量はWuら[8]と同様に Densely-sampled Color Histograms (DCHs)特徴量を利用した．CRNP

では，1トラックレット内の画像枚数に対してギャラリ内の画像枚数が圧倒的に多いため，パラメータはλ1= 1, λ2= 45, γ1= 1, γ2= 1000を用いた． 4. 5. 2 実験結果実験結果は上位20位までの累積照合特性(CMC)曲線（図 8）で評価した．グラフの値は全てのクエリに対する平均値である．カメラごとの難易度の差を見るため，カメラごとの1位照合率をグラフに示す（図9）．全てのカメラにおいて，CRFSは MPDでの評価を上回っている．カメラ16は人物画像の解像度が低いため，MPDの結果が非常に悪いものになっている．また，カメラ4では両手法の照合率が低いが，これはカメラ4 での人物画像の解像度が低いだけでなく，照明環境が他のカメラと大きく異なることによると考えられる． 2 4 6 8 10 12 14 16 18 20 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Rank Recognition percentage

CMC on the Shinpuhkan2014 dataset

MPD CRNP 図 8 実験結果 2 4 6 8 10 12 14 16 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Camera ID Recognition percentage

Recognition rate on each camera

MPD CRNP 図 9 カメラごとの 1 位照合率の比較

5. おわりに

本稿では，我々がこれまで行った人物検出・領域抽出，カメラ間人物照合，人物画像検索の高精度化への取り組みについて紹介した．また我々が独自に収集した防犯カメラ映像から作成した，カメラ間人物照合の評価用データセットについて紹介した．これまでの研究は，ある1人の人物に対して，他カメラからその人物を見つけるという問題設定であったが，今後の課題と

(6)

して，複数人物を同時に照合・カメラ間追跡することで精度を向上させる多人数の最適化が考えられる．また，今回の公開データセットにデータ及びアノテーションを追加し，データセットの充実を図りたい．謝辞本研究は文科省，安全・安心な社会のための犯罪・テロ対策技術等を実用化するプログラム「環境適応型で実用的な人物照合システム」の一環として実施したものである．文献

[1] D. Gray, S. Brennan and H. Tao: “Evaluating Appearance Models for Recognition , Reacquisition , and Tracking”, Proc. of PETS, Vol. 3, pp. 41–49 (2007).

[2] W. Schwartz and L. Davis: “Learning discriminative appearance-based models using partial least squares”, Com-puter Graphics and Image Processing (SIBGRAPI), 2009 XXII Brazilian Symposium on, pp. 322–329 (2009). [3] W.-S. Zheng, S. Gong and T. Xiang: “Associating

groups of people”, Proc. BMVC, pp. 23.1–23.11 (2009). doi:10.5244/C.23.23.

[4] S. Bak, E. Corvee, F. Bremond and M. Thonnat: “Boosted human re-identification using Riemannian manifolds”, Im-age and Vision Computing (2011).

[5] D. S. Cheng, M. Cristani, M. Stoppa, L. Baz-zani and V. Murino: “Custom pictorial structures for re-identification”, British Machine Vision Conference (BMVC), pp. 68.1–68.11 (2011).

[6] 井尻, 川西, 美濃, 村瀬：“視野を共有しない複数カメラ間での人物照合 (一般セッション, 実世界文字認識と理解)”, 電子情報通信 学会技術研究報告. PRMU, パターン認識・メディア理解, 111, 317, pp. 117–124 (2011).

[7] M. Farenzena, L. Bazzani, A. Perina, V. Murino and M. Cristani: “Person Re-Identification by Symmetry-Driven Accumulation of Local Features”, Proc. of CVPR, pp. 2360–2367 (2010).

[8] Y. Wu, M. Minoh and M. Mukunoki: “Collaboratively reg-ularized nearest points for set based recognition”, In Proc. of The 24th British Machine Vision Conference (BMVC) (2013).

[9] L. Wei, W. Yang, M. Mukunoki and M. Minoh: “Coupled metric learning for single-shot versus single-shot person rei-dentification”, Optical Engineering, 52, 2, pp. 027203–1– 027203–10 (2013).

[10] M. Yang, P. Zhu, L. V. Gool and L. Zhang: “Face recog-nition based on regularized nearest points between image sets”, 2013 10th IEEE International Conference and Work-shops on Automatic Face and Gesture Recognition (FG), Vol. 0, Los Alamitos, CA, USA, IEEE Computer Society, pp. 1–7 (2013).

[11] B. McFee and G. R. Lanckriet: “Metric learning to rank”, Proceedings of the 27th International Conference on Ma-chine Learning (ICML-10), pp. 775–782 (2010).

[12] A. Globerson and S. T. Roweis: “Metric learning by col-lapsing classes”, Advances in neural information processing systems, pp. 451–458 (2005).

[13] M. J. Metternich and M. Worring: “Track based relevance feedback for tracing persons in surveillance videos”, Com-puter Vision and Image Understanding, 117, 3, pp. 229–237 (2013).

[14] 井関, 川西, 椋木, 美濃：“防犯カメラ映像における条件分割型適合性フィードバックによる特定人物画像検索”, 情報処理学会研究報告 (2013).

[15] J. Vansteenberge, M. Mukunoki and M. Minoh: “Combined object detection and segmentation”, International Journal of Machine Learning and Computing, 3, 1, pp. 60–64 (2013).

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE

サーベイランスカメラ映像を対象とした

人物照合の高精度化への取り組み

川西

康友

伍

洋

椋木

雅之

美濃

導彦

勞

世竑

†

京都大学 学術情報メディアセンター

〒 606–8501 京都市左京区吉田本町

††

オムロンソーシアルソリューションズ株式会社

〒 525-0035 滋賀県草津市西草津 2-2-1

E-mail:

†{

kawanishi,yangwu

}

@mm.media.kyoto-u.ac.jp,

††{

mukunoki,minoh

}

@media.kyoto-u.ac.jp,

†††

[email protected]

あらまし 我々は，社会システム改革と研究開発の一体的推進「安全・安心な社会のための犯罪・テロ対策技術等を

実用化するプログラム『環境適応型で実用的な人物照合システム』

」の一環として，防犯カメラネットワーク上での人

物検出，カメラ間人物照合，人物画像検索の高精度化に取り組んでいる．本稿では，これらの取組の概要を紹介する．

また我々が独自に収集した防犯カメラ映像を元にした，カメラ間人物照合の評価用公開データセットについても紹介

する．

キーワード 人物検出，カメラ間人物照合，人物画像検索，人物画像データセット

Approaches to Accurate Person Re-identification

across Multiple Surveillance Cameras

Yasutomo KAWANISHI

, Yang WU

, Masayuki MUKUNOKI

, Michihiko MINOH

, and Shihong

LAO

†

Academic Center for Computing and Media Studies, Kyoto University

Yoshidahonmachi, Sakyo–ku,

Kyoto, 606–8501 Japan

††

OMRON Social Solutions Co., LTD

Nishi-kusatsu, Kusatsu-shi, Shiga, 525–0035 Japan

E-mail:

†{

kawanishi,yangwu

}

@mm.media.kyoto-u.ac.jp,

††{

mukunoki,minoh

}

@media.kyoto-u.ac.jp,

†††

[email protected]

Abstract

We introduce our approaches to person detection, re-identification and person image retrieval

devel-opped in our research project “R&D Program for Implementation of Anti-Crime and Anti-Terrorism Technologies

for a Safe and Secure Society“. We also introduce a novel public dataset for multiple people tracking across multiple

cameras.

Key words

Person Detection, Re-identification, Person Retrieval, Pedestrian Dataset

1.

は じ め に

2.

関 連 研 究

3.

人物照合高精度化のアプローチ

横

後

前

4.

京都大学学術情報メディアセンター

あらまし我々は，社会システム改革と研究開発の一体的推進「安全・安心な社会のための犯罪・テロ対策技術等を

キーワード人物検出，カメラ間人物照合，人物画像検索，人物画像データセット

はじめに

関連研究

₇

おわりに