社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE.
サーベイランスカメラ映像を対象とした
人物照合の高精度化への取り組み
川西
康友
†伍
洋
†椋木
雅之
†美濃
導彦
†勞
世竑
†††
京都大学 学術情報メディアセンター
〒 606–8501 京都市左京区吉田本町
††
オムロンソーシアルソリューションズ株式会社
〒 525-0035 滋賀県草津市西草津 2-2-1
E-mail:
†{
kawanishi,yangwu
}
@mm.media.kyoto-u.ac.jp,
††{
mukunoki,minoh
}
@media.kyoto-u.ac.jp,
†††
[email protected]
あらまし 我々は,社会システム改革と研究開発の一体的推進「安全・安心な社会のための犯罪・テロ対策技術等を
実用化するプログラム『環境適応型で実用的な人物照合システム』
」の一環として,防犯カメラネットワーク上での人
物検出,カメラ間人物照合,人物画像検索の高精度化に取り組んでいる.本稿では,これらの取組の概要を紹介する.
また我々が独自に収集した防犯カメラ映像を元にした,カメラ間人物照合の評価用公開データセットについても紹介
する.
キーワード 人物検出,カメラ間人物照合,人物画像検索,人物画像データセット
Approaches to Accurate Person Re-identification
across Multiple Surveillance Cameras
Yasutomo KAWANISHI
†, Yang WU
†, Masayuki MUKUNOKI
†, Michihiko MINOH
†, and Shihong
LAO
†††
Academic Center for Computing and Media Studies, Kyoto University
Yoshidahonmachi, Sakyo–ku,
Kyoto, 606–8501 Japan
††
OMRON Social Solutions Co., LTD
Nishi-kusatsu, Kusatsu-shi, Shiga, 525–0035 Japan
E-mail:
†{
kawanishi,yangwu
}
@mm.media.kyoto-u.ac.jp,
††{
mukunoki,minoh
}
@media.kyoto-u.ac.jp,
†††
[email protected]
Abstract
We introduce our approaches to person detection, re-identification and person image retrieval
devel-opped in our research project “R&D Program for Implementation of Anti-Crime and Anti-Terrorism Technologies
for a Safe and Secure Society“. We also introduce a novel public dataset for multiple people tracking across multiple
cameras.
Key words
Person Detection, Re-identification, Person Retrieval, Pedestrian Dataset
1.
は じ め に
安全・安心な社会の実現に向けた防犯意識の高まりから,街 頭や駅などに設置されている防犯カメラの台数が増加している. 防犯カメラの映像は,犯罪やテロが起きた時に警備会社や警察 が捜査に利用する.先日のボストンでの爆破テロ事件において も,防犯カメラに写った犯人の映像が犯人捜査に利用された. 事件が起こった際には,多数設置された防犯カメラ映像を警 察などが目視によりチェックしているが,カメラ台数が多い場 合時間的,人的コストが非常に大きい困難な作業となる.そこ で,防犯カメラ映像に対し,人物検索や照合を自動的に行う画 像処理の研究が活発に行われている. 人物照合を含め,画像処理・認識の研究において,共通の公 開データセットを用いて各種手法を評価することが一般的であ るが,我々の研究も,いくつかの公開データセット[1]∼[5]を 使ったベンチマークにおいて,高いスコアを出している.本稿 では,それらの取り組みについて紹介する.また,人物照合の 研究をするにあたって我々が独自に作成した新たなデータセッ トであるShinpuhkan2014についても紹介する.なお,本研究は,文科省によるプロジェクト,社会システム 改革と研究開発の一体的推進「安全・安心な社会のための犯罪・ テロ対策技術等 を実用化するプログラム『環境適応型で実用 的な人物照合システム』」の一環として行っている.このプロ ジェクトは,オムロンソーシアルソリューションズ(株)のも と,京都大学,東京大学,名古屋大学が共同で研究を行ってい る.その中で,東京大学は人物照合における照明へのロバスト 性への対処,名古屋大学は人物の向き,解像度へのロバスト性 への対処について研究をしている.我々京都大学は,人物照合 方法自体の精度を上げることを目標に研究を進めている.
2.
関 連 研 究
本稿では,あるカメラで人物検出・人物追跡によって得られ た1枚以上の画像の系列をトラックレットと呼ぶ.また,ある カメラから得られたトラックレットと他のカメラから得られた トラックレットが同一人物のものであるか判定することを人 物照合と定義する.この時,あるカメラから得られたトラック レットをクエリと呼び,他のカメラから得られたトラックレッ トの集合をギャラリと呼ぶ. 人物照合の問題は,照合目的による違い,クエリ・ギャラリ が持つ情報の違いによって以下のように分類される.ここでは, 人物照合の詳細なサーベイは[6]に譲る. まず,照合目的の違いによって分類すると,以下の2つの問 題に分類できる.一つは,ギャラリ内にクエリの人物と同一人 物の多数のトラックレットがあり,その中からクエリの人物の トラックレットを少なくとも1つ見つける問題である.これは 観測範囲内のある時間内にクエリの人物が存在したか否かさえ 分かれば良いという目的である.この場合の評価方法としては, 類似度の上位n件中に正解が含まれている確率が用いられ,累 積照合特性(Cumulative Matching Characteristic : CMC)曲 線として可視化される.もう一方の問題は,ギャラリ内に存在 する,クエリの人物の人物画像をすべて見つける問題である. これはクエリの人物がどういうルートを通って移動したかを獲 得する目的などに利用される.この場合の評価方法としては, 類似度の上位n件まで取り出した時の,候補に含まれるクエリ の人物の適合率で評価される. また,クエリ・ギャラリの違いによって分類すると,Multipleshotsベースの手法とSingle shotベースの手法に分類できる.
Multiple shotsベースの手法とは,各トラックレットが複数枚 の画像から構成されているという状況で,トラックレットと他 のカメラで得られたトラックレットが同一人物のものである かの判定をする問題である.トラックレットには複数枚の画像 が含まれるため,トラックレット同士を比較することによる類 似度の算出は様々な方法が考えられる.トラックレット内の画 像列から得た特徴量の集合同士を比較する方法[7],トラック レット内の複数の画像から1つの特徴量を抽出して比較する方 法[4],トラックレット内・トラックレット間の特徴量の関係を モデル化する方法[8]など様々な方法が提案されている.一方, Single shotベースの手法とは,各カメラに写った人物につい て,全てのトラックレットにそれぞれ画像が1枚ずつしか含ま れていない状況で,人物照合する問題である.フレームレート が低い,人を大きく写すためにカメラの視野が狭い等の理由に より,1人の人物に対してごく少数枚の画像しか得られない場 合がある.この場合,トラックレットに含まれる複数枚の画像 を用いる照合手法は有効に働かない.また,免許証写真の照合 など,そもそもギャラリ内に個人の画像が1枚ずつしか含まれ ないという状況もある.従来,それぞれの画像同士を比較する ために特徴量の工夫がなされてきた[7]が,近年,データセッ ト内の他の人物の画像との関係をモデル化することで精度を上 げる手法[9]が提案されている. 手法を評価するための公開データセットとしては,VIPeR [1],
ETHZ [2],i-LIDS [3],i-LIDS-MA/AA [4],CAVIAR4REID [5]
などが有名である.公開データセットは,画像枚数,カメラ台 数,人数,人ごとのトラックレット数が多いことが望ましい. 現在人物照合の評価を目的として公開されているデータセット は,1人あたりの画像枚数が少ない,カメラ台数が少ない,1人 あたりのトラックレット数が少ない,など様々な目的で利用で きるデータセットは公開されていない.
3.
人物照合高精度化のアプローチ
この節では,人物照合の精度向上のために我々が提案してい る最新の取り組みについて簡単に紹介する. 3. 1 人物照合手法 3. 1. 1 Multiple shotsベースの照合 集合同士の比較方法として,ごく最近提案された手法に Reg-ularized Nearest Points(RNP) [10]がある.これは各集合に対 し各特徴量の正則化付きの線形和によって構成されるRegular-ized Affine Hull(式(1))同士の最近傍点間の距離をその集合間
の距離とする手法である. RAH ={x = Xα|∑ k αk= 1,||α||2<= σ} (1) ただしXは集合内の特徴量を並べた行列である.これにより, ある2つの集合に対して最適化を行った距離比較ができる.
我 々 が 提 案 す る Collaboratively Regulaized Nearest
Points(CRNP) [8] は,クエ リ内の 特徴量 集合を ,ギャラ リ 内のあるトラックレット内の特徴量集合とではなく,ギャラリ 内の全トラックレットに含まれる特徴量の集合との距離をRNP によって評価する(図1).ギャラリ内の線形和の重みを各ト ラックレットごとに足しあわせ,それを貢献度としてRNPの 値をスケーリングし,トラックレット間の距離とする.RNP では個々のトラックレット同士の比較に対して個別に最適化を 行っていたのに対し,本手法ではギャラリ内の全てのトラック レットに対して統一的な最適化を行った上で個々の距離が計算 できる. 3. 1. 2 Single shotベースの照合 1枚の画像同士の照合手法として,我々はCoupled Metric Learning (CML)を提案している[9].この手法は,人物照合 の分野で有効とされるランキング学習をするMetric Learning
Q i X Q 1 X Q n X Q 1 X i X n X
(a) Set-to-set distances (b) Set-to-sets distance 図 1 集合と集合の比較と,提案手法である集合と全体との比較. クエリ画像 人物画像データベース ・・・ 防犯カメラ映像 作 成 フィードバック 反映 検索結果 クエリ特徴量集合 撮影条件ごとに分類 抽 出 検 索
横
後
前
・・・ 図 2 条件分割型適合性フィードバックto Rank (MLR) [11]を適用する前にMaximally Collapsing Metric Learning (MCML) [12]を適用する. MCMLは同一クラス内の特徴量の相対的な順序関係を無視 し,クラス間の距離を最大化する距離指標学習法である.これ により,MCMLによってクラス識別に適した距離尺度が定義 された空間においてMLRによるランキング学習ができるよう になり,人物照合精度を向上させることができる. 3. 2 人とのインタラクションによる精度向上 3. 1節の手法により,ギャラリ中からクエリの人物と同一人 物のトラックレットを少なくとも1つ見つけることは比較的 高い精度でできる.しかし,クエリの人物のすべてのトラック レットを探すには,クエリに対し,類似度順にギャラリを並べ, 類似度の上位から順に検索していくしかないため,クエリの人 物の全てのトラックレットを速く見つけることは難しい.こう した検索には,適合性フィードバックが用いられる[13].適合 性フィードバックとは,人が既に確認したデータに対して適不 適をフィードバックしてもらい,以降の検索順位を最適化する ことで検索精度を向上させる手法である.我々は,人物の様々 な撮影条件下での特徴量を別々にフィードバックし,同一撮影 条件下の画像同士を比較することで撮影条件の違いによる人物 の特徴量変化とそれによる別人との混同を回避して精度よく検 索ができる条件分割型適合性フィードバックを提案している (図2) [14]. 図 3 人物検出と領域抽出の統合 3. 3 人物検出と人物領域抽出精度の向上 観測シーンによって背景は変化する.人物照合において人物 検出によって切り出した矩形の人物画像全体から特徴抽出をす る場合,背景の影響を受ける.背景の影響を出来るだけなくす ためには人物領域のみを抜き出せればよい. 人物検出,人物領域抽出に関する研究は多数行われているが, 我々は人物検出と人物領域抽出を同時に行なうことで双方の 精度を高める手法を提案している[15].学習段階では人物画像 の局所パッチ,そのパッチにおける人物領域マスクとその人物 の中心までの相対位置の関係を学習しておく.検出段階では, 画像から得られた多数の局所パッチから人物中心位置を投票 によって決定する.同時に,投票で有効と判断されたパッチに 対応する人物領域マスクを画像へ逆投影することにより,人物 領域を得る.得られた人物領域に対し人間らしさのスコアを求 め,人間らしさが高ければ検出の成功とする(図3).これによ り,人物検出によって人物領域抽出が同時にでき,かつ,人物 領域抽出の結果によって人物検出結果の検証が行える.
4.
データセット
人物照合手法の評価はしばしば公開データセットを用いて行 われる.人物検索や複数カメラ間の人物追跡,大規模な人物照 合を行う場合,複数のカメラで撮影された多数のトラックレッ トから構成されるデータセットがあると良い.そこで我々は新 たに公開データセットを作成した.この公開データセットの特 色は,半屋外の様々な照明環境下に設置された16台の各カメ ラについて,24人の人物がそれぞれ様々な方向に歩いている トラックレットを収録している点である.以下では,その公開 データセットについて紹介する. 4. 1 カメラの設定 データセット内の映像の収録は京都市内の商業施設「新風 館」で行った.この施設は吹き抜けの中庭があり,中庭に面 した通路は半屋外となっている.そのため場所によっては太 陽光が差し込んでいる.撮影には一般的に使われているAXIS Communications社製の防犯カメラを用いた.これまで34台 のカメラを設置し,毎日10時間のデータ収集を行っているが, 公開データセット向けに16台のカメラを用いた.各カメラの 位置と向きは図4内の赤い扇型で示した.朝から夜まで撮影を するため,カメラのオートゲイン,オートホワイトバランスは 有効にしてある.また,フレームレートはおよそ10fpsであり, 解像度は640× 480ピクセルのカメラと1280× 768ピクセル のカメラがある.照明環境はカメラによって様々であり,その ため画質もカメラによって異なっている.全てのカメラ映像の1F
2F
3F
図 4 施設内でのカメラ位置.緑色の矢印は階段の上り方向を指している. 図 5 全カメラ映像の例.番号はカメラ ID である. 図 6 データセット中の人物. あるフレームの例を図5に示す. 4. 2 被験者とシナリオ データセット中の人物のほとんどは学内で募集した人物であ り,20歳前後の男女24人である.全人物の画像を図6に示す. 表 1 カメラ毎の 1 人あたりのトラックレット数. cameraID Cam01 Cam02 Cam03 Cam04 #Tracklets/person 4 8 4 6 cameraID Cam05 Cam06 Cam07 Cam08 #Tracklets/person 4 4 6 4 cameraID Cam09 Cam10 Cam11 Cam12 #Tracklets/person 8 8 8 4 cameraID Cam13 Cam14 Cam15 Cam16 #Tracklets/person 4 6 4 4 ショッピングモールがオープンする直前の,一般客がいない 状況で収録を行った.収録は,予め決めたルート(図7)に従っ て歩く,というシナリオで2回行った.ある人物がこのルート を1周すると,16台のカメラの視野を43回横切ることになる. そのため,データセット内には各人物に対し86個のトラック レットが入っている.各カメラでの1人あたりのトラックレッ ト数は表1の通りである. 4. 3 画像とアノテーションデータ 人物がカメラ視野内に現れてからカメラ視野外へ消えるまで の数枚の画像列を1つのトラックレットとした.トラックレッ ト内の各画像は人物を正しく囲うようにバウンディングボック スを設定し,すべて手動で切り出した.他者や,壁や柵などに よるオクルージョンを含む画像,暗すぎる画像は除去した.1 トラックレットにつき,基本的には8枚以上の画像を含むよ うにした.しかし,一部のトラックレットは人物が短期間しか 写っていなかったり長期間のオクルージョンがあり,十分な画 像枚数が得られなかったため,その場合は3枚程度とした.画 像のサイズは22× 64ピクセルから210× 471ピクセルであっ たが,画像を切り出した後,全て48× 128ピクセルに正規化し た.アスペクト比が違う画像に対しては,不足部分は画像周辺 部のピクセルを反転させて外挿した. 画像フォーマットはJPEGであり,ファイル名は3桁の人物 ID,2桁のカメラID,2桁のトラックレットID,3桁のトラッ クレット内の画像IDからなる(例えば,001 02 03 004.jpgは 人物ID 003,カメラID 02,トラックレットID 03,画像ID 04の画像である).データセットにはさらに,観測時刻及び画 像中での検出座標位置を含むメタデータを添付した.start/goal
1
2
3
4
5
6
7
8
9
10
11
12
13
1F
2F
3F
図 7 データセットの歩行シナリオ.全人物は start から出発し,矢印の番号順に施設内を goal まで移動した. 4. 4 規約と制限事項 データセットに含まれる全ての人物は我々のプライバシーポ リシーに同意している.このデータは研究用途(実験評価,プ レゼンテーション)での利用のみに制限し,他者への二次配布 は禁止する.データセット利用者は,著者らに連絡することに より,規約に同意したうえでダウンロードできる. 4. 5 データセットの評価 このデータセットでの人物照合の難しさを評価するため,い くつかの人物照合手法で評価を行った. 4. 5. 1 実験の設定 実験にはすべてのカメラ,全てのトラックレットに対し,あ るトラックレットをクエリとして,そのトラックレットが得ら れたカメラ以外のカメラから得られたトラックレットをギャラ リとして用いた.実験はMultiple shotsに基づく次の2手法を 比較した.Minimum Point Distance (MPD) [7] トラックレット内の画 像の特徴量間の最短距離をトラックレット間の距離とする手法.
Collaboratively Regularized Nearest Points (CRNP) [8] トラ ックレット内の画像集合を用いて比較を行なう3. 1. 1節で紹介 した我々の手法.
全ての手法において,特徴量はWuら[8]と同様に Densely-sampled Color Histograms (DCHs)特徴量を利用した.CRNP
では,1トラックレット内の画像枚数に対してギャラリ内の画像 枚数が圧倒的に多いため,パラメータはλ1= 1, λ2= 45, γ1= 1, γ2= 1000を用いた. 4. 5. 2 実 験 結 果 実験結果は上位20位までの累積照合特性(CMC)曲線(図 8)で評価した.グラフの値は全てのクエリに対する平均値で ある. カメラごとの難易度の差を見るため,カメラごとの1位照合 率をグラフに示す(図9).全てのカメラにおいて,CRFSは MPDでの評価を上回っている.カメラ16は人物画像の解像 度が低いため,MPDの結果が非常に悪いものになっている. また,カメラ4では両手法の照合率が低いが,これはカメラ4 での人物画像の解像度が低いだけでなく,照明環境が他のカメ ラと大きく異なることによると考えられる. 2 4 6 8 10 12 14 16 18 20 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Rank Recognition percentage
CMC on the Shinpuhkan2014 dataset
MPD CRNP 図 8 実 験 結 果 2 4 6 8 10 12 14 16 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Camera ID Recognition percentage
Recognition rate on each camera
MPD CRNP 図 9 カメラごとの 1 位照合率の比較
5.
お わ り に
本稿では,我々がこれまで行った人物検出・領域抽出,カメラ 間人物照合,人物画像検索の高精度化への取り組みについて紹 介した.また我々が独自に収集した防犯カメラ映像から作成し た,カメラ間人物照合の評価用データセットについて紹介した. これまでの研究は,ある1人の人物に対して,他カメラから その人物を見つけるという問題設定であったが,今後の課題として,複数人物を同時に照合・カメラ間追跡することで精度を向 上させる多人数の最適化が考えられる.また,今回の公開デー タセットにデータ及びアノテーションを追加し,データセット の充実を図りたい. 謝辞 本研究は文科省,安全・安心な社会のための犯罪・テ ロ対策技術等を実用化するプログラム「環境適応型で実用的な 人物照合システム」の一環として実施したものである. 文 献
[1] D. Gray, S. Brennan and H. Tao: “Evaluating Appearance Models for Recognition , Reacquisition , and Tracking”, Proc. of PETS, Vol. 3, pp. 41–49 (2007).
[2] W. Schwartz and L. Davis: “Learning discriminative appearance-based models using partial least squares”, Com-puter Graphics and Image Processing (SIBGRAPI), 2009 XXII Brazilian Symposium on, pp. 322–329 (2009). [3] W.-S. Zheng, S. Gong and T. Xiang: “Associating
groups of people”, Proc. BMVC, pp. 23.1–23.11 (2009). doi:10.5244/C.23.23.
[4] S. Bak, E. Corvee, F. Bremond and M. Thonnat: “Boosted human re-identification using Riemannian manifolds”, Im-age and Vision Computing (2011).
[5] D. S. Cheng, M. Cristani, M. Stoppa, L. Baz-zani and V. Murino: “Custom pictorial structures for re-identification”, British Machine Vision Conference (BMVC), pp. 68.1–68.11 (2011).
[6] 井尻, 川西, 美濃, 村瀬:“視野を共有しない複数カメラ間での人 物照合 (一般セッション, 実世界文字認識と理解)”, 電子情報通信 学会技術研究報告. PRMU, パターン認識・メディア理解, 111, 317, pp. 117–124 (2011).
[7] M. Farenzena, L. Bazzani, A. Perina, V. Murino and M. Cristani: “Person Re-Identification by Symmetry-Driven Accumulation of Local Features”, Proc. of CVPR, pp. 2360–2367 (2010).
[8] Y. Wu, M. Minoh and M. Mukunoki: “Collaboratively reg-ularized nearest points for set based recognition”, In Proc. of The 24th British Machine Vision Conference (BMVC) (2013).
[9] L. Wei, W. Yang, M. Mukunoki and M. Minoh: “Coupled metric learning for single-shot versus single-shot person rei-dentification”, Optical Engineering, 52, 2, pp. 027203–1– 027203–10 (2013).
[10] M. Yang, P. Zhu, L. V. Gool and L. Zhang: “Face recog-nition based on regularized nearest points between image sets”, 2013 10th IEEE International Conference and Work-shops on Automatic Face and Gesture Recognition (FG), Vol. 0, Los Alamitos, CA, USA, IEEE Computer Society, pp. 1–7 (2013).
[11] B. McFee and G. R. Lanckriet: “Metric learning to rank”, Proceedings of the 27th International Conference on Ma-chine Learning (ICML-10), pp. 775–782 (2010).
[12] A. Globerson and S. T. Roweis: “Metric learning by col-lapsing classes”, Advances in neural information processing systems, pp. 451–458 (2005).
[13] M. J. Metternich and M. Worring: “Track based relevance feedback for tracing persons in surveillance videos”, Com-puter Vision and Image Understanding, 117, 3, pp. 229–237 (2013).
[14] 井関, 川西, 椋木, 美濃:“防犯カメラ映像における条件分割型適 合性フィードバックによる特定人物画像検索”, 情報処理学会研 究報告 (2013).
[15] J. Vansteenberge, M. Mukunoki and M. Minoh: “Combined object detection and segmentation”, International Journal of Machine Learning and Computing, 3, 1, pp. 60–64 (2013).