早稲田大学大学院情報生産システム研究科
博士論文審査結果報告書
論 文 題 目
Human Detection Algorithm Based on Discriminative Local Feature
申 請 者 Jiu XU
情報生産システム工学専攻 マルチメディアシステム研究
2014 年 9 月
人物検出問題はコンピュータービジョンの中で最も活発な研究分野の1つであり、ビデオ 監視、車の安全運転などの多くの応用に適用されてきた。また、安全・安心社会を目指した 人間の行動分析への認識と理解という高度な処理への課題解決の基本問題となっている。人 物検出問題は最近の 10 年間、研究が活発に行われてきた。しかし撮影場面での状況や複雑 な背景画像、および人間の様々な姿勢や服装により検出精度は影響を受けるため、解決すべ き困難な課題が残っている。また、高精度な人物検出には膨大な計算量を必要とするために、
ビデオ監視等で人物検出を実時間(リアルタイム)で行える強い識別能力を備えた特徴抽出 アルゴリズムの開発が望まれている。
現在までに、多数の特徴抽出アルゴリズムが提案されてきた。HOG 法(Histogram of Gradient:方向勾配ヒストグラム、N.Dalal: CVPR 2005)と COV 法(Covariance Matrix:
共分散行列、T.Oncel: PAMI 2008)等の勾配ベース法は、勾配情報を利用することで、優れ た性能を達成した。また、テキスチャ(画像の模様) ベース法として、LBP 法 (Local Binary Patterns:局所2値パターン、T.Ojala: Pattern Recognition 1996)、 SLBP 法(Semantic Local Binary Patterns:セマンティック局所2値パターン、Y.Mu:CVPR 2008)、CS-LBP 法
(Center Symmetric LBP:中心対称型局所2値パターン、Y.Zheng: ACCV 2010)が提案されて いる。勾配とテキスチャの両者を用いる方法として、HOT 法(Histogram of Template:テン プレートヒストグラム、S.Tang: ICASSP 2010)と GLBP 法(Gradient LBP:勾配局所2値パ ターン、N.Jiang: ISCAS 2013)が提案されてきた。しかし、これらの既存方法は、高精度な 検出を達成することで問題が残されていた。
HOG 法と COV 法では、勾配ベースの特徴量として、エッジ方向および勾配値を計算する 際に、上下左右の 4 個という限られた数の隣接ピクセルの情報だけを使うために、検出に利 用する情報が限定されている。同様に、CS-LBP 法においても、テキスチャベースの特徴量 では、中心画素の値は無視され、テキスチャ情報が考慮されていないために分類を精度良く 行えない。HOT 法においては、8 つのテンプレートを利用しているが、各テンプレートの重 要性は異なるのにそれを無視している。また、各テンプレートでは、中央ピクセルとその隣 接するピクセルの両者の関係だけを考慮し、隣接するピクセル間の情報を無視しているため に、検出精度を低下させている。一方、CS-LBP 法と GLBP 法は、姿勢分類においては非常に 効率的であるが、人物とその背景との間の輝度変化に対して敏感であり、多様な輝度をもつ 画像での人物検出に問題があった。
以上の人物検出の課題に対して、本論文では、強い識別能力をもつアルゴリズムと、リ アルタイムアプリケーションに適した実装方法を提案している。
本論文は、以下の5章で構成されている。
第1章は[Introduction(序論)] であり、物体検出及び人物検出に関して、研究背景 と現在までに開発された手法に関して説明している。
第2章は[Bidirectional Local Template Pattern Method(B-LTP:双方向性ローカルテ ンプレートパターン法)] であり、勾配とテキスチャの両者の特徴量を用い、この2つの特 徴量を最適に組合せた新規手法である。それぞれ1つのピクセルに対して、B-LTP 法は1つ のピクセルに隣接した2つの中心対称のピクセルを加えた3個のピクセルから 4 個のテン プレートを作成する。各ピクセルに対して、テンプレートに基づき新しく提案した夫々3種 類の計算式で求めた勾配値とテキスチャ値を計算し、合計でビンと呼ぶ 48 個の値を求める。
これらの計算式は輝度変化の方向性と勾配を考慮しており、より正確な情報を簡潔に表現す ることで、より尐ない情報で検出精度を高めることが可能となっている。
勾配とテキスチャの両者を用いる方法として、HOT 法と GLBP 法が既に提案されている。
HOT 法は、8 つのテンプレートを採用したが、各テンプレートの計算では、隣接するピ クセル間の情報を無視しているために、検出精度が低下していた。B-LTP 法ではテンプレー トは4つに限るが、各テンプレート内の 3 つのピクセルに対して、中心ピクセルと隣の中心 対称ピクセルの輝度値と勾配値を比較するだけでなく、中心対称ピクセル間もお互いに比較 することで、ピクセル間の輝度と勾配の関連情報を考慮している。この結果、より良い検出 精度が得られることとなった。
GLBP 法は、テンプレートを使わない方法であり、ピクセル間の輝度値と勾配値の変化は 考慮していないために、多様な輝度をもつ画像では検出精度が得られないという問題があっ た。ここで提案する B-LTP 法は輝度値と勾配値の変化を考慮したテンプレートに基づく方法 であるために、より良い結果が得られることとなっている。
更に、特徴量データの次元を各方法で比較すると、64x128 の画像サイズに対して、HOG、
HOT 及び GLBP 法では、夫々3360、3780、5880 となっているのに対し、本文で提案した B-LTP 法では 1008 次元で済み、1/3~1/5 に次元を大幅に削減できたために、計算速度も向上させ ることが可能となっている。
提案手法を INRIA が公開しているデータセットを用いて人物検出を行った(2426 個の学 習データ対して、1019 個のテストデータで評価)。学習手法としては RBF(Radial Basis Function)に基づく非線形 SVM(Support Vector Machine)を用いている。B-LTP 法は 10-3 FPPW
(False Positive Per Window)、10-4 FPPW で、夫々、98.8%、95.3%の検出率が得られた。
同じデータで HOG 法では 95.8%、90.7%、HOT 法では、97.9%、94.0%、 GLBP 法では 97.8%、
93.7%となっており、B-LTP 法は検出率で 0.9%~4.6%の向上が確認された。現在までに提案 された手法に比べて、より良い検出率が得られたことは高く評価できる。
第 3 章は[Non-Redundant Gradient Semantic Local Binary Patterns Method(NRGSLBP:
冗長性のない勾配セマンテック局所2値パターン法)] であり、Y.Mu により提案された SLBP 法(CVPR 2008)に特徴量の冗長性をなくし、テキスチャに加えて、勾配を導入した新しい 手法を提案している。SLBP 法や GLBP 法では、画面内に同じ輝度変化が起こった場合は異な る特徴量として登録されていたが、本手法では特徴量としては同一として排除することにし ている。この結果、テキスチャの特徴量の次元は半減することが可能となった。また、特徴 量として、テキスチャに勾配を加えることで、環境の輝度変化に対して、敏感に反応しない で、様々な人間姿勢に対しても高い検出率を得ることが可能となっている。
INRIA と Daimler データセット(22404 個の学習データに対して、21792 個のテストデー タ)に対して評価実験を行った。
INRIA データセットで、学習手法として RBF に基づく非線形 SVM を用いた場合、NRGSLBP 法は 10-3 FPPW、10-4 FPPW で、夫々、98.9%、96.9%の検出率が得られた。SLBP 法では、96.5%、
92.0%であり、検出率が向上している。2章で提案している B-LTP 法では、夫々98.8%、95.3%
であり、本提案の NRGSLBP 法で更により良い検出率の結果が得られた。Daimler データセッ トに対しては、NRGSLBP 法は 10-3 FPPW、10-4 FPPW で、夫々、91.6%、75.5%の検出率が得ら れ、SLBP 法では、89.6%、71.0%、B-LTP 法では 86.8%、74.3%となった結果が得られており、
これら両方のデータセットに対しても検出率の向上を図ることができている。
学習手法として、線形 SVM を用いた手法も実験したところ、NRGSLBP 法は INRIA データ セットに対して 10-3 FPPW、10-4 FPPW で夫々98.2%、95.5%、Daimler データセットに対して、
夫々、89.3%、79.4%の検出率が得られており、この値は SLBP 法や B-LTP 法と比較して、1.1%
~10.3%の検出率の向上が図られている。
本文で提案した NRGSLBP 法の検出率は HOG 法、SLBP 法、HOT 法、GLBP 法、B-LTP 法より 高い検出精度が得られており、より有効な手法であると評価できる。
第 4 章は[Multi-scale Extension and Acceleration Methods (マルチスケール拡張と 高速化手法)] であり、複数サイズの画像を用いるマルチスケール法の採用による検出率の 向上と、グラフィックス・プロセッシング・ユニット(GPU)への実装による検出スピード の向上について述べている。
マルチスケール手法には2種類ある。S.Maji(CVPR 2008)、X.Wang(ICCV 2009)によっ て提案されたマルチレベルアルゴリズムは、元のブロックサイズより大きい複数ブロックを 生成し、元のブロックと生成したブロックの両方を特徴抽出に使う方法である。Z.Wei(ICCV 2007)や S.Tang(ICASSP 2010)によって提案されたマルチブロックアルゴリズムは、元画像 をダウンサンプリングし、小さなサイズの画像を生成し、複数の画像に対して特徴抽出して いる。本論文で提案した方法は、ブロックサイズを同一にしてダウンサンプリングを行い、
小さなサイズの画像は作成しない方法であることに特徴がある。2章で提案した B-LTP 法と 3章で提案した NRGSLBP 法に本提案のマルチスケール法を適用し実験を行った結果、原画像 と 1/2 解像度の2つの画像を用いた場合、約 20%の次元の増加で検出率は 2 つの方法ともに、
10-4 FPPW で 97.1%であり、マルチスケールを用いない方法と比べて 4.6%、1.6%向上してい る。3 画像を用いた場合においても、約 25%の次元の増加で、夫々99.1%、97.9%の検出率で あり、6.6%、2.4%向上している。以上、本論文で提案したマルチスケール手法の有効性を確 認しており、高く評価できる。
リアルタイムで検出が可能なシステムを実現するために、提案したアルゴリズムを GPU に実装し、高速化を図っている。計算環境として、CPU はクアッドコアインテル Core i7 を、
また GPU は 1536 コアを搭載した NVIDIA(GeForce GTX680)のグラフィックスカードを用い ている。特徴抽出処理において、特徴量のブロックサイズが 16×16(256)である場合、256 個のスレッドを持つスレッドブロックを 6 個用意し、最大で 1536 個の並列計算が可能な計 算環境となっている。B-LTP 法を 640x480 の画像サイズで実験したところ、CPU では 13.3 秒かかったものが、GPU では 29.49 ミリ秒と、約 450 倍の高速化が図れ、リアルタイムに人 物検出が可能となり、実用面での有効性を確認できている。
第 5 章は[Conclusion(結論)] であり、本論文の研究成果と今後の課題を述べている。
人物検出という従来から取り組まれてきた課題であるが、本論文は B-LTP と NRGSLBP いう新 手法を考案し、現在までに提案された様々な方法と比べて検出率の向上を図ったことは学術 的にも実用的も高く評価できる。
よって本論文は博士(工学)の学位論文として価値あるものと認める。
2014 年 7 月 29 日 審査員
主 査 早稲田大学教授 工学博士(早稲田大学) 後藤 敏 早稲田大学教授 博士(工学)(大阪大学) 吉村 猛
早稲田大学教授 工学博士(京都大学) 木村 晋二 早稲田大学教授 工学博士(早稲田大学) 松山 泰男 Ph.D(スタンフォード大学)