博士論文審査結果報告書

(1)

早稲田大学大学院情報生産システム研究科

博士論文審査結果報告書

論文題目

Human Detection Algorithm Based on Discriminative Local Feature

申請者 Jiu XU

情報生産システム工学専攻マルチメディアシステム研究

2014 年 9 月

(2)

人物検出問題はコンピュータービジョンの中で最も活発な研究分野の１つであり、ビデオ監視、車の安全運転などの多くの応用に適用されてきた。また、安全・安心社会を目指した人間の行動分析への認識と理解という高度な処理への課題解決の基本問題となっている。人物検出問題は最近の 10 年間、研究が活発に行われてきた。しかし撮影場面での状況や複雑な背景画像、および人間の様々な姿勢や服装により検出精度は影響を受けるため、解決すべき困難な課題が残っている。また、高精度な人物検出には膨大な計算量を必要とするために、

ビデオ監視等で人物検出を実時間（リアルタイム）で行える強い識別能力を備えた特徴抽出アルゴリズムの開発が望まれている。

現在までに、多数の特徴抽出アルゴリズムが提案されてきた。HOG 法（Histogram of Gradient：方向勾配ヒストグラム、N.Dalal: CVPR 2005）と COV 法（Covariance Matrix:

共分散行列、T.Oncel: PAMI 2008）等の勾配ベース法は、勾配情報を利用することで、優れた性能を達成した。また、テキスチャ(画像の模様) ベース法として、LBP 法 (Local Binary Patterns:局所２値パターン、T.Ojala: Pattern Recognition 1996)、 SLBP 法（Semantic Local Binary Patterns:セマンティック局所２値パターン、Y.Mu：CVPR 2008）、CS-LBP 法

（Center Symmetric LBP:中心対称型局所２値パターン、Y.Zheng: ACCV 2010)が提案されている。勾配とテキスチャの両者を用いる方法として、HOT 法（Histogram of Template:テンプレートヒストグラム、S.Tang: ICASSP 2010)と GLBP 法（Gradient LBP：勾配局所２値パターン、N.Jiang: ISCAS 2013)が提案されてきた。しかし、これらの既存方法は、高精度な検出を達成することで問題が残されていた。

HOG 法と COV 法では、勾配ベースの特徴量として、エッジ方向および勾配値を計算する際に、上下左右の 4 個という限られた数の隣接ピクセルの情報だけを使うために、検出に利用する情報が限定されている。同様に、CS-LBP 法においても、テキスチャベースの特徴量では、中心画素の値は無視され、テキスチャ情報が考慮されていないために分類を精度良く行えない。HOT 法においては、8 つのテンプレートを利用しているが、各テンプレートの重要性は異なるのにそれを無視している。また、各テンプレートでは、中央ピクセルとその隣接するピクセルの両者の関係だけを考慮し、隣接するピクセル間の情報を無視しているために、検出精度を低下させている。一方、CS-LBP 法と GLBP 法は、姿勢分類においては非常に効率的であるが、人物とその背景との間の輝度変化に対して敏感であり、多様な輝度をもつ画像での人物検出に問題があった。

以上の人物検出の課題に対して、本論文では、強い識別能力をもつアルゴリズムと、リアルタイムアプリケーションに適した実装方法を提案している。

本論文は、以下の５章で構成されている。

第１章は[Introduction（序論）] であり、物体検出及び人物検出に関して、研究背景と現在までに開発された手法に関して説明している。

第２章は[Bidirectional Local Template Pattern Method（B-LTP:双方向性ローカルテンプレートパターン法）] であり、勾配とテキスチャの両者の特徴量を用い、この２つの特徴量を最適に組合せた新規手法である。それぞれ１つのピクセルに対して、B-LTP 法は１つのピクセルに隣接した２つの中心対称のピクセルを加えた３個のピクセルから 4 個のテンプレートを作成する。各ピクセルに対して、テンプレートに基づき新しく提案した夫々３種類の計算式で求めた勾配値とテキスチャ値を計算し、合計でビンと呼ぶ 48 個の値を求める。

これらの計算式は輝度変化の方向性と勾配を考慮しており、より正確な情報を簡潔に表現することで、より尐ない情報で検出精度を高めることが可能となっている。

(3)

勾配とテキスチャの両者を用いる方法として、HOT 法と GLBP 法が既に提案されている。

HOT 法は、8 つのテンプレートを採用したが、各テンプレートの計算では、隣接するピクセル間の情報を無視しているために、検出精度が低下していた。B-LTP 法ではテンプレートは４つに限るが、各テンプレート内の 3 つのピクセルに対して、中心ピクセルと隣の中心対称ピクセルの輝度値と勾配値を比較するだけでなく、中心対称ピクセル間もお互いに比較することで、ピクセル間の輝度と勾配の関連情報を考慮している。この結果、より良い検出精度が得られることとなった。

GLBP 法は、テンプレートを使わない方法であり、ピクセル間の輝度値と勾配値の変化は考慮していないために、多様な輝度をもつ画像では検出精度が得られないという問題があった。ここで提案する B-LTP 法は輝度値と勾配値の変化を考慮したテンプレートに基づく方法であるために、より良い結果が得られることとなっている。

更に、特徴量データの次元を各方法で比較すると、64ｘ128 の画像サイズに対して、HOG、

HOT 及び GLBP 法では、夫々3360、3780、5880 となっているのに対し、本文で提案した B-LTP 法では 1008 次元で済み、1/3～1/5 に次元を大幅に削減できたために、計算速度も向上させることが可能となっている。

提案手法を INRIA が公開しているデータセットを用いて人物検出を行った（2426 個の学習データ対して、1019 個のテストデータで評価）。学習手法としては RBF(Radial Basis Function)に基づく非線形 SVM(Support Vector Machine)を用いている。B-LTP 法は 10^-3 FPPW

（False Positive Per Window）、10^-4 FPPW で、夫々、98.8％、95.3%の検出率が得られた。

同じデータで HOG 法では 95.8%、90.7%、HOT 法では、97.9%、94.0%、 GLBP 法では 97.8%、

93.7%となっており、B-LTP 法は検出率で 0.9%～4.6%の向上が確認された。現在までに提案された手法に比べて、より良い検出率が得られたことは高く評価できる。

第 3 章は[Non-Redundant Gradient Semantic Local Binary Patterns Method（NRGSLBP:

冗長性のない勾配セマンテック局所２値パターン法）] であり、Y.Mu により提案された SLBP 法（CVPR 2008）に特徴量の冗長性をなくし、テキスチャに加えて、勾配を導入した新しい手法を提案している。SLBP 法や GLBP 法では、画面内に同じ輝度変化が起こった場合は異なる特徴量として登録されていたが、本手法では特徴量としては同一として排除することにしている。この結果、テキスチャの特徴量の次元は半減することが可能となった。また、特徴量として、テキスチャに勾配を加えることで、環境の輝度変化に対して、敏感に反応しないで、様々な人間姿勢に対しても高い検出率を得ることが可能となっている。

INRIA と Daimler データセット（22404 個の学習データに対して、21792 個のテストデータ）に対して評価実験を行った。

INRIA データセットで、学習手法として RBF に基づく非線形 SVM を用いた場合、NRGSLBP 法は 10^-3 FPPW、10^-4 FPPW で、夫々、98.9%、96.9%の検出率が得られた。SLBP 法では、96.5%、

92.0%であり、検出率が向上している。２章で提案している B-LTP 法では、夫々98.8％、95.3%

であり、本提案の NRGSLBP 法で更により良い検出率の結果が得られた。Daimler データセットに対しては、NRGSLBP 法は 10^-3 FPPW、10^-4 FPPW で、夫々、91.6%、75.5%の検出率が得られ、SLBP 法では、89.6%、71.0%、B-LTP 法では 86.8%、74.3%となった結果が得られており、

これら両方のデータセットに対しても検出率の向上を図ることができている。

学習手法として、線形 SVM を用いた手法も実験したところ、NRGSLBP 法は INRIA データセットに対して 10^-3 FPPW、10^-4 FPPW で夫々98.2%、95.5%、Daimler データセットに対して、

夫々、89.3%、79.4%の検出率が得られており、この値は SLBP 法や B-LTP 法と比較して、1.1%

～10.3%の検出率の向上が図られている。

(4)

本文で提案した NRGSLBP 法の検出率は HOG 法、SLBP 法、HOT 法、GLBP 法、B-LTP 法より高い検出精度が得られており、より有効な手法であると評価できる。

第 4 章は[Multi-scale Extension and Acceleration Methods (マルチスケール拡張と高速化手法)] であり、複数サイズの画像を用いるマルチスケール法の採用による検出率の向上と、グラフィックス・プロセッシング・ユニット（GPU）への実装による検出スピードの向上について述べている。

マルチスケール手法には２種類ある。S.Maji(CVPR 2008)、X.Wang（ICCV 2009）によって提案されたマルチレベルアルゴリズムは、元のブロックサイズより大きい複数ブロックを生成し、元のブロックと生成したブロックの両方を特徴抽出に使う方法である。Z.Wei(ICCV 2007)や S.Tang(ICASSP 2010)によって提案されたマルチブロックアルゴリズムは、元画像をダウンサンプリングし、小さなサイズの画像を生成し、複数の画像に対して特徴抽出している。本論文で提案した方法は、ブロックサイズを同一にしてダウンサンプリングを行い、

小さなサイズの画像は作成しない方法であることに特徴がある。２章で提案した B-LTP 法と３章で提案した NRGSLBP 法に本提案のマルチスケール法を適用し実験を行った結果、原画像と 1/2 解像度の２つの画像を用いた場合、約 20%の次元の増加で検出率は 2 つの方法ともに、

10^-4 FPPW で 97.1%であり、マルチスケールを用いない方法と比べて 4.6%、1.6%向上している。3 画像を用いた場合においても、約 25%の次元の増加で、夫々99.1%、97.9%の検出率であり、6.6%、2.4%向上している。以上、本論文で提案したマルチスケール手法の有効性を確認しており、高く評価できる。

リアルタイムで検出が可能なシステムを実現するために、提案したアルゴリズムを GPU に実装し、高速化を図っている。計算環境として、CPU はクアッドコアインテル Core i7 を、

また GPU は 1536 コアを搭載した NVIDIA（GeForce GTX680）のグラフィックスカードを用いている。特徴抽出処理において、特徴量のブロックサイズが 16×16(256)である場合、256 個のスレッドを持つスレッドブロックを 6 個用意し、最大で 1536 個の並列計算が可能な計算環境となっている。B-LTP 法を 640ｘ480 の画像サイズで実験したところ、CPU では 13.3 秒かかったものが、GPU では 29.49 ミリ秒と、約 450 倍の高速化が図れ、リアルタイムに人物検出が可能となり、実用面での有効性を確認できている。

第 5 章は[Conclusion（結論）] であり、本論文の研究成果と今後の課題を述べている。

人物検出という従来から取り組まれてきた課題であるが、本論文は B-LTP と NRGSLBP いう新手法を考案し、現在までに提案された様々な方法と比べて検出率の向上を図ったことは学術的にも実用的も高く評価できる。

よって本論文は博士（工学）の学位論文として価値あるものと認める。

2014 年 7 月 29 日審査員

主査早稲田大学教授工学博士（早稲田大学）後藤敏早稲田大学教授博士(工学)（大阪大学）吉村猛

早稲田大学教授工学博士（京都大学）木村晋二早稲田大学教授工学博士（早稲田大学）松山泰男 Ph.D（スタンフォード大学）

博士論文審査結果報告書

早稲田大学大学院情報生産システム研究科