照明変化を伴う顔認識

全文

(1)社団法人情報処理学会研究報告 IPSJ SIG Technical Report. 2003−CVIM−139 (10) 2003／7／4. 照明変化を伴う顔認識岡部孝弘. 佐藤洋一. 東京大学生産技術研究所〒 153–8505 東京都目黒区駒場 4–6–1 E-mail: takahiro, ysato@iis.u-tokyo.ac.jp あらまし：照明変化を伴う顔認識の問題について，近年の研究動向をまとめるとともに，我々が取り組んできた二つのアプローチを紹介する．一つは，全画素値を入力としてパターン認識の手法を適用する，見え方に基づく手法（ appearance-based methods ）である．我々は，照明変化に伴う画像の変化を考慮したうえでサポートベクターマシンを適用し，多様な照明条件下の学習画像が与えられた場合に有効となる簡便な手法を提案した．もう一つは，Lambert モデルを仮定して任意照明下の画像を合成することで認識を行う，生成的手法（ generative methods ）である．提案手法では，ランダムサンプルコンセンサスを利用して，テスト画像に含まれる鏡面反射成分や cast shadow などの外れ値に対してロバストな顔認識を実現した．. Face Recognition under Varying Illumination Conditions Takahiro OKABE. Yoichi SATO. Institute of Industrial Science, University of Tokyo Komaba 4–6–1, Meguro-ku, Tokyo, 153–8505 Japan E-mail: takahiro, ysato@iis.u-tokyo.ac.jp Abstract：We summarize progress in face recognition under varying illumination conditions, and report two methods we proposed recently. One is an appearance-based method that uses all pixel values as inputs and applies algorithm of pattern recognition. We take account of properties of illumination cone, and propose a method using support vector machines. Our method is simple but effective when a variety of training images are prepared. The other is a generative method that generates a set of images of an object under varying illumination conditions assuming the Lambertian model. We utilize random sample consensus, and realize a robust method against outliers such as specular reflection components and cast shadows in test images.. 本稿では，照明変化を伴う顔認識の問題について，近年の研究動向をまとめるとともに，我々が取り組コンピュータビジョンに基づく顔の認識には，顔んできた二つの異なるアプローチを紹介する．の姿勢や視点位置などの変化により生じる幾何学的一つは，画像の全画素値を入力としてパターン認識問題と，照明条件などの変化により生じる光学的問の手法を適用する，見え方に基づく手法である．提案題がある．本稿では，光学的問題に着目し，姿勢お手法では，照明変化に伴う画像の変化を考慮したうえよび視点位置一定の条件下で照明のみが変化する場でサポートベクターマシン（ Support Vector Machine: 合の顔認識について議論する． SVM ）を適用し，多様な照明条件下の学習画像が与照明変化にロバストな顔認識は，照明条件を制御えられた場合に有効となる簡便な手法を実現していできない実世界環境などにおいて必須の技術であり，る [27] ．近年その需要が高まりつつある．しかしながら，照もう一つは，Lambert モデルを仮定して少数の学明変化に伴う見えの変化は個人差による見えの変化習画像から任意照明下の画像を合成することで認識よりも大きいため [21] ，照明変化にロバストな顔認を行う，生成的手法である．光学的アラインメント識の実現は容易ではなく，現在も盛んに研究が行わ（ photometric alignment ）に基づく提案手法は，ランれている．ダムサンプルコンセンサス（ RANdom SAmple Con-. 1 まえがき. −69− 1.

(2) sensus: RANSAC ）を利用し，テスト画像に含まれる鏡面反射成分や cast shadow などの外れ値に対してロバストな顔認識を実現している [28] ．本稿の構成は以下の通りである．まず，第 2 節で近年の研究動向をまとめる．第 3 節では，見え方に基づく手法の枠組みで SVM を用いた提案手法について，研究の背景や実験結果なども含めて紹介する．第 4 節では，生成的手法の枠組みで鏡面反射成分や cast shadow を考慮した提案手法にてついて同様に述べ，第 5 節で結ぶ．. 2 関連研究照明変化を伴う顔認識に関する研究は，特徴に基づく手法（ feature-based methods ），見え方に基づく手法，生成的手法の 3 つのアプローチに大別される．特徴に基づく手法では，照明変化に対して不変な特徴，または，照明変化の影響を受けにくい特徴を用いて認識を行う．従来，エッジやコーナーなどの照明変化の影響を比較的受けにくい特徴が利用されてきたが，これらの特徴は，常に安定して抽出できるとは限らない．また，ローカルな情報を利用することで，識別に有効な情報を損失する可能性もある [8]．これに対して，Shashua ら [38] は，顔形状の類似性に基づいて顔表面のアルビドを推定し，顔認識および顔画像合成に利用している．また，Chen ら [9] は，点光源下の Lambert 物体について，画像の勾配ベクトルの方向が照明変化の影響を受けにくい特徴であることを示し，その顔認識への有効性を実験的に確認している．一方，見え方に基づく手法では，画像の全画素値を入力としてパターン認識の手法を適用する．つまり，パターン認識の手法に基づいて，識別に有効な特徴も抽出する．見え方に基づく手法は，照明や姿勢などの変化を伴う顔認識に有効であることが示されており，例えば，Turk ら [40] が提案した固有顔では，主成分分析を用いて画像を圧縮し，効率の良い顔認識を実現している．また，Murase ら [23] は，照明や姿勢のパラメトリックな変化に伴う見えの変化を固有空間中の多様体で表現する，パラメトリック固有空間法と呼ばれる手法を提案している．Belhumeur ら [3] は，照明変化に伴う顔画像の変化が低次元部分空間で表現できることに基づいて，多重判別分析を用いて画像を圧縮する Fisherfaces と呼ばれる手法を提案し，個人差を強調する多重判別分析が主成分分析よりも有効であることを実験的に示している．これらの見え方に基づく手法は，見えのみに基づいた簡便な手法であるが，見えを生成する物理過程を考慮していない．そのため，ある照明条件下の画像を認識するには，あらかじめ同様の照明条件下で撮影した学習画像が必要になるという弱点がある． Shakunaga ら [36] は，照明変化により生じる画像集合を線形変換で仮想的に生成することにより，この弱点をある程度緩和している．近年特に盛んに研究が行われている生成的手法では，少数の学習画像から，照明変化によって生じる. 画像集合を生成して認識を行う．点光源からの一次反射に限定すると，画像に含まれる成分は，拡散反射成分，鏡面反射成分，attached shadow（陰），cast shadow（影）の 4 つに分類される [37] ．生成的手法では，拡散反射の理想的なモデルである Lambert モデルを仮定して，任意照明下の拡散反射成分や attached shadow などを生成する．したがって，テスト画像の照明条件が学習画像と大きく異なる場合にも有効であるという特長がある． Shashua[37] は，3 枚の基底画像を用いて拡散反射成分と attached shadow を表現する，光学的アラインメントと呼ばれる手法を提案した．特に，画像が拡散反射成分のみで構成される場合には，Lambert モデルの仮定から，ある物体が任意照明下でとり得る画像が，画像空間内の 3 次元部分空間に拘束されることを示した．この 3 次元部分空間とテスト画像との距離に基づく認識手法は，鏡面反射成分，attached shadow，および cast shadow の寄与が小さい画像に対して有効であることが示されている [15, 14] ．本稿では，この手法を照明部分空間法（ linear subspace method ）と呼ぶ．一般に，ある物体が任意照明下でとり得る画像集合は，画像空間において原点を頂点とする凸錐（ convex cone ）を形成し，これは照明錐（ illumination cone ）と呼ばれている [4]．特に，画像が拡散反射成分と attached shadow で構成される場合，つまり，凸物体かつ Lambert モデルを仮定した場合に，Belhumeur ら [4] は，照明錐が 3 枚の基底画像から生成される境界画像（ extreme image ）の凸結合で表現されることを示した．照明錐とテスト画像との距離に基づく認識手法は，attached shadow の寄与が大きい画像に対しても有効であることが示されている [15, 14] ．照明錐モデルは，attached shadow を表現できる点で，照明部分空間法よりも優れている．ところが，照明錐を表現するには，物体表面の互いに異なる法線ベクトルの数の二乗のオーダーの境界画像を必要とするため，実用上問題がある．これを受けて，拡散反射成分と attached shadow を，少数の画像を用いて効率よく表現する認識手法の研究が行われている．その一つは，照明錐を少数の画像で近似的に表現しようとする試みである．実画像を用いた実験から，様々な照明下の顔画像は，少数の画像の線形結合で効率よく表現できることが知られており [16] ，照明錐モデルにおいても，主成分分析を用いて照明錐を近似的に表現することで効率化を図っていた [15, 14] ．さらに，Basri ら [1] と Ramamoorthi ら [32, 31] は，球面調和関数を用いた周波数空間での解析から，理論的にも，4 枚から 9 枚の基底画像の線形結合で，照明錐を効率よく近似できることを示した．9 枚の基底画像の張る部分空間とテスト画像との距離に基づく認識手法は，照明錐モデルと同程度の認識性能を持つことが示されている [19, 17] ．但し，これらの基底画像は低周波の球面調和関数照明下の画像に対応しているため，基底画像を得るには，形状とアルビドを推定して合成するか [1]，特殊な方向に置かれた点光源下の画像を近似的に用いる必要があった [19, 17] ．. 2 −70−.

(3) これに対して Sato ら [34] は，サンプリング定理に基づいて，点光源下で撮影した画像の線形結合で基底画像を表現している．もう一つの試みは，照明部分空間法の改良である．凸物体の周りにランダムに分布する複数の点光源を考えると，法線ベクトルが類似の物体表面は類似の点光源集合に照らされる．Batur ら [2] は，この点に着目し，画像を法線ベクトルが類似の画素からなる小画像に分割して各小画像について照明部分空間法を適用する，分割照明部分空間法（ segmented linear subspace method ）を提案している．この手法もまた，画像を適切に分割すれば，照明錐モデルと同程度の認識性能を持つことが報告されている．しかしながら，これらの生成的手法にも共通の弱点がある．まず，生成的手法では Lambert モデルを仮定しているために，鏡面反射成分を表現することができない．また，顔の形状を復元することで [6, 43] ，照明錐モデルの枠組みで cast shadow を扱う試みもなされているが [15, 14] ，任意照明下の cast shadow を正確に表現するのは困難であることが指摘されている [26] ．さらに，低周波の球面調和関数を用いて照明錐を近似的に表現する場合にも，cast shadow を生じる遮蔽が高周波であるために，cast shadow の近似は十分ではない [25] ．したがって，生成的手法は，鏡面反射成分や cast shadow が支配的な画像の認識には適さない．. 3 見え方に基づくアプローチ. IC1. ‫غ‬. IC1. 1. ‫غ‬ ‫غ‬ ‫غ‬ ‫غ‬. P IC2. IC2. ٤ ٤ ٤ ٤ ٤. O. O. image space. image space. 1. Figure 1: Separable illumination cones: discriminant hyperplane determined by training patterns (left) and ideal one considering properties of convex cone (right).. ٨ ‫ع‬ ٨. ٨. ‫ع‬. ٨ ٨. ٨. ‫ع‬ ‫ع‬ ‫ع‬. ٨. ‫ع‬. ‫ع‬. Figure 2: Training patterns in the normalized image space and the hyperplane bisecting the closest points in two convex hulls.. 3.1 背景と動機示した Pontil ら [30] の研究と相補的に，照明変化を物体姿勢および視点位置一定の条件下で照明のみ伴う物体認識に対しても SVM が有効であることをが変化する場合の画像の変化は，重ね合わせの原理示すことにある．が成り立つことを仮定すると，照明錐と呼ばれる，画像空間の原点を通る凸錐に拘束されることが知られ 3.2 提案手法ている [4]．ここでいう重ね合わせの原理は，二つの照明錐の次元は物体表面の互いに異なる法線ベク点光源下で撮影された画像が，個々の点光源下で撮トルの数に等しいことが示されているが [4]，理論影された二枚の画像の和で表現されることを意味す [1, 32, 33, 31] と実験 [16] の両面から，その体積の大る．ところが，従来の見え方に基づく手法では，照部分は低次元部分空間に集中しており，照明錐を低明変化に伴う画像の変化が照明錐に拘束されること次元部分空間で近似的に表現できることが示されては十分に考慮されていなかった．いる．したがって，各物体に対応する照明錐が，例そこで本研究では，見え方に基づく手法の枠組みえば数千次元の画像空間内の低次元部分空間に独立で，照明錐を考慮した認識手法を提案する．具体的に分布していると仮定すると，個々の照明錐はほとには，各物体に対応する照明錐が交わりを持たないんど交わりを持たないことが期待される．そこで以場合に任意の二つの照明錐が原点を通る超平面によ後，各物体に対応する照明錐が交わりを持たないとり分離されること，および，画像を正規化すること仮定する．で明るさの変化の影響を吸収できることから，正規各物体に対応する照明錐が交わりを持たないと仮化画像空間において線形識別面を用いた 2 クラス判定すると，照明錐が画像空間の原点を頂点とする凸別を組み合わせて認識を行う．錐であることから，任意の二つの照明錐 IC1，IC2 は，照明錐を分離する線形識別面を求めるための方法画像空間の原点を通る超平面により分離される [3, 4] として，二つの手法を，顔画像データベース Yale Face （ Figure 1 ）．一方，個々の照明錐が交わりを持たな Database B[14] を用いて実験的に比較した．一つは，いとしても，ある照明錐と他の全ての照明錐が線形フィッシャーの線形判別法 [13, 11] で，学習パターン分離可能である保証はない．したがって，照明変化の分布全体を考慮して識別面を決定する代表的な手を伴う物体認識の問題は，画像空間において原点を法である．もう一つは，識別境界付近の学習パター通る線形識別面（ Figure 1 では直線 OP ）を用いた 2 ンに着目する SVM[41, 10] である．本研究の主題は，クラス判別問題の組み合わせに帰着する．姿勢変化を伴う物体認識に対して SVM の有効性を. −71− 3.

(4) Table 1: Extrapolation of illumination direction: NN, EF, FLD, SVM stand for nearest-neighbor rule, eigenfaces, Fisher’s linear discriminant, and support vector machine respectively. Index, 1 or 2, attached to each algorithm represents the feature space, the image space or the normalized image space. Figure 3: Cropped images of 10 individuals.. Subset1. Subset2. Subset3. Subset4. Method NN-1 NN-2 EF-1 EF-2 FLD-1 FLD-2 SVM-1 SVM-2. Subset5. Figure 4: Images of an individual belonging to each subset: the angle between the light source direction and the optical axis lie Æ Æ , Æ Æ , Æ Æ , Æ Æ Æ Æ . , and respectively.. 顔画像データベース Yale Face Database B は，10 名の顔を，9 つの姿勢で，64 方向の点光源および環境光の下で撮影した 5850 枚の画像からなる．各画像は，点光源の方向とカメラの光軸のなす角度に基づいて，5 つの部分集合のいずれかに分類されている．評価実験には，正面方向を向いている 650 枚の画像から，両目の座標が等しくなるように切り出した

(5)

(6) ピクセルの画像を用いた．Figure 3 に，10 名の顔画像の例を示す．また，Figure 4 に示した各部分集合に属する画像の例から，同一人物であっても，光源の方向に依存して画像が大きく変化しているのを確認することができる．. 5 85.2 77.2 86.2 78.8 85.7 88.9 87.3 88.4. Table 2: Interpolation of illumination direction. Method NN-1 NN-2 EF-1 EF-2 FLD-1 FLD-2 SVM-1 SVM-2. これを，ノルムで明るさを正規化した正規化画像空間 [36] でみると，照明錐の正規化画像空間（超平面）による断面が凸になることから，任意の二つの照明錐の断面は正規化画像空間における線形識別面（ Figure 1 では点 P ）により分離される．したがって，照明変化を伴う物体認識の問題は，正規化画像空間において線形識別面を用いた 2 クラス判別の組み合わせに帰着する．重ね合わせの原理を仮定すると，ある物体の学習画像の凸結合もまたその物体の画像になり得る．したがって，正規化画像空間における識別面は，学習画像ではなく，学習画像の凸結合，つまり，凸包から決まると考えるのが自然である．SVM によって得られる線形識別面は，二つの凸包の最近接点を 2 等分する超平面（ Figure 2 ）であることが知られている [5]．つまり，幾何学的な観点からは，SVM は重ね合わせの原理と調和した手法であると言える．. 3.3 評価実験. Error rate (%): extrapolation Dimension 2 3 4 4096 5.1 50.8 81.2 4095 0 7.6 56.5 4096 5 25.4 72.9 84.8 4095 5 7.6 47.5 73.2 4096 5 4.2 37.3 71.7 4095 5 0 13.6 60.9 4096 2.5 22.9 75.4 4095 0 0 36.2. Error rate (%): interpolation Dimension 2 3 4096 5.1 44.9 4095 0 8.5 4096 24 6.8 55.1 4095 24 18.6 67.8 4096 24 1.7 15.3 4095 24 5.1 23.7 4096 0.8 11.0 4095 0 0. 4 16.7 13.8 32.6 51.4 17.4 40.6 8.0 4.3. 以下に示す 4 つの手法を用いた実験を行った．. 最近傍決定則 (NN) 固有顔 (EF) フィッシャーの線形判別法 (FLD) サポートベクターマシン (SVM) 固有顔では，予備実験で定めた次元に画像を圧縮したのち，最近傍決定則を用いて識別した．フィッシャーの線形判別法においても，同様に画像を圧縮したのち，クラス内変動・クラス間変動比を最大にする識別面を求めた．フィッシャーの線形判別法と SVM における 2 クラス判別の組み合わせ方法としては，トーナメントルールを採用した．また，SVM についてはライブラリ [35] を利用した．以上の 4 つの手法について，

(7)

(8)

(9) 個の全画素値を特徴とした場合と正規化画像の全画素値を特徴とした場合の二通り，合計 8 通りの実験を行った． Table 1 に，各人物の学習画像として部分集合 1 に属する 7 枚を用い，部分集合 2 から 5 までの画像を. −72− 4.

(10) テスト画像とした，光源方向の外挿に関する実験結果を示す．ここで各手法に付けられた番号は，1 が画像の全画素値を特徴とし，2 が正規化画像の全画素値を特徴として用いたことを示している．したがって，FLD-2 と SVM-2 が凸錐の性質を考慮した手法である．まず，全体的な傾向として，部分集合 5 に対する誤識別率は，いずれの手法でもランダムに識別したときの誤識別率 (90) に近く，見え方に基づくこれらの手法が破綻していることがわかる．次に，FLD-1 と FLD-2 および SVM-1 と SVM-2 を比較すると，正規化画像を用いることで，認識性能が大幅に改善されているのを確認できる．これは，FLD-2 と SVM-2 が照明錐を考慮しているのに対して，FLD-1 と SVM-1 では，照明錐を反映した画像空間の原点を通る線形識別面が得られるとは限らないためであると考えられる．また，SVM-2 は，FLD-2 や他の手法よりも優れている．以上のことから，照明方向の外挿に関して，照明錐の性質を考慮した SVM が有効であることがわかる．次に，各人物の学習画像として部分集合 1 と部分集合 5 に属する 26 枚を用い，部分集合 2 から 4 までの画像をテスト画像とした，光源方向の内挿に関する実験結果を示す（ Table 2 ）．この場合にも，照明錐を考慮した SVM が有効であることを確認することができる．さらに，SVM-2 の性能は生成的手法 [14, 19, 17, 28] に匹敵しており，多様な照明条件下の学習画像が与えられた場合には，照明変化に伴う見えのモデリングが必ずしも必要ではないことを示している．これに関連して，Lee ら [19] と Ho ら [17] は，点光源下で顔画像を撮影する場合に，照明錐を近似的に表現するのに適した点光源の方向について議論している．また，Sato ら [34] は，点光源下の画像を用いる場合に，照明錐を近似する 9 次元部分空間を表現するのに必要なサンプリング密度について議論している．興味深いことに，光源方向の外挿の場合と異なり， EF と FLD において，正規化画像を特徴とすることで誤識別率が上昇している．実験で用いた画像は明るさがほぼ一定で方向のみが異なる光源下で撮影されているため，画像を表すベクトルのノルムは顔表面の反射率を反映している．そのため，次元の圧縮によりノルムの差が強調され，認識に有効に働いた可能性がある．本稿では，姿勢一定の条件下で行った実験結果のみを紹介したが，照明変化だけでなく微小な姿勢変化を伴う場合にも，照明錐を考慮した SVM が有効であることを確認している [27] ．. 4 生成的アプローチ 4.1 背景と動機. ある．ところが，学習画像およびテスト画像には，一般に，Lambert モデルでは表現できない鏡面反射成分や cast shadow などの外れ値が含まれている．したがって，学習と認識の両方の過程で，これらの外れ値を考慮する必要がある．上述の二つの要素のうち学習過程は，異なる照明下で撮影された画像から形状やアルビドを推定する照度差ステレオ [42] の問題である．拡散反射以外の成分を含む学習画像からのモデリング手法は，物体認識や画像合成などの様々な分野で提案されている． Georghiades ら [15] と Yuille ら [43] は，外れ値を考慮した特異値分解（ Singular Value Decomposition with Missing Data: SVDMD ）[39] に基づく手法，SVDMD と可積分条件による拘束を組み合わせた手法を提案している．また，Mukaigawa ら [22] と石井ら [18] は，投票に基づく手法，RANSAC[12] を利用した手法を提案している．さらに，Nakashima ら [24] は，運動物体の画像列からの推定法を提案している．一方，認識過程における外れ値の影響はこれまで考慮されていなかった [14, 19, 17] ．Black ら [7] と Leonardis ら [20] は，オクルージョンなどに対してロバストな固有空間への投影法を提案しているが，鏡面反射成分や cast shadow などの反射成分に関しては十分に検討していない．そこで本研究では，3 枚の基底画像を用いて点光源下の拡散反射成分と attached shadow を表現する光学的アラインメント [37] を例に，認識過程における外れ値の処理について議論する．本研究の主題は，学習過程 [18, 24] で利用されている RANSAC が，認識過程においても有効であることを示すことにある．. 4.2 提案手法光学的アラインメントによると，点光源下の拡散反射成分は，3 枚の基底画像の線形結合で表現される．このとき，線形結合で表される画素値が負になる画素は attached shadow に対応していることから，負の画素値を 0 に置き換えることで attached shadow も表現することができる．基底画像のクラスとテスト画像のクラスが一致する場合には，光学的アラインメントにより，テスト画像の拡散反射成分と attached shadow を再現することができる．特に，凸物体かつ Lambert モデルが成り立つ場合にには，テスト画像は完全に再現される．一方，基底画像とテスト画像のクラスが異なる場合には，テスト画像を再現するのは困難であることが予想される．そこで提案手法では，RANSAC を利用してテスト画像の拡散反射成分と attached shadow を最も多く再現するような線形結合係数を求め，再現できた画素数に基づいて識別を行う． RANSAC を利用した提案手法の具体的な手順を示す．まず，各クラスについて，以下の手順で再現できた画素数を求める．. Lambert モデルを仮定して任意照明下の拡散反射成分と attached shadow などを生成して認識を行う生成的手法には，形状やアルビドなどのモデルの獲得（学習）とテスト画像の再現（認識）の二つの要素が. −73− 5. 1. 線形結合係数の算出ランダムに選択した 3 画素が拡散反射成分に対応していると仮定して，結合係数 .

(11) . . を算出する．. 2. 画像合成とラベル付け 3 枚の基底画像と手順 (1) で算出した結合係数から，次のように拡散反射成分と attached shadow で構成される画像を合成する． . . . . . . . Figure 5: Three basis images of an individual.. . ここでは番目の基底画像の番目の画素値である．さらに，テスト画像と合成画像の画素値の誤差が閾値以下の画素は再現できているとみなして，各画素にラベル. . . . . .

(12)

(13)

(14) . (a). (b). (d). (c). (e). . を付ける．ここではテスト画像の番目の画素値である．閾値

(15) は，拡散反射成分の Lambert モデルからの微小なずれ [29] などに依存する．. 3. 再現できた画素の数え上げ再現できた画素（ inlier ）の総数を

(16) と定義して，数え上げる．. . . 4. 手順 (1) から (3) の反復手順 (1) から (3) までを繰り返し，

(17) を最大にする結合係数を求める． 5. 最小二乗法による結合係数の更新拡散反射成分に対応していると考えられる画素に対して最小二乗法を適用し，結合係数を更新する．具体的には，重み . . .

(18)

(19)

(20) . . . . . を与え，評価関数. . . . . . . . を最小とする結合係数する．. . . . . . . を推定. 6. 画像合成とラベル付け更新された結合係数に対して，手順 (2) の画像合成とラベル付けを行う． 7. 手順 (5) と (6) の反復手順 (5) と (6) を，ラベルが収束するまで繰り返す．. 最後に，各クラスの

(21) を比較して，

(22) を最大とするクラスにテスト画像を分類する．. 4.3 評価実験. . . Figure 6: Recognition process: (a) a test image, (b) an image synthesized from three basis images of the same person, (c) an image synthesized from those of different person. White pixels in images (d) and (e) represent locations where the difference between the test image and the synthesized image is larger than the threshold

(23) .. 評価実験には Yale Face Database B を利用し，正面方向を向いている 650 枚の画像から両目の座標が等しくなるように切り出した

(24)

(25) ピクセルの画像を用いた．各人物の基底画像は，画素値に基づいて鏡面反射成分，attached shadow ，および cast shadow を除去したうえで特異値分解を適用する，SVDMD に基づく手法 [15] を利用して，部分集合 1 に属する 7 枚の画像から求めた．Figure 5 に，推定した基底画像の一例を示す．また，得られた基底画像から学習画像を合成して閾値

(26) を決定した．以下に示す 3 つの手法を用いた認識実験を行った．. 照明部分空間法（ LS ）射影を用いた光学的アラインメント（ PA1 ）. . . 8. 再現できた画素数の数え上げ得られたラベルから

(27) を求める．. RANSAC を用いた光学的アラインメント（ PA2 ）照明部分空間法では，基底画像の張る 3 次元部分空間とテスト画像との距離が最小となるクラスに分類. −74− 6.

(28) Table 3: Recognition error rates (%): LS, PA1, PA2, IC, 9PL, 9PL’, SLS stand for linear subspace method, photometric alignment using projection, photometric alignment using RANSAC, illumination cone model, nine points of light, another nine points of light, and segmented linear subspace method. Method LS PA1 PA2 IC [14] 9PL [19] 9PL’ [17] SLS [2]. Error rate (%) Subset2 Subset3 Subset4 0 0 5.8 0 0 0.7 0 0 0 0 0 8.6 0 0 2.8 0 0.7 1.4 0 0 0. Subset5 55.6 39.7 18.5 — — — —. した．射影を用いた光学的アラインメントでは，基底画像の張る 3 次元部分空間にテスト画像を射影して線形結合係数を求め，光学的アラインメントに基づいて合成した画像とテスト画像との距離が最小のクラスに分類した．RANSAC を用いた光学的アラインメントについては，前節で述べた通りである．提案手法（ PA2 ）の処理過程を Figure 6 に示す．テスト画像 (a) に対して，同一人物の基底画像から合成した画像 (b) と，他の人物の基底画像から合成した画像 (c) を示した．各合成画像について，テスト画像との誤差が閾値

(29) よりも大きい画素を白く表示したものが，(d) と (e) である．同一人物の基底画像から合成した画像が，鼻や目頭の cast shadow および額のハイライトを除いてほぼ再現できているのに対して，他の人物の基底画像から合成した画像は，目，鼻，口の周辺を中心として，比較的広い範囲で再現に失敗していることがわかる．上記の 3 つの手法について，各部分集合に対する誤識別率を示した（ Table 3 ）．実験結果から，拡散反射成分しか表現することのできない照明部分空間法（ LS ）と比較して，拡散反射成分だけでなく attached shadow も生成できる光学的アラインメントに基づく手法（ PA1，PA2 ）が優れていることがわかる．また，同じ光学的アラインメントに基づく認識手法でも，結合係数の推定に RANSAC を用いた提案手法が，射影を用いた手法よりも優れているのを確認することができる．しかしながら，提案手法にも，鏡面反射成分と cast shadow を生成することができないという弱点がある．部分集合 5 に対する誤識別は，鏡面反射成分や cast shadow が原因であると考えられる． Table 3 には，他の論文で報告されている結果も示した．なお，部分集合 5 に対する誤識別率は，他の論文では報告されていない．各実験で実際に使用している画像の切り出し方や解像度が若干異なるために，結果を単純に比較することはできないが，提案手法は，大量の境界画像を必要とする照明錐モデル. [14] ，特殊な方向の点光源下の画像に対応する 9 枚の合成画像を用いた認識手法 [19, 17] ，基底画像の適切な分割を必要とする分割照明部分空間法 [2] と比較して，同程度かそれ以上の認識性能を持つと考えられる．. 5 むすび本稿では，照明変化を伴う顔認識の問題について，近年の研究動向をまとめたうえで，我々が取り組んできた二つのアプローチを紹介した．見え方に基づく手法の枠組みでは，照明錐の性質を考慮したうえでサポートベクターマシンを適用し，多様な照明条件下の学習画像が与えられた場合に有効となる簡便な手法を提案した．本研究では顔画像を用いた評価実験を行ったが，提案手法は，Lambert モデルを仮定していないために，生成的手法では扱えないような物体にも適用できる．様々な反射特性を持つ物体への提案手法の適用とその有効性の検証は今後の課題としたい．一方，光学的アラインメントに基づく生成的手法では，RANSAC を利用し，テスト画像に含まれる鏡面反射成分や cast shadow などの外れ値に対してロバストな顔認識を実現した．今後の課題として，まず，単一点光源を仮定した提案手法の複雑光源への拡張が挙げられる．また，照明変化だけでなく姿勢変化も伴う物体認識への拡張，または，姿勢推定との融合についても検討したい．本研究では鏡面反射成分と cast shadow を外れ値とみなしたが，逆に，これらの成分を効率よくモデル化して積極的に利用することも考えたい．謝辞本研究では，顔画像データベース Yale Face Database B[14] ，および，SVM のライブラリ [35] を利用した．本研究の一部は，文部科学省科学研究費（ 2）「人間の意図・行動理補助金特定領域研究（ C ）解に基づく柔軟なヒューマン・マシン・インタラクションの実現」（課題番号：13224051 ）の助成により行われた．. References [1] R. Basri and D. Jacobs, “Lambertian reflectance and linear subspaces”, IEEE Trans. PAMI, 25(2), pp.218–233, 2003. [2] A. Batur and M. Hayes, “Linear subspaces for illumination robust face recognition”, In Proc. IEEE CVPR 2001, 2, pp.296– 301, 2001. [3] P. Belhumeur, J. Hespanha, and D. Kriegman, “Eigenfaces vs. Fisherfaces: recognition using class specific linear projection”, IEEE Trans. PAMI, 19(7), pp.711–720, 1997. [4] P. Belhumeur and D. Kriegman, “What is the set of images of an object under all possible lighting conditions?”, Int’l. J. Computer Vision, 28(3), pp.245–260, 1998. [5] K. Bennett and E. Bredensteiner, “Duality and geometry in SVM classifiers”, In Proc. Int’l. Conf. Machine Learning (ICML 2000), pp.65–72, 2000.. 7 −75−.

(30) [6] P. Belhumeur, D. Kriegman, and A. Yuille, “The bas-relief ambiguity”, In Proc. IEEE CVPR ’97, pp.1060–1066, 1997. [7] M. Black and A. Jepson, “Eigen tracking: robust matching and tracking of articulated objects using a view-based representation”, In Proc. ECCV ’96, pp.329–342, 1996. [8] R. Brunelli and T. Poggio, “Face recognition: features versus templates”, IEEE Trans. PAMI, 15(10), pp.1042–1052, 1993. [9] H. Chen, P. Belhumeur, and D. Jacobs, “In search of illumination invariants”, In Proc. IEEE CVPR 2000, pp.254–261, 2000. [10] N. Cristianini and J. Shawe-Taylor, An introduction to support vector machine and other kernel-based learning methods, Cambridge University Press, Cambridge, 2000. [11] R. Duda, P. Hart, and D. Stork, Pattern classification, John Wiley & Sons, New York, 2001. [12] M. Fischler and R. Bolles, “Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography”, Communications of the ACM, 24(6), pp.381–395, 1981. [13] K. Fukunaga, Introduction to statistical pattern recognition, Academic Press, 1990. [14] A. Georghiades, P. Belhumeur, and D. Kriegman, “From few to many: illumination cone models for face recognition under variable lighting and pose”, IEEE Trans. PAMI, 23(6), pp.643– 660, 2001. [15] A. Georghiades, D. Kriegman, and P. Belhumeur, “Illumination cones for recognition under variable lighting: faces”, In Proc. IEEE CVPR ’98, pp.52–58, 1998. [16] P. Hallinan, “A low-dimensional representation of human faces for arbitrary lighting conditions”, In Proc. IEEE CVPR ’94, pp.995–999, 1994. [17] J. Ho, K.-C. Lee, and D. Kriegman, “On reducing the complexity of illumination cones for face recognition”, In Proc. CVPR Workshop on Idetifying Objects Accross Variations in Lighting, 2001. [18] 石井育規, 福井孝太郎, 向川康博, 尺長健, “光学現象の分類に基づく画像の線形化”, 情報処理学会論文誌コンピュータビジョンとイメージメディア , 44(SIG 5), pp.11–21, 2003. [19] K.-C. Lee, J. Ho, and D. Kriegman, “Nine points of light: acquiring subspaces for face recognition under variable lighting”, In Proc. IEEE CVPR 2001, 1, pp.519–526, 2001. [20] A. Leonardis and H. Bischof, “Dealing with occlusions in the eigenspace approach”, In Proc. IEEE CVPR ’96, pp.453–458, 1996. [21] Y. Moses, Y. Adini, and S. Ullman, “Face recognition: the problem of compensating for changes in illumination direction”, In Proc. ECCV ’94, pp.286–296, 1994. [22] Y. Mukaigawa, H. Miyaki, S. Mihashi, and T. Shakunaga, “Photometric image-based rendering for image generation in arbitrary illumination”, In Proc. IEEE ICCV 2001, pp.652– 659, 2001. [23] H. Murase and S. Nayar, “Visual learning and recognition of 3D objects from appearance”, Int’l. J. Computer Vision, 14(1), pp.5–24, 1995. [24] A. Nakashima, A. Maki, and K. Fukui, “Constructing illumination image basis from object motion”, In Proc. ECCV 2002 (LNCS 2352), pp.195–209, 2002.. [26] 岡部孝弘, 佐藤洋一, “キャストシャドウ存在下の照明錐モデルに関する考察”, 情報処理学会研究報告, CVIM 2002-131-20, pp.141–148, 2002. [27] 岡部孝弘, 佐藤洋一, “照明変化をともなう物体認識へのサポートベクターマシンの適用”, 情報処理学会論文誌コンピュータビジョンとイメージメディア , 44(SIG 5), pp.22–29, 2003. [28] T. Okabe and Y. Sato, “Object recognition based on photometric alignment using RANSAC”, to appear in Proc. IEEE CVPR 2003, 2003. [29] M. Oren and S. Nayar, “Generalization of the Lambertian model and implications for machine vision”, Int’l. J. Computer Vision, 14(3), pp.227-251, 1995. [30] M. Pontil and A. Verri, “Support vector machines for 3D object recognition”, IEEE Trans. PAMI, 20(6), pp.637–646, 1998. [31] R. Ramamoorthi, “Analytic PCA construction for theoretical analysis of lighting variability in images of a Lambertian object”, IEEE Trans. PAMI, 24(10), pp.1322–1333, 2002. [32] R. Ramamoorthi and P. Hanrahan, “On the relationship between radiance and irradiance: determining the illumination from images of a convex Lambertian object”, J. Opt. Soc. Am. A, 18(10), pp.2448–2459, 2001. [33] R. Ramamoorthi and P. Hanrahan, “A signal-processing framework for inverse rendering”, In Proc. ACM SIGGRAPH 2001, pp.117–128, 2001. [34] I. Sato, T. Okabe, Y. Sato, and K. Ikeuchi, “Appearance sampling for obtaining a set of basis images for variable illumination”, to appear in Proc. IEEE ICCV 2003, 2003. [35] C. Saunders, M. Stitson, J. Weston, L. Bottou, B. Schoelkopf, and A. Smola, “Support vector machine reference manual”, Technical Report CSD-TR-98-03, Department of Computer Science, Royal Holloway, University of London, Egham, UK, 1998. [36] T. Shakunaga and K. Shigenari, “Decomposed eigenface for face recognition under various lighting conditions”, In Proc. IEEE CVPR 2001, 1, pp.864–871, 2001. [37] A. Shashua, “On photometric issues in 3D visual recognition from a single 2D image”, Int’l. J. Computer Vision, 21(1/2), pp.99–122, 1997. [38] A. Shashua and T. Riklin-Raviv, “The quotient image: classbased re-rendering and recognition with varying illuminations”, IEEE Trans. PAMI, 23(2), pp.129–139, 2001. [39] H.-Y. Shum, K. Ikeuchi, and R. Reddy, “Principal component analysis with missing data and its application to polyhedral object modeling”, IEEE Trans. PAMI, 17(9), pp.854–867, 1995. [40] M. Turk and A. Pentland, “Face recognition using eigenfaces”, In Proc. IEEE CVPR ’91, pp.586–591, 1991. [41] V. Vapnik, Statistical learning theory, John Wiley & Sons, New York, 1998. [42] R. Woodham, “Photometric method for determining surface orientation from multiple images”, Optical Engineering, 19(1), pp.139–144, 1980. [43] A. Yuille, D. Snow, R. Epstein, and P. Belhumeur, “Determining generative models of objects under varying illumination: shape and albedo from multiple images using SVD and integrability”, Int’l. J. Computer Vision, 35(3), pp.203–222, 1999.. [25] 岡部孝弘, 佐藤いまり, 佐藤洋一, 池内克史, “キャストシャドウを用いた光源分布推定：球面調和関数展開に基づく解析”, 画像の認識・理解シンポジウム (MIRU2002) 論文集, 1, pp.461–468, 2002.. −76− 8.

(31)