逐次モンテカルロ法を用いたBayes的顔画像認識
全文
(2) 図2: ガボール・ウェーブレット ( 左 :実 数 部 , 右 :虚 数 部 ) Fig. 2: Gabor wavelet (left: real part, right: imaginary part). 図1: 特徴点の配置(N = 9 ) Fig. 1: Example of node locations x A .. 2 .顔テンプレート 筆 者 ら が 開 発 し た 顔 画 像 認 識 シ ス テ ム [1][2] は , Elastic Graph Matching[3][4]を ベ ー ス と し た 可変テンプレートマッチングを行う.顔テンプ レートは,登録顔画像上に定義した N 個の特徴 点 の 配 置 x A∈ R 2 N と , 各 特 徴 点 に お け る K 個 の方位と R 段階の解像度のガボール・ウェーブ レ ッ ト 係 数 c A ∈ C N K R , お よ び 人 物 ID か ら 構 成される.特徴点配置の具体例を図 1 に示す. システムに登録した各テンプレートと入力画 像上の顔画像との各解像度 r における類似度を 式 (1)で 定 義 す る .. c rA ,c rB r S A,B = 1− α f 1− A B c r cr . − αs . E A,B. (1). λr. 式 (1)の 右 辺 第 2 項 は 特 徴 量 の 類 似 度 を あ ら. €. わす.. < c r A , c r B >は 二 つ の 複 素 ベ ク ト ル c A , c B. の解像度 r に関する成分の内積をあらわし,定 数 λr は 解 像 度 r に お け る ガ ボ ー ル ・ ウ ェ ー ブ レ ットの波長をあらわす.各々のガボール・ウェ ーブレット係数は,2 次元のガボール・ウェー ブレットと,各特徴点の周囲の輝度との畳み込 み 積 分 で あ る . 解 像 度 r, 方 位 n の ガ ボ ー ル ・ ウ ェ ー ブ レ ッ ト は , 式 (2) で 定 義 さ れ る . g nr (x) =. 2 k2 x 2 k r2 − r × exp i k r T x − exp − σ exp 2 (2) 2σ 2 n σ2 . ( ). こ こ で krn は ガ ボ ー ル ・ ウ ェ ー ブ レ ッ ト の 中 心 周 波 数 に あ た る 波 数 ベ ク ト ル で あ り , 式 (3) で定義される.図2にガボール・ウェーブレッ トの例を示す.. cos(nπ K ) 0≤n<K =8 k rn = k r , sin n π R 0≤r<R=5 ) (. (3). E A, B は テ ン プ レ ー ト の 特 徴 点 配 置 x A に 対 す る 入 力 画 像 上 の 特 徴 点 配 置 xB の 変 形 の 度 合 い を 評 価 す る 歪 み エ ネ ル ギ ー で あ る . 式 (1)に お け る αf, αs は , そ れ ぞ れ 特 徴 量 の 類 似 度 , 歪 み エ ネ ルギーの重みであり,経験的に固定された定数 である.可変テンプレートマッチングでは,与 え ら れ た 画 像 に 対 し て パ ラ メ ー タ ー αf, αs を あ る 一 組 の 値 に 固 定 し た 状 態 お い て 式 (1)を 最 大 化 することで,各々の顔テンプレートごとに,対 応する入力画像上での特徴点配置を決定する.. 3. 提 案 手 法 3.1 オ ン ラ イ ン Bayes 推 定 式 (1)の よ う に , 拘 束 条 件 の 項 が 付 い た 評 価 関 数についてのパラメーターの最適化問題は, Bayes 推 定 [5][6]に お け る 事 後 確 率 最 大 化 と 関 連 づけて捉えることができる.本稿では,顔テン プレートに付随するいくつかのパラメーターを 確率変数とみなし,それらの確率分布から,顔 データテンプレートの出現確率(事後確率)を 計算する.事後分布最大を与えるパラメーター 値は多くの場合うまく働くが,事後分布形状が 複雑な場合,1 点のみの推定は破綻する事も少 なくない.本稿で提案する手法は事後分布を 1 点ではなく確率分布サンプルを採取する事によ りより相応しい事後分布とそれに基づく諸統計 量を計算する手法を提案する. 連 続 し た 入 力 画 像 y 1 : n ={y 1 ,y 2 ,...,y n } が 逐 次 的 に与えられる場合について考える.表記の簡略 化 の た め , 以 下 , 特 に こ と わ ら な い 限 り x=x B と お く .式 (1)に お い て ,二 つ の 複 素 ベ ク ト ル c r A , cr B の 類 似 度 を そ れ ら の ノ ル ム で 正 規 化 し た も とでの内積で評価しているが,これは各解像度 r に つ い て の ベ ク ト ル cr B を 指 向 性 デ ー タ と み なすことを意味する.そこで本稿では,指向性 データの自然な生成モデルとして知られている von Mises-Fisher 分 布 [7]を 用 い て n 枚 目 の 入 力 画 像 yn の 尤 度 を 次 式 で 定 義 す る . P(y n | xn , β n,1:R ,Hj )=. € €. 2 −120−. B c rA ,c n,r 1 R 1 expβ r A B ∑ R r=1 Z b (β n,r ) c r c n,r . . (4).
(3) こ こ で , Hj は 仮 定 し た j 番 目 の 顔 テ ン プ レ ー ト で あ り , β n, 1:R ={ β n, 1 ,β n, 2 ,...,β n, R } は , 時 刻 n に おける尤度関数の鋭さを決定するハイパーパラ メ ー タ ー で あ る . Zb は 正 規 化 定 数 で あ り , p 次 の 第 1 種 変 形 ベ ッ セ ル 関 数 Ip を 用 い て 次 式 で 定 義される. (2π ) k 2 I k 2−1 (β ) (5) Z b (β ) = β k 2−1. €. €. 次 の よ う な 予 測 モ デ ル P( α n , β n,1 :R | α n -1 , β を仮定する: log α n = log α n−1 + ν α , ν α ~ N(0, δα ). log β n,r = log β n−1,r + ν β ,. た だ し , k は ベ ク ト ル c r B の 次 元 数 k=2N K である. 入 力 画 像 y が 与 え ら れ る 前 の xn の 予 測 確 率 分 布 は , 筆 者 ら が 行 っ た 予 備 実 験 の 結 果 [8]を ふ まえ,次式で定義する. P(x n | α n ,Tn ,Hj )= € α n −1 1 A t −1 −1 A exp− (Tn (xn ) − x j ) Λ j (Tn (xn ) − x j ) (6) 2 Z a (α n ). (10). ν β ~ N(0, δβ ). なお,対数正規分布を考える理由は,正値性を 保証するためである. € デ ー タ y1 : n が 与 え ら れ た と き j 番 目 の モ デ ル H j の 事 後 確 率 は , Bayes の 定 理 よ り 次 式 に よ っ て再帰的に与えられる. P(y n | y1:n−1 ,Hj )P(Hj | y1:n−1 ) (11) P(Hj | y1:n ) = P(y n | y1:n−1 ) システムは,それまでに観測された入力画像 集 合 y1 : n に つ い て の 事 後 確 率 最 大 を 与 え る モ デ ル H MP を ,時 刻 n に お け る 認 識 結 果 と し て 出 力 する.. (n) (12) HMP = arg max P(H | y1:n ) H こ こ で , Λj は 正 規 特 徴 点 配 置 空 間 上 で の 特 徴 点 配 置 の 共 分 散 行 列 を あ ら わ す . αは 事 前 分 布 式 (11)に あ ら わ れ る H j の 尤 度 は 次 式 で 与 え ら の鋭さを決定するハイパーパラメーターであり, れる. 規 格 化 定 数 Za は 以 下 の 式 で 求 め ら れ る . € P(y n | y1:n−1 ,H j ) det Λ j (7) Z a (α ) = (2π ) N = P(y n | x n , β n,1:R ,Hj )P(x n | α n ,Tn ,H j ) α. ∫. Tn は , 顔 テ ン プ レ ー ト の 特 徴 点 配 置 xjA が 張 る空間(以下,正規特徴点配置空間と呼ぶ)か €ら , 入 力 画 像 上 の 特 徴 点 配 置 x n が 張 る 空 間 へ の写像をあらわす. Tn : x A a x n , rn cos θ n rn sinθ n Tn ( x A ) = 0 M 0. −rn sinθ n. 0. L. rn cos θ n. 0 rn cos θ n. L. 0. rn sinθ n. P(Tn | Tn−1 )P(α n , β n,1:R | α n−1 , β n−1,1:R ). 3.2 逐 次 モ ン テ カ ル ロ. €. x u n y v n M + M −rn sinθ n x AN u n rn cos θ n y AN v n 0 M 0. 1 A 1 A. 以 下 , 表 記 の 簡 略 化 の た め , Tnを 決 定 す る 4 つ の パ ラ メ ー タ ー の 組 (r n , θ n ,u n ,v n )の こ と を T n に よ っ て 代 表 し て あ ら わ す こ と に す る . Tn の 各 パ ラメーターは,入力画像上の顔の中心位置と大 きさ,画像平面内の回転を決定する.入力画像 が逐次的に与えられ,データが与えられる度に パラメーターの推定も逐次的に遂行するのがこ の論文の目的である.そのためにはパラメータ ー 空 間 を 逐 次 的 に 探 索 す る 事 は 自 然 な 方 策 で あ€ ろう.この研究では顔全体の動きが極端に激し く な い 場 合 を 想 定 し , T n の 逐 次 更 新 則 P(T n |T n-1 ) として次のような確率的ダイナミカルシステム を考える. rn = rn−1 + ν r , ν r ~ N(0, δ r ). θ n = θ n−1 + ν θ , un = u n−1 + ν u , v n = v n−1 + ν v ,. ν θ ~ N(0, δθ ) ν u ~ N(0, δ u ) ν v ~ N(0, δv ). (9). 同様に,尤度関数および事前確率の分布の鋭 € さを決定するハイパーパラメーターについて, €. (13). d(x n−1 , α n−1 , β n−1,1:R ,Tn−1 ). (8) €. n -1 ,1 :R ). 式 (11)の 計 算 は 多 次 元 連 続 空 間 に 関 す る 積 分 であり,ここで考えている問題を含め,解析的 に計算を実行することは不可能である事が多い. 本稿ではこの積分を逐次モンテカルロ法 [9][10][11]( Sequential Monte Carlo, SMC 法 ) に よる近似計算で実現する. まず,時刻 n における各パラメーターの予測 分布を独立同一なサンプルで表現するため,次 の よ う な 提 案 分 布 ( proposal distribution ) を 考 える. π (x n , α n , β n ,Tn ). = P(x n | α n ,Tn ,Hj )P(Tn | Tn−1 , ΣT ) P(α n | α n−1 , σ α )P(β n | β n−1 , σ β ). (14). 提 案 分 布 π (x n , α n , β n ,1 :R ,T n )に 従 う N j 個 の サ ン プ ル が 抽 出 さ れ た と き , 式 (13)の 積 分 は 次 式 で 近 似的に計算可能である.. P(y n | y1:n−1 ,H j ) =. ∫ P(y. n. | x n , β n,1:R ,Tn ,Hj )P(x n , α n , β n,1:R ,Tn | y1:n−1 ,Hj ) d(x n , α n , β n,1:R ,Tn ). Nj. ≅. ∑ w˜ i=1. (i) n H j. (i) δ ((x n , α n , β n,1:R ,Tn ) = (xn(i) , α n(i) , β n,1:R ,Tn(i) )). (15) (i ) こ こ で , w˜ n |H は 提 案 分 布 と 事 後 確 率 分 布 と の j. −121− 3 €.
(4) 誤 差 の 補 正 項 ( normalized importance weight ) で あ り , 式 (14)の 提 案 分 布 を 用 い る 場 合 , 次 式 で計算される.. w n(i). Hj. =. (i) P(x n(i) , α n(i) , β1:R,n ,Tn(i) | y1:n ,Hj ) (i) π (x n(i) , α n(i) , β1:R,n ,Tn(i) ). (i) = P(y n | x n(i) , α n(i) , β1:R,n ,Tn(i) , y1:n−1 ,Hj ). €. w˜. (i) n H j. w n(i) =. (17). Nj. ∑w q=1. €. Hj. (16). (q) n H j. ま た δ (x)は ク ロ ネ ッ カ ー の デ ル タ を あ ら わ す . このとき,時刻 n における j 番目の顔テンプ レ ー ト Hj の 事 後 確 率 の 逐 次 モ ン テ カ ル ロ 近 似 は次式で与えられる.. P(y n | y1:n−1 ,H j )P(Hj | y1:n−1 ). P(Hj | y1:n ) =. 4.2 実 験 結 果. Npersons. ∑ P(yn | y1:n−1 ,Hk )P(Hk | y1:n−1 ) k=1 Nj. P(H j | y1:n−1 )∑ w˜ n(i) ≅. i=1. Hj. (18). Nj. Npersons. ∑. P(Hk | y1:n−1 )∑ w˜ n(i). k=1. €. 提 案 手 法 に お け る 共 分 散 行 列 Λj の 推 定 , お よ び,従来手法においてパラメータの確率分布 P(x n , α n , β n ,1 :R |H j )の 推 定 に 用 い る 学 習 デ ー タ は , 6つの基本表情(驚き,喜び,悲しみ,怒り, 恐 怖 , 嫌 悪 ) [14]に つ い て 撮 影 し た 各 々 3 パ タ ー ン , 計 18 枚 / 人 の 顔 画 像 を 用 意 し た . な お , 顔 の 位 置 情 報 の 初 期 値 T 0 =(r 0 , θ 0 ,u 0 ,v 0 ) は,個々の評価データについてあらかじめ手動 で抽出した結果を用いた.また,提案手法にお いて,各種パラメーターの予測モデルの分散と ハ イ パ ー パ ラ メ ー タ ー の 初 期 値 は , σ u = σ v =1.0, σ r =0.1, σ θ =0.0001, σ α = σ β =0.01, α 0 =10.0, β 0 =1.0, とした.提案手法および従来手法において,モ ンテカルロ近似の精度を決定するサンプルの総 数は,それぞれ一つの顔テンプレートあたり N j =3600 個 に 統 一 し た .. i=1. Hj. な お , 第 1 番 目 の 入 力 画 像 y1 が 与 え ら れ る 前 の , 各 々 の モ デ ル の 事 前 確 率 P(H j |y 0 )は , 特 別な理由がない限り等確率とする.. P(Hj | y0 ) =. 1 N persons. (19). こ こ で , N p e rs o n s は シ ス テ ム に 登 録 さ れ た 人 数 をあらわす.. €. 4. 認 識 実 験 4.1 実 験 条 件 提 案 手 法 ( 以 下 , Bayesian SMC と 呼 ぶ ) の 有効性を検証するため,ハミルトニアンモンテ カルロ法によりパラメーターの確率分布を一括 学 習 す る 手 法 [13] ( 以 下 , Bayesian HMC と 呼 ぶ)を比較対象とした認識実験を行った. 実験に用いるデータは,評価データ,登録デ ータ,学習データの3種類を用意した. シ ス テ ム に 逐 次 的 に 与 え る 入 力 デ ー タ y1 : n と し て 用 い る 評 価 デ ー タ は , 10 人 ( 男 性 7 人 , 女性3人)の被験者それぞれについての発話時 の顔の連続画像を用意した.各々の連続静止画 像 は ,ス タ ジ オ 照 明・単 色 背 景( ブ ル ー バ ッ ク ) の 条 件 で 撮 影 し た 正 面 を 向 い た 顔 画 像 の NTSC 動 画 像 か ら , タ テ 240 画 素 ヨ コ 360 画 素 の サ イ ズ で 30 フ レ ー ム ( 1 秒 間 ) を 取 得 し た . 各 人 物 の 顔 テ ン プ レ ー ト H j =(x A , c A , j)の 作 成 に用いる登録データは,評価データと同じ条件 で撮影した無表情・正面の顔画像1枚/人を用 意した.. 一 括 学 習 型 の 従 来 手 法 ( Bayesian HMC) と , 逐 次 学 習 型 の 提 案 手 法 ( Bayesian SMC) そ れ ぞ れの評価データに対する顔認識誤り率を表1に 示す.また,パラメーター分布の推定(学習) と認識の一連の処理に要した処理時間もあわせ て表1に示す.なお,各々の顔認識誤り率は, 各時刻においてシステムが認識結果として出力 し た 人 物 ID が , 評 価 デ ー タ に 登 場 し て い る 真 の 人 物 ID と 一 致 し た 回 数 の , 評 価 デ ー タ 全 体 の フ レ ー ム 数( =300)に 対 す る 割 合 で 評 価 し た . ま た , 処 理 時 間 は , CPU: Xeon 2.8 GHz の 計 算 機を用いて,学習と認識の両方の処理にかかっ た 時 間 の 合 計 で あ る .表 1 の 実 験 結 果 よ り . 従 来 の Bayesian HMC で 11.0%の 顔 認 識 誤 り が 発 生 し た の に 対 し て , 本 稿 で 提 案 し た Bayesian HMC で は 顔 認 識 誤 り は 2.3% で あ り , 直 前 の 入 力画像を用いた逐次学習を行うことで,顔の短 時間的な形状変化に対する頑健性が改善してい ることがわかる.一方,処理時間については, Bayesian HMC で 合 計 1155 秒 だ っ た の に 対 し て , Bayesian SMC で は 2329 秒 で あ り , 約 2 倍 の 処 理時間を必要とした. 図 3 に , 計 3600 10 人 = 36000 個 の サ ン プ ル の う ち ,normalized importance weight の 上 位 100 個のサンプルの特徴点配置の分布を対応する入 力画像に重ねて示す.図3より,顔テンプレー ト の 事 後 確 率 P(H j |y 1 : n )の 計 算 へ の 寄 与 が 大 き い , 大 き な importance weight の 値 を 持 つ 特 徴 点 配 置 のサンプルが,顔の各器官,とくに口の両端の 位置変化に追従している様子がうかがえる.. 4 −122−. 表1: 顔認識実験の結果(顔認識誤り率) Table 1: Face recognition results (ID error rate) Model. Bayesian HMC. Bayesian SMC. ID Error Ra te. 11.0 % 1155 sec.. 2.3 % 2329 sec.. Proc. time.
(5) 5. ま と め. n=0. 登録した人物ごとのモデルの事後確率を Bayes 推 定 に も と づ く 逐 次 モ ン テ カ ル ロ 法 を 用 いて計算する顔画像認識法を提案した.パラメ ーターの一部を確率変数と捉え,その確率分布 を学習データから推定する具体的なアルゴリズ ムを示した.発話時の連続顔画像を用いた比較 実験の結果,パラメータ分布の一括学習を行な う従来手法に比べ,逐次学習を行う提案法は, 顔 認 識 誤 り が 約 1/5 に 削 減 さ れ , 顔 変 形 に 対 す る頑健性が示された. 今後は,様々な表情変化に対する本手法の有 効性を検証していくとともに,頭部や人物全体 の動きを想定したパラメーターの運動モデルの 導入,ならびに,本実験では手動で与えた顔の 位置情報の自動検出法についても検討していき たい.. 文. n=4. n=8 図3:各時刻 n におけるサンプルの特徴点配置 ( normalized importance weight 上 位 100 組 ) Fig. 3: Examples of node locations of SMC samples at 4-frame intervals. (top 100 samples in order of importance weights). 献. [1] S. Clippingdale, and T. Ito, “A Unified Approach to Video Face Detection, Tracking and Recognition,” Proc. ICIP’99 (1999). [2] S. Clippingdale, and T. Ito, “Partial automation of database acquisition in the FAVRET face tracking and recognition system using a bootstrap approach,” Proc. MVA2000 (2000). [3] L. Wiskott, J. M. Fellous, N. Krüger and von der C. Malsburg, “Face Recognition by Elastic Bunch Graph Matching,” TR96-08, Institut für Neuroinformatik, RuhrUniversität Bochum (1996). [4] K. Okada, J. Steffens, T. Maurer, H. Hong, E. Elagin, H. Neven and von der C. Malsburg, “The Bochum/USC Face Recognition System And How it Fared in the FERET Phase III Test,” Face Recognition: From Theory to Applications, Springer (1998). [5] D.J.C. Mackay, “Information Theory, Inference, and Learning Algorithms,” Cambridge University Press (2003). [6] R.M. Neal, “Bayesian Learning for Neural Networks,” Lecture Notes in Statistics, Springer, pp.55-98 (1996). [7] I.S. Dhillon and S. Sra, “Modeling Data using Directional Distributions,” TR-03-06, University of Texas at Austin (2003). [8] 松 井 淳 , S. Clippingdale 「 表 情 変 化 の 事 前 情報を利用した可変テンプレートマッチ ングによる顔画像認識」, 信学技報, PRMU2003-161, pp.61-65 (2003). [9] A. Doucet , N.D. Freitas, and N. Gordon, “Sequential Monte Carlo Methods in Practice,” Springer, (2001). [10] J.S. Liu, “Monte Carlo Strategies in Scientific Computing,” Springer, pp.53-77 (2001). [11] Y. Nakada, T. Matsumoto, T. Kurihara and K.. −123− 5.
(6) Yosui, “Bayesian Reconstructions and Predictions of Nonlinear Dynamical Systems via the Hybrid Monte Carlo Scheme,” Signal Processing, Elsevier, Vol.85, pp.129-145 (2005). [12] 鵜 澤 史 貴 , 松 本 隆 , 松 井 淳 , S. Clippingdale 「 Bayes 的 Markov Chain Monte Carlo 顔 画 像 認 識 」 , 通 学 技 報 , ITS2003-91, pp.19-24 (2003). [13] 松 井 淳 , S. Clippingdale, 鵜 澤 史 貴 , 松 本 隆 「ハミルトニアンモンテカルロ法による Bayes 的 顔 画 像 認 識 」 , 映 情 学 誌 , Vol.59, No.8, pp.1183-1190 (2005). [14] P. Ekman, and W. V. Friesen, “Unmasking the Face,” Prentice-Hall (1975).. 6 −124− 」.
(7)
図
関連したドキュメント
In the third step, for obtaining high-order approximate solutions, we proceed with a regularization approach using the asymptotic performance of the unknown solutions that allows us
Proof of Theorem 2: The Push-and-Pull algorithm consists of the Initialization phase to generate an initial tableau that contains some basic variables, followed by the Push and
Proof of Theorem 2: The Push-and-Pull algorithm consists of the Initialization phase to generate an initial tableau that contains some basic variables, followed by the Push and
The Mathematical Society of Japan (MSJ) inaugurated the Takagi Lectures as prestigious research survey lectures.. The Takagi Lectures are the first se- ries of the MSJ official
The Mathematical Society of Japan (MSJ) inaugurated the Takagi Lectures as prestigious research survey lectures.. The Takagi Lectures are the first series of the MSJ official
I give a proof of the theorem over any separably closed field F using ℓ-adic perverse sheaves.. My proof is different from the one of Mirkovi´c
In the second computation, we use a fine equidistant grid within the isotropic borehole region and an optimal grid coarsening in the x direction in the outer, anisotropic,
Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary: